Centre de Recherches sur les Langues d'Asie Orientale

Traduction Automatique du JAponais vers le FRançais

Objectif

Développer un dispositif (outils + ressources) de traduction du japonais vers le français pour permettre aux francophones non japonisants d'accéder aux données textuelles japonaises de "première main". En particulier la presse, les documents techniques etc. On n'aborde pas la traduction "littéraire".

Ce dispositif doit être libre.

Contexte

La traduction japonais-français automatique est à ce jour seulement assurée par des services commerciaux en ligne. Il n'existe pas de dispositif (outils+ressources) libre et aucune campagne d'évaluation internationale ne s'est intéressé à cette paire de langues.

La traduction dite "neuronale", qui s'est imposée partout à partir de 2015, offre le meilleur rapport qualité/quantité de données/facilité de mise en oeuvre. Il existe de nombreux outils "clef en main" pour entraîner un modèle de traduction et traduire. Le japonais-français reste néanmoins peu doté en corpus. Nous estimons qu'à ce jour (2021) il existe aux alentours de 2,5M d'exemples alignés de qualité bonne ou acceptable.

Ce chiffre est très loin des ceux utilisés dans les systèmes les plus performants. Aucune étude n'a indiqué à partir de quelle taille un corpus d'entraînement était suffisant pour obtenir un modèle de traduction performant. La tendance est aujourd'hui à privilégier la plus grande taille possible. A ce jeu du plus gros, les systèmes commerciaux sont très loin devant. Certains industriels évoquent le milliard d'exemples alignés. Il va sans dire que la puissance de calcul, la quantité de ressources (énergie) vont de paire avec la taille du corpus.

Une question se pose alors: y a-t-il des alternatives plus sobres et pour obtenir quelle qualité de traduction ?

Réalisations

  • Plusieurs textes dans lesquels je fais l'état des lieux pour le japonais français
  • Mise à disposition d'un premier "kit" de traduction (ressources, outils, guide) et modèle de traduction, avec très peu de données: 70K segments (dont des phrases) alignées.
    Télécharger la version "légère" ou la version complète.

En préparation

  • Un second kit avec 2,5M de phrases et autres segments alignés.
  • Un site de traduction en ligne de titres de presse.

2021/04/10
blin@ehess.fr