Centre de Recherches sur les Langues d'Asie Orientale

Traduction Automatique du JAponais vers le FRançais

Objectif

Développer un dispositif (outils + ressources) de traduction du japonais vers le français pour permettre aux francophones non japonisants d'accéder aux données textuelles japonaises de "première main". En particulier la presse, les documents techniques etc. On n'aborde pas la traduction "littéraire", cela n'aurait aucun sens.

Ce dispositif doit être libre.

Contexte

Il n'existe pas de dispositif (outils+ressources) libre, de traduction du japonais vers le français. Par contre, de nombreux composants sont librement disponibles.

Les recherches actuelles sont orientées vers la traduction par apprentissage (statistique ou neuronal) mais nécessitent des corpus d'apprentissage indisponibles pour le japonais-français. Ces techniques sont extrêmement coûteuses en ressources et puissance de calcul. Elles ne peuvent être pleinement exploitées que par un très petit nombre d'acteurs du domaine. Par ailleurs, ces technologies semblent buter contre un plafond de verre: la qualité de la traduction n'est pas proportionnelle à la quantité de corpus d'apprentissage (voir ici).

Pour développer un dispositif accessible, il faut donc explorer d'autres solutions, certainement hybrides, qui profiteraient de la qualité de la traduction neuronale tout en réduisant les besoins en ressources et puissance de calcul. On pense en particulier à des systèmes de règles.

Travail en cours

Travail sur un prétraitement des titres de presse, à l'aide de règles linguistiques. On observe une amélioration sensible (même si le résultat n'atteint pas, loin s'en faut, le niveau veille).

Expérimentations pour le pré/post-traitement des corpus.

Réalisations

Etat des lieux. La qualité des traductions était très basse avant la "révolution neuronale" (Blin 2014) et la seule perspective d'amélioration semblait être la traduction par règle. Mais la traduction neuronale a bouleversé la donne et ouvre de nouvelles perspectives (Blin 2018-a). Cependant, la traduction neuronale nécessite des quantités de corpus toujours plus grandes indisponibles pour le japonais-français, paire de langue peu dotée (Blin 2018-b). Et quand bien même en disposerait-on, n'y a-t-il pas un nouveau plafond de verre (Blin 2018-a)? Conclusion: la solution serait-elle un dispositif hybride, par défaut neuronal mais utilisant un prétraitement à base de règles ?

Voir aussi quelques réalisations.

2018/06/04
blin@ehess.fr