Centre de Recherches sur les Langues d'Asie Orientale

Traduction Automatique du JAponais vers le FRançais

Objectif

Développer un dispositif (outils + ressources + modèle) de traduction du japonais vers le français pour permettre aux francophones non japonisants d'accéder aux données textuelles japonaises de "première main". En particulier la presse, les documents techniques etc. On n'aborde pas la traduction "littéraire".

Ce dispositif doit être libre.

Contexte

La traduction dite "neuronale" s'est imposée partout à partir de 2015. Les systèmes de traductions les plus performants sont aujourd'hui aux mains d'acteurs commerciaux qui disposent des corpus d'entrainement et de la puissance de calcul nécessaires. Alors que ces acteurs disposent de corpus dont la taille se mesure en dizaines de millions, voir atteint le milliard de bi-exemples, le nombre de bi-exemples librement accessibles aujourd'hui (2021) pour élaborer un modèle de traduction japonais>français se situe probablement autour de 2,5 millions (voir les kit-v2 et -v3).

La question est de savoir si il est possible avec un corpus de cette taille de développer des dispositifs de taille modeste mais performants. Parmi les nombreuses pistes, j'explore l'approche hybride. Les corpus et textes à traduire sont prétraités linguistiquement à l'aide de règles. Ce traitement vise à rapprocher autant que possible le texte source du texte cible. La traduction elle-même est confiée aux réseaux de neurones.

Réalisations

Le kittajafr-v3 sert à expérimenter différentes manipulations de corpus. Il évoluera dans le temps. Le kittajafr-v2 sert de baseline. Il partage avec v3 le même corpus source.

  • Plusieurs textes dans lesquels je fais l'état des lieux pour le japonais français (voir bibliographie).
  • Mise à disposition d'un premier "kit" de traduction (ressources, outils, guide) et modèle de traduction, avec très peu de données: 70K segments (dont des phrases) alignées.
  • Mise à disposition d'un second "kit" pour entraîner un modèle Transformer avec un corpus de 2,5M de bi-exemples. Ce kit n'utilise que des outils génériques de traitement des corpus.
  • Mise à disposition d'un troisème "kit" pour entraîner un modèle Transformer avec un corpus de 2,5M de bi-exemples. Ce kit utilise des outils et des systèmes de règles ad hoc pour manipuler les corpus.

En préparation

  • Un site de traduction en ligne de titres de presse.

Détail des kits mis à disposition

Attention: les modèles et les kits sont des gros fichiers.

Taille corpus
nb. exemples alignés
Kit    
v3-2 2,5M kittajafr-v3-2.0.3 guide modèle Transformer
v2-2 2,5M kittajafr-v2-2.0.0 guide modèle Transformer
v2-1 2,3M kittajafr-v2-1.0.0 guide modèle Transformer
v1 70K v1 (version complète)    
v1 70K v1 (version légère) guide  

2021/04/10
blin@ehess.fr