Traduction Automatique du JAponais vers le FRançais

Objectif

Développer un dispositif (outils + ressources + modèle) de traduction du japonais vers le français pour permettre aux francophones non japonisants d'accéder aux données textuelles japonaises de "première main". En particulier la presse, les documents techniques etc. On n'aborde pas la traduction "littéraire".

Ce dispositif doit être libre.

Contexte

La traduction dite "neuronale" s'est imposée partout à partir de 2015. Les systèmes de traductions les plus performants sont aujourd'hui aux mains d'acteurs commerciaux qui disposent des corpus d'entrainement et de la puissance de calcul nécessaires. Alors que ces acteurs disposent de corpus dont la taille se mesure en dizaines de millions, voir atteint le milliard de bi-exemples, le nombre de bi-exemples librement accessibles aujourd'hui (2023) pour élaborer un modèle de traduction japonais>français se situe 'sur le papier' probablement autour de 14 millions, avec une qualité assez basse (voir discussions dans le manuel du corpus CJaFr).

La question est de savoir si il est possible avec un corpus de cette taille de développer des dispositifs de taille modeste mais performants. Parmi les nombreuses pistes, j'explore l'approche hybride. Les corpus et textes à traduire sont prétraités linguistiquement à l'aide de règles. Ce traitement vise à rapprocher autant que possible le texte source du texte cible. La traduction elle-même est confiée aux réseaux de neurones.

Réalisations

Le kittajafr-v5 a servi à optimiser les hyperparamètres et la segmentation BPE, pour une taille 'humaine' de corpus. Le kittajafr-v3 sert à expérimenter différentes manipulations de corpus. Il évoluera dans le temps. Le kittajafr-v2 sert de baseline. Il partage avec v3 le même corpus source.

Plusieurs textes dans lesquels je fais l'état des lieux pour le japonais français (voir bibliographie).
Mise à disposition d'un premier "kit" de traduction (ressources, outils, guide) et modèle de traduction, avec très peu de données: 70K segments (dont des phrases) alignées.
Mise à disposition d'un second "kit" pour entraîner un modèle Transformer avec un corpus de 2,5M de bi-exemples. Ce kit n'utilise que des outils génériques de traitement des corpus.
Mise à disposition d'un troisème "kit" pour entraîner un modèle Transformer avec un corpus de 2,5M de bi-exemples. Ce kit utilise des outils et des systèmes de règles ad hoc pour manipuler les corpus.
Mise à disposition d'un quatrième et cinquième "kit" pour entraîner un modèle Transformer avec un corpus 'à taille humaine' d'après l'hypothèse de Blin 2020. Réorientation du projet vers une comparaison "homme-machine", mis en compétition sur la même quantité de ressources (voir discussion dans le manuel de la v5).

	Taille corpus nb. exemples alignés	Kit
kittajafr-v9.0.0-C.1	6M	kittajafr-v9.0.0-C.1		modèle Transformer
kittajafr-v5.0.0-C.0tri-20K-640-7-lr2.0	6M	kittajafr-v5.0.0-C.0tri-20K-640-7-lr2.0		modèle Transformer
v4.3.0-B.0	6M	kittajafr-v4.3.0-B.0		modèle Transformer
v4.0.4	6M	kittajafr-v4.0.4-C.1	guide	modèle Transformer
v3-2	2,5M	kittajafr-v3-2.0.3	guide	modèle Transformer
v2-2	2,5M	kittajafr-v2-2.0.0	guide (2.0.1)	modèle Transformer
v2-1	2,3M	kittajafr-v2-1.0.0	guide	modèle Transformer
v1	70K	v1 (version complète)
v1	70K	v1 (version légère)	guide

CJaFr: Corpus aligné japonais-français, libre

Pour limiter le nombre de téléchargement, seule la dernière version est mise en ligne. Pour accéder aux versions antérieures, contacter rblin@ehess.fr

Version	date	#bisegments
v9.0.0	7M-13M	Nettoyage drastique de ext; ajout corpus synthétique traduit automatiquement à partir du français.
v5.0.0	7M-13M	Ajout jawiki pour expérimentations de segmentation BPE
v4.3.0	7M-13M	Refiltrage par contrôle de la qualité des traductions
v4.0.4	14M	CJaFr recentré sur filtrage et normalisation encodage
v4.0.3	14M	Ajout des tests du Japanese Language Proficiency Test 日本語能力試験
v3.0.1		segments alignés
CJaFr-v3		corpus ja-fr, segments alignés. (Ce corpus contient de nombreuses erreurs, utiliser v3.0.1; pour accéder à cette version, contacter Blin )
CJaFr-v1	2,4M	segments alignés. Est en grande partie commun avec les corpus utilisés dans le kittajafr.

En préparation

Un site de traduction en ligne de titres de presse.

2021/04/10
blin@ehess.fr