Traduction Automatique du JAponais vers le FRançais
Objectif
Développer un dispositif (outils + ressources + modèle) de traduction du japonais vers le français pour permettre aux francophones non japonisants d'accéder aux données textuelles japonaises de "première main". En particulier la presse, les documents techniques etc. On n'aborde pas la traduction "littéraire".
Ce dispositif doit être libre.
Contexte
La traduction dite "neuronale" s'est imposée partout à partir de 2015.
Les systèmes de traductions les plus performants sont aujourd'hui aux mains d'acteurs commerciaux qui disposent des corpus d'entrainement et de la puissance de calcul nécessaires. Alors que ces acteurs disposent de corpus dont la taille se mesure en dizaines de millions, voir atteint le milliard de bi-exemples, le nombre de bi-exemples librement accessibles aujourd'hui (2023) pour élaborer un modèle de traduction japonais>français se situe 'sur le papier' probablement autour de 14 millions, avec une qualité assez basse (voir discussions dans le manuel du corpus CJaFr).
La question est de savoir si il est possible avec un corpus de cette taille de développer des dispositifs de taille modeste mais performants.
Parmi les nombreuses pistes, j'explore l'approche hybride. Les corpus et textes à traduire sont prétraités linguistiquement à l'aide de règles. Ce traitement vise à rapprocher autant que possible le texte source du texte cible. La traduction elle-même est confiée aux réseaux de neurones.
Réalisations
Le kittajafr-v5 a servi à optimiser les hyperparamètres et la segmentation BPE, pour une taille 'humaine' de corpus. Le kittajafr-v3 sert à expérimenter différentes manipulations de corpus. Il évoluera dans le temps. Le kittajafr-v2 sert de baseline. Il partage avec v3 le même corpus source.
- Plusieurs textes dans lesquels je fais l'état des lieux pour le japonais français (voir bibliographie).
- Mise à disposition d'un premier "kit" de traduction (ressources, outils, guide) et modèle de traduction, avec très peu de données: 70K segments (dont des phrases) alignées.
- Mise à disposition d'un second "kit" pour entraîner un modèle Transformer avec un corpus de 2,5M de bi-exemples. Ce kit n'utilise que des outils génériques de traitement des corpus.
- Mise à disposition d'un troisème "kit" pour entraîner un modèle Transformer avec un corpus de 2,5M de bi-exemples. Ce kit utilise des outils et des systèmes de règles ad hoc pour manipuler les corpus.
- Mise à disposition d'un quatrième et cinquième "kit" pour entraîner un modèle Transformer avec un corpus 'à taille humaine' d'après l'hypothèse de Blin 2020. Réorientation du projet vers une comparaison "homme-machine", mis en compétition sur la même quantité de ressources (voir discussion dans le manuel de la v5).
CJaFr: Corpus aligné japonais-français, libre
Pour limiter le nombre de téléchargement, seule la dernière version est mise en ligne. Pour accéder aux versions antérieures, contacter rblin@ehess.fr
Version | date | #bisegments | |
v5.0.0
| 7M-13M |
Ajout jawiki pour expérimentations de segmentation BPE
|
v4.3.0
| 7M-13M |
Refiltrage par contrôle de la qualité des traductions
|
v4.0.4
| 14M |
CJaFr recentré sur filtrage et normalisation encodage
|
v4.0.3
| 14M |
Ajout des tests du Japanese Language Proficiency Test 日本語能力試験 |
v3.0.1 |
|
segments alignés |
CJaFr-v3 |
|
corpus ja-fr, segments alignés. (Ce corpus contient de nombreuses erreurs, utiliser v3.0.1; pour accéder à cette version, contacter Blin ) |
CJaFr-v1 |
2,4M |
segments alignés. Est en grande partie commun avec les corpus utilisés dans le kittajafr. |
En préparation
- Un site de traduction en ligne de titres de presse.
2021/04/10
blin@ehess.fr
|