Centre de Recherches sur les Langues d'Asie Orientale

Présentation

TAJAFR est un projet de construction de Traducteur Automatique de textes, du JAponais vers le FRançais.

La particularité par rapport aux dispositifs existant est (1) qu'il ne passe pas par une langue naturelle intermédiaire (de facto c'est toujours l'anglais) et (2) qu'il est basé sur un analyseur à base de règles pour le japonais alors que l'écrasante majorité des outils actuellement disponibles sont statistiques (mecab etc. ).

Objectifs

  • Pratique : grâce à la traduction automatique, donner accès à n'importe quel texte en japonais à un lectorat francophone non japonisant.
  • Scientifique : servir d'outil pour évaluer les théories linguistiques sur le japonais (voir présentation du sous-projet RECOJP).
  • TAL : proposer un traducteur automatique à base de règles, qui couvre largement la langue, et dont les résultats pourraient être confrontés avec ceux des dispositifs strictement statistiques, qui représentent la quasi-totalité des dispositifs actuellement opérationnels.

Structuration du projet

Le projet contient plusieurs modules (voir schémas ci-dessous) plus ou moins autonomes :

  • Dispositif d'analyse du japonais écrit contemporain: RECO-JP
    • Projet RECO : parseur
      • Parseur RECO (indépendant de la langue); conçu pour appliquer une grammaire de contraintes avec représentations syntaxiques et sémantiques (de type Montagovien); interragit avec des bases de connaissances encyclopédiques et une base des bases de connaissances (voir Blin 2009)
      • Base de connaissances énonciatives : réunit les informations sur le locuteur, l'interlocuteur, le temps d'énonciation etc.
      • Base de connaissances encyclopédiques : réunit le minimum des connaissances extra-linguistiques qui semblent nécessaires à l'interprétation
    • Projet LexGramJP : Lexique grammaire du japonais écrit contemporain
      • Lexique-grammaire du japonais écrit contemporain
        • représentation syntaxique par structures de traits
        • représentations sémantiques par lambda termes
        • traduction françaises et règles de traductions (la génération est toutefois laissée à un module externe)
        • représentation phonologique
      • Moteur pour mise à jour et enrichissement automatique du lexique grammaire
  • Générateur de français (ce module est actuellement géré en interne par l'équipe mais idéalement, devrait être confié à une collaboration extérieure; différentes pistes sont explorées mais pour l'instant pas de décisions).
  • Projet EVAL; dispositif d'évaluation (ce module est un projet; l'idéal est de pouvoir comparer TAJAFR avec d'autres dispositifs (par exemple Google Translate), ou de comparer deux versions de TAJaFr avec des modules différents).
    • EVAL_TAJAFR; dispositif d'évaluation propre à TAJAFR.


Voici le shémas de l'ensemble, auquel on ajoute les applications déjà disponibles :

Participants et collaborations

Participants actuels : R.BLIN (CRLAO).

Ce projet est ouvert à toute personne intéressée par collaborer et pouvant intervenir sur un quelconque des modules. Les compétences peuvent être diverses :

  • linguistique japonaise pour l'analyse syntaxique, sémantique, ou encore phonologique ...
  • TAL : conception et optimisation du parseur, de l'architecture du lexique, enrichissement automatique du lexique, évaluation ...
  • traduction : traduction des entrées lexicales, des locutions, ou encore énoncer des règles de traductions pour des structures complètes etc.

Ce projet peut être utilisé comme cadre de travaux d'étudiants par exemple.

Contacter blin at ehess . fr .

Historique du projet et avancement

Depuis sa création, le lexique-grammaire évolue en permanence. Les changements ne sont pas signalés ici, sauf en cas de changement notoire.

A développer

En plus ou à l'intérieur du travail "lourd" de fond à faire sur les différents modules, plusieurs sous-tâches bien définies ont été identifiées. Nous accueillons volontiers tout collaborateur intéressé par y contribuer. Voici la liste des tâches. Il en reste bien d'autres.

  • Lexique :
    • Améliorer la récolte d'informations sur Wikipédia en repérant les régularités de la présentation des lectures et éventuellement la présence d'explications.
    • Ajouter le dico JDMWE_idiom_v1.3 de locutions au lexique.
    • Etudes de cas
      • lister et analyser toutes les constructions possibles en 日露 首脳 関係 etc
  • Applications :
    • Twitter les traductions des titres de presse.
  • Divers :
    • Constituer un corpus parallèle de titres de presse pour faire de l'évaluation ; ce corpus pourrait en plus contenir une version avec titre analysé complet.

Dernière mise à jour de cette page: 2013.06.01, R.BLIN

Contact: crlao@ehess.fr