Centre de Recherches sur les Langues d'Asie Orientale

Présentation

RECOJP est un projet d'analyseur pour le japonais contemporain écrit. Il regroupe un projet de lexique-grammaire du japonais (LEXGRAMJP) et un parseur (RECO) pour l'analyse. Son élaboration a débuté depuis peu mais il est déjà opérationnel pour certaines tâches (voir notamment la traduction de titres de presse; utilisation pour mettre au propre des analyses en cours).

Objectifs

Produire différentes analyses linguistique d'énoncés ou de textes en japonais : segmentation ; analyse syntagmatique ; analyse phonologique , analyse sémantique, transcription du texte japonais dans une interlingua exploitable pour la traduction en français etc.

Ces analyses sont ensuite exploitables pour, par exemple :

  • Analyse de corpus
  • Traduction
  • Synthèse vocale
  • Validation d'analyses linguistiques

    En morpho-syntaxe et phonologie, dans une moindre mesure en sémantique, de nombreuses analyses linguistiques se prêtent bien à une formalisation et même à une implémentation. Une fois implémentée, une analyse peut être éprouvée automatiquement à grande échelle, sur corpus.

    Le dispositif d'analyse RECOJP peut être utilisé pour cela. Il "suffit" de formaliser une analyse (par exemple les règles de comportement de tel suffixe), d'intégrer cette analyse formalisée à une grammaire à large couverture (ex: LEXGRAMJP) et à lancer le dispositif sur du corpus. Le dispositif traitera le corpus en appliquant les analyses aux énoncés contenant les structures étudiées (ex: le suffixe étudié). Selon que le résultat (un arbre de dérivation, une représentation sémantique, une représentation phonologique, etc.) sera conforme ou non aux attentes du chercheur, l'analyse linguistique sera ou non validée.

    La "formalisation" consiste à transcrire dans un langage "formel" les règles d'analyse. Les langages formels sont plus ou moins abscons mais on s'efforce dans RECOJP d'utiliser un langage assez simple à acquérir. Une formation d'une ou deux heures doit suffire pour comprendre le principe. Pour l'application, c'est avant tout une question de motivation (?).

    Cet objectif scientifique justifie que l'on ait privilégié le recours à des grammaires à base de règles, car le linguiste n'a pas grand chose à faire avec des "boites noires" statistiques. C'est ce qui justifie aussi que le dispositif soit optimisé non pas pour sa vitesse de traitement mais pour permettre une formulation des analyses aussi intuitives que possibles. On pense qu'il suffit d'une ou deux heures d'apprentissage pour maîtriser le langage utilisé par le dispositif.

Conception

La caractéristique du dispositif est d'associer analyse syntaxique et sémantique, avec interaction avec des bases de connaissances (bases de connaissances énonciatives et base de connaissances encyclopédiques; voir discussions dans Blin 2009). L'analyse peut faire interagir les données syntaxiques et sémantiques. On part en effet de l'idée que la structure syntaxique est très ambiguë (un énoncé peut se dériver de différentes manières) et que la désambiguïsation repose pour une bonne part sur des critères logico-sémantiques : contraintes sémantiques des verbes sur leurs arguments et compléments, cohérence logique de l'énoncé, cohérence de l'énoncé par rapport au contexte etc.. Au cours d'une analyse, l'analyse strictement syntagmatique produira un nombre considérable de dérivations acceptables mais ce nombre sera sensiblement réduit grâce au respect des contraintes sémantiques. Il est donc impératif pour l'analyseur de pouvoir accéder aux données sémantiques et de pouvoir les exploiter. En comparaison, l'approche statistique réduit l'ambiguïté par application de probabilités.

Etat des lieux

Il existe déjà des dispositifs qui tournent pour le japonais. Ils fournissent en général une segmentation et une analyse des dépendances mais pas de représentation sémantique. Voici quelques outils connus, il en existe d'autres (Une description en français de plusieurs dispositifs est fournie par Nakamura (2003)) :

  • L'analyseur morphologique (moteur) Mecab est statistique. Plusieurs dictionnaires ont des versions qui lui sont dédiées (naist-dic, unidic). Il est développé pour le japonais mais fonctionne aussi pour d'autres langues (chinois).
  • Auparavant était développé le moteur CHASEN, analyseur morphologique statistique. Le développement est arrêté et le labo où il a été développé recommande désormais MECAB. Une version du NAIST-DIC lui était destinée.
  • Analyseur grammatical KNP.
  • ...

Il existerait des analyseurs à base de règles (en HPSG) à Toudai ou Särbruck mais si ils existent ils restent inaccessibles. Le projet JPSG (Gunji 1987), qui se voulait une version "japonaise" de HPSG n'a abouti à aucun analyseur opérationnel.

Il existe par ailleurs des moteurs de traitement morpho-syntaxique "universels" qui peuvent être utilisés pour le japonais, mais qui de fait ne le sont pas (encore).

  • NOOJ (analyseur à base de règles; description par automates; l'analyse sémantique se limite aux dépendances) ; il n'existe à ce jour aucun lexique-grammaire pour le japonais.
  • UNITEX (analyseur à base de règles; description par automates) ; il n'existe à ce jour aucun lexique-grammaire pour le japonais.
  • ...

Bibliographie et références

Blin R., 2009, Introduction à la linguistique formelle, Hermès

Gunji Takao, 1987, Japanese Phrase Structure Grammar, Reidel.

Nakamura Yayoi, 2003, Analyse Syntaxique du Japonais, Mémoire de DEA à l’INALCO, 180p.

Max Silberztein, 2007, Nooj's Linguistic Annotation Engine, in Svetla Koeva, Denis Maurel, Max Silberztein (Eds), "Formaliser les langues avec l'ordinateur : de INTEX à NooJ", Cahiers de la MSH Ledoux, Presses Universitaires de Franche-Comté.


Dernière mise à jour de cette page: 2012.10.30, R.BLIN

Contact: crlao@ehess.fr