Recherches académiques en traitement automatique du langage, au Japon.

R.Blin, L.Romary

 

Voici un état des lieux sur le TAL au Japon, établi suite à la visite de plusieurs laboratoires académiques. La visite a eu lieu en novembre 2000, avec Laurent Romary [1] (LORIA-INRIA) et Raoul Blin [2] (CRLAO, CNRS-EHESS).

La lecture de ce rapport pourra être complétée par celle du rapport de J.-P.Vert [3] effectué en 1998. Il est cependant à noter que l’auteur ne donne aucune information sur ses propres compétences en japonais. L’appréciation des travaux sur le japonais repose donc a priori sur celle de ses interlocuteurs, dont les membres des laboratoires visités.

Il s’agit ici d’une version " lissée " du rapport de visite, exempte des impressions trop personnelles des rapporteurs. Elle est aussi expurgée des commentaires sur les productions de l’entreprise NEC (speech to speech translation, Bestiland), unique interlocuteur privé, faute d’informations sur les concurrents. Pour plus de renseignements, contacter L.Romary ou R.Blin.

 

Préliminaire : quelques caractéristiques du japonais du point de vue de son traitement

  1. La phonétique du japonais est relativement simple ; en particulier (si on la compare au chinois par exemple) il n’y a pas de tons.
  2. Pas de frontière explicite entre les mots – la segmentation est une composante essentielle des prétraitements linguistiques
  3. La structure de la phrase repose sur des composants délimités par des particules " casuelles " dont l’ordre peut varier (avec des conséquences sémantiques éventuelles)
  4. Beaucoup de ces composants peuvent être élidés (là où le français utiliserait des pronoms par exemple) – le traitement de l’anaphore, au sens large, est donc une composante essentielle d’une traduction correcte du japonais vers le français.
  5. Il n’y a pas systématiquement de marque explicite pour les quantificateurs, ce qui impose, pour passer à une langue européenne, d’interpréter la phrase japonaise (et non pas passer par des moyens syntaxiques d’une langue à une autre).

Pour plus de détails sur les aspects linguistiques, en relation avec le TAL (Blin, 2001[4]).

 

Ressources linguistiques disponibles (non exhaustif)

Lexiques

Deux corpus annotés syntaxiquement :

Analyseurs

 

Etat de l’art : impression générale

L’effort consiste essentiellement à mécaniser les phénomènes linguistiques bien connus ou offrant peu de résistance. Il n’y a aucune contribution sur les problèmes résistant aux linguistes (par exemple le traitement de la particule dite " thématique " ha). Les chercheurs sont plus sensibles à ce qui est visible : effort à traiter de longues phrases plutôt que de résoudre des difficultés concernant même des phrases très simples (ex : la différence entre

isu ha daidokoro ni aru

chaise TH cuisine dans setrouver

La chaise se trouve dans la cuisine / les chaises se trouvent dans la cuisine

et

daidokoro ni isu ga aru

cuisine dans chaise S setrouver

Dans la cuisine, il y a une chaise / des chaises

).

Les conséquences se font sentir dans les applications : par exemple incapacité à discriminer le défini de l’indéfini.

Tous les outils formels utilisés sont connus en occident. Dans le meilleur des cas, on " japonise " (par exemple Gunji [5], JPSG, version japonaise de HPSG). Le fait de travailler sur le japonais n’a manifestement pas suscité de recherche sur de nouveaux outils théoriques.

" Sociologiquement " parlant, le plus frappant est le manque de communication entre disciplines/départements académiques. L’idée même de collaboration n’est pas évoquée. C’est ainsi que, hormis le NAIST, aucun laboratoire visité ne collabore avec des linguistes, ou même montre un intérêt pour une telle collaboration.

Ajoutons à cela une fascination des chercheurs pour le modèle américain, aux conséquences doubles : les efforts de traduction automatiques repose uniquement sur la traduction anglais <-> japonais. L’impression est qu’au moins un bon tiers des efforts est consacré au traitement de l’anglais (indépendamment du japonais).

Laboratoires publics visités

TIT – Institut Technologique de Toukyou

Contacts :

Responsable : Takenobu Tokunaga take@cl.cs.titech.ac.jp

Kiyoaki Shirai, kshirai@cl.cs.titech.ac.jp

http://tokunaga-www.cs.titech.ac.jp/thlab-home-e.html

Constitution de l’équipe : un professeur, un assistant, des maîtrises

Collaborations : principalement nationales

Productions

Il a été proposé trois démos

  1. Un système de reconnaissances des ordres avec agents
  2. Contact : Yusuke Shinyamu (euske@cl.cs.titech.ac.jp)

    Linguistiquement très basique. La plupart des difficultés sont contournées par le type même des phrases traitées : phrases à l’impératif (plus de problème d’ellipse du sujet), vocabulaire très limité, structure phrastiques syntaxiquement simples.

    Mémorise les phrases ce qui permettrait de faire du traitement d’anaphore et d’autres traitements interphrastiques (comme la résolution de la particule mo " aussi "). Mais le seul exemple vu ne permet pas de dire si le traitement est ad hoc, ou s’il y a une réelle recherche linguistique derrière.

  3. Système de recherche d’information textuelle à base d’expansion de requêtes
  4. Contact : Rila Mandala

    Le système développé est le fruit d’un travail d’étudiant pour pouvoir s’intégrer dans la conférence d’évaluation TREC.

  5. Traitement statistique

Analyseur syntaxique ; ne reconnaît pas les doubles dépendances. La finalité du travail est inconnue.

Université de Toukyou

Contacts :

Responsable : Professeur Jun’iti Tujii, tsujii@is.s.u-tokyo.ac.jp

Kentaro Torisawa, torisawa@is.s.u-tokyo.ac.jp

http://www-tsujii.is.s.u-tokyo.ac.jp

Le programme de recherche de l’ensemble présente une grande cohérence. Les étudiants sont habitués à communiquer avec des étrangers. Le projet présenté lors de la visite touchait à sa fin (L’année scolaire et administrative fini en mars ; le projet avait démarré en 1995, financé par le ministère de l’éducation). Le nouveau projet suivant s’inscrivait dans la continuité de précédent. Aucun linguiste dans l’équipe.

  1. Machine abstraite permettant d’analyser efficacement des grammaire HPSG (Makino Takaki et Mituiti Yutaka.
  2. Conversion de grammaires TAG en HPSG, Yosinaga Naoki
  3. Traitement du japonais

Ce travail n’a de réel intérêt que par son positionnement comme un élément du projet du laboratoire. Autrement, il n’apporte rien : l’analyse morphologique est due JUMAN, l’analyse syntaxique en HPSG existait déjà (Nagao). Par ailleurs, bon nombre des problèmes intéressant linguistiquement sont passés sous silence (les doubles dépendances, la gestion des relations interphrastiques). L’analyseur n’élimine pas les phrases mal structurées. Tout devrait être réglé " ultérieurement ", selon des moyens " à voir ". L’analyse sémantique sera elle aussi faite ultérieurement. Ce versant sémantique était déjà au programme du projet en 1995 mais en avait finalement disparu. Y a-t-il une raison quelconque pour qu’il subisse un meilleur sort dans le prochain projet ?

Kyodai – Université de Kyoto

Contacts :

Responsable : Satosi Satou, sato@pine.kuee.kyoto-u.ac.jp

Yasuo Kurohasi, kuro@pine.kuee.kyoto-u.ac.jp

Equipe dont le dirigeant a été nouvellement nommé. Le projet, qui ne fait que démarrer, présente de la cohérence : des outils de base (analyseur morphologique, analyseur syntaxique) et ses applications.

Aucun linguiste dans l’équipe.

Collaborations

Kyodai travaille avec IBM à qui elle prête (selon des termes que l’on ne connaît pas) le parseur KNP. Travaille avec Microsoft.

  1. JUMAN : analyseur morphologique
  2. Est dû à l’ancienne équipe. Il est basé des règles. Ne reconnaît pas les mauvaises structures, et est capable de produire des analyses invraissemblables en présences de mots inexistantes dans son lexique. L’analyseur est en libre accès (pine.kuee.kyoto-u.ac.jp)

  3. KNP : analyseur syntaxiques
  4. Du à Kurohasi. JUMAN préprocesse morphologiquement la prhase, qui est ensuite traitée par KNP. Aucun rensignement, sinon qu’il est rule based, avec un minimum de désambiguisation statistique. En libre accès (pine.kuee.kyoto-u.ac.jp).

  5. Applications 1 : recherche d’informations sur le WEB
  6. Semble dû à Saitou. La démo fut peu concluante, tant sur le fonctionnement que sur l’intérêt de l’application.

  7. Application 2 : système d’aide en ligne
  8. Parsage de questions en rapport avec l’usage des machines en réseau de l’université. L’évaluation des capacités du système est difficile. Peu d’informations détaillées sur le fonctionnement de ce système qui fonctionne sur le réseau interne de l’université.

  9. Application 3 : traduction automatique

Tablent sur le recours à un interlingua de type paraphrase. Rien d’implémenté pour l’instant.

NAIST (Nara Institute of Science and Technology)

Contact : matsu@cactus.naist-u.ac.jp

Equipe dont la constitution est la plus riche puisqu’elle comprend un tiers de non-informaticiens, issus des cycles littéraires. Le projet est d’une grande cohérence.

L’ensemble des travaux repose sur l’analyse statistique.

  1. CHASEN
  2. Analyseur morphologique statistique

  3. Outil graphique pour l’aide à l’analyse linguistique
  4. Parallélisme des textes
  5. Résumés de textes

 

ATR

Le travail repose sur la reconnaissance de la parole, sans aucune recherche au niveau plus abstrait linguistique. Comme par ailleurs le matériel venait d’être récemment changé, les quelques démos présentées fonctionnaient mal, voire pas du tout. L’impression donnée est que l’accent est plus particulièrement mis sur la reconnaissance ou la génération vocale. Le travail syntaxique (inutile d’évoquer les aspects sémantiques) sont passablement primitifs, au moins dans les démos montrées.

Remarque de conclusion

La question de l’encodage des caractères japonais (2 syllabaires autochtones, les caractères latins, et 2000 idéogrammes chinois) est aujourd’hui réglé. Le seul " litige " tient au choix d’un standard, et la concurrence entre JIS, SHIFT-JIS, UNICODE.

La question de la transformation des caractères reste par contre un sujet d’actualité original [4][6]. Le japonais est écrit à l’aide des 4 types de caractères évoqués ci-dessus. L’opérateur entre au clavier le texte à l’aide des syllabaires, et un logiciel est chargé de transformer ces suites de syllabes en idéogrammes chinois, ou selon les cas en une suite syllabes / idéogrammes. Cette transformation n’est pas triviale à cause des nombreux homophones, et demande un travail portant à la fois sur tous les niveaux d’analyse linguistique : lexique, syntaxe et sémantique.

C’est un thème qui n’a jamais été abordé dans les labos visités mais nous savons que des linguistes collaborent sur ce thème avec des entreprises. Ce thème de recherche est d’autant plus intéressant qu’il part d’une problématique spécifiquement japonaise qui peut être l’occasion d’ouvrir de nouveaux champs de réflexion linguistique en relation avec le TAL.

 

 

Annexe

[1] L.Romary, romary@loria.fr, traitement automatique appliqué aux langues européennes, LORIA.

[2] R.Blin, blin@ehess.fr, linguistique japonaise, CRLAO.

[3] Panorama de la recherche en traitement automatique du langage écrit au Japon, Ecole Nationale Supérieur de Mines de Paris, 1998.

[4] Linguistique japonaise et traitement automatique du langage, HEL, 2001.

[5] Ouvrage d’abord paru en anglais aux USA, puis traduit en japonais : Japanese phrase structure grammar : a unification-based approach, Takao GUNJI, D. Reidel, 1987. -- (Studies in natural language and linguistic theory).

[6] Blin R., Les caractères et les nouvelles technologies au Japon, FDL, 2001