Centre de Recherches sur les Langues d'Asie Orientale

Présentation

Le projet LEXGRAMJP consiste principalement à développer un lexique grammaire pour analyser du texte en japonais contemporain. Au lexique est associée une ontologie. Pour être capable de suivre l'évolution du lexique (acquisition de mots nouveaux essentiellement), le projet inclu le développement d'outils de maintenance automatique.

Le lexique sera à terme diffusé librement. Une petite partie l'est déjà (JaLexBD) et est consultable en ligne. La totalité (JFlexBD_src) peut être communiquée dans le cadre de collaborations.

La description de la version courante est disponible ici. C'est essentiellement la partie utile à l'analyse des titres de presse qui est en cours de développement pour l'instant. On a par ailleurs commencé l'analyse morphologique du verbe conjugué.

Lexique et grammaire

Lexique et grammaire développés pour l'analyse du japonais écrit contemporains.

Actuellement, l'ensemble permet une analyse morphologique et syntagmatique d'énoncés isolés. Il permet de produire par ailleurs la lecture et la traduction (du moins ce qui est nécessaire à la traduction en français). On vise à terme une analyse sémantique, qui est en fait au coeur du projet.

Formellement, il s'agit d'une grammaire de contraintes avec représentations sémantiques (dans la lignée de la grammaire montégovienne et très inspiré de Renaud 2005, notamment pour ce qui concerne la lexicalisation).

L'analyse est menée en dehors de tout cadre théorique (type HPSG etc.) de sorte à avoir la plus grande marge de manoeuvre possible. La seule contrainte est d'obtenir au final la grammaire la plus compacte possible (voir discussion dans Blin 2009).

Entrées lexicales

Voici un exemple d'entrée lexicale. Les données qui ne sont pas exploitées pour l'instant lors de l'analyse sont laissées en gris clair :

    <ref 413097>
<ecriture:mixte/>無責任
<trait:lemme/>lemm413097xx
<trait:sem/>lemm413097xx_oi
<trait:rsem/>lemm413097xx_oi
<ecriture:katakana/>ムセキニン
<accent:depuisDebut/>2
<accent:depuisFin/>4
<commentaire:accent:src/>daijirin en ligne
<lecture:nbSyllabes/>4
<lecture:nbMore/>5
<trait:strateLexicale source="katarigusa_1_0_1"/>chinois
<commentaire:categorieNAIST/>名詞,一般,*,*,*,*,
<cat/>adjNaNo
<trait:arg/>no:(sem:personneMorale)
<commentaire:entree:source/>mecab-naist-jdic-0.4.3-20080812
<traduction:francais:val/>irresponsable
<traduction:francais:origin/>DsDictionnaireDeFreqences2012
<morphoPhono:composants:alteration/>O-N-N
<morph:composants:ecriture/>無 - 責 - 任
<morphoPhono:composants:origin/>go/tousou-kanyou-go
<morphoPhono:synthese:origin/>go,usuel,tousou
<morphoPhono:composants:nbSyllabes/>1-2-1
<morphoPhono:composants:nbMores/>1-2-2
<morphoPhono:composants:phonemeETaccent:katakana/>ム/-セ\キ-ニン
<morphoPhono:composants:phonemeETaccent:romaji/>mu/-se\ki-ni.N
<commentaire:refDsMinnaNoNihongo/>11
<commentaire:noEntreeDsDictionnaireDeFreqences2012/>12311
</ref>

Les entrées disponibles dans la base de données JaLexBD sont au format XML.

Règles de grammaire

Les règles sont de la forme:

 
(1)
(2)
(3)
(4)
 
<regle adjNaNo1>
nomCommun <-- adjNaNo nomSuffixableDeTATI_RA
U0:=siAlorsSinon.( (noSubsume.presenceParticuleNO.U1) & (subsume.(arg:(no:SEM)).U1) & (subsume.(sem:SEM).U3)).(elimineSousTrait.no.U3).faux
L0:=L1.L2
T0:=T3.(formeAdjectivale.T1)
</regle>

Cette règle sert à gérer (a minima) la concaténation d'un adjectif nominal et d'un nom commun, en l'absence de particule de détermination (no ou na). Cette concaténation est fréquente dans les structures "compactes" des titres de presse par exemple. La règle est composée de 4 "sous-règles"

  • (1) Règle de réécriture (pourrait être intégrée aux contraintes mais ainsi isolée cela facilite la lisibilité et permet un traitement un peu plus rapide).
  • (2) Contraintes : s'assure des propriétés syntaxiques des composants et calcule les propriétés syntaxiques du syntagme résultant.
    Par exemple, dans cette règle, on s'assure que l'adjectif n'est pas composé par détermination (donc pas de particule no) et que l'argument de l'adjectif n'est pas encore saturé, c'est à dire que l'adjectif n'a pas déjà un argument. Par ailleurs on s'assure que les propriétés sémantiques du nom déterminé sont bien celles attendues pour l'argument de l'adjectif. Si ces conditions ne sont pas satisfaites, la règle n'est pas appliquée. Si elles sont satisfaites, alors le tout recevra la structure de traits du nom (qui par sa position peut être considéré comme la tête de ce syntagme) mais en éliminant le sous-trait relatif à l'argument, de sorte que l'argument apparaît désormais comme saturé.
  • (3) Règle de lecture; pour l'instant une simple concaténation ; toutes les données nécessaires pour calculer la position de l'accent sont réunies dans le lexique; il ne manque que des règles phonologiques (... et surtout un collaborateur phonologue pour s'en occuper).
  • (4) Règle de traduction (extrait les informations nécessaires pour générer le français)
  • Pour l'instant, les règles sémantiques ne sont pas instanciées car il manque au parseur (RECO) un module de calcul sémantique (seule la beta-réduction est implémentée pour l'instant). Nous attendons d'avoir une vision précise des besoins et de la stratégie à mettre en oeuvre pour implémenter le calcul logique.

    Contrairement à la plupart des dispositifs existants, il n'y a pas de projet de fournir isolément des relations de dépendance. Elles apparaîtront de facto dans la représentation sémantique. Toutefois, nous ne pouvons (malheureusement) pas exclure d'avoir besoin d'isoler les propriétés dépendancielles pour la traduction automatique (TAJAFR). C'est en cours de discussion avec les possibles partenaires responsables de la génération du français, dans le cadre du projet de traducteur automatique.

    Outils d'aide à la gestion du lexique grammaire

    Pour suivre l'évolution du lexique sans avoir à mobiliser une armée de contributeurs, on développe des outils de gestion automatique du lexique. Pour l'instant, un seul outil est opérationnel. Il sert à ajouter des entrées quotidiennement. Un autre projet est en cours de réflexion sur un moyen de renseigner automatiquement les items des entrées lexicales, comme la valence des verbes ou les contraintes sémantiques sur les arguments, ou encore le style des textes. Cette dernière information serait basée sur une étude statistique (voir Blin 2012).

    Etat d'avancement du projet

    JFlexBD_src : base de données lexicale complète; version de travail; partagée dans le cadre de collaborations.

    JaLexBD : sous-ensemble de JFlexBD, librement diffusé.

    Bibliographie

    • Blin, R. (2009). Introduction à la linguistique formelle. Paris: Hermès science publications : Lavoisier.
    • Blin, R. (2012).Automatic Addition of Genre Information in a Japanese Dictionary. Acta Linguistica Asiatica, 2(2), 83–96. (PDF)
    • Renaud, F. (2005). Temps, durativité, télicité. Paris; Leuven; Dudley: MA. : Peeters.

    Dernière mise à jour de cette page: 2012.10.30, R.BLIN

    Contact: crlao@ehess.fr