Centre de Recherches sur les Langues d'Asie Orientale

Actualité



Historique

Depuis sa création, le lexique-grammaire évolue en permanence. Les changements ne sont pas signalés ici, sauf en cas de changement notoire.

  • 2016, octobre :
  • fin 2014/debut 2015 :

      Des modifications en profondeur ont été apportées à tous les niveaux. Ceci a été rendu possible par une restructuration du source du moteur, qui a permis de rationaliser le traitement des données et l'intégration de nouvelles ressources linguistiques, en particulier du coté français. Enfin, un point important est l'introduction de statistiques dans la procédure de génération. L'évolution est encore très timide mais marque le début d'un recours plus systématique aux statistiques pour palier aux insuffisances de l'analyse symbolique.

    • RECO : restructuration et création (...enfin!) de librairies. La partie lambda-calcul a été complètement isolée dans une librairie à part, qui peut être réutilisée ad libitum. Une sous-partie du source contient des fonctions de traitement du français. Comme cela ne relève pas des opérations fondamentales du lambda calcul, elles sont isolées et sont compilées à part. Le chaînage (simple) de chaînes de caractères, abondamment utilisé, est aussi isolé dans une librairie à part. Il faudrait aussi isoler l'implémentation sous forme d'arbre TRI.
    • LEXIQUE : s'est enrichi de nouvelles fonctions. Au niveau du japonais, de nombreuses analyses ont été mises au propre.
    • GENEREFR : le programme de génération a été restructuré et reprend désormais les librairies mentionnées ci-dessus.

      On a introduit une composante statistique. Celle-ci est encore très modeste. Pour l'instant, il s'agit simplement de choisir le mot le plus fréquent parmi les mots cible, lorsque plusieurs sont possibles. Nous avons pour cela créé un dictionnaire de fréquences des mots du français (source).

      Autrement, nous avons amélioré la procédure de production des mots conjugués en français, de la nominalisation des verbes, et de l'adjectivisation. Nous utilisons pour cela des ressources existantes (par exemple le lefff). Nous avons aussi posé les bases du traitement des prépositions des arguments (en français) car l'expérience a montré que la justesse du choix de la préposition est importante pour la compréhension et la fluidité du texte cible. La procédure est implémentée mais tourne à vide car il lui faut les données. Les données restent à recueillir (à partir d'analyses de grands corpus monolingues français et japonais). L'outil est disponible et a été testé à petite échelle. Il faudrait désormais y consacrer un collaborateur éclairé pour y travailler.

  • 2013, juin :
    • RECO : Manipule désormais une base de connaissances; cette base est exploitable pour toute opération logique (construction de la représentation sémantique comme de la représentation syntaxique; par exemple les jeux de contraintes sur les traits). C'est un dispositif qui permet une description beaucoup plus compacte des contraintes sur les traits des arguments, mais aussi beaucoup plus "puissante".
    • EVAL_TAJAFR : création d'un dispositif d'évaluation ad hoc pour évaluer les performances de Tajafr.
  • 2012, nov :
    • LEXIQUE: travail en particulier sur la gestion des dépendances. On aboutit aux mêmes mécanismes de gestion des dépendances pour les noms et les verbes. Pour l'instant, on s'en tient aux dépendances entre syntagmes contigus, qui sont l'essentiel des cas rencontrés dans les titres de presse qui sont au centre du travail.
    • RECO : la génération du français est encore plus externalisée qu'auparavant. On se contente désormais de construire le lbd-terme correspondant à la traduction. Même la beta-réduction du "traduction" est externalisée. De la sorte, dans le module de beta-réduction, ne sont plus intégrées que des calculs de fonctions mathématiques fondamentales.
  • 2012, oct :
    • RECO : ajout d'une fonction pour fournir la lecture en kana des chaînes analysées. On pourrait facilement ajouter les accents (déjà disponibles dans le lexique; il faudrait alors travailler au niveau des règles ; pour l'instant c'est de la simple concaténation)
    • APPLICATIONS : ajout de la lecture à la traduction des titres de presse japonais
  • 2012, sept :
    • LEXIQUE : création d'un module d'ajout automatique d'entrées lexicales
    • RECO : externalisation de la génération du français; pour ne pas alourdir le dispositif d'analyse et parce qu'on estime que ce sont 2 tâches bien distinctes; désormais, l'analyse ne fournit plus que les éléments strictement nécessaires à la génération mais pas d'énoncé "finalisé" en français.
  • 2011 : RECO: adjonction d'un module de traitement des lambda-termes (beta-réduction et alpha conversion) et gestion des structures de traits. En parallèle développement d'un lexique grammaire, actuellement de 300.000 entrées et 400 règles morpho-syntaxiques et sémantiques.
  • 2010 : Développement d'un dispositif strictement syntaxique à base de simples règles de réécritures, reprenant une partie des principes de configuration de SAGACE. L'objectif est d'évaluer la faisabilité. Le résultat est calamiteux car trop d'erreurs. La résolution des problèmes nécessiterait une inflation de règles linguistiquement laides et dont le nombre rendrait l'ensemble ingérable. Sans compter qu'il n'y a pas de sémantique, ce qui rend le dispositif inintéressant pour l'analyse linguistique.
  • 2007 : Démarrage en 2007 du projet, avec un premier parseur écrit en PROLOG (projet Kappa). Beaucoup trop lent et difficile à maintenir. Abandonné en 2008. Ce dispositif a toutefois permi de valider (laborieusement) la description du groupe numéral (travail non publié).

Dernière mise à jour de cette page: 2013.06.01, R.BLIN

Contact: crlao@ehess.fr