Fréquence des occurrences de noms communs usuels dans le corpus statistique japonais BCCWJ - résultats complets

Raoul BLIN
(CNRS-CRLAO)
blin @ ehess . fr

5 janvier 2011



Le présent document contient le résultat complet des analyses présentées à la SFEJ (Blin 2011, b). Ce sont les fréquences des occurrences de 18,5 mille noms communs usuels dans un corpus de textes contemporains.

Le lexique rassemble quelque 18.500 noms communs usuels en japonais. L'objectif étant d'étudier la fréquence d'occurrences du vocabulaire d'un apprenant en japonais, le lexique comprend une proportion importante de noms communs de base. Ceux-ci ont été collectés dans deux manuels d'enseignement du japonais langue étrangère : le "Minna no nihongo, syoukyû ni - honsatsu" (3A network, 1998) et le "Hirake nihongo" (Bonjinsha, 2004). Dans le tableau de résultats, les noms communs issus de ce vocabulaire sont marqués d'une astérisque " * ". Le reste du vocabulaire correspond à un vocabulaire relativement courant. Il n'y a pas de politique particulière de compilation.

Le corpus sur lequel ont été menés les comptages est extrait du "Balanced Corpus of Contemporary Written Japanese" (現代日本語書き言葉平均コーパス) (Maekawa , 2008).
La partie exploitée du corpus est stylistiquement divisée en 4 sous-corpus, conformément au découpage proposé par les concepteurs du corpus :

- un corpus d'ouvrages divers, 83 extraits
- un corpus journalistique, 340 extraits
- un corpus de textes techniques (extraits de livres blancs), 62 extraits
- un corpus de questions-réponses de l'Internet (site "Chiebukuro"), 938 extraits

Ces sous-corpus se présentent sous plusieurs formes. Pour le comptage présenté ici, a été exploitée la version balisée.
Le balisage donne des informations lexicales, morpho-syntaxiques et sémantiques. Par exemple la phrase :

↓これなんかどうですか?

se présente sous sa forme balisée :

<OCAnswer><webLine><sentence><SUW orthToken="↓" lForm="" lemma="↓" pos="補助記号-一般" Form="" pronToken="" wType="記号" start="730" end="740" morphID="480" BOS="True" />↓<SUW orthToken="これ" lForm="コレ" lemma="此れ" pos="代名詞" Form="コレ" pronToken="コレ" wType="和" start="740" end="760" morphID="490" />これ<SUW orthToken="なんか" lForm="ナンカ" lemma="なんか" pos="助詞-副助詞" Form="ナンカ" pronToken="ナンカ" wType="和" start="760" end="790" morphID="500" />なんか<SUW orthToken="どう" lForm="ドウ" lemma="どう" pos="副詞" Form="ドウ" pronToken="ドー" wType="和" start="790" end="810" morphID="510" />どう<SUW orthToken="です" lForm="デス" lemma="です" pos="助動詞" Form="デス" cType="助動詞-デス" cForm="終止形-一般" pronToken="デス" wType="和" start="810" end="830" morphID="520" />です<SUW orthToken="か" lForm="カ" lemma="か" pos="助詞-終助詞" Form="カ" pronToken="カ" wType="和" start="830" end="840" morphID="530" />か<SUW orthToken="?" lForm="" lemma="?" pos="補助記号-句点" Form="" pronToken="" wType="記号" start="840" end="850" morphID="540" />?</sentence>

L'analyse morpho-syntaxique a fait l'objet d'une description complète dans Ogura Hideki, Koiso Hanae, Fujiike Yumi, 2008. Elle ne correspond pas toujours à l'analyse adoptée dans les lexiques étudiés. Par exemple dans le corpus, 女の人 (onna no hito, "femme") est décomposé en trois morphes 女 (onna, nom commun), の (no, particule), 人 (hito, nom commun). Dans le lexique, considérant que cette construction n'est que très faiblement compositionnelle, voire pas compositionnelle du tout, le tout est lexicalisé d'un seul tenant : 女の人 , onna no hito, nom commun.

Le comptage a été effectué avec le logiciel SAGACE (Blin 2009; Blin 2011-a). Celui-ci n'est pas adapté pour le balisage original. Le format a donc été adapté pour mieux convenir à SAGACE. Ainsi, la phrase balisée précédente se présente dans ce format :

補助記号-一般--↓/nom--これ/助詞-副助詞--なんか/adv--どう/助動詞--です/pFinale--か/補助記号-句点--?/

L'intérêt d'utiliser SAGACE était de pouvoir chercher la catégorie nominale en une seule commande, au lieu d'avoir à répéter la recherche pour chacun des mots, comme c'est le cas par exemple avec le logiciel Himawari en démonstration sur le site : http://www.kotonoha.gr.jp/demo/.

Le comptage est altéré par plusieurs biais facilement identifiables.
Comme indiqué plus haut, les morphes retenus pour l'analyse morphologique du BCCWJ ne correspondent pas nécessairement aux morphes-lemmes de notre lexique. De ce fait, les morphes-lemmes du lexique qui ne coïncidaient pas avec les morphes du corpus n'on pas été comptés. C'est le cas par exemple de 女の人 cités plus haut, qui n'a pas été compté.
Les morphes-lemmes du lexique ont été étudiés avec l'orthographe adoptée dans le lexique (en particulier les "okurigana") qui ne correspond pas nécessairement avec l'orthographe retenue pour le BCCWJ. Dans ce cas aussi, les morphes-lemmes ne sont pas comptés.
Du fait de ces biais, les chiffres présentés dans le présent document sont des valeurs inférieures aux valeurs réelles.

Les données du présent document peuvent être librement utilisées, à condition de le citer <Blin R., 2011, "Fréquence des occurrences de noms communs usuels dans le corpus statistique japonais BCCWJ - résultats complets ", Blin> et à condition de citer la référence donnée ci-dessous : Blin 2011 (b).


Bibliographie

Blin R., 2009, SAGACE-v3.2 ; Analyseur de corpus pour langues non flexionnelles, TALN 2009, ATALA.

Blin R., 2011(a), SAGACE-v4 ; Analyseur de corpus - manuel.

Blin R., 2011(b) (à paraître), Contribution de la linguistique de corpus à l’enseignement du japonais, Arles, Philippe Piquier.

Maekawa kikuo, 2008, KOTONOHA "gendai nihongo kaki kotoba heikin kôpasu" no kaihatsu [KOTONOHA, Développement d'un "Corpus équilibré pour le japonais écrit"], nihongo no kenkyû, nihongogakkai, 4-1, p.82-95. (en japonais)

Ogura Hideki, Koiso Hanae, Fujiike Yumi, 2008, [7] "gendai nihongo kakikotoba heikin kôpasu" keitairon jôhô kitei shû ["Corpus équilibré du japonais écrit contemporain", données morphologiques], kokuritsu kokugo kenkyûjo.


blin @ ehess . fr

2011 - 01 - 05