| Télécharger (zip, 49ko) |
Fréquences des bigrammes en français ==================================== Le fichier "bigrammes.txt" contient les fréquences des bigrammes (deux lettres successives) en français, calculés sur 5 types de textes : - ABU : Textes littéraires - JOC : Journal officiel de la Commission Européenne - MON : Journal Le Monde - OUV : Ouvrages des éditions du CNRS - PER : Périodiques du CNRS et des Editions Hermès Ces textes ont été réunis et préparés dans le cadre d'un projet collaboratif, avec l'aide de Benoît Habert et de son équipe. Les tailles de ces textes (obtenues par la commande 'wc') sont les suivantes: Parag. Mots Caractères 32490 933255 5379687 ABU.TXT 44612 1161890 7528119 JOC.TXT 13736 933168 5702329 MON.TXT 12944 1022255 6501540 OUV.TXT 9869 946565 6170195 PER.TXT 113651 4997133 31281870 total Le fichier des fréquences contient 7 colonnes : - Colonne 1 : les deux caractères du bigramme - Colonne 2 : fréquence totale - Colonnes 3-7 : fréquence dans chacun des textes Exemple : BI TOTAL ABU JOC MON OUV PER 35474 506 31641 2727 74 526 ! 7792 6772 0 636 288 96 " 21479 2986 0 16079 356 2058 $ 7 0 2 0 0 5 % 3103 1 1002 1349 504 247 & 32 0 21 1 7 3 ' 96 39 10 2 31 14 Ces données peuvent être utilisées librement, ainsi que redistribuées. Dans ce dernier cas, la présente notice doit impérativement être jointe à la redistribution. Merci de citer l'utilisation de ces données dans vos publications! Jean Véronis, Professeur de Linguistique et Informatique Université de Provence 29 av. Robert Schuman 13621 Aix-en-Provence Cedex 1, France Jean.Veronis@up.univ-mrs.fr http://www.up.univ-mrs.fr/~veronis