Jean VÉRONIS

Fréquences des mots en français écrit

Télécharger
(zip, 1180ko)


Fréquences des mots du français
===============================


Cette archive contient des listes de fréquences de mots français, extraits du CD-ROM du Monde Diplomatique (1987-1997) par Jean Véronis (Université de Provence). La totalité du texte comportait 11139376 occurrences (y compris les ponctuations), se réduisant à 150340 formes distinctes si l'on prend en compte la différence minuscule-majuscule, ou 127452 si on l'ignore.

L'archive se compose de deux fichiers, en plus de celui-ci:

1. DiploFreq.txt
----------------

Le fichier se compose de deux colonnes séparées par une tabulation. La première donne la fréquence, la deuxième la forme.

Début du fichier :

Freq	Forme
689124	,
500213	de
344747	.
282885	la
230694	l'
201304	et
194431	les
184129	des
180163	à
176758	le
173456	"
154527	d'
146863	-
128392	en
113848	du

2. DiploFreqMaj.txt
-------------------

Dans ce fichier, les formes ne différant que par les distinctions majuscule/minuscule ont été regroupées en une seule entrée. Le fichier se compose de trois colonnes séparées par une tabulation. La première donne la fréquence, la deuxième la forme (convertie en majuscules), la troisième le nombre de combinaisons minuscule/majuscules différentes observées.

Début du fichier :

Freq	FormeMaj	Diff
689124	,	1
507150	DE	3
344747	.	1
308179	LA	4
249651	L'	2
217021	LES	3
210194	ET	3
201573	LE	3
188008	DES	3
180593	À	2
173456	"	1
159027	D'	2
149357	-	2
141688	EN	3
115356	DU	3


Ces données peuvent être utilisées librement, ainsi que redistribuées. Dans ce dernier cas, la présente notice doit impérativement être jointe à la redistribution.

Merci de citer l'utilisation de ces données dans vos publications!


Jean Véronis, Professeur de Linguistique et Informatique
Université de Provence
29 av. Robert Schuman
13621 Aix-en-Provence Cedex 1, France

Jean.Veronis@up.univ-mrs.fr
http://www.up.univ-mrs.fr/~veronis