Jean VÉRONIS

Jeux de phrases aléatoires

Télécharger
(zip, 20ko)


Jeux de phrases aléatoires
==========================

Cette archive contient deux jeux de test comporant chacun 125 phrases tirées
aléatoirement dans un corpus de 5 millions de mots. Chaque jeu est constitué
de 5 ensembles de 25 phrases choisies dans des genres textuels différents. Il
a été créé en vue de servir de banc de test pour des systèmes de synthèse de
la parole.

1. Corpus
---------
Le corpus Syntsem comporte 5 millions de mots, divisés en 5 tranches de 
1 million de mots chacune :
* ABU : littérature fin XIXè-début XXè (provenant du site de l'Association 
des Bibliophiles Universels : http://cedric.abu.cnam.fr/).
* JOC : Journal Officiel de la Commission Européenne (1993, Serie C, Questions 
et reponses des parlementaires européens à la Commission).
* MON : extraits du journal "Le Monde" (articles tirés au hasard dans le 
années 1987, 1989, 1991, 1993 et 1995).
* OUV : 10 ouvrages en sciences humaines, provenant des éditions du CNRS.
* PER : Périodiques : des articles longs (10 000 à 20 000 mots) en communication 
politique (revue Hermès), des communiqués courts (1 000 à 2 000 mots) de 
vulgarisation des résultats de la recherche (revue CNRS Info).

Le corpus a été réalisé en 1999-2000 par Benoît Habert et Jean Véronis, 
dans le cadre d'un contrat avec ELRA/ELDA, à partir de sources provenant 
notamment des projets Parole et Multext.

2. Sélection
-------------
Les phrases aléatoires ont été extraites par Jean Véronis en novembre 2002. Deux 
sous-ensembles ont été produits (Phrases1 et Phrases2), chacun composés de 5 
séries de 25 phrases extraites de chacun des sous-corpus ABU, JOC, MON, OUV, 
PER, soit au total 250 phrases. Seules les phrases comportant au moins 40 
caractères et au plus 255 ont été retenues.

3. Distribution
---------------
Ces données peuvent être utilisées librement, ainsi que redistribuées. 
Dans ce dernier cas, la présente notice doit impérativement être jointe
à la redistribution.
Merci de citer l'utilisation de ces données dans vos publications!

4. Contact
----------
Jean Véronis, Professeur de Linguistique et Informatique
Université de Provence
29 av. Robert Schuman
13621 Aix-en-Provence Cedex 1, France

Jean.Veronis@up.univ-mrs.fr
http://www.up.univ-mrs.fr/veronis