| Télécharger (zip, 20ko) |
Jeux de phrases aléatoires
========================== Cette archive contient deux jeux de test comporant chacun 125 phrases tirées aléatoirement dans un corpus de 5 millions de mots. Chaque jeu est constitué de 5 ensembles de 25 phrases choisies dans des genres textuels différents. Il a été créé en vue de servir de banc de test pour des systèmes de synthèse de la parole.
1. Corpus --------- Le corpus Syntsem comporte 5 millions de mots, divisés en 5 tranches de 1 million de mots chacune :
* ABU : littérature fin XIXè-début XXè (provenant du site de l'Association des Bibliophiles Universels : http://cedric.abu.cnam.fr/). * JOC : Journal Officiel de la Commission Européenne (1993, Serie C, Questions et reponses des parlementaires européens à la Commission). * MON : extraits du journal "Le Monde" (articles tirés au hasard dans le années 1987, 1989, 1991, 1993 et 1995). * OUV : 10 ouvrages en sciences humaines, provenant des éditions du CNRS. * PER : Périodiques : des articles longs (10 000 à 20 000 mots) en communication politique (revue Hermès), des communiqués courts (1 000 à 2 000 mots) de vulgarisation des résultats de la recherche (revue CNRS Info). Le corpus a été réalisé en 1999-2000 par Benoît Habert et Jean Véronis, dans le cadre d'un contrat avec ELRA/ELDA, à partir de sources provenant notamment des projets Parole et Multext.
2. Sélection ------------- Les phrases aléatoires ont été extraites par Jean Véronis en novembre 2002. Deux sous-ensembles ont été produits (Phrases1 et Phrases2), chacun composés de 5 séries de 25 phrases extraites de chacun des sous-corpus ABU, JOC, MON, OUV, PER, soit au total 250 phrases. Seules les phrases comportant au moins 40 caractères et au plus 255 ont été retenues.
3. Distribution --------------- Ces données peuvent être utilisées librement, ainsi que redistribuées. Dans ce dernier cas, la présente notice doit impérativement être jointe à la redistribution.
Merci de citer l'utilisation de ces données dans vos publications!
4. Contact ---------- Jean Véronis, Professeur de Linguistique et Informatique Université de Provence 29 av. Robert Schuman 13621 Aix-en-Provence Cedex 1, France Jean.Veronis@up.univ-mrs.fr http://www.up.univ-mrs.fr/veronis