Thomas Schmidt

Université de Hambourg (Allemagne)


EXMARaLDA - un système de transcription computationelle comme base d'un corpus de la langue parlée multilingue

Le SFB 538 "Mehrsprachigkeit" (Centre de recherche sur le multilinguisme) réunit dans ses treize projets des académiciens qui font de la recherche sur le multilinguisme sous différentes perspectives théoriques. La plupart des projets basent leurs analyses empiriques sur des données de langue parlée, c'est à dire sur des transcriptions d'enregistrements d'interaction verbale "naturelle". Ces données sont très diverses à beaucoup d'égards:

Bien que la diversité qui s'exprime dans les trois premiers de ces points soit certainement souhaitable et productive - et d'ailleurs inévitable - d'un point de vue théorique, la diversité qui résulte du dernier point pose des problèmes pratiques graves. Comme Bird/Liberman 2001:23 le disent:

"Particular bodies of data are created with particular needs in mind, using formats and tools tailored to those needs, based on the resources and practices of the community involved. Once created, a linguistic database may subsequently be used for a variety of unforeseen purposes, both inside and outside the community that created it. Adapting existing software for creation, update, indexing, search and display of ‚foreign' databases typically requires extensive re-engineering. Working across a set of databases requires repeated adaptations of this kind."

Les problèmes décrits ici apparaissent aussi dans le travail quotidien du SFB: il n'est pas possible d'échanger facilement les données entre les différents projets ou d'élargir une transcription donnée par des annotations supplémentaires, parce que chaque projet choisit pour ses données des outils informatiques et des formats de mémoration qui ne sont appropriés que pour le but particulier que poursuit ce projet.

Le but du projet "Base de données multilingue" serait alors de réunir les données linguistiques des différents projets sous une forme généralisée permettant un échange facile, un élargissement flexible et une mémoration à longue terme. Le résultat concret de ce travail sera un corpus de la langue parlée multilingue contenant des transcriptions de plus de 1500 heures d'enregistrements.

Le système EXMARaLDA (EXtensible MARkup Language for Discourse Annotation) est la composante centrale pour la construction de ce corpus. EXMARaLDA est un système de transcription computationelle basée sur l'idée des "Annotation graphs" (graphes d'annotation) de Steven Bird et Mark Liberman (Bird/Liberman 2001). Comme telle, EXMARaLDA définit un format pour mémoriser des transcriptions sous une forme indépendante:

Plus concrètement, la version actuelle d'EXMARaLDA consiste en plusieurs méthodes pour accueillir, présenter et analyser des données de langue parlée. Les composantes suivantes ont été implémentées et sont disponibles par le site web du projet ([EXMARaLDA]):

A la journée d'étude de l'ATALA, nous allons présenter le concept qui est derrière EXMARaLDA et donner une démonstration des outils et de quelques données.

Références

Bird, Steven / Liberman, Mark (2001): A formal framework for linguistic annotation. Dans: Speech Communication 33(1,2), pp. 23-60.

Edwards Jane (1992): Principles and Contrasting Systems of Discourse Transcription. Dans: Edwards, Jane / Lampert, Martin (eds.): Talking Data - Transcription and Coding in Discourse Research. Hillsdale, pp. 3-31.

Schmidt, Thomas (2001): The transcription system EXMARaLDA: An application of the annotation graph formalism as the Basis of a Database of Multilingual Spoken Discourse. Dans: Bird, Steven / Buneman, Peter / Liberman, Mark (eds.): Proceedings of the IRCS Workshop On Linguistic Databases, 11-13 December 2001. Institute for Research in Cognitive Science. Philadelphia: University of Pennsylvania, pp. 219-227.

Schmidt, Thomas (2002): EXMARaLDA - ein System zur Diskurstranskription auf dem Computer. Dans: Arbeiten zur Mehrsprachigkeit, Serie B (34). Hambourg.

Schmidt, Thomas (2002): Gesprächstranskription auf dem Computer - das System EXMARaLDA. à paraître dans: Gesprächsforschung (2). [http://www.gespraechsforschung-ozs.de]

[EXMARaLDA]: http://www.rrz.uni-hamburg.de/exmaralda

Contact

Thomas Schmidt : thomas.schmidt@uni-hamburg.de