Thomas Schmidt
Université de Hambourg (Allemagne)
EXMARaLDA - un système de transcription computationelle comme base d'un corpus de la langue parlée multilingue
Le SFB 538 "Mehrsprachigkeit" (Centre de recherche sur le multilinguisme) réunit dans ses treize projets des académiciens qui font de la recherche sur le multilinguisme sous différentes perspectives théoriques. La plupart des projets basent leurs analyses empiriques sur des données de langue parlée, c'est à dire sur des transcriptions d'enregistrements d'interaction verbale "naturelle". Ces données sont très diverses à beaucoup d'égards:
- les langues analysées: il y a, à présent, des données dans plus de 15 langues parmi lesquelles: l'allemand, le français, le portugais, l'italien, l'espagnol, l'anglais, le turc, le japonais, le basque, le russe, le chinois, le luganda et les langues scandinaves. Évidemment, une proportion considérable des transcriptions contiennent des énoncés dans plus d'une langue (p.e. le suédois et le norvégien)
- le cadre théorique: la forme des donnés, c'est à dire les phénomènes transcrits, leurs représentations graphiques, les étiquetages grammaticaux etc., sera différente selon que le chercheur responsable de l'acquisition des données travaille dans le champs de la phonétique, de la syntaxe, de l'analyse de conversation etc. Un phonéticien, par exemple, va attacher beaucoup d'importance à une minutieuse transcription des irrégularités phonétiques, tandis que, pour l'analyse de conversation, il est important d'aligner les transcriptions des actions non-verbales (comme la gestuelle et la mimique) avec les transcriptions des énoncés.
- le type d'interaction enregistrée: celui-ci dépend aussi du but de recherche des projets. On trouve, par exemple, des enregistrements d'interactions entre enfants et adultes, d'émissions de radio, de conversations interprétées (par interprète professionnel ou non-professionnel), de discours de présentation, de conversation "libre" entre plusieurs personnes et d'interviews.
- les moyens informatiques utilisés pour l'acquisition, la mémoration et l'analyse des données: le nombre d'outils de transcription et de formats de mise en mémoire des donnés presque égale le nombre de projets. Le choix de ces outils ne dépend pas seulement de la forme, de la langue des données et du cadre théorique, mais aussi de l'équipement technique des projets, par exemple du système d'exploitation des ordinateurs.
Bien que la diversité qui s'exprime dans les trois premiers de ces points soit certainement souhaitable et productive - et d'ailleurs inévitable - d'un point de vue théorique, la diversité qui résulte du dernier point pose des problèmes pratiques graves. Comme Bird/Liberman 2001:23 le disent:
"Particular bodies of data are created with particular needs in mind, using formats and tools tailored to those needs, based on the resources and practices of the community involved. Once created, a linguistic database may subsequently be used for a variety of unforeseen purposes, both inside and outside the community that created it. Adapting existing software for creation, update, indexing, search and display of foreign' databases typically requires extensive re-engineering. Working across a set of databases requires repeated adaptations of this kind."
Les problèmes décrits ici apparaissent aussi dans le travail quotidien du SFB: il n'est pas possible d'échanger facilement les données entre les différents projets ou d'élargir une transcription donnée par des annotations supplémentaires, parce que chaque projet choisit pour ses données des outils informatiques et des formats de mémoration qui ne sont appropriés que pour le but particulier que poursuit ce projet.
Le but du projet "Base de données multilingue" serait alors de réunir les données linguistiques des différents projets sous une forme généralisée permettant un échange facile, un élargissement flexible et une mémoration à longue terme. Le résultat concret de ce travail sera un corpus de la langue parlée multilingue contenant des transcriptions de plus de 1500 heures d'enregistrements.
Le système EXMARaLDA (EXtensible MARkup Language for Discourse Annotation) est la composante centrale pour la construction de ce corpus. EXMARaLDA est un système de transcription computationelle basée sur l'idée des "Annotation graphs" (graphes d'annotation) de Steven Bird et Mark Liberman (Bird/Liberman 2001). Comme telle, EXMARaLDA définit un format pour mémoriser des transcriptions sous une forme indépendante:
- d'une langue particulière ou - plus exactement - du système d'écriture utilisé pour la transcription. Comme EXMARaLDA met en uvre la technologie UNICODE, il est possible, par exemple, d'utiliser l'alphabet latin, l'alphabet cyrillique et l'alphabet phonétique international (A.P.I.) dans un même document.
- d'un logiciel particulier. Le format de mémoration dont EXMARaLDA se sert est XML (Extensible Markup Language), un standard qui est compris par les systèmes d'exploitation et les langues de programmation les plus courants. Ainsi, il est facile de construire de nouveaux outils pour des données existantes, dans le cas où les outils qui font partie du système même ne sont pas appropriés à un certain but.
- d'un cadre théorique particulier (dans le sens décrits ci-dessus): EXMARaLDA est basé sur un modèle abstrait d'une transcription de discours. En séparant le contenu logique d'une transcription, c'est à dire les unités structurales utilisées (comme les mots, les énoncés etc.) et leurs relations (temporelles et linguistiques), de sa forme graphique, c'est à dire de sa représentation sur une page ou sur un écran, il est possible de réduire dans une large mesure la diversité de différents systèmes de transcription mentionnée ci-dessus. Ainsi, une seule transcription peut avoir différentes formes de visualisation, et il est possible de mettre dans un seul document les différents niveaux de description linguistique, même si ceux-ci semblent incompatibles à première vue.
Plus concrètement, la version actuelle d'EXMARaLDA consiste en plusieurs méthodes pour accueillir, présenter et analyser des données de langue parlée. Les composantes suivantes ont été implémentées et sont disponibles par le site web du projet ([EXMARaLDA]):
- La définition de la syntaxe formelle d'une transcription d'EXMARaLDA sous forme d'une DTD (Document Type Definition)
- un éditeur de transcription qui utilise la notation interlinéaire (ou: "partition (musicale)", allemand:"Partiturnotation")
- un outil pour importer des transcriptions sous forme de fichier de texte (édités, par exemple, en MS WORD)
- des méthodes pour rattacher les transcriptions à des données multi-médiales, notamment aux enregistrements originaux sous forme de fichier audio ou vidéo ou à des images
- plusieurs outils pour visualiser les transcriptions sous différents systèmes de notation, par exemple la notation interlinéaire, la notation en colonne ou la notation "verticale" (cf. Edwards 1992), et sous différents formats, par exemple en HTML pour la présentation dans l'Internet ou en RTF pour l'intégration dans les documents WORD.
- plusieurs outils pour convertir d'autres formats dans le format d'EXMARaLDA et vice versa.
A la journée d'étude de l'ATALA, nous allons présenter le concept qui est derrière EXMARaLDA et donner une démonstration des outils et de quelques données.
Références
Bird, Steven / Liberman, Mark (2001): A formal framework for linguistic annotation. Dans: Speech Communication 33(1,2), pp. 23-60.
Edwards Jane (1992): Principles and Contrasting Systems of Discourse Transcription. Dans: Edwards, Jane / Lampert, Martin (eds.): Talking Data - Transcription and Coding in Discourse Research. Hillsdale, pp. 3-31.
Schmidt, Thomas (2001): The transcription system EXMARaLDA: An application of the annotation graph formalism as the Basis of a Database of Multilingual Spoken Discourse. Dans: Bird, Steven / Buneman, Peter / Liberman, Mark (eds.): Proceedings of the IRCS Workshop On Linguistic Databases, 11-13 December 2001. Institute for Research in Cognitive Science. Philadelphia: University of Pennsylvania, pp. 219-227.
Schmidt, Thomas (2002): EXMARaLDA - ein System zur Diskurstranskription auf dem Computer. Dans: Arbeiten zur Mehrsprachigkeit, Serie B (34). Hambourg.
Schmidt, Thomas (2002): Gesprächstranskription auf dem Computer - das System EXMARaLDA. à paraître dans: Gesprächsforschung (2). [http://www.gespraechsforschung-ozs.de]
[EXMARaLDA]: http://www.rrz.uni-hamburg.de/exmaralda
Contact
Thomas Schmidt : thomas.schmidt@uni-hamburg.de