Conférence TALN (1999-2003)

Papiers par ordre alphabétique


Abeillé, Anne ; Clément, Lionel ; Kinyon, Alexandra & Toussenel, François (2001). Un corpus français arboré : quelques interrogations. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Dans cet article nous présentons les premiers résultats de l'exploitation d'un Corpus français arboré (Abeillé et al., 2001). Le corpus comprend 1 million de mots entièrement annotés et validé pour les parties du discours, la morphologie, les mots composés et les lemmes, et partiellement annotés pour les constituants syntaxiques. Il comprend des extraits de journaux parus entre 1989 et 1993 et écrits par divers auteurs, et couvre différents thèmes (économie, littérature, politique, etc.). Après avoir expliqué comment ce corpus a été construit, et comment l'exploiter à l'aide d'un outil de recherche spécifique, nous exposerons quelques résultats linguistiques concernant les fréquences et les préférences lexicales et syntaxiques. Nous expliquerons pourquoi nous pensons que certains de ces résultats sont pertinents en linguistique théorique et en psycholinguistique.

MOTS-CLES : fréquence ; fréquence relative ; corpus ; corpus français ; groupe nominal ; catégorie grammaticale

LIRE L'ARTICLE (pdf) :


Adda, Gilles ; Mariani, Joseph ; Paroubek, Patrick ; Rajman, Martin & Lecomte, Josette (1999). Métrique et premiers résultats de l'évaluation GRACE des étiqueteurs morphosyntaxiques pour le français. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : L'action GRACE est le premier exemple d'application du paradigme d'évaluation aux étiqueteurs morphosyntaxiques pour le français dans le cadre d'une campagne d'évaluation formelle, à participation ouverte et utilisant des données de grande taille. Après une rapide description de l'organisation et du déroulement de l'action ainsi que des problèmes posés par la nécessaire mise en place d'un référentiel commun pour l'évaluation, nous présenterons en détail la métrique Précision-Décision qui a été développée dans le cadre de GRACE pour la mesure quantitative des performances des systèmes d'étiquetage. Nous nous intéresserons ensuite aux résultats obtenus pour les participants à la phase de test de la campagne et indiquerons les aspects du protocole d'évaluation qui restent encore à valider sur les données recueillies. Enfin, nous conclurons en soulignant les incidences positives d'une campagne d'évaluation comme GRACE sur le domaine de l'ingénierie linguistique.Biskri

MOTS-CLES : unité lexicale ; étiquetage ; table de correspondance ; segmentation

LIRE L'ARTICLE (pdf) :


Aloulou, Chafik ; Hadrich Belguith, Lamia & Ben Hamadou, Abdelmajid (2000). Vers un système d'analyse syntaxique robuste pour l'Arabe : Application au recouvrement des erreurs de la reconnaissance. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : Le degré de profondeur et de finesse de l'analyse syntaxique d'un texte écrit dépend énormément de l'objectif de l'analyse (analyse globale, analyse partielle, analyse détaillée, etc.) ainsi que du type d'application nécessitant cette analyse. Dans cet article, nous présentons une approche originale d'analyse syntaxique robuste appliquée à l'arabe et basée sur l'architecture multiagent. Comme première application de notre approche, notre système sera couplé avec un système de reconnaissance de l'écriture arabe dans le but d'effectuer, d'une part, la validation linguistique des mots reconnus par l'OCR (Optical Character Recognition) et d'autre part la détection et la correction des erreurs d'ordre lexicales, morphologiques, syntaxiques (cas des erreurs d'accord) et qui sont dues à la non ou au mal reconnaissance de certains mots par l'OCR. Le couplage de notre système avec le système de reconnaissance de l'écriture arabe entre dans le cadre d'un projet de coopération avec l'équipe Perception, Système et Information (PSI) de l'université de Rouen.

MOTS-CLES : analyse syntaxique ; analyse syntaxique robuste ; langue ; langue arabe ; corpus ; système de reconnaissance ; système de reconnaissance de l'écriture arabe

ARTICLE NON DISPONIBLE


Amghar, Tassadit ; Battistelli, Delphine & Charnois, Thierry (2001). Représenter le temps en langue dans le formalisme des graphes conceptuels une approche basée sur les schèmes sémantico-cognitifs. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : L'objectif de notre travail est de construire une représentation sémantique d'un corpus de textes français au sein des graphes conceptuels simples. Notre conceptualisation est fondée sur les Schèmes Sémantico-Cognitifs et la théorie aspecto-temporelle introduits par J. P. Desclés. Un texte est représenté par deux structures. La première modélise la représentation semanticocognitive des propositions du texte, et la seconde le diagramme temporel exprimant les contraintes temporelles entre les différentes situations décrites dans le texte. La prise en compte de ces deux structures et des liens qu'elles entretiennent nous a amenés à modifier le modèle des graphes conceptuels simples et à envisager les modes d'interaction entre temps, aspect (grammatical) et significations des lexèmes verbaux.

MOTS-CLES : graphe ; graphe conceptuel ; arbre ; corpus ; prédicat ; prédicat verbal ; information ; information temporelle

LIRE L'ARTICLE (pdf) :


Antoine, Jean-Yves ; Jérôme, Goulian & Jeanne, Villaneau (2003). Quand le TAL robuste s'attaque au langage parlé : analyse incrémentale pour la compréhension de la parole spontanée. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Dans cet article, nous discutons de l'application au langage parlé des techniques d'analyse syntaxique robuste développées pour l.écrit. Nous présentons deux systèmes de compréhension de parole spontané en situation de dialogue homme-machine finalisé, dont les performances montrent la pertinence de ces méthodes pour atteindre une compréhension fine et robuste des énoncés oraux.

MOTS-CLES : langage ; langage parlé ; analyse incrémentale ; grammaire ; grammaire de lien ; dépendance ; dépendance entre chunks ; automate ; automate à états finis

LIRE L'ARTICLE (pdf) :


Auclerc, Nicolas & Lepage, Yves (2001). Aides à l'analyse pour la construction de banque d'arbres : étude de l'effort. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : La construction de banque d'arbres est une entreprise lourde qui prend du temps. Pour faciliter cette construction, nous voyons la construction de banques d'arbres comme une série d'opérations d'édition et de recherche. Le but de cet article est d'estimer l'effort, en nombre d'opérations d'éditions, nécessaire pour ajouter une nouvelle phrase dans la banque d'arbres. Nous avons proposé un outil, Boardedit, qui inclut un éditeur d'arbres et des aides à l'analyse. Comme l'effort nécessaire dépend bien sûr de la qualité des réponses fournies par les aides à l'analyse, il peut être vue comme une mesure de la qualité de ces aides. L'éditeur d'arbres restant indispensable à notre outil pendant l'expérience, les aides à l'analyse seront donc toujours associées à l'éditeur d'arbres. Dans l'expérience proposée, nous augmentons une banque d'arbres de 5 OOO phrases par 1 553 nouvelles phrases. La réduction obtenue est supérieure aux 4/5 de l'effort.

MOTS-CLES : filtrage ; sous-arbre ; banque d'arbre ; édition d'arbre ; complétion par analogie

LIRE L'ARTICLE (pdf) :


Audibert, Laurent (2003). Etude des critères de désambiguïsation sémantique automatique : résultats sur les cooccurrences. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Nous présentons dans cet article une étude sur les critères de désambiguïsation sémantique automatique basés sur les cooccurrences. L'algorithme de désambiguïsation utilisé est du type liste de décision, il sélectionne une cooccurrence unique supposée véhiculer l'information la plus fiable dans le contexte ciblé. Cette étude porte sur 60 vocables répartis, de manière égale, en trois classes grammaticales (nom, adjectif et verbe) avec une granularité fine au niveau des sens. Nous commentons les résultats obtenus par chacun des critères évalués de manière indépendante et nous nous intéressons aux particularités qui différencient les trois classes grammaticales étudiées. Cette étude s'appuie sur un corpus français étiqueté sémantiquement dans le cadre du projet SyntSem.

MOTS-CLES : désambiguïsation ; désambiguïsation sémantique ; lexie ; étiquetage ; vocable ; algorithme de désambiguïsation

LIRE L'ARTICLE (pdf) :


Barthélemy, François ; Boullier, Pierre ; Deschamp, Philippe ; Kaouane, Linda & Villemonte de la Clergerie, Éric (2001). Atelier ATOLL pour les grammaires d'arbres adjoints. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Cet article présente l'environnement de travail que nous développons au sein de l'équipe ATOLL pour les grammaires d'arbres adjoints. Cet environnement comprend plusieurs outils et ressources fondés sur l'emploi du langage de balisage XML. Ce langage facilite la mise en forme et l'échange de ressources linguistiques.

MOTS-CLES : formalisme grammatical ; arbre ; tag ; arbre de dérivation ; grammaire ; langage ; langage de balisage

LIRE L'ARTICLE (pdf) :


Basili, Roberto ; Pazienza, Maria Tereza & Zanzotto, Fabio Massimo (1999). Lexicalizing a shallow parser. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : ?

MOTS-CLES :

LIRE L'ARTICLE (pdf) :


Béchet, Frédéric ; Nasr, Alexis ; Spriet, Thierry & de Mori, Renato (1999). Modèles de langage à portée variable : Application au traitement des homophones. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : L'objectif de cette étude concerne le traitement d'homophones singulier/pluriel dans un Système de Reconnaissance de la Parole en exploitant les contraintes d'accord dans la phrase à reconnaître. Un certain nombre de ces contraintes ne peut être traité par les modèles de langage à portée locale de type n-gram utilisés habituellement. Les deux modèles proposés, le modèle à base de syntagme et le modèle Homophone-Cache, permettent de résoudre certains cas d'homophonie par deux méthodes différentes : le modèle à base de syntagme permet d'introduire des contraintes syntaxiques ; le modèle Homophone-Cache a pour objet de discriminer les homophones singulier/pluriel, de manière robuste, en étant peu sensible à la mauvaise reconnaissance d'un mot au sein de la phrase.

MOTS-CLES : groupe nominal ; homophone ; modèle de langage ; corpus ; corpus d'apprentissage ; système de reconnaissance

LIRE L'ARTICLE (pdf) :


Béchet, Frédéric ; Nasr, Alexis & Genet, Franck (2000). Enrichissement automatique de lexique de noms propres à partir de corpus. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : Cet article présente une méthode d'étiquetage sémantique de noms propres fondé sur la technique des arbres de décision. Ces derniers permettent de modéliser les éléments saillants dans les contextes d'occurrence de noms propres d'une classe donnée. Les arbres de décision sont construits automatiquement sur un corpus d'apprentissage étiqueté, ils sont ensuite utilisés pour étiqueter des noms propres apparaissant dans un corpus de test. Les résultats de l'étiquetage du corpus de test est utilisé pour enrichir un lexique de noms propres. Ce dernier peut être utilisé à son tour pour réestimer les paramètres d'un étiqueteur stochastique. Nous nous intéressons en particulier au cas où le corpus de test a été glané sur le Web.

MOTS-CLES : expression régulière ; entrée lexicale ; étiquetage ; arbre ; arbre de décision ; corpus ; corpus de test

ARTICLE NON DISPONIBLE


Bès, Gabriel & Blache, Philippe (1999). Propriétés et analyse d'un langage. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : Nous présentons dans cet article une nouvelle approche, que nous appelons 5P, permettant la description des propriétés d'un langage et son utilisation pour une analyse automatique. Nous montrons comment cette approche permet la prise en compte de la dimension descriptive de la linguistique. Par ailleurs, nous présentons une technique d'analyse, appelée analyse par Filtrage et Fusion, qui tire parti de cette description en propriétés. Nous montrons en quoi ces deux projets (description d'une langue et analyse automatique) convergent et ouvrent de nouvelles perspectives.

MOTS-CLES : arbre ; relation de dépendance ; fléchage ; analyse par filtrage ; langue ; langue naturelle

LIRE L'ARTICLE (pdf) :


Besançon, Romaric ; Rozenknop, Antoine ; Chappelier, Jean-Cédric & Rajman, Martin (2001). Intégration probabiliste de sens dans la représentation de textes-. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Le sujet du présent article est l'intégration des sens portés par les mots en contexte dans une représentation vectorielle de textes, au moyen d'un modèle probabiliste. La représentation vectorielle considérée est le modèle DSIR, qui étend le modèle vectoriel (VS) standard en tenant compte à la fois des occurrences et des co-occurrences de mots dans les documents. L'intégration des sens dans cette représentation se fait à l'aide d'un modèle de Champ de Markov avec variables cachées, en utilisant une information sémantique dérivée de relations de synonymie extraites d'un dictionnaire de synonymes.

MOTS-CLES : sémantique ; sémantique distributionnelle ; espace vectoriel ; terme ; terme d'indexation ; synonymie ; fréquence

LIRE L'ARTICLE (pdf) :


Besançon, Romaric & Rajman, Martin (2002). Filtrages syntaxiques de co-occurrences pour la représentation vectorielle de documents. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : L’intégration de co-occurrences dans les modèles de représentation vectorielle de documents s’est avérée une source d’amélioration de la pertinence des mesures de similarités textuelles calculées dans le cadre de ces modèles (Rajman et al., 2000; Besançon, 2001). Dans cette optique, la définition des contextes pris en compte pour les co-occurrences est cruciale, par son influence sur les performances des modèles à base de co-occurrences. Dans cet article, nous proposons d’étudier deux méthodes de filtrage des co-occurrences fondées sur l’utilisation d’informations syntaxiques supplémentaires. Nous présentons également une évaluation de ces méthodes dans le cadre de la tâche de la recherche documentaire.

MOTS-CLES : représentation vectorielle ; syntaxe ; pondération locale ; méthode de filtrage ; fréquence ; fréquence de co-occurrence

LIRE L'ARTICLE (pdf) :


Bigi, Brigitte & Smaïli, Kamel (2002). Identification thématique hiérarchique : Application aux forums de discussions. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Les modèles statistiques du langage ont pour but de donner une représentation statistique de la langue mais souffrent de nombreuses imperfections. Des travaux récents ont montré que ces modèles peuvent être améliorés s'ils peuvent bénéficier de la connaissance du thème traité, afin de s'y adapter. Le thème du document est alors obtenu par un mécanisme d'identification thématique, mais les thèmes ainsi traités sont souvent de granularité différente, c'est pourquoi il nous semble opportun qu'ils soient organisés dans une hiérarchie. Cette structuration des thèmes implique la mise en place de techniques spécifiques d'identification thématique. Cet article propose un modèle statistique à base d'unigrammes pour identifier automatiquement le thème d'un document parmi une arborescence prédéfinie de thèmes possibles. Nous présentons également un critère qui permet au modèle de donner un degré de fiabilité à la décision prise. L'ensemble des expérimentations a été réalisé sur des données extraites du groupe 'fr' des forums de discussion.

MOTS-CLES : langage ; langage naturel ; forum de discussion ; corpus ; corpus d'apprentissage ; probabilité

LIRE L'ARTICLE (pdf) :


Biskri, Ismaïl & Delisle, Sylvain (1999). Un modèle hybride pour le textual data mining : un mariage de raison entre le numérique et le linguistique. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : Une des recherches de pointe menée actuellement en informatique est l'extraction des connaissances dans un texte électronique (textual data mining). Ce thème de recherche est de première importance pour les technologies de l'information qui sont confrontées à des marées de documents électroniques. Pour résoudre ce problème, plusieurs stratégies sont possibles : les unes relèvent des mathématiques et les autres de l'informatique linguistique. Nous présentons dans cet article un modèle hybride, à la fois robuste et fin, qui s'inspire des modèles neuronaux et de l'analyse linguistique informatique.

MOTS-CLES : structure prédicative ; groupe nominal ; extraction ; extraction de connaissances ; représentation matricielle

LIRE L'ARTICLE (pdf) :


Biskri, Ismaïl & Delisle, Sylvain (2001). Les n-grams de caractères pour l'aide à l'extraction de connaissances dans des bases de données textuelles multilingues. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Une véritable classification numérique multilingue est impossible si on considère seulement le mot comme unité d'information privilégiée. En traitant les mots comme jetons, la tokenisation s'avère relativement simple pour le français et l'anglais, mais très difficile pour des langues comme l'allemand ou l'arabe. D'autre part, la lemmatisation utilisée comme moyen de normalisation et de réduction du lexique constitue un écueil non moins négligeable. La notion de n-grams, qui depuis une décennie donne de bons résultats dans l'identification de la langue ou dans l'analyse de l'oral, est, par les recherches récentes, devenue un axe privilégié dans l'acquisition et l'extraction des connaissances dans les textes. Dans cet article, nous présenterons un outil de classification numérique basé sur le concept de n-grams de caractères. Nous évaluons aussi les résultats de cet outil que nous comparons à des résultats obtenus au moyen d'une classification fondée sur des mots.

MOTS-CLES : extraction de connaissances ; n-grams ; fréquence ; lemmatisation ; lexique

LIRE L'ARTICLE (pdf) :


Blache, Philippe (2000). Le rôle des contraintes dans les théories linguistiques et leur intérêt pour l'analyse automatique : les Grammaires de Propriétés. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : Tous les formalismes linguistiques font usage de la notion de contrainte qui, dans son sens le plus large, indique une propriété devant être satisfaite. Les contraintes sont extrêmement utiles à la fois pour représenter l’information linguistique, mais également pour en contrôler le processus d’analyse. Cependant, l’usage qui est fait des contraintes peut être très différent d’une approche à l’autre : dans certains cas, il s’agit simplement d’un mécanisme d’appoint, dans d’autres, les contraintes sont au coeur de la théorie. Il existe cependant un certain nombre de restrictions à leur utilisation, en particulier pour ce qui concerne leur implantation. Plus précisément, s’il semble naturel (au moins dans certains paradigmes) de considérer l’analyse syntaxique comme un problème de satisfaction de contraintes, on constate cependant qu’il est extrêmement difficile de réaliser concrètement une telle implantation. Ce constat est en fait révélateur d’un problème dépassant le simple cadre de l’implémentation : nous montrons dans cet article qu’une approche totalement basée sur les contraintes (permettant donc de concevoir l’analyse comme un problème de satisfaction) est incompatible avec une interprétation générative classique accordant un statut particulier à la relation de dominance. Nous proposons ici un cadre permettant à la fois de tirer parti des avantages des grammaires syntagmatiques tout en s’affranchissant des problèmes liés aux approches génératives pour ce qui concerne l’usage des contraintes en tant qu’unique composant grammatical. Nous présentons ici cette approche, les Grammaires de Propriétés, ainsi que leur implémentation.

MOTS-CLES : contrainte contextuelle ; grammaire ; grammaire de propriétés ; relation de dépendance ; grammaire de dépendance

LIRE L'ARTICLE (pdf) :


Blache, Philippe (2001). Dépendances à distance dans les grammaires de propriétés : l'exemple des disloquées. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Cet article propose une description des dépendances à distances s'appuyant sur une approche totalement déclarative, les grammaires de propriétés, décrivant l'information linguistique sous la forme de contraintes. L'approche décrite ici consiste à introduire de façon dynamique en cours d'analyse de nouvelles contraintes, appelées propriétés distantes. Cette notion est illustrée par la description du phénomène des disloquées en français.

MOTS-CLES : verbe ; verbe recteur ; construction disloquée ; grammaire ; grammaire de propriétés ; dépendance ; dépendance à distance ; graphe ; graphe de contrainte ; relation de constituance

LIRE L'ARTICLE (pdf) :


Blache, Philippe & Di Cristo, Albert (2002). Variabilité et dépendances des composants linguistiques. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Nous présentons dans cet article un cadre d'explication des relations entre les différents composants de l'analyse linguistique (prosodie, syntaxe, sémantique, etc.). Nous proposons un principe spécifiant un équilibre pour un objet linguistique donné entre ces différents composants sous la forme d'un poids (précisant l'aspect marqué de l'objet décrit) défini pour chacun d'entre eux et d'un seuil (correspondant à la somme de ces poids) à atteindre. Une telle approche permet d'expliquer certains phénomènes de variabilité : le choix d'une "tournure" à l'intérieur d'un des composants peut varier à condition que son poids n'empêche pas d'atteindre le seuil spécifié. Ce type d'information, outre son intérêt purement linguistique, constitue le premier élément de réponse pour l'introduction de la variabilité dans des applications comme les systèmes de génération ou de synthèse de la parole.

MOTS-CLES : contour intonatif ; construction clivée ; intonation ; variabilité ; syntagme ; syntagme disloqué

LIRE L'ARTICLE (pdf) :


Boitet, Christian & Tsai, Wang-Ju (2002). La coédition langue<->UNL pour partager la révision entre les langues d'un document multilingue : un concept unificateur. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : La coédition d'un texte en langue naturelle et de sa représentation dans une forme interlingue semble le moyen le meilleur et le plus simple de partager la révision du texte vers plusieurs langues. Pour diverses raisons, les graphes UNL sont les meilleurs candidats dans ce contexte. Nous développons un prototype où, dans le scénario avec partage le plus simple, des utilisateurs "naïfs" interagissent directement avec le texte dans leur langue (L0), et indirectement avec le graphe associé pour corriger les erreurs. Le graphe modifié est ensuite envoyé au déconvertisseur UNL-L0 et le résultat est affiché. S'il est satisfaisant, les erreurs étaient probablement dues au graphe et non au déconvertisseur, et le graphe est envoyé aux déconvertisseurs vers d'autres langues. Les versions dans certaines autres langues connues de l'utilisateur peuvent être affichées, de sorte que le partage de l'amélioration soit visible et encourageant. Comme les nouvelles versions sont ajoutées dans le document multilingue original avec des balises et des attributs appropriés, rien n'est jamais perdu, et le travail coopératif sur un même document est rendu possible. Du côté interne, des liaisons sont établies entre des éléments du texte et du graphe en utilisant des ressources largement disponibles comme un dictionnaire L0-anglais, ou mieux L0-UNL, un analyseur morphosyntaxique de L0, et une transformation canonique de graphe UNL à arbre. On peut établir une "meilleure" correspondance entre "l'arbre-UNL+L0" et la "structure MS-L0", une treille, en utilisant le dictionnaire et en cherchant à aligner l'arbre et une trajectoire avec aussi peu que possible de croisements de liaisons. Un but central de cette recherche est de fusionner les approches de la TA par pivot, de la TA interactive, et de la génération multilingue de texte.

MOTS-CLES : langue ; langue naturelle ; graphe ; structure d'arbre ; liaisons syntaxiques

LIRE L'ARTICLE (pdf) :


Bouchou, Béatrice & Maurel, Denis (1999). Une bibliothèque d'opérateurs linguistiques pour la consultation de base de données en langue naturelle. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : L'interrogation de bases de données en langue naturelle est une application directe du traitement automatique des langues naturelles. Son utilité va en s'accroissant avec le développement d'outils d'information accessibles au grand public à travers la Toile Internet. L'approche que nous proposons s'appuie d'une part sur les fondations linguistiques établies par la théorie de Z. S. Harris (dans l'élaboration du dictionnaire, et surtout dans la définition des opérateurs linguistiques), et d'autre part sur un outil informatique précis (les transducteurs). Elle représente une alternative aux traitements syntaxico-sémantiques habituellement développés dans des formalismes logiques. Elle s'appuie sur la constitution d'une bibliothèque d'opérateurs linguistiques pour les domaines d'application.

MOTS-CLES : langue ; langue naturelle ; base de données ; transducteur

LIRE L'ARTICLE (pdf) :


Bouchou, Béatrice ; Lerat, Julien & Maurel, Denis (2001). L'interrogation de bases de données comme application des classes d'objets. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : En travaillant sur l'interrogation de bases de données en langue naturelle, nous sommes amenés à exploiter les propositions du Laboratoire de Linguistique Informatique (LLI) en matière de représentation de la langue : les classes d'objets. Un outil d'interrogation définit une application du langage vers le modèle de l'information stockée. Ici les classes d'objets et leurs prédicats appropriés modélisent le langage source, tandis que le modèle relationnel sert pour les données interrogées. Nous présentons d'abord ce contexte d'application, puis comment nous utilisons les classes d'objets et prédicats appropriés dans ce cadre.

MOTS-CLES : prédicat ; base de données ; langue ; langue naturelle ; modèle conceptuel ; classe d'objets

LIRE L'ARTICLE (pdf) :


Boullier, Pierre (1999). On Tag Parsing. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : ?

MOTS-CLES :

LIRE L'ARTICLE (pdf) :


Bourigault, Didier (2002). UPERY : un outil d'analyse distributionnelle étendue pour la construction d'ontologies à partir de corpus. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Nous présentons un module mettant en oeuvre une méthode d'analyse distributionnelle dite "étendue". L'analyseur syntaxique de corpus SYNTEX effectue l'analyse en dépendance de chacune des phrases du corpus, puis construit un réseau de mots et syntagmes, dans lequel chaque syntagme est relié à sa tête et à ses expansions. A partir de ce réseau, le module d'analyse distributionnelle UPERY construit pour chaque terme du réseau l'ensemble de ses contextes syntaxiques. Les termes et les contextes syntaxiques peuvent être simples ou complexes. Le module rapproche ensuite les termes, ainsi que les contextes syntaxiques, sur la base de mesures de proximité distributionnelle. L'ensemble de ces résultats est utilisé comme aide à la construction d'ontologie à partir de corpus spécialisés.

MOTS-CLES : analyse distributionnelle ; syntagme ; syntagme maximal ; corpus ; relation de dépendance

LIRE L'ARTICLE (pdf) :


Brun, Armelle ; Smaïli, Kamel & Haton, Jean-Paul (2002). WSIM : une méthode de détection de thème fondée sur la similarité entre mots. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : L'adaptation des modèles de langage dans les systèmes de reconnaissance de la parole est un des enjeux importants de ces dernières années. Elle permet de poursuivre la reconnaissance en utilisant le modèle de langage adéquat : celui correspondant au thème identifié. Dans cet article nous proposons une méthode originale de détection de thème fondée sur des vocabulaires caractéristiques de thèmes et sur la similarité entre mots et thèmes. Cette méthode dépasse la méthode classique (TFIDF) de 14%, ce qui représente un gain important en terme d'identification. Nous montrons également l'intérêt de choisir un vocabulaire adéquat. Notre méthode de détermination des vocabulaires atteint des performances 3 fois supérieures à celles obtenues avec des vocabulaires construits sur la fréquence des mots.

MOTS-CLES : détection de thème ; modèle de langage ; arbre ; arbre de décision ; corpus ; corpus d'apprentissage

LIRE L'ARTICLE (pdf) :


Brun, Armelle ; Smaïli, Kamel & Haton, Jean-Paul (2003). Nouvelle approche de la sélection de vocabulaire pour la détection de thème. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : En reconnaissance de la parole, un des moyens d'améliorer les performances des systèmes est de passer par l'adaptation des modèles de langage. Une étape cruciale de ce processus consiste à détecter le thème du document traité et à adapter ensuite le modèle de langage. Dans cet article, nous proposons une nouvelle approche de création des vocabulaires utilisés pour la détection de thème. Cette dernière est fondée sur le développement de vocabulaires spécifiques et caractéristiques des différents thèmes. Nous montrons que cette approche permet non seulement d'améliorer les performances des méthodes, mais exploite également des vocabulaires de taille réduite. De plus, elle permet d'améliorer de façon très significative les performances de méthodes de détection lorsqu'elles sont combinées.

MOTS-CLES : information ; information mutuelle ; détection de thème ; sélection de vocabulaire ; corpus ; corpus d'apprentissage

LIRE L'ARTICLE (pdf) :


Campione, Estelle & Véronis, Jean (2001). Etiquetage prosodique semi-automatique des corpus oraux. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : La transcription manuelle de la prosodie est une tâche extrêmement coûteuse en temps, qui requiert des annotateurs très spécialisés, et qui est sujette à de multiples erreurs et une grande part de subjectivité. Une automatisation complète n'est pas envisageable dans l'état actuel de Ia technologie, mais nous présentons dans cette communication des outils et une méthodologie qui permettent une réduction substantielle du temps d'intervention manuelle, et améliorent l'objectivité et la cohérence du résultat. De plus, les étapes manuelles nécessaires ne demandent pas une expertise phonétique poussée et peuvent être menées à bien par des étudiants et des linguistes de corpus.

MOTS-CLES : corpus ; corpus oral ; intonation ; segment ; étiquetage ; marque d'hésitation

LIRE L'ARTICLE (pdf) :


Campione, Estelle & Véronis, Jean (2002). Etude des relations entre pauses et ponctuations pour la synthèse de la parole à partir de texte. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Nous présentons dans cette communication la première étude à grande échelle de la relation entre pauses et ponctuations, à l'aide de l'analyse de plusieurs milliers de pauses dans un corpus comportant près de 5 heures de parole lue en cinq langues, faisant intervenir 50 locuteurs des deux sexes. Nos résultats remettent en cause l'idée reçue de rapports bi-univoques entre pauses et ponctuations. Nous mettons en évidence une proportion importante de pauses hors ponctuation, qui délimitent des constituants, mais aussi un pourcentage élevé de ponctuations faibles réalisées sans pauses. Nous notons également une très grande variabilité inter-locuteur, ainsi que des différences importantes entre langues. Enfin, nous montrons que la durée des pauses est liée au sexe des locuteurs.

MOTS-CLES : ponctuation ; pause ; variabilité ; variabilité inter-locuteur ; parole

LIRE L'ARTICLE (pdf) :


Caudal, Patrick (1999). Accomplishments vs. Achievements: a computational treatment of the so-called punctuality vs. durativity of events, and perhaps of event structure. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : ?

MOTS-CLES :

LIRE L'ARTICLE (pdf) :


Cerbah, Farid (2000). Une étude comparative de méthodes de catégorisation sémantique de termes techniques. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : L'acquisition et la mise à jour de ressources terminologiques sont des tâches difficiles, en particulier lorsque ces ressources contiennent des informations d'ordre sémantique. Cette article traite de la catégorisation sémantique de termes techniques. Le but de ce processus est d'assigner des domaines sémantiques à de nouveaux termes. Nous proposons deux approches qui reposent sur des sources d'informations différentes. L'approche exogène exploite des informations contextuelles extraites de corpus. L'approche endogène repose sur une analyse lexicale de termes déjà catégorisés. Nous décrivons les deux approches mises en oeuvre ainsi que les expérimentations menées sur des jeux de test significatifs. Les résultats obtenus montrent que la catégorisation de termes peut constituer une aide conséquente dans les processus d'acquisition de ressources terminologiques.

MOTS-CLES : acquisition de termes techniques ; terminologie ; analyse lexicale ; corpus

ARTICLE NON DISPONIBLE


Chappelier, Jean-Cédric ; Rajman, Martin ; Aragües, R. & Rozenknop, Antoine (1999). Lattice Parsing for Speech Recognition. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : ?

MOTS-CLES :

LIRE L'ARTICLE (pdf) :


Chappelier, Jean-Cédric & Rajman, Martin (2001). Grammaire à substitution d'arbre de complexité polynomiale : un cadre efficace pour DOP-. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Trouver l'arbre d'analyse le plus probable dans le cadre du modèle DOP (Data-Oriented Parsing) _une version probabiliste de grammaire à substitution d'arbres développée par R. Bod (1992) _ est connu pour être un problème NP-difficile dans le cas le plus général (Sima'an, 1996a). Cependant, si l'on introduit des restrictions a priori sur le choix des arbres élémentaires, on peut obtenir des instances particulières de DOP pour lesquelles la recherche de l'arbre d'analyse le plus probable peut être effectuée en un temps polynomial (par rapport à la taille de la phrase à analyser). La présente contribution se propose d'étudier une telle instance polynomiale de DOP, fondée sur le principe de sélection miminale-maximale et d'en évaluer les performances sur deux corpus différents.

MOTS-CLES : complexité polynomiale ; arbre ; arbre d'analyse ; grammaire ; grammaire hors-contexte ; corpus

LIRE L'ARTICLE (pdf) :


Chauché, Jacques ; Prince, Violaine ; Simon, Jaillet & Teisseire, Maguelonne (2003). Classification automatique de textes à partir de leur analyse syntaxico-sémantique. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : L'hypothèse soutenue dans cet article est que l'analyse de contenu, quand elle est réalisée par un analyseur syntaxique robuste avec calcul sémantique dans un modèle adéquat, est un outil de classification tout aussi performant que les méthodes statistiques. Pour étudier les possibilités de cette hypothèse en matière de classification, à l'aide de l'analyseur du Français, SYGMART, nous avons réalisé un projet en grandeur réelle avec une société qui propose des sélections d'articles en revue de presse. Cet article présente non seulement les résultats de cette étude (sur 4843 articles finalement sélectionnés), mais aussi cherche à montrer que l'analyse de contenu automatisée, quand elle est possible, est un moyen fiable de produire une catégorisation issue du sens (quand il est calculable), et pas simplement créée à partir d'une reconnaissance de "similarités" de surface.

MOTS-CLES : classification ; classification automatique ; espace vectoriel ; analyse syntaxique ; analyse sémantique

LIRE L'ARTICLE (pdf) :


Chuah, Choy-Kim (2001). Aggregation by Conflation of Quasi-Synonymous Units. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : La plupart du temps, les études qui portent sur l’agrégation des phrases en génération de texte, se focalisent sur l’utilisation des connecteurs pour relier les phrases courtes et inventées. Mais, les connecteurs limitent le nombre des unités qu’il est possible de combiner à la fois. Comment condenser l’information en peu d’unités, sans utiliser trop de connecteurs ? Cette étude porte sur des documents ayant trait à la biologie et discute de l’agrégation des phrases par les auteurs quand ils résument. Cet article présente aussi quelques préalables et difficultés pour un système de résumé automatique. Beaucoup de phrases sont agrégées sans signe explicite, ni connecteur, ni ponctuation.

MOTS-CLES : résumé ; résumé automatique ; phrase ; synonymie

LIRE L'ARTICLE (pdf) :


Claveau, Vincent (2003). Extraction de couples nom-verbe sémantiquement liés : une technique symbolique automatique. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Dans le modèle du Lexique génératif (Pustejovsky, 1995), certaines propriétés sémantiques des noms sont exprimées à l'aide de verbes. Les couples nom-verbe ainsi formés présentent un intérêt applicatif notamment en recherche d'information. Leur acquisition sur corpus constitue donc un enjeu, mais la découverte des patrons qui les définissent en contexte est également importante pour la compréhension même du modèle du Lexique génératif. Cet article présente une technique entièrement automatique permettant de répondre à ce double besoin d'extraction sur corpus de couples et de patrons morpho-syntaxiques et sémantiques. Elle combine pour ce faire deux approches d'acquisition- l'approche statistique et l'approche symbolique- en conservant les avantages propres à chacune d'entre elles : robustesse et automatisation des méthodes statistiques, qualité et expressivité des résultats des techniques symboliques.

MOTS-CLES : couples nom-verbe ; lexique ; lexique génératif ; corpus ; extraction de couple ; patron d'extraction

LIRE L'ARTICLE (pdf) :


Crabbé, Benoît ; Gaiffe, Bertrand & Roussanaly, Azim (2003). Une plate-forme de conception et d'exploitation d'une grammaire d'arbres adjoints lexicalisés. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Dans cet article, nous présentons un ensemble d'outils de conception et d'exploitation pour des grammaires d'arbres adjoints lexicalisés. Ces outils s'appuient sur une représentation XML des ressources (lexique et grammaire). Dans notre représentation, à chaque arbre de la grammaire est associé un hypertag décrivant les phénomènes linguistiques qu'il recouvre. De ce fait, la liaison avec le lexique se trouve plus compactée et devient plus aisée à maintenir. Enfin, un analyseur permet de valider les grammaires et les lexiques ainsi conçus aussi bien de façon interactive que différée sur des corpus.

MOTS-CLES : arbre ; arbre adjoint lexicalisé ; grammaire ; grammaire d'arbre ; équation d'ancrage ; lemmatisation ; métagrammaire

LIRE L'ARTICLE (pdf) :


Crestan, Éric ; El-Bèze, Marc & de Loupy, Claude (2003). Peut-on trouver la taille de contexte optimale en désambiguïsation sémantique? Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Dans la tâche de désambiguïsation sémantique, la détermination de la taille optimale de fenêtre de contexte à utiliser, a fait l'objet de plusieurs études. Dans cet article, nous proposons une approche à deux niveaux pour répondre à cette problématique de manière automatique. Trois systèmes concurrents à base d'arbres de classification sémantique sont, dans un premier temps, utilisés pour déterminer les trois sens les plus vraisemblables d'un mot. Ensuite, un système décisionnel tranche entre ces sens au regard d'un contexte plus étendu. Les améliorations constatées lors d'expériences menées sur les données de SENSEVAL-1 et vérifiées sur les données SENSEVAL-2 sont significatives.

MOTS-CLES : désambiguïsation ; désambiguïsation sémantique ; contexte optimal ; corpus ; corpus d'apprentissage ; arbre ; arbre de classification

LIRE L'ARTICLE (pdf) :


Daille, Béatrice (1999). Identification des adjectifs relationnels en corpus. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : Cet article présente l'identification en corpus des adjectifs relationnels considérés par les linguistes comme hautement dénominatifs. Notre approche utilise un programme d'extraction terminologique qui s'applique sur un corpus préalablement étiqueté et lemmatisé. Après avoir rappelé quelques propriétés linguistiques des adjectifs relationnels, nous présenterons le programme d'extraction de terminologie et les modifications apportées à celui-ci pour effectuer cette identification. Nous évaluerons le caractère dénominatif de ces adjectifs et des termes nominaux où ils apparaissent en les comparant à un thesaurus. Nous conclurons sur l'intérêt de ces adjectifs à la fois pour l'extraction de terminologie mais aussi pour d'autres problématiques comme l'extraction de connaissances à partir de corpus ou la mise à jour d'un thesaurus.

MOTS-CLES : adjectif ; adjectif relationnel ; groupe prépositionnel ; variation ; terme ; candidat-terme

LIRE L'ARTICLE (pdf) :


Dal, Georgette ; Hathout, Nabil & Namer, Fiammetta (1999). Construire un lexique dérivationnel : théorie et réalisations. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : Le travail qui suit teste différentes façons de concevoir et de construire un lexique dérivationnel. Afin de mener à bien cette tâche, nous centrerons l'analyse sur les suffixations par -able et -ité du français (et les dérivés qu'elles forment), et nous les soumettrons à des éclairages différents : un éclairage proprement théorique et deux éclairages plus finalisés, DériF et DéCor, qui présentent des techniques différentes pour le traitement automatique de la morphologie. Au terme de ce travail, nous comparerons les résultats obtenus.

MOTS-CLES : unité lexicale ; lexique ; lexique dérivationnel ; nom ; nom recteur ; suffixe

LIRE L'ARTICLE (pdf) :


Danlos, Laurence & Gaiffe, Bertrand (2000). Coréférence événementielle et relations de discours. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : La coréférence événementielle est un phénomène largement ignoré tant dans les travaux sur la coréférence que dans ceux sur l'ordre temporel dans le discours. Pourtant, la coréférence événementielle est la clef de voûte sur laquelle reposent au moins quatre types de discours. Les descriptions et analyses linguistiques de ces discours permettront de mettre en avant des phénomènes linguistiques inhabituels (e.g. coréférence entre éléments quantifiés existentiellement). Les relations de discours qui sont en jeu seront ensuite examinées. Cette étude nous amènera à introduire et définir de nouvelles relations de discours qui seront discutées dans le cadre de la SDRT.

MOTS-CLES : coréférence événementielle ; relation de discours ; relation de coréférence

ARTICLE NON DISPONIBLE


Danlos, Laurence (2003). Représentation sémantique sous-spécifiée pour les conjonctions de subordination. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Cet article concerne les phrases complexes avec deux conjonctions de subordination. Nous montrerons que de telles phrases peuvent s'interpréter de quatre façons différentes. Il s'agit donc de formes fortement ambigües pour lesquelles il est opportun d'avoir recours à des représentations sémantiques sous-spécifiées, et c'est ce que nous proposerons.

MOTS-CLES : arbre ; sémantique ; arbre de dérivation ; relation de dominance

LIRE L'ARTICLE (pdf) :


de Chalendar, Gaël & Grau, Brigitte (2000). SVETLAN' ou Comment Classer des Noms en fonction de leur Contexte. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : L'utilisation de connaissances sémantiques dans les applications de TAL améliore leurs performances. Cependant, bien que des lexiques étendus aient été développés, il y a peu de ressources non dédiées à des domaines spécialisés et contenant des informations sémantiques pour les mots. Dans le but de construire une telle base, nous avons conçu le système SVETLAN', capable d'apprendre des catégories de noms à partir de textes, quel que soit leur domaine. Dans le but d'éviter de créer des classes générales regroupant tous les sens des mots, les classes sont apprises en fonction de l'usage des mots en contexte.

MOTS-CLES : sémantique ; langue ; langue générale ; segment textuel ; module d'apprentissage

LIRE L'ARTICLE (pdf) :


de Chalendar, Gaël ; El Kateb, Faïza ; Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Monceaux, Laura ; Robba, Isabelle & Vilnat, Anne (2003). Confronter des sources de connaissances différentes pour obtenir une réponse plus fiable. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : La fiabilité des réponses qu'il propose, ou un moyen de l'estimer, est le meilleur atout d'un système de question-réponse. A cette fin, nous avons choisi d'effectuer des recherches dans des ensembles de documents différents et de privilégier des résultats qui sont trouvés dans ces différentes sources. Ainsi, le système QALC travaille à la fois sur une collection finie d'articles de journaux et sur le Web.

MOTS-CLES : entité nommée ; système de question-réponse ; mécanisme d'appariement ; algorithme de classification

LIRE L'ARTICLE (pdf) :


Delichère, Mathieu & Memmi, Daniel (2002). Analyse Factorielle Neuronale pour Documents Textuels. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : En recherche documentaire, on représente souvent les documents textuels par des vecteurs lexicaux de grande dimension qui sont redondants et coûteux. Il est utile de réduire la dimension des ces représentations pour des raisons à la fois techniques et sémantiques. Cependant les techniques classiques d'analyse factorielle comme l'ACP ne permettent pas de traiter des vecteurs de très grande dimension. Nous avons alors utilisé une méthode adaptative neuronale (GHA) qui s'est révélée efficace pour calculer un nombre réduit de nouvelles dimensions représentatives des données. L'approche nous a permis de classer un corpus réel de pages Web avec de bons résultats.

MOTS-CLES : analyse factorielle ; vecteur ; vecteur lexical ; réseau neuronal ; corpus ; covariance

LIRE L'ARTICLE (pdf) :


de Loupy, Claude (2002). Évaluation des taux de synonymie et de polysémie dans un texte. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : La polysémie et la synonymie sont deux aspects fondamentaux de la langue. Nous présentons ici une évaluation de l'importance de ces deux phénomènes à l'aide de statistiques basées sur le lexique WordNet et sur le SemCor. Ainsi, on a un taux de polysémie théorique de 5 sens par mot dans le SemCor. Mais si on regarde les occurrences réelles, moins de 50 % des sens possibles sont utilisés. De même, s'il y a, en moyenne, 2,7 mots possibles pour désigner un concept qui apparaît dans le corpus, plus de la moitié d'entre eux ne sont jamais utilisés. Ces résultats relativisent l'utilité de telles ressources sémantiques pour le traitement de la langue.

MOTS-CLES : synonymie ; polysémie ; structure textuelle ; corpus

LIRE L'ARTICLE (pdf) :


Djioua, Brahim (1999). DISCC : Un outil de construction et d'utilisation d'une Base de Connaissances Sémantico-Cognitives des verbes. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : Dans un premier temps nous présentons un outil informatique (DISCC) qui a pour tâche d'aider un sémanticien à construire des représentations sémantico-cognitives associées aux significations des verbes; et dans un second temps, nous montrons comment il est possible de consulter les différentes significations d'un vocable verbal polysémique représenté sous forme d'un réseau. La présentation ne présente pas un dictionnaire mais développe une méthodologie de construction et de manipulation d'une base de connaissances sémantico-cognitives des verbes.

MOTS-CLES : lexique ; lexique verbal ; langage ; langage formel ; terme ; terme nominal ; grammaire ; grammaire fonctionnelle ; base de connaissances ; sémantique

LIRE L'ARTICLE (pdf) :


Duclaye, Florence ; Collin, Olivier & Yvon, François (2003). Apprentissage Automatique de Paraphrases pour l'Amélioration d'un Système de Questions-Réponses. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Dans cet article, nous présentons une méthodologie d'apprentissage faiblement supervisé pour l'extraction automatique de paraphrases à partir du Web. À partir d'un seule exemple de paire (prédicat, arguments), un corpus est progressivement accumulé par sondage duWeb. Les phases de sondage alternent avec des phases de filtrage, durant lesquelles les paraphrases les moins plausibles sont éliminées à l'aide d'une procédure de clustering non supervisée. Ce mécanisme d'apprentissage s'appuie sur un système de Questions-Réponses existant et les paraphrases apprises seront utilisées pour en améliorer le rappel. Nous nous concentrons ici sur le mécanisme d'apprentissage de ce système et en présentons les premiers résultats.

MOTS-CLES : paraphrase ; information ; information contextuelle ; groupe verbal ; patron d'extraction ; extraction ; extraction d'information ; algorithme de clustering

LIRE L'ARTICLE (pdf) :


Etchegoyhen, Thierry (2000). Analyse Syntaxique Monotone par Décisions Différées. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : Dans cet article nous présentons une approche à l'analyse syntaxique automatique où la levée d'ambiguïtés est différée jusqu'à l'apparition d'éléments de la chaîne d'entrée permettant de procéder à une analyse correcte, la désambiguisation étant alors effectuée en cascade. L'analyseur a pour caractéristiques une croissance monotone de l'information syntaxique au fil de l'analyse, la garantie de ne pas échouer sur des phrases grammaticales telles les phrases-labyrinthe, et une faible complexité computationnelle. Le système présenté cumule ainsi les avantages d'une approche déterministe (efficacité et optimisation des calculs) et ceux d'une approche non-déterministe (adéquation empirique).

MOTS-CLES : analyse syntaxique ; analyse syntaxique monotone ; désambiguïsation ; désambiguïsation syntaxique ; levée d'ambiguïté structurelle

ARTICLE NON DISPONIBLE


Even, Fabrice & Enguehard, Chantal (2002). Extraction d'informations à partir de corpus dégradés. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Nous présentons une méthode automatique d'extraction d'information à partir d'un corpus mono-domaine de mauvaise qualité, sur lequel il est impossible d'appliquer les méthodes classiques de traitement de la langue naturelle. Cette approche se fonde sur la construction d'une ontologie semi-formelle (modélisant les informations contenues dans le corpus et les relations entre elles). Notre méthode se déroule en trois phases : 1) la normalisation du corpus, 2) la construction de l'ontologie, et 3) sa formalisation sous la forme d'une grammaire. L'extraction d'information à proprement parler exploite un étiquetage utilisant les règles définies par la grammaire. Nous illustrons notre démarche d'une application sur un corpus bancaire.

MOTS-CLES : extraction ; extraction d'information ; ontologie ; base de données ; corpus ; descripteur

LIRE L'ARTICLE (pdf) :


Fabre, Cécile & Frérot, Cécile (2002). Groupes prépositionnels arguments ou circonstants : vers un repérage automatique en corpus. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Dans cette étude, menée dans le cadre de la réalisation d'un analyseur syntaxique de corpus spécialisés, nous nous intéressons à la question des arguments et circonstants et à leur repérage automatique en corpus. Nous proposons une mesure simple pour distinguer automatiquement, au sein des groupes prépositionnels rattachés au verbe, des types de compléments différents. Nous réalisons cette distinction sur corpus, en mettant en oeuvre une stratégie endogène, et en utilisant deux mesures de productivité : la productivité du recteur verbal vis à vis de la préposition évalue le degré de cohésion entre le verbe et son groupe prépositionnel (GP), tandis que la productivité du régi vis à vis de la préposition permet d'évaluer le degré de cohésion interne du GP. Cet article présente ces deux mesures, commente les données obtenues, et détermine dans quelle mesure cette partition recouvre la distinction traditionnelle entre arguments et circonstants.

MOTS-CLES : groupe prépositionnel ; relation circonstancielle ; distinction entre argument ; corpus

LIRE L'ARTICLE (pdf) :


Fairon, Cédrick & Senellart, Jean (1999). Réflexions sur la localisation, l'étiquetage, la reconnaissance et la traduction d'expressions linguistiques complexes. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME :

MOTS-CLES : groupe nominal ; graphe ; expression composée ; traduction

LIRE L'ARTICLE (pdf) :


Ferret, Olivier & Grau, Brigitte (2000). Une analyse thématique fondée sur un principe d'amorçage. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : L'analyse thématique est une étape importante pour de nombreuses applications en traitement automatique des langues, telles que le résumé ou l'extraction d'information par exemple. Elle ne peut être réalisée avec une bonne précision qu'en exploitant une source de connaissances structurées sur les thèmes, laquelle est difficile à constituer à une large échelle. Dans cet article, nous proposons de résoudre ce problème par un principe d'amorçage : une première analyse thématique, fondée sur l'utilisation d'une source de connaissances faiblement structurée mais relativement aisée à construire, un réseau de collocations, permet d'apprendre des représentations explicites de thèmes, appelées signatures thématiques. Ces dernières sont ensuite utilisées pour mettre en oeuvre une seconde analyse thématique, plus précise et plus fiable.

MOTS-CLES : analyse thématique ; cohésion lexicale ; focalisation ; réseau de collocations

ARTICLE NON DISPONIBLE


Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Illouz, Gabriel & Jacquemin, Christian (2001). Utilisation des entités nommées et des variantes terminologiques dans un système de question-réponse. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Nous présentons dans cet article le système QALC qui a participé à la tâche Question Answering de la conférence d'évaluation TREC. Ce système repose sur un ensemble de modules de Traitement Automatique des Langues (TAL) intervenant essentiellement en aval d'un moteur de recherche opérant sur un vaste ensemble de documents : typage des questions, reconnaissance des entités nommées, extraction et reconnaissance de termes, simples et complexes, et de leurs variantes. Ces traitements permettent soit de mieux sélectionner ces documents, soit de décider quelles sont les phrases susceptibles de contenir la réponse à une question.

MOTS-CLES : entité nommée ; terminologie ; extraction de termes ; système de question-réponse ; module d'appariement

LIRE L'ARTICLE (pdf) :


Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Illouz, Gabriel ; Monceaux, Laura ; Robba, Isabelle & Vilnat, Anne (2002). Recherche de la réponse fondée sur la reconnaissance du focus de la question. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Le système de question-réponse QALC utilise les documents sélectionnés par un moteur de recherche pour la question posée, les sépare en phrases afin de comparer chaque phrase avec la question, puis localise la réponse soit en détectant l'entité nommée recherchée, soit en appliquant des patrons syntaxiques d'extraction de la réponse, sortes de schémas figés de réponse pour un type donné de question. Les patrons d'extraction que nous avons définis se fondent sur la notion de focus, qui est l'élément important de la question, celui qui devra se trouver dans la phrase réponse. Dans cet article, nous décrirons comment nous déterminons le focus dans la question, puis comment nous l'utilisons dans l'appariement question-phrase et pour la localisation de la réponse dans les phrases les plus pertinentes retenues.

MOTS-CLES : focus ; entité nommée ; appariement ; appariement question-phrase ; patron d'extraction ; système de question-réponse

LIRE L'ARTICLE (pdf) :


Ferret, Olivier (2002). Segmenter et structurer thématiquement des textes par l'utilisation conjointe de collocations et de la récurrence lexicale. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Nous exposons dans cet article une méthode réalisant de façon intégrée deux tâches de l'analyse thématique : la segmentation et la détection de liens thématiques. Cette méthode exploite conjointement la récurrence des mots dans les textes et les liens issus d'un réseau de collocations afin de compenser les faiblesses respectives des deux approches. Nous présentons son évaluation concernant la segmentation sur un corpus en français et un corpus en anglais et nous proposons une mesure d'évaluation spécifiquement adaptée à ce type de systèmes.

MOTS-CLES : récurrence lexicale ; réseau de collocations ; algorithme de segmentation

LIRE L'ARTICLE (pdf) :


Fougeron, Cécile ; Goldman, Jean-Philippe ; Dart, Alicia ; Guélat, Laurence & Jeager, Clémentine (2001). Influence de facteurs stylistiques, syntaxiques et lexicaux sur la réalisation de la liaison en français. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Les nombreuses recherches portant sur le phénomène de la liaison en français ont pu mettre en évidence l’influence de divers paramètres linguistiques et para-linguistiques sur la réalisation des liaisons. Notre contribution vise à déterminer la contribution relative de certains de ces facteurs en tirant parti d’une méthodologie robuste ainsi que d’outils de traitement automatique du langage. A partir d’un corpus de 5h de parole produit par 10 locuteurs, nous étudions les effets du style de parole (lecture oralisée/parole spontanée), du débit de parole (lecture normale/rapide), ainsi que la contribution de facteurs syntaxiques et lexicaux (longueur et fréquence lexicale) sur la réalisation de la liaison. Les résultats montrent que si plusieurs facteurs étudiés prédisent certaines liaisons, ces facteurs sont souvent interdépendants et ne permettent pas de modéliser avec exactitude la réalisation des liaisons.

MOTS-CLES : liaison ; lecture ; spontané ; débit de parole ; longueur ; fréquence ; fréquence lexicale

LIRE L'ARTICLE (pdf) :


Fourour, Nordine (2002). Nemesis, un système de reconnaissance incrémentielle des entités nommées pour le français. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Cet article présente une étude des conflits engendrés par la reconnaissance des entités nommées (EN) pour le français, ainsi que quelques indices pour les résoudre. Cette reconnaissance est réalisée par le système Nemesis, dont les spécifications ont été élaborées conséquemment à une étude en corpus. Nemesis se base sur des règles de grammaire, exploite des lexiques spécialisés et comporte un module d'apprentissage. Les performances atteintes par Nemesis, sur les anthroponymes et les toponymes, sont de 90% pour le rappel et 95% pour la précision.

MOTS-CLES : entité nommée ; lexique ; lexique spécialisé ; surcomposition référentielle ; reconnaissance incrémentielle

LIRE L'ARTICLE (pdf) :


Friburger, Nathalie & Maurel, Denis (2001). Elaboration d'une cascade de transducteurs pour l'extraction des noms de personnes dans les textes. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Cet article décrit une cascade de transducteurs pour l'extraction de noms propres dans des textes. Après une phase de pré-traitement (découpage du texte en phrases, étiquetage à l'aide de dictionnaires), une série de transducteurs sont appliqués les uns après les autres sur le texte et permettent de repérer, dans les contextes gauches et droits des éléments "déclencheurs" qui signalent la présence d'un nom de personne. Une évaluation sur un corpus journalistique journal Le Monde) fait apparaître un taux de précision de 98,7% pour un taux de rappel de 91,9%.

MOTS-CLES : patronyme ; transducteur ; extraction ; extraction ; extraction de noms ; cascade de transducteur

LIRE L'ARTICLE (pdf) :


Ganascia, Jean-Gabriel (2001). Extraction automatique de motifs syntaxiques. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Cet article présente un nouvel algorithme de détection de motifs syntaxiques récurrents dans les textes écrits en langage naturel. Il décrit d'abord l'algorithme d'extraction fondé sur un modèle d'édition généralisé à des arbres stratifiés ordonnés (ASO). Il décrit ensuite les expérimentations qui valident l'approche préconisée sur des textes de la littérature française classique des XVIIIe et XIXe siècle. Une sous-partie est consacrée à l'évaluation empirique de la complexité algorithmique. La dernière sous-partie donnera quelques exemples de motifs récurrents typiques d'un auteur du XVIIIe siècle, Madame de Lafayette.

MOTS-CLES : langage ; langage naturel ; arbre ; appariement ; graphe ; graphe de similarité ; syntaxe

LIRE L'ARTICLE (pdf) :


Gayral, Françoise & Saint-Dizier, Patrick (1999). Peut-on couper à la polysémie verbale ? Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : Dans ce bref document, nous présentons des résultats préliminaires d'une méthode de description de la sémantique des formes prédicatives dans un cadre génératif. Nous proposons une méthode pour découper les sens, en identifiant les types d'inférences qu'ils entraînent. Nous proposons une analyse intégrée des métaphores et des métonymies, ainsi qu'une représentation des sens sous forme typée et sous-spécifiée.

MOTS-CLES : information ; information lexicale ; polysémie ; polysémie verbale ; sémantique ; restriction de sélection ; prédicat

LIRE L'ARTICLE (pdf) :


Gerdes, Kim & Yoo, Hi-Yon (2003). La topologie comme interface entre syntaxe et prosodie : un système de génération appliqué au grec moderne. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Dans cet article, nous développons les modules syntaxique et topologique du modèle Sens-Texte et nous montrons l'utilité de la topologie comme représentation intermédiaire entre les représentations syntaxique et phonologique. Le modèle est implémenté dans un générateur et nous présentons la grammaire du grec moderne dans cette approche.

MOTS-CLES : syntaxe ; prosodie ; marquage communicatif ; tête ; tête verbale ; arbre ; arbre de dépendance ; processus de linéarisation

LIRE L'ARTICLE (pdf) :


Goldman, Jean-Philippe ; Laenzlinger, Christopher & Wehrli, Eric (1999). La phonétisation de "plus", "tous" et de certains nombres : une analyse phono-syntaxique. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : En synthèse automatique de la parole, la phonétisation est une étape cruciale pour une bonne intelligibilité et une bonne qualité de voix. Elle consiste à convertir une suite de mots en chaîne phonétique, qui sera par la suite utilisée pour générer le signal sonore. Les homographes hétérophones et les ajustements phonologiques tels que la liaison et l'élision sont les sources d'erreurs les plus courantes. De plus, des mots comme 'plus' , 'tous' et certains nombres ('cinq', 'six', 'dix',...) pour lesquels plusieurs réalisations phonétiques sont possibles, peuvent également être problématiques. Nous proposons ici une résolution de ces cas complexes par l'utilisation d'une analyse syntaxique.

MOTS-CLES : consonne finale ; phonétisation ; variante régionale ; syntagme

LIRE L'ARTICLE (pdf) :


Goulian, Jérôme & Antoine, Jean-Yves (2001). Compréhension Automatique de la Parole combinant syntaxe locale et sémantique globale pour une CHM portant sur des tâches relativement complexes. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Nous présentons dans cet article un système de Compréhension Automatique de la Parole (CAP) tentant de concilier les contraintes antinomiques de robustesse et d'analyse détaillée de la parole spontanée. Dans une première partie, nous montrons l'importance de la mise en oeuvre d'une CAP fine dans l'optique d'une Communication Homme-Machine (CHM) sur des tâches moyennement complexes. Nous présentons ensuite l'architecture de notre système qui repose sur une analyse en deux étapes : une première étape d'analyse syntaxique de surface (Shallow Parsing) générique suivie d'une seconde étape d'analyse sémantico-pragmatique - dépendante du domaine d'application - de la structure profonde de l'énoncé complet.

MOTS-CLES : tête ; tête lexicale ; syntaxe ; syntaxe locale ; grammaire ; grammaire de dépendance ; dialogue ; dialogue oral

LIRE L'ARTICLE (pdf) :


Grabar, Natalia & Zweigenbaum, Pierre (1999). Acquisition automatique de connaissances morphologiques sur le vocabulaire médical. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : La morphologie médicale est riche et productive. À côté de la simple flexion, dérivation et composition sont d'autres moyens pour créer des mots nouveaux. La connaissance morphologique se révèle par conséquent très importante pour toute application dans le traitement automatique du langage médical. Nous proposons une méthode simple et puissante pour l'acquisition automatique d'une telle connaissance. Cette méthode tire avantage de listes de termes synonymes disponibles afin d'amorcer le processus d'acquisition. Nous l'avons expérimentée dans le domaine médical sur le Microglossaire de Pathologie SNOMED. Les familles de mots morphologiquement reliés que nous avons obtenues sont correctes à 95 %. Utilisées dans un outil d'aide au codage avec expansion de requête, elles permettent d'en améliorer les performances.

MOTS-CLES : terminologie ; terminologie médicale ; morphologie ; morphologie médicale ; suffixe ; suffixe grammatical ; synonymie

LIRE L'ARTICLE (pdf) :


Gramatovici, Radu & Martin-Vide, Carlos (2003). Contextual grammars and Dependancy Tree. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : On présente une nouvelle variante de grammaire contextuelle structurée, qui produit des arbres de dépendance. Le nouveau modèle génératif, appelé grammaire contextuelle de dépendance, améliore la puissance générative forte et faible des grammaires contextuelles, tout en étant un candidat potentiel pour la description mathématique des modèles syntactiques de dépendance.

MOTS-CLES : grammaire ; grammaire contextuelle ; arbre ; arbre de dépendance ; arbre projectif de dépendance

LIRE L'ARTICLE (pdf) :


Hagège, Claude & Roux, Christian (2003). Entre syntaxe et sémantique : Normalisation de la sortie de l'analyse syntaxique en vue de l'amélioration de l'extraction d'information à partir de textes. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Cet article présente la normalisation de la sortie d'un analyseur robuste de l'anglais. Nous montrons quels sont les enrichissements que nous avons effectués afin de pouvoir obtenir à la sortie de notre analyseur des relations syntaxiques plus générales que celles que nous offrent habituellement les analyseurs robustes existants. Pour cela nous utilisons non seulement des propriétés syntaxiques, mais nous faisons appel aussi à de l'information de morphologie dérivationnelle. Cette tâche de normalisation est menée à bien grâce à notre analyseur XIP qui intègre tous les traitements allant du texte brut tout venant au texte normalisé. Nous pensons que cette normalisation nous permettra de mener avec plus de succès des tâches d'extraction d'information ou de détection de similarité entre documents.

MOTS-CLES : extraction ; extraction d'information ; analyse syntaxique ; grammaire ; grammaire générale ; syntagme ; syntagme nominal ; syntagme noyau

LIRE L'ARTICLE (pdf) :


Hamon, Thierry & Nazarenko, Adeline (2001). Exploitation de l'expertise humaine dans un processus de constitution de terminologie. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Le processus de construction de terminologie ne peut être entièrement automatisé. Les méthodes et des outils de la terminologie computationnelle permettent de prendre en charge une partie de la tâche, mais l'expertise humaine garde une place prépondérant. Le défi pour les outils terminologiques est de dégrossir les tâches qui sont soit trop longues soit trop complexes pour l'utilisateur tout en permettant à ce dernier d'intégrer ses propres connaissances spécialisées et en lui laissant le contrôle sur la terminologie à construire. Nous montrons ici comment le rôle de cette expertise est pris en compte dans SynoTerm, l'outil d'acquisition de relation de synonymie entre termes que nous avons développé.

MOTS-CLES : ressource lexicale ; langue ; langue générale ; candidat-terme ; acquisition de relations terminologiques

LIRE L'ARTICLE (pdf) :


Hathout, Nabil (2001). Analogies morpho-synonymiques. Une méthode d'acquisition automatique de liens morphologiques à partir d'un dictionnaire de synonymes. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Cet article présente une méthode de construction automatique de liens morphologiques à partir d'un dictionnaire de synonymes. Une analyse de ces liens met en lumière certains aspects de la structure morphologique du lexique dont on peut tirer partie pour identifier les variations allomorphiques des suffixations extraites.

MOTS-CLES : langue ; langue générale ; appariement ; signature d'analogies ; morphologie

LIRE L'ARTICLE (pdf) :


Ibrahim, Amr Helmy (2002). Maurice Gross : une refondation de la linguistique au crible de l'analyse automatique. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Qu'il s'adresse à un Prix Nobel ou à un étudiant de première année Maurice Gross ne craignait jamais d'être trop élémentaire. C'était à chaque fois comme si, entreprenant d'écrire un livre de mathématiques il ne pouvait rien démontrer avant d'avoir reconstruit les données les plus primitives du calcul et du raisonnement qui l'accompagne. Et il arrivait souvent que ceux qui l'écoutaient ou le lisaient pour la première fois, manquant par leur impatience le détail qui faisait que ses évidences n'avaient rien d'évident, s'imaginent qu'il les prenait pour des imbéciles. La vraie complexité, celle qu'aucune machine construite à ce jour ne contrôle vraiment, il l'a exposée avec une simplicité désarmante en un peu moins de deux pages au début de Méthodes en syntaxe (1975: 17-19) dans le chapitre intitulé La créativité du langage. Elle porte sur les combinaisons possibles ou impossibles au sein d'une structure de neuf constituants formant une phrase simple. Mais ces possibilités "limitées à 10 50 cas" et qui peuvent donc "être considérées comme intuitivement infinies" sans qu'il soit nécessaire "de faire appel à des mécanismes infinis pour rendre compte de leur richesse" ne sont qu'un horizon virtuel.

MOTS-CLES : langue ; langue naturelle ; groupe nominal ; grammaire ; syntaxe

LIRE L'ARTICLE (pdf) :


Illouz, Gabriel (1999). Méta-Étiqueteur Adaptatif : vers une utilisation pragmatique des ressources linguistiques. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : Le traitement automatique du langage requiert des corpus textuels de plus en plus volumineux, entre autres pour les étiqueteurs morpho-syntaxiques. Ces processus de traitement ne sont pas exempts d'erreurs. Dans l'optique d'améliorer cet étiquetage de corpus hétérogènes (composés de textes tout-venant), une approche adaptative au type de texte utilisant les ressources produites par une campagne d'évaluation sera proposée. Les résultats d'une première validation seront présentés sur les données MULTITAG. Les faits suivants sont constatés : les textes ne sont pas homogènes en terme de distribution de parties du discours, les classifications a priori ne fournissent pas une homogénéité en terme de performance et un même texte peut produire des variations positives pour un système et négatives pour un autre. De plus, il existe une relation entre la typologie de textes obtenue de façon non supervisée sur le jeu de caractères et les variations de performance.

MOTS-CLES : méta-étiqueteur ; variation ; corpus ; pragmatique

LIRE L'ARTICLE (pdf) :


Illouz, Gabriel (2000). Vers un apprentissage en TALN dépendant du type de Texte. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : Dans cet article, nous présentons la problématique de l'hétérogénéité des données textuelles et la possibilité d'utiliser cette dernière pour améliorer les traitements automatiques du langage naturel. Cette hypothèse a été abordée dans (Biber, 1993) et a donné lieu à une première vérification empirique dans (Sekine, 1998). Cette vérification a pour limite de ne s'adapter qu'à des textes dont le type est explicitement marqué. Dans le cadre de textes tout venant, nous proposons une méthode pour induire des types de textes, apprendre des traitements spécifiques à ces types puis, de façon itérative, en améliorer les performances.

MOTS-CLES : corpus ; typologie textuelle ; étiquetage ; classification

ARTICLE NON DISPONIBLE


Jackiewicz, Agata & Minel, Jean-Luc (2003). L'identification des structures discursives engendrées par les cadres organisationnels. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Cet article présente tout d'abord une analyse linguistique des cadres organisationnels et son implémentation informatique. Puis à partir de ce travail, une modélisation généralisable à l'ensemble des cadres de discours est proposée. Enfin, nous discutons du concept d'indicateur proposé dans le cadre théorique de l'exploration contextuelle.

MOTS-CLES : structure discursive ; exploration contextuelle ; segment textuel ; marqueur ; marqueur d'intégration

LIRE L'ARTICLE (pdf) :


Jacquemin, Christian & Bush, Caroline (2000). Fouille du Web pour la collecte d'Entités Nommées. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : Cette étude porte sur l'acquisition des Entités Nommées (EN) à partir du Web. L'application présentée se compose d'un moissonneur de pages et de trois analyseurs surfaciques dédiés à des structures spécifiques. Deux évaluations sont proposées : une évaluation de la productivité des moteurs en fonction des types d'EN et une mesure de la précision.

MOTS-CLES : entité nommée ; expression régulière ; acquisition lexicale ; marqueur ; marqueur discursif ; moteur de recherche

ARTICLE NON DISPONIBLE


Jamoussi, Salma ; Smaïli, Kamel & Haton, Jean-Paul (2003). Vers la compréhension automatique de la parole : extraction de concepts par réseaux bayésiens. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : La compréhension automatique de la parole peut être considérée comme un problème d'association entre deux langages différents. En entrée, la requête exprimée en langage naturel et en sortie, juste avant l'étape d'interprétation, la même requête exprimée en terme de concepts. Un concept représente un sens bien déterminé. Il est défini par un ensemble de mots partageant les mêmes propriétés sémantiques. Dans cet article, nous proposons une méthode à base de réseau bayésien pour l'extraction automatique des concepts ainsi que trois approches différentes pour la représentation vectorielle des mots. Ces représentations aident un réseau bayésien à regrouper les mots, construisant ainsi la liste adéquate des concepts à partir d'un corpus d'apprentissage. Nous conclurons cet article par la description d'une étape de post-traitement au cours de laquelle, nous étiquetons nos requêtes et nous générons les commandes SQL appropriées validant ainsi, notre approche de compréhension.

MOTS-CLES : représentation vectorielle ; réseaux bayésiens ; parole ; corpus ; corpus d'apprentissage ; extraction ; extraction de concepts

LIRE L'ARTICLE (pdf) :


Kahane, Sylvain (2000). Des grammaires formelles pour définir une correspondance. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : Dans cet article nous introduisons la notion de grammaire transductive, c'est-à-dire une grammaire formelle définissant une correspondance entre deux familles de structures. L'accent sera mis sur le module syntaxique de la théorie Sens-Texte et sur une famille élémentaire de grammaires de dépendance transductives. Nous nous intéresserons à la comparaison avec les grammaires génératives, ce qui nous amènera à discuter de l'interprétation des modèles génératifs actuels.

MOTS-CLES : grammaire ; grammaire transductive ; grammaire générative ; grammaire formelle ; grammaire de dépendance ; lexie

ARTICLE NON DISPONIBLE


Kahane, Sylvain (2003). Les signes grammaticaux dans l'interface sémantique-syntaxe d'une grammaire d'unification. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Cet article présente une grammaire d'unification dans laquelle les morphèmes grammaticaux sont traités similairement aux morphèmes lexicaux!: les deux types de morphèmes sont traités comme des signes à part entière et sont décris par des structures élémentaires qui peuvent s'unifier directement les unes aux autres (ce qui en fait une grammaire de dépendance). Nous illustrerons notre propos par un fragment de l'interface sémantique-syntaxe du français pour le verbe et l'adjectif : voix, modes, temps, impersonnel et tough-movement.

MOTS-CLES : grammaire d'unification ; morphème grammatical ; morphème lexical ; relation prédicat-argument ; grammaire ; grammaire de dépendance ; arbre ; arbre de dépendance

LIRE L'ARTICLE (pdf) :


Kinyon, Alexandra (1999). Hiérarchisation d'analyses basée sur des informations dépendancielles dans le cadre des LTAGs. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : Depuis [Kimball 73], les préférences d'attachement telles que "l'association droite" et "l'attachement minimal" ont essentiellement été formulées en termes d'arbres de constituants (e.g. forme, nombre de noeuds ...) . Nous présentons 2 principes de préférence d'attachement formulés en termes d'arbres de dérivation (i.e. d'information dépendancielle) dans le cadre du formalisme des Grammaires d'Arbres Adjoints Lexicalisées (LTAG) . Nous montrons pourquoi ce type d'approche permet de remédier aux défauts des approches structurales exprimées en termes d'arbres de constituants et rendent compte d'heuristiques largement acceptées (i.e. argument / modifieur, idiomes).

MOTS-CLES : approche structurale ; arbre ; entrée lexicale ; dépendance ; dérivation ; arbre ; arbre de dérivation

LIRE L'ARTICLE (pdf) :


Kraif, Olivier (1999). Identification des cognats et alignement bi-textuel : une étude empirique. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : Nous nous intéressons ici aux méthodes d'alignement automatique destinées à produire des corpus bi-textuels, utiles au traducteur, au terminologue ou au linguistique. Certaines techniques ont obtenu des résultats probants en s'appuyant sur la détermination empirique des " cognats " (de l'anglais " cognate "), des mots qui se traduisent l'un par l'autre et qui présentent une ressemblance graphique. Or les cognats sont généralement captés au moyen d'une approximation abrupte, de nature opératoire : on considère tous les 4-grammes (mots possédants 4 lettres en commun) comme cognats potentiels. Aucune étude n'a été faite, à notre connaissance, à propos de la validité de cette approximation. Afin d'en démontrer les possibilités et les limites, nous avons cherché à déterminer empiriquement la qualité de cette simplification, en termes de bruit et de silence (ou de manière complémentaire, de précision et de rappel). Nous avons ensuite essayé de développer un filtrage plus efficace, basé sur l'utilisation des sous-chaînes maximales. Enfin, nous avons corrélé les améliorations du filtrage avec les résultats de l'alignement, en nous basant sur une méthode générale développée par nous : nous avons pu constater un net progrès en terme de rappel et de précision de l'alignement.

MOTS-CLES : cognat ; distribution lexicale ; corpus ; corpus bi-textuel ; alignement ; information ; information mutuelle ; correspondance lexicale

LIRE L'ARTICLE (pdf) :


Kraif, Olivier (2000). Extraction automatique de correspondances lexicales : évaluation d'indices et d'algorithmes. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : Les bi-textes sont des corpus bilingues parallèles, généralement segmentés et alignés au niveau des phrases. Une des applications les plus directes de ces corpus consiste à en extraire automatiquement des correspondances lexicales, fournissant une information utile aux traducteurs, aux lexicographes comme aux terminologues. Comme pour l'alignement, des méthodes statistiques ont donné de bons résultats dans ce domaine. Nous pensons qu'une exploitation judicieuse d'indices statistiques adaptés et d'algorithmes de conception simple permet d'obtenir des correspondances fiables. Après avoir présenté les indices classiques, auxquels nous essayons d'apporter des améliorations, nous proposons dans cette article une étude empirique destinée à en montrer les potentialités.

MOTS-CLES : extraction ; extraction automatique de correspondances lexicales ; alignement ; alignement lexical ; lexicographie ; relation de traduction

LIRE L'ARTICLE (pdf) :


Kurdi, Mohamed-Zakaria (2000). La grammaire sémantique d'unification d'arbres : un formalisme pour l'analyse des dialogues oraux spontanés. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : Cet article porte sur la grammaire sémantique d'unification d'arbres (STUO). 11 s'agit d'un formalisme que nous proposons comme une alternative aux approches simplificatrices menées dans le contexte du traitement automatique de la parole ainsi qu'aux approches à base de grammaires classiques qui sont généralement non adaptées au traitement de l'oral. La motivation essentielle de ce formalisme est la combinaison de la robustesse et la simplicité des grammaires sémantiques à la profondeur des grammaires classiques. Les propriétés essentielles de ce formalisme sont : une interaction directe entre la syntaxe et la sémantique, un système de traits économique et une simplicité tant de la mise en oeuvre de la grammaire que pour sa modification. La STUG a été implémentée au sein du système OASIS qui est un système d'analyse partielle de la parole spontanée. Les résultats de l'évaluation ont montré la bonne couverture de notre grammaire tant au niveau des arbres analysés qu'au niveau lexical ainsi que l'efficacité de cette grammaire pour la desambiguïsation et pour l'évitement des erreurs dans l'entrée.

MOTS-CLES : grammaire ; grammaire sémantique ; unification d'arbres ; parole ; parole spontanée ; ambiguïté contextuelle

ARTICLE NON DISPONIBLE


Kurdi, Mohamed-Zakaria (2000). Une approche intégrée pour la normalisation des extragrammaticalités de la parole spontanée. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : Dans cet article, nous présentons une nouvelle approche pour la normalisation des extragrammaticalités de la parole. La particularité de cène approche est l'intégration de différentes sources de connaissances de haut niveau, en particulier le lexique, la syntaxe et la sémantique. Ainsi, le traitement des extragrammaticalités se déroule suivant deux étapes : dans la première, le système normalise les Extragrammaticalités Lexicales (Eis) (hésitations, amalgames, etc.) et dans la deuxième, le système détecte et corrige les Extragrammaticalités Supra Lexicales (ESLs). Ce traitement est base sur des modèles de ESLs (règles et pattems) qui considèrent à la fois les informations syntaxiques et les informations structurales dans la détection et la correction des extragrammaticalités. De même, le système a été doté de patterns de contrôle ainsi que de grammaires sémantiques afin de réduire au maximum la surgénérativité. Les résultats de l'évaluation ont montré l'efficacité de notre approche à détecter et à corriger les extragrammaticalités tout en évitant les cas de surgénérativité.

MOTS-CLES : parole ; parole spontanée ; extragrammaticalité lexicale ; corpus ; corpus d'apprentissage ; information ; information structurale

ARTICLE NON DISPONIBLE


Lafourcade, Mathieu & Prince, Violaine (2001). Synonymies et vecteurs conceptuels. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : La synonymie est une relation importante en TAL mais qui reste problématique. La distinction entre synonymie relative et synonymie subjective permet de contourner certaines difficultés. Dans le cadre des vecteurs conceptuels, il est alors possible de définir formellement des fonctions de test de synonymie et d'en expérimenter l'usage.

MOTS-CLES : synonymie ; vecteur ; vecteur conceptuel ; recherche d'information ; segment textuel

LIRE L'ARTICLE (pdf) :


Laï, Claude & Pasero, Robert (1999). Technique de résolution de proformes enchâssées. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : Nous présentons une technique de résolution de proformes enchâssées à l'aide des métastructures Prolog. Nous montrons tout d'abord un exemple d'utilisation de ces métastructures pour contrôler l'appartenance d'un élément à un domaine. Une plus grande utilité est ensuite démontrée dans la résolution de contraintes contextuelles dynamiques, qui sont particulières dans le sens où elles interviennent en fonction des contraintes déjà existantes sur les éléments considérés. Une application utile de ces contraintes est d'éviter les redondances dans la recherche des possibilités de référents pour un discours considéré, notamment dans le cas de proformes enchâssées.

MOTS-CLES : résolution de proforme ; enchâssement ; prédicat ; programmation ; programmation par contrainte

LIRE L'ARTICLE (pdf) :


Laï, Claude (2000). Propagation de traits conceptuels au moyen des métastructures Prolog. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : Après avoir effectué une description des métastructures Prolog, nous montrons leur utilité dans le domaine du Traitement Automatique du Langage Naturel, et plus précisément dans la propagation de traits conceptuels complexes comme l'appartenance des individus à des domaines pouvant faire intervenir des unions de produits cartésiens d'ensembles.

MOTS-CLES : métastructure Prolog ; langage ; langage naturel ; programmation ; programmation par contrainte ; produit cartésien

ARTICLE NON DISPONIBLE


Landragin, Frédéric (2003). Une caractérisation de la pertinence pour les actions de référence. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Que ce soit pour la compréhension ou pour la génération d'expressions référentielles, la Théorie de la Pertinence propose un critère cognitif permettant de comparer les pertinences de plusieurs expressions dans un contexte linguistique. Nous voulons ici aller plus loin dans cette voie en proposant une caractérisation précise de ce critère, ainsi que des pistes pour sa quantification. Nous étendons l'analyse à la communication multimodale, et nous montrons comment la perception visuelle, le langage et le geste ostensif interagissent dans la production d'effets contextuels. Nous nous attachons à décrire l'effort de traitement d'une expression multimodale à l'aide de traits. Nous montrons alors comment des comparaisons entre ces traits permettent d'exploiter efficacement le critère de pertinence en communication homme-machine. Nous soulevons quelques points faibles de notre proposition et nous en tirons des perspectives pour une formalisation de la pertinence.

MOTS-CLES : expression référentielle ; expression multimodale ; dialogue ; théorie de la pertinence

LIRE L'ARTICLE (pdf) :


Langlais, Philippe & Simard, Michel (2001). Récupération de segments sous-phrastiques dans une mémoire de traduction-. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : L'utilité des outils d'aide à la traduction reposant sur les mémoires de traduction est souvent limitée par la nature des segments que celles-ci mettent en correspondance, le plus souvent des phrases entières. Cet article examine le potentiel d'un type de système qui serait en mesure de récupérer la traduction de séquences de mots de longueur arbitraire.

MOTS-CLES : traduction ; séquence de mots ; segment ; corpus

LIRE L'ARTICLE (pdf) :


Langlais, Philippe (2002). Ressources terminologiques et traduction probabiliste: premiers pas positifs vers un système adaptatif. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Cette dernière décennie a été le témoin d'importantes avancées dans le domaine de la traduction statistique (TS). Aucune évaluation fine n'a cependant été proposée pour mesurer l'adéquation de l'approche statistique dans un contexte applicatif réel.Dans cette étude, nous étudions le comportement d'un engin de traduction probabiliste lorsqu'il traduit un texte de nature très éloignée de celle du corpus utilisé lors de l'entraînement. Nous quantifions en particulier la baisse de performance du système et développons l'idée que l'intégration de ressources terminologiques dans le processus est une solution naturelle et salutaire à la traduction. Nous décrivons cette intégration et évaluons son potentiel.

MOTS-CLES : terminologie ; traduction ; corpus ; modèle d'alignement

LIRE L'ARTICLE (pdf) :


Langlais, Philippe & Simard, Michel (2003). De la traduction probabiliste aux mémoires de traduction (ou l'inverse). Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : En dépit des travaux réalisés cette dernière décennie dans le cadre général de la traduction probabiliste, nous sommes toujours bien loin du jour où un engin de traduction automatique (probabiliste ou pas) sera capable de répondre pleinement aux besoins d'un traducteur professionnel. Dans une étude récente (Langlais, 2002), nous avons montré comment un engin de traduction probabiliste pouvait bénéficier de ressources terminologiques extérieures. Dans cette étude, nous montrons que les techniques de traduction probabiliste peuvent être utilisées pour extraire des informations sous-phrastiques d'une mémoire de traduction. Ces informations peuvent à leur tour s'avérer utiles à un engin de traduction probabiliste. Nous rapportons des résultats sur un corpus de test de taille importante en utilisant la mémoire de traduction d'un concordancier bilingue commercial.

MOTS-CLES : terminologie ; traduction ; traduction probabiliste ; brique traductionnelle

LIRE L'ARTICLE (pdf) :


Lebarbé, Thomas (2001). Vers une plate-forme multi-agents pour l'exploration et le traitement linguistiques. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Dans cet article, nous proposons une plate-forme multi-agents pour l'expérimentation et le traitement linguistique. Après une description du modèle d'agent APA, nous présentons l'état actuel de nos travaux: une implémentation en système multi-agents de l'analyse syntaxique selon le paradigme des grammaires de dépendances en chunk. Nous montrons ensuite d'autres possibilités d'implémentation selon d'autres paradigmes syntaxiques mais aussi au delà de la simple syntaxe.

MOTS-CLES : chunk ; grammaire ; grammaire de dépendance ; arbre ; agent de compétence ; agent d'observation ; système multi-agents ; syntaxe ; analyse syntaxique ; environnement

LIRE L'ARTICLE (pdf) :


L'haire, Sébastien ; Mengon, Juri & Laenzlinger, Christopher (2000). Outils génériques et transfert hybride pour la traduction automatique sur Internet. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : Dans cet article, nous décrivons un système de traduction automatique pour l'allemand, le français, l'italien et l'anglais. Nous utilisons la technique classique analyse-transfert-génération. Les phrases d'entrée sont analysées par un analyseur générique multilingue basé sur la théorie ((Principes; Paramètres)) de la grammaire générative chomskienne. Le mécanisme de transfert agit sur des représentations hybrides qui combinent des éléments lexicaux avec de l'information sémantique abstraite. Enfin, un générateur inspiré de la même théorie linguistique engendre des phrases de sortie correctes. Nous décrivons également brièvement les différentes interfaces envisagées sur Internet.

MOTS-CLES : traduction ; traduction automatique ; transfert lexico-structural ; sémantique ; éléments lexicaux

LIRE L'ARTICLE (pdf) :


Lopez, Patrice ; Fay-Varnier, Christine & Roussanaly, Azim (1999). Sous-langages d'application et LTAG : le système EGAL. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : Nous présentons un système dédié à la conception et au test d'un sous-language d'application pour un système de Dialogue Homme-Machine. EGAL se base sur une grammaire LTAG générale de la langue qui est spécialisée à une application donnée à l'aide d'un corpus d'entraînement. Un double effort a porté premièrement sur la définition d'une méthodologie précise passant par une expérimentation de type Magicien d'Oz pour le recueil des corpus et des estimations de la représentativité du corpus de conception, et, deuxièmement, sur la spécification des composants du système en vue de mettre en oeuvre des outils conviviaux, génériques et ouverts.

MOTS-CLES : grammaire ; sémantique ; sémantique prédicative ; langage ; langage naturel ; corpus ; sous langage

LIRE L'ARTICLE (pdf) :


Luc, Christophe (2001). Une typologie des énumérations basée sur les structures rhétoriques et architecturales du texte. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Cet article concerne la caractérisation et la représentation de la structure interne des énumérations.Pour ce faire, nous utilisons deux modèles de texte : d'une part la Théorie des Structures Rhétoriques (RST) qui fournit un cadre d'interprétation pour la structure discursive des textes et d'autre part le modèle de représentation de l'architecture textuelle qui est principalement dédié à l'étude et à la représentation des structures visuelles des textes. Après une brève présentation des modèles, nous nous concentrons sur l'étude de l'objet "énumérations". Nous exhibons et commentons trois exemples d'énumérations spécifiques que nous appelons des énumérations non-parallèles. Nous analysons la structure de ces énumérations et proposons un principe de composition des modèles de référence pour représenter ces énumérations. Enfin, nous présentons une classification des énumérations s'appuyant sur les caractéristiques de ces modèles.

MOTS-CLES : relation de dépendance ; structure textuelle ; modèle de référence ; modèle de représentation

LIRE L'ARTICLE (pdf) :


Maniez, François (2001). Désambiguïsation syntaxique des groupes nominaux en anglais médical: étude des structures adjectivales à partir d'un corpus bilingue. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : L'ambiguïté syntaxique constitue un problème particulièrement délicat à résoudre pour les analyseurs morphosyntaxiques des logiciels d'aide à la traduction, en particulier dans le cas des longs groupes nominaux typiques des langues de spécialité. En utilisant un corpus bilingue d'articles médicaux anglais traduits vers le français, nous examinons divers moyens de résoudre l'ambiguïté du rattachement de l'adjectif à l'un des deux noms qui le suivent dans les tournures anglaises de forme adjectif-nom-nom.

MOTS-CLES : groupe nominal ; langue médicale ; traduction ; désambiguïsation ; langue ; langue de spécialité

LIRE L'ARTICLE (pdf) :


Manuélian, Hélène (2003). Une analyse des emplois du démonstratif en corpus. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Cet article propose une nouvelle classification des utilisations des démonstratifs, une mise en oeuvre de cette classification dans une analyse de corpus et présente les resultats obtenus au terme de cette analyse. La classification proposée est basée sur celles existant dans la littérature et étendues pour permettre la génération de groupes nominaux démonstratifs. L'analyse de corpus montre en particulier que la nature "reclassifiante" du démonstratif lui permet d'assumer deux fonctions (une fonction anaphorique et une fonction de support pour de l'information nouvelle) et qu'il existe des moyens variés de réaliser ces fonctions.

MOTS-CLES : groupe nominal ; syntagme ; syntagme démonstratif ; anaphore ; corpus ; fréquence

LIRE L'ARTICLE (pdf) :


Mathet, Yann (2000). Le paradigme monodimensionnel dans l'expression de l'espace et du déplacement. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : La sémantique de certains verbes (doubler, distancer, suivre) et de certaines prépositions ou adverbes (devant, derrière) peut poser problème dès lors qu'elle est considérée comme purement spatiale, c'est-à-dire en des termes " classiques " comme la topologie, le repérage ou la distance. Nous proposons dans cet article une description plus générale de ces items lexicaux basée sur la notion d'axe abstrait, rendant compte de leur sens dans différents domaines, ainsi que les différents mécanismes permettant de les plonger dans le domaine qui concerne notre recherche, le spatio-temporel. Ces mécanismes sont intégrés dans un modèle informatique de génération automatique de prédicats verbaux afin d'éprouver leur pertinence.

MOTS-CLES : paradigme monodimensionnel ; prédication monodimensionnelle ; prédicat ; prédicat verbal ; sémantique

LIRE L'ARTICLE (pdf) :


Mertens, Piet (1999). Un algorithme pour la génération de l'intonation dans la parole de synthèse. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : L'article décrit l'implémentation d'un modèle d'intonation dans son application à la synthèse de la parole pour le français. Le modèle se caractérise par l'importance accordée à la syntaxe et par une approche analytique de l'intonation qui, en synthèse, permet une manipulation explicite et compositionnelle du sens intonatif. Le traitement proprement dit est précédé d'une analyse syntaxique identifiant les constituants, certains rapports de dépendance ou certaines constructions qui demandent une intonation particulière. Ces aspects intonatifs sont représentés par des marqueurs symboliques. À partir de l'arborescence sont constitués les groupes intonatifs, tout en tenant compte du rythme. Dans certaines conditions, des réajustements de la structure syntaxique seront effectués. Les tons mélodiques sont attribués aux groupes en fonction des marqueurs et des rapports syntaxiques.

MOTS-CLES : regroupement intonatif ; intonation ; accent initial ; accent lexical

LIRE L'ARTICLE (pdf) :


Meunier, Frédéric (1999). Modélisation des ressources linguistiques d'une application industrielle. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : Cet article présente les avantages qu'apporte la modélisation des ressources linguistiques utilisées dans une application. Le lecteur trouvera également dans cet article une présentation rapide de deux méthodes répandues dans le monde de l'informatique (Merise et UML) et leur modèle associé (entité relation et objet). Enfin, nous donnerons un exemple de modélisation des ressources linguistiques d'une application en cours de développement.

MOTS-CLES : entrée lexicale ; structure formelle ; arbre ; génération de textes

LIRE L'ARTICLE (pdf) :


Michiels, Archibald (2001). DEFI, un outil d'aide à la compréhension. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : DEFI est un outil d’aide à la comprehension de textes anglais destine aux lecteurs francophones. Il établit un filtre sur le dictionnaire bilingue anglais-français pour ne retenir que les acceptions pertinentes au contexte et en donner les équivalents français, en plaçant les plus pertinents en tête.

MOTS-CLES : unité textuelle ; grammaire ; grammaire locale ; appariement ; base de données

LIRE L'ARTICLE (pdf) :


Miclet, Laurent & Chodorowski, Jacques (1999). Apprentissage et Evaluation de Modèles de Langage par des Techniques de Correction d'Erreurs. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : Cet article a pour but de décrire la mise au point et l'expérimentation de méthodes d'apprentissage de syntaxe à partir d'exemples positifs, en particulier pour des applications de Reconnaissance de la Parole et de Dialogue Oral. Les modèles syntaxiques, destinés à être intégrés dans une chaîne de traitement de la parole, sont extraits des données par des méthodes d'inférence grammaticale symbolique et stochastique. Ils sont fondés sur des techniques de correction d'erreurs dans les séquences. L'ensemble de ce travail a été réalisé dans le cadre du contrat 97-1B-004 avec France-Telecom (Centre National d'Etudes des Télécommunications). Dans la première partie de cet article, nous rappelons les distances entre séquences basées sur des opérations élémentaires de correction d'erreur. Nous décrivons ensuite un algorithme classique d'inférence grammaticale fondé sur cette notion, et nous en proposons une amélioration. Nous abordons à cet endroit le problème de l'évaluation d'un concept appris seulement à partir d'exemples positifs, sans contre-exemples. Par la suite, le modèle syntaxique est étendu en attribuant des probabilités (apprises à partir des données) aux règles de la grammaire. On dispose dans ce cadre d'un outil d'évaluation de la qualité de l'apprentissage : la perplexité ; cependant pour obtenir des résultats significatifs, il faut être capable de probabiliser l'espace entier des séquences, ce qui implique de lisser la grammaire stochastique apprise. Une technique de lissage est proposée, qui permet alors d'évaluer l'apprentissage sur le corpus de données issues de l'expérimentation en dialogue oral.

MOTS-CLES : dérivation ; dérivation corrective ; inférence grammaticale ; grammaire ; correction d'erreur ; corpus ; corpus d'apprentissage

LIRE L'ARTICLE (pdf) :


Monceaux, Laura & Robba, Isabelle (2002). Les analyseurs syntaxiques : atouts pour une analyse des questions dans un système de question-réponse ? Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Cet article montre que pour une application telle qu'un système de question - réponse, une analyse par mots clés de la question est insuffisante et qu'une analyse plus détaillée passant par une analyse syntaxique permet de fournir des caractéristiques permettant une meilleure recherche de la réponse.

MOTS-CLES : entité nommée ; groupe nominal ; segmentation ; analyse syntaxique ; module d'analyse syntaxique ; système de question-réponse

LIRE L'ARTICLE (pdf) :


Monceaux, Laura & Vilnat, Anne (2003). MULTI-ANALYSE vers une analyse syntaxique plus fiable. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Dans cet article, nous proposons de montrer que la combinaison de plusieurs analyses syntaxiques permet d'extraire l'analyse la plus fiable pour une phrase donnée. De plus, chaque information syntaxique sera affectée d'un score de confiance déterminé selon le nombre d'analyseurs syntaxiques la confirmant. Nous verrons que cette approche implique l'étude des différents analyseurs syntaxiques existants ainsi que leur évaluation.

MOTS-CLES : analyse syntaxique ; groupe nominal ; groupe prépositionnel ; algorithme de combinaison ; taux de confiance

LIRE L'ARTICLE (pdf) :


Morin, Emmanuel (2000). Complémentarité des approches supervisées et non supervisées pour l'acquisition de relations entre termes. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : Cet article a pour objectif de préciser la complémentarité des approches supervisées et non supervisées utilisées en structuration terminologique pour extraire des relations entre termes. Cette étude est réalisée sur un exemple concret où nous cherchons à faire ressortir les avantages et les inconvénients de chaque approche. Au terme de cette analyse, nous proposons un cadre pour les employer de façon synergique.

MOTS-CLES : analyse distributionnelle ; terminologie ; relation conceptuelle entre termes ; extraction ; extraction de couple

ARTICLE NON DISPONIBLE


Namer, Fiammetta (2002). Acquisition automatique de sens à partir d'opérations morphologiques en français : études de cas. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Cet article propose une méthode de codage automatique de traits lexicaux sémantiques en français. Cette approche exploite les relations fixées par l'instruction sémantique d'un opérateur de construction morphologique entre la base et le mot construit. En cela, la réflexion s'inspire des travaux de Marc Light (Light 1996) tout en exploitant le fonctionnement d'un système d'analyse morphologique existant : l'analyseur DériF. A ce jour, l'analyse de 12 types morphologiques conduit à l'étiquetage d'environ 10 % d'un lexique composé de 99000 lemmes. L'article s'achève par la description de deux techniques utilisées pour valider les traits sémantiques.

MOTS-CLES : trait lexical ; sémantique ; base verbale ; base adjectivale ; analyse morphologique

LIRE L'ARTICLE (pdf) :


Olivier Ferret ; Grau, Brigitte ; Minel, Jean-Luc & Porhiel, Sylvie (2001). Repérage de structures thématiques dans des textes. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Afin d'améliorer les performances des systèmes de résumé automatique ou de filtrage sémantique concernant la prise en charge de la cohérence thématique, nous proposons un modèle faisant collaborer une méthode d'analyse statistique qui identifie les ruptures thématiques avec un système d'analyse linguistique qui identifie les cadres de discours.

MOTS-CLES : exploration contextuelle ; unité textuelle ; valeur de cohésion ; segment

LIRE L'ARTICLE (pdf) :


Palomar, M. ; Ferrández, A. ; Moreno, L. ; Saiz-Noeda, M. ; Muñoz, R. ; Martinez-Barco, P. ; Peral, J. & Navarro, B. (1999). A Robust Partial Parsing Strategy based on the Slot Unification Grammars. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : ?

MOTS-CLES :

LIRE L'ARTICLE (pdf) :


Panissod, Christiane (1999). Quantification et anaphore : entité anaphorique complexe (méronymique, processuelle, situationnelle). Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : Quels types d'informations sont nécessaires à l'interprétation de référents évolutifs et de référents associés ? Nous verrons que les anaphores évolutives et associatives sont construites à partir de processus et de situations, et que leur interprétation nécessite une représentation lexicale complexe. Les approches atomiques peuvent par conséquent difficilement rendre compte de ce type d'anaphores : cependant les propriétés des quantificateurs semblent jouer un rôle dans ces phénomènes.

MOTS-CLES : anaphore ; quantification ; représentation lexicale ; méronymie

LIRE L'ARTICLE (pdf) :


Paroubek, Patrick & Rajman, Martin (2000). MULTITAG, une ressource linguistique produit du paradigme d'évaluation. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : Dans cet article, nous montrons comment le paradigme d'évaluation peut servir pour produire de façon plus économique des ressources linguistiques validées de grande qualité. Tous d'abord nous présentons le paradigme d'évaluation et rappelons les points essentiels de son histoire pour le traitement automatique des langues, depuis les premières applications dans le cadre des campagnes d'évaluation américaines organisées par le NIST et le DARPA jusqu'aux derniers efforts européens en la matière. Nous présentons ensuite le principe qui permet de produire à coût réduit des ressources linguistiques validées et de grande qualité à partir des données qui sont produites lorsque l'on applique le paradigme d'évaluation. Ce principe trouve ses origines dans les expériences (Recognizer Output Voting Error Recognition) qui ont été effectuées pendant les campagnes d'évaluation américaine pour la reconnaissance automatique de la parole. Il consiste à combiner les données produites par les systèmes à l'aide d'une simple stratégie de vote pour diminuer le nombre d'erreurs. Nous faisons alors un lien avec les stratégies d'apprentissages automatiques fondées sur la combinaison de systèmes de même nature. Notre propos est illustré par la description de la production du corpus MULTITAG (projet du programme Ingénierie des Langues des département SPI et SHS du CNRS) à partir des données qui avaient été annotées lors de la campagne d'évaluation GRACE, correspondant à un corpus d'environ 1 million de mots annotés avec un jeu d'étiquettes morpho-syntaxiques de grain très fin dérivé de celui qui a été défini dans les projets EAGLES et MULTEXT. Nous présentons le corpus MULTITAG et la procédure qui a été suivie pour sa production et sa validation. Nous concluons en présentant le gain obtenu par rapport à une méthode classique de validation de marquage morho-syntaxique.

MOTS-CLES : paradigme d'évaluation ; campagne d'évaluation ; système d'annotation ; corpus

ARTICLE NON DISPONIBLE


Perrier, Guy (2002). Descriptions d'arbres avec polarités : les Grammaires d'Interaction. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Nous présentons un nouveau formalisme linguistique, les Grammaires d'Interaction, dont les objets syntaxiques de base sont des descriptions d'arbres, c'est-à-dire des formules logiques spécifiant partiellement des arbres syntaxiques. Dans ce contexte, l'analyse syntaxique se traduit par la construction de modèles de descriptions sous la forme d'arbres syntaxiques complètement spécifiés. L'opération de composition syntaxique qui permet cette construction pas à pas est contrôlée par un système de traits polarisés agissant comme des charges électrostatiques.

MOTS-CLES : entrée lexicale ; grammaire ; grammaire catégorielle ; description d'arbre ; grammaire d'interprétation

LIRE L'ARTICLE (pdf) :


Pichon, Ronan & Sébillot, Pascale (1999). Différencier les sens des mots à l'aide du thème et du contexte de leurs occurrences : une expérience. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : Dans cet article, nous montrons, à travers l'exposé de résultats d'une expérience menée sur corpus, comment la connaissance des thèmes dans lesquels apparaissent des mots et la mise en évidence de similarités et de différences entre les voisinages de leurs occurrences dans les parties de textes abordant ces thèmes permettent de mettre au jour des différences fines dans les acceptions associées aux mots dans chacun de ces thèmes. La méthode proposée pour ce faire est presque entièrement automatique et est basée sur le calcul d'intersections et de différences ensemblistes entre des séquences de mots constituant des contextes.

MOTS-CLES : acquisition lexicale ; ressource lexicale ; corpus

LIRE L'ARTICLE (pdf) :


Pinkham, Jessie & Smets, Martine (2002). Traduction automatique ancrée dans l'analyse linguistique. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Nous présentons dans cet article le système de traduction français-anglais MSR-MT développé à Microsoft dans le groupe de recherche sur le traitement du language (NLP). Ce système est basé sur des analyseurs sophistiqués qui produisent des formes logiques, dans la langue source et la langue cible. Ces formes logiques sont alignées pour produire la base de données du transfert, qui contient les correspondances entre langue source et langue cible, utilisées lors de la traduction. Nous présentons différents stages du développement de notre système, commencé en novembre 2000. Nous montrons que les performances d'octobre 2001 de notre système sont meilleures que celles du système commercial Systran, pour le domaine technique, et décrivons le travail linguistique qui nous a permis d'arriver à cette performance. Nous présentons enfin les résultats préliminaires sur un corpus plus général, les débats parlementaires du corpus du Hansard. Quoique nos résultats ne soient pas aussi concluants que pour le domaine technique, nous sommes convaincues que la résolution des problèmes d'analyse que nous avons identifiés nous permettra d'améliorer notre performance.

MOTS-CLES : traduction ; syntagme ; langue source ; langue ; langue cible ; corpus

LIRE L'ARTICLE (pdf) :


Poibeau, Thierry (2000). De l'acquisition de classes lexicales à l'induction semi-automatique de grammaires locales. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : Cette étude vise à automatiser partiellement l'acquisition de ressources pour un système d'extraction fondé sur la boîte à outils INTEX. Les processus d'apprentissage mis en oeuvre sont symboliques, supervisés et fortement interactifs afin de n'apprendre que ce qui est utile pour la tâche. Nous examinons d'abord la notion d'automate patron, permettant l'acquisition d'éléments apparaissant dans des contextes similaires, nous proposons ensuite plusieurs mécanismes de généralisation avant d'envisager l'induction semi-automatique de grammaires locales.

MOTS-CLES : grammaire ; grammaire locale ; acquisition de classes ; classes lexicales ; corpus ; automate ; automate patron ; induction de grammaire

ARTICLE NON DISPONIBLE


Poibeau, Thierry (2001). Extraction d'information dans les bases de données textuelles en génomique au moyen de transducteurs à nombre fini d'états. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Cet article décrit un système d'extraction d'information sur les interactions entre gènes à partir de grandes bases de données textuelles. Le système est fondé sur une analyse au moyen de transducteurs à nombre fini d'états. L'article montre comment une partie des ressources (verbes d'interaction) peut être acquise de manière semi-automatique. Une évaluation détaillée du système est fournie.

MOTS-CLES : extraction ; extraction d'information ; transducteur ; nom ; nom de gène ; base de données

LIRE L'ARTICLE (pdf) :


Poibeau, Thierry ; Dutoit, Dominique & Bizouard, Sophie (2002). Évaluer l'acquisition semi-automatique de classes sémantiques. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Cet article vise à évaluer deux approches différentes pour la constitution de classes sémantiques. Une approche endogène (acquisition à partir d'un corpus) est contrastée avec une approche exogène (à travers un réseau sémantique riche). L'article présente une évaluation fine de ces deux techniques.

MOTS-CLES : analyse distributionnelle ; classes sémantiques ; corpus ; acquisition de classes

LIRE L'ARTICLE (pdf) :


Rozenknop, Antoine (2002). Une grammaire hors-contexte valuée pour l'analyse syntaxique. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Les grammaires hors-contexte stochastiques sont exploitées par des algorithmes particulièrement efficaces dans des tâches de reconnaissance de la parole et d'analyse syntaxique. Cet article propose une autre probabilisation de ces grammaires, dont les propriétés mathématiques semblent intuitivement plus adaptées à ces tâches que celles des SCFG (Stochastique CFG), sans nécessiter d'algorithme d'analyse spécifique. L'utilisation de ce modèle en analyse sur du texte provenant du corpus Susanne peut réduire de le nombre d'analyses erronées, en comparaison avec une SCFG entraînée dans les mêmes conditions.

MOTS-CLES : grammaire ; grammaire hors-contexte ; fréquence ; fréquence relative ; arbre ; arbre d'analyse ; corpus d'apprentissage ; algorithme d'apprentissage

LIRE L'ARTICLE (pdf) :


Rozenknop, Antoine ; Chappelier, Jean-Cédric & Rajman, Martin (2003). Apprentissage discriminant pour les Grammaires à Substitution d'Arbres. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Les grammaires stochastiques standards utilisent des modèles probabilistes de nature générative, fondés sur des probabilités de récriture conditionnées par le symbole récrit. Les expériences montrent qu'elles tendent ainsi par nature à pénaliser les dérivations les plus longues pour une même entrée, ce qui n'est pas forcément un comportement souhaitable, ni en analyse syntaxique, ni en reconnaissance de la parole. Dans cet article, nous proposons une approche probabiliste non-générative du modèle STSG (grammaire stochastique à substitution d'arbres), selon laquelle les probabilités sont conditionnées par les feuilles des arbres syntaxiques plutôt que par leur racine, et qui par nature fait appel à un apprentissage discriminant. Plusieurs expériences sur ce modèle sont présentées.

MOTS-CLES : grammaire ; grammaire à substitution d'arbres ; grammaire stochastique à substitution d'arbres ; corpus ; corpus d'apprentissage ; grammaire hors-contexte

LIRE L'ARTICLE (pdf) :


Savoy, Jacques & Rasolofo, Yves (2000). Recherche d'informations dans un environnement distribué. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2000). Lausanne.

RESUME : Le Web ou les bibliothèques numériques offrent la possibilité d'interroger de nombreux serveurs d'information (collections ou moteurs de recherche) soulevant l'épineux problème de la sélection des meilleures sources de documents et de la fusion des résultats provenant de différents serveurs interrogés. Dans cet article, nous présentons un nouvelle approche pour la sélection des collections basée sur les arbres de décision. De plus, nous avons évalué différentes stratégies de fusion et de sélection permettant une meilleure vue d'ensemble des différentes solutions.

MOTS-CLES : recherche d'information ; modèle vectoriel ; arbre ; arbre de décision ; moteur de recherche ; indexation

LIRE L'ARTICLE (pdf) :


Schwab, Didier ; Lafourcade, Mathieu & Prince, Violaine (2002). Vers l'apprentissage automatique, pour et par les vecteurs conceptuels, de fonctions lexicales. L'exemple de l'antonymie. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Dans le cadre de recherches sur le sens en traitement automatique du langage, nous nous concentrons sur la représentation de l'aspect thématique des segments textuels à l'aide de vecteurs conceptuels. Les vecteurs conceptuels sont automatiquement appris à partir de définitions issues de dictionnaires à usage humain (Schwab, 2001). Un noyau de termes manuellement indexés est nécessaire pour l'amorçage de cette analyse. Lorsque l'item défini s'y prête, ces définitions sont complétées par des termes en relation avec lui. Ces relations sont des fonctions lexicales (Mel'¡cuk and al, 95) comme l'hyponymie, l'hyperonymie, la synonymie ou l'antonymie. Cet article propose d'améliorer la fonction d'antonymie naïve exposée dans (Schwab, 2001) et (Schwab and al, 2002) grâce à ces informations. La fonction s'auto-modifie, par révision de listes, en fonction des relations d'antonymie avérées entre deux items. Nous exposons la méthode utilisée, quelques résultats puis nous concluons sur les perspectives ouvertes.

MOTS-CLES : vecteur ; vecteur conceptuel ; segment textuel ; antonymie ; coefficient de variation ; terme

LIRE L'ARTICLE (pdf) :


Schwab, Didier ; Lafourcade, Mathieu & Prince, Violaine (2003). Amélioration de liens entre acceptions par fonctions lexicales vectorielles symétriques. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Dans le cadre du projet Papillon qui vise à la construction de bases lexicales multilingues par acceptions, nous avons défini des stratégies pour peupler un dictionnaire pivot de liens interlingues à partir d'une base vectorielle monolingue. Il peut y avoir un nombre important de sens par entrée et donc l'identification des acceptions correspondantes peut être erronée. Nous améliorons l'intégrité de la base d'acception grâce à des agents experts dans les fonctions lexicales comme la synonymie, l'antonymie, l'hypéronymie ou l'holonymie. Ces agents sont capable de calculer la pertinence d'une relation sémantique entre deux acceptions par les diverses informations lexicales récoltées et les vecteurs conceptuels. Si une certaine pertinence est au-dessus d'un seuil, ils créent un lien sémantique qui peut être utilisé par d'autres agents chargés par exemple de la désambiguïsation ou du transfert lexical. Les agents vérifiant l'intégrité de la base cherchent les incohérences de la base et en avertissent les lexicographes le cas échéant.

MOTS-CLES : vecteur ; vecteur conceptuel ; synonymie ; base lexicale multilingue ; fonctions lexicales

LIRE L'ARTICLE (pdf) :


Selva, Thierry (2002). Génération automatique d'exercices contextuels de vocabulaire. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Cet article explore l'utilisation de ressources lexicales et textuelles ainsi que d'outils issus du TAL dans le domaine de l'apprentissage des langues assisté par ordinateur (ALAO). Il aborde le problème de la génération automatique ou semi-automatique d'exercices contextuels de vocabulaire à partir d'un corpus de textes et de données lexicales au moyen d'un étiqueteur et d'un parseur. Sont étudiées les caractéristiques et les limites de ces exercices.

MOTS-CLES : apprentissage lexical ; syntagme ; verbe ; verbe support ; module de génération ; étiquetage

LIRE L'ARTICLE (pdf) :


Smets, Martine ; Gamon, Michael ; Corston-Oliver, Simon & Ringger, Eric (2003). French Amalgam : A machine-learned sentence realization system. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Cette communication présente la version pour le français d’Amalgam, un système de réalisation automatique de phrases. Deux des modèles du système sont décrits en détail, et nous expliquons comment la performance des modèles peut être améliorée en combinant connaissances et intuition linguistiques et méthodes statistiques.

MOTS-CLES : réalisation de phrase ; phrase ; génération automatique ; arbre ; arbre de décision ; français

LIRE L'ARTICLE (pdf) :


Tanguy, Ludovic ; Armstrong, Susan & Walker, Derek (1999). Isotopies sémantiques pour la vérification de traduction. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : A des fins d'automatisation de la vérification de traduction, les méthodes traditionnelles se basent généralement sur un fort niveau de littéralité dans le style de la traduction. En faisant appel à des bases terminologiques multilingues et des algorithmes d'alignement de textes parallèles, il est possible de vérifier dans un travail de traduction le respect de normes strictes, sous la forme d'une liste de possibilités de traduction pour un terme donné. Nous proposons ici une méthode alternative basée sur le repérage, dans les deux textes, de structures sémantiques générales, ou isotopies, et la comparaison des schémas qu'elles présentent au niveau du texte et non plus de la phrase ou du paragraphe, permettant ainsi une plus grande tolérance dans le style de traduction à vérifier.

MOTS-CLES : isotopie ; unité lexicale ; sémantique ; sémantique structurale ; algorithme d'alignement ; classe d'équivalence

LIRE L'ARTICLE (pdf) :


Tanguy, Ludovic & Hathout, Nabil (2002). Webaffix : un outil d'acquisition morphologique dérivationnelle à partir du Web. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : L'article présente Webaffix, un outil d'acquisition de couples de lexèmes morphologiquement apparentés à partir du Web. La méthode utilisé est inductive et indépendante des langues particulières. Webaffix (1) utilise un moteur de recherche pour collecter des formes candidates qui contiennent un suffixe graphémique donné, (2) prédit les bases potentielles de ces candidats et (3) recherche sur le Web des cooccurrences des candidats et de leurs bases prédites. L'outil a été utilisé pour enrichir Verbaction, un lexique de liens entre verbes et noms d'action ou d'événement correspondants. L'article inclut une évaluation des liens morphologiques acquis.

MOTS-CLES : unité lexicale ; suffixe ; suffixe graphémique ; lexique ; lexique de référence ; lexème ; candidat

LIRE L'ARTICLE (pdf) :


Todirascu, Amalia & Rousselot, Francois (2001). Ontologies for Information Retrieval. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : L’article présente un système destiné à interroger en langue naturelle une base de texte sur un domaine limité. Les connaissances du domaine, représentées en logique de description, sont utilisées pour filtrer les documents retournés comme réponse. L’ontologie du domaine est extraite automatiquement à partir des textes et elle est modifiée dynamiquement avec des faits déduits par les mécanismes de logique de description. Les références aux concepts dans les textes sont identifiées par des techniques d’analyse du langage naturel.

MOTS-CLES : ontologie ; logique ; logique de description

LIRE L'ARTICLE (pdf) :


Vaillant, Pascal (2003). Une grammaire formelle du créole martiniquais pour la génération automatique. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Nous présenterons dans cette communication les premiers travaux de modélisation informatique d'une grammaire de la langue créole martiniquaise, en nous inspirant des descriptions fonctionnelles de Damoiseau (1984) ainsi que du manuel de Pinalie Bernabé (1999). Prenant appui sur des travaux antérieurs en génération de texte (Vaillant, 1997), nous utilisons un formalisme de grammaires d'unification, les grammaires d'adjonction d'arbres (TAG d'après l'acronyme anglais), ainsi qu'une modélisation de catégories lexicales fonctionnelles à base syntaxico-sémantique, pour mettre en oeuvre une grammaire du créole martiniquais utilisable dans une maquette de système de génération automatique. L'un des intérêts principaux de ce système pourrait être son utilisation comme logiciel outil pour l'aide à l'apprentissage du créole en tant que langue seconde.

MOTS-CLES : créole martiniquais ; groupe nominal ; marques aspectuelles ; grammaire ; grammaire formelle ; corpus

LIRE L'ARTICLE (pdf) :


Vazov, Nikolai (2001). A System for Extraction of Temporal Expressions from French Texts. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2001). Tours.

RESUME : Cet article présente un système pour l’identification automatique des expressions temporelles dans des textes français. La procédure d’identification repose sur une stratégie d’exploration contextuelle qui met en oeuvre deux techniques complémentaires: recherche des patrons (expressions régulières) et chart parsing qui est déclenché en fonction des patrons repérés.

MOTS-CLES : chart parsing ; exploration contextuelle

LIRE L'ARTICLE (pdf) :


Vergne, Jacques (2002). Une méthode pour l'analyse descendante et calculatoire de corpus multilingues : application au calcul des relations sujet-verbe. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Nous présentons une méthode d'analyse descendante et calculatoire. La démarche d'analyse est descendante du document à la proposition, en passant par la phrase. Le prototype présenté prend en entrée des documents en anglais, français, italien, espagnol, ou allemand. Il segmente les phrases en propositions, et calcule les relations sujet-verbe dans les propositions. Il est calculatoire, car il exécute un petit nombre d'opérations sur les données. Il utilise très peu de ressources (environ 200 mots et locutions par langue), et le traitement de la phrase fait environ 60 Ko de Perl, ressources lexicales comprises. La méthode présentée se situe dans le cadre d'une recherche plus générale du Groupe Syntaxe et Ingénierie Multilingue du GREYC sur l'exploration de solutions minimales et multilingues, ajustées à une tâche donnée, exploitant peu de propriétés linguistiques profondes, la généricité allant de pair avec l'efficacité.

MOTS-CLES : expression régulière ; chunk ; chunk verbal ; analyse descendante ; relation sujet-verbe

LIRE L'ARTICLE (pdf) :


Véronis, Jean (2003). Cartographie lexicale pour la recherche d'information. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Nous décrivons un algorithme, HyperLex, de détermination automatique des différents usages d'un mot dans une base textuelle sans utilisation d'un dictionnaire. Cet algorithme basé sur la détection des composantes de forte densité du graphe des cooccurrences de mots permet, contrairement aux méthodes précédemment proposées (vecteurs de mots), d'isoler des usages très peu fréquents. Il est associé à une technique de représentation graphique permettant à l'utilisateur de naviguer de façon visuelle à travers le lexique et d'explorer les différentes thématiques correspondant aux usages discriminés.

MOTS-CLES : recherche d'information ; cartographie lexicale ; vecteur ; vecteur de mot ; algorithme de détection de coocurrences

LIRE L'ARTICLE (pdf) :


Villaneau, Jeanne ; Antoine, Jean-Yves & Ridoux, Olivier (2002). LOGUS : un système formel de compréhension du français parlé spontané-présentation et évaluation. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Le système de compréhension présenté dans cet article propose une approche logique et lexicalisée associant syntaxe et sémantique pour une analyse non sélective et hors-cadres sémantiques prédéterminés. L'analyse se déroule suivant deux grandes étapes ; un chunking est suivi d'une mise en relation des chunks qui aboutit à la construction de la représentation sémantique finale : formule logique ou graphe conceptuel. Nous montrons comment le formalisme a dû évoluer pour accroître l'importance de la syntaxe et améliorer la généricité des règles. Malgré l'utilisation d'une connaissance pragmatico-sémantique liée à l'application, la spécificité du système est circonscrite au choix des mots du lexique et à la définition de cette connaissance. Les résultats d'une campagne d'évaluation ont mis en évidence une bonne tolérance aux inattendus et aux phénomènes complexes, prouvant ainsi la validité de l'approche.

MOTS-CLES : graphe ; graphe conceptuel ; énoncé oral ; français parlé ; système de compréhension ; chunk

LIRE L'ARTICLE (pdf) :


Villemonte de la Clergerie, Éric (2002). Construire des analyseurs avec DyALog. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Cet article survole les fonctionnalités offertes par le système DyALog pour construire des analyseurs syntaxiques tabulaires. Offrant la richesse d'un environnement de programmation en logique, DyALog facilite l'écriture de grammaires, couvre plusieurs formalismes et permet le paramétrage de stratégies d'analyse.

MOTS-CLES : analyseur partiel ; analyse bidirectionnelle ; programmation ; programmation en logique ; grammaire ; grammaire à concaténation

LIRE L'ARTICLE (pdf) :


Vinot, Romain ; Grabar, Natalia & Valette, Mathieu (2003). Application d'algorithmes de classification automatique pour la détection des contenus racistes sur l'Internet. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Le filtrage de contenus illicites sur Internet est une problématique difficile qui est actuellement résolue par des approches à base de listes noires et de mots-clés. Les systèmes de classification textuelle par apprentissage automatique nécessitant peu d'interventions humaines, elles peuvent avantageusement remplacer ou compléter les méthodes précédentes pour faciliter les mises à jour. Ces techniques, traditionnellement utilisées avec des catégories définies par leur sujet (économie ou sport par exemple), sont fondées sur la présence ou l'absence de mots. Nous présentons une évaluation de ces techniques pour le filtrage de contenus racistes. Contrairement aux cas traditionnels, les documents ne doivent pas être catégorisés suivant leur sujet mais suivant le point de vue énoncé (raciste ou antiraciste). Nos résultats montrent que les classifieurs, essentiellement lexicaux, sont néanmoins bien adaptées : plus de 90% des documents sont correctement classés, voir même 99% si l'on accepte une classe de rejet (avec 20% d'exemples non classés).

MOTS-CLES : classification automatique ; représentation vectorielle ; algorithme de classification ; corpus ; corpus d'apprentissage

LIRE L'ARTICLE (pdf) :


Wilcock, Graham (1999). Héritage Multiple et Templates dans l'Implantation de HPSG. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'1999). Cargese.

RESUME : L'analyse des propositions relatives en anglais telle que décrite par Sag (1997) se base sur une classification à deux dimensions des constructions syntaxiques en HPSG. Nous présentons ici une implémentation de cette analyse, fondée sur l'héritage multiple et les templates à deux dimensions dans le système ProFIT (Erbach, 1995).

MOTS-CLES : proposition relative ; templates ; hiérarchie ; héritage multiple

LIRE L'ARTICLE (pdf) :


Zweigenbaum, Pierre & Grabar, Natalia (2002). Accentuation de mots inconnus : application au thesaurus biomédical MeSH. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2002). Nancy.

RESUME : Certaines ressources textuelles ou terminologiques sont écrites sans signes diacritiques, ce qui freine leur utilisation pour le traitement automatique des langues. Dans un domaine spécialisé comme la médecine, il est fréquent que les mots rencontrés ne se trouvent pas dans les lexiques électroniques disponibles. Se pose alors la question de l'accentuation de mots inconnus : c'est le sujet de ce travail. Nous proposons deux méthodes d'accentuation de mots inconnus fondées sur un apprentissage par observation des contextes d'occurrence des lettres à accentuer dans un ensemble de mots d'entraînement, l'une adaptée de l'étiquetage morphosyntaxique, l'autre adaptée d'une méthode d'apprentissage de règles morphologiques. Nous présentons des résultats expérimentaux pour la lettre e sur un thesaurus biomédical en français : le MeSH. Ces méthodes obtiennent une précision de 86 à 96 % (_4 %) pour un rappel allant de 72 à 86 %.

MOTS-CLES : thesaurus biomédical ; terminologie ; lettre pivot ; accentuation de mot

LIRE L'ARTICLE (pdf) :


Zweigenbaum, Pierre ; Hadouche, Fadila & Grabar, Natalia (2003). Apprentissage de relations morphologiques en corpus. Actes de la conférence Traitement Automatique du Langage Naturel (TALN'2003). Batz-sur-mer.

RESUME : Nous proposons une méthode pour apprendre des relations morphologiques dérivationnelles en corpus. Elle se fonde sur la cooccurrence en corpus de mots formellement proches et un filtrage complémentaire sur la forme des mots dérivés. Elle est mise en oeuvre et expérimentée sur un corpus médical. Les relations obtenues avant filtrage ont une précision moyenne de 75,6 % au 5000è rang (fenêtre de 150 mots). L'examen détaillé des dérivés adjectivaux d'un échantillon de 633 noms du champ de l'anatomie montre une bonne précision de 85-91 % et un rappel modéré de 32-34 %. Nous discutons ces résultats et proposons des pistes pour les compléter.

MOTS-CLES : relation morphologique ; corpus ; adjectif ; adjectif dérivé ; seuil d'association ; langue ; langue de spécialité

LIRE L'ARTICLE (pdf) :