La recherche d'information par mot-clés se heurte au problème de la polysémie de la quasi-totalité des mots : ainsi, une recherche sur le mot barrage verra retourner pêle-même des résultats concernant les barrages hydrauliques, les barrages routiers, les matchs de barrage, etc. [exemple]
Extraire les résultats concernant les usages les moins fréquents peut s'avérer particulièrement délicat. Bien sûr l'utilisateur peut généralement compliquer sa requête en croisant des mots-clés, à l'aide d'opérateurs booléens, mais la requête à construire n'est pas toujours évidente. Ainsi, il ne suffit pas de croiser le mot barrage avec le mot match pour obtenir les pages concernant les matchs de barrage : de nombreuses pages traitent du thème sans pour autant contenir le mot match. Il faudrait alors énumérer les possibilités et formuler une requête du type barrage AND (jouer OR jeu OR championnat OR rencontre OR football OR basket-ball OR...), ce qui est peu économique (et peu sûr). De plus, cette technique n'est pas bien maîtrisée du grand public : moins de 5% des requêtes utilisent des opérateurs booléens, moins de 1% des opérateurs imbriqués (comme ci-dessus).
|
HyperLex est un algorithme qui désambiguïse automatiquement le sens des mots dans les pages Web et fournit à l'utilisateur une représentation graphique "hyperlexicale" dans laquelle il peut naviguer pour explorer les thèmes et poser de nouvelles requêtes d'un simple clic. L'algorithme exploite la structure particulière des graphes de cooccurrences entre mots (mots qui apparaissent fréquement ensemble), qui forment des "petits mondes", un type de graphe qui fait depuis quelques années l'objet de recherches intensives. |
|
Choisissez un mot-test (votre navigateur doit accepter les applets Java) :
Comparez la précision des requêtes obtenues en double-cliquant sur les différents
noeuds de l'arbre avec celle de la requête constituée du seul mot-test (en noir).
|
Les hyperlexiques de la démo ont été réalisés à l'automne 2002. Il est possible
qu'en
certaines thématiques aient changé, que certaines pages soient absentes, etc.
|
La démo utilise Star Tree Studio 3.0 d'Inxight. Usage minimal :
D'autres fonctions sont disponibles : cliquer sur le bouton
dans l'applet pour l'aide en ligne.
Véronis, J. (2003). Hyperlex : cartographie lexicale pour la recherche d'informations. Actes de la Conférence Traitement Automatique des Langues (TALN'2003) (pp. 265-274). Batz-sur-mer (France): ATALA. [Lire (pdf)]
Véronis, J. (2003). Hyperlex : cartographie lexicale pour la recherche d'informations. Rapport interne. Equipe DELIC, Université de Provence. [Lire (pdf)]