Technologies du langage

Jean Véronis

http://aixtal.blogspot.com/2005/12/web-la-grippe-aviaire-disparu.html




Vous avez remarqué qu'on ne parle plus tellement de grippe aviaire? Pourtant, on a frisé la panique planétaire, on stockait (on stocke toujours?) des dizaines de millions de doses de médicaments, on parlait de centaines de millions de morts si jamais... Et puis, plus rien ou presque. Pourtant, l'épizootie touche l'Ukraine, on détecte de nouveaux cas en Roumanie, le bilan (humain) s'alourdit en Indonésie et au Viêtnam. Que s'est-il passé? a-t-on prouvé qu'il n'y avait finalement aucun risque pour l'homme? J'ai dû avoir un moment d'inattention: je n'ai pas vu passer la nouvelle. Il faut dire qu'entre temps la crise des banlieues a détourné nos regards... à moins que ce ne soit un coup du lobby des producteurs de foie gras à l'approche des fêtes!

Je rêve depuis longtemps d'un outil qui me permettrait de suivre au jour le jour l'évolution d'un terme sur le Web: ne serait-il pas fantastique de pouvoir suivre exactement la montée et le déclin d'expressions comme grippe aviaire, banlieues, violences urbaines et bien d'autres, comme on suit la progression du CAC 40 (ou, hélas, du nombre de chômeurs)?

Eh bien, je suis heureux d'annoncer la naissance d'un tel outil: Le Chronologue, auquel je travaille depuis quelques jours, en collaboration avec Philippe Develter du moteur Dir.com. Cela ne vous dit rien? Ce moteur, créé par Fabien Menemenlis et Philippe Develter, a été lancé début 2003 par le groupe Iliad (qui possède notamment Online et Free). Si Dir.com n'est pas devenu le "concurrent français" de Google que l'on pouvait espérer (Free a hélas préféré, du moins pour l'instant, installer tout bonnement Google), il n'en suit pas moins son petit bonhomme de chemin, avec de jolies petites choses, sur lesquelles je reviendrai peut-être un de ces jours...



Philippe a mis au point récemment une fonction qui permet de restreindre la recherche à une période donnée, exprimée en nombre de jours (exemple: banlieues dd>60 dd<120) ou en nombre de mois (exemple: banlieues mm>1 mm<2). Cela ressemble un peu à la fonction daterange de Google, sauf que celle-ci semble marcher de façon complètement erratique et retourne de toutes façons le même compte quelle que soit la période donnée.

Quelques jours d'interaction avec Philippe ont permis d'affiner l'outil, sur lequel j'ai greffé quelques petites statistiques maison. En effet, le simple compte de pages pour chaque jour sur une requête donnée est assez "bruité". Des tas de paramètres entrent en jeu, comme les variations hebdomadaires (moins de pages créées ou modifiées les week-ends!) ou à plus long terme (moins de pages pendant les vacances), ou bien liées au moteur lui-même (changement de stratégie ou de fréquence de crawling, etc.). Mais ces paramètres affectent (grosso modo) tous les mots de la même manière...

L'astuce que j'utilise est un peu analogue à celle des statisticiens qui corrigent la courbe de chômage en fonction des "variations saisonnières". J'étalonne mon système en calculant (automatiquement!) toutes les nuits les variations journalières du compte de pages sur un certain nombre de mots fréquents, ce qui me donne les fluctuations globales, non liées à une requête donnée. Il suffit alors de les "soustraire" à chaque requête, et on obtient par exemple ceci, pour grippe aviaire (la ligne horizontale représente la moyenne du terme sur la période du graphique):



Étonnant, non?

Voici quelques autres "pics" intéressants:










On peut également superposer des courbes. Par exemple, on voit très clairement ci-dessous que le "déclin" de grippe aviaire avait commencé avant la montée en puissance du terme banlieues. Donc j'étais sans doute mauvaise langue: ce n'est apparemment pas la crise des banlieues qui a détourné notre attention de la grippe aviaire! [Mise à jour: Mopt fait remarquer dans un commentaire ci-dessous que grippe aviaire commence à décliner juste au moment où banlieues commence à monter. Je me suis fait avoir comme un débutant en regardant bêtement les pics -- j'aurais dû reprendre un café moi, ce matin! Et la relation est d'autant plus évidente que (comme le montre le diagramme suivant) le déchaînement médiatique a commencé quelques jours avant avec l'affaire Sarko-Racaille et la mort des deux jeunes à Clichy, donc en plein dans le pic grippe aviaire. Je ne ferai pas une deuxième erreur en affirmant qu'il y a relation de cause à effet, et que la crise des banlieues a effacé la grippe aviaire, mais c'est bien troublant. Merci Mopt!]



Cet autre exemple est assez instructif:



On voit clairement apparaître la chronologie des événements: Nicolas Sarkozy fait parler de lui, deux jeunes meurent électrocutés à Clichy quelques jours après, puis les banlieues s'embrasent... Pour finir, tout rentre dans l'ordre: parlons d'autre chose.

Voici un autre exemple... que je vous laisse commenter!



A vous de vous amuser (vous pouvez copier-coller les images dans vos blogs)! Le Chronologue est ici.