In Veronis veritas ?

by Christian on 16 novembre, 2008

Jean Véronis est un professeur comme on aimerait en voir plus souvent :

  • Il propose des analyses stimulantes depuis plusieurs années sur son blog Technologies du Langage ;
  • Ses travaux sur le traitement du langage naturel couplé aux techniques statistiques et appliqués aux discours de nos hommes politiques pendant, et après, la dernière campagne présidentielle ont, me semble-t-il, irrémédiablement changé notre regard sur la communication politique ;
  • Ses analyses et ses critiques sur le fonctionnement des logiques de pertinence des moteurs de recherches sont également très précieuses ;
  • Il a été consultant pour la radio, pour plusieurs sociétés dans les technologies de l’information, et notamment pour Orange pour lequel il a publié récemment un article s’interrogeant sur la position hégémonique de Google;


Cette année, il a commencé, avec d’autres partenaires, à mettre son nez dans le fonctionnement du site Wikio, fondé par l’homme d’affaire Pierre Chappaz. Le premier des chantiers est « bien évidemment » le classement Wikio des blogs, la vitrine du site, son moteur d’audience.

Allons tout de suite à ce qui fait débat.

Sur la page des classements des blogs on peut lire qu’il s’agit du « classement des blogs les plus cités de la blogosphère ». Comment comprendre cette phrase ?

Pourquoi préciser qu’il s’agit des blogs « de la blogosphère » ? Cela signifie-t-il qu’il y ait des blogs à l’extérieur de la blogosphère ? Doit-on comprendre que les blogs cités à partir de sites hors de la blogosphère ne sont pas pris en compte ? Et puis que veut dire « cités » ? J’imagine que si je parle d’un blog et que je le cite, mais sans faire de lien vers ce blog, cela n’est pas pris en compte, non ?
A considérer que ce sont des liens entre les blogs qui sont réellement pris en compte, les publications de Jean Véronis nous apprennent que dans la première révision du système les liens vers les pages d’accueil n’étaient en fait pas pris en compte. La notion de citation est donc sujette à un certains nombres d’hypothèses qui vont donner corps aux formules qui vont pondérer les liens entre les blogs. Il faut donc reconnaître que ce n’est pas les blogs les plus cités qui sont classés, mais les blogs qui obtiennent le meilleur ranking dans le calcul de pertinence du moteur de recherche de wikio.
Or, comme je l’ai dit à Jean en commentaire d’un de ses billets, ce n’est pas la pertinence qui intéresse wikio dans son classement des Blogs. Je ne fais aucun procès d’intention en affirmant cela, et loin de moi également l’idée que ce classement n’est que du vent et ne repose sur rien de sérieux : la présence et le travail de Jean témoignent du contraire. Alors en vertu de quoi puis-je dire que ce n’est pas la pertinence qui intéresse wikio dans son hit parade ?

Regardons ce que nous avons : un moteur de recherche qui travaille essentiellement sur un corpus de blog et des sites de news et, donc, ce fameux classement des blogs qui en découle. Le premier point à remarquer est que c’est le même outil, et la même logique, qui sert à la fois à déterminer la pertinence du moteur de recherche de wikio et à afficher le hit parade des blogs. Du fait que j’insiste sur cette différence, Jean me répond aimablement dans les commentaires de son blog :

Wikio EST un moteur de recherche, et ce que j’essaie de faire c’est justement de faire converger classement et pertinence. Je suis prêt à accepter que les deux scores doivent être différents, mais pour l’instant je ne vois pas pourquoi. Après tout Google pourrait aussi publier un classement des sites Web sur la base du vrai Page Rank (pas celui qui s’affiche dans la toolbar est qui est tellement discrétisé qu’il y aurait des millions d’ex aequo). La Nasa serat probablement dans les tout premiers, etc. Mais bon, il y a peut-être un truc qui m’échappe.

C’est précisément sur « ce truc qui échappe » que je voudrais essayer d’amener quelques éclaircissements.

Commençons par nous poser la question de l’intérêt général d’un classement (d’un Hit Parade). A cela je réponds qu’il réside essentiellement dans ses variations : plus çà rentre, plus çà sort, et plus il y a de variation dans le classement, meilleur c’est. Vous imaginez-vous regarder un Top 50, un Top des ventes, un Top des hôpitaux, etc. qui ne bougerait pas, ou alors de façon infinitésimale ?

Imaginons un classement qui soit parfait en terme de pertinence et que Jean Véronis arrive à trouver LA formule ; il y a de fortes chance qu’il soit très figé et donc que son intérêt diminue très rapidement (car, comme l’indique Jean, il y a 3 à 5% des blogs qui attirent 90% des « citations »). Or, ce qui attire dans un hit parade, son intérêt, c’est le mouvement, et il n’y a là rien de nouveau. Aussi n’est-ce pas un hasard si on a retrouvé, à propos du nouveau classement wikio, des thématiques du genre : « les plus grosses gamelles », « les plus grosses remontées », « les changements dans le podium », etc. Bref, les mêmes thématiques et les mêmes rubriques que celles d’il y a 25 ans dans le Top 50 de Marc Toesca.

C’est donc à ce titre que Wikio bénéficie des travaux pratiques de Jean Véronis car, pertinents ou pas, cela met du mouvement et créé du buzz. Et ce n’est pas Pierre Chappaz qui se plaindra sur cet afflue d’audience.

Si le ranking que cherche à améliorer Jean Véronis est tout à fait légitime pour un moteur de recherche, il ne l’est plus pour un classement. Il ne l’est plus car le ranking est un moyen parmi d’autres pour classer des réponses à une requête, or je pose la question : à quelle requête répond le hit parade des blogs de wikio ? A aucune.

La démarche repose également sur l’hypothèse que tout est lié avec tout sur le web : la réalité est tout autre car le nombre de pages orphelines est important sur le web, ce qui amène d’ailleurs Google à utiliser beaucoup d’autres aspects que le simple PageRank. Utiliser et afficher le « page ranking » des sites comme classement d’un Hit Parade c’est prendre le moyen pour une finalité. Le classement des blogs tourne a vide si on l’utilise à partir du ranking du moteur de recherche qui ne constitue qu’une partie de la logique du moteur de recherche : enlevez cette partie pour en faire un classement à plat des blogs est un choix tout à fait arbitraire en tout cas qui ne peut se justifier en affirmant que « çà marche pour le moteur de recherche, donc çà devrait aussi marcher pour un hit parade ».

Un classement présenté comme le résultat d’une pertinence sans qu’il n’y ait de requête est une tromperie. Faire « converger le classement et la pertinence » c’est vouloir créer une chimère.

D’un côté l’intérêt et la motivation de Jean est d’affiner la modélisation du calcul de la pertinence pour le moteur de recherche de Wikio (formidable terrain de jeu grandeur nature), de l’autre l’intérêt pour Wikio est que chacune de ces nouvelles formules change le classement. Car cela augmente mécaniquement l’audience de Wikio : mieux vaut une foule d’insatisfaits et de satisfaits aux déclassements et aux promotions de classement qu’une majorité d’indifférents.

Quoiqu’il en soit, il y a deux choses qui m’intéresseraient plus que le classement des blogs en lui même et sur lesquelles j’espère que Jean se penchera :

  • Tout d’abord la formule qui ne serait pas celle de la pertinence, puisque cela ne veut rien dire pour un classement des blogs, mais celle qui m’indiquerait qu’elle est le niveau de variation dans le classement qui rende optimal l’audience de wikio. Car autant un classement qui ne bouge pas n’a que peu d’intérêt, autant un classement qui a de trop fortes variations risquerait de perdre en crédibilité. A la formule que cherche Jean devrait donc s’ajouter quelque chose qui serait un coefficant d’audience. Cette première formule serait statistique ;
  • Autre formule qui serait également très intéressante serait celle qui pourrait attribuer un blog à une catégorie, voire qui suggèrerait de nouvelles catégories (ce que fait très bien Clusty, vitrine web des solutions de search et de clustering de Vivisimo ). Les catégories actuelles sont arbitraires et la répartition des blogs dans ces quelques catégories génériques n’a pas grand sens. Cette deuxième formule serait sémantique ( pas au sens du web sémantique, mais au sens du text-mining) ;

Toujours est-il que je suivrai avec attention et grand intérêt les prochaines publications de Jean sur le sujet (et sur tous les autres sujets d’ailleurs), même si je pense que ce Hit Parade des blogs de wikio est en l’état actuel des choses un leurre qui consiste dans la surimposition de la notion de classement (qui évoque des faits incontestables) avec celui de la pertinence (beaucoup plus mouvant et contextuel).

Et vous, de quel oeil voyez-vous cette convergence entre pertinence d’un moteur de recherche et classement des blogs ?
Print Friendly
Signaler sur Twitter

{ 9 comments… read them below or add one }

Yves-Marie PONDAVEN novembre 16, 2008 à 11:02

Entièrement d’accord.
Les blogs c’est comme les journaux ca traite essentiellement du flux d’information. Le temps d’être pertinent et on est en retard…
Le nombre d’abonnés a un blog ou journal est un indicateur simple et assez efficace ! plus que le page rank

Répondre

Christian novembre 16, 2008 à 11:07

Toi t’as compris pourquoi Google a racheté FeedBurner 😉

Répondre

Olivier Auber novembre 16, 2008 à 11:09

« je cherche la formule » disait Arthur Rimbaud 😉

Répondre

Johan Mathe novembre 17, 2008 à 3:39

Le lien « un article s’interrogeant sur la position hégémonique de Google » est cassé au moment ou je poste ce commentaire.

Répondre

Christian novembre 17, 2008 à 3:52

@ Johan : non pas pour moi. C’est ton employeur qui a du la blacklister 😉

Répondre

Johan Mathe novembre 17, 2008 à 5:15

Hehe je ne suis pas fou non plus, j’ai testé depuis plusieurs points d’accès dont ma maison à Dublin, mes dédiés en france et plusieurs machines au bureau.

Apparemment je ne suis pas le seul a avoir le problème :

http://aixtal.blogspot.com/2008/10/moteurs-y-t-il-un-web-apres-google.html

Voir le commentaire de « francis » tout en bas.

Johan

Répondre

Christian novembre 17, 2008 à 5:34

effectivement … pour ma part j’y accède sans problèmes en tout cas.

Répondre

Jean Véronis novembre 19, 2008 à 11:10

Désolé, j’arrive un peu après la bataille. J’ai eu un coup de bourre et mon Google Reader en a profité pour déborder. En tous cas merci pour les compliments 😉

L’histoire des « blogs de la blogosphère » c’est un méchant pléonasme ! Je n’avais pas remarqué. Je vais le signaler à nos amis de Wikio 😉

Sur la question de la différence entre pertinence et classement, je ne suis toujours pas convaincu. J’ai une vision peut-être trop simpliste, mais il me semble que si à un instant t certains blogs sont très cités, c’est que les gens qui les citent y trouvent un intérêt, donc il me semble raisonnable qu’ils soient à la fois en haut du classement, et en haut des pages de résultats. Mais, bon… heureusement qu’il y a des points de vue multiples et différents sur cette planète, sinon quel ennui !

En ce qui concerne la catégorisation, je suis entièrement d’accord. Mais ce n’est pas simple. La catégorisation automatique est un vrai défi de recherche, et la catégorisation manuelle est coûteuse et forcément infaisable à grand échelle. Il est vrai que les catégories actuelles ne sont pas optimales. il faut y travailler. Rome ne s’est pas bâtie en un jour.

En tout cas, merci encore. Si jamais j’ai des problèmes d’ego, je reviendrai par ici 😉

Répondre

Christian novembre 20, 2008 à 12:46

@ Jean : Merci de ton passage, tu devrais contacter Arisem pour accélérer la construction de Rome 😉

Répondre

Leave a Comment

Previous post:

Next post: