Quelques évidences sur le moteur de recherche
Pourquoi des moteurs de recherche ?
Pour trouver de l’information, me diriez-vous. Certes.
Mais surtout pour trouver rapidement de l’information. On comprend mieux l’importance de cette proposition lorsque l’on s’aperçoit qu’il est plus rapide de faire la recherche d’un mot sur la totalité du Web que de faire la même recherche dans le document texte que l’on a sous les yeux. La comparaison donne proprement le vertige, et du coup elle fait comprendre pourquoi la fonction première d’un moteur reste la rapidité.
Principe de base d’un moteur de recherche :
Pour répondre à cette exigence de rapidité, le moteur s’appuie sur la constitution d’un index, qui n’est autre qu’une liste d’occurrences dans lequel chaque mot est associé aux documents dans lesquels il est présent. De fait, si le moteur de recherche est si rapide, c’est qu’il a déjà la réponse à votre question. D’ailleurs, le moteur de recherche ne va pas à proprement chercher les occurrences d’une requête sur le Web, dans les documents eux mêmes, mais uniquement dans son index.
La recherche plein texte :
Le principe de base de la recherche est la recherche dite « plein texte », ou « texte intégral », ou « Full Text » en anglais. Le moteur va chercher les pages associées à votre requête dans son index et vous les affiche. Ce mode de recherche est à quelques exceptions près celui de Google, il est très performant pour le Web.
A cette fonction de base ont été rajoutée les fonctions suivantes :
- la statistique, qui fait des association et calcule des proximités (clustering, correction orthographique, etc.)
- la linguistique, qui prend en compte la nature et les flexions du vocabulaire d’une langue (tokenisation, lemmatisation, etc.)
- la sémantique, qui apporte de la structuration (dictionnaires, référentiels, thesaurus, etc.)
En jouant sur tous ces facteurs, on peut espérer améliorer la qualité de la recherche et la pertinence des résultats. Seulement voilà, l’utilisation de toutes ces fonctionnalités va rendre votre moteur très intelligent, disons plutôt très *spécial*.
Une chose est sure, c’est que les utilisateurs ne seront pas informés de toutes les astuces que le moteur utilise pour afficher les résultats les plus pertinent. Pour eux, le moteur va devenir une boîte noire.
Le risque est que l’effet boite noire n’ampute la confiance nécessaire pour l’utilisation d’un tel outil. Utiliseriez-vous un moteur de recherche ne sachant pas comment il traite vos requêtes ? Je cite souvent l’exemple de ces utilisateurs révoltés de se voir retourner des documents dans lequel le mot clé recherché n’était même pas présent. Un tel moteur vous déposséderai immédiatement de toutes les stratégies de recherche que vous utilisez habituellement. Vous seriez prolétarisés, c’est-à-dire privés de l’exercice de vos connaissances, de vos compétences et de vos savoir-faire.
Le paradoxe est que, plus vous mettez de l’intelligence dans votre moteur, plus vous jugez vos utilisateurs idiots. C’est à dire incapables de maîtriser la recherche plein texte de base. Aussi faut-il rappeler qu’un peu de pédagogie vaut parfois mieux que toutes les fonctionnalités avancées dans le paramétrage d’un moteur de recherche.
Aujourd’hui, la maturité n’est pas encore au rendez-vous dans les entreprises, où la course aux fonctionnalités avancées fait rage. Mais, fondamentalement, le monde de l’entreprise ne comprend pas ce qu’est un moteur de recherche. Ils déifient l’objet en ne le prenant pas pour ce qu’il est : un outil, un objet technique.
[…] C’est cet index inversé que le moteur de recherche interroge lors d’une requête. Grâce à lui, il n’a pas à parcourir tous les documents indexés pour déterminer lesquels sont intéressants. C’est ce qui lui permet de faire remonter des résultats en quelques millièmes de secondes. […]
[…] tape un ou plusieurs mots-clés et l’outil de recherche s’appuie sur la constitution d’un index, c’est-à-dire une liste d’occurrences dans laquelle chaque mot est associé aux documents […]