Qu’est-ce qu’un document ?

by Christian on 10 décembre, 2006

Lorsque l’on bascule d’un mode où l’on accède à l’information à partir de base de données relationnelle à un monde où l’on accède à l’information à partir d’un moteur de recherche, il faut répondre à certaines questions.

La première et la plus importante est certainement la suivante : qu’est ce qu’un document ?


En effet, dans le monde des tables relationnelles, les informations s’agrègent en fonction de la requête d’accès à la base de donnée, alors que dans le monde des arborescences documentaires les documents sont constitués et fixés avant la requête.

Le passage des tables aux arbres implique des décisions qui ne sont pas sans conséquences. Il faut ainsi répondre à un certains nombres de questions en procédant d’une démarche de conception de type « reverse engineering » :
– quelles réponses veulent les utilisateurs ?
– comment afficher les réponses aux requêtes des utilisateurs (à partir des sources indexées ou à partir de l’index lui-même) ?
– quelle est l’unité informationnelle de base ?

La réponse à ces questions devra permettre de dire qu’elle seront les unités documentaires qui seront indexées dans le moteur de recherche.

Ce n’est qu’une fois que ces unités documentaires auront été validés que l’on pourra basculer du monde relationnel au monde documentaire, c’est à dire en faisant en amont de l’indexation des bases de données les jointures entre les tables pour constituer les collections documentaires précédemment définies.

Ces questions ne se posent bien évidemment pas lorsqu’on doit indexer des fichiers bureautiques ou des pages Html, dans ces cas le choix de l’unité documentaire est évidente, c’est le fichier indexé lui-même. Mais lorsqu’on veut bénéficier de la puissance d’un moteur de recherche pour accéder à des données structurées dans une base de données (accès à un catalogue par exemple), cette question devient immédiatement critique.

Print Friendly

This work, unless otherwise expressly stated, is licensed under a Creative Commons Attribution 3.0 France License.

Signaler sur Twitter

{ 5 comments… read them below or add one }

Leave a Comment

Previous post:

Next post: