Qu’est-ce qu’un document ?

Lorsque l’on bascule d’un mode où l’on accède à l’information à partir de base de données relationnelle à un monde où l’on accède à l’information à partir d’un moteur de recherche, il faut répondre à certaines questions.

La première et la plus importante est certainement la suivante : qu’est ce qu’un document ?


En effet, dans le monde des tables relationnelles, les informations s’agrègent en fonction de la requête d’accès à la base de donnée, alors que dans le monde des arborescences documentaires les documents sont constitués et fixés avant la requête.

Le passage des tables aux arbres implique des décisions qui ne sont pas sans conséquences. Il faut ainsi répondre à un certains nombres de questions en procédant d’une démarche de conception de type « reverse engineering » :
– quelles réponses veulent les utilisateurs ?
– comment afficher les réponses aux requêtes des utilisateurs (à partir des sources indexées ou à partir de l’index lui-même) ?
– quelle est l’unité informationnelle de base ?

La réponse à ces questions devra permettre de dire qu’elle seront les unités documentaires qui seront indexées dans le moteur de recherche.

Ce n’est qu’une fois que ces unités documentaires auront été validés que l’on pourra basculer du monde relationnel au monde documentaire, c’est à dire en faisant en amont de l’indexation des bases de données les jointures entre les tables pour constituer les collections documentaires précédemment définies.

Ces questions ne se posent bien évidemment pas lorsqu’on doit indexer des fichiers bureautiques ou des pages Html, dans ces cas le choix de l’unité documentaire est évidente, c’est le fichier indexé lui-même. Mais lorsqu’on veut bénéficier de la puissance d’un moteur de recherche pour accéder à des données structurées dans une base de données (accès à un catalogue par exemple), cette question devient immédiatement critique.

Question essentielle, effectivement et, comme d’habitude, je vois que nous avons la même façon d’aborder la question et les réponses 😉

Au niveau des sciences de l’information, la question a été énormément débattue. On lira avec précaution les articles de Buckland « What is a document ? » : http://www.ischool.berkeley.edu/~buckland/whatdoc.html et « What is a digital document » : http://www.ischool.berkeley.edu/~buckland/digdoc.html ainsi que plusieurs articles du collectif Roger T. Pédauque : « Document : forme, signe et médium, les re-formulations du numérique. » : http://archivesic.ccsd.cnrs.fr/sic_00000511 « Document et texte. Permanence et transformations » : http://archivesic.ccsd.cnrs.fr/sic_00001003 et « Documents et modernités » : http://archivesic.ccsd.cnrs.fr/sic_00001741

De mon côté, les concepts sont les mêmes que les tiens, même si j’ai donné des noms différents, je parle plus volontiers d’unité structurelle de base plutôt que « unité informationnelle de base ». Mais, c’est la même idée. Pour résoudre ce problème dans le moteur de recherche que nous venons de mettre en place (http://www.cn-telma.fr/corpus/ : je dois faire un billet dessus, mais on a un petit problème de charge qui sera résolu la semaine prochaine d’où mon silence pour l’instant), nous avons mis en place un fichier RDF qui décrit pour chaque corpus/unité documentaire, l’unité structurelle de base (c’est à dire un ou plusieurs noeuds dans l’arbre XML), les noeuds renvoyant aux métadonnées spécifiques à chaque unité structurelle et le cas échéant les nœuds sur lesquels faire porter une recherche par critère (les dates des actes, par exemple). A partir de ce fichier RDF, nous générons automatiquement les requêtes Xquery. Le système marche bien et a le mérite de s’adapter facilement à chaque type d’unité documentaire tout en étant très simple à paramétrer, pas besoin de développement, juste compléter le fichier RDF et le système s’adapte automatiquement. Si tu es intéressé par ce système, n’hésite pas, je t’en dirai plus, je peux même t’envoyer le fichier RDF.

[Reply]

çà c’est du commentaire !
Je n’ai pas parlé de RDF car si je pouvais utiliser RDF je laisserai rapidement tomber XML car je pourrais faire les jointures à la volée avec SPARQL. Disons qu’entre les tables et les arbres je préfèrerai les graphes de RDF.

Le problème de charge que tu évoques est également important : pour l’exemple que j’ai en tête il s’agit d’un projet ayant potentiellement 150 000 utilisateurs pour un corpus documentaire de plusieurs dizaines de millions de documents.
Je guetterai avec impatience ta note sur ton retour d’expérience.

[Reply]

Oui, je connais ta préférence pour RDF ;-), dans le cas de nos corpus, l’utilisation de RDF n’aurait aucun sens car ce sont des données textuelles. Dans ce cas, RDF est juste utilisé pour générer les Xquery (en XSL, même pas de sparql) qui vont interroger les corpus en XML. Ce que je trouve intéressant dans ce système, c’est le fait qu’on ait pas besoin de développement supplémentaire, juste quatre lignes dans un fichier RDF et moi, ça me plaît de ne pas avoir à faire du dév’ 😉

Pour le problème de charge, ça n’a rien à voir avec ce système, c’est juste un bug (GRRR….BIP….) dans un module d’Apache qui relie Apache à Tomcat et qui provoque un emballement d’Apache. Dès qu’on aura changé la version de ce module, ça marchera sans problème…

[Reply]

12 Déc 2006, 2:11
by Jean Charlet

reply

Pour être précis sur les oeuvres de R. T. Pédauque, les 3 articles offrent une certaine progression et ont été bien cités dans le commentaire précédent sauf celui du milieu :

http://archivesic.ccsd.cnrs.fr/sic_00000511
http://archivesic.ccsd.cnrs.fr/sic_00001401 (version finale du 2nd)
http://archivesic.ccsd.cnrs.fr/sic_00001741

Il sont par ailleurs regroupés au sein d’un livre avec une excellente mise en perspective et préface (je peux le dire, ce n’est pas de moi), « Le document à la lumière du numérique » disponible à http://cfeditions.com/pedauque/.

[Reply]

Je commande l’ouvrage.
Merci à vous deux pour ces précieuses références.

[Reply]

 

Répondre à Jean Charlet Annuler la réponse

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.