Commentaires sur : Qu’est-ce qu’un document ?

Par : Christian

Christian — Fri, 15 Dec 2006 21:43:00 +0000

Je commande l’ouvrage.
Merci à vous deux pour ces précieuses références.

Par : Jean Charlet

Jean Charlet — Tue, 12 Dec 2006 12:11:06 +0000

Pour être précis sur les oeuvres de R. T. Pédauque, les 3 articles offrent une certaine progression et ont été bien cités dans le commentaire précédent sauf celui du milieu :

http://archivesic.ccsd.cnrs.fr/sic_00000511
http://archivesic.ccsd.cnrs.fr/sic_00001401 (version finale du 2nd)
http://archivesic.ccsd.cnrs.fr/sic_00001741

Il sont par ailleurs regroupés au sein d’un livre avec une excellente mise en perspective et préface (je peux le dire, ce n’est pas de moi), « Le document à la lumière du numérique » disponible à http://cfeditions.com/pedauque/.

Par : Got

Got — Sun, 10 Dec 2006 11:48:50 +0000

Oui, je connais ta préférence pour RDF ;-), dans le cas de nos corpus, l’utilisation de RDF n’aurait aucun sens car ce sont des données textuelles. Dans ce cas, RDF est juste utilisé pour générer les Xquery (en XSL, même pas de sparql) qui vont interroger les corpus en XML. Ce que je trouve intéressant dans ce système, c’est le fait qu’on ait pas besoin de développement supplémentaire, juste quatre lignes dans un fichier RDF et moi, ça me plaît de ne pas avoir à faire du dév’ 😉

Pour le problème de charge, ça n’a rien à voir avec ce système, c’est juste un bug (GRRR….BIP….) dans un module d’Apache qui relie Apache à Tomcat et qui provoque un emballement d’Apache. Dès qu’on aura changé la version de ce module, ça marchera sans problème…

Par : Christian

Christian — Sun, 10 Dec 2006 11:28:25 +0000

çà c’est du commentaire !
Je n’ai pas parlé de RDF car si je pouvais utiliser RDF je laisserai rapidement tomber XML car je pourrais faire les jointures à la volée avec SPARQL. Disons qu’entre les tables et les arbres je préfèrerai les graphes de RDF.

Le problème de charge que tu évoques est également important : pour l’exemple que j’ai en tête il s’agit d’un projet ayant potentiellement 150 000 utilisateurs pour un corpus documentaire de plusieurs dizaines de millions de documents.
Je guetterai avec impatience ta note sur ton retour d’expérience.

Par : Got

Got — Sun, 10 Dec 2006 11:11:43 +0000

Question essentielle, effectivement et, comme d’habitude, je vois que nous avons la même façon d’aborder la question et les réponses 😉

Au niveau des sciences de l’information, la question a été énormément débattue. On lira avec précaution les articles de Buckland « What is a document ? » : http://www.ischool.berkeley.edu/~buckland/whatdoc.html et « What is a digital document » : http://www.ischool.berkeley.edu/~buckland/digdoc.html ainsi que plusieurs articles du collectif Roger T. Pédauque : « Document : forme, signe et médium, les re-formulations du numérique. » : http://archivesic.ccsd.cnrs.fr/sic_00000511 « Document et texte. Permanence et transformations » : http://archivesic.ccsd.cnrs.fr/sic_00001003 et « Documents et modernités » : http://archivesic.ccsd.cnrs.fr/sic_00001741

De mon côté, les concepts sont les mêmes que les tiens, même si j’ai donné des noms différents, je parle plus volontiers d’unité structurelle de base plutôt que « unité informationnelle de base ». Mais, c’est la même idée. Pour résoudre ce problème dans le moteur de recherche que nous venons de mettre en place (http://www.cn-telma.fr/corpus/ : je dois faire un billet dessus, mais on a un petit problème de charge qui sera résolu la semaine prochaine d’où mon silence pour l’instant), nous avons mis en place un fichier RDF qui décrit pour chaque corpus/unité documentaire, l’unité structurelle de base (c’est à dire un ou plusieurs noeuds dans l’arbre XML), les noeuds renvoyant aux métadonnées spécifiques à chaque unité structurelle et le cas échéant les nœuds sur lesquels faire porter une recherche par critère (les dates des actes, par exemple). A partir de ce fichier RDF, nous générons automatiquement les requêtes Xquery. Le système marche bien et a le mérite de s’adapter facilement à chaque type d’unité documentaire tout en étant très simple à paramétrer, pas besoin de développement, juste compléter le fichier RDF et le système s’adapte automatiquement. Si tu es intéressé par ce système, n’hésite pas, je t’en dirai plus, je peux même t’envoyer le fichier RDF.