Digital Studies (1) : Digital Humanities

by Christian on 8 juillet, 2011

Suite à la note sur Le retour au structuralisme j’entame ici une série de 6 petits textes sur les “Digital Studies”.

Digitus Dei est hic !

On commence donc par les Digitals Humanities, avec la figure du père Roberto Busa. On peut en effet dire que la naissance des Digital Humanities correspond à la rencontre, à la fin des années 40, entre la Scolastique et IBM ; entre un jésuite féru de Saint Thomas d’Aquin et un autre Thomas : Thomas J. Watson, un des fondateurs d’IBM (International Business Machines).

Thomas Nelson Winter (encore un Thomas !) dans Roberto Busa and the Invention of the Machine-Generated Concordance (PDF), rappelle cette anecdote selon laquelle Thomas J. Watson, en donnant son accord de coopération d’IBM avec le projet de Busa en 1949, dit à ce dernier :

“D’accord pour coopérer avec vous, mais à condition que vous ne changiez pas IBM en International Busa Machines”.

Le père Roberto Busa à côté d'un MainFrame IBM

Thomas j. Watson, un des fondateurs d'IBM

Dans la préface de l’ouvrage A companion to digital humanities, Roberto Busa écrit :

“During World War II, between 1941 and 1946, I began to look for machines for the automation of the linguistic analysis of written texts. I found them, in 1949, at IBM in New York City. Today, as an aged patriarch (born in 1913) I am full of amazement at the developments since then; they are enormously greater and better than I could then imagine. Digitus Dei est hic! The finger of God is here!”

Il y définit également ce qu’il appelle les “Humanities Computing” :

“Humanities computing is precisely the automation of every possible analysis of human expression (therefore, it is exquisitely a « humanistic » activity), in the widest sense of the word, from music to the theater, from design and painting to phonetics, but whose nucleus remains the discourse of written texts.”

C’est le traitement automatique de l’écriture qui s’inaugure également dans une voie similaire, mais en parallèle, avec ce qui se passe dans les théories de l’information qui prennent racine dans le télégraphe.

Le proto-index du numérique

L’oeuvre de Roberto Busa est donc un index – l’Index Thomisticus – qui va rassembler jusqu’à plus de 22 milllions d’entrées et qui est aujourd’hui disponible sur le web.

On pourrait, à ce stade, faire remarquer que nous parlons des Digital Humanities, donc des Humanités Numériques, en situant son origine à une date antérieure à l’avènement du numérique sous sa forme électronique. Or, comment est-ce possible puisque les textes du corpus en latin de Saint Thomas ne sont pas encore numérisés dans les années 40 ?

En fait, le travail de Busa a consisté à mettre au point une méthodologie pour l’utilisation d’une machine à générer des concordances en s’appuyant sur les machines à cartes perforées d’IBM, déjà utilisées pour les traitement des données dans les sciences et le commerce. Et il faut ici reconnaître à Busa le génie d’avoir imaginé les procédures qui seront mises en oeuvre avec l’avènement du numérique avant même que celui-ci n’advienne !

On retrouve ici une forte similarité avec la figure de Douglas Engelbart qui avait pratiquement tout imaginé de l’avenir du numérique en réseau avant même que les technologies se développent et deviennent matures (Voir les vidéos sur The mother of all demos en 1968)

L’idée folle de Busa est assurément l’exigence et l’exhaustivité de sa démarche. L’Édition connaissait bien évidemment les index avant la seconde guerre mondiale (on pense ici au premier index du XVI siècle : l’Index Librorum Prohibitorum ) mais ils étaient très limités : seuls quelques concepts majeurs ou l’index des noms et références étaient disponibles. En voulant faire de chaque mot de l’oeuvre une entrée de l’index, Busa est l’inventeur de la recherche plein texte, avant même que les textes ne soient numérisés.

Les similarités avec le structuraliste

Mais Roberto Busa alla plus loin en travaillant sur un index lemmatisé en travaillant sur la grammaire et sur la racine des mots,  c’est à dire sur des formes d’invariants dans le langage : des structures linguistiques. C’est précisément en cela que le projet peut être rapproché du structuralisme dans sa démarche.

Soyons plus précis ici sur la comparaison entre la naissance des Digital Humanities et le Structuralisme. Les similarités sont les suivantes :

  • Les questions qui relèvent du sens et du signifié sont d’abord pensées au niveau de la matérialité de la langue (écrite ou parlée), depuis le signifiant.
  • Par ailleurs, le signifiant est autonome ; il peut être source de savoirs sans aucun rapport ou lien avec ce qui est signifié. Ce qui s’illustre dans le fait que les machines peuvent manipuler du texte sans avoir la moindre idée de la signification des mots et des textes. Le sens est ainsi ramené à des questions de topologie et de distance sémantique basé sur des approches mathématiques et statistiques.
  • En voulant automatiser le traitement des textes, Busa est amené à faire de la linguistique, qui est assurément le domaine de référence de la plupart des approches structuralistes.
  • Les outils pensés par les Digital Studies sont des outils scientifiques en ce qu’il permettent à quiconque et quels que soit sa thèse ou ses théories, de les éprouver avec des traitements automatiques appliqués aux textes. On retrouve l’ambition rationaliste et scientifique du structuralisme.

L’ingénierie industrielle des Digital Humanities

Le cahier des charges que s’était imposé Busa fut mis en oeuvre à l’échelle industrielle par les moteurs de recherche après que les données furent disponibles au format numérique, et donc que le travail des clercs qui découpaient les phrases de l’oeuvre pour les transformer en cartes perforées n’était plus nécessaire.

Aujourd’hui, les outils de travail sur le texte (mais également sur le multimedia) sont largement diffusés et utilisés. C’est assurément Google qui fit l’ingénierie et l’industrialisation des promesses initiales des Digital Humanities dans le champ des Humanities computing.

À ce titre, les dernières études menées dans le cadre du projet Google Books sont absoluments fascinantes (voir l’article de Xavier de la Porte dans Internet-Actu : Quand Google Books permet de comprendre notre génome culturel ) ; elles reprennent fidèlement les idées initiales de Busa, confirmant ainsi l’analyse de Paul Tasman qui fut l’interlocuteur opérationnel de Busa au sein d’IBM :

“The use of the latest data-processing tools developed primarily for science and commerce may prove a significant factor in facilitating future literary and scholarly studies – IBM Journal of Research and Development, July 1957”

Le calcul symbolique

Les Humanités entrent dans le champs scientifique avec cette idée révolutionnaire de faire du calcul (avec Busa c’était un calcul de correspondance, de “matching”) sur les textes écrits.

Historiquement – et jusqu’à au moins récemment – les Digital Humanities sont restées largement dominantes dans le champ des Digital Studies. Elles ont à la fois alimenté les travaux sur la normalisation de l’encodage du texte et du multimedia (approche top-down) et en même temps sur le traitement automatique des langues jusqu’aux travaux sur la traduction automatique et le speech-to-text (bottom up).

On assiste donc à l’émergence du calcul symbolique dans le traitement des langages naturels, d’abord pour les textes classiques, ce qui fonde proprement les Digital Humanities. Après ce mouvement initial, va en émerger un deuxième mouvement qui n’est plus simplement tourné vers la lecture des textes du passé mais vers l’écriture des textes de demain. Ce sont les deux aspects d’un même mouvement qui sont en réalité tissés de liens et dont les passerelles se jouent dans la normalisation des standard d’encodage, c’est à dire au niveau des métadonnées.

L’encodage et l’émergence de l’enjeu des métadonnées.

Encoder du texte, c’est ni plus ni moins écrire des métadonnées dans le texte lui-même. Dès les premiers pas du traitement automatique du texte par les machines, la question de l’encodage s’est posée dans la perspective d’avoir des “machines-readable forms”. Ce qui inaugura toutes les initiatives autour des langages à balises dès les années 60.

A partir de là , apparaissent de nouvelles strates de lectures qui se superposent : il n’y a plus un lecteur, l’homme, mais des readers robots (lecteur MP3, lecteur MOV, lecteur XML, lecteur HTML, etc.). Chaque machine, puis chaque logiciel, lisant les normes d’encodage qu’il  ou elle “connaît”. On se reportera ici au texte sur  lectures industrielles d’Alain Giffard dans Pour en finir avec la mécroissance.

Toute l’industrie c’est ainsi mise à fabriquer des nouveaux lecteurs puis, très rapidement, des lecteurs qui savaient également écrire et enregistrer. Beaucoup de ces documents numériques ainsi produits vont se retrouver sur le web pour y être crawlé par les moteurs de recherche, imaginés 50 ans plus tôt par Roberto Busa. La boucle est bouclée.

Que reste-t-il des Humanités dans le Numérique ?

Avec les Digital Humanities l’attention se détourne du signifié vers le signifiant : ici le texte (mais c’est aussi le cas pour la parole avec la phonologie qui intéressa beaucoup Lévi-Strauss puis Lacan). Le signifiant s’avère être reconsidéré non pas comme un simple support : il a plus à dire que ce qu’il ne dit si on arrive à le connecter aux machines. Mais pour le “faire parler” il faut d’abord en dégager les structures qui permettront de faire le passage vers les calculateurs qui deviendront les ordinateurs.

Les Digital humanities sont donc à la charnière entre un mouvement de retour aux textes classiques, revisités par un nouveau statut accordé au texte d’une part, et d’autre part une projection vers les nouveaux modes de production de données numériques qui vont, au fil des décennies, explicitement se tourner vers une conception de l’écriture conçue comme une écriture pour les machines, ce qui n’était tout au plus qu’embryonnaire ou latent dans les années 40.

Cela va ouvrir la porte a de nouveaux champs transdisciplinaires, où le numérique apporte sa caution scientifique, et au travers desquels les Humanités des Digital Humanities vont à la fois s’estomper et se diversifier, c’est que j’essayerai de présenter prochainement, en commençant par les Cultural Analytics.

Print Friendly
Signaler sur Twitter

Previous post:

Next post: