Big Data bullshit

by Christian on 16 juillet, 2013

Big-Data-A-Revolution-That-Will-Transform-How-We-Li-62458Je suis particulièrement étonné par le discours actuel sur les big data ; discours selon lequel nous serions passé de la causalité à la corrélation. Je pense surtout à la thèse de Viktor Mayer-Schönberger et Kenneth Cukier, dans leur livre Big Data : une révolution qui va transformer notre façon de vivre, de travailler et penser. (voir l’excellent article de recension de Hubert Guillaud : Big Data : nouvelle étape de l’informatisation du monde.)

Dans leur article paru dans Le Monde Diplomatique de Juillet 2013, les auteurs écrivent :

“La manière dont la société traite l’information se trouve radicalement transformée. Au fur et à mesure que nous exploitons ces gisements pour élucider des faits ou prendre des décisions, nous découvrons que, à bien des égards, nos existences relèvent de probabilités davantage que de certitudes.

Ce changement d’approche à l’égard des données numériques – exhaustives et non plus échantillonnées, désordonnées et non plus méthodiques, explique le glissement de la causalité vers la corrélation.

On s’intéresse moins aux raisons profondes qui président à la marche du monde qu’aux associations susceptibles de relier entre eux des phénomènes disparates. L’objectif n’est plus de comprendre les choses, mais d’obtenir une efficacité maximale.” Le Monde Diplomatique, Juillet 2013, p. 20.

Tout d’abord les auteurs tendent à opposer la corrélation et la causalité en faisant porter cette opposition sur celle entre le pourquoi et le comment ; ce qui est une argumentation assez surprenante. Faut-il rappeler que la corrélation (originairement appelée “co-existence”) n’est pas l’opposée de la causalité ? Que le coefficient de corrélation permet précisément de mesurer la force de la liaison entre 0 (indépendance) et 1 (dépendance stricte). Dans le cas où le coefficient est 1 : on a la pleine causalité directe. (Cf. Alain Derosières, La politique des grands nombres, 1993, p.134).

La causalité est un des pôles de la corrélation, un cas particulier (que l’on pourrait qualifier de nécessaire et suffisant). Opposer les deux n’a pas de sens, surtout quand on cherche à asseoir de manière opportuniste cette distinction entre les deux sur la base du numérique et des big data. Pearson en 1911, dans “La Grammaire de la Science”, avait déjà instauré cette distinction dans le champ de la statistique.

Ce qu’il faut plutôt souligner, avec les Big Data, c’est l’importance du schème probabiliste bayésien au détriment du schème fréquentiste (même si les deux thèses se rejoignent sur les grands nombres). Or c’est un point sur lequel les auteurs ne disent rien, et pour cause, puisqu’ils parlent de données numériques “exhaustives et non plus échantillonnées” : ce qui est un contre-sens car, précisément, les algorithmes de corrélation dont nous parlons reposent sur les probabilités bayésiennes qui ne travaillent pas à partir de données exhaustives et dont la fréquence est objective mais à partir d’échantillons et en avançant à tâtons dans une économie entre probabilités a priori et a posteriori. Cette confusion fait croire au lecteur que les big data permettent des calculs sur un nombre fini de données qui est, certes, vertigineux, mais ce n’est pas du tout le cas. Les big data ne sont pas des corpus immenses et stables mais des flux sans cesse mis à jours et évolutifs : d’où l’utilisation des probabilités bayésiennes pour éprouver des conjectures. (La Business Intelligence travaille avec des schèmes fréquentistes là où le travail sur les bid data travaille sur des probabilités bayésiennes)

Il aurait été bien plus intéressant de préciser que l’utilisation du schème probabiliste bayésien suppose une conception “à rebours” de la catégorie de causalité, en allant non plus des causes aux effets mais des effets pour remonter aux causes ( ce que fait Sherlock Holmes, comme tout bon détective).

Bref, d’approximations en approximations, les auteurs montent en épingle une distinction qu’ils ne maîtrisent pas et qu’ils appliquent aux Big Data parce que c’est à la mode et puis parce que le terme est très flou et qu’il permet de dire ce que l’on veut sans être contredit.

Nous vivons une époque de combinatoire des corrélations et il est plus que jamais nécessaire de dépasser la stricte catégorie de Causalité : soit à partir d’une causalité à rebours (inférence bayésienne), soit à partir des méthodes corrélatives. Et si vous voulez un exemple concret, regardez du côté du domaine de la santé dans ce que j’avais appelé la pollution relationnelle.

On rappellera aux auteurs que nous sommes passés de la « causalité » à la « corrélation » depuis l’émergence des probabilités au XVII °  (cf. Ian Hacking, L’émergence de la probabilité) et qu’il y a belle lurette que « nos existences relèvent de probabilités davantage que de certitudes ».

Print Friendly

This work, unless otherwise expressly stated, is licensed under a Creative Commons Attribution 3.0 France License.

Signaler sur Twitter

{ 6 comments… read them below or add one }

Leave a Comment

{ 1 trackback }

Previous post:

Next post: