Big Data bullshit
Je suis particulièrement étonné par le discours actuel sur les big data ; discours selon lequel nous serions passé de la causalité à la corrélation. Je pense surtout à la thèse de Viktor Mayer-Schönberger et Kenneth Cukier, dans leur livre Big Data : une révolution qui va transformer notre façon de vivre, de travailler et penser. (voir l’excellent article de recension de Hubert Guillaud : Big Data : nouvelle étape de l’informatisation du monde.)
Dans leur article paru dans Le Monde Diplomatique de Juillet 2013, les auteurs écrivent :
“La manière dont la société traite l’information se trouve radicalement transformée. Au fur et à mesure que nous exploitons ces gisements pour élucider des faits ou prendre des décisions, nous découvrons que, à bien des égards, nos existences relèvent de probabilités davantage que de certitudes.
Ce changement d’approche à l’égard des données numériques – exhaustives et non plus échantillonnées, désordonnées et non plus méthodiques, explique le glissement de la causalité vers la corrélation.
On s’intéresse moins aux raisons profondes qui président à la marche du monde qu’aux associations susceptibles de relier entre eux des phénomènes disparates. L’objectif n’est plus de comprendre les choses, mais d’obtenir une efficacité maximale.” Le Monde Diplomatique, Juillet 2013, p. 20.
Tout d’abord les auteurs tendent à opposer la corrélation et la causalité en faisant porter cette opposition sur celle entre le pourquoi et le comment ; ce qui est une argumentation assez surprenante. Faut-il rappeler que la corrélation (originairement appelée “co-existence”) n’est pas l’opposée de la causalité ? Que le coefficient de corrélation permet précisément de mesurer la force de la liaison entre 0 (indépendance) et 1 (dépendance stricte). Dans le cas où le coefficient est 1 : on a la pleine causalité directe. (Cf. Alain Derosières, La politique des grands nombres, 1993, p.134).
La causalité est un des pôles de la corrélation, un cas particulier (que l’on pourrait qualifier de nécessaire et suffisant). Opposer les deux n’a pas de sens, surtout quand on cherche à asseoir de manière opportuniste cette distinction entre les deux sur la base du numérique et des big data. Pearson en 1911, dans “La Grammaire de la Science”, avait déjà instauré cette distinction dans le champ de la statistique.
Ce qu’il faut plutôt souligner, avec les Big Data, c’est l’importance du schème probabiliste bayésien au détriment du schème fréquentiste (même si les deux thèses se rejoignent sur les grands nombres). Or c’est un point sur lequel les auteurs ne disent rien, et pour cause, puisqu’ils parlent de données numériques “exhaustives et non plus échantillonnées” : ce qui est un contre-sens car, précisément, les algorithmes de corrélation dont nous parlons reposent sur les probabilités bayésiennes qui ne travaillent pas à partir de données exhaustives et dont la fréquence est objective mais à partir d’échantillons et en avançant à tâtons dans une économie entre probabilités a priori et a posteriori. Cette confusion fait croire au lecteur que les big data permettent des calculs sur un nombre fini de données qui est, certes, vertigineux, mais ce n’est pas du tout le cas. Les big data ne sont pas des corpus immenses et stables mais des flux sans cesse mis à jours et évolutifs : d’où l’utilisation des probabilités bayésiennes pour éprouver des conjectures. (La Business Intelligence travaille avec des schèmes fréquentistes là où le travail sur les bid data travaille sur des probabilités bayésiennes)
Il aurait été bien plus intéressant de préciser que l’utilisation du schème probabiliste bayésien suppose une conception “à rebours” de la catégorie de causalité, en allant non plus des causes aux effets mais des effets pour remonter aux causes ( ce que fait Sherlock Holmes, comme tout bon détective).
Bref, d’approximations en approximations, les auteurs montent en épingle une distinction qu’ils ne maîtrisent pas et qu’ils appliquent aux Big Data parce que c’est à la mode et puis parce que le terme est très flou et qu’il permet de dire ce que l’on veut sans être contredit.
Nous vivons une époque de combinatoire des corrélations et il est plus que jamais nécessaire de dépasser la stricte catégorie de Causalité : soit à partir d’une causalité à rebours (inférence bayésienne), soit à partir des méthodes corrélatives. Et si vous voulez un exemple concret, regardez du côté du domaine de la santé dans ce que j’avais appelé la pollution relationnelle.
On rappellera aux auteurs que nous sommes passés de la « causalité » à la « corrélation » depuis l’émergence des probabilités au XVII ° (cf. Ian Hacking, L’émergence de la probabilité) et qu’il y a belle lurette que « nos existences relèvent de probabilités davantage que de certitudes ».
La corrélation, même si elle est stricte, se distingue de la causalité qui reste une notion plus forte (nécessité métaphysique ) et il y a bien une distinction de l’ordre du « pourquoi » et du « comment » (ces termes ne sont peut être pas tout a fait appropriés mais bon). Une inférence bayesienne, justement, ne permet pas de révéler une relation de cause à effet. Deux événements corrélés peuvent être les effets d’une même cause (il y a sous-détermination des liens de causalités par les corrélations).
Les scientifiques établissent typiquement des lois causales en jouant sur des paramètres contrôlables, c’est à dire par l’entremise d’une intervention, ce qui se distingue de la pure collecte de donnée. C’est seulement ainsi qu’on peut établir des modèles qui permettent ensuite de faire des prédictions dans de nouveaux domaines. Par ailleurs toute collecte de donnée est nécessairement sous-tendue par un certain modèle théoriques (il n’y a pas de données pures) et donc on ne peut faire l’impasse sur un travail théorique en amont, sans quoi on se contente d’ordonner les phénomènes dans un cadre pré-établi (c’est ici que se situe l’idée d’une distinction entre « pourquoi » – le cadre théorique – et « comment » – les phénomènes, il me semble, et c’est justement au sein d’un modèle théorique établi par des interventions qu’on pourra éventuellement parler de liens de causalité au delà des corrélations).
Donc en résumé, si l’on se restreint aux « big data », on peut sans doute faire des découvertes mais on reste toujours dans un cadre déjà donné et on s’interdit donc de faire de véritables avancées conceptuelles.
[Reply]
Un exemple sera peut-être plus parlant. Un gène peut avoir un effet sur plusieurs phénotypes, et un phénotype peut être causé par plusieurs gènes, suivant des relations complexes. Etablir l’ensemble des corrélations entre gènes et phénotypes ne permet pas nécessairement de mettre au jour les mécanismes complexes correspondants, et en particulier, ne permettrait pas de connaitre les phénotypes qui seraient induits par une combinaison originale de gènes, alors qu’un bon modèle de ces mécanismes (qui n’existe pas aujourd’hui) le permettrait. Séquencer les génomes est donc insuffisant dans le cadre de la recherche fondamentale en biologie.
[Reply]
« Faut-il rappeler que la corrélation (originairement appelée “co-existence”) n’est pas l’opposée de la causalité ? Que le coefficient de corrélation permet précisément de mesurer la force de la liaison entre 0 (indépendance) et 1 (dépendance stricte). Dans le cas où le coefficient est 1 : on a la pleine causalité directe. »
Exemple :
« Toutes les personnes qui ont mangé des tomates en 1800 sont mortes »
coefficient de corrélation = 1
donc manger des tomates fait mourir !
J’ai raté une marche ?
[Reply]
Tu as tout à fait raison, Christian. Cette distinction entre causalité et de corrélation n’est pas juste…
Antoinette Rouvroy – http://directory.unamur.be/staff/arouvroy -, Tarleton Gillespie – http://www.internetactu.net/2012/11/29/la-pertinence-des-algorithmes/ – ou Kate Crawford – http://www.internetactu.net/2011/09/23/big-data-la-necessite-d%E2%80%99un-debat/ et http://blogs.hbr.org/cs/2013/04/the_hidden_biases_in_big_data.html et http://bits.blogs.nytimes.com/2013/06/01/why-big-data-is-not-truth/ – ne disent pas autre chose…
J’étais également sceptique face à cette vision que Cukier et Mayer-Schonberger expriment dans leur livre lorsque je l’ai lu, mais le storytelling de cette distinction était en même temps passionnant sur ce qu’il exprimait de notre rapport aux chiffres et aux algorithmes, notamment en ce qui concerne la dépossession, l’impression de perte de maîtrise.
[Reply]