Corrélation ou causalité ? Brillez en société avec notre générateur aléatoire de comparaisons absurdes

Cet article du journal Le Monde permet de comprendre, à partir de plusieurs exemples, pourquoi il est nécessaire, lorsqu'on étudie des phénomènes économiques et sociaux, de distinguer corrélation et causalité.

En France, 57 % des morts ont lieu à l’hôpital : la probabilité de mourir dans les établissements de santé est supérieure à celle de passer l’arme à gauche chez soi dans son lit. Alors, dangereux l’hôpital ? Non. Si la proportion de morts est plus élevée à l’hôpital, c’est parce qu’on s’y rend lorsqu’on est malade, et que c’est quand on est malade qu’on risque le plus de mourir.

Cette notion de corrélation, autrement dit quand deux données semblent liées, est tout à fait différente de celle de causalité, le lien de cause à effet. Ainsi, tenter de démontrer une théorie en additionnant des statistiques et en comparant des courbes ou des cartes peut être trompeur si la démonstration n’est pas accompagnée d’une étude rigoureuse.

Le risque ? Tomber dans un déterminisme comme celui de Pierre Simon de Laplace au XVIIIe siècle ou celui de certains géographes du XIXe siècle qui défendaient que la géographie – physique, celle des vals et des collines – était responsable de l’ordre de la société. Il en irait de même pour le climat, qui déjà chez l’historien romain Tacite (Ier siècle), cité par le géographe Olivier Dollfus, façonnait le comportement des Germains, Tacite évoquant la « rudesse et sauvagerie des peuples venus du Nord, des pays aux hivers froids, qui sortent de la profondeur des forêts ».

 

De la différence entre corrélation et causalité

Ce graphique présente de manière aléatoire deux indicateurs – à partir d'environ 50 jeux de données historiques – selon que leur représentation se ressemblent, ainsi qu'un événement au hasard. Ses axes des ordonnées sont coupés en bas pour faire correspondre les courbes.

NB : D’autres exemples de corrélations aléatoires sont visualisables sur la version en ligne de l’article.

 

Dans le sillage des « sept conseils pour ne pas se faire avoir par les représentations graphiques », le graphe ci-dessus pourrait ressembler à un exemple de ce qu’il ne faut pas faire : les deux données n’ont ni la même échelle ni la même unité. En coupant les axes des ordonnées (à droite et à gauche), on peut superposer deux courbes qui n’ont rien à voir et laisser penser qu’elles ont une influence l’une sur l’autre, comme le fait depuis des années le site parodique Spurious Correlations.

Il en va de même pour l’apposition de cartes les unes à côté des autres ; ce n’est pas parce que deux cartes montrent une densité égale à deux indicateurs que ces deux indicateurs ont une influence l’un sur l’autre. Parfois, on se retrouve simplement avec deux cartes de France qui montrent la même chose : il y a plus de blocages, mariages, maraîchage, etc. là où il y a plus d’habitants.