Causalité et corrélation, Cum hoc ergo propter hoc
Par Arthur Charpentier le jeudi 10 septembre 2009, 11:49 - Statistiques - Lien permanent
Voilà quelque temps que je promets un billet sur la causalité et la corrélation, il serait temps que je m’y colle1....

Pour ceux qui ont séché les cours de latin au
collège (ou de philo au lycée), "cum
hoc ergo propter hoc" signifie littéralement "avec
ceci, donc à cause de ceci",
qui est un sophisme bien connu consistant
à défendre
une conclusion de nature causale simplement en invoquant le fait qu’il
y a corrélation entre deux phénomènes.
(comme le
note le dictionnaire de philosophie, ici).
Par exemple, fut
un temps (disons au Moyen Age) où l’on croyait dur comme fer
qu’avoir des poux permettait de rester en bonne santé car
les
malades n’en avaient pas. Il existe toutefois beaucoup d’autres exemples (connus) de fausse causalité, où d’évènements pensés de manière causale, alors qu’il n’en est rien. Un exemple assez classique en économétrie est la "regression fallacy" correspondant à l’explication d’une variable par un bruit blanc (une autre variable complètement indépendante, a priori). De manière plus littéraire, prenons l’exemple où je me suis endormis hier avec un mal de crâne, ce matin j’ai pris une tartine avec une confiture à la rhubarbe, et toute la journée, je n’ai pas eu mal à la tête: manger de la rhubarbe évite le mal de crâne !
Il existe aussi un autre exemple plus classique pour les amateurs de jeux de hasard, parfois appelé "gambler’s fallacy" (ou que tous les parents qui ont joué avec leurs enfants aux petits cheveaux connaissent aussi très bien). Si je lance deux dés et que je tombe sur un double 6 du premier coup, c’est que les dés sont pipés ! C’est tout simplement croire qu’un événement de faible probabilité ne peut apparaître qu’après de nombreux essais.... Les actuaires connaissent ça avec la notion de période de retour: en 1999 on a eu des tempêtes centennaires en France, mais il aurait parfaitement possible d’en ravoir dès 2000.... C’est la même chose que l’émerveillement face au tirage du loto: « Ce type à la télé a gagné le gros lot. Incroyable! Il y avait une chance sur un million » Effectivement, il fallait un vainqueur: prévoir a priori qui sera vainqueur est très difficile, mais constater a posteriori qu’il y a un vainqueur (et trouver ça incroyable) est normal.
Je donne des exemples assez triviaux, mais on tombe rapidement sur des perles en se baladant un peu sur le net, par exemple "Intelligent Children More Likely To Become Vegetarian" (ici, ou comme le dit l’introduction "Intelligent children may be more likely to be vegetarian as adults, suggests a study published online by the British Medical Journal"), "Eating pizza cuts cancer risk’" (ici, ou "Italian researchers say eating pizza could protect against cancer"), "Luckiest people born in summer’" (ici, ou "People born in summer have a sunnier outlook than those born in colder months, the results of a survey show"), ou enfin "People who sleep 6 hours a night live longer then eight or more" (ici, ce qui devrait m’inciter à dormir moins la nuit). J’en passe et des (probablement) meilleures.
Pour être tout à fait honnête, je ne prétendrais pas qu’il est toujours facile de distinguer causalité et corrélation, loin de là. Un exemple classique est celui du lien entre la concentration en CO2 et le réchauffement climatique

Avant d’aller un peu plus
loin dans la réflexion (je ne sais pas
si c’est un hoax ou pas, mais en l’état je vais prendre
ça au second degré), l’institut de sondage Gallup
aux
Etats-Unis a posé la question suivante: "Do you believe correlation implies
causation ?" (l’article en question se
trouve ici). Il semble que ce soit le cas pour 2/3 des personnes
interrogées, "An
overwhelming 64% of American’s answered
"YES", while only 38% replied "NO"". Comme le note un des
analystes du sondage, "Now,
with the results of the latest poll, we are able to determine that
people’s lack of belief in correlation not being causal has caused
correlation to now become causal. It is a real advance in the field
of meta-epistemology."
En fait, cette histoire a été abondament traité en logique, et donc en philosophie...
Plusieurs grands philosophes se sont penchés sur le problème de la causalité (qui est un problème central en espistémologie). Parmi les philosophes les plus importants sur cette question, on notera tout d’abord Emmanuel Kant, pour qui la causalité fait parti des concepts a priori de l’entendement: on ne peut pas penser sans le principe de causalité, il existe avant même toute connaissance empirique.
Plusieurs grands philosophes se sont penchés sur le problème de la causalité (qui est un problème central en espistémologie). Parmi les philosophes les plus importants sur cette question, on notera tout d’abord Emmanuel Kant, pour qui la causalité fait parti des concepts a priori de l’entendement: on ne peut pas penser sans le principe de causalité, il existe avant même toute connaissance empirique.
Sur ce point, il s’appose à David Hume, qui pense le contraire: c’est parce que l’on s’habitue à voir deux phénomènes se succéder que l’on induit qu’ils sont liés par un lien de causalité. Pour reprendre l’analyse de Hume dans Enquête sur l’entendement humain, "Les hommes, en général, ne trouvent jamais de difficulté à expliquer les opérations les plus communes et les plus familières de la nature - telles que la chute des graves, la croissance des plantes, la génération des animaux ou la nutrition des corps par les aliments; et ils admettent que, dans tous les cas, ils perçoivent la force même ou l’énergie de la cause, qui la met en connexion avec son effet et qui est constamment infaillible dans son action". Il y a ainsi une "causalité nécessaire".
On peut aussi retenir les réflexions de Karl Popper pour qui la connaissance est un processus hypothético-déductif, autrement dit, ce n’est pas en observant les faits que l’on peut faire des prédictions.
Je reviendrais sur l’aspect statistique de ce problème dans un prochain billet.
En fait, cette histoire a été abondament traité en logique, et donc en philosophie...
Plusieurs grands philosophes se sont penchés sur le problème de la causalité (qui est un problème central en espistémologie). Parmi les philosophes les plus importants sur cette question, on notera tout d’abord Emmanuel Kant, pour qui la causalité fait parti des concepts a priori de l’entendement: on ne peut pas penser sans le principe de causalité, il existe avant même toute connaissance empirique.
Plusieurs grands philosophes se sont penchés sur le problème de la causalité (qui est un problème central en espistémologie). Parmi les philosophes les plus importants sur cette question, on notera tout d’abord Emmanuel Kant, pour qui la causalité fait parti des concepts a priori de l’entendement: on ne peut pas penser sans le principe de causalité, il existe avant même toute connaissance empirique.
Sur ce point, il s’appose à David Hume, qui pense le contraire: c’est parce que l’on s’habitue à voir deux phénomènes se succéder que l’on induit qu’ils sont liés par un lien de causalité. Pour reprendre l’analyse de Hume dans Enquête sur l’entendement humain, "Les hommes, en général, ne trouvent jamais de difficulté à expliquer les opérations les plus communes et les plus familières de la nature - telles que la chute des graves, la croissance des plantes, la génération des animaux ou la nutrition des corps par les aliments; et ils admettent que, dans tous les cas, ils perçoivent la force même ou l’énergie de la cause, qui la met en connexion avec son effet et qui est constamment infaillible dans son action". Il y a ainsi une "causalité nécessaire".
On peut aussi retenir les réflexions de Karl Popper pour qui la connaissance est un processus hypothético-déductif, autrement dit, ce n’est pas en observant les faits que l’on peut faire des prédictions.
Je reviendrais sur l’aspect statistique de ce problème dans un prochain billet.

Commentaires
C'est très bien de s'attaquer à ce sujet éminemment philosophique! Cela commence très bien. Et il y a tant à dire sur ce sujet. En tout cas je vois qu'il sera bon de te recontacter quand j'écrirai sur la philosophie du hasard...
J'aimerai notamment beaucoup d'éclaircissements sur Hume et le problème de l'induction, quand on y l'assaisonne de probabilités...
Félicitations!
REPONSE: merci !!
Petit complément, car plusieurs personnes m'ont fait part de leurs commentaires, sans toutefois daigner les écrire eux même sur le blog....
Tout d'abord une collègue rennaise, qui parle un peu de corrélation et de causalité aux étudiants de Licence, et qui m'a donné un exemple simple, mais assez parlant.... On a à notre disposition un peu échantillon d'étudiants, dont on sait s'ils fument ou pas (on suppose que c'est une modalité 0 ou 1) et leur sexe. Voici le nombres observés
Bref, les variables sont corrélées. Il n'y a aucun doute la dessus, c'est une grandeur statistique1.
- Quand les consultants font de l'économétrie
Un copain de promo (ou presque) qui bosse pour une très grosse entreprise faisant pas mal de recherche m'a fait part des "découvertes" d'un cabinet de consultant qui devait proposer un modèle de risque de crédit. Autrement dit, le but était d'avoir un modèle prédictif, permettant d'anticiper et d'estimer les non-paiments. Les taux de défauts sont pris ici comme une série temporelle. Les consultants ont découvert qu'avec une dizaine de séries temporelles (absolument quelconques) décallées plus ou moins dans le temps, on pouvait modéliser très bien les défauts d'entreprises ! Visiblement le modèle final suggèrait de régresser sur plus de 200 séries ! Et ils concluaient à une causalité entre ces variables et le taux de défaut !Cela me fait penser à l'introduction des modèles MA (moving average) en séries temporelles. Comme je l'avais noté ici, Eugen Slutsky avait, dans un papier intitulé The Summation of Random Causes as the Source of Cyclical Processes, réussi à modéliser des prix à l'aide de tirages du loto (c'est à dire un bruit aléatoire) ! De là à penser qu'il existe une relation de causalité entre les tirages du loto et le prix du blé...
Bon, accessoirement, j'ai noté la demande sur une étude approfondie des "spurious regression", et promis, dès que j'ai un peu de temps, je m'y colle....
1on peut d'ailleurs dériver un eintervalle de confiance car il s'agit d'un échantillon... mais je reviendrais là dessus une autre fois peut être. Sous R, on peut le faire de manière assez jolie avec library(metacor) par exemple.