Arthur Charpentier

Aller au contenu | Aller au menu | Aller à la recherche

Keyword - causalité

Fil des billets

lundi 1 mars 2010

Regarder la télé rend idiot, c'est prouvé...

Bon, en fait je me suis contenté de reprendre un titre volé sur le site de TF1 (et d’en tirer peut-être des conclusions un peu rapidement), qui écrivait la semaine dernière

Si on regarde le papier sur lequel est tiré cette étude (ici), on y apprend effectivement que le QI sur des populations de fumeurs et de non-fumeurs est différentes1.

Un rapide test d’égalité de moyenne permet de le confirmer

Dans l’article, ils ont la présence d’esprit de décorréler la variable fumer d’éventuels effets socio-économiques (les fameux variables cachées qui créent de la spurious correlation). Bref, si on regarde la distribution de la moyenne du QI pour chacun des groupes (fumeurs en rouge, nonfumeurs en bleu)

De là à conclure qu’il existe une relation de causalité, certains n’hésite pas à sauter le pas ! Ah, ce fameux débat entre corrélation et causalité.... quand arrivera-t-il enfin en école de journalisme2 ?
1 j’admettrais ici qu’il existe là aussi un lien entre l’idiotie et la mesure du quotient intellectuel. Pour citer Alfred Binet, « je nomme intelligence ce que mesurent mes tests », de manière un peu tautologique (mais dont j’aime beaucoup la réponse !).
2 à supposer qu’il faille avoir fait une école de journalisme pour entrer chez TF1, mais je n’en sais rien, je n’ai pas la télé....

jeudi 5 novembre 2009

Approche statistique de la causalité

Chose promise (ici), chose dûe, je vais revenir à la causalité, de manière un peu plus formelle je pense....

  • Les premiers travaux de Ronald Fisher
Mais avant tout chose, notons que les essais pour formaliser ces histoires de causalité sont finalement assez anciens On peut remonter par exemple 50 ans en  arrière, avec plusieurs papiers publiés par Ronald Fisher, le premier intitulé "cigarettes, cancer and statistics" (ce qui donne le ton), et surtout deux papiers http://blogperso.univ-rennes1.fr/arthur.charpentier/public/perso2/.Fisher_s.jpgde vulgarisation dans Nature, le premier "lung cancer and cigarettes" puis un second "cancer and smoking". Bon, à en voir la photo (mais aussi des éléments bibliographiques1), je pense que l’intention était de montrer que corrélation ne signifiait pas causalité, mais finalement, peu importe les motivations, la question est  pertinante. Il a d’ailleurs collecté ces travaux dans une oeuvre un peu pamphlétaire "smoking: the cancer contreversy, some attempts to assess the evidence". En fait les compagnies de cigarettes avaient compris très tôt que "corrélations statistiques" existaient, mais niais la relation de causalité. Et Ronald ne leur donnait pas vraiment tort...
Bon, mais si Ronald Fisher a souligné avec force la différence entre corrélation et causalité, il faut admettre qu’il n’a pas vraiment apporté de réponse. D’autant plus qu’il est mort 4 ans plus tard.... Entre temps, notons qu’il avait beaucoup discuté avec Bertand Russell sur la signification philosophique de la causalité.
Mais plusieurs auteurs s’étaient aussi penché sur ce problème, dont Jerome Cornfield, Richard Doll, ou encore Bradford Hill, qui établirent tous que le pourcentage des fumeurs dans une population de personnes atteintes de cancer était supérieur à celui dans une population de contrôle. Ils parlèrent de "retrospective studies" (un peu  comme pour souligner qu’ex post on observe toujours des choses dont on ne peut rien déduire, comme j’en parle ici). On part en effet de personnes malades, et on cherche ce qui pourrait les distinguer. Le cancer est une caractéristique, mais il aurait été possible - peut être - de trouver une autre "cause" comme le fait de porter un T-shirt ou une chemise, ou le fait de prendre du thé ou du café au petit déjeuner.
Bref, faire une étude de causalité nécessitait de ne pas partir d’un échantillon de personnes malades, mais de suivre une population dans le temps (ce qui est forcément beaucoup plus long). On parle alors  de "prospective studies".
  • La réponse de Clive Granger
Pour comprendre la notion de causalité telle que l’avait introduite Clive Granger en 1969, considérons deux séries temporelles. En effet, pour comprendre la différence entre la causalité et la corrélation, il faut qu’une variable se réalise avant l’autre.
On se donne deux processus  et on se demande si  cause , et dans quelle mesure (à supposer que cette causalité soit quantifiable, ou mesurable).     La loi du processus est la loi du processus du couple . Cette dernière s’écrit, à la date t, conditionnellement au passé, noté  et ,
Dans le cas où les processus et sont indépendants, alors
On peut montrer que


En passant au logarithme, et en prenant l’espérance (bon, et aussi en multipliant par 2 pour ceux qui veulent vérifier2) alors



ce qui permet d’indentifier un peu tous les termes que l’on devrait naturellement voire apparaître quand on va regarder un peu plus en détails.
Voilà pour les généralités. Formellement, on retrouve les notions de causalité introduites par Clive Granger,

Soient et  deux séries temporelles. En reprenant les définition proposée par Clive Granger dès 1969, on dira
  • cause à la date t si et seulement
  • cause instantanément à la date t si et seulement
autrement dit, on a des définitions assez intuitives. Non ?
Si c’est un peu trop théorique, prenons le petit exemple simple suivant: soient  et  deux séries temporelles définies par une relation de récurence de la forme
où on va supposer que   et  sont des bruits blancs indépendants. Comme
 
on notera que cause à la date t si et seulement . De manière similaire, notons que
autrement dit, on a causalité instantanée de  vers si et seulement si .
Les séries ont été simulées sur le graphique ci-dessous, en supposant que un bruit blanc.
http://blogperso.univ-rennes1.fr/arthur.charpentier/public/perso2/.causalite-granger-series-1_m.jpg
http://blogperso.univ-rennes1.fr/arthur.charpentier/public/perso2/.causalite-granger-scatte-1_m.jpg
Si l’on prend une série intégrée pour  la causalité est peut être un peu plus claire à visualiser,
http://blogperso.univ-rennes1.fr/arthur.charpentier/public/perso2/.causalite-granger-series-2_m.jpg
http://blogperso.univ-rennes1.fr/arthur.charpentier/public/perso2/.causalite-granger-scatte-2_m.jpg
Bon, mais cet exemple peut bien sûr se généraliser ! Rien de plus simple..... Pour cela, on va suppose que le couple suit un modèle autorégressif joint, i.e.
soit, en explicitant un peu,
où on supposera , ce qui permettra d’interpréter le vecteur  comme le processus d’innovation. Alors
  • ne cause pas  à la date t si et seulement si et seulement si les coefficients de  sont nuls, i.e. 
  • ne cause pas à la date t si et seulement si et seulement si les coefficients de  sont nuls, i.e. 
Cette causalité est finalement assez intuitive, et finalement assez simple à tester avec n’importe quel logiciel... 
1 et force est de constater que Ronald Fisher avait un don pour tuer le débat dans l’oeuf. Pour lui, l’utilisation de la corrélation comme élément causal par le gouvernement (dans le cadre de campagnes de lutte contre le cancer) était à rapprocher de l’utilisation de la propagande par les nazis...
2 pour ceux qui lisent régulièrement ce blog, on voit souvent des 2 trainer dans les formules de statistique, comme pour définir la déviance par exemple... Je ferais un jour un billet pour expliquer pourquoi les statisiciens essayent de se donner de l’importance en multipliant tout par 2.

jeudi 10 septembre 2009

Causalité et corrélation, Cum hoc ergo propter hoc

Voilà quelque temps que je promets un billet sur la causalité et la corrélation, il serait temps que je m’y colle1....

Pour ceux qui ont séché les cours de latin au collège (ou de philo au lycée), "cum hoc ergo propter hoc" signifie littéralement "avec ceci, donc à cause de ceci", qui est un sophisme bien connu consistant à défendre une conclusion de nature causale simplement en invoquant le fait qu’il y a corrélation entre deux phénomènes. (comme le note le dictionnaire de philosophie, ici). Par exemple, fut un temps (disons au Moyen Age) où l’on croyait dur comme fer qu’avoir des poux permettait de rester en bonne santé car les malades n’en avaient pas.
Il existe toutefois beaucoup d’autres exemples (connus) de fausse causalité, où d’évènements pensés de manière causale, alors qu’il n’en est rien. Un exemple assez classique en économétrie est la "regression fallacy" correspondant à l’explication d’une variable par un bruit blanc (une autre variable complètement indépendante, a priori). De manière plus littéraire, prenons l’exemple où je me suis endormis hier avec un mal de crâne, ce matin j’ai pris une tartine avec une confiture à la rhubarbe, et toute la journée, je n’ai pas eu mal à la tête: manger de la rhubarbe évite le mal de crâne !
Il existe aussi un autre exemple plus classique pour les amateurs de jeux de hasard, parfois appelé "gambler’s fallacy" (ou que tous les parents qui ont joué avec leurs enfants aux petits cheveaux connaissent aussi très bien). Si je lance deux dés et que je tombe sur un double 6 du premier coup, c’est que les dés sont pipés ! C’est tout simplement croire qu’un événement de faible probabilité ne peut apparaître qu’après de nombreux essais.... Les actuaires connaissent ça avec la notion de période de retour: en 1999 on a eu des tempêtes centennaires en France, mais il aurait parfaitement possible d’en ravoir dès 2000.... C’est la même chose que l’émerveillement face au tirage du loto: « Ce type à la télé a gagné le gros lot. Incroyable! Il y avait une chance sur un million » Effectivement, il fallait un vainqueur: prévoir a priori qui sera vainqueur est très difficile, mais constater a posteriori qu’il y a un vainqueur (et trouver ça incroyable) est normal.
Je donne des exemples assez triviaux, mais on tombe rapidement sur des perles en se baladant un peu sur le net, par exemple "Intelligent Children More Likely To Become Vegetarian" (ici, ou comme le dit l’introduction "Intelligent children may be more likely to be vegetarian as adults, suggests a study published online by the British Medical Journal"), "Eating pizza cuts cancer risk’" (ici, ou "Italian researchers say eating pizza could protect against cancer"), "Luckiest people born in summer’" (ici, ou "People born in summer have a sunnier outlook than those born in colder months, the results of a survey show"), ou enfin "People who sleep 6 hours a night live longer then eight or more" (ici, ce qui devrait m’inciter à dormir moins la nuit). J’en passe et des (probablement) meilleures.
Pour être tout à fait honnête, je ne prétendrais pas qu’il est toujours facile de distinguer causalité et corrélation, loin de là. Un exemple classique est celui du lien entre la concentration en CO2 et le réchauffement climatique

Avant d’aller un peu plus loin dans la réflexion (je ne sais pas si c’est un hoax ou pas, mais en l’état je vais prendre ça au second degré), l’institut de sondage Gallup aux Etats-Unis a posé la question suivante: "Do you believe correlation implies causation ?" (l’article en question se trouve ici). Il semble que ce soit le cas pour 2/3 des personnes interrogées, "An overwhelming 64% of American’s answered "YES", while only 38% replied "NO"". Comme le note un des analystes du sondage, "Now, with the results of the latest poll, we are able to determine that people’s lack of belief in correlation not being causal has caused correlation to now become causal. It is a real advance in the field of meta-epistemology."
En fait, cette histoire a été abondament traité en logique, et donc en philosophie...
Plusieurs grands philosophes se sont penchés sur le problème de la causalité (qui est un problème central en espistémologie). Parmi les philosophes les plus importants sur cette question, on notera tout d’abord Emmanuel Kant, pour qui la causalité fait parti des concepts a priori de l’entendement: on ne peut pas penser sans le principe de causalité, il existe avant même toute connaissance empirique.
Plusieurs grands philosophes se sont penchés sur le problème de la causalité (qui est un problème central en espistémologie). Parmi les philosophes les plus importants sur cette question, on notera tout d’abord Emmanuel Kant, pour qui la causalité fait parti des concepts a priori de l’entendement: on ne peut pas penser sans le principe de causalité, il existe avant même toute connaissance empirique.
Sur ce point, il s’appose à David Hume, qui pense le contraire: c’est parce que l’on s’habitue à voir deux phénomènes se succéder que l’on induit qu’ils sont liés par un lien de causalité. Pour reprendre l’analyse de Hume dans Enquête sur l’entendement humain, "Les hommes, en général, ne trouvent jamais de difficulté à expliquer les opérations les plus communes et les plus familières de la nature - telles que la chute des graves, la croissance des plantes, la génération des animaux ou la nutrition des corps par les aliments; et ils admettent que, dans tous les cas, ils perçoivent la force même ou l’énergie de la cause, qui la met en connexion avec son effet et qui est constamment infaillible dans son action". Il y a ainsi une "causalité nécessaire".
On peut aussi retenir les réflexions de Karl Popper pour qui la connaissance est un processus hypothético-déductif, autrement dit, ce n’est pas en observant les faits que l’on peut faire des prédictions.
Je reviendrais sur l’aspect statistique de ce problème dans un prochain billet.
1 j’ai un peu la pression car pas mal de monde a écrit sur le sujet... il y a même un blog (ici) intitulé correlation-causality.blogspot.com ! Sinon Greg Mankin en parle aussi sur son blog (de manière plus humoristique, ici).