Chose promise (ici), chose dûe, je vais revenir à
la
causalité, de manière un peu plus formelle je
pense....
- Les
premiers travaux de Ronald Fisher
Mais avant tout chose, notons que les essais pour formaliser ces
histoires de causalité sont finalement assez anciens On
peut
remonter par exemple 50 ans en arrière, avec
plusieurs
papiers publiés par Ronald Fisher, le premier
intitulé "
cigarettes,
cancer and statistics" (ce qui donne le ton), et surtout
deux papiers

de vulgarisation dans
Nature,
le premier "
lung
cancer and cigarettes" puis un second "
cancer
and smoking".
Bon, à en voir la photo (mais aussi des
éléments
bibliographiques
1), je pense
que l’intention était de montrer que
corrélation ne signifiait pas causalité, mais
finalement, peu importe les motivations, la question est
pertinante. Il a d’ailleurs collecté ces travaux
dans une
oeuvre un peu pamphlétaire "
smoking:
the cancer contreversy, some attempts to assess the evidence".
En fait les compagnies de cigarettes avaient compris très
tôt que "corrélations statistiques" existaient,
mais niais
la relation de causalité. Et Ronald ne leur donnait pas
vraiment
tort...
Bon, mais si Ronald Fisher a souligné avec force la
différence entre corrélation et
causalité, il faut admettre
qu’il n’a pas vraiment apporté de réponse.
D’autant plus
qu’il est mort 4 ans plus tard.... Entre temps, notons qu’il avait
beaucoup discuté avec Bertand Russell sur la signification
philosophique de la causalité.
Mais plusieurs auteurs s’étaient aussi penché sur
ce
problème, dont Jerome Cornfield, Richard Doll, ou encore
Bradford Hill, qui établirent tous que le pourcentage des
fumeurs dans une population de personnes atteintes de cancer
était supérieur à celui dans une
population de
contrôle. Ils parlèrent de "
retrospective studies"
(un peu comme pour souligner qu’
ex post
on observe toujours des choses dont on ne peut rien déduire,
comme j’en parle ici). On part en effet de personnes malades, et on
cherche ce qui pourrait les distinguer. Le cancer est une
caractéristique, mais il aurait été
possible -
peut être - de trouver une autre "
cause"
comme le fait de porter un T-shirt ou une chemise, ou le fait de
prendre du thé ou du café au petit
déjeuner.
Bref, faire une étude de causalité
nécessitait de
ne pas partir d’un échantillon de personnes malades, mais de
suivre une population dans le temps (ce qui est forcément
beaucoup plus long). On parle alors de "
prospective studies".
- La
réponse de Clive Granger
Pour comprendre la notion de causalité telle que l’avait
introduite Clive Granger en 1969, considérons deux
séries
temporelles.
En effet, pour comprendre la différence entre la
causalité et la corrélation, il faut qu’une
variable se
réalise
avant
l’autre.
On se donne deux processus

et
on se demande si

cause

,
et dans quelle mesure (à supposer que cette
causalité soit quantifiable, ou mesurable). La loi du processus est la loi du processus du couple

.
Cette dernière s’écrit, à la date
t, conditionnellement au passé, noté

et

,
Dans le cas où les processus

et

sont indépendants, alors
On peut montrer que

En passant au logarithme, et en prenant l’espérance
(bon,
et aussi en multipliant par 2 pour ceux qui veulent
vérifier
2)
alors

ce qui permet d’indentifier un peu tous les termes que l’on devrait
naturellement voire
apparaître quand on va regarder un peu plus en
détails.
Voilà pour les généralités.
Formellement,
on retrouve les notions de causalité introduites par Clive
Granger,
Soient

et

deux
séries temporelles. En reprenant les définition
proposée par Clive Granger dès 1969, on dira
cause
à la date t
si et seulement 
cause
instantanément
à la date t si et seulement 
autrement dit, on a des définitions assez intuitives. Non ?
Si c’est un peu trop théorique, prenons le petit exemple
simple suivant: soient

et

deux
séries temporelles définies par une relation de
récurence de la forme
où on va supposer que et

sont
des bruits blancs indépendants. Comme
on notera que

cause

à la date
t
si et seulement

.
De manière similaire, notons que
autrement dit, on a causalité instantanée
de

vers

si et seulement si

.
Les séries ont été simulées
sur le graphique ci-dessous, en supposant que

un
bruit blanc.


Si l’on prend une série intégrée pour

la
causalité est peut être un peu plus claire
à visualiser,

Bon, mais cet exemple peut bien sûr se
généraliser
! Rien de plus simple..... Pour cela, on va suppose que le couple suit
un modèle autorégressif
joint, i.e.
soit, en explicitant un peu,
où on supposera

,
ce qui permettra d’interpréter le vecteur

comme le processus d’innovation. Alors
-
ne cause pas
à la date t
si et seulement si et seulement si les coefficients de
sont nuls, i.e. 
-
ne cause pas
à la date t
si et seulement si et seulement si les coefficients de
sont nuls, i.e. 
Cette causalité est finalement assez intuitive, et
finalement
assez simple à tester avec n’importe quel
logiciel...
1
et force est de constater que Ronald Fisher avait un don pour tuer le
débat dans l’oeuf. Pour lui, l’utilisation de la
corrélation comme élément causal par
le
gouvernement (dans le cadre de campagnes de lutte contre le cancer)
était à rapprocher de l’utilisation de la
propagande par
les nazis...
2
pour ceux qui lisent régulièrement ce blog, on
voit
souvent des 2 trainer dans les formules de statistique, comme pour
définir la déviance par exemple... Je
ferais un
jour un billet pour expliquer pourquoi les statisiciens essayent de se
donner de l’importance en multipliant tout par 2.