Arthur Charpentier

Aller au contenu | Aller au menu | Aller à la recherche

vendredi 12 mars 2010

Forme des prénoms des français(e)s

Allez, un dernier billet sur les prénoms des français(e)s....

  • Etude sur la taille des prénoms
On peut - pour s’amuser - regarder la taille des prénoms, l’intuition étant qu’il y a de plus en plus de prénoms courts. La longueur moyenne des prénoms est représentée ci-dessous (l’axe des ordonnées correspondant au nombre de lettres moyen dans le prénom)

avec également ci-dessous la proportion des prénoms de moins de 4 lettres (en rouge), et la proportion des prénoms de plus de 9 lettres (en bleu),

On retrouve effectivement la baisse des prénoms longs depuis les années 60, et surtout une explosion des prénoms courts depuis 30 ans...

  • Etude des lettres de début et de fin dans les prénoms

Pour conclure, on peut aussi se demander si la forme des prénoms a changé, en particulier sur les premières et dernières lettres. Ci dessous, la proportion des prénoms qui commencent par un E (en rouge), ou qui finissent par un E (en bleu),

on note que de moins en moins de prénoms finissent par un E aujourd’hui. En revanche, de plus en plus finissent par un A,

On peut assui observer qu’il y a une mode des prénoms commençant par un S dans les années 70,

mais bon, ce genre d’étude peut durer des heures....
  • Etude de la succession des lettres dans les prénoms
Au début du 20ème siècle Andrej Markov a tenté de formaliser des modèles de « probabilités en chaînes ». A deux occasions, il a proposé des applications simples, sur l’étude de la succession de voyelles et de consonnes dans des textes russes. En 1913, il publiait un exemple de recherche statistique sur le texte Eugénie Onéguine illustrant la liaison des épreuves en  chaîne, où il étudiait les 20 000 premières lettres de l’ouvrage de Pouchkine.10 ans plus tard, il travaillait sur les 100 000 premières lettres d’un roman d’Aksakov. Micheline Petruszewycza publié un livre sur le sujet en 1981.
Dans Eugénie Onéguine, Markov avait obtenu la matrice de transition suivante

voyelle consonne
voyelle 1104 7534
consonne 7534 3837
autrement dit, 7534 fois, une consonne suivait une voyelle. Ce genre d’étude a été reprise à plusieurs reprises, en particulier pour étudier les différences entre les langues (les langues qui disposent d’un alphabet). On peut aussi utiliser cette approche pour voir des changements dans le temps de la forme des mots. 
Sur le graphique ci-dessous, on regarde la probabilité qu’une voyelle soit suivie d’une consonne (en rouge) et  la probabilité qu’une voyelle soit suivie d’une voyelle (en bleu),

On notera que les prénoms ont eu tendance par le passer à jouer davantage sur la répétition de voyelles, mais que cette mode semble toutefois passé depuis un trentaine d’année,

On notera également que les prénoms présentant des successions de consonnes se font de plus en plus rares,

Bref, les prénoms français ont décidément beaucoup changés.... Et maintenant j’arrête de jouer avec mes données.

mardi 9 mars 2010

Les actuaires ne sont pas bien exotiques...

Chose promis, chose due, une rapide étude sur les prénoms des actuaires.... Il y a environ 3660 actuaires recensés en France, i.e. membres (voire ex-membres) de l’Institut des Actuaires. Pour des raisons techniques, je n’ai pas pu récupérer leur date de naissance, mais leur année de promotion. On supposera (j’en conviens, c’est une hypothèse un peu forte) que les actuaires obtiennent leur titre vers 25 ou 30 ans. Au niveau méthodologique, j’ai retenu les actuaires sortis des formations depuis 1985, et j’ai supposé qu’ils étaient nés entre 1960 et 1985. J’ai donc deux bases de prénoms, celle des actuaires sur environ 25 ans, et celle de la population française. Si l’on regarde parmi le top 25 des prénoms donnés globalement dans la population, on notera que certains sont sortis davantage que d’autre, mais globalement on retrouve aussi des prénoms classiques chez les actuaires,

Certains prénoms sont sur-représentés (mais tout est relatif), comme les Olivier ou les Nicolas, alors que d’autres sont peu donnés, comme les Sylvie ou les Sandrine, mais je pense qu’il s’agit simplement d’un effet sexe, indiquant que les filles sont sous représentée dans la population des actuaires (de l’ordre de 30% me semble-t-il). On notera aussi les Jean ou les Pascal parmi les prénoms masculins sous-représentés (voire les Arthur, mais je commence à aller voir dans les prénoms exotiques). Les prénoms sont d’ailleurs assez proches de ceux de l’ensemble de la population, avec des prénoms de l’ordre de 7 lettres (en moyenne), comme pour l’ensemble de la population.... Pour aller un peu plus loin, on peut aussi comparer les courbes de Lorenz (ici ou pour quelques rappels), et on notera que les prénoms sont beaucoup plus dispersés chez les actuaires (membres de l’institut des actuaires français, en rouge toujours) que parmi l’ensemble de la population française, née à la même époque (en bleu).

Je n’ai malheureusement pas des données assez précises (et surtout de population assez grande) pour faire une étude aussi poussée que celle de Baptiste sur les prénoms et les CSP (ici)...

lundi 8 mars 2010

Lillie versus Kolmogorov-Smirnov

Toujours pour répondre à une question posée par mail ("ça quoi ça sert le test lillie sous R ? "), un court billet. Avant de parler de Lillie1, il faut revenir sur Kolmogorov-Smirnov. L’idée est de tester

http://perso.univ-rennes1.fr/arthur.charpentier/tex/KS-01b.png
contre
http://perso.univ-rennes1.fr/arthur.charpentier/tex/ks-02.png
Je prends une forme paramétrique pour la fonction que l’on cherche à tester car c’est ce qui est souvent fait en pratique. Et surtout, ça permettra de mieux comprendre (je pense) l’idée du test lilllie. L’idée du test repose sur le théroème de Glivenko-Cantelli. En fait, Andreï Kolmogorov et Vladimir Smirnov ont montré que l’on pouvait encadrer la vitesse de convergence,
http://perso.univ-rennes1.fr/arthur.charpentier/tex/ks-03.png
ce qui se montre en notant que http://perso.univ-rennes1.fr/arthur.charpentier/tex/ks-04.png converge en loi (si l’hypothèse H0 était la bonnne) vers un pont brownien changé de temps par la fonction quantile http://perso.univ-rennes1.fr/arthur.charpentier/tex/ks-05.png.
La loi limite est appelée loi de Kolmogorv-Smirnov, et ne dépend pas de la loi sous-jacente. Par contre elle n’est qu’asymptotique. Pour récupérer la loi à distance finie, regardons les simulations suivantes. On notera en particulier que la loi de la différence ne dépend pas de la vraie loi des observations (même si c’est cette loi que l’on teste, comme toujours lorsque l’on cherche la loi sous l’hypothèse H0)
> n=20
> ns=100000
> SU=SN=SE=rep(NA,ns)
> for(i in 1:ns){
+ X=runif(n)
+ SU[i]=max(c(abs(rank(X)/n-X),abs((rank(X)-1)/n-X)))
+ X=rnorm(n,0,1)
+ SN[i]=max(c(abs(rank(X)/n-pnorm(X,0,1)),abs((rank(X)-1)/n-pnorm(X,0,1))))
+ X=rexp(n,1)
+ SE[i]=max(c(abs(rank(X)/n-pexp(X,1)),abs((rank(X)-1)/n-pexp(X,1))))
+ }
> plot(density(SN),col="red",lwd=2)
> lines(density(SU),col="blue",lwd=2)
> lines(density(SE),col="green",lwd=2)
avec la densité de la loi du maximum entre la fonction de répartition théorique et la fonction de répartition empirique en rouge pour l’échantillon Gaussien, en bleu pour l’échantillon uniforme et en vert pour l’échantillon exponentiel. Peu importe la loi sous-jacente, la statistique de test est la même.

On peut en particulier récupérer les quantiles de cette lois pour n=20 observations (la loi du test dépend simplement du nombre d’observations).

> quantile(SE,.95)
      95%
0.2937023
> quantile(SE,.90)
     90%
0.264661
On peut d’ailleurs confirmer ces valeurs en regardant dans les tables (ici ou ), par exemple 0.294 à 95%,

Mais ce test ne sert que pour juger de l’adéquation à une loi précise (que nous avions noté http://perso.univ-rennes1.fr/arthur.charpentier/tex/ks-encore.png ici). En pratique, on ne connaît pas cette loi, mais on peut l’estimer, en particulier pour les lois paramétriques. On peut alors chercher à tester autre chose, comme
http://perso.univ-rennes1.fr/arthur.charpentier/tex/ks-06.png
contre
http://perso.univ-rennes1.fr/arthur.charpentier/tex/ks-07.png
qui s’apparente plus à un test d’ajustement à une famille de lois. Ce test étant différent du précédant, il n’y a pas de raison d’avoir la même loi pour la statistique de test (qui néanmoins, à  peut rester celle que nous avions considérée, à savoir la norme infinie entre les fonctions de répartition). Graphiquement par exemple, on cherchait aurparavant à tester l’ajustement de la loi rouge, et maintenant on va tester l’ajustement de la loi bleue,

qui va s’adapter à l’échantillon, contrairement au test initial,

Le code ici, dans le cas Gaussien par exemple (la loi sous-jacente n’est plus neutre dans ce cas) donne
> n=20
> ns=100000
> SN=SNML=rep(NA,ns)
> for(i in 1:ns){
+ X=rnorm(n,0,1)
+ SN[i]  =max(c(abs(rank(X)/n-pnorm(X,0,1)),
+               abs((rank(X)-1)/n-pnorm(X,0,1))))
+ SNML[i]=max(c(abs(rank(X)/n-pnorm(X,mean(X),sd(X))),
+               abs((rank(X)-1)/n-pnorm(X,mean(X),sd(X)))))
+ }
> plot(density(SN),col="blue",lty=2)
> lines(density(SNML),col="red",lwd=2)
Les densités sont sensiblement différentes,

et les quantiles aussi,
> quantile(SN,.95)
      95%
0.2943206
> quantile(SNML,.95)
      95%
0.1923295
Sous R, deux fonctions distinctes sont à utiliser. Par exemple l’ajustement à une loi http://perso.univ-rennes1.fr/arthur.charpentier/tex/ks-08.png donne
>  X=rnorm(20)
> mean(X)
[1] -0.553641
> sd(X)
[1] 0.8293167
>  ks.test(X,"pnorm", mean=0,sd=1)

        One-sample Kolmogorov-Smirnov test

data:  X
D = 0.3096, p-value = 0.03362
alternative hypothesis: two-sided
(on rejette ici l’ajustement à une loi normale centrée réduite) et l’ajustement à une loi http://perso.univ-rennes1.fr/arthur.charpentier/tex/ks-09.png donne
> lillie.test(X)

        Lilliefors (Kolmogorov-Smirnov) normality test

data:  X
D = 0.1519, p-value = 0.2629
avec une p-value de l’ordre de 26%. Notons que cette p-value est interprétable, contrairement au test suivant, qui n’est pas valide,
>  ks.test(X,"pnorm", mean=mean(X),sd=sd(X))

        One-sample Kolmogorov-Smirnov test

data:  X
D = 0.1519, p-value = 0.69
alternative hypothesis: two-sided
Encore une fois, la statistique de test est la même, sauf que la loi de la statistique de test sous H0 n’est pas juste dans le dernier cas. En particulier, n sera beaucoup plus exigent dans le test car on a choisi la meilleure loi normale possible (à l’aide d’un critère de maximisation de vraisemblance). Sinon je renvoie ici pour un document sur le même sujet.
1 Lillie pour Hubert Lilliefors qui, le premier, a proposé ce test

Quid des saints du calendrier ?

Pour poursuivre un peu mon étude sur les prénoms en France, commencée ici (oui, c’est un sujet qui me préoccupe en ce moment), on peut se demander quelle proportions des enfants qui naissent ont leur fête dans le calendrier ? Car mine de rien, tous ceux qui ont survolé un calendrier se sont un jour demandé "c’est vraiment un prénom, ça ?". Bref, si je prends le calendrier en ligne ici, retranscrit en csv , on obtient les proportions suivantes, allant de 45% en 1900 à moins de 20% en 2000,

dimanche 7 mars 2010

De l'originalité dans les prénoms des français(e)s...

Lors d’une discussion avec quelques anciens collègues samedi midi, nous évoquions des prénoms, et du fait que les prénoms rares (pour ne pas dire bizarres) étaient de plus en plus fréquents. Je me suis demandé si les gens donnaient vraiment plus des prénoms originaux qu’avant. Était-ce une idée en l’air (du buzz médiatique, genre ici ou ), ou au contraire est-elle (statistiquement) fondée ?


Pour mesurer la concentration des prénoms (ou de n’importe quoi d’ailleurs), le plus simple est peut être d’utiliser la courbe de Lorenz. En statistique descriptive, on construit cette courbe de la manière suivante: à partir d’un échantillon que l’on supposera ordonné, i.e. , la courbe de Lorenz est le nuage de points et


La relecture probabiliste est que l’on trace


Je renvoie ici ou pour plus d’information sur la courbe de Lorenz.
Si je reviens à mon histoire de prénoms, on pourra noter qu’en 2003, par exemple1, il y a eu 795493 naissances, donnant lieu à 59481 prénoms (j’entends par à des prénoms d’orthographe différente),
> head(base)
    sexe preusuel annais nombre rang
32     1    AADIL   2003      3 8775
71     1    AARON   2003    135  764
100    1    ABASS   2003      3 8301
133    1    ABBAS   2003      5 6897
171    1    ABBES   2003      3 8816
228    1      ABD   2003     11 3982

Si on trie, on obtient le classement suivant,
> head(baser)
    sexe preusuel annais nombre rang
300101    1      LEA   2003   8988    1
110747    1    LUCAS   2003   8292   2
168477    1     THEO   2003   7855    3
77273    1     HUGO   2003   7386    4
318115    1    MANON   2003   6917    5

Autrement dit, le top 5 des prénoms représente 5% des naissances, et les 100 premiers représentent 43% des naissances. En 1900, les 5 premiers représentaient 22% de l’ensemble, et 80% pour les 100 premiers. Afin de résumer l’information, on notera, par exemple, que 2,5% des prénoms (les prénoms les plus donnés) représentaient 50% des naissances en 2003. C’est ceci que l’on récupère via la courbe de Lorenz.
Le graphique ci-dessous montre combien représentaient 10% des prénoms (les prénoms le plus donnés, en rouge) au cours du temps, et 2,5% des prénoms (en bleu). Autrefois, si l’on prenait les 2,5% des prénoms les plus donnés, ils étaient portés par 9O% de la population en 1900 (100-10), contre 50% de la population en 2004 (100-50) [des compléments sur la lecture des graphiques ont été apportés ici]

On peut alors effectivement parler de "course à l’originalité" depuis 1970. En 1900, seuls 5% des naissances donnaient lieu à des prénoms "originaux", contre 50% aujourd’hui. Étrangement, on notera qu’il y a eu des "pics d’originalité" pendant les guerres. Si quelqu’un a une explication ?... On peut aussi visualiser ci-dessous les courbes de Lorenz,

Les courbes montrent que les prénoms sont de moins en moins "concentrés" (pour reprendre une terminologie classique sur les courbes de Lorenz). On le retrouve également sur les prénoms à la mode qui furent très stables par le passé, et qui depuis les années 70 n’arrêtent pas de changer... Bref, il y a de plus en plus de prénoms originaux, certes, mais les prénoms classiques ou à la mode restent donnés par beaucoup de monde, l’indice de Gini restant très élevé. Et je ne suis pas assez calé en statistique textuelle pour voir si ce qui change, c’est le nombre de prénoms (avec un total de 6556 prénoms en 1900 contre 10 fois plus en 2004) ou simplement l’orthographe,
       sexe       preusuel annais nombre
 313765    1       MAEL   2004     37
313861    1      MAELE   2004     27
314056    1      MAELL   2004      3
314127    1     MAELLE   2004   1577
315525    1      MAHEL   2004      3

etc....
La prochaine fois, j’essayerais de reprendre une étude intéressante sur les liens entre les prénoms et les professions (ici) pour étudier les prénoms des actuaires.... oui, j’ai toute la base ! à suivre donc...

1 Je passe sur les soucis techniques de programmation. En effet, il existe un libellé étrange pour les "prénoms rares",
       sexe       preusuel annais nombre 
408961    1 _PRENOMS_RARES   2003  26253    
185715    1 _PRENOMS_RARES   2003  23718    

mais comme on a le tail on peut construire la courbe de Lorenz proprement... enfin, au moins par la partie de droite car j’ai postulé car les prénoms rares étaient donnés une unique fois (mais a priori c’est une ou deux, et je n’ai pas moyen de le savoir.... je n’ai que le nombre de naissances avec un prénom rare). Mais ça n’influence que la partie gauche qui peut être un peu différente....

vendredi 5 mars 2010

Copules et dépendance (2)

Je poursuis le billet que j’avais commencé il y a quelque temps (ici) sur les copules. En effet, un étudiant me dit avoir utilisé "l’algorithme de Devroye" qui est donné comme exercice dans le livre de Roger Nelsen,

  • Un algorithme de génération de la copule de Clayton
Je n’aime pas faire les exos à la place des élèves (surtout quand ce ne sont pas les miens), il faut faire un peu de calculs. En fait, c’est comme ça que Cook et Johson ont obtenu, en 1981, une distribution qui correspondait avec celle obtenue par Clayton.

On notera que ce n’est pas l’utilisation de la représentation frailty de la copule de Clayton...
  • Travail sur un algorithme faux, et tests d’ajustement
Malheureusement, dans l’algorithme envoyé, l’étudiant avait permutté les facteurs de scale et de shape de la loi Gamma, ce qui donne des choses assez différentes. Mais sur lesquelles je vais rebondir. On va faire comme si on n’avait pas vu la faute dans l’algorithme, et que l’on se demande si on a généré la copule de Clayton que l’on pense avoir simulée....
Considérons l’algorithme suivant, qui génére effectivment une distribution à marges dans [0,1], on se demande si la copule associé est, ou pas, la copule de Clayton (donc on prend les rangs)
> n=10000
> x1=rexp(n,1)
> x2=rexp(n,1)
> theta=1/2
> x=rgamma(n, shape=1, scale=theta)
> u1=(1+x1/x)^(-theta)
> u2=(1+x2/x)^(-theta)
> x1=rank(u1)/(n+1)
> x2=rank(u2)/(n+1)
> plot(x1,x2)
Vu de loin, cela ressemble à une copule de Clayton.

On peut d’ailleurs essayer de récupérer la densité de la copule,
>  beta.kernel.copula.surface <- function (u,v,bx,by,p) {
+  s <- seq(1/p, len=(p-1), by=1/p)
+  mat <- matrix(0,nrow = p-1, ncol = p-1)
+ for (i in 1:(p-1)) {
+    a <- s[i]
+    for (j in 1:(p-1)) {
+        b <- s[j]
+    mat[i,j] <- sum(dbeta(a,u/bx,(1-u)/bx) * dbeta(b,v/by,(1-v)/by)) / length(u)
+    } }
+ return(data.matrix(mat)) }
> Z= beta.kernel.copula.surface(x1,x2,bx=.1,by=.1,p=26)
>  p=26
> u=seq(1/p, len=(p-1), by=1/p)
> persp(u,u,Z,theta=30,col="green",shade=TRUE)

ou en changeant la fenêtre de l’estimation à noyau
> Z= beta.kernel.copula.surface(x1,x2,bx=.01,by=.01,p=26)

Bref, ça ressemble à du Clayton.... Si on regarde la section diagonale de la copule empirique, on note que l’on n’obtiens ni la copule de Clayton de paramètre 2, ni celle de paramètre 1/2,

> U=seq(.01,1,by=.01)
> D=rep(NA,length(U))
> for(i in 1:length(U)){
+ D[i]=mean((x1<U[i])&(x2<U[i]))
+ }
> U=c(0,U)
> plot(U,c(0,D),cex=.5)
> lines(U,(2*U^(-1/theta)-1)^(-theta),col="red")
> lines(U,(2*U^(-theta)-1)^(-1/theta),col="blue")
Bref, ça ne semble pas correspondre à une des deux copules de Clayton recherchées,

On peut aussi des grandeurs comme la fonction
http://perso.univ-rennes1.fr/arthur.charpentier/latex/genest-1.png
qui est l’extension en dimension 2 de l’integral probability transform (cf ici par exemple). Ou plutôt la fonction http://perso.univ-rennes1.fr/arthur.charpentier/latex/genest-3.png définie comme
http://perso.univ-rennes1.fr/arthur.charpentier/latex/genest-2.png
> V=rep(NA,n)
> for(i in 1:n){
+ V[i]=sum((x1<x1[i])&(x2<x2[i]))/(n-1)
+ }
> lambda=sort(V)-(1:n)/(n+1)
> plot(sort(V),lambda)
> u=seq(0,1,by=0.01)
> l=(u^(-theta)-1)/(-theta*u^(-theta-1))
> lines(u,l,col="blue")
> l=(u^(-1/theta)-1)/(-1/theta*u^(-1/theta-1))
> lines(u,l,col="red")

Pour conclure définitivement, je reprendrais des choses que j’avais faites dans ma thèse. En fait, la copule de Clayton est la seule copule continue qui soit invariante par troncature. On peut alors regarder les tau de Kendall ou Rho de Spearman conditionnels. Normalement, ils devraient être constants,
> U=seq(.01,1,by=.01)
> R=K=rep(NA,length(U))
> for(i in 1:length(U)){
+ I=(x1<U[i])&(x2<U[i])
+ R[i]=cor(x1[I],x2[I],method = "spearman")
+ K[i]=cor(x1[I],x2[I],method = "kendall")
+ }
> plot(U,R,cex=.75,type="b")
> abline(h=R[length(R)],col="green")

> plot(U,K,cex=.75,type="b")
> abline(h=K[length(R)],col="purple")

Moralité (même si je n’ai pas tracé les régions de confiance des tests) je pense pouvoir conclure que l’algorithme tel qu’il est là ne génêre pas une copule de Clayton de paramètre 2 ou 1/2.

Ecart absolue ou écart type ?

Un petit billet très court pour répondre à une question d’élèves de licence. L’erreur quadratique moyen est définie comme

http://perso.univ-rennes1.fr/arthur.charpentier/latex/eqt-01.png
alors que l’erreur absolue moyenne est définie comme
http://perso.univ-rennes1.fr/arthur.charpentier/latex/eqt-02.png
(que je définie ici comme l’écart à la moyenne, certain considérant la distance à la médiane, qui minimise cette quantitié, alors que la moyenne minimise l’écart quadratique, mais je reviendrais là dessus bientôt, sur l’histoire de la loi normale).
Souvent ces quantités sont présentées comme des mesures de la même quantité, que l’on appelerait "dispersion" autour de la moyenne.
Si l’on prend deux observations, ces quantités sont rigoureusement identiques, car
http://perso.univ-rennes1.fr/arthur.charpentier/latex/eqt-03.png
compte tenu du fait que
http://perso.univ-rennes1.fr/arthur.charpentier/latex/eqt-04.png
En revanche, comme le montre le graphique ci-dessous,
http://perso.univ-rennes1.fr/arthur.charpentier/latex/eqt-00-col.png

Aussi, avec davantage de termes, la différence peut devenir significativement différente. En particulier, comme le notent Goldstein et Taleb (2007), en ligne ici, dans le cas Gaussien centré réduit,
http://perso.univ-rennes1.fr/arthur.charpentier/latex/eqt-05.png
Autrement dit, ces quantités peuvent parfaitement être différentes. Sur l’exemple ci-dessous, on considère un groupe de 4 individus, trois ayant le même revenu, et le dernier ayant un revenu plus important. On s’arrange pour que le revenu moyen soit constant (100 ici) et on regarde comment se comportent ces deux quantités lorsque le revenu du dernier individu s’accroit (de celui des autres).

(j’ai autorisé les revenus négatifs pour la simplicité des calculs et pour avoir un joli dessin). On en conclue qu’un écart significativement différent entre l’écart-type (L2) et l’écart absolu (L1) signifie simplement qu’il y a probablement des points aberrants dans la base (aberrants au sens "sensiblement différents", des "outliers").

lundi 1 mars 2010

Regarder la télé rend idiot, c'est prouvé...

Bon, en fait je me suis contenté de reprendre un titre volé sur le site de TF1 (et d’en tirer peut-être des conclusions un peu rapidement), qui écrivait la semaine dernière

Si on regarde le papier sur lequel est tiré cette étude (ici), on y apprend effectivement que le QI sur des populations de fumeurs et de non-fumeurs est différentes1.

Un rapide test d’égalité de moyenne permet de le confirmer

Dans l’article, ils ont la présence d’esprit de décorréler la variable fumer d’éventuels effets socio-économiques (les fameux variables cachées qui créent de la spurious correlation). Bref, si on regarde la distribution de la moyenne du QI pour chacun des groupes (fumeurs en rouge, nonfumeurs en bleu)

De là à conclure qu’il existe une relation de causalité, certains n’hésite pas à sauter le pas ! Ah, ce fameux débat entre corrélation et causalité.... quand arrivera-t-il enfin en école de journalisme2 ?
1 j’admettrais ici qu’il existe là aussi un lien entre l’idiotie et la mesure du quotient intellectuel. Pour citer Alfred Binet, « je nomme intelligence ce que mesurent mes tests », de manière un peu tautologique (mais dont j’aime beaucoup la réponse !).
2 à supposer qu’il faille avoir fait une école de journalisme pour entrer chez TF1, mais je n’en sais rien, je n’ai pas la télé....

mardi 23 février 2010

Khi de la poule ou de l'oeuf...

Samedi soir, Djalil et Florent se demandaient ce que Karl Pearson avait inventé en premier, la loi du khi (ou du chi), ou la loi du khi-deux (pensant que la loi du chi-deux était relativement naturelle, et que la loi du khi découlait de la loi du khi-deux). La loi du khi admet pour densité
http://perso.univ-rennes1.fr/arthur.charpentier/latex/densite-chi.png
et est aussi parfois définie à partir de la fonction Gamma incomplète, i.e. sa fonction de répartition est
http://perso.univ-rennes1.fr/arthur.charpentier/latex/chi-fdr2.png

http://perso.univ-rennes1.fr/arthur.charpentier/latex/gamma-reg-1.png
avec
http://perso.univ-rennes1.fr/arthur.charpentier/latex/gamma-reg-2.png

et classiquement,
http://perso.univ-rennes1.fr/arthur.charpentier/latex/gamma-reg-3.png
Pour la loi du khi-deux, sa densité est
http://perso.univ-rennes1.fr/arthur.charpentier/latex/chi2-densite.png
dont la fonction de répartition est
http://perso.univ-rennes1.fr/arthur.charpentier/latex/chi2-fdr.png
Bref, on peut définir ces deux lois complètement indépendemment de leurs applications: si on considère des variables indépendantes http://perso.univ-rennes1.fr/arthur.charpentier/latex/Xi-normaux.png, alors
http://perso.univ-rennes1.fr/arthur.charpentier/latex/chi2-somme.png
suit une loi du khi-deux, alors que
http://perso.univ-rennes1.fr/arthur.charpentier/latex/chi-somme.png
suit une loi du khi. Bref, intuitivement, on définit d’abord la loi du chi-deux avant d’introduire la loi du khi, si l’on part de l’interprétation. Et si l’on reprend le texte fondamental de Fisher, ici, datant de 1922, on ne retrouve que le khi-deux

Mais dans "The lady drinking tea", David Salsburg suggère que Karl Pearson avait introduit le khi avant le khi-deux... Si l’on y regarde de plus près, Karl Pearson a proposé le "test du chi-deux" en 1900 (ici), avec l’idée que l’exposant qui apparait dans la loi normale pouvait être noté, comme on le retrouve ci-dessous 

On voit aussi interprété dans ce texte le khi, et pas seulement le khi-carré.
Effectivement, si l’on regarde ici par exemple, la loi du chi-deux est reliée à l’étude du volume d’un ellipsoïde. Mais ce n’est pas la première apparition de cette variation dite du khi-deux. Si on y regarde de plus près, par exemple ici, ou , on notera que Karl Pearson avait défini, dès 1896 aussi bien la loi du khi que la loi du khi-deux, dans le cadre de ce qui s’appelle les distribution de Pearson de type III,

Autrement dit, Karl Pearson a commencé par définir les deux lois simultanément, via les fonction gamma incomplète, et autres équations d’analyse fonctionnelle, et c’est seulement plus tard que l’utilisation de la loi du khi-deux l’a emporté, de part son interprétation relativement élégante (somme de carrés de lois normales centrées réduites) et le test d’indépendance (ou d’adéquation) du khi-deux.
Mais en 1931, Karl Pearson renvoit à un papier plus ancien où l’on trouve pour la première fois la loi du khi-deux, suggérant d’ailleurs d’appeler cette loi la loi de Helmert, en mémoire à Friedrich Robert Helmert, qui avait également beaucoup travailler sur les moindres carrés (dont il est naturel d’arriver à des sommes de carrés de lois normales, ici), qui aurait trouvé cette loi en 1875. Mais on peut également remonter aux travaux d’Ernst Karl Abbe en 1863 qui avait également mentionné la loi.

Mais c’est de Karl Pearson que l’on a hérité la notation et le nom du khi-deux.

mercredi 17 février 2010

Copules et dépendance (1)

Un billet rapide pour donner des références bibliograhiques sur les copules (puisque certains étudiants ont vu passer le terme dans des offres de stages, et que je proposerais un mémoire de M2 sur le sujet).  Roger Nelsen, qui a écrit la bilble des copules a publié un survey clair sur le sujet, ici. Pour les applications en assurance (et aussi une jolie introduction au concept) je renvoie au papier d’Edward Frees et Emiliano Valdez, ici. Enfin, sur les aspects inférentiels, non paramétriques, je renvoie à un survey que nous avions publié il y a quelques années, . Et comme on n’est jamais mieux servi que par soi même, je renvoie vers l’introduction ici et quelques sldes, ici ou .

Pour revenir sur les principes généraux, les copules sont simplement des fonctions de répartition dont les lois marginales sont des lois uniformes sur [0,1]. Ca ressemble au dessin ci-dessous,

http://blogperso.univ-rennes1.fr/arthur.charpentier/public/perso2/gumbel-copula-3.gif
Si on veut décrire davantage, cette fonction est définie (en dimension 2), par
http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-01.png
donc http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-03.png car http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-04.png presque sûrement. Et de même http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-06.png, d’où le comportement sur deux des bords. Pour les autres bords, on voit que
http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-02.png
car http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-U.png est supposé uniformément réparti sur [0,1]. En particulier, http://perso.univ-rennes1.fr/arthur.charpentier/latex/copula-11.png. Voilà pour le comportement de la fonction sur les bords. Ce se traduit visuellement sur le dessin suivant

Au centre, on utilise le fait qu’une mesure de probabilité est forcément positive, est donc sur tout rectangle, la masse doit être positive, i.e.
http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-12.png
ce qui se traduit par
http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-14.png
ce qui est une notion de croissance relativement intuitive quand on pense à cette positivité sur des rectangle. En dimension plus grande, on peut utiliser le dessin à gauche pour mieux comprendre. La masse de tout hypercube doit être positive. Or pour écrire la probabilité d’appartenir à cet hypercube est obtenue en faisant des sommes des copules prises aux sommets de l’hypercube, avec un signe http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-pm1.png. En dimension 3, on mettre un signe positif aux sommets bleus, et négatifs aux sommets rouges. Il suffit de l’écrire pour s’en convaincre. On doit formellement avoir une inéquation de la forme
http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-15.png
Soit dit en passant, si on considère d’autres surfaces que des rectangles, des losanges par exemple, on arrive à autre chose qu’une copule, et ça ne sera plus une "fonction de réparition" (en l’occurence, on parlera de semi-copule, mais ça sort largement du cadre de mon billet).
Comme toujours, les fonctions de répartition sont un outils intéressant pour étudier la théorie des distributions, mais visuellement, on ne voit pas grand chose. Si la densité existe, on peut alors chercher à la représenter. Rappelons qu’en dimension 2
http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-16.png
qui a l’allure suivante dans le cas de la copule de Gumbel (que j’évoquerai un autre jour),
http://blogperso.univ-rennes1.fr/arthur.charpentier/public/perso2/gumbel-copula-2.gif
On visualise un peu mieux comment se répartie la masse sur le carré unité.  Dans le cas indépendant, la masse est uniformément répartie, mais ici, la masse est plutôt sur la première diagonale, ce qui peut être associé à une notion de dépendance positive: si une composante est grande (par exemple), il y a de forte chance pour que l’autre soit également grande. On peut visualiser ci-dessous différents types de dépendance, plus ou moins forts (on ne cherchera pas ici à quantifier la quantité de dépendance).
http://blogperso.univ-rennes1.fr/arthur.charpentier/public/perso2/gumbel-copula-7.gif
Le principal intérêt des copules, c’est le théorème de Sklar. Ce théorème nous dit que si http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-C.png est une copule, et que http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-FX.png et http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-fy.png sont deux fonctions de répartition (univariées), alors
http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-20.png
est une fonction de répartition en dimension 2, dont les lois marginales sont précisémenthttp://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-FX.png et http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-fy.png. On notera http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-22.png. Et réciproquement, si http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-22.png,
alors il existe une copule http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-C.png telle que
$F(x,y)=C(F_X(x),F_Y(y))$.
En fait, si les lois marginales sont continues, Abe Sklar a montré que la copule était alors unique, et donnée par
http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-30.png
pour tout http://perso.univ-rennes1.fr/arthur.charpentier/latex/copul-24.png Ceci permet de parler de la copule d’un couple de variables aléatoires. Notons que cela peut se généraliser en dimension plus grande, à condition de toujours considérer des lois marginales univariées.

vendredi 12 février 2010

Some historical remarks on extreme values

I will start here a short post on extreme values, with some historical perspective. In a recent paper (in French), I mentioned the use of the Pareto distribution as a standard model for extremes, but if reinsurers have been using the Pareto distribution for a long time (see here e.g.), the oldest mathematical models when dealing with extreme value should be related to work on maximum values in finite samples.

  • The work of Ronald Fisher and Leonard Tippett
Leonard Henry Tippett, a former student of Karl Pearson published in Biometrika a note on extremes, in 1925. The goal was "the determination of the distribution of the range and the extremes for a large number of samples". In 1925, everyone was looking for the Gaussian distribution everywhere, and Leonard Tippett observed that the distribution of the largest value did not have a Gaussian distribution.
A few years after, a joint work with Ronald Fisher was presented to the Cambridge Philosophical Society. The starting point was the idea of "stability" (even if the term did not appear explicitely in their work): the limiting distribution the maximum should be of the "same type" as the underlying distribution. Thus, if http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-01.png stands for the cumulative distribution function, it should satisfy functional equation
http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-02.png
Solutions of that functional equation will give all possible limiting distributions. Thus, Fisher and Tippett obtained three possible limits,
  • solutions of http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-03.png, i.e. http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-04.png
  • solutions of http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-05.png, i.e. http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-06.png with http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-07.png (i.e. finite lower bound for the support), i.e. http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-08.png
  • solutions of http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-05.png, i.e. http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-10.png if http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-11.png (i.e. finite upper bound for the support), i.e. http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-09.png
Based on those possible limiting distributions, Fisher and Tippett wanted to derive what has been called later on the "domain of attraction" of those distributions.
  • The work of Maurice Fréchet, at the same time
In 1926, Maurice Fréchet wrote a paper on "la loi de probabilité de l’écart maximum". That paper, as well as the one by Fisher and Tippett (wrote at the same time), investigated asymptotic limits. Both obtained functional equations, but only Maurice Fréchet understood the importance of the stability concept, pointed out by Paul Levy in the context of sums. Thus, Maurice Fréchet introduced the concept of what is called now "max-stability". But Fréchet solve only functional equation http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-05.png. The point is that Fréchet studied absolute values of errors, i.e. strictly positive random variables. Thus, Maurice Fréchet considered distribution
http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-12.png
wherehttp://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-92.png is an arbitrary positive constant. The "2" comes from the fact that Fréchet considered errors with respect to the median. But he did not introduced that new distribution function, he also proved that the distribution appears as a limit when the underlying distribution of the http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-13.png’s has an algebraic behavior at infinity, i.e. equivalent to http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-90.png, for some http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-91.png. I.e. he proved that Pareto-type tailed distibutions where in the domain of attraction of the Fréchet distribution.
  •  Later on, the work of Emil Gumbel
In 1932, Emil Gumbel gave a talk in France on the "âge limite". But as he wrote it "on peut donc supposer que la distribution de l’âge limite - c’est à dire la probabilité que la probabilité de cet âge ait une valeur donnée - soit Gaussienne". But a few years after, he read about Fisher’s work, and observed also that "la distribution d’une valeur extrêmes peut être représentée pour un nombre suffisant d’observations par la formule doublement exponentielle, pourvu que la distribution initiale se comporte asymptotiquement comme une exponentielle. La formule devient rigoureuse si la distribution initiale est exponentielle", as he wrote in 1935. Thus, as Fréchet proved that Pareto type distribution were in the max-domain of attraction of Fréchet’s distribution, Gumbel obtained that exponential type distributions were in the max-domain of attraction of Gumbel’s distribution. He also introduced the term "distribution de type exponentiel"
For Emil Gumbel, it was natural to study the logarithmic derivative of the distribution, since it is the mortality rate in demography (area that Emil Gumbel studied previously). As he mentioned "d’un point de vue théorique, il est intéressant de noter que M. Fréchet a construit une distribution initiale d’’une variable aléatoire pour laquelle la valeur absolue de la dérivée logarithmique diminue sans limite". But since it was not a valuable property for practical applications, he decided that "nous nous bornerons au traitement des données de type exponentiel". Emil Gumbel always tried to relate his work on extremes and what he did on demograpy.
For instance in 1937, he wrote a paper on "les centennaires" that can also be related to the work of Bortkiewicz on rare events. He also applied his work on radioactivity, and hydrology.
In the 30’s, hydrographs as Hazen or Graszberger introduced the concept of "yearly maximum" of a river level. They actually proposed to look for actuarial models to study decennial or centennial floods.  But they only used the lognormal distribution to model yearly maxima. In 1936, French hydrologist Aimé Coutagne met Emil Gumbel (who was teaching at the ISFA, in Lyon). At that time, Emil Gumbel was looking for possible applications (outside demography) for his doubly exponential distribution. As as pointed out by Aimé, "sa formule devait être applicable au cas des crues; c’est à dire des plus grands débits, problème analogue à celui des plus grands âges". Not only Gumbel’s distribution gave better empirical results, but also it came with a theoritical justification.
  • Gumbel’s distribution properties
Consider the Gumbel distribution, with location and scale parameters \alpha and \beta respectively, i.e.
http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-40.png
Note that the associated quantile function is
http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-41.png
with mean
http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-43.png
and variance
http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-44.png
  • The work of Waloddi Weibull
Waloddi Weibull, a Swedish physict proposed a distribution in 1939, to represent the distribution of breaking strength of materials. He used it in the 50’s in reliability concept. Actually, Weibull appeared late in the story of extremes, since Fréchet, Fisher and Tippett mentioned it already in the mid-20’s.
  • From the central limit theorem (on the average) to Fisher-Tippett theorem (on the maxima)
In order to visualize those two theorem, consider the following animation, where samples of 20 exponential variables are generated. From those 20 values, we plot the maximum in blue, and the average in red, on top. Just below, be rescale those points by considering http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-16.png, and below again, http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-15.png}. When then look at the position of http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-14.png and the one of the mean of http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-15.png. We then build an histogram to visualize the distribution of the rescaled maximum (in blue) and the rescale average (in red).

For those who might be busy, after 1000 generations of samples, we obtain the following histograms (below), including the Gaussian distribution below (i.e. the average of exponential variables looks Gaussian, even with only 20 observations, actually the Gaussian distribution is only asymptotic, i.e. we should consider samples of size 2000), and the maximum over 20 observations of exponential variables (on top) looks like a Gumbel distribution (actually, here it is the exact distribution, and it is the asymptotic distribution for exponential type variables).

  • The GEV distribution
The unified expression of those three distributions is call the GEV distribution. The generalized extreme value distribution has cumulative distribution function
http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-20.png
for http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-21.png, where http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-22.png is the location parameter, http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-23.png the scale parameter and http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-24.png the shape parameter. Note that the expected value is
http://perso.univ-rennes1.fr/arthur.charpentier/latex/ext-30.png

Data-journalism, ou la redécouverte de la statistique....

http://blogperso.univ-rennes1.fr/arthur.charpentier/public/perso2/.stat-croissance-larcenet_m.jpg

Comme je le rappelais aux étudiants de licence il y a peu, l’étymologie du mot "statistique" relie au pouvoir et aux connaissances,
http://blogperso.univ-rennes1.fr/arthur.charpentier/public/perso2/lie-stat.PNGSTATISTIQUE, subst. fém. et adj.
Prononc. et Orth.: [statistik]. Att. ds Ac. dep. 1835. Étymol. et Hist. Empr. à l’all. Statistik, forgé par l’économiste all. G. Achenwall (1719-1772), qui l’a dér. de l’ital. statista « homme d’État », la statistique représentant pour lui l’ensemble des connaissances que doit posséder un homme d’État (Brockhaus Enzykl.).
De nombreux articles passionnants défilent sur les blogs depuis quelques temps sur le data-journalism (ici ou , voire encore). Comme c’est, à l’occasion, l’objet de ce blog, je ne peux pas m’en plaindre ! Et je suis entièrement d’accord lorsque je lis que "dans un monde de commentaires, la véritable médiation avec la réalité ce sont des données pertinentes et incontestables" (). Mais comme cela était noté ici, cela suppose une éducation en statistique, en particulier sur la capacité à lire des graphiques, ou comme cela est dit dans le billet (avec une pointe d’ironie, si si!) "les scientifiques on l’art de pondre des graphiques sur tout et n’importe quoi, mais ils ont également un talent certain pour partir du principe que vous savez lire un graphique. A leur décharge, il faut dire qu’habituellement, ils ne communiquent qu’entre eux, et qu’ils savent, eux, lire un graphique".
Il existe des livres intéressants sur le sujet, sur comment faire mentir des chiffres, ou plutôt donner des illusions à l’aide de graphiques... Le plus important est surtout d’avoir accès aux données, d’avoir des informations sur la manières dont elles ont été collectées, et d’avoir les outils pour construire les graphiques.

lundi 8 février 2010

Le billet de la Saint Valentin

Avec une petite semaine d’avance, un billet rapide pour préparer la Saint Valentin, i.e. récupérer des conseils d’experts. Il existe un site http://www.okcupid.com/ de Free Online Dating pour reprendre le titre. Mais son grand intérêt, c’est surtout le blog associé, qui propose des analyses statistiques sur les matching, http://blog.okcupid.com/.

Par exemple, les fondateurs (qui se sont amusés à faire beaucoup de statistiques) regardent les photos, et notent que pour espérer obtenir beaucoup de messages (ou tout du moins plus que la moyenne), les femmes doivent regarder l’objectif tout en souriant, en adoptant une moue un peu dragueuse ("flirty face") (cf Myth 1 ici). Les hommes, eux, doivent plutôt tirer la tronche et regarder ailleurs.... Mais le plus amusant, c’est - je m’adresse aux hommes qui lisent mon blog - il y a une étude sur ce qui doit apparaître sur la photo,


Les résultats sont sans ambiguité: il faut être avec un animal (je ne sais pas si c’est un animal de compagnie, genre un gentil chiot du calendrier de La Poste, ou bien avec un boa autour du cou...). Et il peut être intéressant de montrer ses muscles ! Effectivement, on peut montrer ses abdos, mais avec l’âge, il commence à être plus sage de les cacher sous un gros pull....

alors que la tendance est inversée pour les décolletés des femmes,

qui ont d’autant plus intérêt à se découvrir qu’elles sont âgées... Ils ont aussi fait des études sur les correspondances raciales, en étudiant le pourcentage de matching,

qui est assez uniforme, et en le comparant au pourcentage de réponses au messages de dragues...

On observe que la "race" a un impact sur le fait qu’on se laisse draguer ou pas, mais ensuite, on y devient indifférent. On retrouve aussi l’étude sur la religion,

De manière plus amusante, l’étude est faite aussi sur les correspondances zodiacales (ici)

Bref, enfin des statistiques amusantes et instrucives sur un sujet qui intéressent tout le monde (pour citer le mémoire de nos étudiants qui avaient fait leur projet d’économétrie sur les relations amoureuses...)

vendredi 22 janvier 2010

Boire ou conduire ?... ou marcher ?

J’assistais en début de semaine à une présoutenance de thèse, où l’on apprenait (entre autres choses) que la consommation d’alcool augmentait fortement la probabilité d’avoir un accident de la route si on prendre le volant. Comme le disent la prévention routière et la FFSA (ici par exemple), le risque d’être impliqué dans un accident mortel est multiplié par 2 avec 0,5 g/l, par 10 à 0,8 g/l et 35 à 1,2 g/l (je n’ai pas eu accès à l’étude et aux données donc on prendra ces chiffres tels quels).
Ceci a fait remonter à la surface des débats interminables pendant les vacances de Noël  - où souvent ces débats n’ont lieu qu’entre personnes ayant déjà dépassé la dose limite pour prendre le volant (ce qui le rend d’autant plus intéressant (in vino veritas)): peut-on prendre le volant quand on a bu deux verres ? Sinon que doit-on faire ?
 Au même moment, je lisais Superfreakonomics de Steven Levitt et Stephen Dubner, qui proposait une question alternative (dans la première partie) "vaut-il mieux conduire ou rentrer à pied quand on trop bu ? ". Pour cela, ils utilisaient des statistiques que je résumerais de la manière suivante

  • les conducteurs (aux Etats-Unis) parcourent 5 milliards de miles, dont 1/140 sont conduits en état d’ivresse
  • les piétons (toujours aux Etats Unis) parcourent 43 milliards de miles, et Steven Levitt se dit que la proportion de miles parcourus en état d’ivresse n’a pas de raison d’être inférieure pour les piétons, soit 1/140. Soit un total de 307 millions de miles parcours en état d’ivresse.
Autrement dit, comme le conclue Steven Levitt, "on a per-miles basis, a drunk walker is eight times more likeliy to get killed than a drunk driver". Bon, le raisonnement est fallacieux, mais je trouvais la conclusion assez intéressante pour être creusée un peu (à partir de statistiques disponibles ici par exemple). Bon, comme toutes ces études, il est très dur de séparer les différents effets car les variables explicatives des accidents sont très fortement corrélées. Par exemple, si on se focalise sur les accidents de piétons (et que l’on regarde leur taux d’alcool) on note que la plupart des accidents où des piétons ont essentiellement lieux au milieu de la nuit

On peut d’ailleurs regarder le taux d’alcool de ces piétons victimes d’un accident,

Sur la figure ci-dessous, on voit pour les piétons à jeun (en vert) ou alcoolisés (en rouge) la répartition des moments des accidents,

ou de manière duale, la probabilité d’avoir un accident (piéton) saoul en fonction de l’heure de la journée (ou de la nuit),

Notons que l’on a des tableaux semblables pour 1999 (ici) par exemple.
Mais on peut aussi regarder si, par malheur, les gens ivres ne s’attirent pas entre eux ?

On peut faire un test du chi-deux pour voir si ces modalités sont corrélées, ou pas, sur les données observées sur 4 années, 2000 (ici), 1999 () et 1998 (),
> M01=t(matrix(c(2345,98,308,154,10,34,1094,87,260),3,3))
> M00=t(matrix(c(2323,80,276,149,10,32,1089,245,6),3,3))
> M99=t(matrix(c(2443,81,223,141,11,26,1211,72,238),3,3))
> M98=t(matrix(c(2583,92,284,189,11,33,1184,90,272),3,3))
> (M=M98+M99+M00+M01)
     [,1] [,2] [,3]
[1,] 9694  351 1091
[2,]  633   42  125
[3,] 4578  494  776
> chisq.test(M)$expected
          [,1]      [,2]       [,3]
[1,] 9333.2254 555.42240 1247.35223
[2,]  670.4903  39.90103   89.60864
[3,] 4901.2843 291.67656  655.03914
> chisq.test(M)
        Pearson’s Chi-squared test
data:  M
X-squared = 308.9695, df = 4, p-value < 2.2e-16

ce qui tend à montrer que les piétons saouls ont peut être la malchance de tomber également sur des chauffeurs saouls... Bref, si je reprends l’analyse de Lewitt, quand on a bu, il ne faut pas prendre le volant, et encore moins rentrer à pieds chez moi... Promis, la prochaine, je reste squatter chez le prochain qui m’offre un verre ! ou bien je vais arrêter de boire...

jeudi 31 décembre 2009

Etre né un 31 décembre...

Bon, comme son nom l’indique, c’est un "blog perso" alors aujourd’hui, je vais parler de mon fils. Le 31 décembre est un jour un peu particulier, car c’est son anniversaire... Il est né avec plusieurs jours d’avance, et depuis qu’il va à l’école, on se dit que les choses auraient sûrement été plus simples s’il était né 3 heures plus tard... Bref, je me demandais si ce "retard" allait se combler un jour, ou bien s’il en "souffrirait" toujours1 ...

Pour lui faire plaisir, j’ai voulu savoir si l’avenir dont il rêvait était compromis. Pour l’instant il rêve d’être footballeur (pour faire comme les copains, car entre nous, je le crois aussi peu doué que son père).

Loin de moi l’idée de lui ruiner totalement ses rêves, mais j’ai regardé un peu les joueurs de foot (tous les joueurs qui ont participé à la coupe du monde de 2006, i.e. ici, ou plutôt pour être honnête, tous ceux qui viennent d’un pays de l’hémisphère nord). Si on regarde le mois de naissance, on note qu’effectivement, peu de grands joueurs (au sens ’retenus dans leur équipe nationale, même s’ils ont passé toute la coupe du monde sur le banc de touche’) sont de la fin de l’année...

Bon, sans faire trop de psychologie de café du commerce, cela s’explique assez simplement: pour les jeunes enfants, disons de l’âge de mon fils, il y a un grand écart entre ceux qui sont nés en janvier et ceux qui sont né en décembre de la même année, et pourtant, ils sont dans la même catégorie sportive. Bref, dans une sélection (je parle des vrais clubs qui élèvent de la graîne de champion), on préfère les enfants du début d’année....
En regardant le jour et le mois de naissance, et en faisant une régression lowess, ainsi qu’une régression spline, on observe encore plus finement la tendance,

(pour être là aussi honnête, j’ai multiplié par 4 le nombre de naissances observé un 29 février). Bref, si mon fils était né trois heures plus tard, il aurait eu 60% de chances en plus de devenir un grand footballeur..! Bon, qu’à cela ne tienne, je vais lui trouver une autre vocation... En trainant toujours sur internet, on peut trouver des données similaires pour les basketteurs américains (ici). J’ai donc pris les joueurs NBA et ABA nés depuis 1946. Cette fois-ci, la tendance mensuelle semble disparaître...

et de même pour les tendances en regardant jour par jour,

Damned, il ne nous reste plus qu’à émigrer outre-atlantique et de convaincre mon fils qu’il a toutes ses chances au basket !

1 Il existe un certain nombre d’études sur le sujet, avec ici ou par exemple des liens entre le mois de naissance et la réussite scolaire.

- page 1 de 5