Arthur Charpentier

Aller au contenu | Aller au menu | Aller à la recherche

Keyword - taille

Fil des billets

mercredi 2 juin 2010

Qu'est ce que la modélisation économétrique (2) ?

En début de semaine, Luc Chatel semblait noter "les études les plus récentes indiquent que la diminution des effectifs dans les classes n’a pas d’effet avéré sur les résultats des élèves". Tout a été repris, et détaillé ici, avec d’ailleurs une copie de  la fiche donnée aux inspecteur, .
Je suis un peu surpris car un peu de bon sens (et peut être d’expérience) me laisser penser le contraire. Je me demandais qui avait bien pu conclure à une chose pareil. J’ai traîné un peu sur le net, je suis tombé sur le rapport de Thomas Piketty et Mathieu Valdenaire par exemple (ici pour le rapport et pour les slides), qui avait fait de l’économétrie sur le panel primaire de 1997, montrant par exmple que la réduction d’un élève par classe en CE1 augmentait de 0,7 points les résultats en maths en début de CE1. Bref, sur le lien effectifs et résultats, j’avais l’impression que l’effet était avéré. Les papiers de Robert Gary Bobo (ici) allaient dans le même sens. Mais qui donc avait pu pondre ces "études les plus récentes" ?

Merci à Martin Vidberg, http://vidberg.blog.lemonde.fr/2008/12/11/dark-vados/

Après avoir cherché un peu, j’ai fini par trouver un élément de réponse sur mon blog (ici): dans un billet sur la modélisation économétrique, j’avais commencé à reprendre le papier de Joshua Angrist et Victor Lavy, "using Maimonides’ rule to estimate the effect the effect of class size on scholastic achivement" (publié que le QJE en 1999, ici). Malheureusement mon billet était long, j’avais fait une régression simple, et conclu à un effet croissant de l’effectif (ici en abscisse) sur les résultats scolaires: plus grande est la classe, meilleurs sont les résulats ! 

Damned,  c’est moi le fautif ? Je devrais me rejouir que Luc lise mon blog (maintenant que je sais qu’il lit mon blog, je peux l’appeler par son prénom), sauf que mon billet se terminait par une mise en garde. Ce que l’on mesure est probablement un effet caché, la mesure d’autre chose.... Afin de justifier ce point, je vais enfin me lancer (avec 10 mois de retard) dans la rédaction de la suite !
En fait, comme le notent Joshua Angrist et Victor Lavy, une variable importante dans l’analyse est le "school level index of student’s socioeconomic status", appelé dans le texte original "percent disadantaged" (PD). Cet indice est suffisement sérieux pour que le Ministère de l’Education l’utilise. Il est fonction du niveau d’éducation du père, et de la taille de la famille de l’enfant scolarisé. On le voit très clairement, plus l’indice est élevé, i.e. plus l’école est situé dans un endroit défavorisé, moins bons sont les résultats scolaires.

Bref, pour ceux qui concluaient après le précédant billet qu’il fallait faire des classes les plus grands possibles pour avoir de meilleurs résultats, ici on pourrait conclure qu’il faut interdire aux enfants de familles nombreuses, ou celles dont le père n’a pas fait de longues études, d’aller à l’école. C’est un peu stupide. Mais on se doute que tout cela est sûrement très lié. Moralité, il faudra faire une étude plus poussée pour voir si, à contexte socio-économique identique, la taille des classes et le résultat aux tests sont positivement ou négativement corrélés... à suivre donc....

mercredi 12 mai 2010

Il me faut combien d'observations pour conclure...?


J’ai reçu par mail une question d’un praticien qui commençait (si j’omais les formalités d’usage) par "il me faut combien d’observations...". Comme ce n’est pas le premier (ni le dernier je pense) mail de ce type, je voulais en profiter pour revenir deux minutes sur la formalisation des problèmes d’échantillonnage. Prenons un problème simple: on dispose de deux échantillons (de même taille pour commencer), http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-01.png} et http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-02.png, tirés dans deux populations notées http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-03.png et http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-04.png. On se demande si http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-05.png (c’est notre hypothèse http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-06.png). L’hypothèse alternative étant que non, ces deux valeurs ne sont pas égales....
On supposera que les observations dans les deux populations ont la même variance (pour commencer), noté \sigma. La "règle" permettant de déterminer le nombre minimal d’observations nécessaires pour détecter une différence entre le moyenne est (pour ceux qui s’en souviennent) quelquechose de la forme

http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-07.png
Dans le cas où on a un unique échantillon, et on se demande si http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-08.png, le facteur passe à 8. Bref, l’auteur du mail me demandait si cette "règle" avait du sens, et sous quelles conditions elle était valide.....
  • Cas "classique" Gaussien
Oui, cette règle a du sens, si les observations sont Gaussiennes, si la variance est identique dans les deux populations, et si on rajoute quelques hypothèses sur les probabilités des erreurs de type 1 et de type 2. En effet, il existe deux types d’erreurs que l’on peut faire dans une procédure de test,
  • erreur de type 1: rejeter à tort l’hypothèse http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-06.png
  • erreur de type 1: accepter à tort l’hypothèse http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-06.png
On note http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-11.png la probabilité de faire une erreur de type 1, et http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-12.png la probabilité de faire une erreur de type 2. Pour rappel, on appelle puissance du test la valeur http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-13.png. Bref, il existe une relation liant ces deux probabilités, et n, la taille des échantillons. En fait, on peut montrer assez facilement que
http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-14.png
(en s’aidant par exemple du dessin ci-dessous)

et donc, la taille optimal s’écrit
http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-15.png
Si http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-16.png et http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-50.png (ce qui correspond à une puisance de 80%), alors
http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-18.png
Autrement dit, il faut souhaiter une puissance de 80% pour légitimer ce 16 au numérateur. Avec 95%, il faudrait 26 par exemple.
  • Cas de l’estimation d’une proportion
Dans le cas de l’estimation d’une proportion, la "règle" s’écrit
http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-20.png
où http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-21.png est un indicateur de la variance moyenne. Par exemple, si les vraies proportions sont http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-22.png ethttp://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-23.png, il faudrait http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-24.png observations.
Dans le cas où http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-25.png, alors la formule se réécrit
http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-26.png
Pour une élection (entre différents candidats), si on suppose quehttp://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-27.png et http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-28.png (correspondant aux intensions de votes dans deux catégories socio-professionnelles différentes, par exemple), il faudrait interroger http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-29.png personnes (dans chaque groupe) pour espérer distinguer une différence entre les deux groupes.
Dans certains ouvrages, on voit d’ailleurs une autre formule souvent utilisée est
http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-30.png
Cette formule vient de la formule dite de Freeman Tukey (on parle aussi parfois de variance-stabilizing transformation) qui nous garantie que si http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-32.png, alors
http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-33.png
(cf ici aussi). Dans le cas de probabilités faibles, et d’évènements rares, on notera que http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-31.png, d’où la formule que l’on trouve aussi parfois
http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-34.png
En fait, cette formule est légitime dans le cas de comptage, si l’on suppose que les http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-35.png suivent une loi de Poisson. Dans ce cas en effet, dans ce cas http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-36.png suit approximativement une loi normale http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-37.png, McCullagh et Nelder en parlent dans leur livre sur les GLM 

Et dans ce cas, la formule initiale se réécrit
http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-38.png
Pour revenir au cas d’une proportion, où l’hypothèse de base est, comme auparavant, que http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-05.png, alors l’équation reliant les probabilités d’erreur et la taille de l’échantillon s’écrit,
http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-39.png
ce qui donne une taille optimale (par groupe)
http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-40.png
  • Le problème de la corrélation
Un autre problème, qui n’était pas évoqué dans ce mail, mais qui m’avait été posé dans une conférence sur les copules était de savoir de combien d’observations il fallait disposer pour pouvoir affirmer quoi que ce soit d’une corrélation nulle.... Là aussi, il existe une "règle", basée sur la transformation de Ronald Fisher. L’idée est de noter que dans le cas d’un échantillon Gaussien, alors
http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-41.png
Sous l’hypothèse où la corrélation sous-jacente est nulle, alors
http://perso.univ-rennes1.fr/arthur.charpentier/latex/echant-42.png

lundi 26 avril 2010

Faut-il se fâcher avec tout le monde ?

(s’il le faut allons-y) Samedi matin, j’ai aperçu avec un grand plaisir le dernier numéro de Fakir chez mon buraliste préféré (i.e. le "journal fâché avec tout le monde"). Je n’ai pas vocation à me fâcher avec tout le monde, loin de là, mais je dois avoir un côté pitbull que j’ai du mal à cacher... 

Et si quelques pages ont rapidement retenu mon attention, je dois avouer que j’en suis sorti très déçu (par ces quelques pages). Bon, autant le dire tout de suite, les pages en questions ne sont pas écrite par les journalistes de Fakir, mais correspondent à un "courrier des lecteur" (les "meilleurs" paraît-il... je me sens flaté, je suis un lecteur régulier). Le "papier" de deux pages part d’une attention louable (me semble-t-il), à savoir essayer de répérer des classes (au sens marxiste) en étudiant la distribution des revenus. On nous explique que l’auteur est "directeur de recherche au CNRS", ce qui vise à donner a priori une légitimité scientifique à ses propos. N’ayant pas encore l’accord pour mettre en ligne les deux pages en question (je vais quand même demander l’accord à la rédaction), je me contente de ces deux copies de mauvaise qualité.

Pour résumer, l’auteur nous explique que l’INSEE ment, ou triche, dans sa façon de produire ses graphiques (comme je l’avais dit ici, je rejoins l’auteur sur ce point: j’avais déjà dit que la façon de présenter des informations chiffrées n’était pas neutre sur le message que l’on souhaite diffuser).
  • Densité ou fonction quantile ?

L’auteur commence par nous présenter deux graphiques. Le premier tiré de Max Weber montre la répartition de la taille de fourmis (géantes !), et observe que la distribution bimodale s’interpréte comme la présence de deux classes de fourmis. 

Ensuite, il nous présente la fonction quantile du revenu des français, et s’étonne de ne pas retrouver de distribution bimodale.

Il nous explique qu’avec ce genre de graphique, on ne trouverait pas les modes observés sur les tailles des fourmis,

plus précisment, l’auteur explique

Pour formaliser un peu (et revenir sur ce qu’est la "moulinette de l’insee"), rappelons le premier graphique est une densité http://perso.univ-rennes1.fr/arthur.charpentier/latex/fakir-01.png (je passe sur le fait que l’on travaille sur des échantillons, je vais faire une explication sur la modélisation sous-jacente, i.e. en travaillant sur la densité sous-jacente). Pour interpréter le second, rappelons que l’on construit la fonction de répartition en intégrant la densité,
http://perso.univ-rennes1.fr/arthur.charpentier/latex/fakir-02.png
La fonction quantile est alors l’inverse de cette fonction
http://perso.univ-rennes1.fr/arthur.charpentier/latex/fakir-03.png
autrement dit, d’un point de vue géométrique, le symmétrique par rapport à la première bissectrice de la fonction de répartition.  Avec des graphiques un peu plus clairs, je pense, voici une densité de mélange, en noir

Les deux populations sont visualisées avec les deux couleurs, rouge et bleu. Si je trace la fonction cumulative, j’obtiens

Malheureusement, on ne dispose pas de données précises sur les revenus (et je suis le premier à m’en désoler), et on observe une version discrète de cette fonction, à savoir les niveaux des déciles,

En inversant cette focntion, on obtient alors la fonction quantile, correspondant au graphique publié par l’insee,

Ma première observation est que si http://perso.univ-rennes1.fr/arthur.charpentier/latex/fakir-01.png est effectivement bimodale, cela signifie que la dérivée de http://perso.univ-rennes1.fr/arthur.charpentier/latex/fakir-04.png possède deux modes, ou plutôt deux maximum locaux. Si on se souvient des trucs que l’on apprend au lycée (et non pas à un niveau "bac+5" comme l’indique le haut du document), si on fait le tableau de signe (la première ligne étant le signe de la dérivée de la densité) on obtient
http://perso.univ-rennes1.fr/arthur.charpentier/latex/fakir-tableau-signe.png
Autrement dit, on ne voit rien. Formellement, cela se traduira uniquement sur la pente de http://perso.univ-rennes1.fr/arthur.charpentier/latex/fakir-04.png qui diminera après le premier mode, qui augmentera juste avant d’atteindre le deuxième, avant de rediminer à nouveau après le second. Sur les courbes en escaliers, c’est vrai qu’il est difficile de visualiser une distribution bimodale, i.e. des accroissements sur la "pente" (ce n’était déjà pas forcément simple avec l’ensemble des valeurs possibles, mais sur une fonction en escalier....). Mais quoi qu’il en soit, je ne suis pas sûr que cette recherche de la bimodalité soit fondamental dans cette étude....
  • Bimodalité et mélange
En fait, ma seconde critique est un peu plus technique. Pour faire simple, la présence de "classes" de traduit par une présence de "mélange" (c’est la base de la tarification où l’on essaye d’identifier les classes tarifaires, en assurance, comme j’en ai parlé à de nombreuses reprises ici ou , par exemple). Mais ce "mélange" n’a aucune raison de se traduire par une distribution bimodale. On retrouve ici un argument falacieux que l’on retrouve courament, y compris dans des revues scientifiques, par exemple dans ce papier sur l’âge des tentatives de suicides, publié dans Journal of Psychiatric Research (ici). On y retrouve une tentative de retrouver des mélanges,

(je reviendrais un jour sur cette étude). Pour essayer de mieux comprendre en quoi l’argument est falacieux, regardons quelques cas simples.
Le premier point est que la densité d’un mélange n’a aucune raison d’être bimodale. Même avec des lois sous-jacentes unimodales, comme la loi normale par exemple,

La courbe en noir est - comme auparavant - la distribution sur l’ensemble de la population. Elle est bimodale si les groupes sont bien discriminés, mais pas si les groupes sont proches. Comme je l’explique dans toutes mes interventions sur  les modèles linéaires généralisés, il est difficile de se faire une idée sur la loi par sous-groupe en regardant la distribution globale. Si la loi n’est pas unimodale (à en croire les travaux de Vilfredo Pareto - mentionnés ici ou - j’aurais tendance à croire que c’est le cas quand on parle des revenus), cette recherche des modes a encore moins de sens, me semble-t-il.... Le graphique ci-dessous correspond à mélanges de lois exponentielles (les traits en pointillés correspondant, comme auparavant, aux moyennes par sous groupe).

De plus, pour revenir aux exemples mentionnés dans le papier, à on avis, il y a une différence fondamentale entre le revenu et la taille: si la taille peut être supposé suivre une loi normale (par sous-population) je doute que ce soit le cas pour le revenu...Et encore, j’ai fait simple, car on suppose qu’il existe uniquement deux classes, à peu près équiréparties (ici 40-60 dans les deux animations précédantes).

Sur l’exemple ci-dessus, on suppose qu’il existe un petit groupe  hétérogène (i.e. avec une plus forte variance). Cette hypothèse ne me semble pas absurde si on raisonne sur les revenus. Bref, on ne trouve presque jamais de distribution bimodale... Et ce d’autant plus que le petit groupe est hétérogène. Si en plus on suppose qu’il existe non pas deux groupes, mais trois (voire plus), c’est encore pire: il devient difficile de visualiser les sous-groupes...

  • Faute de logique ou de statistique ?
J’ai l’impression que l’auteur part d’une affirmation qui me semble juste, à savoir "une distribution bimodale peut être modélisée par un mélange de deux distributions unimodales". Sauf qu’il fait un raisonnement étrange en réécrivant cette affirmation sous la forme "une distribution qui n’est pas bimodale ne peut pas être un mélange" (je passe sur le premier point que j’avais mentionné comme quoi chercher un mélange sur une discrétisation de la fonction quantile, ou de la fonction de répartition, me semble étrange). Bref, je pense que l’ensemble de l’étude statistique repose sur des arguments falacieux, ce qui a malheureusement tendance à décrébiliser l’ensemble de l’analyse. C’est dommage... Pourquoi ne pas avoir fait appel à un chercheur connaissant statistiques pour faire l’étude ? Mais beaucoup sont passés par l’INSEE, ce qui semblerait ôter tout légitimité à être critique (à en croire le petit encadré en bas)... Je crois qu’il serait temps d’arrêter de stigmatiser ainsi l’insee, beaucoup de gens y travaillant ayant gardé un esprit ouvert et critique ! Il serait dommage de ne pas s’appuyer sur leur expertise. L’autre regret est que la caution intellectuelle viennent d’un " directeur de recherche du CNRS" (éventuellement en linguistique ou en anthropologie, on n’a malheureusement pas plus d’information).  Je trouve regrettable qu’un titre académique permette de se dédouaner de toute relecture critique... par des statisticiens....

mercredi 6 janvier 2010

Théorème central limite et facteur d'échelle

Les cours d’actuariat ont commencé aujourd’hui. Je voulais juste reprendre l’histoire du risque d’un assureur qui diminue avec la taille du portefeuille d’assurés.
On a N assurés, avec des risques identiques (et indépendants). Chaque assuré a 1 chance sur 10 d’avoir un sinistre de 1000€. La prime pure est de 100€, et on souhaite connaître le montant des fonds propres (exprimés en pourcentage des primes encaissées) pour que l’assureur soit solvable dans 99% des cas. Bref, le code est le suivant
> N=seq(100,10000,100)
> Q1=qnorm(.99,100*N,1000*sqrt(N*9/100))/(100*N)-1
> Q2=1000*qbinom(.99,size=N,prob=1/10)/(100*N)-1
> plot(N,Q2,type="l",col="red",lwd=1,ylim=c(0,.8))
> lines(N,Q1,col="blue",lwd=1)

Dans le premier cas, on utilise une approximation Gaussienne. Dans le second on utilise la vraie loi de la charge totale, i.e. une loi binomiale. On note qu’avec 100 assurés, il faut 80% du montant total des primes encaissées en fonds propres, pour éviter la ruine dans 99% des cas (en faisant une approximation Gaussienne, le risque aurait été sous-estimé, puisque les fonds propres seraient alors 70% des primes). Avec 2000 assurés, les fonds propres représentent 15% des primes. On retrouve ainsi numériquement l’idée que le risque diminue avec la taille du portefeuille.
En fait, si on raisonne non plus de manière relative mais en montant absolu, on a la "croissance en racine carrée" des fonds propres (qui est moins forte que la croissance du chiffre d’affaire, i.e. de la prime).

Maintenant le modèle est simpliste....Et histoire de se coucher moins bête ce soir, je recommande très chaudement la (re)lecture du papier de Paul Samuelson datant de 1964, intitulé Risk and uncertainty, a fallacy of large numbers (ici). L’idée est simple: considérons un jeu de pile ou face, on perd 100€ si face sort, et on gagne 200€ si pile sort. Combien de parties est-on prêt à jouer à ce jeu ?
A priori on devrait gagner... plus précisément, avec 100 lancers, il faudrait moins de 34 pile pour perdre de l’argent, ce qui devrait arriver avec une probabilité de 0,01%. Pourtant personne n’a été prêt à acheter 100 tickets de ce jeu. Car potentiellement on  peut perdre 10000€ !

vendredi 30 octobre 2009

Qu'est-ce que la modéliation (économétrique, ou statistique) (1)

http://blogperso.univ-rennes1.fr/arthur.charpentier/public/perso2/lunette.PNGAu vu des questions qui m’ont été posées en cours d’économétrie, j’ai décidé de faire un petit billet afin d’expliciter ce que j’ai pu raconter dans les premiers slides de remise à niveau de probabilité et de statistiques, en Master 1, où j’essayais de faire le lien entre le modèle probabiliste et l’analyse statistique, à partir du schéma (forcément simpliste) suivant

http://blogperso.univ-rennes1.fr/arthur.charpentier/public/perso2/.formel-modelisation-slides_m.jpg
Pour mieux comprendre ce qu’est la modélisation, inspirons nous du papier de Joshua Angrist et Victor Lavy, "using Maimonides’ rule to estimate the effect the effect of class size on scholastic achivement" (publié que le QJE en 1999, en ligne ici ou pour des transparents).
  • Partie 1: la problématique
La question que l’on se pose est simplement "quel est l’impact de la taille d’une classe sur les résultats scolaires ? ".
Beaucoup de monde (je pense aux parents ou aux enseignants, pas forcément aux ministres) pense que cet impact est réel, et négatif, à savoir que plus la taille et grande, moins bon sont les résultats, et inversement. Empiriquement, certaines études ont toutefois trouvé un effet positif, car les meilleurs élèves sont parfois regroupés dans les classes les plus chargées.
Bref, on souhaite répondre à cette question en faisant une étude empirique. La taille de la classe est une donnée facile à utiliser et à quantifier (encore que... le nombre sera celui au début du printemps), mais les résultats désignent une notion plus floue. Heureusement, certains pays diposent d’un test national (même s’il est parfois biaisé car les crédits des écoles étant liés à ces tests, certaines écoles semblent reforcer le bachotage).
  • Partie 2: les données (et le contexte)
Les données mises à disposition par Joshua Angrist et Victor Lavy sont celles d’écoles publiques en Israël, où deux tests ont été mis en oeuvre: un test national en fin d’étude (en mathématiques et en lecture) pour les élèves de CM1 et CM2 (4th et 5th grade) en 1991, et un test national en 1992 pour les élèves de CE2 (3rd grade). Nous n’avons pas des données individuelles (élève par élève) mais par classe. Afin de corriger d’éventuels effets exogènes (car on se doute que les résutats ne sont pas uniquement liés à la taille des classes), les auteurs utilisent des mesures de l’environnement social de l’école.
Voilà un peu pour les données, qui se trouvent ici et là. Sur le contexte, une information importante: l’étude se fait sur les écoles publiques israéliennes, où l’on croit dur comme fer à un effet négatif. En effet, depuis 1969, ces écoles appliquent (strictement) une règle talmudique énoncée par le rabin Maionide (alias Moshe ben Maimon, הרב משה בן מיימון, ou أبو عمران موسى بن ميمون بن عبد الله القرطبي الإسرائيلي ou Moussa ibn Maimoun ibn Abdallah al-Kourtoubi al-Israili dans la version arabe, plutôt connu pour ses réflexions en médecine ou en santé publique) au 12ème siècle, à savoir "dès qu’il y a plus de vingt cinq élèves dans une classe, il faut un assistant; dès qu’il y a plus de quarante élèves, il faut deux professeurs". 
Une fois formulée la question, et une fois à notre disposition un jeu de données pour faire une étude, on peut mettre en oeuvre un test économétrique (ou statistique).
  • Partie 3: la formalisation du problème
On commencer par formaliser le problème. On note
http://perso.univ-rennes1.fr/arthur.charpentier/latex/model-latex-1.png
le nombre d’élèves dans la classe i au printemps (ce qui sera noté comme la taille de la classe). On retiendra une indexation http://perso.univ-rennes1.fr/arthur.charpentier/latex/model-latex-2.png par école (school) et par classe (class). On note aussi
http://perso.univ-rennes1.fr/arthur.charpentier/latex/model-latex-3.png
la note moyenne obtenue dans la classe lors des tests nationaux. On a aussi ces variables explicatives
http://perso.univ-rennes1.fr/arthur.charpentier/latex/model-latex-4.png
http://perso.univ-rennes1.fr/arthur.charpentier/latex/model-latex-X1.png désigne le nombre d’élèves dans l’école pour chacun des niveaux, http://perso.univ-rennes1.fr/arthur.charpentier/latex/model-latex-X1.png un identifiant pour la ville, http://perso.univ-rennes1.fr/arthur.charpentier/latex/model-latex-X1.png une variable indiquant le niveau socio-économique des élèves, et http://perso.univ-rennes1.fr/arthur.charpentier/latex/model-latex-X1.png un identifiant éthnique (juif ou arabe) et religieux (associé aux écoles). On notera que, compte tenu que compte tenu de la règle de Maionide,
http://perso.univ-rennes1.fr/arthur.charpentier/latex/model-latex-5.png           (1)
où la fonction http://perso.univ-rennes1.fr/arthur.charpentier/latex/model-latex-10.png désigne la partie entière. 
  • Partie 4: l’étude économétrique, les moindres carrés
L’étude économétrique est une phase d’estimation des paramètres du modèle formel. Mais auparavant, il est toujours intéressant (car instructif) de faire un peu de statistiques descriptives, en regardant quelques graphiques.
On peut déjà se demander si la règle de Maionide est effectivement mise en oeuvre dans les établissements scolaires, c’est à dire regarder si l’équation (1) est valide,
http://blogperso.univ-rennes1.fr/arthur.charpentier/public/perso2/.ecole-stats-1_m.jpg
Sur ce graphique, la courbe en trait pointillé correspond à la loi théorique, c’est à dire la partie de droite dans l’équation (1), et le trait plein correspond à la version empirique, c’est à dire la partie de gauche. Dans un second temps, regardons sur le même type de graphique comment évolue la note moyenne dans la classe (avec toujours en pointillé le nombre théorique d’élèves dans la casse).
http://blogperso.univ-rennes1.fr/arthur.charpentier/public/perso2/.ecole-stats-2_m.jpg
On note ici que les résultats aux tests sont générallement plus élevé dans les classes avec plus d’élèves dans l’école. Il faut aussi noter que les très grosses écoles sont plutôt dans des grandes villes riches, alors que les petites écoles sont des "development town" beaucoup plus pauvres (et à l’extérieur des villes). 
Bref, on voudrait pouvoir comprendre un peu mieux ce qui se passe... Pour cela , on (ou plutôt les auteurs) spécifie un modèle économétrique sous la forme  suivante
http://perso.univ-rennes1.fr/arthur.charpentier/latex/model-latex-7.png
Autrement dit dans le premier terme http://perso.univ-rennes1.fr/arthur.charpentier/latex/model-latex-8.png on va mettre tout ce qui, dans les aspects socio-économiques - pourrait expliquer les résultats aux tests. Le terme du milieu http://perso.univ-rennes1.fr/arthur.charpentier/latex/model-latex-9.png correspond à ce qui nous intéresse, à savoir l’impact de la taille des classes les tests. Enfin, le terme de droite http://perso.univ-rennes1.fr/arthur.charpentier/latex/model-latex-10.png correspond à une moyenne (par classe, mais aussi par école, afin de corriger d’un éventuel effet "très bonne école") mais aussi un bruit car, par définition d’un modèle, la modélisation est forcément imparfaite: il y aura toujours des effets que l’on ne pourra pas expliquer avec un modèle simple (car on cherche un modèle simple, ou plutôt parcimonieux, comme je l’évoquai ici).
Encore une fois, un modèle économétrique mesure une corrélation (éventuelle) entre des variables explicatives et la variable que l’on essaye d’expliquer, mais l’interprétation causale est fallacieuse (je reviendrais sur ce point dans un billet prochainement).
Mais dans un premier temps, on peut s’intéresser à une interprétation par moindres carrés du modèle, voire une simplification du modèle, où l’on régresse uniquement les notes sur la taille de la classe. Bon, on a accès aux données (ici pour une version csv, ou pour l’ensemble des données).Contentons nous déjà d’un niveau (4e), et regardons respectivement en lecture et en mathématique l’impact de la taille de la classe. On commence par un petit nettoyage de la base de données,
> base5=read.table("http://perso.univ-rennes1.fr/arthur.charpentier/Final4.csv",sep=";",header=TRUE)
> base=base5
> base$avgverb=base$avgverb-(base$avgverb>100)*100
> base$avgmath=base$avgmath-(base$avgmath>100)*100
> base$func1= base$c_size/(trunc((base$c_size-1)/40)+1)
> base$func2= base$cohsize/(trunc(base$cohsize/40)+1)
> base$verbsize[base$avgverb==NA]=0
> base$verbsize[base$passverb==NA]=0
> base$mathsize[base$avgmath==NA]=0
> base$mathsize[base$passmath==NA]=0
> base0=base[(base$classize>1)&(base$classize<45)&(base$c_size>5)&(base$c_leom==1)&(base$c_pik<3),]

Enuiste, on peut tenter de faire une régression
> reg=lm(avgverb~classize,data=base0)
> summary(reg)
Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) 67.76309    0.78686  86.118   <2e-16 ***
classize     0.22119    0.02568   8.614   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.55 on 2016 degrees of freedom
  (5 observations deleted due to missingness)
Multiple R-squared: 0.0355,     Adjusted R-squared: 0.03502
F-statistic: 74.21 on 1 and 2016 DF,  p-value: < 2.2e-16

On note effectivement que la taille de la classe a un effet sur le nombre d’élèves, et que cet effet est croissant. On peut visualiser ça graphiquement
> taille=seq(5,45,by=.1)
> note=predict(reg,newdata=data.frame(classize=taille),interval="confidence")
> plot(base0$classize,base0$avgverb,cex=.6)
> lines(taille,note[,2],lty=2,col="red")

On peut aussi faire une régression locale pour détecter d’éventuelles nonlinéairités,
> regL=loess(avgverb~classize,data=base0,span=.5)
> note=predict(regL,newdata=data.frame(classize=taille),interval="confidence")
> plot(base0$classize,base0$avgverb,cex=.6)
> lines(taille,note,col="blue")

Si on regarde pour la note en maths, on a un effet assez proche,
> reg=lm(avgmath~classize,data=base0)
> summary(reg)
Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) 57.36364    0.98724   58.10   <2e-16 ***
classize     0.33055    0.03222   10.26   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 9.472 on 2016 degrees of freedom
  (5 observations deleted due to missingness)
Multiple R-squared: 0.04963,    Adjusted R-squared: 0.04916
F-statistic: 105.3 on 1 and 2016 DF,  p-value: < 2.2e-16

Mais on se doute que quelque chose ne va pas, et que ce que l’on mesure ici doit être lié à autre chose.... et il faudra aller plus loin (ce qui fera l’objet d’un autre billet).