Un petit billet très court pour répondre à une question d’élèves de licence. L’erreur quadratique moyen est définie comme
alors que l’erreur absolue moyenne est définie comme
(que
je définie ici comme l’écart à la moyenne, certain considérant la
distance à la médiane, qui minimise cette quantitié, alors que la
moyenne minimise l’écart quadratique, mais je reviendrais là dessus
bientôt, sur l’histoire de la loi normale).
Souvent ces quantités
sont présentées comme des mesures de la même quantité, que l’on
appelerait "dispersion" autour de la moyenne.
Si l’on prend deux observations, ces quantités sont rigoureusement identiques, car
compte tenu du fait que
En revanche, comme le montre le graphique ci-dessous,
Aussi,
avec davantage de termes, la différence peut devenir significativement
différente. En particulier, comme le notent Goldstein et Taleb (2007),
en ligne
ici, dans le cas Gaussien centré réduit,
Autrement
dit, ces quantités peuvent parfaitement être différentes. Sur l’exemple
ci-dessous, on considère un groupe de 4 individus, trois ayant le même
revenu, et le dernier ayant un revenu plus important. On s’arrange pour
que le revenu moyen soit constant (100 ici) et on regarde comment se
comportent ces deux quantités lorsque le revenu du dernier individu
s’accroit (de celui des autres).

(j’ai
autorisé les revenus négatifs pour la simplicité des calculs et pour
avoir un joli dessin). On en conclue qu’un écart significativement différent entre l’écart-type (L2) et l’écart absolu (L1)
signifie simplement qu’il y a probablement des points aberrants dans la
base (aberrants au sens "
sensiblement différents", des "
outliers").