La loi de Benford, un peu de pratique
Par Arthur Charpentier le jeudi 19 mars 2009, 21:17 - Statistiques - Lien permanent
Je vais poursuivre ici un billet précédant sur la loi de Benford. Côté applications de la loi de Benford, pour ceux qui
veulent essayer, vous pourrez trouver ici quelques bases de
données, avec (j’ai pris des données au hasard sur le net) la
population des pays du monde 3 années différentes (ici pour la base
détaillée), le produit intérieur
brut (GDP) de tous les pays du monde 3 années prises au hasard (ici), le nombre de livres empruntés par étudiants à la BU l’an dernier
(en suprimant les "0", ici). Bref, cela marche remarquablement bien, avec la population
ou encore le PIB des pays du monde,
ou mieux encore, les livres empruntés à la BU,
Comme
je l’avais dit, Benford donne une distribution pour une écriture dans
n’importe quelle base. J’ai pris une base 10, mais avec des bases plus
grosses, on peut tenter la base 100. C’est ce que j’ai fait sur une
base de données qui me tient à coeur: l’ensemble des sinistres de perte
d’exploitation en France, entre 1985 et 2000 (source FFSA). J’ai en
tout 2387 sinistres. Il n’y a que les sinistres au dessus de 100,000
francs (car la base est en francs). Pour tester l’histoire de
l’invarisance par changement d’échelle j’ai d’ailleurs tenté une
conversion en euros. Bien que l’on ait une tendance de type exponentielle,
il y a beaucoup de valeurs très importantes, de manière très régulière.
Par exemple en francs, les valeurs 15, 22, 30, 45, 60, 76 et 91. On
note une régularité surprenante les multiples de 15. En passant en
euros, ce sont les valeurs 16, 23, 34, 46,69 et 92 qui ressortent. Je
ne sais pas si la censure (à gauche) peut être une explication de ce
phénomène (explication très partielle)
Je ne vais pas me
laisser démonter. En fouiilant dans mon ordinateur, j’ai trouvé 6728
sinistres de tempêtes en France simulés par EQECat, sur lesquelles travaillent des étudiants de l’ENSAE, données par AXA GRM (bref, j’ai rien inventé). Je crois que le
graphique parle de lui même...
J’insiste peut-être lourdement, mais cette loi
est purement empirique, encore une fois, donc il est possible de
trouver des milliers de données sur lesquelles cette loi ne convient
pas...
Je peux aussi rajouter quelques graphs tirés d’applications de cette loi,

Cette utilisation de la loi de Benford pour détecter de la fraude (fiscale) avait été précaunisée par Hal Varian, "Benford’s law", The American Statistican 26. Sur les données comptables, une étude a été menée par Cindy Durtschi, William Hillison et Carl Pacini (ici).



Commentaires