Maths

La loi de Benford

Un peu de statistique et de bon sens, ça ne marche pas toujours dans la vraie vie. La loi de Benford en est une illustration parfaite.

Observations quotidiennes

Si je vous demande de relever tous les chiffres que vous rencontrez au hasard dans votre quotidien comme dans les journaux et livres entassés chez vous et que vous retenez simplement le premier chiffre de chaque nombre qui n’est pas un zéro (ce qu’on appelle le chiffre significatif), on peut s’attendre à obtenir autant de « 1 » que de « 2 », etc. Ça paraît logique si on admet que ces nombres sont répartis de manière aléatoire comme au loto. Pareil, si vous prenez votre dernier ticket de caisse de supermarché et que vous notez le nombre d’occurrence du premier chiffre de chaque prix pour chaque article, vous vous attendez à compter des un, des deux, des trois, etc., en proportion à peu près équivalente. Or, si vous faites ces expériences, vous obtiendrez ce résultat déconcertant pour chaque chiffre :

Assez incroyable, non ? Premièrement, cela signifie que ces chiffres ne sont donc pas aléatoires au sens statistique du terme, sinon chaque chiffre sortirait avec la même probabilité. Personnellement j’ai dû faire le test moi-même pour m’en convaincre tellement ça parait fou (il faut quand même plusieurs centaines ou milliers de chiffres pour retrouver ces proportions). Pourtant les observations sont sans appel : les nombres que nous utilisons dans notre quotidien sont faits tels que chaque chiffre « x » à une probabilité bien particulière d’apparaitre en premier. Cette probabilité est égale à « log((x+1) / x). Mais pourquoi ?

Un peu d’histoire

Cette loi a été énoncée pour la première fois en 1881 dans la revue American Journal of Mathematics par Simon Newcomb mais ce n’est que 57 ans plus tard que Franck Benford la redécouvre en étudiant des tables de logarithmes (comme Newcomb) mais il n’existe aucune démonstration rigoureuse de cette loi. En effet, dans les tables de logarithmes, très utilisées pour faire toute sortes de calcul avant les calculatrices et ordinateurs, plusieurs personnes avaient observé que l’occurrence d’apparition de chaque chiffre sur la première décimale suivait une probabilité bien précise.

Mais dans la nature, les nombres n’existent pas vraiment, ce sont les hommes qui les ont inventés pour leurs mathématiques. Premièrement, il a fallu choisir une base de numération pour représenter les nombres, la base 10 dans notre cas. Ensuite, les nombres sont utilisés pour représenter des entités physiques en s’appuyant sur des unités physiques, également inventés par l’homme et donc arbitraires comme la seconde, le mètre, le kilogramme, les euros, etc. Il suffirait donc de changer notre base de numération ou nos unités pour changer les chiffres qui composent un nombre. Mais même en faisant de tels changement, la loi de Benford reste valide, ce qui parait encore plus incroyable.

Invariance d’échelle

La loi de Benford fonctionne avec le système d’unité international (kilogramme, seconde, mètre, kelvin, ampère, mole, candela) mais aussi avec n’importe quel autre système inventé par l’homme comme le système d’unité anglo-saxon (pound, foot, mile, gallon, fahrenheit, etc.). En fait, une suite de nombre répondant à la loi de Benford fonctionnera encore si on la multiplie par un même nombre. C’est pour cela qu’une liste de prix dans un supermarché suit une loi de Benford quel que soit le pays et la monnaie utilisée. Mais comment est-ce possible ? La démonstration rigoureuse ne date que de 1998 et est plutôt complexe mais un petit exemple nous permet de comprendre cette invariance :

Prenons une série de nombres répondant à la loi de Benford. On multiplie tous les nombres de la suite par « 2 » et les premiers chiffres de chaque nombre vont ainsi être modifiés. Dans la nouvelle série obtenue, les nombres commençant par « 1 » proviennent nécessairement des nombres qui commençaient par 5,6,7,8,9 initiaux (car 5*2 =10 / 6*2=12 / 7*2=14 / 8*2=16 / 9*2=18). Selon la loi de Benford, les nombres commençant par 5,6,7,8,9 avaient une probabilité totale de 7.9%+6.7%+5.8%+5.1%+4.6% = 30.1%, ce qui correspond précisément à la probabilité d’obtenir un « 1 » comme premier chiffre ! Cette observation est due aux propriétés des logarithmes. Et si vous refaites cet exemple avec n’importe quel autre chiffre, ça marchera encore.

Invariance selon la base de numération

Nous utilisons aujourd’hui dans notre société occidentale un système de numération en base 10 : le système décimal. Il a été naturellement choisi à cause de nos 10 doigts et serait apparu il y a plus de 5 000 ans en Egypte, même si de nombreuses autres bases ont été utilisées à travers les âges et les continents pour diverses raisons. Deux mêmes nombres utilisent différents chiffres selon la base utilisée et le premier chiffre d’un même nombre peut donc être amené à changer, par exemple le nombre 2345 [en base 10] s’écrit 3340 [en base 5] :

  • 2 345 [en base 10] = 2*103 + 3*102 + 4*101 +5*100
  • 2 345 [en base 10] = 33 340 [en base 5] = 3*54+ 3*53+ 3*52+4*51+0*50

La démonstration est également ardue mais les principes reposent toujours sur les propriétés des logarithmes. Le changement de base produit bien des nombres avec des chiffres significatifs différents mais les proportions de ces changements respectent la loi de Benford qui se trouve alors conservée !

Des exemples qui marchent… ou pas !

Voici des listes de nombres qui obéissent à la loi de Benford :

  • Les indicateurs boursiers (Dow Jones, Nasdaq, CAC40, etc.)
  • Les chiffres d’affaires d’entreprises prises au hasard
  • Les indicateurs du niveau de vie comme ceux du niveau de pauvreté
  • Les prix dans un supermarché
  • Hydrologie (taille des lacs, longueur des rivières, etc.)
  • Les constantes physiques
  • Les nombres apparaissant à la une des quotidiens
  • Les nombres des livres de comptes ou des recueils de calculs scientifiques
  • Les nombres extraits de divers almanachs agricoles ou sportifs
  • La table des poids moléculaires

Mais il existe aussi de nombreux contre-exemples :

  • Une vraie série aléatoire comme un tirage de loto ne suit pas la loi de Benford car dans ce cas, chaque chiffre à une probabilité égale d’apparaitre.
  • Les numéros de téléphone d’une même région (à cause des indicatifs tous identiques).
  • Tout ensemble de nombre ayant le même ordre de grandeur comme la taille des hommes français ou le prix des yaourts dans un supermarché. Pour que la loi de Benford fonctionne, il est indispensable que la série considérée s’étale sur plusieurs ordres de grandeurs, mélangeant ainsi des grands nombres et des petits.

Détecter les fraudes

OK, la loi de Benford est redoutable et plutôt inattendue mais y a-t-il des applications concrètes ? Eh bien oui, et pas des moindres. La principale application de la loi de Benford est la détection de fraude dans un ensemble de nombres qui devrait la respecter. En effet, si on prend les comptes-rendus financiers des grandes entreprises, les chiffres doivent respecter la loi de Benford et donc si jamais on s’aperçoit que la loi n’est pas respectée, c’est tout simplement que quelqu’un est venu modifier les vrais chiffres (et généralement dans un but malhonnête). Il semblerait qu’une dizaine d’entreprises se soit fait pincer de cette manière à New-York il y a quelques années.

Cette technique est aussi utilisée pour détecter des fraudes dans les données brutes utilisées dans les recherches scientifiques servant à publier des articles (en médecine, biologie, psychologie, etc.). En effet, certains chercheurs peu scrupuleux sont prêts à modifier les données brutes d’expériences ou de questionnaires de manière à démontrer ce qu’ils souhaitent. Le problème est que d’instinct, jamais ils ne modifieraient les données en suivant la loi de Benford et plusieurs chercheurs se sont ainsi fait démasquer de cette manière.

Le problème c’est que maintenant, cette loi devient de plus en plus connue et les faussaires les plus malins peuvent très bien modifier leurs données de manière à conserver la loi de Benford et donc échapper à cette vérification… Mais si jamais vous vous trouvez face à un jeu de données douteux ayant une signification physique et qui s’étale sur plusieurs ordres de grandeurs, vérifiez donc la loi de Benford…

About the author

La science pour tous

Ingénieur au CERN (Organisation Européenne pour le Recherche Nucléaire) à Genève, Suisse.

3 Comments

  • Bonjour,
    oui, c’est étonnant mais vrai, même dans les numéros de pages de livres dans une bibliothèque. ce qui est logique car pour avoir le même nombre de neuf il faudrait que j’ai seulement des livres avec 999 pages maximum.
    Moins d’accord sur les prix de supermarchés car il on tendance à être plutôt du type 0,99-1,99, 19,99 etc.

    • Et bien il n’y a pas de problèmes, pour tes prix du supermarché, ce n’est que le premier chiffre qui est important. Dans ton exemple, deux de tes prix commencent par un « 1 », mais s’il s’écrivent « 2,99€ / 7,99€ » et bien leur chiffre significatif sont respectivement 2 et 7. Comme on ne prend en compte que le premier chiffre, la présence de « 9 » dans les chiffres des centimes n’a pas d’impact.

Leave a Comment

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.