Marges d'erreur, chiffres significatifs, ordres de grandeur et croissants chauds

April 11, 2006

En ces temps de mouvement social reparaît le triste sujet démagogique des chiffres de mobilisation dans les manifestations, les fameux "un million selon la police, quatre millions selon les organisateurs". En tant que type relativement versé dans le chiffre, je me devais d'essayer de trouver une explication pragmatique à ce fait, et en plus, de clouer (modestement) le bec à ces gens qui trouvent que "les marges d'erreurs sont trop énormes, c'est scandaleux, c'est une honte, brûlons les journalistes, brûlons Sarkozy, brûlons les syndicats".

Déjà banissons de notre langage le terme de marge d'erreur. Surtout vu la façon dont c'est utilisé la plupart du temps.

Comment c'est utilisé habituellement ? D'une manière très chère au gens qui n'ont aucun sens mathématiques (les anglophones les appellent des "innumerate" pour faire le parallèle avec "illiterate" = "illétré", je n'ai pas trouvé de traduction française satisfaisante... "innombrisme" ? un peu moche) mais qui on un vague souvenir d'avoir touché, dans leur enfance, des pourcentages : On fait le rapport du plus grand sur le plus petit, et on multiplie par 100.
Ainsi, si la police dit 35 et les organisateurs affirment 250, l'être humain lambda dira : 250/35 * 100 = 710 % de "marge d'erreur".
Mais si l'on y pense quelque secondes, qu'est-ce qui justifie réellement que l'on fasse le rapport du plus grand sur le plus petit ? Et pourquoi on ne ferait pas le plus petit sur le plus grand ? 35/250 * 100 = 14% de "marge d'erreur" : tout de suite cela paraît infiniment plus acceptable, mais clairement en désaccord avec l'intuition : cela parait trop peu au vu du grand écart entre les deux valeurs...

Tiens, mais on parle d'écart pour fonder notre intuition, mais dans la formule, on fait bêtement un rapport sans y avoir réellement réfléchit. Et contrairement à ce que certains voudraient vous faire croire, les maths ont un véritable sens : si dans une formule sensée exprimer un écart, on ne fait pas intervenir l'écart, on ne peut même pas dire que la formule est fausse, non, elle est juste complètement naze, rien de moins.

Notre écart est donc de 250-35 = 215. Ceux qui suivent pourraient me dire "pourquoi on fait le plus grand moins le plus petit et pas l'inverse ?". Tout simplement parce que si on le fait dans l'autre sens, ça ne change rien, on obtient alors -215 qui est, en valeur absolue (c'est-à-dire si on ne tient pas compte du signe) la même chose que 215. On pourra ajouter comme justification au fait que l'on ne s'interresse pas au signe, qu'un écart, c'est un peu comme une distance : pour aller de Paris à New-York, on fait 6000km. Et si on fait NYC - Paris, on ne fait pas -6000km, mais 6000km aussi. On pourra aussi arguer que si on prend la valeur négative, on va se retrouver à la fin avec une marge d'erreur négative, ce qui est un peu absurde.

Bon, donc, nous avons un écart de 215 personnes. Est-ce beaucoup ? Est-ce peu ? Normalement c'est là que vous vous dîtes : oui mais par rapport à quoi ? C'est là le point qui fâche et qui fait que tenter de calculer une "marge d'erreur" est un combat perdu d'avance. Il faut savoir par rapport à quoi mesurer cet écart.

Vous remarquerez l'emphase sur "rapport" pour bien signifier que cette fois-ci, vu qu'on l'a utilisé dans notre raisonnement, on a le droit de l'utiliser dans la formule. Et ce qui est fort, c'est qu'on sait même que dans notre rapport, l'écart sera au-dessus.

Mais on ne sait toujours pas au-dessus de quoi. Normalement, si l'on voulait être réellement rigoureux et avoir une bonne marge d'erreur, on devrait comparer cet écart à un nombre dont on est sûr. Par exemple le nombre réel de personnes sur place. Mais si on le connaissait on n'aurait pas ce débat, je ne serais pas en train d'écrire ce billet et on pourrait tous rentrer chez nous.

On peut commencer par supposer que ce sont les organisateurs qui donnent le bon chiffre : on a alors (250-35)/250 *100 = 87%. Puis ensuite, on peut regarder ce que ça vaut si c'est la police qui a raison : (250-35)/250 * 100 = 300% .
Je ne me lancerais pas dans un calcul fastidieux essayant de calculer les marges d'erreur des marges d'erreur et ainsi de suite, en espérant que les deux nombres finissent au final par se rejoindre (ce qui n'est même pas sûr à ce stade du raisonnement) : tout ce qu'on constate, c'est que l'on est obligé d'accorder une confiance quasi-aveugle en l'un ou en l'autre des comptages et si l'on fait ça, notre démarche n'a pas de sens : si on sait que la Police (ou les organisations) dit la vérité, alors son chiffre est exact et point.

On peut ensuite essayer de faire notre écart sur la moyenne de ces deux chiffres et supposer que la nombre réel n'en est pas très éloigné. Notez la double approximation. On calcule alors la moyenne (250+35)/2 = 142,5. Etant donné la double aproximation, le nombre de chiffres significatifs (ici 4) doit être réduit au maximum. Ou, pour ainsi dire, le chiffre après la virgule, le chiffre des unités, voire, le chiffre des dizaines ne signifient rien. Donc autant les enlever.

C'est un autre problème des gens sans sens mathématiques, ils sont persuadés que plus l'on donne de chiffres du résultat, plus, en face (le prof, le collaborateur etc...) sera content de la précision. Alors qu'en fait, la plupart des chiffres n'ont rien de significatifs : quand bien même on les interchangerait avec d'autres, l'interprêtation finale ne serait en rien altérée.
Attention, je ne dis pas que c'est toujours le cas, mais plus les approximations sont nombreuses ou grandes, moins les chiffres significatifs sont nombreux : dans une élection, ils sont nombreux car il n'y a aucune approximation ; dans un sondage, tenter plus de 1 ou 2 chiffres significatifs serait une aberration.
Notons que, si l'addition permet de garder tous les chiffres que l'on avait au départ, la multiplication oblige à tronquer son résultat : par exemple 12,5 * 14,7 = 183,75 : de 3 chiffres, on passe à 5, comme si on avait gagné en précision par une simple opération... C'est absurde, donc on se contentera de 184 (si 12,5 et 14,7 sont des approximations bien sûr ! Si ces nombres sont exacts, ils ont alors une infinité de chiffres significatifs (dont la plupart sur des 0) et le résulat peut donc en avoir une infinité également)

A travers la moulinette de la significativité, on a une moyenne à 150 personnes. On ressort notre formule de tout à l'heure et on a une marge d'erreur de (250-35)/150 * 100 = 150 % de "marge d'erreur". Qui, intuitivement, me paraît relativement conforme à des données telles que 35/Police et 250/Organisateurs.
Mais ça s'arrête là : tout ce que je peux oser affirmer, c'est "ils étaient probablement 150 à +/- 150%" et encore, cela signifie que je porte un crédit très exagéré aux chiffres fournis par la Police et les organisateurs.

Mais bien souvent, les écarts ne sont pas aussi grand, et même, très souvent, les chiffres fournis, bien que semblant éloignés sont du même ordre de grandeurs. Quand on a d'un côté 1 million et de l'autre 3.5 millions, ces deux nombres sont du même ordre de grandeur : le million. Et l'ordre de grandeur est la plus significative des données d'une mesure.
Un journaliste qui n'a pas envie de faire le raisonnement un peu plus haut pourrait se contenter, à moindres frais d'une estimation "à la physicienne" en disant "la manifestation a rassemblé quelques millions de personnes" qui est, à mon avis la plus honnête des informations que l'on puisse donner. Etre plus précis, c'est risquer l'erreur.
On pourra remarquer que pour 35000/250000 on a affaire à 2 ordres de grandeurs différents (10000 et 100000) alors on pourra essayer de se fier à l'ordre de grandeur de la moyenne, sans grande conviction...

Pour finir, les plus malins d'entres vous auront remarqués que je parle de croissants chauds dans mon titre et que je n'en ai toujours pas parlé dans l'article. C'est parce que c'est ma troisième interprêtation des chiffres des manifestations :
Si vous êtes un boulanger, et que vous souhaitez vendre des croissants chauds tout en étant certain qu'il ne vous en restera pas sur les bras, confectionnez en autant que les chiffres de la police.
Mais attention, plus le rapport d'excitation (c'est à dire le rapport du nombre selon les organisateurs sur celui suivant la police, 250/35=7,1 dans notre exemple) est élevé et plus vous aurez de chance d'en vendre en plus (et donc intérêt à en confectionner plus) : non que cela signifie qu'il y aura davantage de clients potentiels, mais plutôt que chacun consommera davantage de croissant car, l'excitation étant plus grande, la faim aussi.

Donc, pour résumer ce dernier point, on dira que l'on peut surement se fier à la police pour un nombre exact de présents, le chiffre des organisateurs servant lui à estimer la qualité de la manifestation : si l'indice d'excitation est plus petit que 3 (empiriquement) c'est que la manifestation est plutôt ratée (même si le nombre de personnes présentes est grand) alors qu'un indice supérieur à 4.5 indique qu'elle est très réussie (même si le nombre de personnes présentes est faible).
C'est un peu comme la température : les différences entre la température officielle (à l'ombre, sous abris) et la température ressentie (qui est plus petite si il y a du vent, plus grande si l'on est en plein soleil etc...)

Tout ça pour conclure en disant que les écarts Police/Organisateurs ne me semblent pas vraiment scandaleux au point de lancer des débats démagogiques en famille....