Cours de statistiques avec le classement World’s Best Bar

Il vient d’arriver, tout frais tout chaud tout beau, le nouveau top 50 des meilleurs bars du monde selon World’s Best Bar.
Dans un effort de transparence, il est possible d’en savoir un peu sur la méthodologie employée : 476 experts (critères arbitraires) ont chacun désigné 5 bars, de manière ordonnée, afin qu’il soit possible de distinguer deux bars qui ont été nommés autant de fois, mais à des places différentes. On apprend ainsi que 652 bars ont eu la chance d’être cités au moins une fois.

Il ne faut pas plus d’information (moyennant quelques hypothèses que nous allons détailler un peu plus bas) à l’équipe de Cocktail Molotov pour estimer les grandeurs suivantes :

  • Combien de bars ont été cités une seule fois
  • Combien de votes il fallait avoir pour apparaître dans le op 50
  • Combien de votes a obtenu le premier

Le pouvoir des mathématiques !

Hypothèses simplificatrices

Première hypothèse

Il est indiqué dans l’article en lien ci-dessus, qu’un bar classé premier par un votant a un score légèrement supérieur à celui d’un bar classé deuxième, qui lui-même a un score légèrement supérieur au troisième, et ainsi de suite.
L’hypothèse que je fais donc est que si on donne un point au cinquième, alors on donne 1,1 points au quatrième (c’est mon interprétation de légèrement) ce qui donne les scores suivants en fonction du classement :

  • 1 : 1,4
  • 2 : 1.3
  • 3 : 1.2
  • 4 : 1.1
  • 5 : 1

Deuxième hypothèse

Je fais l’hypothèse que la distribution des résultats suit une distribution géométrique. Pour résumer très simplement, c’est la fameuse distribution à l’origine du principe de Pareto, vous savez cette loi qui dit que 20% des gens possèdent 80% des richesses. Et bien là, je ferai l’hypothèse que 20% des bars ont reçu 80% des votes (enfin, je vais adapter ce 20 et ce 80 à l’aide des valeurs fournies par World’s Best Bars).

Analyse des résultats

Chaque votant a distribué 1 + 1,1 + 1,2 + 1,3 + 1,4 = 6 points (hypothèse 1). Il y avait 476 votants, soit 2856 points distribués, répartis entre 652 bars, ce qui nous donne une moyenne de 4,38 points par bar.

Nous allons maintenant utiliser notre hypothèse sur la nature de la distribution : la distribution géométrique est entièrement définie par son paramètre p, et ce paramètre a notamment la propriété d’être l’inverse de la moyenne. Dans notre cas, cela nous donne p = 1/ 4.28 = 0.23.

La probabilité qu’un bar donné ait reçu n votes suivant une distribution de probabilité géométrique est donnée par :

P(n) = p*(1-p)^n

Note pour les puristes, j’ai décalé de 1 pour commence à 1 vote, et pas à 0 vote.

Ce qui nous donne donc que 23% des bars ont eu un seul point (soit 150 bars).

Pour être dans le top 50, sur 652 bars, cela revient à avoir un score qui est dans le top 7,5% (ou que 92,5% des bars aient eu un score plus faible).
On cumule donc les probabilités P(1), P(2), P(3) etc. jusqu’à ce que cette somme cumulée soit supérieure à 0.925.

Quand on fait le calcul avec les hypothèses que l’on a faites, cela donne la table suivante :

Distribution d'une loi géométrique de paramètre p = 0.23
Distribution d’une loi géométrique de paramètre p = 0.23

 

Comme on le voit sur la table, il suffit d’avoir un score supérieur à 10 pour entrer dans le top 50.
La probabilité qu’un bar ait eu un score supérieur à 27 est inférieure à 1000, donc s’il n’y a que 652 bars qui ont été cités, on peut raisonnablement penser que le premier bar a eu moins de 27 points.

Conclusion

Tout d’abord je tiens à féliciter les organisateurs du concours World’s Best Bars pour avoir franchi un pas de plus dans la transparence de ces votes. Que ma pauvre tentative de reverse engineering des résultats ne les dissuadent pas de poursuivre leurs efforts dans ce sens, bien au contraire.

Ensuite, pour entrer dans les détails des valeurs obtenues, on se rend compte qu’une place dans le top 50 se joue à peu de votes, et l’écart entre ceux qui sont cités mais n’apparaissent pas dans le top est faible. Tout comme l’écart entre la première et la 50e places se joue à une quinzaine de votes environ (sur 476 votants).

Le but n’est pas de minimiser la performance de ceux qui ont eu les honneurs de ce classement. Si certains y figurent chaque année en bonne position c’est tout sauf un hasard. En revanche on peut rassurer ceux qui n’ont pas eu la chance d’y figurer : la prochaine fois, ce sera peut-être votre tour !

Enfin, j’ajouterai pour les mauvaises langues que si N patrons de bars souhaitent s’entendre entre eux pour faire figurer chacun de leurs bars dans le top 50, ils n’ont que 6N points à distribuer, alors que leurs bars en ont besoin de 10N, c’est donc mission impossible ;-).