Vendredi dernier (2015-11-06), le journaliste Mathias Marchal a publié un article dans lequel il a examiné les résultats de 3317 tirages de la loterie pancanadienne 6/49 publiés par Loto-Québec. Depuis le 12 juin 1982, parmi les boules numérotées de 1 à 49, certaines sont sorties plus souvent que d’autres. Le journaliste communique avec Loto-Québec qui répond avec une ânerie marketing. Marisol Schnorr indique que des spécialistes en mathématiques de Loto-Québec, qu’on ne nomme pas, auraient examiné ces résultats sans n’y voir rien d’anormal.
Le journaliste s’oriente alors vers deux mathématiciens, certainement compétents, mais qui ne sont manifestement pas familiers avec le domaine du jeu. Les tests qu’ils rapportent n’ont pratiquement pas de puissance statistique. Ils n’ont rien décelé d’anormal ce qui apparaît confirmer la réponse de Marisol Schnorr. Et pourtant, il y a quelque chose à voir.
Voici l’histogramme des résultats des 3317 tirages. À première vue, les boules sortent à peu près à la même fréquence. Il y a des petites différences qui pourraient disparaître après 5000, 100000, ou un million de tirages. C’est ce que suggère le myope test de chi-carré, même adapté pour les tirages sans remise.
Mais, regardez bien l’histogramme. Il y a une pente positive! Les fréquences à gauche semblent systématiquement moins élevées que les fréquences à droite. En principe, s’il n’y a que le hasard qui détermine le choix des boules, il ne devrait pas y avoir de pente. Évidemment, il s’agit d’un échantillon de 3317 tirages et on ne peut pas s’attendre à un résultat parfait avec un tel échantillon. La question est alors : est-ce que la pente est suffisamment inclinée pour qu’on puisse rejeter l’hypothèse d’une pente nulle en réalité.
En statistique, on peut tester cette hypothèse avec un test de régression linéaire … puisque la pente semble linéaire. La variable indépendante est le numéro de la boule et la variable dépendante est la fréquence d’occurrence parmi les 3317 tirages. Le test va nous livrer quatre paramètres : (1) la pente, (2) l’ordonnée à l’origine, (3) une valeur p et (4) un R carré. Si les résultats sont parfaitement aléatoires, la valeur p sera supérieure à ,05. Par contre, on rejettera l’hypothèse du hasard si la valeur p est égale ou inférieure à ,05.
Aussi, si le hasard est le seul déterminant des résultats des tirages, l’ordonnée à l’origine doit être égal à 3317 divisé par sept, donc 473,86. Voici ce que livre le test de régression linéaire.
Tout d’abord, la valeur p est égale à ,001. Cela signifie qu’on a seulement une chance sur 1000 de se tromper si on rejette l’hypothèse du hasard comme seul responsable du résultat des tirages. La pente est manifestement inclinée. Les joueurs qui cherchent un biais d’occurrence dans les numéros gagnants ont ici un résultat scientifiquement probant. La pente de ,6344 n’est pas nulle et l’ordonnée à l’origine égal à 458 est statistiquement différent du 473,86 attendu.
Avec des grands échantillons, il arrive parfois que la valeur p soit significative alors que le biais est négligeable. La valeur p est une mesure de certitude. Mais, la certitude d’avoir vu quelque chose ne dit pas si cette chose est grande ou petite. Pour cela, il faut examiner la taille d’effet, c’est-à-dire le R carré. Et ici, c’est sidérant. Le R carré est égal à ,2112 (ou 21,12% de la variance à expliquer). En tenant compte de la taille de l’échantillon, le R carré ajusté demeure élevé à 19,4%. Dit autrement, le numéro inscrit sur la boule explique jusqu’à 19,4% des différences d’occurrence entre les boules. Dans ce contexte, c’est énorme. Ne pas voir ça, c’est comme ne pas voir un éléphant rose qui flotte dans les airs dans son bureau.
En comparaison, voici les résultats pour 1129 tirages de la Française des jeux, l’équivalent de Loto-Québec en France. La valeur p est à ,523. On ne peut pas rejeter l’hypothèse que la pente soit nulle. Par surcroît, le R carré est aussi quasiment nul. L’ordonnée à l’origine est égale à 116,87 alors qu’on s’attendait à une valeur de 115,20. Il est vraisemblable que les 49 numéros de la Française de jeux soient équiprobales, c’est-à-dire identiques.
En Californie, il y a une loterie à 47 boules où on ne détecte pas davantage de pente inclinée (p=,598).
Pour les loteries française et californienne, il est clair que les boules sont équiprobables et que le tirage correspond à ce qu’on attend traditionnellement d’une loterie honnête.
Svenska Spel, l’équivalent de Loto-Québec en Suède, a une loterie à 35 boules. En voici les résultats depuis le 11 juin 2011. À l’œil, il semble y avoir une pente descendante. Mais, le test statistique indique qu’il pourrait s’agir uniquement d’un hasard d’échantillonnage. La valeur p est de ,135. En contrepartie, il s’agit d’un échantillon très petit de 461 tirages. En augmentant le nombre de tirages, il n’est pas exclu que la valeur p diminuera en bas de ,05.
Dans le cas de la loterie nationale en Grande-Bretagne, la pente inclinée est probante (p=,031). La pente est moins prononcée que pour la loterie pancanadienne 6/49, mais elle n’est manifestement pas nulle.
Les données de ces dernières loteries proviennent du site multilotto. Sur ce site, on trouve aussi des résultats pour la loterie 6/49 canadienne couvrant uniquement la période du 19 juin 2011 à aujourd’hui. Cette fois, la valeur p est de ,720. Pour ce segment plus récent, la pente apparaît dorénavant clairement nulle! Ces données témoignent que les boules de la loterie pancanadienne 6/49 n’étaient pas équiprobables quelque part entre juin 1982 et juin 2011. Il y avait un biais favorisant les numéros les plus élevés.
Est-ce que cela pourrait être intentionnel? Deux chercheurs français ont déjà pu établir que les mises, à ce type de loterie, favorisent surtout le choix de petits nombres par les parieurs. Incidemment, on connaît bien la prédilection des parents à choisir l’âge de leurs enfants comme nombres chanceux. Dans ce contexte, en réduisant la probabilité des boules aux numéros les plus souvent choisis, on stimule artificiellement la création de lots progressifs plus grands.
À quel point le biais constaté dans les fréquences des boules de la Lotto pancanadienne 6/49 peut-il avoir eu un impact négatif sur l’espérance de gain des parieurs canadiens. Pour le déterminer, j’ai construit un simulateur de Lotto 6/49 avec lequel je peux varier la probabilité des boules. En simulant 10 milliards de tirages avec 49 boules équiprobables, j’ai gagné 723 le gros lot avec ma combinaison 1, 2, 3, 4, 5, 6. J’ai donc gagné une fois à toutes les 13 831 259 mises. C’est très près de la probabilité théorique de 13 983 816. Le simulateur fonctionne plutôt bien.
Par la suite, j’ai modifié la probabilité des boules pour créer un biais identique à celui calculé par l’équation de régression des 3317 tirages depuis le 12 juin 1982. Cette fois, les plus petits nombres sont défavorisés. Après 10 autres milliards de tirages simulés, je n’ai gagné que 627 fois avec ma combinaison 1, 2, 3, 4, 5, 6. J’ai gagné une fois à tous les 15 948 963 tirages. C’est loin du 13 983 816 qu’on me promet! Maintenant, avec la combinaison 44, 45, 46, 47, 48, 49, j’ai gagné le gros lot 821 fois, c’est-à-dire une fois à chaque 12 180 268 tirages.
Avant juin 2011, la probabilité de gagner était manifestement plus grande avec les numéros plus grands. Mais, ce biais n’existe plus … en tout cas pour la Lotto 6/49 car voyez ce que donne les données récentes pour le Lotto Max. Ce n’est pas encore statistiquement significatif (p=127). Mais, il n’y a que 320 tirages. Scientifiquement, ce serait intéressant de corréler la fréquence d’occurrence des boules avec leur préférence lors des choix des parieurs. Malheureusement, cette information n’est jamais publiée par les loteries. On se demande pourquoi!
Alors, comme le prétend Marisol Schnorr, est-ce qu’il y a vraiment quelqu’un de sérieux chez Loto-Québec qui vérifie les résultats des tirages? Et puis, les firmes de vérification, elles font quoi au juste? Sur le site de Loto-Québec, dans la section Intégrité et rigueur, on nous présente une image de balance de précision probablement sensible au millième de gramme. Cette photo est reproduite dans l'article de monsieur Marchal. Avec ce genre de photo sans contexte précis, on nous place dans un tunnel cognitif pour nous amener à croire que les boules doivent nécessairement être de même poids. Mais, en réalité, cela signifie seulement qu’une firme de vérificateur a pesé les boules. Le client de la firme n’est pas la population. C’est l’organisateur de la loterie. La firme n’a fait que vérifier que les boules pèsent le poids requis par l’organisateur. Et, la liste des poids requis pour chaque boule n’est publiée nulle part. Et puis, qui a déjà vu le rapport des firmes de vérification? Tous ces éléments ne sont qu’un tunnel cognitif pour vous amener à croire que les boules sont équiprobables. Alors, pourquoi n’est-il jamais affirmé explicitement que les boules sont équiprobables?
Dans le domaine du jeu, mentir avec des demi-vérités est le nerf du commerce. C’est un peu le piège dans lequel sont tombés les mathématiciens consultés par le journaliste. Ils ont plausiblement pris pour acquis que les joueurs font régulièrement des erreurs d’estimation statistique … et ils ont trop facilement rejeté l’hypothèse d’un déséquilibre entre les probabilités des boules peut-être plus en fonction d’un raisonnement théorique, ou d’un préjugé à l’égard des personnes moins instruites en mathématique, qu’en fonction d’une vérification empirique adéquatement approfondie. Avec le jeu, il faut prendre expressément garde aux tunnels cognitifs.