Il y a trois sortes de mensonges : les mensonges, les sacrés mensonges et les statistiques.(Mark Twain)Vous avez peut-être une vision des statistiques qui date de la terminale : on remplit des tableaux, on fait des moyennes, on calcule des écarts-type... Bref, ça sert à résumer des tonnes de chiffres en quelques valeurs synthétiques et quelques histogrammes.
Bien sûr, tout ça en fait partie, mais les statistiques sont bien plus riches que ces outils élémentaires. Petit tour d'horizon.
Des outils pour décrire les données
D'abord, les statistiques servent à décrire les données que l'on a pu accumuler par différents moyens : mesures expérimentales, sondages, extraction de bases de données...
Sans revenir sur les calculs classiques (moyenne, médiane, quartiles, écart-type...) et des graphiques qui les représentent (histogrammes, effectifs cumulés) qui permettent de décrire une série de données correspondant à une seul variable aléatoire, il me paraît déjà plus intéressant de parler des statistiques relatives à deux variables.
D'abord, du point de vue graphique : si vous avez des données concernant deux variables X et Y qui ont été plusieurs fois mesurées simultanément, il est possible de représenter chaque mesure sur un plan. On construit ainsi un nuage de points. L'intérêt d'un nuage de point est double :
- il permet de savoir intuitivement si les deux variables sont corrélées : le nuage de deux variables très corrélées est proche d'une courbe, alors que le nuage de deux variables indépendantes présente une forte dispersion sans motif évident ;
- et dans le cas d'une forte corrélation, on peut chercher à déterminer la courbe qui s'approche le plus des données, la meilleure interpolation ; si la courbe est une droite, on parle de droite moyenne.
![Les statistiques ne se résument pas à l'écart-type Les statistiques ne se résument pas à l'écart-type](http://media.paperblog.fr/i/467/4673883/statistiques-resument-lecart-type-L-Zlsk81.png)
Par exemple, si vous constatez dans un supermarché que les ventes de couches et les ventes de bières sont corrélées (elles sont fortes en même temps), n'en déduisez pas que les jeunes parents sont alcooliques, ou que les bébés consomment de la bière.
![Les statistiques ne se résument pas à l'écart-type Les statistiques ne se résument pas à l'écart-type](http://media.paperblog.fr/i/467/4673883/statistiques-resument-lecart-type-L-ShR2rA.jpeg)
Quand il y a plus que deux variables, les choses se compliquent. On peut toujours regarder les variables individuellement ou deux par deux, mais les statisticiens ont développés d'autres outils pour analyser ce type de données riches.
Par exemple, l'analyse en composantes principales permet de combiner les diverses variables pour former de nouvelles variables, indépendantes entre elles, qui sont appelées les composantes principales. Les premières composantes principales sont en quelques sortes les variables qui résument le mieux la diversité des données.
Une application de cette méthode sur des données génétiques d'Européens a conduit le généticien des populations Luigi Luca Cavalli-Sforza à représenter sur une carte de l'Europe la valeur de la première composante principale. Voici ce qu'il a obtenu :
![Les statistiques ne se résument pas à l'écart-type Les statistiques ne se résument pas à l'écart-type](http://media.paperblog.fr/i/467/4673883/statistiques-resument-lecart-type-L-POVUuf.png)
Des outils pour déterminer des probabilités
La description est utile, mais parfois il faut aller au-delà de la description et chercher à faire des prédictions. Si l'on dispose d'une masse suffisamment importante de données (d'autant plus importante qu'il y a de variables ou qu'on veut être précis), il est possible de déterminer une loi de probabilité pour un jeu de variables données. Par exemple, à partir de l'histogramme des valeurs mesurées de la longueur précise de pièces produites par un procédé industriel, on peut constater que cette longueur peut se représenter par une loi de probabilité convenable (loi uniforme, loi gaussienne, loi de Poisson, loi log-normale...) car l'histogramme a une forme très proche de l'histogramme théorique de ladite loi.
Mais que faire quand on n'a pas assez de données pour que l'identification soit aisée ? C'est là que les statisticiens ont un arsenal redoutable.
Par exemple, ils ont développé des tests statistiques : si l'on soupçonne que telle variable aléatoire suit une loi de probabilité donnée (disons, une loi gaussienne de moyenne nulle et d'écart-type égal à 1), ils peuvent appliquer un test comme le test du khi carré sur l'échantillon et vérifier s'il est vraisemblable que la loi soupçonnée soit la bonne. Vraisemblable, car il n'y a aucune certitude à attendre d'un échantillon de taille réduite, mais la vraisemblance est d'autant plus forte que le nombre de données est élevé.
![Les statistiques ne se résument pas à l'écart-type Les statistiques ne se résument pas à l'écart-type](http://media.paperblog.fr/i/467/4673883/statistiques-resument-lecart-type-L-58m83A.png)
Des outils pour interpréter les données
Certaines disciplines scientifiques ou techniques font un usage important des statistiques. Par exemple, la physique statistique utilise les statistiques pour décrire des systèmes macroscopiques (solides, liquides, gaz...), composés d'un nombre colossal de particules simples (électrons, atomes, molécules...), et dont on peut déduire des propriétés macroscopiques à partir de la théorie microscopique des particules et de calculs statistiques. Ainsi, dans un gaz, la température est une sorte d'écart-type de l'énergie cinétique des molécules du gaz. De même, la pression ou la densité du gaz ont une interprétation statistique.
En marketing, les sondages sont des statistiques basées sur des échantillons, qui peuvent servir à appréhender l'opinion de tout un marché à partir d'une quantité modeste de sondés. Il est amusant d'ailleurs de savoir que la taille pertinente de l'échantillon n'est pas vraiment liée à la taille de la population étudiée : qu'on s'intéresse à un marché de 10 000 personnes ou d'un milliard, l'échantillon nécessaire est généralement voisin de 1 000 personnes, du moment que leur sélection est faite selon les règles de l'art.
Enfin, signalons une approche intéressante, et qui se développe notamment en intelligence artificielle : l'approche bayésienne. Lorsqu'on ne dispose d'aucune connaissance préalable sur un phénomène aléatoire observé, on ne peut que deviner une loi de probabilité de manière totalement subjective. Cette loi peut être corrigée lorsqu'un jeu de données devient disponible, grâce à un théorème de probabilité, le théorème de Bayes.
Sans rentrer dans les détails (que vous pouvez trouver ici), cette approche des probabilité est particulièrement originale par rapport à l'approche classique où la loi de probabilité est une caractéristique fixée à l'avance de l'expérience aléatoire et qui se laisse reconstruire lorsqu'on a une infinité de données. L'approche bayésienne correspond à une vision plus intuitive des probabilités, qui traduit notre ignorance initiale et la manière dont, progressivement, donnée après donnée, on se fait une idée de la vraie loi : la loi subjective, progressivement améliorée par les données supplémentaires, doit finir par converger vers la loi objective. En quelque sorte, elle traduit l'apprentissage d'un phénomène aléatoire.
![Les statistiques ne se résument pas à l'écart-type Les statistiques ne se résument pas à l'écart-type](http://media.paperblog.fr/i/467/4673883/statistiques-resument-lecart-type-L-W1IGHN.jpeg)
Médiation technique et statistiques
Un médiateur technique, dont le client peut disposer de données abondantes mais qu'il ne sait pas traiter, peut être amené à rechercher un expert capable de manipuler statistiquement ces données. Encore faut-il que le client sache qu'on peut faire mieux que des écarts-type !
Le médiateur technique a donc un rôle d'apporteur d'idées, particulièrement utile dans la phase de créativité d'une mission.
Plus généralement, la culture technique et scientifique du médiateur technique, comme celle des employés du client qui participent, est un atout pour trouver la ressource technique recherchée par le client.