Bien que largement utilisées ces dernières années, les données générées par les réseaux sociaux ne seraient peut-être pas aussi fiables que les chercheurs peuvent le penser. Une étude pointe les problèmes que pose la collecte de ces données.
Et si le Big data provenant de Facebook, Twitter et les autres réseaux n’était pas si fiable ? C’est en tous cas les conclusions d’une étude publiée par les chercheurs de l’université McGill de Montréal. Car cela fait plusieurs années que les données issues des réseaux sociaux sont exploitées par les sociologues afin de mieux cerner les comportements humains notamment. Plusieurs projets s’étaient basés sur ce type d’informations : Kristina Lerman, professeur d’informatique en Californie, proposait par exemple d’utiliser Facebook pour établir les réseaux d’amis et contrer la propagation du virus Ebola. Et à Boston, on avait étudié les opinions exprimées en ligne. Mais pour d’autres professeurs d’informatique, ce type de données seraient en réalité difficilement exploitables. C’est ce que pensent Derek Ruths et Jürgen Pfeffer. Les deux chercheurs de Montréal livrent ainsi une étude dans laquelle ils pointent les problèmes engendrés par les données des réseaux sociaux.
Le réseau crée l’erreur
Le principal problème réside dans la fiabilité des informations que chaque réseau engendre. Ainsi Ruths et Pfeffer soulignent à quel point les utilisateurs sont loin d’être représentatifs d’une population. Un seul exemple : 80 % des utilisateurs de Pinterest sont des femmes en 2012 selon le Huffington Post. À chaque réseau social sa population donc. Sans compter que le concept même de chaque plateforme dicte le contenu des données selon les deux chercheurs de l’université McGill. Ils prennent l’exemple du bouton “like” de Facebook qui quantifie le taux de satisfaction tandis que l’absence de bouton “dislike” rend plus difficile la mesure de l’insatisfaction. En conséquence les scientifiques se doivent d’être prudents avec ces données. D’autant que lorsqu’elles sont en accès libre, elles ont auparavant été filtrées par les gestionnaires des réseaux sans que ce filtrage soit nécessairement transparent. Mais au delà de la nature même des réseaux sociaux, d’autres facteurs peuvent entraîner un manque de fiabilité des données.
Gare aux faux profils et spams
Le nombre important de faux profils et de spams n’est pas toujours écarté des données relevées par les chercheurs et constitue une source d’erreurs considérables. Enfin Ruths et Pfeffer considèrent que nombre de chercheurs se concentrent sur des minorités d’utilisateurs ou de sujets faciles à classifier. Ainsi en sélectionnant les utilisateurs de Twitter politiquement actifs ils peuvent déterminer leurs préférences politiques avec 90 % de fiabilité. En sélectionnant l’ensemble des utilisateurs du réseau, on tombe à 65 % seulement. C’est donc les méthodes des chercheurs qui sont questionnées dans leur ensemble. “Tous ces problèmes mettent en lumière le besoin pour les chercheurs d’être plus conscients de ce qu’ils mesurent réellement lorsqu’ils travaillent avec des données des réseaux sociaux.” explique Derek Ruths.