Parlons un peu de chiffres

Publié le 13 septembre 2009 par Pierrotlechroniqueur

J'étais en train d'écrire un autre billet (mercredi dernier, ça commence à remonter) quand j'ai décider d'un coup d'un seul de ne pas le publier. Pas maintenant. D'une part, parce que je traverse une jolie crise de fainéantise et que le sujet est moins ludique que beaucoup d'autres, d'autre part, parce que. Par contre, je me suis un peu amusé à parcourir le net (et des blogs des collègues, entre autres), pour aller à la chass à l'inspiration.
L'une des choses qui m'a toujours fasciné sur Wikipédia - et pas que sur le célèbre site cité, pour être honnête - est l'importance accordée au regard de l'autre. Ce qui explique selon moi l'importance des statistiques que l'on peut sortir sur tel ou tel fait wikipédien, et également d'autres petites choses préjudiciables ou profitables au projet. Deux exemples récents et faciles me viennent. Le premier, vient directement de chez Popo le chien. qui nous apprend/rappelle qu'un utilisateur anglophone MZMcBride vient de proposer un outil très pratique pour savoir combien de personnes suivent une page donnée de Wikipedia (ou, d'ailleurs, d'un autre projet). Jusque là, je n'ai fait que recopier l'information fournie par Popo, en y ajoutant un peu d'information (les Wikimédiens aiment les statistiques et les chiffres, comme les autres gens au passage). C'est mal, on dirait presque du reblogging. Mais presque. Car je vais ajouter de l'information ô combien pertinente. Là, maintenant, tout de suite.

C'est-y pas beau ? Il s'agit du nombre de fois dont la page utilisateur est mise en suivi pour un certain nombre de blogueurs es wikipedia. On remarque immédiatement qu'il n'y a aucune corrélation entre la fréquence de publication du blog, par exemple, et le suivi de la page utilisateur. Sinon, Popo serait sans doute en tête sur ce graphique, avec David Monniaux et Darkoneko. Mais en tout cas, devant Serein (qui multiplie plus les blogs que les billets, en fait). Et il n'y a pas non plus de rapport avec le centrage autour de Wikipédia (nombre de billets parlant de Wikipédia par rapport au nombre de billets du blog, un autre indice). En gros, rien à en tirer.
Tout ça pour faire le lien avec le billet de Darkoneko sur les "100 articles les plus lus", et ses deux conclusions très rapides (trop, disons-le tout de suite) à la lecture du graphe concernant Wikipédia francophone ce qui d'ailleurs lui a été signalé. Il est important - toujours selon moi - de faire extrêmement attention pour comparer ce qui est comparable, sans omettre quelques facteurs externes d'importance. Première chose signalée par Esby, l'existence ou non de liens interwikis entre catégories de différentes versions de Wikipédia. Mais ça, c'est de la cuisine interne. Deuxième chose, toujours en cuisine interne : que recouvrent exactement les catégories utilisées ? On ne parle pas de la même chose quand on parle de - au hasard bien choisi pour les robots d'indexation qui passeront par ici - sexualité et de pornographie. Qui peuvent toutes deux être mises dans une catégorie "sexe". Mais le but initial d'une recherche n'est sans doute pas le même ... Donc deux points de cuisine interne qui faussent les résultats annoncés. Et ne parlons pas des facteurs externes (comme la fameuse indexation Google). Et chose étonnante, en plus, on ne parle pas non plus de la durée sur laquelle les données indiquées sont établies. Ce qui est pour le moins critiquable.
Pour résumer : les chiffres c'est bien, mais il ne faut pas trop extrapoler à partir de données "brutes" sans contextualisation. Parce que ça devient vite n'importe quoi.