Nous étions prévenus : la Banque d'Angleterre s'intéresse aux sources d'information non conventionnelles pour améliorer ses prédictions économiques. Le déroulement d'une de ses récentes expériences en la matière donne lieu à la publication d'un passionnant billet sur le blog ouvert à l'expression de ses collaborateurs, « Bank Underground ».
C'est à l'occasion du référendum sur l'indépendance de l'Écosse, organisé le 18 septembre 2014, qu'une équipe de spécialistes de l'analyse de données à testé une nouvelle approche du sondage d'opinion, basée sur l'analyse en temps réel des conversations sur les réseaux sociaux. Plus précisément, elle souhaitait déterminer si elle était en mesure de prédire une panique bancaire en cas de victoire du oui, en utilisant seulement les messages émis sur le site de micro-blogging Twitter.
Pourquoi ce choix de Twitter ? En deux mots, parce que ses contenus sont extrêmement riches tout en étant relativement faciles à exploiter. En dépit de leur limitation à 140 caractères, les 6 000 gazouillis postés chaque seconde dans le monde représentent ainsi une matière première inépuisable, facilement accessible et adaptée à une exploitation sur les sujets les plus pointus. De plus, son flux continu, 24 heures sur 24 et 7 jours sur 7, offre une perspective extraordinaire sur la dynamique des opinions.
Ces seuls atouts dépassent largement toutes les possibilités des médias traditionnels (indicateurs de marché, presse, enquêtes…). À ceux-là, il faut encore ajouter les éléments de contexte fournis avec beaucoup des messages publiés sur les réseaux sociaux, qu'il s'agisse de références (liens vers des articles de journaux, citations de personnalités influentes…) ou d'information de localisation (grâce aux tweets géo-marqués), qui permettent d'approfondir à loisir les premiers résultats de l'étude.
La théorie est séduisante mais le passage à la pratique n'est pas sans écueil. Outre la non représentativité statistique des utilisateurs de Twitter, il n'est en effet pas si simple d'interpréter correctement les contenus, en raison de la diversité et de la prolixité de la plate-forme. Même avec l'approche simple adoptée par l'équipe de la Banque d'Angleterre – basée essentiellement sur la recherche combinée du mot « run » (comme dans « bank run ») avec des grandes enseignes de banques –, des perturbations ont été enregistrées (notamment autour de « RBs », lors d'une rencontre sportive aux États-Unis !).
Ces difficultés – et d'autres (dont l'impératif de garantir la confidentialité de la recherche, pour ne pas déclencher la panique sur laquelle elle porte) – font partie des enseignements que retire l'institution de son expérimentation. Au-delà de ce galop d'essai, ses « data scientists » s'inspirent de travaux académiques, par exemple sur la détection de tendances dans le marché de l'emploi (avec des références plutôt convaincantes) pour envisager la suite de leurs explorations et affiner leur méthodologie.