Segmenter les tweets fait ressortir les sujets de discussion principaux

Publié le 30 octobre 2012 par Pnordey @latelier

Pour mieux exploiter les informations partagées sur Twitter, des chercheurs ont mis au point un système permettant d'extraire les grands thèmes d'un discours, et de les classer.

Pour en apprendre plus sur un événement, les réseaux sociaux peuvent donner des clés de compréhension avec les commentaires des internautes en direct. Toutefois, cela génère une énorme quantité d'informations qui est difficile à traiter sur Twitter. Pour faciliter le travail d'investigation des journalistes, mais également la narration d'un événement, des chercheurs* ont mis au point ET-LDA, une approche qui extrait les idées principales automatiquement en les classant en deux catégories, les tweets épisodiques répondant au contenu des événements (c'est-à-dire concernant l'une des grandes thématiques abordées) et les tweets réguliers qui traitent de l'événement dans sa globalité.

Formation de groupes de sujets

Pour ce faire, le système analyse tout d'abord les tweets et leur sens lors d'un moment donné, en prenant en compte le volume de tweets en fonction de la durée d'un événement, les mots-clés contenus dans le tweet, la relation entre les followers et les hashtags. Puis, les sujets principaux sont modélisés grâce à la méthode dite "allocation de Dirichlet latente" qui va permettre d'observer les similitudes entre les idées et de former des groupes. Toutefois, cette méthode appliquée à des documents courts comme les tweets ne suffit pas toujours à bien modéliser les idées. Pour y remédier, les chercheurs ont étendu le champ des tweets pour augmenter les informations liées à leur contexte, notamment en utilisant Wikipédia pour enrichir les micromessages. Ce processus permet de segmenter les tweets, d'extraire les sujets.

Le discours de Barack Obama analysé sur Twitter

A travers une étude orientée utilisateur, les chercheurs ont démontré que ceux-ci ont trouvé que les tweets proposés par ET-LDA étaient de meilleure qualité et plus intéressants que les listes de tweets de Twitter, avec une amélioration de l'ordre de 18 à 41%. Les chercheurs ont également mené une expérience sur un événement, le discours du Président Obama au Moyen-Orient. Les internautes ont réagi et cela a généré plus de 22 000 tweets en une heure en mai 2011. Le hashtag utilisé était #MESpeech et les mots les plus utilisés ont été quantifiés et classés dans des segments. Le système a fait ressortir les sujets sur l'événement : Moyen-Orient et pays arabes, sécurité et terrorisme, le conflit Israëlo-Palestinien.

* YUHENG HU, Arizona State University, AJITA JOHN, Avaya Labs, FEI WANG, IBM T. J. Watson Research Lab, DOREE DUNCAN SELIGMANN, Avaya Labs, SUBBARAO KAMBHAMPATI, Arizona State University.  ET-LDA: Joint Topic Modeling For Aligning, Analyzing and Sensemaking of Public Events and Their Twitter Feeds