MapD est une start-up basée à San Francisco, elle est spécialisée dans la création de grandes bases de données ainsi que de leurs manipulations et visualisations rapides.
La société a été crée en 2013 après que son fondateur, alors étudiant à Harvard, soit frustré qu’une seule requête (sur des centaines de millions de tweets) prenne des jours a être traitée pour sa thèse qui portait sur les printemps arabes.
Elle a pour investisseurs, entre autres, Google Ventures et Nvidia.
Afin de montrer ce dont elle est capable, la start-up vient de mettre en ligne une démo publique qui mérite d’être testée: TweetMap.
C’est une carte du monde représentant 60 millions de tweets géo-codés entre novembre 2014 et février 2015.
Petite précision: seuls 1 à 2% des tweets sont autorisés à être géo-codés par leurs utilisateurs (souvent à partir des smartphones) et seul un échantillon de 10% de ces tweets apparaissent sur la carte (soit 0.2% de l’ensemble des tweets envoyés sur la période).
Cette carte permet donc à peine d’effleurer le flux Twitter….
Chaque point coloré de la carte représente un tweet, la couleur peut représenter la langue comme ci-dessus ou bien le système d’exploitation de l’appareil émetteur du tweet comme ci-dessous.
Il semble d’un coup d’œil qu’ios soit le plus populaire en Angleterre, android le plus populaire en Espagne et la France entre les deux par exemple.
A droite de la page apparaissent les hashtags les plus populaires à l’échelle mondiale et, le plus intéressant, ces hashtags se mettent à jour en fonction du zoom.
Par exemple ci-dessous les hashatgs les plus populaires dans la zone de Saint-Dié des Vosges:
Ce zoom géographique peut s’accompagner d’un zoom temporel en sélectionnant en bas de la page le début et la fin de la période à analyser. C’est très pratique pour l’analyse, rapide, simple et efficace d’un événement d’un événement précis.
Un exemple: Qu’est-ce qui a été tweeté et quels étaient les hashatgs les plus populaires dans le 11e arrondissement autour de la rédaction de Charlie Hebdo le 7 janvier 2015 ?
Il est également possible en cliquant sur « Choropleth » à gauche de voir la densité géographique de l’usage d’un mot-clé ou d’un hastag. Ici #CharlieHebdo Le 7 janvier 2015 dans le monde:
On peut voir la densité en valeur absolue ou en valeur relative au sein de la population, cela ne donne pas les mêmes cartes ni les mêmes éléments d’information.
On voit également les hastags les plus en lien avec un hashatg recherché ce qui peut révéler des différences entre pays ou zones géographiques.
Un exemple: Une recherche sur #Daesh en France propose #ei et surtout #isis comme hashatgs proches, #Daesh n’est pas proposé lorsque l’on zoome sur l’Angleterre avec le hastag #Isis. Un dé-zoom montre qu’effectivement #Daesh est un terme utilisé quasiment uniquement en France.
Conclusion: Cet outil, accessible ici, montre la facilité et la rapidité avec laquelle il est possible de traiter une grande quantité de données et leur donner du sens. La base de données de la démo couvre une période courte et souffre d’un handicap majeur qui concerne toutes les bases de données de tweets géolocalisés: elles sont de très faible qualité (en particulier en France). Pour faire court et caricaturale: une grande proportion de personnes laissant la géolocalisation de leurs tweets sont des adolescents, One Directions et Kev Adams sont donc surreprésentés.
Néanmoins, dans la quantité, il est possible d’en tirer des choses intéressantes.
MapD prévoit d’élargir la base de données voire de brancher le flux Twitter en temps réel.
PS: Dans la même idée d’outils, nous avons onemilliontweetmap.com qui donne la carte du dernier million de tweets envoyés.