Magazine Culture

Cartographie des travailleurs du Web

Publié le 04 juin 2015 par Tetue @tetue

Où l'on découvre que l'accessibilité apparaît en bonne place sur la cartographie des travailleurs du Web…

Nous naviguons chaque jour à travers le Web, allant de page en page via les liens hypertextes. Cet espace, pour virtuel qu'il soit, peut être représenté. Le Web est un énorme graphe [1], c'est-à-dire un ensemble de nœuds (les pages) et d'arcs reliant ces nœuds (les hyperliens).

Un peu plus de 20 ans après l'apparition de la première page, le Web compte près d'un milliard de sites et encore davantage de pages et de liens hypertextes : trop vaste pour être représenté dans son intégralité ! Cependant, on peut explorer une petite portion du Web pour la cartographier. Pour l'exemple, Alexis Jacomy a choisi de cartographier une portion limitée du Web, celle des travailleurs du Web francophones.

Cela commence par la recherche des sources, sur la base de trois requêtes — « développeurs web », « intégrateurs web » et « designer web » — soumises à un crawler [2], qui explore l'intégralité du territoire ainsi défini. Les données brutes, récoltées au terme d'un crawl d'une semaine, sont ensuite traitées pour en faire émerger des regroupements et du sens. Quatre groupes se dégagent…


Cartographie des travailleurs du Web

Comment représenter visuellement le territoire ainsi exploré ? Comme pour les cartes géographiques, la cartographie du Web pose des problèmes de projection. Ici, la « centralité » identifie les nœuds les plus importants, parce que souvent liés, que l'on croise donc souvent si l'on se promène aléatoirement sur le réseau, autrement dit influenceurs. La distance entre deux nœuds est fonction du nombre de nœuds nécessaires pour les relier.

Cartographier ainsi le Web permet de visualiser et détecter des communautés. C'est ainsi que, bien qu'absente des requêtes initiales, l'accessibilité se distingue, comme communauté forte, autour du nœud Paris Web. On s'étonne par contre de ne pas voir semblable communauté autour du JavaScript, sans doute parce que celle-ci est davantage anglophone que francophone. Les sites traitant de JS sont bien présents, mais contrairement aux autres thématiques, ils sont moins nombreux et ne se présentent pas tous regroupés de manière assez dense pour émerger en tant que communauté à part entière explique Alexis.

La méthode n'est pas exempte de subjectivité, précise-t-il, notamment par la formulation des requêtes initiales et le nommage final des groupes émergeants, mais elle permet néanmoins de voir le Web différemment, d'y reconnaître certaines formes redondantes et d'identifier des communautés.

L'autre biais, non des moindres, est notre interprétation de regardeurs. Ce n'est qu'une carte des liens ! Plus que les affinités réelles, ce sont les hyperliens (sortants comme entrants) qui la dessinent. De la même façon que le ciel étoilé que l'on regarde la nuit nous renvoie une image déjà passée, cette carte témoigne des liens tissés au fil des ans [3], et non pas de nos perspectives ni de notre actualité. Enfin, elle ne montre pas les travailleurs du Web dans leur activité, ni dans leur exhaustivité, mais seulement leurs préoccupations partagées via leurs publications… pour celleux qui publient. Bref, c'est le Web, pas les personnes :)

Ceci dit, c'est assez émouvant de voir ce que nous avons construit, cette toile que nous avons tissée…


Voir en ligne : http://jacomyal.github.io/sudweb-20...

Cette carte est réalisée avec les outils opensource Gephi puis Hyphe et enfin sigma.js.

Ce travail a été présenté à Codeurs en Seine 2014 et à SudWeb 2015, par Alexis Jacomy, ingénieur en informatique qui développe des outils de cartographie des réseaux sur le Web.


[1] Un graphe est un ensemble de points, dont certaines paires sont directement reliées par un (ou plusieurs) lien(s). Pour en savoir plus : théorie des graphes.

[2] L'exploration s'effectue au moyen d'un crawler, c'est-à-dire un robot d'indexation, comme GoogleBot. Ce logiciel qui explore automatiquement le Web est conçu pour collecter les ressources, afin de les indexer.

[3] impression de voir une photographie de la communauté d'il y a 10 ans, étrange s'étonne @emmanuelc.


Retour à La Une de Logo Paperblog

A propos de l’auteur


Tetue 1200 partages Voir son profil
Voir son blog

l'auteur n'a pas encore renseigné son compte