Dark analytics : les entreprises à l’assaut du deep web

Publié le 29 mai 2017 par Pnordey @latelier

La dernière étude Deloitte incite les entreprises à s'intéresser de près à la nouvelle matière noire que constituent les données issues du deep web. Mais quelles opportunités et quels risques ce nouveau business fait-il émerger ?

Le cyberespace est un univers d'information et de données aux horizons gigantesques. Au-delà des réseaux Internet, utilisés par la grande majorité des usagers, se cachent d'autres espaces plus confidentiels qui constituent la face cachée de l'iceberg cybernétique. Parmi eux, se dissimule ce qu'on appelle communément le " deep web ", c'est-à-dire tous les contenus et données qui ne sont pas indexés par les moteurs de recherche. On l'appelle " web profond " pour une raison bien simple : ces données cachées sont difficilement accessibles par les robots d'indexation classiques car elles nécessitent un chemin long, en d'autres termes, un nombre conséquent de clic, avant d'être découvertes. Or, les robots classiques suivent des protocoles traditionnels qui ne vont pas jusque-là. Pourtant, le deep web représenterait 96% de l'intégralité du web, ce qui en fait une potentielle mine d'or pour tous les acteurs du big data.

Dans ses " Tech Trends 2017 ", le cabinet d'étude Deloitte prévoit que " les dark analytics feront parler les données muettes : celles que les entreprises n'exploitent pas à l'heure actuelle, les données non structurées (images, sons) et celles qui sont cachées dans les tréfonds du deep web, ignoré par les moteurs de recherche classiques ". Si ces nouvelles données peuvent représenter une véritable mine d'or pour les entreprises - l'étude évoque des " gains de productivité de 430 milliards de dollars au niveau mondial " d'ici à 2020 - cela n'est pas sans poser quelques questions de fond, notamment sur l'intérêt pour les entreprises d'approfondir les big data et celle, essentielle, de la protection des données personnelles.

Anatomie du deep web

Qu'est-ce que le deep web ? Pour le comprendre il convient de faire une anatomie plus large, celle d'Internet. On utilise beaucoup Internet sans pourtant nécessairement en comprendre et en saisir l'intégralité de ses contours et de ses promesses. Dans l'ère du tout numérique, il est cependant fondamental d'élaborer une anatomie, sinon une géographie d'usage, d'Internet. Nombreux sont ceux qui confondent encore Internet avec le World Wide Web. Pourtant le second n'est qu'une des applications possible du premier. Internet est avant tout une structure informatique organisée en réseaux autonomes de communication numérique qui nous permet, aux quatre coins du monde, d'échanger toutes sortes d'informations. Il y a donc le Web, qui permet grâce à un navigateur, d'accéder à toute une variété de sites et à côté, d'autres utilisations d'Internet comme le mail, les messageries instantanées ou les réseaux de partages peer to peer.

Le Web est une structure organisé en réseaux hypertextes qui permet la circulation de données sur des réseaux publics mondialement partagés. Or, il n'en existe pas un seul mais plusieurs : d'abord le web visible ou surfacique et le web invisible ou caché. Le Web visible, le fameux " World Wide Web ", est composé de toutes les pages indexées par les moteurs de recherche et donc directement visibles par tout utilisateur. Le web caché, le " deep web ", n'est pas indexé par les moteurs de recherche et ce pour plusieurs raisons. Dans leur ouvrage intitulé " The Invisible Web ", Chris Sherman et Gary Price, deux experts en informatique américains, identifient quatre différentes sortes de deep web. Il y a d'abord, le web opaque, qui représente toute les pages qui pourraient potentiellement être indexées mais qui ne le sont pas. Vient ensuite le web privé, qui regroupe les pages web disponibles et donc potentiellement indexables mais dont le propriétaire a volontairement bloqué l'accès par un mot de passe ou autre système de protection pour garder les contenus secrets. C'est notamment le cas, des clouds personnels de type Dropbox ou Google Drive. Ensuite, le web dit propriétaire qui nécessite un code d'accès et une identification des utilisateurs. Par exemple, des pages d'espaces personnels (bancaires, commerciaux...) ou certains forums. Enfin, le web invisible échappe techniquement aux moteurs de recherche qui n'en reconnaissent pas le format. C'est notamment le cas du Darknet qui nécessite un logiciel spécifique (comme le navigateur " Tor ") pour accéder à ses contenus.

En résumé donc, le deep web fait partie du Web profond, il est potentiellement visible et/ou indexable, mais ne l'est pas dans les faits pour les raisons exposées précédemment. Pourtant, le volume des données qu'il contient est 500 fois plus important que celui du Web surfacique. On comprend bien alors, à l'ère du Big Data, l'intérêt potentiel que peuvent représenter ces données pour les entreprises.

Les Dark data, nouveaux trésors des profondeurs

Quelles données contient réellement le deep web ? En effet, avant de parler de l'intérêt potentiel de leur exploitation, il est essentiel de savoir ce qu'elles sont, ce qu'elles portent, ce qu'elles témoignent. Si certaines peuvent s'avérer extrêmement précieuses, toutes les données du deep web ne sont pas forcément intéressantes à traiter. Notamment celles qui ne contiennent que des scripts et des séries de formats illisibles. Il en existe cependant deux sortes qui pourraient particulièrement intéresser les organisations : les données internes cachées et le " dark social ".

Les données internes cachées sont définies par l'institut de recherche technologique Gartner comme l'ensemble des données internes stockées ou non dans les systèmes de l'entreprise et qui ne sont pas exploitées car jugées non-pertinentes - des documents, des photos ou vidéos, des rapports d'entreprise ou des évaluations. Ces données dormantes peuvent être d'une grande aide pour l'organisation en ce qu'elles témoignent du fonctionnement interne normal de l'entreprise. Elles regroupent notamment les informations d'identification, les emails, les données statistiques internes ou encore les données administratives quantitatives ou qualitatives de fonctionnement, comme les notes de frais ou le nombre de réunions effectuées, qui peuvent à première vue sembler pauvres en renseignement. Or, croiser ces données dans une analyse macro peut aider l'entreprise à rationaliser et à optimiser son fonctionnement interne, mais aussi à épauler le manager dans la définition de ses objectifs.

D'autres données sont encore plus précieuses à exploiter : celles issues du " dark social ". A première vue, le terme peut faire peur, mais il caractérise finalement une réalité pour la majorité des utilisateurs. Sous l'emprise du Web 3.0, les applications de messagerie sociale ou de forums, comme WhatsApp ou Facebook Messenger, prennent une place de plus en plus importante dans nos manières de communiquer. Or, ces espaces de diffusion sont à la croisée du public et du privé. Il s'agit de salons de discussion et d'échanges privés hébergés sur une plateforme d'intermédiation publique. En ce sens, ils ne relèvent plus du World Wide Web mais du deep web, l'accès étant assujetti à un mot de passe ou d'une autorisation. C'est pourquoi ce contenu est appelé " dark social " par opposition aux données publiques échangées sur les réseaux sociaux de façon ouverte. Le dark social relève donc de l'invisible, il n'est pas indexé sur les moteurs de recherche, mais génère énormément de données. D'après une étude menée par The Atlantic, la part du dark social dans l'ensemble des échanges sur les réseaux sociaux atteindrait plus de 56%. Une très large majorité.

Or, si le dark social regroupe les données des applications de messagerie, les e-mails, les applications mobiles natives et les pages de navigation sécurisées, ces données cachées le sont pour une raison : l'intimité, au sens fort du terme. Or, pour les entreprises, notamment celles qui diffusent des contenus marketing ou d'influence, les ressources du dark social sont très importantes à mesurer, puisqu'elles dépassent la part visible de potentielles cibles touchées et engagées par ces contenus. Aussi, parce qu'il permettrait dans l'absolu d'acquérir une connaissance extrêmement fine et personnalisé des clients potentiels et donc aiderait l'organisation à agir avec plus de finesse dans ses stratégies de markéting et d'influence. Il ressort, de plus, d'une étude de Radium One intitulée " The Dark side of Mobile sharing " que le dark social toucherait des cibles difficiles à capter dans le web surfacique, la catégorie des consommateurs de plus de 55 ans qui compterait pour près de 46% des utilisateurs de messageries privées, dans quasiment tous les secteurs. C'est pourquoi les marques sont de plus en plus nombreuses à développer des stratégies de communication directement en messagerie privée.

Les dark analytics au-delà du big data

Pour que ces données apportent une valeur à l'entreprise, elles doivent être captées, enregistrées, croisées et analysées. Collecter des données internes à l'entreprise implique de mettre en place des process de regroupement et de communication de ces données internes : notamment consigner ces données régulièrement dans des bases de données ou utiliser les applications et outils numériques qui pourraient fournir des données intéressantes, notamment les applications de réservation de salle, de type Juxter, qui pourraient constituer un bon capteur de données sur le nombre de réunion, leur durée...

Aussi de nombreuses entreprises comme Deep Web Technologies commencent à élaborer des prototypes de moteurs de recherche destinés aux entreprises facilitant l'accès aux données, qu'elles soient structurées ou non, contenues dans le deep web. Car le véritable intérêt in fine pour les entreprises, c'est avant tout d'affiner au maximum leur veille stratégique. Le rapport Tech Trends de Deloitte donne des pistes de réflexion sur la question. Il énonce notamment qu' " une exploration de l'univers des données non structurées devrait leur permettre de dépasser les limites de la revue quotidienne des données opérationnelles traditionnelles pour révéler des caractéristiques cachées utiles aux métiers ou aux opérations ". Les dark analytics seraient aussi une formidable source de revenu pour les entreprises. Selon l'IDC, l'extraction et la compréhension des dark data pourraient représenter des gains de productivité cumulés de plus de 430 milliards de dollars d'ici à 2020.

Données cachées, données privées !

Toutefois, dans le business certes très lucratif du big data, tout n'est pas permis. Il est extrêmement important de garder à l'esprit, pour les entreprises comme pour les particuliers, que les données qui transitent sur les réseaux, que ce soit du web, du deep web ou du Darknet font partie intégrante de notre identité numérique. En ce sens, les données partagées, qu'elles le soient de manière consciente ou non, n'appartiennent pas aux organisations mais aux individus qui les diffusent. Pour Isabelle Falque-Pierrotin, présidente de la CNIL, les données bien que " confiées " à des plateformes ou à des organisations, n'appartiennent pas aux entreprises, elles ne peuvent donc pas en faire n'importe quoi. C'est une question de respect de la vie privée, qui figure comme l'un des droits fondamentaux les plus intangibles de l'être humain. D'autant qu'à l'ère d'un capitalisme numérique qui réduit toujours plus les frontières entre vie privée et vie publique, l'immixtion des entreprises dans les forums intimes que sont les messageries sms, email ou de plateforme parait presque insupportable.

Le deep web n'est pas profond par hasard. Cette qualité témoigne d'une volonté des utilisateurs de protéger leurs données, directement ou indirectement. Deloitte précise que " les "dark analytics" s'intéressent principalement aux données alphanumériques brutes non encore analysées, en mettant l'accent sur les données non structurées, ce qui inclut les SMS, les e-mails, les documents contenant du texte, les fichiers audio, photo et vidéo ". On se rend bien compte alors des problématiques de respect de la vie privée sous-tendues. Alors que l'Europe a consacré le principe du " secret des affaires " pour les entreprises, il apparaît plus que difficile pour ces mêmes organisations de partir en croisade jusque dans l'intimité des conversations de leurs clients. C'est encore plus vrai, concernant les " dark analytics " internes à une entreprise. Il est très difficile pour les managers d'étendre la surveillance des salariés aussi loin. Le big data ne doit pas se transformer en " big brother ". Car en réduisant toujours plus le champ du privé pour les utilisateurs et les clients, on réduit nécessairement le champ du secret pour les managers et les organisations. Et ni les uns, ni les autres, n'ont d'intérêt à perdre le contrôle de leurs sphères intimes et privées. Encore une fois, il s'agit d'un droit fondamental tenant à la nature humaine. Cela dit, une analyse des données du deep web respectueuse de la vie privée des individus reste possible. C'est dans cette voie qu'il convient alors d'aller. Car comme l'énonçait le fameux dicton : " Pour vivre heureux, vivons cachés "