Internet : la deuxième chute du Jardin d'Éden

Confidentialité à l'ère d'internet : la sphère privée devient de plus en plus difficile à protéger, comme le démontrent de récentes études scientifiques.

Par Frédéric Prost.

Adam et Ève, Rubens.

Adam, Ève et les feuilles de figuier

Dès qu'on lui lâche un peu la bride l'être humain fait des bêtises. Ce n'est pas moi qui le dit, c'est ainsi que commence la Bible. Dans la Genèse, mal conseillés par un animal perfide, leur premier acte d'hommes libres fut de manger le fruit défendu, le fruit de la connaissance du bien et du mal. Une fois la connaissance acquise Adam et Ève commencèrent par s'apercevoir de leur nudité et se couvrirent immédiatement de ceintures faites de feuilles de figuier.

Il est difficile de ne pas voir combien ce passage est prophétique et forme une superbe allégorie de ce que notre société est en train de vivre sous les coups de boutoir des nouvelles technologies de l'information. Internet c'est la connaissance de tout, par tout le monde, et cela de manière quasi instantanée. De la collection de vos statuts Facebook à votre dernière déclaration d'impôt en passant par vos photos de vacances toute votre vie ou presque s'y trouve consignée. D'ailleurs peu importe que ce soit vous qui le fassiez. Même si vous êtes allergiques aux réseaux sociaux et refusez de vous inscrire d'autres s'en chargeront à votre place : par exemple le commerçant qui vous enregistre dans sa base de donnée de clients à fidéliser ou encore EDF qui déploie des compteurs électriques intelligents recensant tout ce que vous faites (du point de vue électrique) et quand vous le faites et peut potentiellement envoyer toutes ces informations sur le réseau, sans oublier l'ami qui vous prend en photo et vous identifie sur celle-ci quand il la dépose sur son compte à lui.

En fait nous sommes tous nus vis-à-vis de cet outil de communication formidable qu'est internet. Nous n'avons pas encore pris conscience de combien ces technologies vont impacter notre vie privée et l'idée que nous nous faisons de la confidentialité. L'illusion d'anonymat qu'offre internet (par exemple avec l’utilisation massive de pseudo ou d'identité d'emprunts) est d'autant plus paradoxale que c'est exactement l'inverse qui se passe actuellement : la sphère privée devient de plus en plus difficile à maîtriser.

Molière, Corneille et la distance intertextuelle

Le problème est plus compliqué qu'il n'y paraît... du fait de la technologie même qui nous apporte cette connaissance globale. Les ordinateurs permettent de traiter une masse inimaginable d'informations et de trouver dans ces informations des structures qui sont tout sauf apparentes ou évidentes. Les récentes avancées sur la controverse Corneille-Molière le montrent bien -- puisque le sujet dont nous traitons est celui de l'anonymat, cet exemple historique de désanonymisation est parfait. En deux mots, depuis l'intuition du poète Pierre Louÿs, il existe une thèse selon laquelle les pièces de Molière furent le fait non pas de Jean-Baptiste Poquelin mais de Pierre Corneille qui les signa sous un faux nom (car étant dramaturge il ne pouvait socialement s'abaisser à produire des farces). En définissant une distance intertextuelle, Cyril et Dominique Labbé arrivent à mesurer le degré de similitude entre deux textes. Pourvu que les textes soient suffisamment longs, ils reconnaissent à coup presque sûr (des tests à l'aveugle de cette méthode n'ont jamais réussi à la faire échouer) ceux dont l'auteur est le même. Les conclusions sont les suivantes : "il est démontré que P. Corneille a écrit toutes les pièces en vers représentées sous le nom de Molière, mais également le Dom Juan et L'Avare, ainsi que les 4/5e du Bourgeois gentilhomme et du Malade imaginaire".

Ainsi la supercherie de Corneille n'aurait pu fonctionner aujourd'hui. La puissance des traitements informatiques arrive à mettre au jour des informations qu'on pourrait croire bien dissimulées.

Droits Miranda : "Tout ce que vous direz pourra être retenu contre vous"

Entre 2006 et 2009, Netflix [¹] a mis en place un concours public dont le but était de prévoir quels films ses utilisateurs allaient aimer. L'idée est la suivante : en se basant sur les notes qu'attribuent les clients aux films et étant donné la liste de ce qu'ils ont vu, peut-on faire des propositions ciblées de films qui conviennent au goût des clients pour de futurs achats ? Pour cela Netflix publiait une base de données contenant les appréciations de 500 000 de ses clients sur son catalogue de films. La base était anonymisée en ce que le nom des clients était remplacé par un chiffre aléatoire. La base contenait autour de 100 millions de notes. Le but du concours était de produire un algorithme qui, étant donné la base publiée et étant donné un ensemble de 2,8 millions de couples utilisateur[²]-film, s'approchait le plus près des notes réellement mises par ces utilisateurs.

A priori il semble impossible de retrouver l'identité des clients en utilisant la base publiée par Netflix car les noms avaient été échangés contre des numéros d'identifications totalement aléatoires. Pourtant A. Naranayan et V. Shmatikov sont arrivés à retrouver jusqu'à 99% d'exactitude l'identité des utilisateurs ayant plus de 8 notes, et même 66% d'exactitude dans le cas où seulement deux notes sont disponibles. Comment ont-ils réalisé ce qui ressemble à un vrai tour de magie ?

Le biais par lequel les chercheurs sont arrivés à infiltrer la base de données est qu'en plus des simples notes pour chaque film Netflix publiait également la date à laquelle ces notes avaient été attribuées. Cela montre clairement que juste enlever les éléments d'identification directe n'est pas suffisant pour assurer l'anonymat quand on dispose d'informations annexes. En l'occurrence Naranayan et Shmatikov ont utilisé les informations de notations du très populaire site Internet Movie Database. Sur IMDB les internautes peuvent laisser des commentaires et leur notes sur les films qu'ils ont vus. Ils ont alors fait le rapprochement entre la date à laquelle étaient notés les films sur la base de données de Netflix et celle à laquelle le même film était noté de manière similaire sur IMDB. Ainsi en faisant varier les intervalles de notes et de dates (car les internautes pouvaient mettre quelques jours entre leurs commentaires sur IMDB et leurs notes sur Netflix), et suivant le nombre de films associés à un numéro dans la base de Netflix (plus il y a de films notés qui correspondent entre les deux bases plus il est facile d'établir l'identité d'une personne), ils sont arrivés à retrouver les noms des consommateurs anonymisés jusqu'à des niveaux de précision incroyable.

Encore plus fort, ils ont montré que même si on ne tient pas compte des dates (c'est-à-dire si on suppose que la base publiée ne contenait pas ces informations) il est toujours possible de désanonymiser une partie importante de la base publiée. Pour cela ils ont utilisé les films "marginaux'', c'est-à-dire ceux qui sont vus par peu de personnes (dans leur expérience, un film était classé marginal s'il n'était pas dans le top 500 des films les plus vus). Ils sont arrivés à retrouver les identités de 84% des utilisateurs ayant 8 notes dont au moins 6 ne font pas partie du top 500.

On peut maintenant se poser la question : est-ce que la perte d'anonymat de Netflix est grave ? On peut en effet considérer dans un premier temps que la divulgation des notes qu'une personne attribue à un film est une information peu sensible. En fait la problématique est plus subtile qu'il n'y paraît au premier abord car ce qui compte n'est pas les notes mais : est-il possible de compromettre la vie privée d'un abonné de Netflix en utilisant la base de donnée publiée pour le concours Netflix ? Et il est clair que la réponse à cette dernière question est oui. En effet il est possible de connaître la liste des films qu'il a empruntés, voire celle qu'il aurait pu probablement emprunter (en utilisant par exemple un algorithme du concours Netflix justement) pour en déduire ses préférences politiques ou bien sexuelles, par exemple en connaissant (par un autre moyen) les préférences d'autres personnes ayant un schéma d'emprunt équivalent. Rien ne vous empêche également d'utiliser d'autres sources d'informations publiques dans lesquelles apparaissent certaines personnes identifiées dans Netflix et par rapprochement d'en déduire des informations sur d'autres utilisateurs de Netflix.

On voit très clairement dans cet exemple de Netflix que la perte de confidentialité est un phénomène de type contagieux. De la même manière que les transports intercontinentaux ont augmenté le risque épidémique (on se rappellera de la vitesse à laquelle des épidémies locales de type H1N1 en 2009, ou grippe aviaire en 2006, se sont répandues sur les cinq continents), les réseaux sociaux multiplient en un sens les possibilités de pertes de confidentialité. C'est de plus un peu comme si les réseaux sociaux se faisaient mutuellement la courte-échelle, le premier sert de base et avec le second on apprend des informations qui ne sont pas dans le premier mais qui permettent à leur tour en réutilisant le premier réseau de déduire des informations qui ne sont pas dans le second etc.

De plus une telle brèche de confidentialité est particulièrement problématique car elle compromet la confidentialité future des utilisateurs de Netflix. Supposez que l'identité d'un consommateur ait été révélée, disons qu'il s'agit de Bob. Ainsi l'attaquant connaît toute la liste des notes que Bob a attribuées à certains films. Ayant appris la fuite d'information, Bob décide de s'inscrire sous un nouveau pseudonyme Eddie. Eddie ne peut plus jamais donner d'informations concernant les films apparaissant dans la liste attribuée à Bob sous peine de voir immédiatement sa nouvelle identité rattachée à celle de Bob. Autrement dit une fois qu'une pièce d'information peut être rattachée à une identité réelle (disons l'identité administrative pour faire simple) alors tout lien entre une identité virtuelle (un pseudonyme) et cette pièce d'information brise l'anonymat associé à ce pseudonyme. Cette pièce d'information devient une partie de votre identité réelle et rend toute tentative d'anonymisation plus difficile pour le futur. C'est un processus purement cumulatif : plus le temps passe et plus il devient difficile de rester anonyme, et cela sans qu'il soit possible de "repartir à zéro''. C'est particulièrement indésirable en terme de sécurité informatique où au contraire on cherche à construire des protocoles qui ne se comportent pas de cette manière : si un adversaire casse une de vos clefs de codage, il ne doit en tirer aucune information utile quand dans le futur vous aller utiliser une nouvelle clef de codage.

Transports modernes, nouvelles technologies et épidémies

Ce qui transparaît dans l'exemple de Netflix est que ce que nous comprenons intuitivement comme étant des données personnelles d'identification, typiquement les données de type démographique comme le nom, l'âge, le sexe, le numéro de sécurité sociale etc., n'est qu'une illusion. En fait toute donnée qui vous est particulière suffit pour vous identifier. Si par exemple on fait la liste des livres que vous possédez, chaque livre en soi ne vous identifie pas, pourtant il est improbable que n'importe qui d'autre que vous ait exactement la même liste de livre chez lui. Donc in fine cette liste peut vous identifier. Le premier souci est que les ordinateurs excellent dans ce type de travail exhaustif. Le second est l'aspect agrégatif des informations : plus on en sait sur quelqu'un plus il devient facile de l'identifier ultérieurement (supposons qu'il s'inscrive quelque part avec un pseudonyme pour protéger son identité).

D'autres techniques encore plus perfectionnées permettent de sortir des corrélations juste en observant des masses gigantesques de données. C'est l'objectif de groupes de recherche comme celui de l'équipe Human Dynamics au MIT Media Lab. Leurs derniers résultats vont de la détection précoce de la maladie de Parkinson en cherchant des motifs dans la tonalité de la voix, les mouvements, les endroits (toutes des informations qui peuvent être récupérées par un téléphone portables) jusqu'à la prédiction du comportement économique des personnes en observant les schémas émergents relatifs aux utilisation de cartes bancaires.

La connaissance avance beaucoup plus vite (c'est une litote) que les pauvres habits que nous sommes en mesure de confectionner (les politiques de confidentialité à géométrie variable dans le temps de Facebook en sont une bonne illustration). Les autoroutes de l'information sont à la perte de confidentialité ce que les transports modernes sont aux épidémies : des accélérateurs. Et si vous pensez que ce n'est pas grave car vous n'avez rien à cacher demandez-vous pourquoi le premier geste d'un être humain muni de libre-arbitre fut de se vêtir ne serait-ce que d'une simple ceinture en feuilles de figuier.

----
Notes :

Netflix est une entreprise proposant des films en flux continu sur Internet. ↩
En fait un numéro d'identification de la base anonymisée. ↩

Magazine Médias

Internet : la deuxième chute du Jardin d'Éden

Adam, Ève et les feuilles de figuier

Molière, Corneille et la distance intertextuelle

Droits Miranda : "Tout ce que vous direz pourra être retenu contre vous"

Transports modernes, nouvelles technologies et épidémies

A propos de l’auteur

Dossiers Paperblog

Magazines

LA COMMUNAUTÉ MÉDIAS

LES JEUX SUR PAPERBLOG.FR