Avant de détecter et désensibiliser les DCP détenues par l’entreprise, il convient déjà de définir de quoi l’on parle. Une donnée à caractère personnel est une information permettant d’identifier une personne physique, autrement dit un nom, une photo, une adresse postale ou email, un numéro de téléphone ou de sécurité sociale, une empreinte digitale, une adresse IP, etc. Pour préserver la vie privée des individus, les entreprises doivent respecter plusieurs engagements tels que la transparence des traitements des DCP, la possibilité d’intervenir sur ces données (les modifier ou les supprimer) mais aussi l’intraçabilité, qui garantit que les DCP ne peuvent pas être liées entre domaines, comme entre un compte bancaire et un dossier médical. Lorsque l’on souhaite traiter des données réelles dans le cadre d’un projet professionnel, comme effectuer des tests d’une application pour valider sa pertinence, il s’agit de rendre ces données anonymes aux personnes qui ne sont pas censées y avoir accès. Prenons comme exemple parlant celui des plateformes de santé sur lesquelles prendre un rendez-vous pour la vaccination anti-Covid. Le contexte du cas d’usage et son caractère sensible sont ainsi à prendre en compte pour maîtriser les risques. La première étape consiste logiquement à cartographier toutes les DCP que l’entreprise stocke dans l’ensemble de ses bases de données, souvent hétérogènes. Procéder de manière non automatique via des métadonnées se révèle rapidement chronophage et ouvre la porte à des approximations, posant la question de la fiabilité de cette méthode sur de grandes masses de données. D’autant plus que la confidentialité n’est pas toujours assurée lorsque l’on traite les données manuellement. Il s’agit donc de procéder en se basant sur une ontologie qui catégorise les DCP en fonction d’attributs définis. Concrètement, on utilisera deux méthodes d’analyse : une première, dite d’expressions régulières, qui repère automatiquement les formes de valeurs spécifiques comme une adresse email ou un numéro de téléphone, et une seconde, quand la première n’est pas possible, qui détecte les DCP en comparant les données avec des bases de référence, telles que la liste des noms en France ou encore des maladies répertoriées. Autant de connaissances qui viendront enrichir l’ontologie et affiner la détection des DCP. On obtiendra ainsi une liste d’attributs pour chaque DCP, que l’on classera en trois types : identifiant (permettant d’identifier directement une personne), quasi-identifiant (permettant d’identifier un groupe de personnes) et sensible (non-identifiante mais à protéger). Une fois détectées, les DCP doivent être « transformées » afin qu’elles ne puissent plus servir à identifier une personne et à révéler certains de ses attributs. Il faudra néanmoins veiller à ce que cette désensibilisation ne dégrade pas trop la qualité de la donnée et donc son utilité. Selon les besoins des différents cas d’usage, on pourra faire appel à deux principaux types de méthodologies puis vérifier leur efficacité. La pseudonymisation consiste à remplacer un identifiant (comme un nom) par un identifiant artificiel ou un pseudonyme. Ce procédé qui masque les identités des personnes avec un système de chiffrement symétrique est totalement réversible pour peu que l’on possède les clés de déchiffrement, stockées séparément et de manière sécurisée. Cette méthode automatique et confidentielle permet de conserver toute la précision et donc la qualité des données pour des cas d’usage d’IA par exemple. L’anonymisation, de son côté, vise à modifier le contenu ou la structure des données de manière irréversible, de sorte qu’il soit impossible d’identifier une personne. La qualité de la donnée s’en trouvant affectée, il s’agira donc de trouver le bon équilibre entre contraintes juridiques et besoins pratiques en consultant un DPO, l’administrateur de base de données et les métiers. Certains cas d’usage nécessitent toutefois une anonymisation forte par défaut, comme l’utilisation de données publiques en Open Data.
Autres articles
-
Atténuer les effets de la crise économique grâce à l’ERP
-
Comment la réalité virtuelle impacte le monde de l'entreprise
-
Soutenir les champions cachés et les héros du commerce mondial
-
Auditer en continu son parc : un élément clé d’une gouvernance sécurité efficace
-
Quelle est l’utilité d’un cachet d’entreprise ?
A propos de l'auteur : Ali Hassan est docteur en Informatique chez Umanis R&I.