Une étude du M.I.T. ouvre une nouvelle voie dans la mise en œuvre de solutions liées à la protection et à l’exploitation des données. Leurs investigations montrent que les entreprises pourraient désormais permettre à leurs équipes Data Science et Advanced Analytics de travailler sur des données artificielles, afin de faire progresser la recherche dans des domaines aussi variés que ceux de la santé, des études climatiques, des transports, de l’énergie, de la finance…
Ceci en utilisant des techniques adaptées à la fois à des masses de données sans précédent et aux exigences nouvelles de confidentialité.
A l’heure où la transformation numérique est inscrite sur la feuille de route de la majorité des grandes entreprises, la donnée – avec les techniques qu’elle réclame (I) et les perspectives métiers qu’elle ouvre (II) – s’impose au cœur de leur stratégie. Ces entreprises ont bien conscience que leur potentiel d’innovation, de perfectionnement, de diversification et donc leur aptitude à se réinventer et à survivre, dépend de leur capacité à adopter des solutions de Data Analytics (1).
1 Exabyte équivaut à 36000 années de vidéo HD
Chaque jour, nous produisons 2,5 Exabytes de données (soit la capacité de 150 millions de Smartphones).
D’ici à 2025, le volume total de données dans le monde pourrait représenter 163 Zettabytes (2). A ce stade, il devient plus difficile de concevoir ce que cela représente, mais essayons tout de même : une clé USB standard correspond à 32 Gigabytes. Un Zettabyte, représente 44 millions de million de Gigabytes. La tentation d’abdiquer, face à l’énormité du défi que représente la valorisation de toutes ces données est grande.
Se résigner à « jeter » toujours plus de données dans un système d’informations, c’est perdre en valeur tout en alimentant un véritable marécage (Data Swamp) plutôt qu’un Data Lake.
Ainsi, 60% des projets Big Data échouent ou sont abandonnés (3) – alors que le potentiel que représente la valeur enfouie dans les données de l’écosystème de l’entreprise est énorme ! Non seulement cette valeur demande à être exploitée mais très souvent, elle demande même à être reconnue. Il ne faut pas oublier que 90 % des données existantes aujourd’hui sont récentes : elles ont été créées ces deux dernières années. Cependant, si la plupart des grandes entreprises entreprennent des projets Big Data Analytics, une étude menée sur un panel de 1800 compagnies Européennes et Nord Américaine révèle que 4% seulement voient leurs initiatives couronnées de succès (4).
Les solutions qui émergent désormais face à ces problématiques pourraient provenir des ressources récentes de l’informatique cognitive. L’informatique cognitive ouvre une ère nouvelle avec en outre des perspectives particulièrement séduisantes en matière de protection des données et de confidentialité.
L’informatique cognitive (Cognitive Computing) est tout simplement la simulation des processus de pensée humaine dans un modèle informatisé.
Nous savons que les entreprises doivent produire rapidement des données de qualité pour résister à la concurrence de sorte qu’elles doivent maintenant se tourner vers le développement de systèmes de données cognitifs.
Il s’agit de « mettre à profit les données pour créer des systèmes intelligents et apprenants qui vont seconder l’humain dans des techniques de réflexion, de recherche et d’analyse complexes afin de lui suggérer des options crédibles et opérationnelles. » (5)
Les Systèmes de Données Cognitifs sont donc des systèmes complexes de traitement de l’information, capables d’acquérir, mettre en œuvre et transmettre des connaissances, qui assemblent des actions comme la Perception, le Calcul et le Raisonnement. Ces systèmes s’appuient sur des disciplines scientifiques aussi variées que la Linguistique, les Neurosciences et l’Intelligence Artificielle.
Ces systèmes devront aussi prendre en compte le respect de la confidentialité qui devient un enjeu majeur.
Les équipes Data doivent désormais répondre aux contraintes fortes qu’impose le respect de la confidentialité des données.
Les règles internationales de protection des données – et plus particulièrement la réglementation Européenne (GDPR) – obligent les entreprises à déterminer, notamment, les informations qu’elles partagent avec des tiers, et surtout à protéger la confidentialité des données personnelles contre les risques de vol, de divulgation ou contre toute autre compromission.
En conformité avec ces règles (III), les Data Scientists, les Développeurs et même les équipes Métier ne doivent plus travailler sur des données réelles, des données personnelles ni des données sensibles.
Mais alors, désormais, comment extraire la valeur des données ? Comment établir des modèles ? Comment procéder à des prédictions ?
Le Data Masking – technique qui consiste à cacher les caractères originaux par des caractères aléatoires – peut apporter un début de solution. Huit entreprises sur dix font du Data Masking « maison » pour protéger leurs données sensibles (6). En simplifiant, on peut dire que cela repose principalement sur des principes basiques de cryptage, de mélange et de substitution.
Si ces techniques rendent effectivement les informations incompréhensibles et si elles permettent de protéger la confidentialité des données – comme des numéros de comptes bancaires par exemple – il demeure que les appliquer à un Data Warehouse dans son
ensemble reste peu envisageable. Cela rendrait souvent les données inexploitables à des analystes dont la tâche serait, par exemple, de construire des modèles prédictifs.
La solution est manifestement ailleurs. Les chercheurs du MIT continuent d’ouvrir des pistes.
“Les entreprises peuvent maintenant, à partir de leurs Data Warehouse ou de leurs Bases de Données, produire des données synthétiques” K. Veeramachaneni – Laboratory for Information and Decision Systems (LIDS) MIT. (7)
Dans un livre blanc « The Synthetic data vault (SDV) » (7), des chercheurs du M.I.T., membres du Data to AI lab, décrivent un système qui reposerait sur le Machine Learning et permettrait de produire des données de synthèse, c’est-à-dire des données artificielles.
L’idée est donc de s’affranchir des contraintes des données réelles liées à la confidentialité, pour permettre aux professionnels des data (Data Scientists, Développeurs, Analystes, Statisticiens …) d’exploiter pleinement les données, de les soumettre à tous types de tests, modèles et analyses, et même de les partager avec des tiers.
Leur démarche consiste à modéliser des bases de données dans le but de produire par la suite des échantillons (samples), des séries de données (data set), voire des bases de données complètes, constituées de données artificielles. Il s’agit de produire des données qui auraient les mêmes propriétés que celles des bases d’origine, mais qui présenteraient l’énorme avantage d’être affranchies des caractéristiques qui les rendent, soit personnelles, sensibles ou privées. Cette démarche va bien au delà de précédentes recherches dans ce domaine qui s’étaient limitées à la production d’échantillons et de statistiques. Ces méthodes avaient le défaut de réduire le spectre des applications possibles puisque les données perdaient de ce fait leur diversité, leur richesse et leurs volumes.
Le SDV (Synthetic data vault) quant à lui, est un système qui produit des modèles servant à générer des bases de données synthétiques.
Il procède à des itérations à travers toutes les relations possibles afin de créer un modèle pour des bases de données entières. Une approche nouvelle de modélisation multi variée permet enfin de synthétiser les données par échantillonnage (8).
Cette solution a été mise à l’épreuve de façon concrète. Une quarantaine de Data Scientists répartis en différents groupes de travail ont pu élaborer de modèles prédictifs soit sur des données réelles, soit sur des données synthétisées. En comparant les résultats, il a été démontré que les données synthétiques peuvent remplacer avec succès des données réelles (8).
A ce jour, si la production de données artificielles est à même de résoudre les problèmes liés à la confidentialité des données, elle peut aussi s’avérer un atout non négligeable dans la réussite de projets Big Data Analytics dans la mesure où cette technique évolutive (scalable) permet tout aussi bien de synthétiser de petit volumes de données à des fins de tests précis, que de gros volumes de données pour travailler en conditions réelles, répondant ainsi aux exigences soumises aux Data Scientists et aux Analystes.
Ces Artificial Data seraient-elles la clé à la tant attendue de la démocratisation des données ?
Sources :
1. EMC/Cap Gemini : Stay on top of big data or become irrelevant, 2. IDC : The Evolution of Data to Life-Critical, 3. CMSWIRE.com : Operationalize Your Data Like Your Life Depends On It, 4. CIO.com : Study reveals that most companies are failing at big data, 5. Qu’est ce que l’informatique cognitive – Bertrand Duperrin, 6. IDC : Copy Data Management, 7. NEWS.MIT.edu : Artificial data give the same results as real data, 8. MIT White Paper : The Synthetic data vault.
I – telles que Hadoop, NoSQL, In-Memory Computing, Cloud Computing, Deep Learning…
II- Il s’agit par exemple de la Transformation Numérique, de la conception de nouveaux Business Model, la rationalisation des coûts.
III- Le GDPR pour « General Data Protection Regulation » ou règlement général sur la protection des données (personnelles) est le dernier règlement européen devant entrer en vigueur en mai 2018. Le dispositif prévoit notamment des obligations renforcées de protection des données détenues, des dispositifs relatifs à l’expression du consentement de la collecte et le développement de la notion de portabilité.