Big Data (Best of - Billets parus entre 20/5 et 5/6)
Difficile d’ouvrir un journal traitant de l’économie et des entreprises sans rapidement tomber sur le mot « Big Data ». Est-ce un effet de mode, une sorte de nouvelle contagion informatique, un virus managérial ? Va-t-on voir ce buzz word s’effondrer comme a fait pschitt en son temps, le syndrome du « L’informatique ne passera pas la date du 1-1-2000 » ? Ou est-ce la naissance d'un nouveau monde ? ...
Non, je ne crois vraiment pas. Derrière ce mot quelque peu barbare, se cache – du moins je le pense – une transformation profonde de nos organisations et nos modes de fonctionnement, et probablement bien au-delà de ce que pensent les spécialistes du sujet ! Nous sommes à la veille d’un changement de paradigme…
Aussi ai-je décidé de consacrer une série de billets à ce sujet. Je ne prétends pas avoir une vue exhaustive du sujet, ni encore en maîtriser les conséquences. Prenez simplement ce que je vais écrire dans les jours qui viennent comme une première réflexion, largement à chaud. Peut-être est-ce l’embryon d’un futur livre à venir… Qui sait ?
Mais d’abord, pour ceux qui n’auraient pas encore croisé un quelconque article sur le Big Data, de quoi s’agit-il ?
Il s’agit tout simplement de la capacité de manipuler de plus en plus facilement de très grandes masses de données.
Un des exemples les plus courants est le moteur de recherche qui fait la fortune et le succès de Google : il sait parcourir en quelques secondes la jungle de tout ce qui existe sur Internet pour répondre à la plus fantaisiste des questions que vous vous posez. Et ceci en tenant compte de tout ce qui est constamment mis en ligne. Rien n’est figé, tout est dynamique.
Mais pourquoi donc est-ce si nouveau ?
Les magiciens de la bibliothèque de Babel contemporaine
Commençons par ce que nous expérimentons chaque jour : l’indexation du contenu du web fait par Google. Nous sommes tellement habitués à nous en servir que nous n’y prêtons plus guère attention.
Pourtant, prenez conscience de la puissance informatique nécessaire pour, quasiment en temps réel :
- indexer tout nouveau contenu mis en ligne, et non pas seulement son titre, mais bien la totalité de l’information présente,
- garder en mémoire combien de fois ce contenu a été vu,
- établir un classement de la fréquentation des pages web,
- face à une demande quelconque, parcourir l’ensemble des informations archivées, et proposer en quelques secondes, les réponses les plus pertinentes, ce bien sûr en tenant compte des recherches précédentes effectuées par le demandeur.
Étonnant, non ? Je reste émerveillé de l’efficacité cachée, probablement mon côté enfant…
Impressionnante capacité à manipuler des quantités considérables de données pour en extraire dynamiquement une réponse, ce dans un délai de plus en plus court. Ce d’autant plus que la quantité de ces données croît de manière exponentielle :
- L’ancien PDG de Google, Éric Schmidt, estimait en 2010 que nous produisions tous les deux jours autant d’informations qu’entre le début de la culture humaine et 2003,
- Dans son article introductif au numéro d’avril 2014 de la revue la Jaune et la Rouge, consacré au Big Data, Jean-Pierre Dardayrol indiquait que chaque semaine en 2014 la quantité d’information produite dans le monde est bien supérieure à celle produite depuis l’invention de l’écriture jusqu’en l’an 2000,
- Selon un rapport publié en 2012, IDC prévoyait que d’ici 8 ans, la masse des données serait multipliée par un facteur cinquante
Je repense à une nouvelle de Jorge Luis Borges qui m’a toujours donné le vertige, celle de la Bibliothèque de Babel. Dans cette bibliothèque, se trouvent tous les livres de quatre-cent dix pages, avec quarante lignes par pages, susceptibles d’avoir été ou d’être écrits, dans le passé comme dans le futur. Ils sont répartis sur une quasi infinité d’étagères, dans une quasi infinité d’alvéoles, et des bibliothécaires s’y promènent, prenant en main, de temps en temps, un livre et s’extasiant quand ils tombent sur une phrase qui a un sens. Car, bien sûr, dans cet océan des combinaisons, trouver déjà une phrase qui en a un, est un tour de force.
Avec le Big Data, le cauchemar disparaît, les bibliothécaires se font magiciens, et d’un geste sûr et immédiat, savent saisir instantanément le bon livre dans le dédale contemporain et foisonnant des informations du monde.
Apprendre en observant en temps réel
Nous vivons donc aux temps de l’explosion de la quantité des informations et de la capacité de traitement et de navigation au sein de cette marée montante.
En quoi ceci peut-il donner naissance à un nouveau monde ?
En mai 2012, The Economist a consacré un article sur le lien entre Big Data et les banques, « Crunching the numbers ». Quelques exemples tirés de cet article :
- Lutte contre la fraude : La première utilisation est celle d’identifier la fraude et de repérer en temps réel un client indélicat. Avec le développement des micro-paiements, du commerce en ligne et de la mondialisation des transactions, cette application est de plus en plus complexe.
- Scoring en vue d’attribuer des prêts : créée par un ancien de Google, Zestcash a développé une nouvelle approche intégrant un très grand nombre de données, lui permettant d’accorder des prêts à des clients rejetés par tous les prêteurs classiques.
- Analyse des comportements d’achats pour affiner des offres : si un client a l’habitude de déjeuner souvent dans des restaurants italiens, pourquoi ne pas lui envoyer par sms en fin de matinée des propositions de trattorias voisines ?
Tout ceci pose évidemment de nombreuses questions dans le domaine de la protection de nos données et du secret bancaire…
Dernièrement, Gilles Martin, dans un article publié sur son blog, intitulé « Le progrès par le désordre et l’approximation », insiste sur un autre type de conséquence, celle d’avoir un autre rapport à l’exactitude, et de pouvoir accepter le flou comme outil.
Citant les travaux récents de Viktor Mayer-Schönberger et Kenneth Cukier, dans leur ouvrage « Big Data : a revolution that will transform how we live, work and think », il indique : « C’est pourquoi certains pensent que le monde de la mesure, de la précision de la mesure, qui a permis les progrès au XIXèmesiècle, va être remplacé par le monde des volumes et de l’approximation, des données en désordre, un monde de la datafication. »
Un des exemples qu’il cite est celui de la détermination de l’indice des prix : plutôt que de relever le prix de quelques produits choisis a priori, pourquoi ne pas s’appuyer sur les millions de prix accessibles en ligne via le web ? Les deux chercheurs ont montré que cette méthode rendue possible par l’utilisation d’un logiciel capable d’aller pêcher ces prix et de les analyser, aboutit à un meilleur suivi des phénomènes inflationnistes et déflationnistes. Ceci a débouché sur un projet du MIT, « PriceStats » qui fournit en temps réel un nouvel indice disponible en temps réel.
Et si donc tout ceci nous ramenait au thème de l’émergence ?
Analyser sans a priori
Un indice de suivi de l’évolution des prix qui s’appuie sur ce qui est disponible sur le web, un scoring des clients qui tient compte du comportement observé réel, des publicités qui s’affichent en fonction de ce que l’on a fait la veille ou la semaine dernière, un classement des pages web qui est le résultat direct de la navigation de tout un chacun, bienvenu dans le calcul par émergence du Big Data !
Autre exemple d’émergence « spontanée » d’un indicateur, celui de l’information sur l’apparition de la grippe : Google a montré que, si l’on observe les recherches faites par les internautes, on dispose d’une estimation quasiment en temps réel de la propagation. Il y a en effet une corrélation directe entre le nombre d’internautes qui posent des questions sur la grippe, et l’intensité du phénomène épidémique (voir Google Suivi de la grippe).
Ceci vient en écho et nourrit mes développements sur l’importance de l’émergence, tel que je l’ai fait dans mon dernier livre, les Radeaux de feu.
Autre intérêt de ces modes de calcul par émergence, c’est qu’ils ne partent d’aucun a priori, d’aucune vision préalable du monde et des lois qui le régissent : ce sont les comportements eux-mêmes qui sont observés, et c’est d’eux que découlent les analyses. Donc moins de risques d’erreurs, ce surtout en cas de rupture et d’apparition d’une nouvelle logique.
J’ai encore le souvenir de cet opérateur de télécommunications qui refusait de comprendre au milieu des années 90, que la téléphonie mobile pouvait intéresser des clients résidentiels. Sa vision lui disait que le marché était professionnel, et aucun de ses systèmes de mesure et de calcul n’était tourné vers le grand public…
Plus les visions s’auto-élaborent à partir du réel, et moins nous avons de chances de nous tromper.
Mais cette capacité de l’approche Big Data à remplacer l’expertise pointue par la largesse du recueil des données, me rappelle une autre approche, celle que l’on appelle l’intelligence collective ou la sagesse des foules…
La logique des coopérations informationnelles
La logique des Big Data est de faire émerger une intelligence collective à partir de données qui, prises isolément, n’en auraient pas : grâce à des logiciels ad-hoc, savoir les associer, les lire pour en extraire l’information pertinente, et faire émerger une réponse pertinente.
Je ne peux pas ne pas faire un lien avec la logique des ruches et des fourmilières : prises isolément chaque fourmi ou chaque abeille sont faibles et incapables à faire face aux défis de sa vie quotidienne. C’est grâce à la colle sociale, qu’émerge une puissance collective capable d’apporter des réponses étonnantes :
- Les fourmis de feu savent construire des radeaux vivants qui leur permettent de survivre aux inondations (voir Les fourmis de feu sont sauvées par des radeaux qui les dépassent )
- D’autres ont inventé l’agriculture (voir La fourmi est petite, mais la fourmilière est grande )
- Les abeilles peuvent trouver le meilleur emplacement pour une nouvelle ruche (voir L’agora est dans le ciel ! )
Dans les radeaux de feu, en conclusion de la partie consacrée aux tribus animales, j’écrivais :
« Il est frappant de constater que, tout au long de l’évolution du monde, de nouvelles matriochkas se tissent sans cesse. En parallèle de la loi de l’accélération de l’accroissement de l’incertitude, aurait-on une deuxième qui serait celle de l’accélération de l’accroissement des coopérations ? D’abord des coopérations physiques, puis chimiques, et maintenant informationnelles. Et au sein des coopérations informationnelles, d’abord basiques via des substances chimiques, puis de plus en plus complexes avec les langages et les neurones-miroir. Ces coopérations ne sont pas seulement à l’intérieur d’une espèce donnée, mais aussi entre espèces différentes, donnant alors naissance à des développements symbiotiques comme des végétaux entre eux, ou encore des fourmis avec des arbres ou des champignons, des abeilles avec des fleurs, ou des espèces animales entre elles. »
Avec le Big Data, serions-nous au début d’une nouvelle coopération informationnelle, dans lequel le vivant aurait pour seul rôle d’avoir construit les machines et écrit le programme ?
L’intelligence des foules
Nous ne sommes ni des fourmis, ni des abeilles, et nous sommes persuadés que notre puissance collective repose sur nos différences individuelles et l’association d’expertises personnelles.
Mais est-ce si vrai ?
Divers écrits et travaux de recherche montrent l’intelligence des foules, c’est-à-dire la supériorité d’un réseau d’individus choisis au hasard.
Un des livres les plus complets sur ce thème est celui de James Surowiecki, The wisdom of crowds.
Quelques extraits :
« L’idée de la sagacité des foules prend aussi la décentralisation comme un acquis positif, puisque cela implique si l’on arrive à centrer sur un même problème une communauté de personnes automotivées, indépendantes sur un mode décentralisé, au lieu d’avoir à diriger leurs efforts depuis le sommet, la solution collective apparaîtra meilleure à toute autre solution susceptible de naître. (…)
Et la meilleure façon d’apprécier la pertinence collective de l’information que l’intelligence collective réunit, est la sagacité collective de l’intelligence communautaire. La centralisation n’est pas la réponse, mais l’agrégation oui. (…)
Fondamentalement, après tout, qu’est-ce qu’un marché libre ? C’est un mécanisme construit pour résoudre un problème de coordination, certainement le plus important des problèmes de coordination : allouer les ressources aux bons endroits au meilleur coût. »
Daniel Kahneman, dans Système 1 / Système 2 : Les deux vitesses de la pensée , apporte lui aussi de nombreux exemples de la limite de l’expertise et de la puissance du collectif :
« Les fonds mutuels sont gérés par des professionnels très expérimentés et travailleurs qui achètent et vendent des actions pour obtenir les meilleurs résultats pour leurs clients. Cependant, cinquante ans de recherche sur le sujet le confirment : pour une grande majorité de gestionnaires d'actifs, la sélection des actions tient plus du jeu de dés que du poker. En général, au moins deux fonds communs de placement sur trois sont en dessous des performances de l'ensemble du marché quelle que soit l'année. (…)
(Philip Tetlock, psychologue de l'université de Pennsylvanie,) leur a demandé d'évaluer la probabilité que certains événements se produisent dans un avenir relativement proche, à la fois dans leurs domaines de compétence et dans d'autres. (…) Les experts s'en sont moins bien tirés que s'ils s'étaient contentés d'assigner des probabilités équivalentes à chacun des résultats potentiels. (…) Même dans la région qu'ils connaissaient le mieux, les experts n'étaient pas significativement plus exacts que des non-spécialistes. (…)
Plusieurs études ont montré que les décideurs humains sont inférieurs à une formule de prédiction même quand on leur donne le résultat obtenu par la formule ! Ils se disent qu'ils peuvent passer outre parce qu'ils disposent d'informations supplémentaires, mais là encore, le plus souvent, ils ont tort. »
Finance et intelligence collective
L’intelligence des foules peut-elle réellement rivaliser avec celle des experts ? A cette question, un article paru le 26 mars dernier dans ParisTech Review, Calcul humanoïde : la finance à l’heure de l’intelligence collective, apporte de nouveaux éléments.
Cet article commence par rappeler une expérience issue du passé, celle de l’utilisation des courses de chevaux comme moyen d’améliorer la sélection de la race chevaline :
« On pourrait le qualifier de « calcul humanoïde », ou utiliser l’expression anglaise human computation : pas d’approche théorique, ni bien sûr d’ordinateur, mais une intuition géniale qui consiste à sous-traiter à une foule d’amateurs, éleveurs ou entraîneurs, la résolution d’un problème trop complexe pour des spécialistes. Les courses de chevaux ne sont pas un but mais le moyen d’arriver, par l’épreuve publique, à la sélection des reproducteurs de pur-sang destinés, soit à perpétuer la race, soit à améliorer les autres races indigènes par l’apport de l’influx nerveux »
Puis, il vient au cœur du sujet, en parlant du projet Krabott.
De quoi s’agit-il ? Voici ce qu’il en est dit :
« Il consiste à confier à des amateurs la conception par le jeu de stratégies de trading complexes sur le modèle de Fold-it, en remplaçant l’intelligence de l’ingénieur de salle de marché par une foule d’anonymes plutôt adeptes du poker en ligne ou de jeux comme World of Warcraft que des équations différentielles. Krabott ressemble un peu à un avion dont les passagers prendraient collectivement les commandes pour poser l’appareil… et bien mieux que ne le ferait son pilote. (…)
Lors de nos expérimentations, nous avons ainsi mis en concurrence une machine capable de tester et d’évaluer environ 100 000 stratégies de trading sur une période de neuf mois face à une centaine de joueurs qui ont exploré environ 1000 stratégies manuellement. Le résultat est sans appel, les joueurs, malgré une capacité exploratoire 100 fois moindre, ont créé des stratégies toujours plus performantes que celles des machines. »
Autre observation : seule la collectivité des joueurs est performante. Aucun pris individuellement n’est capable de construire une stratégie pertinente.
Neurones miroirs et tribus sociales
Cet article se termine avec une question qui ouvre le débat : « Il faudra aussi se poser la question de la nature de cette intelligence collective : d’où vient-elle et comment se forme-t-elle ? Le cerveau humain est-il « câblé » pour réfléchir « collectif » ? »
Effectivement…
Je me garderais bien de répondre définitivement à une telle question, mais il est frappant de voir comme depuis l’origine du monde, ce sont les propriétés collectives qui ont été privilégiées, et comme à chaque fois qu’une nouvelle tribu ou ensemble se constituent – ce que j’appelle une poupée russe ou matriochka dans mon livre, Les Radeaux de feu – une nouvelle propriété émerge. Pourquoi l’espèce humaine devrait-elle suivre une autre logique ? Nous faisons partie de ce monde, et les mêmes règles s’appliquent à nous…
Un des puissants « outils » de l’intelligence collective est l’existence des neurones miroirs (1). De quoi s’agit-il ? De neurones qui, sans l’intervention d’un quelconque processus conscient, sont capables de mimer ce que fait l’autre : quand un animal muni de tels neurones, regarde la main d’un autre se déplacer, le mouvement est reproduit dans son cerveau. Il peut donc apprendre en regardant.
Avec la magie des neurones miroirs, c’est l’autre qui s’invite à l’intérieur de ses congénères. Le monde des autres, les sensations qui l’habitent, les expériences qu’il a eues, c’est un peu de tout cela qui vit en l’autre : à l’instar de la corde d’une guitare qui se met à vibrer sous l’impulsion de sa voisine pour peu que celle-ci partage avec elle ses caractéristiques propres, les émotions se propagent de l’un à l’autre.
Comme je l’écrivais dans le résumé du chapitre consacré aux tribus animales :
« Grâce à la communication interindividuelle et aux neurones-miroirs, des sociétés naissent. Ces matriochkas sociales sont plus souples, et font émerger des cerveaux collectifs, comme par exemple pour les fourmilières ou les ruches.
Ainsi, lorsqu’un risque d’inondation les menace, les fourmis de feu s’accrochent les unes aux autres pour former un radeau vivant capable d’affronter les flots. Les fourmis savent-elles nager pour autant, et sont-elles individuellement conscientes de ce qu’elles font ? Non, la solution émerge de l’entremêlement de leurs actions individuelles.
En sus des capacités développées par chaque individu, apparaissent des savoir-faire collectifs qui dépassent largement ce que chacun peut faire, en reposant sur la combinaison effective et efficiente des actions individuelles. Chacun est littéralement dépassé par ce à quoi il participe et qu’il contribue à faire exister, sa compréhension n’étant nécessairement que partielle. »
Apprendre à partir de rien
Avant de poursuivre, je voudrais refaire un détour sur la façon dont fonctionne notre cerveau, et sur sa capacité à faire émerger du sens et de la connaissance.
En juin et juillet 2012, j’ai consacré sur mon blog, vingt articles aux travaux de Stanislas Dehaene. Je ne vais pas ici tout reprendre en détail, mais revenir simplement et très rapidement sur ce qu’il appelle le cerveau Bayésien, et ses conséquences.
Qu’est-ce d’abord qu’une inférence Bayésienne ? C’est une forme de probabilité inversée : au lieu de chercher à prévoir le futur à partir du présent, on prévoit quel a pu être le passé qui a conduit au présent. C’est analyser une situation pour en retirer tout ce que l’on peut apprendre d’elle.
Voilà ce que je disais sur ce sujet dans les Radeaux de feu :
« C’est au sein de nos neurones qu’est faite cette projection à partir des connaissances acquises. Inutile de réfléchir consciemment, tout est automatique : à partir de nos données sensorielles et de notre expérience, nous anticipons, et n’arrêtons pas de rêver le monde avant de le vivre. Nous créons au plus profond de nous-mêmes, une vision de ce qui est caché, de ce qui devrait ou pourrait arriver : notre savoir-faire ne nous sert pas seulement à comprendre le monde, mais aussi à penser ce qu’il pourrait devenir. (…)
Mais, comment notre cerveau peut-il induire à partir de presque rien ?
Essentiellement parce qu’il ne se contente pas de tirer des conclusions à partir de ce qu’il observe, mais parce qu’il mobilise des règles apprises dans le passé : il est capable de les transférer et donc de progresser rapidement.
Un exemple simple : quelqu’un vient de tirer successivement deux boules blanches et une noire, et je dois deviner quel est l’objet suivant. Si je n’ai aucune autre information, il est impossible d’avoir une certitude : je sais que cet objet doit pouvoir être contenu dans la boîte, et dans la main où il s’y trouve, mais il est périlleux d’aller plus loin. Maintenant si, par expérience, j’ai appris que ces boîtes ne contiennent toujours que des objets identiques, alors aucun doute à avoir : le prochain objet est nécessairement une boule. Si en plus, je sais qu’il ne peut pas y avoir plus de deux couleurs, je sais qu’elle est blanche ou noire. En couplant la règle acquise par mon expérience avec les nouvelles informations, je suis capable de résoudre le problème.
Tel est le principe du méta-apprentissage : nous apprenons à apprendre, et, chaque progrès nous transforme et facilite l’acquisition future. Nous extrayons naturellement des régularités du monde.
Ce point est essentiel et très nouveau dans la théorie de la cognition : le cerveau de l’enfant n’a pas besoin d’avoir de capacités innées, tout semble pouvoir être acquis par l’expérience. La compréhension initiale serait nulle, elle émergerait progressivement. Il suffit pour cela d’avoir un cerveau capable de repérer des régularités et de calculer des probabilités, ce qui est le cas de nos systèmes neuronaux. »
Quel est donc le lien entre ceci et les Big Data ? Je pense qu’il est essentiel…
Alors Big data ou Real Humans ?
Notre cerveau ne sait rien à la naissance, mais sa structure lui permet d’apprendre, car il peut repérer les similitudes et calculer les probabilités de telle ou telle configuration : dès l’origine, nous sommes capables d’apprendre, et chaque pas franchi facilite le suivant. Nous naissons sans a priori, sans pré-programmation, et c’est au travers des évènements de notre vie que, petit à petit, nous nous forgeons expérience, convictions et savoir-faire.
De même, dans la logique Big Data, il n’y a pas de programmes et de solutions a priori. L’intelligence émerge de cette masse au travers des rapprochements, des différences et des singularités.
D’un côté la masse des expériences archivés et stockés dans notre cerveau, de l’autre celle présente dans les Big Data. C’est la même logique, celle de l’émergence : nos connaissances émergent de nos expériences et de ce qui a été gravé dans notre mémoire, avec l’influence de nos émotions présentes et passées, de notre cerveau intestinal, et même de notre macrobiote (voir ma série d’articles sur l’écosystème de notre corps) : notre « je » est la pointe émergée de notre « Big Data » personnel.
Peut-être demain serons-nous capables de construire des ordinateurs capables eux-aussi comme notre cerveau de repérer les occurrences, les pondérer, en déduire des hypothèses qui seront testées, invalidées, enrichies ou confirmées. Mais est-ce que ce seront encore vraiment des ordinateurs, si, comme nous, ils sont capables d’apprendre à partir de rien, simplement en créant de nouveaux rapprochements, construisant des hypothèses, les validant ou les infirmant ?
Je terminais Les Radeaux de feu avec une question en forme de vertige :
« Peut-on raisonnablement croire que la triple logique de l’accroissement de l’incertitude, de la multiplication des emboîtements et des émergences, s’est arrêtée à nous, l’espèce humaine, et que nous serions le but ultime de ce processus ?
N’est-il pas plus vraisemblable de nous penser à notre tour, emboîtés n-fois dans des matriochkas qui nous dépassent et pour lesquelles nous ne sommes qu’atomes et particules ? Vis-à-vis d’elles, sommes-nous dans la situation des micro-organismes qui nous peuplent et qui, tout en contribuant à notre existence, ne peuvent en aucun cas, accéder à la compréhension et à la perception de ce dont nous sommes capables ? »
Avec le Big Data, sommes-nous en train de donner naissance à un nouvel emboîtement qui pourrait rapidement nous dépasser ? Sommes-nous à l’avant-veille du monde décrit par de nombreux livres de science-fiction, ou plus récemment dans la série télévisée suédoise Real Humans ?
(1) Voir le livre Les Neurones Miroirs de Giacomo Rizzolatti et Corrado Sinigaglia
&g;&g;&g;