Dossier intelligence artificielle open source #1 DeepDive

Publié le 09 janvier 2015 par Edeation @edeation

Souvenez-vous, en février 2011, IBM avait défrayé la chronique avec Watson, un programme d’intelligence artificielle encore jamais vu, capable de surclasser les meilleurs humains dans le célèbre jeu télévisé américain « Jeopardy », où il est question de répondre à des questions formulées en langue naturelle, un peu comme le jeu « Questions pour un champion » en France. Quelques mois plus tard, les alternatives open source commençaient à poindre le bout de leur nez. Alors, en ce début d’année, j’ai eu l’idée de faire un petit état des lieux des solutions open source actuellement disponibles. Je commence aujourd’hui, fort logiquement, avec DeepDive, qui n’est autre que la version open source de Watson développé par IBM au sein du Defense Advanced Research projets Agency (DARPA).

Le projet DeepDive de la DARPA n’a pas vocation à émuler l’intelligence artificielle de Watson, c’est-à-dire à reproduire les compétences d’un humain en langage naturel (avec la rapidité qu’on lui connait), mais plutôt à améliorer le processus décisionnel au fil du temps avec l’aide humaine. Comme le note Christopher Re, professeur à l’Université du Wisconsin et développeur en chef de DeepDive, « Watson est un moteur de question-réponse là où DeepDive est un programme d’extraction de données structurées à partir de sources de données non structurées ». Et les résultats sont d’ores-et-déjà fort honorables ; comme le déclare Shanan Peters, qui a supervisé les essais, « Nous avons testé DeepDive contre les humains effectuant les mêmes tâches, et DeepDive est sorti gagnant ou au moins à égalité avec les humains ».

DeepDive se veut donc un programme d’exploration de données non structurées, en vue par exemple de classer automatiquement les articles parus dans des revues techniques. Il intègre des algorithmes d’apprentissage très avancés, fondés notamment sur les probabilités, mais aussi des outils open-source comme MADlib, Impala (d’Oracle), ainsi que des techniques de bas niveau, tels que Hogwild. L’implémentation de DeepDive dans une application repose sur une architecture Python/SQL.

En se penchant sur l’avenir de DeepDive, on en vient finalement à se demander jusqu’où peut évoluer un tel programme d’IA, si on lui en donne les moyens. Selon Christopher Re, « Nous pensons que la prochaine génération de DeepDive rendra l’apprentissage des machines beaucoup plus facile à programmer. Nous prévoyons aussi d’entrer plusieurs types de données dans DeepDive : images, figures, tableaux, graphiques, feuilles de calcul — une sorte de « données Omnivore » pour emprunter une formule de Oren Etzioni».

Pour l’heure, le projet DeepDive n’enregistre pas moins de 10 000 téléchargements par semaine. Preuve que le sujet est bouillant. Pour suivre le mouvement, rendez-vous sur deepdive.stanford.edu. Bonne lecture.