Traduire les images en mots via le "machine learning"

En entraînant un algorithme de "machine learning", les ingénieurs de Google son parvenus à traduire les composantes d’une image en langage texte intelligible.

Le "machine-learning", ou apprentissage automatique permettant à une machine d’évoluer, est aujourd’hui un domaine d’étude principal de l’intelligence artificielle. Les GAFA se sont emparés de ce domaine, Google en tête. Ce dernier a créé un département quasiment dédié à cela, le Google X Lab. Le géant d’Internet n’hésite pas non plus à investir dans le secteur. En témoignent les acquisitions de Deep Mind, la société spécialisée en "Deep Learning", de Dark Blue Labs et Vision Factory. Facebook, a son Facebook AI Lab, chapeauté par le français Yann LeCun, voulant trouver des applications diverses au concept de "machine-learning". Ce domaine trouve déjà des champs d’application variées, de la prédiction des monnaies virtuelles à la reconnaissance visuelle sur smartphone. Google est pour sa part, parvenu à entraîner des algorithmes capables de traduire des scènes d’images en langage texte.

Modéliser les mots en ensemble de vecteurs

A la base de cette innovation se trouve un principe mathématique de traduction. L’approche traditionnelle de la traduction est de traduire "littéralement" tous les mots du texte, puis de les réordonner de façon à ce que la phrase proposée soit intelligible dans une langue précise. Mais Google a revu cette technique depuis quelques années au profit de la modélisation des mots par des vecteurs. Le principe est simple : compter la fréquence à laquelle certains mots apparaissent les uns à côté des autres et modéliser leurs corrélations dans un espace vectoriel. Chaque mot est alors un vecteur; une phrase est un ensemble de vecteurs. Par exemple, certains mots peuvent être traduits sous la forme de vecteurs dans n’importe quel langage : "king - man + woman = queen". C’est cette technique qu’utilise Google pour traduire les images en langage texte.

Le but est d’étudier un réseau de 100 000 images et leurs légendes afin de classer le contenu des images. L’idée est ensuite de produire un vecteur représentant la relation entre les mots pour chaque image. Cet algorithme peut enfin être directement intégré dans le logiciel de Google Traduction afin de traduire ce vecteur de mots dans tous les langages disponibles sur Google et ainsi de produire des légendes intelligibles, des descriptions de l’image en somme.