Sur la base de vidéos et de séries télés, le MIT a entraîné un algorithme afin qu’il anticipe les interactions humaines.
La prédiction de l’intelligence artificielle par visualisation devient un peu plus efficiente : des chercheurs du MIT ont créé un algorithme afin qu’il anticipe les comportements humains.
Pour cela, les scientifiques l’ont testé sur 600 heures de vidéos YouTube et de séries télé en demandant à l’algorithme de reconnaître quatre types d’interactions : les baisers, les accolades, les poignées de main et enfin les high-five «tope-là». L’algorithme a aussi appris à anticiper l’apparition d’objets à l’écran, comme une tasse de café dans une cuisine. Deux méthodes ont été utilisées pour entraîner l’algorithme. La première consiste en la captation de chaque pixel par l’AI, qui se servira de cette base de données pour créer une future possible image, pixel par pixel. La seconde s’appuie sur l'étiquetage de scènes vidéos par les humains, afin que l’AI repère des images similaires.
Résultat, l’algorithme a su prédire la bonne interaction 43 % du temps, soit 7 % de plus que les méthodes antérieures. Au niveau des objets, la machine a détecté 30 % plus souvent le bon objet. Des chiffres positifs quand on sait que même l’être humain, pourtant généralement aguerri par l’expérience de vie, n’anticipe la bonne interaction que 71 % du temps. En effet, la subjectivité est un élément à prendre en compte et que les chercheurs ont aussi retrouvé dans leur étude : en faisant fonctionner quatre réseaux algorithmiques en même temps sur une même scène, trois ont prédit un baiser tandis que le dernier a prédit une accolade, s’appuyant sur le fait qu’un tiers personnage était entré dans la pièce.
Le but de cette innovation est de prédire des tâches de plus en plus complexes afin d’utiliser la technologie dans un cadre concret. Le premier domaine d’application serait la surveillance, où l’on pourrait imaginer des caméras de sécurité qui contacteraient les secours en observant une personne en mauvaise posture.