Des chercheurs américains rendent possibles la lecture et l’identification d’actions en cours de réalisation. Appliqué au domaine médical, cet algorithme permettrait de déceler les bons et mauvais gestes des patients.
Les algorithmes d’intelligence artificielle parviennent aujourd’hui à détecter un visage parmi une foule ou identifier les émotions d’une personne grâce à la reconnaissance d’images. Mais lorsque plusieurs actions sont réalisées, les programmes informatiques ne sont pas toujours efficaces pour les identifier. Deux chercheurs du MIT et de l’UC Irvine ont mis au point un nouvel algorithme pour identifier une action lorsqu’elle est en train d’être réalisée. Pour ce faire, l’algorithme s’appuie sur le traitement automatique du langage naturel, discipline informatique proposant des techniques pour analyser le langage humain. Déjà utilisé pour la reconnaissance de la voix dans des applications comme Siri ou Google Voice, ce système permet désormais de reconnaître efficacement des actions réalisées dans une vidéo.
Comprendre la structure grammaticale d’une action
Pour comprendre le fonctionnement de l’algorithme qui décrypte les différentes actions réalisées, il faut tout d’abord comprendre qu’une même action est composée de plusieurs sous-actions. Ces sous-actions peuvent être considérées comme des éléments grammaticaux qui forment une phrase, c’est-à-dire l’action principale. Hamed Pirsiavash, associé post-doctoral au MIT, explique en effet qu’il voit une analogie entre une phrase grammaticale et une action : "si nous avons une action complexe comme préparer du thé ou café, cette action sera composée de sous-actions qui peuvent être chacune considérées comme un élément grammatical : verbe, adjectif, adverbe." Les chercheurs ont donc eu recours à une segmentation et à une classification de ces éléments grammaticaux pour l’étude des vidéos. L’avantage de cet algorithme est qu’il procède à une analyse en temps réel et n’attend pas la fin de la vidéo pour émettre des hypothèses de reconnaissance des actions. Celles-ci sont classées par ordre de probabilité et sont modifiées à mesure que la vidéo avance pour éliminer les hypothèses ne correspondant pas à la structure grammaticale de l’action.
Identifier les actions pour aider les patients
Pour le moment, l’algorithme a été testé sur huit différents types d’efforts physiques allant de la levée d’haltères au bowling, via des vidéos extraites de Youtube. Le système est parvenu à identifier de nouvelles structures grammaticales, et ce, de manière plus précise que d’autres algorithmes de reconnaissance de mouvement et d’actions. Hamed Pirsiavash souhaiterait appliquer cet algorithme au domaine médical. Il pourrait venir aider les patients lors de thérapies physiques, en vérifiant si les gestes sont bien exécutés, ou encore déterminer si les patients âgés se souviennent de prendre leurs médicaments et leur envoyer une alerte s’ils l’oublient.