Une étude montre que les meilleurs modèles d’apprentissage visuel échouent aux tests d’identification visuelle les plus basiques

Publié le 15 juillet 2024 par Zaebos @MetatroneFR

La plupart des enfants d’âge préscolaire pourraient réussir ces tests avec brio

En résumé : Les progrès récents des systèmes d’IA ont considérablement amélioré leur capacité à reconnaître et analyser des images complexes. Cependant, une nouvelle étude révèle que de nombreux modèles d’apprentissage visuel de pointe ont du mal à réaliser des tâches visuelles simples que les humains trouvent faciles, comme compter le nombre de lignes et de rangées dans une grille ou le nombre de fois que deux lignes se croisent.

Des chercheurs de l'Université d'Auburn et de l'Université d'Alberta ont récemment publié un article intitulé « Les modèles de langage visuel sont aveugles ». L'étude a utilisé huit tests d'acuité visuelle simples pour mettre en évidence les déficiences des modèles d'apprentissage visuel (VLM). Les tâches comprenaient le comptage de lignes qui se croisent, l'identification de lettres entourées, le comptage de formes imbriquées et d'autres tâches. Ces tests ont des réponses objectivement définitives et nécessitent des connaissances minimales au-delà des formes 2D de base.

Pour éviter que les modèles résolvent ces tâches par mémorisation, les chercheurs ont généré les tests à l’aide d’un code personnalisé plutôt que d’images préexistantes. Ils ont évalué quatre modèles VLM, dont GPT-4o, Gemini-1.5 Pro, Sonnet-3 et Sonnet-3.5. Les résultats ont montré qu’aucun des modèles n’atteignait une précision parfaite et que les performances variaient considérablement en fonction de la tâche.

Par exemple, le modèle le plus performant n'a pu compter que les lignes et les colonnes d'une grille vierge avec une précision inférieure à 60 %. À l'inverse, Gemini-1.5 Pro s'est rapproché du niveau humain en identifiant correctement les lettres entourées dans 93 % des cas.

De plus, même des modifications mineures apportées aux tâches ont entraîné des changements significatifs dans les performances. Alors que tous les modèles pouvaient identifier correctement cinq cercles superposés, la précision tombait en dessous de 50 % lorsque le nombre de cercles augmentait à six ou plus (ci-dessus). Les chercheurs émettent l'hypothèse que la baisse de précision pourrait être due à un biais en faveur des cinq anneaux imbriqués du logo olympique. Certains modèles ont même fourni des réponses absurdes, telles que « 9 », « n » ou « © » pour la lettre entourée dans « Subdermatoglyphic » (ci-dessous).

Ces résultats soulignent une limitation significative de la capacité des VLM à gérer des tâches visuelles abstraites de bas niveau. Ce comportement rappelle des lacunes de capacités similaires dans les grands modèles linguistiques, qui peuvent générer des résumés de texte cohérents mais échouent aux questions de mathématiques et d'orthographe de base. Les chercheurs ont émis l'hypothèse que ces lacunes pourraient provenir de l'incapacité des modèles à généraliser au-delà de leurs données d'entraînement. Cependant, l'ajustement fin d'un modèle avec des images spécifiques de l'une des tâches (le test des deux cercles qui se touchent) n'a amélioré que modestement la précision de 17 à 37 %, ce qui indique que le modèle sur-adapte l'ensemble d'entraînement mais ne parvient pas à généraliser.

Les chercheurs suggèrent que ces lacunes de capacité dans les VLM pourraient être dues à l'approche de « fusion tardive » consistant à intégrer des encodeurs de vision à des modèles de langage pré-entraînés. Ils suggèrent qu'une méthode de « fusion précoce », combinant l'entraînement visuel et linguistique dès le début, pourrait améliorer les performances sur les tâches visuelles de bas niveau. Cependant, ils n'ont pas fourni d'analyse pour étayer cette suggestion.

Vous pouvez consulter les résultats et d’autres exemples sur le site Web de l’équipe.