Ce que l’on appelle la multi-vue est un moyen de relier deux signaux différents en considérant les informations qu’ils partagent sur le même objet malgré les différences. Les vues multiples peuvent ouvrir la voie à des machines capables d’avoir une perception plus riche de la structure du monde, contribuant peut-être à l’objectif de machines capables de « raisonner » et de « planifier ».
Tiernan Ray et DALL*E, “”Portraits encadrés de multiples vues d’une pomme”
L’intelligence artificielle dans sa forme la plus aboutie – des choses comme ChatGPT ou AlphaFold de DeepMind pour prédire les protéines — a été piégé dans une dimension manifestement étroite : l’IA voit les choses d’un seul côté, comme un mot, comme une image, comme une coordonnée dans l’espace — comme n’importe quel type de données, mais une seule à la fois. .
Dans très peu de temps, les réseaux de neurones sont sur le point de se développer de manière spectaculaire grâce à une fusion de formes de données qui examineront la vie sous de nombreux angles. Il s’agit d’une évolution importante, car elle pourrait donner aux réseaux neuronaux une meilleure base sur la manière dont le monde est cohérent, sur la façon dont les choses tiennent ensemble, ce qui pourrait être une étape importante dans le mouvement vers des programmes capables un jour d’effectuer ce que vous appelleriez un « raisonnement ». » et « planification » sur le monde.
Aussi: Meta dévoile un traducteur parole-parole « transparent »
La vague à venir de données multifaces trouve ses racines dans des années d’études menées par des scientifiques en apprentissage automatique et est généralement appelée « multi-vues » ou, alternativement, fusion de données. Il existe même une revue académique dédiée au sujet, appelée Fusion d’informationspublié par le géant de l’édition scientifique Elsevier.
L’idée profonde de la fusion de données est que tout ce que l’on essaie d’examiner dans le monde présente plusieurs facettes à la fois. Une page Web, par exemple, contient à la fois le texte que vous voyez à l’œil nu et le texte d’ancrage qui renvoie à cette page, ou même un troisième élément, le code HTML et CSS sous-jacent qui constitue la structure de la page.
Une image d’une personne peut avoir à la fois une étiquette pour le nom de la personne et également les pixels de l’image. Une vidéo comporte une image vidéo mais également le clip audio accompagnant cette image.
Les programmes d’IA d’aujourd’hui traitent des données aussi variées comme des informations distinctes sur le monde, avec peu ou pas de lien entre elles. Même lorsque les réseaux neuronaux gèrent plusieurs types de données, tels que du texte et de l’audio, tout ce qu’ils font est de traiter ces ensembles de données simultanément : ils ne relient pas explicitement plusieurs types de données en sachant qu’il s’agit de vues du même objet.
Par exemple, Meta Properties – propriétaire de Facebook, Instagram et WhatsApp – a dévoilé mardi son dernier effort en traduction automatique, un tour de force dans l’utilisation de multiples modalités de données. Le programme, SeamlessM4T, est formé simultanément sur les données vocales et les données textuelles, et peut générer à la fois du texte et de l’audio pour n’importe quelle tâche.
Mais SeamlessM4T ne perçoit pas chaque unité de chaque signal comme une facette du même objet.
Aussi: Le générateur d’images IA de Meta indique que la langue peut être tout ce dont vous avez besoin
Cette vision fracturée des choses commence à changer. Dans un article publié récemment par Ravid Shwartz-Ziv, professeur adjoint et professeur à l’Université de New York, et Yann LeCun, scientifique en chef de l’IA chez Meta, le duo discute de l’objectif d’utiliser le multi-vue pour enrichir les réseaux neuronaux d’apprentissage profond en représentant des objets sous plusieurs perspectives. .
Les objets sont divisés en signaux sans rapport dans les réseaux neuronaux profonds d’aujourd’hui. La prochaine vague de multimodalité, employant des images, des sons, du texte, des nuages de points, des réseaux de graphiques et de nombreux autres types de signaux, pourrait commencer à élaborer un modèle plus riche de la structure des choses.
Tiernan Ray et DALL*E, “Une pomme regardant son reflet dans un grand miroir carré au cadre doré élégant.”
Dans cet article hautement technique et plutôt théorique, publié sur le serveur de pré-impression arXiv en avrilShwartz-Ziv et LeCun écrivent que « le succès de l’apprentissage profond dans divers domaines d’application a conduit à un intérêt croissant pour les méthodes multi-vues profondes, qui ont donné des résultats prometteurs ».
Le multi-vue se dirige vers un moment décisif, alors que les réseaux neuronaux de plus en plus grands d’aujourd’hui, tels que SeamlessM4T, adoptent de plus en plus de modalités, connues sous le nom d’IA « multimodale ».
Aussi: Les meilleurs chatbots IA de 2023 : ChatGPT et alternatives
L’avenir de l’IA dite générative, des programmes tels que ChatGPT et Stable Diffusion, combineront une pléthore de modalités en un seul programme, comprenant non seulement du texte, des images et des vidéos, mais aussi des nuages de points et des graphiques de connaissances, voire des données bioinformatiques. , et bien d’autres vues d’une scène ou d’un objet.
Les nombreuses modalités différentes offrent potentiellement des milliers de « vues » des choses, des vues qui pourraient contenir des informations mutuelles, ce qui pourrait constituer une approche très riche pour comprendre le monde. Mais cela soulève aussi des défis.
La clé du multi-vue dans les réseaux neuronaux profonds est un concept que Shwartz-Ziv et d’autres ont émis l’hypothèse d’un « goulot d’étranglement de l’information ». Le goulot d’étranglement de l’information devient problématique à mesure que le nombre de modalités augmente.
Le goulot d’étranglement de l’information est un concept clé de l’apprentissage automatique. Dans les couches cachées d’un réseau profond, pense-t-on, l’entrée du réseau est réduite aux éléments les plus essentiels pour produire une reconstruction de l’entrée, une forme de compression et de décompression.
Tiernan Ray et DALL*E, “bouteille en verre couchée sur le côté, vue latérale”+”plusieurs pommes”+”pomme verte”+”et il y a une autre pomme en verre translucide vert à droite de la bouteille”
Dans un goulot d’étranglement d’informations, plusieurs entrées sont combinées dans une « représentation » qui extrait les détails saillants partagés par les entrées sous forme de différentes vues du même objet. Dans un deuxième temps, cette représentation est ensuite réduite à une forme compressée qui contient uniquement les éléments essentiels de l’entrée nécessaires pour prédire une sortie correspondant à cet objet. Ce processus d’accumulation d’informations mutuelles, puis de suppression ou de compression de tout, sauf l’essentiel, constitue le goulot d’étranglement de l’information.
Le défi du multi-vue dans les grands réseaux multimodaux est de savoir quelles informations provenant de toutes les différentes vues sont essentielles pour les nombreuses tâches qu’un réseau neuronal géant effectuera avec toutes ces différentes modalités.
Aussi: Vous pouvez créer votre propre chatbot IA avec cet outil glisser-déposer
À titre d’exemple simple, un réseau de neurones effectuant une tâche textuelle telle que ChatGPT, produisant des phrases de texte, pourrait tomber en panne lorsqu’il doit également, par exemple, produire des images, si les détails pertinents pour cette dernière tâche ont été ignorés au cours de l’exécution. étape de compression.
Comme l’écrivent Shwartz-Ziv et LeCun : «[S]Séparer les informations en composants pertinents et non pertinents devient un défi, conduisant souvent à des performances sous-optimales.
Il n’y a pas encore de réponse claire à ce problème, affirment les chercheurs. Cela nécessitera des recherches plus approfondies ; en particulier, redéfinir la multi-vue de quelque chose qui inclut seulement deux vues différentes d’un objet à éventuellement plusieurs vues.
“Pour garantir l’optimalité de cet objectif, nous devons étendre l’hypothèse multivue pour inclure plus de deux vues”, écrivent-ils. En particulier, l’approche traditionnelle du multi-vue suppose « que les informations pertinentes sont partagées entre toutes les différentes vues et tâches, ce qui pourrait être trop restrictif », ajoutent-ils. Il se peut que les points de vue ne partagent que certaines informations dans certains contextes.
Aussi: C’est ainsi que l’IA générative va améliorer l’économie des petits boulots
“En conséquence”, concluent-ils, “il est essentiel de définir et d’analyser une version plus raffinée de cette solution naïve”.
Il ne fait aucun doute que l’essor de la multimodalité poussera la science du multi-vision à concevoir de nouvelles solutions. L’explosion de la multimodalité dans la pratique entraînera de nouvelles avancées théoriques pour l’IA.
to www.zdnet.com
Abonnez-vous à notre page Facebook: https://www.facebook.com/mycamer.net
Pour recevoir l’actualité sur vos téléphones à partir de l’application Telegram cliquez ici: https://t.me/+KMdLTc0qS6ZkMGI0
Nous ecrire par Whatsapp : Whatsapp +44 7476844931