Magazine High tech

OpenAI pourrait bientôt lancer GPT-5 — voici ce que nous savons sur le modèle de nouvelle génération

Publié le 02 août 2024 par Zaebos @MetatroneFR

Les réseaux sociaux sont en ébullition avec des rumeurs concernant une grande annonce d’OpenAI. Ce bouillonnement est en partie dû au succès de Llama 3 de Meta (avec un modèle plus grand prévu pour juillet) et à une série cryptique d’images partagées par le laboratoire d’IA montrant le nombre 22.

Le 22 avril étant l’anniversaire de Sam Altman, le PDG d’OpenAI (il fête ses 39 ans), les spéculations vont bon train. Certains pensent que l’entreprise pourrait dévoiler quelque chose de majeur, comme Sora ou même le très attendu GPT-5.

Si cette rumeur se confirme et que nous obtenons un nouveau modèle d’IA, ce serait un moment marquant pour l’intelligence artificielle. Altman a déjà déclaré que GPT-5 serait « significativement meilleur » que son prédécesseur et qu’il surprendrait les gens.

Que savons-nous de GPT-5 ?

À vrai dire, nous savons très peu de choses sur GPT-5. OpenAI est resté largement discret sur les performances et les fonctionnalités de son prochain modèle. Toutefois, il est fort probable qu’il sera multimodal, c’est-à-dire qu’il pourra prendre en compte plusieurs types d’entrées, pas seulement du texte.

Chaque nouveau modèle de langage d’OpenAI est une amélioration significative par rapport à la génération précédente en termes de raisonnement, de codage, de connaissances et de conversation. GPT-5 ne fera pas exception. En formation depuis la fin de l’année dernière, il pourrait avoir beaucoup plus que les 1,5 trillion de paramètres de GPT-4 ou un nombre similaire avec une architecture sous-jacente plus solide, permettant une amélioration majeure des performances sans augmenter la taille globale du modèle.

Quelles seront les capacités de GPT-5 ?

L’une des plus grandes évolutions possibles avec GPT-5 pourrait être un changement de focus, passant de chatbot à agent. Cela permettrait au modèle d’assigner des tâches à des sous-modèles ou de se connecter à différents services pour effectuer des actions dans le monde réel. Par exemple, il pourrait gérer des appels, réserver des vols ou créer des feuilles de calcul à partir de données collectées ailleurs.

Un usage potentiel pour ces agents est la gestion des tâches quotidiennes. Vous pourriez donner à ChatGPT vos exigences alimentaires, l’accès à la caméra de votre réfrigérateur intelligent et à votre compte de supermarché, et il pourrait automatiquement commander des réapprovisionnements sans votre intervention.

En quoi GPT-5 sera-t-il différent ?

Une des évolutions majeures de GPT-5 pourrait être qu’OpenAI suive Google avec Gemini et donne par défaut l’accès à internet à GPT-5. Cela éliminerait le problème de la coupure des données, où le modèle n’a que des connaissances à jour jusqu’à la date de fin de sa formation.

L’interaction multimodale étendue signifierait également que l’interaction avec GPT-5 par voix, vidéo ou discours deviendrait la norme plutôt qu’une option supplémentaire. Cela faciliterait la transformation de ChatGPT en un assistant intelligent comme Siri ou Google Gemini.

Enfin, la fenêtre de contexte pourrait être beaucoup plus grande qu’elle ne l’est actuellement. Nous voyons déjà certains modèles comme Gemini Pro 1.5 avec une fenêtre de contexte de plus d’un million, ce qui est essentiel pour l’analyse vidéo en raison de l’augmentation des points de données par rapport au texte simple ou à une image fixe.

La montée des robots

L’une des tendances majeures de l’IA générative cette année a été de fournir un cerveau aux robots humanoïdes, leur permettant d’effectuer des tâches par eux-mêmes sans qu’un développeur ait à programmer chaque action et commande au préalable.

OpenAI a beaucoup investi dans la startup de robotique Figure, utilisant GPT-4 pour alimenter la Figure 01. GPT-5 aura probablement des données de conscience spatiale dans sa formation pour rendre cela encore plus fiable et capable, en comprenant comment les humains interagissent avec le monde.

En somme, nous arrivons à un point où nos vies numériques passent entièrement par un filtre IA. Les agents et la multimodalité dans GPT-5 permettent à ces modèles d’IA d’effectuer des tâches en notre nom, et les robots mettent l’IA dans le monde réel.

OpenAI fait face à une concurrence croissante des modèles open source d’entreprises comme Mistral et Meta, ainsi que des concurrents directs comme Anthropic avec Claude et Google avec Gemini. Avant de voir GPT-5, je pense qu’OpenAI sortira une version intermédiaire comme GPT-4.5 avec des données de formation plus à jour, une fenêtre de contexte plus grande et des performances améliorées.


Retour à La Une de Logo Paperblog

A propos de l’auteur


Zaebos 7622 partages Voir son profil
Voir son blog