Magazine High tech

J’ai testé la nouvelle fonctionnalité de vision de ChatGPT-4 avec 7 prompts — le résultat est époustouflant

Publié le 06 août 2024 par Zaebos @MetatroneFR

La technologie ne cesse de nous surprendre, et la dernière mise à jour de ChatGPT-4 ne fait pas exception. OpenAI a récemment dévoilé une fonctionnalité de vision impressionnante qui promet de révolutionner notre interaction avec les images. En tant que passionné de pop culture et de nouvelles technologies, j’ai décidé de mettre cette fonctionnalité à l’épreuve avec sept prompts différents. Spoiler alert : j’ai été bluffé par les résultats.

1. Reconnaissance d’objets

tasse de café rouge fumante

Pour ce premier test, j’ai généré une image d’une tasse de café rouge fumante sur une soucoupe, posée sur une table en bois dans un café flou en arrière-plan. ChatGPT-4 a décrit : “Cette image montre une tasse de café fumant dans une tasse rouge et une soucoupe placée sur une table en bois rustique. L’arrière-plan est flou, dépeignant un cadre intérieur cosy avec des gens assis et conversant dans un café au design unique.” Non seulement la description est précise, mais elle ajoute aussi une touche narrative, rendant la scène encore plus vivante.

2. Reconnaissance de texte (OCR)

panneau en bois usé

L’OCR est une vieille technologie, mais j’ai voulu voir comment GPT-4 se débrouillait avec une image d’un panneau en bois usé portant l’inscription « Welcome to Oakville ». ChatGPT-4 a non seulement lu le texte correctement mais a aussi ajouté : “Le panneau semble vieilli, avec une finition rustique et des signes d’usure, ajoutant à son charme nostalgique. Il est partiellement entouré de verdure, indiquant qu’il pourrait être placé à l’entrée d’une ville ou d’une communauté nommée Oakville.” Impressionnant de détails.

3. Reconnaissance faciale

femme dans la quarantaine

J’ai utilisé une image générée d’une femme dans la quarantaine avec des cheveux noirs et des yeux bruns chaleureux, affichant un sourire amical. ChatGPT-4 a décrit : “Cette image est un portrait en gros plan d’une femme souriante aux cheveux noirs bouclés. Son expression est amicale, avec ses yeux regardant directement la caméra. L’arrière-plan est flou, mettant l’accent sur le sujet.” En demandant plus de détails, il a même estimé son âge et son état émotionnel avec justesse.

4. Détection d’émotions

homme âgé avec une expression rêveuse

Pour ce test, j’ai utilisé l’image d’un homme âgé avec une expression rêveuse. GPT-4 a décrit : “Cette image est un portrait d’un homme âgé assis sur un banc à l’extérieur, probablement dans un parc. L’expression de l’homme est réfléchie, avec une légère touche de mélancolie ou de contemplation.” Une description précise qui capture bien l’émotion de l’image.

5. Compréhension de scènes

scène de marché en plein air

J’ai voulu voir comment GPT-4 décrivait une scène de marché en plein air. Il a brillamment écrit : “Cette image représente un marché de producteurs animé en plein air par une journée ensoleillée. Divers étals sont installés sous des tentes, présentant une abondance de produits frais.” Une description vivante et détaillée.

6. Évaluation de la qualité d’image

images similaires d'un paysage

J’ai généré quatre images similaires d’un paysage mais avec des résolutions et compositions différentes. GPT-4 a décrit chaque image individuellement, notant les variations de lumière et de couleur. Bien qu’il n’ait pas saisi l’objectif du test, sa capacité à comparer et à décrire chaque image était impressionnante.

7. Détection multi-objets

bureau encombré

Pour ce test crucial, j’ai utilisé une image d’un bureau encombré. GPT-4 a parfaitement décrit chaque élément, allant même jusqu’à identifier la position de mes lunettes sur le bureau. Une performance impeccable pour une scène complexe.

Conclusion

Les modèles de vision d’IA ont souvent leurs limites, mais GPT-4o les surmonte avec brio. Sa capacité à traiter des images de manière multimodale change la donne. Imaginez les possibilités avec des lunettes intelligentes, fusionnant le réel et le digital. Oubliez les smartphones, la vision est l’avenir.


Retour à La Une de Logo Paperblog

A propos de l’auteur


Zaebos 7622 partages Voir son profil
Voir son blog