ChatGPT : des pouvoirs de vision par ordinateur dignes des films !

ByMaria Rodriguez

Avr 17, 2025

OpenAI a récemment étonné tout le monde avec les nouvelles fonctionnalités de génération d’images de ChatGPT, qui ont fait le buzz il y a quelques semaines. Il est important de rappeler que ce chatbot ne se limite pas à créer des images à partir de simples phrases ; il est également capable de comprendre des images. ChatGPT a acquis des capacités multimodales en mai dernier, ce qui inclut la possibilité d’analyser des fichiers, y compris des images.

En avance rapide vers la récente annonce des versions o3 et o4-mini d’OpenAI cette semaine, ChatGPT a bénéficié d’une mise à niveau majeur en matière d’images. Cela dépasse aisément sa capacité à générer des deepfakes de célébrités ou des photos dans le style du Studio Ghibli.

Les nouveaux modèles de raisonnement de ChatGPT (o3 et o4-mini) peuvent analyser une image et l’intégrer dans leur chaîne de réflexion lorsqu’ils répondent à une question ou à une demande. L’IA manipule elle-même les images, ce qui signifie qu’elle peut faire pivoter, recadrer et zoomer sur une photo pour trouver l’information recherchée.

C’est ce qui s’apparente le plus à la vision par ordinateur que l’on voit si souvent dans les films. Vous savez, quand le héros du film demande à un technicien d’améliorer une image floue, et que l’ordinateur rend tout d’un coup limpide. Cela ne peut se produire dans la réalité (bon, en quelque sorte), mais des IA comme ChatGPT o3 et o4-mini peuvent désormais mieux comprendre les images et leur contenu que jamais. Elles sont capables de donner un sens à des détails flous, tout comme les ordinateurs dans ces films.

En tant qu’utilisateur de ChatGPT Plus, j’ai déjà eu accès à o3 et o4-mini, ce qui est étonnant, étant donné que je vis en Europe. Je n’ai pas encore eu l’occasion d’essayer cette nouvelle fonctionnalité de raisonnement visuel, mais après avoir visionné les démonstrations d’OpenAI, j’ai été impressionné. Voici quelques exemples :

Sommaire

Que dit le carnet ?

Dans cette démonstration, OpenAI a téléchargé une photo d’un carnet sur ChatGPT o3 en lui demandant : « Que dit le carnet ? »

ChatGPT o3 analysant un carnet à l'envers.

L’IA a retourné l’image, a reconnu l’écriture manuscrite et a produit la réponse.

Que dit le panneau ?

Lorsque j’ai vu l’image suivante, j’ai demandé immédiatement : « Quel panneau ? »

Ensuite, j’ai vu ChatGPT zoomer pour trouver la réponse, ce qu’il a réussi à faire. Je dois admettre que je pourrais avoir inventé ce texte moi-même après avoir suffisamment zoomé. Mais cela sera encore plus rapide si l’IA peut le détecter par elle-même.

Quelle est cette station ?

Pour répondre à cette question, « quelle est cette station, et quelle est la fréquence des bus à cette station ? recherchez sur Internet si besoin ! », ChatGPT o3 devait faire plus que zoomer sur une photo.

L’IA devait déterminer l’emplacement, lire une partie du texte visible sur le panneau, puis fournir une réponse finale.

Quels films ont été tournés ici ?

Tout aussi impressionnante est la démonstration suivante proposée par OpenAI. L’IA a reçu une photo prise à travers une fenêtre et lui a été demandé quels films avaient été tournés à cet endroit.

ChatGPT peut-il regarder par la fenêtre et comprendre ce qu'il voit ?

Il a d’abord fallu déterminer l’emplacement en regardant par la fenêtre, puis trouver les films qui auraient pu être tournés dans ce secteur en consultant Internet.

Je n’attends pas de la nouvelle capacité de raisonnement visuel de ChatGPT qu’elle fonctionne parfaitement à chaque fois. Cependant, si l’IA peut traiter des images dans son raisonnement comme le suggèrent ces démonstrations de chez OpenAI, nous pourrions assister à des fonctionnalités incroyables pour les chatbots AI. Et en effet, les capacités de raisonnement visuel de l’IA devraient s’améliorer significativement avec les futurs modèles.

Points à retenir

OpenAI a récemment amélioré les capacités multimodales de ChatGPT, lui permettant de comprendre et de manipuler des images.
Les versions o3 et o4-mini offrent un raisonnement visuel avancé, facilitant des interactions plus complexes avec les utilisateurs.
Les exemples démontrent le potentiel de l’IA pour répondre à des questions concernant des images, offrant ainsi de nouvelles perspectives d’utilisation.

Cette avancée technologique soulève des questions importantes sur l’avenir de l’intelligence artificielle et sur le rôle que les créateurs humains jouent dans ce paysage en constante évolution. Une réflexion sur l’équilibre entre l’innovation technologique et la préservation de la créativité humaine est désormais nécessaire.

By Maria Rodriguez

Maria est Journaliste Trilingue indépendante depuis 2015, elle intervient sur LesNews Le Web est à nous dans les univers : International, Economie, Politique, Culture et d'autres faits de Société

Articles de la même catégorie

ChatGPT

ChatGPT : des pouvoirs de vision par ordinateur dignes des films !

ByMaria Rodriguez

Que dit le carnet ?

Que dit le panneau ?

Quelle est cette station ?

Quels films ont été tournés ici ?

Points à retenir

By Maria Rodriguez

Articles de la même catégorie

Que se passe-t-il avec ChatGPT-5 ? Les utilisateurs disent qu’il a changé !

L’Inde lance le commerce en ligne avec des chatbots AI : ChatGPT, Gemini et Claude en tête!

Tech à la Une : ChatGPT et les Idées Cadeaux de Noël

Laisser un commentaire Annuler la réponse

Ne ratez pas

Pirelli confirme : pas de retour du pneu C6 en Formule 1 pour la saison 2027 !

Les zones d’ombre du nouveau traité de Gibraltar : enjeux politiques, juridiques, fiscaux et territoriaux à éclaircir !

Coupe du Monde 2030 : Quand et où se déroulera-t-elle, et dans quels pays ?

Légende du MotoGP, Valentino Rossi vise la couronne des débuts au Nürburgring 24 !