mer. Juin 24th, 2026

OpenAI a récemment étonné tout le monde avec les nouvelles fonctionnalités de génération d’images de ChatGPT, qui ont fait le buzz il y a quelques semaines. Il est important de rappeler que ce chatbot ne se limite pas à créer des images à partir de simples phrases ; il est également capable de comprendre des images. ChatGPT a acquis des capacités multimodales en mai dernier, ce qui inclut la possibilité d’analyser des fichiers, y compris des images.

En avance rapide vers la récente annonce des versions o3 et o4-mini d’OpenAI cette semaine, ChatGPT a bénéficié d’une mise à niveau majeur en matière d’images. Cela dépasse aisément sa capacité à générer des deepfakes de célébrités ou des photos dans le style du Studio Ghibli.

Les nouveaux modèles de raisonnement de ChatGPT (o3 et o4-mini) peuvent analyser une image et l’intégrer dans leur chaîne de réflexion lorsqu’ils répondent à une question ou à une demande. L’IA manipule elle-même les images, ce qui signifie qu’elle peut faire pivoter, recadrer et zoomer sur une photo pour trouver l’information recherchée.

C’est ce qui s’apparente le plus à la vision par ordinateur que l’on voit si souvent dans les films. Vous savez, quand le héros du film demande à un technicien d’améliorer une image floue, et que l’ordinateur rend tout d’un coup limpide. Cela ne peut se produire dans la réalité (bon, en quelque sorte), mais des IA comme ChatGPT o3 et o4-mini peuvent désormais mieux comprendre les images et leur contenu que jamais. Elles sont capables de donner un sens à des détails flous, tout comme les ordinateurs dans ces films.

En tant qu’utilisateur de ChatGPT Plus, j’ai déjà eu accès à o3 et o4-mini, ce qui est étonnant, étant donné que je vis en Europe. Je n’ai pas encore eu l’occasion d’essayer cette nouvelle fonctionnalité de raisonnement visuel, mais après avoir visionné les démonstrations d’OpenAI, j’ai été impressionné. Voici quelques exemples :

Que dit le carnet ?

Dans cette démonstration, OpenAI a téléchargé une photo d’un carnet sur ChatGPT o3 en lui demandant : « Que dit le carnet ? »

ChatGPT o3 analysant un carnet à l'envers.

L’IA a retourné l’image, a reconnu l’écriture manuscrite et a produit la réponse.

Que dit le panneau ?

Lorsque j’ai vu l’image suivante, j’ai demandé immédiatement : « Quel panneau ? »

Pouvez-vous repérer le panneau ?

Ensuite, j’ai vu ChatGPT zoomer pour trouver la réponse, ce qu’il a réussi à faire. Je dois admettre que je pourrais avoir inventé ce texte moi-même après avoir suffisamment zoomé. Mais cela sera encore plus rapide si l’IA peut le détecter par elle-même.

Quelle est cette station ?

Pour répondre à cette question, « quelle est cette station, et quelle est la fréquence des bus à cette station ? recherchez sur Internet si besoin ! », ChatGPT o3 devait faire plus que zoomer sur une photo.

Une demande plus difficile.

L’IA devait déterminer l’emplacement, lire une partie du texte visible sur le panneau, puis fournir une réponse finale.

Quels films ont été tournés ici ?

Tout aussi impressionnante est la démonstration suivante proposée par OpenAI. L’IA a reçu une photo prise à travers une fenêtre et lui a été demandé quels films avaient été tournés à cet endroit.

ChatGPT peut-il regarder par la fenêtre et comprendre ce qu'il voit ?

Il a d’abord fallu déterminer l’emplacement en regardant par la fenêtre, puis trouver les films qui auraient pu être tournés dans ce secteur en consultant Internet.

Voici la liste des films.

Je n’attends pas de la nouvelle capacité de raisonnement visuel de ChatGPT qu’elle fonctionne parfaitement à chaque fois. Cependant, si l’IA peut traiter des images dans son raisonnement comme le suggèrent ces démonstrations de chez OpenAI, nous pourrions assister à des fonctionnalités incroyables pour les chatbots AI. Et en effet, les capacités de raisonnement visuel de l’IA devraient s’améliorer significativement avec les futurs modèles.

Points à retenir

  • OpenAI a récemment amélioré les capacités multimodales de ChatGPT, lui permettant de comprendre et de manipuler des images.
  • Les versions o3 et o4-mini offrent un raisonnement visuel avancé, facilitant des interactions plus complexes avec les utilisateurs.
  • Les exemples démontrent le potentiel de l’IA pour répondre à des questions concernant des images, offrant ainsi de nouvelles perspectives d’utilisation.

Cette avancée technologique soulève des questions importantes sur l’avenir de l’intelligence artificielle et sur le rôle que les créateurs humains jouent dans ce paysage en constante évolution. Une réflexion sur l’équilibre entre l’innovation technologique et la préservation de la créativité humaine est désormais nécessaire.


Partager : X Facebook WhatsApp LinkedIn Reddit

By Maria Rodriguez

Maria est Journaliste Trilingue indépendante depuis 2015, elle intervient sur LesNews Le Web est à nous dans les univers : International, Economie, Politique, Culture et d'autres faits de Société

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *