Le 16 avril 2025, OpenAI a lancé deux nouveaux modèles d’intelligence artificielle spécialisés dans le raisonnement : o3 et o4-mini. Ces modèles marquent une avancée majeure dans les capacités d’IA de l’entreprise, notamment grâce à leur aptitude à raisonner avec des images.
Ces nouveaux modèles peuvent “penser” avec des images
Selon OpenAI, ces nouveaux modèles peuvent interpréter toute image que vous téléchargez, qu’il s’agisse de croquis sur tableau blanc, de diagrammes de manuels scolaires, ou de fichiers PDF graphiques. L’annonce de la sortie des modèles o3 et o4-mini précise :
Ils ne se contentent pas de voir une image, ils pensent avec elle. Cela ouvre la voie à une nouvelle classe de résolution de problèmes qui mêle raisonnement visuel et textuel, comme en témoigne leur performance de pointe sur les références multimodales.
Cette analyse d’image fait partie intégrante du raisonnement en chaîne que les modèles effectuent. Ils sont capables de zoomer, de faire pivoter ou de recadrer les images pour améliorer leur traitement, tout en se montrant efficaces même avec des images de faible qualité.
Par exemple, lorsqu’il s’agit de résoudre un problème scientifique avec un diagramme, le modèle peut zoomer sur une partie spécifique de l’image, exécuter des calculs avec Python et ensuite générer un graphique pour expliquer ses résultats.
Tout en raisonnant, les modèles o3 et o4-mini peuvent utiliser dynamiquement tous les outils ChatGPT disponibles, y compris la navigation sur le web, l’exécution de code Python et la génération d’images. Cette capacité à s’adapter leur permet d’utiliser automatiquement l’outil ChatGPT idéal pour une tâche donnée. Les utilisateurs et les développeurs peuvent ainsi exécuter des flux de travail multi-étapes et s’attaquer à des tâches complexes.
Le modèle o4-mini-high est une variante de l’o4-mini qui consacre plus de temps et d’efforts computationnels à chaque requête afin de fournir des résultats de meilleure qualité. Voici quelques scénarios d’utilisation courants :
- Générer et évaluer des études en biologie, ingénierie et dans d’autres domaines STEM, tout en offrant un raisonnement détaillé étape par étape et des explications visuelles.
- Chercher et rassembler des informations provenant de multiples sources, telles que des bases de données en ligne, des rapports financiers, des données de marché et des graphiques, pour offrir des perspectives commerciales.
Ces modèles ont été formés grâce à l’apprentissage par renforcement, un concept clé dans le domaine de l’IA. Désormais, ils sont capables de traiter des problèmes plus flous, car ils peuvent déterminer quand utiliser un outil particulier pour obtenir le résultat souhaité.
Les modèles o3, o4-mini et o4-mini-high sont accessibles à tous les utilisateurs disposant de comptes ChatGPT Plus, Pro, et Team, tandis que l’o3-pro devrait être lancé dans les semaines à venir. Vous pouvez les voir dans le menu de sélection des modèles.
Les utilisateurs gratuits peuvent expérimenter avec le modèle o4-mini en choisissant l’option Think dans le compositeur avant de soumettre leurs demandes.
Pourquoi les capacités multimodales de ChatGPT peuvent être remarquables
En permettant à l’IA de “penser avec des images”, les nouveaux modèles d’OpenAI sont en mesure de s’attaquer à des problèmes réels nécessitant l’interprétation à la fois du texte et des visuels. Cela comprend le débogage de code à partir de captures d’écran, la lecture de textes manuscrits, l’analyse de diagrammes scientifiques ou l’extraction d’informations à partir de graphiques complexes. Le résultat ? ChatGPT est devenu plus conscient du contexte.
Ces modèles sont désormais plus autonomes. Ils pourraient également être plus efficaces, s’adaptant indépendamment à un modèle spécifique pour une tâche donnée. Grâce à leurs capacités de raisonnement et à leur intelligence visuelle, ces agents d’intelligence artificielle autonomes pourraient jouer un rôle essentiel dans des domaines tels que la recherche, les affaires et les travaux créatifs.
Points à retenir
- OpenAI a lancé des modèles AI avancés capables d’interpréter et de raisonner avec des images.
- Des fonctionnalités multimodales permettent de mieux résoudre des problèmes nécessitant du contenu textuel et visuel.
- Les nouveaux modèles sont disponibles pour divers types d’abonnés, améliorant l’accès à ces capacités avancées.
En conclusion, l’introduction de ces nouveaux modèles par OpenAI soulève des questions intéressantes sur l’avenir de l’intelligence artificielle et sur ses implications dans notre quotidien. Alors que la technologie continue d’évoluer, il est crucial de considérer les répercussions éthiques et pratiques de son utilisation croissante, en mettant l’accent sur l’importance de la créativité humaine face à des systèmes de plus en plus autonomes.