Après la présentation des modèles de raisonnement o1 par OpenAI pour ChatGPT, l’ensemble du secteur de l’intelligence artificielle a pris note et s’est lancé dans le “test-time compute” ou l’évolution de l’inférence. Le consensus général a ainsi évolué, passant de l’entraînement de modèles toujours plus grands à offrir davantage de temps de réflexion lors de l’inférence, dans le but de libérer l’intelligence et la capacité de raisonnement.
Récemment, Google a dévoilé son premier modèle de raisonnement intitulé “Gemini 2.0 Flash Thinking”, qui, à l’instar de ChatGPT o1, réévalue ses réponses avant de fournir le résultat final. L’idée est de permettre au modèle de vérifier la véracité de ses réponses en examinant rigoureusement tous les résultats possibles. Cette évolution de l’inférence a permis d’améliorer considérablement les performances, même pour des modèles plus petits.
Avec l’entrée de Google dans l’univers du “test-time compute”, effectuons une comparaison entre ce modèle et ceux d’OpenAI, à savoir les modèles o1 et o1-mini. Pour rendre la comparaison plus pertinente, nous allons aussi inclure le modèle chinois DeepSeek-R1-Lite-Preview, qui adopte une démarche similaire. Passons donc en revue les différences entre Gemini 2.0 Flash Thinking, ChatGPT o1 et DeepSeek R1 Lite.
Tests de Raisonnement
Commençons par une question classique sur les fraises, où l’on demande aux modèles d’IA de compter le nombre de lettres « r ». Dans cette première épreuve, Gemini 2.0 Flash Thinking répond incorrectement, déclarant qu’il y a deux r dans le mot “Fraise”. En revanche, ChatGPT o1 et le modèle plus petit, o1-mini, fournissent la bonne réponse dès leur premier essai. Enfin, le modèle de raisonnement de DeepSeek annonce également correctement qu’il y a trois r.

Poursuivons avec un autre test où j’ai demandé aux trois modèles de lister les noms des États indiens ne contenant pas la lettre ‘a’. Gemini 2.0 Flash Thinking cite correctement Sikkim, mais inclut également trois autres États comportant la lettre ‘a’. Il échoue à raisonner de manière adéquate. Pour leur part, ChatGPT o1, o1-mini et DeepSeek se distinguent en mentionnant uniquement Sikkim.

Pour un prompt plus complexe, élaboré par Riley Goodside, j’ai évalué la capacité des modèles à établir des connexions et à arriver à une réponse correcte. Malheureusement, Gemini 2.0 Flash Thinking, o1-mini et DeepSeek ont pour la plupart fait fausse route.
Nommer un exemple spécifique d'une forme de divertissement dont l'acronyme pourrait également correspondre aux prénoms d'un groupe ayant visité un pays dont le futur leader a épousé une Italienne.
Seul ChatGPT o1 a correctement répondu avec “Final Fantasy VII”, un jeu vidéo JRPG. Les Beatles (John, Ringo, Paul et George) ont visité l’Inde, dont le futur leader Rajiv Gandhi a épousé une Italienne.

Étant donné que Gemini 2.0 Flash Thinking et ChatGPT o1 prennent en charge les entrées d’image, j’ai téléchargé une image contenant un problème mathématique, extrait du Cookbook de Gemini. Lors de ce test multimodal, Gemini 2.0 Flash Thinking surpasse le modèle ChatGPT o1.

Gemini identifie correctement le triangle comme étant rectangle et déduit que la région de chevauchement représente un quart du cercle. Il divise ensuite simplement la zone du cercle par quatre, ce qui donne 9π/4 (le rayon étant 3), soit environ 7.065.

De son côté, ChatGPT o1 identifie incorrectement le triangle comme étant isocèle et parvient donc à une conclusion erronée. Selon moi, Google prend de l’avance sur la concurrence en matière de requêtes multimodales, notamment dans le traitement d’images.
Premières Réflexions
Le modèle Gemini 2.0 Flash Thinking de Google est indéniablement plus rapide et performant, toutefois ma première impression demeure qu’il n’égale pas la perspicacité de ChatGPT o1, voire même de son modèle plus petit, o1-mini. Mes tests jusqu’à présent montrent que ChatGPT o1 se révèle plus réfléchi et mieux ancré dans les faits.
Il convient de nuancer les propos sur Gemini 2.0 Flash Thinking, car son système de raisonnement a été développé à partir du plus petit modèle Gemini 2.0 Flash, rendant la comparaison avec le modèle d’OpenAI un peu inéquitable. Il serait pertinent d’attendre le modèle plus avancé Gemini 2.0 Pro Thinking, qui devrait offrir des performances de raisonnement encore plus solides.
Cependant, la force de Gemini 2.0 Flash Thinking réside dans sa compréhension multimodale incluant le traitement de la vidéo, de l’audio et des images. Sur ce terrain, il surpasse nettement ses concurrents en matière de raisonnement. De plus, de nombreux utilisateurs ont observé que Gemini 2.0 Flash Thinking réussit à résoudre le problème de Putnam 2024 ainsi que le Problème des Trois Joueurs. Il est clair que ses cas d’utilisation dépassent largement le simple raisonnement.
Toutefois, la course pour résoudre les enjeux liés au raisonnement et à l’intelligence ne fait que commencer, et en 2025, d’importantes avancées sont à prévoir dans ce domaine.
Points à retenir
- OpenAI et Google adoptent des approches similaires en matière de développement de modèles de raisonnement.
- La capacité des modèles à traiter des entrées multimodales est un critère essentiel dans la concurrence actuelle.
- Des erreurs de raisonnement persistent chez certains modèles malgré des avancées notables.
À travers cette analyse, il est évident que les progrès technologiques dans le secteur de l’intelligence artificielle apportent des résultats variés. La complexité des modèles de raisonnement pousse les chercheurs à explorer davantage pour améliorer la précision et l’efficacité. Comment ces progrès pourraient-ils transformer notre quotidien et quels en seront les impacts à long terme ?