Gemini 2.0 : Réflexion éclair contre ChatGPT : OpenAI, plus profond !

ByMaria Rodriguez

Déc 21, 2024

Après la présentation des modèles de raisonnement o1 par OpenAI pour ChatGPT, l’ensemble du secteur de l’intelligence artificielle a pris note et s’est lancé dans le “test-time compute” ou l’évolution de l’inférence. Le consensus général a ainsi évolué, passant de l’entraînement de modèles toujours plus grands à offrir davantage de temps de réflexion lors de l’inférence, dans le but de libérer l’intelligence et la capacité de raisonnement.

Récemment, Google a dévoilé son premier modèle de raisonnement intitulé “Gemini 2.0 Flash Thinking”, qui, à l’instar de ChatGPT o1, réévalue ses réponses avant de fournir le résultat final. L’idée est de permettre au modèle de vérifier la véracité de ses réponses en examinant rigoureusement tous les résultats possibles. Cette évolution de l’inférence a permis d’améliorer considérablement les performances, même pour des modèles plus petits.

Avec l’entrée de Google dans l’univers du “test-time compute”, effectuons une comparaison entre ce modèle et ceux d’OpenAI, à savoir les modèles o1 et o1-mini. Pour rendre la comparaison plus pertinente, nous allons aussi inclure le modèle chinois DeepSeek-R1-Lite-Preview, qui adopte une démarche similaire. Passons donc en revue les différences entre Gemini 2.0 Flash Thinking, ChatGPT o1 et DeepSeek R1 Lite.

Sommaire

Tests de Raisonnement

Commençons par une question classique sur les fraises, où l’on demande aux modèles d’IA de compter le nombre de lettres « r ». Dans cette première épreuve, Gemini 2.0 Flash Thinking répond incorrectement, déclarant qu’il y a deux r dans le mot “Fraise”. En revanche, ChatGPT o1 et le modèle plus petit, o1-mini, fournissent la bonne réponse dès leur premier essai. Enfin, le modèle de raisonnement de DeepSeek annonce également correctement qu’il y a trois r.

testing the strawberry question on gemini 2.0 flash thinking

Poursuivons avec un autre test où j’ai demandé aux trois modèles de lister les noms des États indiens ne contenant pas la lettre ‘a’. Gemini 2.0 Flash Thinking cite correctement Sikkim, mais inclut également trois autres États comportant la lettre ‘a’. Il échoue à raisonner de manière adéquate. Pour leur part, ChatGPT o1, o1-mini et DeepSeek se distinguent en mentionnant uniquement Sikkim.

testing reasoning question on gemini 2.0 flash thinking

Pour un prompt plus complexe, élaboré par Riley Goodside, j’ai évalué la capacité des modèles à établir des connexions et à arriver à une réponse correcte. Malheureusement, Gemini 2.0 Flash Thinking, o1-mini et DeepSeek ont pour la plupart fait fausse route.

Nommer un exemple spécifique d'une forme de divertissement dont l'acronyme pourrait également correspondre aux prénoms d'un groupe ayant visité un pays dont le futur leader a épousé une Italienne.

Seul ChatGPT o1 a correctement répondu avec “Final Fantasy VII”, un jeu vidéo JRPG. Les Beatles (John, Ringo, Paul et George) ont visité l’Inde, dont le futur leader Rajiv Gandhi a épousé une Italienne.

advanced reasoning question on gemini 2.0 flash thinking

Étant donné que Gemini 2.0 Flash Thinking et ChatGPT o1 prennent en charge les entrées d’image, j’ai téléchargé une image contenant un problème mathématique, extrait du Cookbook de Gemini. Lors de ce test multimodal, Gemini 2.0 Flash Thinking surpasse le modèle ChatGPT o1.

a maths problem including circle and triangle — Crédit image : Google via GitHub

Gemini identifie correctement le triangle comme étant rectangle et déduit que la région de chevauchement représente un quart du cercle. Il divise ensuite simplement la zone du cercle par quatre, ce qui donne 9π/4 (le rayon étant 3), soit environ 7.065.

maths problem on gemini 2.0 flash thinking

De son côté, ChatGPT o1 identifie incorrectement le triangle comme étant isocèle et parvient donc à une conclusion erronée. Selon moi, Google prend de l’avance sur la concurrence en matière de requêtes multimodales, notamment dans le traitement d’images.

Premières Réflexions

Le modèle Gemini 2.0 Flash Thinking de Google est indéniablement plus rapide et performant, toutefois ma première impression demeure qu’il n’égale pas la perspicacité de ChatGPT o1, voire même de son modèle plus petit, o1-mini. Mes tests jusqu’à présent montrent que ChatGPT o1 se révèle plus réfléchi et mieux ancré dans les faits.

Il convient de nuancer les propos sur Gemini 2.0 Flash Thinking, car son système de raisonnement a été développé à partir du plus petit modèle Gemini 2.0 Flash, rendant la comparaison avec le modèle d’OpenAI un peu inéquitable. Il serait pertinent d’attendre le modèle plus avancé Gemini 2.0 Pro Thinking, qui devrait offrir des performances de raisonnement encore plus solides.

Cependant, la force de Gemini 2.0 Flash Thinking réside dans sa compréhension multimodale incluant le traitement de la vidéo, de l’audio et des images. Sur ce terrain, il surpasse nettement ses concurrents en matière de raisonnement. De plus, de nombreux utilisateurs ont observé que Gemini 2.0 Flash Thinking réussit à résoudre le problème de Putnam 2024 ainsi que le Problème des Trois Joueurs. Il est clair que ses cas d’utilisation dépassent largement le simple raisonnement.

Toutefois, la course pour résoudre les enjeux liés au raisonnement et à l’intelligence ne fait que commencer, et en 2025, d’importantes avancées sont à prévoir dans ce domaine.

Points à retenir

OpenAI et Google adoptent des approches similaires en matière de développement de modèles de raisonnement.
La capacité des modèles à traiter des entrées multimodales est un critère essentiel dans la concurrence actuelle.
Des erreurs de raisonnement persistent chez certains modèles malgré des avancées notables.

À travers cette analyse, il est évident que les progrès technologiques dans le secteur de l’intelligence artificielle apportent des résultats variés. La complexité des modèles de raisonnement pousse les chercheurs à explorer davantage pour améliorer la précision et l’efficacité. Comment ces progrès pourraient-ils transformer notre quotidien et quels en seront les impacts à long terme ?

By Maria Rodriguez

Maria est Journaliste Trilingue indépendante depuis 2015, elle intervient sur LesNews Le Web est à nous dans les univers : International, Economie, Politique, Culture et d'autres faits de Société

Articles de la même catégorie

ChatGPT

Gemini 2.0 : Réflexion éclair contre ChatGPT : OpenAI, plus profond !

ByMaria Rodriguez

Tests de Raisonnement

Premières Réflexions

Points à retenir

By Maria Rodriguez

Articles de la même catégorie

Que se passe-t-il avec ChatGPT-5 ? Les utilisateurs disent qu’il a changé !

L’Inde lance le commerce en ligne avec des chatbots AI : ChatGPT, Gemini et Claude en tête!

Tech à la Une : ChatGPT et les Idées Cadeaux de Noël

Laisser un commentaire Annuler la réponse

Ne ratez pas

J’ai surpassé 300 000 concurrents pour devenir une Cheetah Girl !

Mineur BTC solo : 200 000 $ avec seulement 150 $ d’équipement !

Réseaux Sociaux dès 13 ans : L’UE Renforce la Protection des Enfants sur TikTok et Instagram !

Maman frustrée par le silence de sa fille : le manga “Le chat de la nuit” a une réponse qui prouve que la parentalité est une réussite !