sam. Juin 13th, 2026

Il arrive parfois que l’on ouvre son smartphone et que tout semble avoir changé. Depuis l’arrivée de ChatGPT en novembre 2022, la course à l’intelligence artificielle ne cesse de s’accélérer. De nouveaux modèles apparaissent régulièrement, chacun visant à élever la barre encore un peu plus. Parfois, il s’agit d’une mise à jour, d’autres fois d’un modèle « phare » portant un nouveau nom, mais la tendance reste la même : plus de puissance, plus d’ambition, et une portée de plus en plus internationale. Dans ce paysage, la Chine gagne en visibilité, et un nom émerge dans les discussions : Qwen3-Max-Thinking, la proposition d’Alibaba qui ambitionne de rivaliser avec les plus grandes références actuelles.

À première vue, Qwen3-Max-Thinking pourrait sembler être un nom de plus dans la liste interminable des modèles. Cependant, un détail important ressort : Alibaba le positionne comme son modèle phare pour des tâches de raisonnement, l’inscrivant dans la même conversation que le Gemini 3 Pro. La société affirme avoir optimisé ses paramètres et investi dans des ressources de calcul pour améliorer plusieurs dimensions, allant des connaissances factuelles au raisonnement complexe, en passant par le suivi d’instructions, l’alignement avec les préférences humaines et les capacités d’agents intelligents. En d’autres termes, Alibaba ne mise pas seulement sur la puissance brute, mais sur une capacité à « penser » plus efficacement.

Les enseignements des benchmarks

Pour évaluer cette promesse, il est utile de consulter le tableau comparatif des performances, qui inclut 19 benchmarks. Gemini 3 Pro domine dans 11 domaines, tandis que Qwen3-Max-Thinking s’impose dans 8. Ces résultats, bien que non conclusifs, aident à appréhender le défi qu’Alibaba lance à Google. Chaque benchmark se concentre sur une compétence précise, tel que la connaissance générale, la programmation, le suivi d’instructions ou l’analyse contextuelle.

Tableau des Performances des Modèles

Le point fort de Qwen3-Max-Thinking réside dans sa capacité à suivre les instructions et à s’aligner sur les préférences humaines lors des interactions. Dans l’évaluation Arena-Hard v2, Qwen obtient un score de 90,2 contre 81,7 pour Gemini, ce qui représente la plus grande différence en sa faveur. Ce type de benchmark ne mesure pas seulement le « succès » technique, mais aussi le résultat final jugé le plus utile par les utilisateurs. Dans un autre benchmark, IFBench, Qwen l’emporte également, bien que de justesse (70,9 contre 70,4). Cela signifie que même en cas d’instructions ambiguës, Qwen semble mieux comprendre et répondre de manière naturelle.

Score

Un autre domaine où Qwen justifie son étiquette de « modèle pensant » est le raisonnement mathématique et la résolution de problèmes logiques. Dans les évaluations HMMT, Qwen devance Gemini avec des scores de 94,7 contre 93,3 et 98,0 contre 97,5 pour les éditions de novembre et de février respectivement. Même si ces écarts ne sont pas révolutionnaires, ils montrent une tendance : lorsque le problème nécessite plusieurs étapes logiques, Qwen semble mieux s’en sortir.

Alibaba ajoute à ces avancées un aspect innovant : la capacité du modèle à agir au-delà d’un simple traitement de texte. La compagnie évoque un usage adaptatif des outils, permettant une récupération d’informations à la demande et l’invocation d’un interprète de code. Cela se traduit également dans les benchmarks avec un score de 49,8 pour Qwen contre 45,8 pour Gemini, soulignant une meilleure capacité à interagir avec des outils externes. La question n’est pas seulement « quelle réponse est donnée », mais aussi comment le modèle recherche, choisit l’outil approprié et synthétise les données trouvées.

Les nouvelles dynamiques tarifaires

À ce stade, une question se pose : quel est le coût réel de l’utilisation de ces modèles ? Pour 1 million de tokens, la différence de prix est notable. Gemini 3 Pro coûte entre 2 et 4 dollars, tandis que Qwen3-Max est proposé à 1,2 dollar. Cependant, la principale distinction apparaît dans le coût de sortie : Gemini facture entre 12 et 18 dollars, contre 6 dollars pour Qwen. En résumé, dans les usages standards, Gemini est environ 1,67 fois plus cher à l’entrée et 2 fois plus à la sortie, et ces proportions augmentent avec le volume de tokens.

Gemini est environ 1,67 fois plus cher à l’entrée et 2 fois plus cher à la sortie.

Abordons également un sujet souvent négligé lors des discussions sur la puissance et le prix : que se passe-t-il avec vos données lorsque vous utilisez le modèle ? Concernant Qwen, il est crucial de distinguer deux aspects. D’une part, la version web destinée aux consommateurs mentionne que les données des utilisateurs peuvent être utilisées pour développer et améliorer les technologies d’IA, sans qu’il y ait d’option claire pour désactiver ce traitement. D’autre part, dans le cadre du service professionnel Alibaba Cloud, les données ne sont pas utilisées pour l’entraînement du modèle, et les conversations sont traitées selon le type d’usage.

Alibaba offre ainsi des garanties intéressantes, telles que le cryptage AES-256, et précise que pour les appels directs via API, aucune donnée n’est conservée. De plus, un contexte juridique important à considérer est la Loi de l’Intelligence Nationale en Chine, qui impose aux citoyens et organisations de coopérer avec les agences de renseignement, suscitant des préoccupations notamment au sein de l’Union Européenne.

Points à retenir

  • Qwen3-Max-Thinking d’Alibaba se positionne comme un concurrent sérieux face à Gemini 3 Pro de Google.
  • Les benchmarks révèlent des forces distinctes entre les deux modèles, en fonction des types de tâches.
  • Le coût d’utilisation est un facteur crucial, Qwen étant généralement moins cher que Gemini.
  • La gestion des données utilisateurs est un aspect à considérer, notamment en ce qui concerne la transparence et la confidentialité.

En reflet de cette évolution rapide de l’IA, il est fascinant d’observer comment ces nouveaux modèles redéfinissent notre compréhension et notre utilisation de la technologie. À l’aube de ces avancées, je réfléchis au potentiel de transformer non seulement nos interactions avec les machines, mais aussi notre rapport à l’information et à la connaissance. Cela soulève une question essentielle : dans quelle mesure, en tant que société, sommes-nous prêts à naviguer dans ce paysage technologique en pleine mutation ?


Partager : X Facebook WhatsApp LinkedIn Reddit

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *