mer. Juin 24th, 2026

Bien que l’univers de l’intelligence artificielle puisse parfois ressembler au Far West, il existe en coulisse un nombre surprenant d’analyses, de jugements de performance et de tests réalisés, non seulement par les entreprises elles-mêmes, mais aussi par des groupes visant à établir leurs propres classements.

Ces groupes évaluent tout, de la capacité d’un chatbot à résoudre des équations mathématiques à sa capacité à créer des images, à faire preuve de bon sens, à offrir des conseils médicaux, ou encore à démontrer son intelligence émotionnelle.

À travers ces différentes évaluations, les modèles fluctuent, mettant en avant leurs forces et faiblesses dans divers domaines. Par exemple, bien que GPT-5 excelle en raisonnement scientifique, il est moins performant que des concurrents comme Gemini et Claude lorsqu’il s’agit d’adaptation à de nouveaux concepts.

Chacun de ces tests nous apporte des informations nouvelles sur les modèles d’IA et rappelle quel outil est le plus adapté à chaque situation. Cependant, une mesure souvent absente concerne l’expérience utilisateur. Quel modèle d’IA offre réellement la meilleure expérience aux usagers ?

Le système de classement Humaine

Classement des cinq meilleurs chatbots IA

(Crédit image : Humaine)

Une entreprise technologique basée au Royaume-Uni, Prolific, a mis en place son propre classement d’intelligence artificielle appelé Humaine. Plutôt que d’évaluer la capacité d’une IA à accomplir des tâches, Prolific s’est concentrée sur l’expérience de différents utilisateurs avec ces outils.

En interrogeant 21 352 personnes sur leurs interactions avec les modèles, ils ont pu non seulement déterminer un gagnant global, mais aussi segmenter les résultats par tranche d’âge, localisation (testés au Royaume-Uni et aux États-Unis) et opinions politiques.

Ce classement inclut des listes spécifiques pour :

  • Royaume-Uni : groupes d’âge
  • Royaume-Uni : Ethnicité
  • Royaume-Uni : Opinions politiques
  • États-Unis : groupes d’âge
  • États-Unis : Ethnicité
  • États-Unis : Opinions politiques

L’équipe a fait interagir chaque participant avec deux modèles d’IA dans un cadre de comparaison, leur demandant de fournir un retour sur le modèle qu’ils jugeaient supérieur à chaque interaction.

De cela en est ressorti un gagnant global et un tableau de performances, ainsi que des classements séparés pour des performances core et des raisonnements, ainsi qu’un gagnant pour la communication, la fluidité, la confiance et l’éthique.

Que montrent les résultats ?

logos de ChatGPT et Gemini

(Crédit image : Future)

Après avoir analysé les réponses, un gagnant très clair émerge, non seulement dans la catégorie de performance globale mais dans la plupart des sous-catégories. Gemini 2.5-Pro se place en tête de presque tous les critères proposés par le test.

Des participants âgés de 18 à 34 ans au Royaume-Uni, des votants démocrates et des individus de plus de 55 ans aux États-Unis s’accordent à dire que Gemini 2.5 Pro est le meilleur modèle. La seule catégorie où un autre modèle a été jugé supérieur est celle de la confiance, de l’éthique et de la sécurité, où Grok-3 a été classé plus haut — une constatation quelque peu ironique considérant certains des problèmes de sécurité et d’éthique rencontrés récemment par ce modèle.

Les trois modèles suivants après Gemini sont Deepseek, Magistral Le Chat, et Grok. Bien que Deepseek ait été très populaire plus tôt cette année, sa notoriété a légèrement diminué dernièrement. En revanche, Le Chat, bien que moins connu, possède une base d’utilisateurs fidèle.

Alors, quelle place occupe le célèbre ChatGPT dans tout cela ? Il est relégué au 8e rang, le modèle GPT-4.1 étant le mieux classé. Encore plus éloigné, Claude se trouve en 11e et 12e positions avec ses deux modèles de version 4 dans le classement global.

Alors, que signifie tout cela ?

Cela signifie-t-il que Gemini est le meilleur chatbot IA au monde ? Doit-on se séparer de ChatGPT… ? Pas tout à fait.

Ces résultats ne reflètent pas nécessairement les performances de ces modèles selon les autres critères. Lorsqu’ils sont testés sur la plupart des autres paramètres, les options que l’on voit souvent en tête sont ChatGPT, Gemini, Claude et Grok.

Ceci dit, il s’agit d’un ajout important à ces tests. Cela aide à fournir une meilleure compréhension de l’IA d’un point de vue plus humain. Par exemple, Le Chat n’atteint pas des scores aussi élevés dans les benchmarks, mais est souvent cité parmi les meilleures options pour l’expérience et la confiance.

Bien qu’Anthropic et OpenAI ne brillent pas particulièrement lors de cette ronde de tests, Gemini et Grok continuent de performer solidement. Les deux entreprises obtiennent régulièrement de bons scores dans les benchmarks et semblent les conserver ici aussi.

Points à retenir

  • Le classement Humaine met l’accent sur l’expérience utilisateur.
  • Les résultats révèlent une dynamique intéressante des préférences selon les groupes démographiques.
  • Gemini 2.5-Pro est reconnu comme le meilleur modèle global, mais cela ne le rend pas infaillible.
  • Des modèles comme Le Chat offrent une confiance et une expérience de qualité, malgré des performances inférieures dans certains tests.

Dans un monde technologique en constante évolution, ces classements posent une question essentielle : la mesure de la performance technique est-elle suffisante pour jauger de la valeur d’une IA ? Les utilisateurs recherchent avant tout une expérience qui leur inspire confiance, ouvrant ainsi un dialogue essentiel sur la place de l’humain dans le développement des technologies d’IA.


Partager : X Facebook WhatsApp LinkedIn Reddit

By Maria Rodriguez

Maria est Journaliste Trilingue indépendante depuis 2015, elle intervient sur LesNews Le Web est à nous dans les univers : International, Economie, Politique, Culture et d'autres faits de Société

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *