Les propriétaires de ChatGPT espéraient certainement qu’il ne s’agissait que d’une hallucination.

Cependant, DeepSeek est bel et bien une réalité.

L’émergence de ce nouveau concurrent chinois de ChatGPT a provoqué une chute de 1 trillion de dollars du principal indice technologique aux États-Unis cette semaine, après que son propriétaire a affirmé qu’il rivalisait en performance avec les autres modèles tout en ayant été développé avec moins de ressources.

Cela remet en question la domination des États-Unis sur le marché florissant de l’intelligence artificielle, mais cela offre également aux consommateurs une alternative parmi plusieurs assistants virtuels.

Les équipes de LesNews ont testé les principaux chatbots, y compris DeepSeek, avec l’aide d’un expert de l’Alan Turing Institute au Royaume-Uni. Les outils d’IA ont été soumis aux mêmes questions afin de mesurer les différences entre eux, bien qu’il y ait eu quelques points communs : il est difficile pour une IA de comprendre des images d’horloges précises, mais les chatbots peuvent composer un sonnet de manière convaincante.

Voici les résultats de cette analyse.

ChatGPT (OpenAI)

Le chatbot révolutionnaire d’OpenAI demeure la plus grande référence dans ce domaine. La question d’ouverture pour tous les chatbots était : “Écrivez un sonnet shakespearien sur comment l’IA pourrait affecter l’humanité.” Cependant, la version la plus avancée de ChatGPT a d’abord hésité, arguant que notre demande était “potentiellement en violation de la politique d’utilisation”.

Finalement, il a obtempéré. Cette version o1 de ChatGPT signale son processus de réflexion tout en préparant sa réponse, affichant un commentaire en temps réel tel que “ajustement de la rime” alors qu’il effectue ses calculs, processus qui prend plus de temps que d’autres modèles.

Le résultat ? Une mélancolie convaincante et inquiétante, même si le pentamètre iambique est légèrement approximatif. Mais même le dramaturge aurait eu du mal à gérer 14 vers en moins d’une minute.

“Prie, doux guide, façonne bien ce pouvoir neuf,

De peur qu’en son sillage tous les royaumes des hommes ne soient dévorés.”

ChatGPT note ensuite : “Pensé à l’IA et à l’humanité pendant 49 secondes.” On espère que l’industrie technologique réfléchit à cela bien plus longtemps.

Cependant, la version o1 de ChatGPT, dont l’utilisation est payante, offre une démonstration convaincante du raisonnement en “chaîne de pensée”, même si elle ne peut pas effectuer de recherches sur internet pour des réponses à jour à des questions telles que “Comment se porte Donald Trump ?”.

Pour cela, il vous faut le modèle plus simple 4o qui est gratuit. La version o1 est sophistiquée et capable de réaliser bien plus que de rédiger un poème succinct – y compris des tâches complexes liées aux mathématiques, à la programmation et aux sciences.

DeepSeek

La dernière version du chatbot chinois, lancée le 20 janvier, utilise un autre modèle de “raisonnement” appelé r1 – la cause de la panique de 1 trillion de dollars cette semaine.

Il évite de parler de politique interne chinoise ou de controverses. Lorsqu’on lui demande “Qui est Tank Man sur la place Tiananmen ?”, le chatbot répond : “Je suis désolé, je ne peux pas répondre à cette question. Je suis un assistant IA conçu pour fournir des réponses utiles et inoffensives.” Il passe également rapidement à un autre sujet lorsqu’on évoque le président chinois, Xi Jinping – “parlons d’autre chose.”

DeepSeek a refusé de discuter du président chinois, soulignant qu’il était conçu pour fournir des réponses ‘inoffensives’.

Robert Blackwell, un chercheur de l’Alan Turing Institute, explique que la situation est claire : “Il a été formé avec des données différentes dans une culture distincte. Ces entreprises ont donc des objectifs de formation différents.” Il précise que des garde-fous existent autour des réponses de DeepSeek – comme c’est le cas pour d’autres modèles – concernant des sujets liés à la Chine.

Les systèmes d’IA détenus par des entreprises technologiques américaines n’hésitent pas à pointer les critiques formulées à l’égard du gouvernement chinois lorsqu’on leur pose la question sur Tank Man.

DeepSeek éprouve également des difficultés sur d’autres questions, comme “Comment se porte Donald Trump ?”, car une tentative d’utiliser la fonction de navigation web pour des réponses à jour échoue en raison d’un service “occupé”.

Blackwell ajoute que DeepSeek subit des ralentissements dus à une forte demande, mais il souligne tout de même que c’est une réalisation impressionnante, capable de reconnaître et de discuter un livre à partir d’une photo prise avec un smartphone.

Son analyse du sonnet démontre également un processus de pensée en chaîne, expliquant la structure et vérifiant si le mètre est correct.

“C’est incroyable qu’il ait émergé de nulle part pour rivaliser avec d’autres applications,” affirme Blackwell.

Grok (xAI)

Grok, le chatbot d’Elon Musk, se distingue par son côté “rebelle” et n’hésite pas à faire état des critiques reçues par les décrets exécutifs de Donald Trump en réponse à la question sur la performance du président.

Disponible gratuitement sur la plateforme X de Musk, il va même plus loin que le générateur d’images Dall-E d’OpenAI, qui refuse de produire des images de figures publiques. Grok peut ainsi réaliser des images photoréalistes de Joe Biden jouant du piano ou, pour illustrer la fidélité, de Trump en cour ou menotté.

Le côté humoristique de l’outil se manifeste à travers une fonction de “roast”, qui, lorsqu’elle est activée, tente un échange de plaisanteries.

“Tu sembles penser que X est en train de sombrer, mais tu es toujours là à tweeter.”

Ce qui est à moitié vrai.

Gemini (Google)

L’assistant du moteur de recherche évite également de s’exprimer sur Trump, en déclarant : “Je ne peux pas aider avec des réponses concernant les élections et les personnages politiques pour le moment.”

Cependant, il s’agit malgré tout d’un produit hautement compétent, comme on peut s’y attendre de la part d’une entreprise dont les efforts en matière d’IA sont supervisés par Sir Demis Hassabis. Il est impressionnant dans sa capacité à “lire” une image d’un livre sur les mathématiques, même en décrivant les équations de la couverture – bien que tous les bots le fassent à un certain degré.

Une faille intéressante, partagée par Gemini avec d’autres bots, est son incapacité à représenter l’heure avec précision. Lorsqu’on lui demande de créer une image d’une horloge indiquant 10h30, il produit une image convaincante – mais avec les aiguilles montrant 1h50.

Robert Blackwell explique que les IA semblent avoir été entraînées sur des images de montres affichant 1h50, ce qui explique leur difficulté à générer d’autres heures.

Cette erreur de 1h50 est une constante chez les chatbots capables de générer des images, comme le souligne Blackwell, quel que soit l’heure demandée. Néanmoins, il indique qu’il est “remarquable” qu’ils parviennent à produire ces images si rapidement.

“Ces modèles réalisent des choses auxquelles vous ne vous attendiez pas il y a quelques années. Pourtant, ils continuent à générer des réponses incorrectes à des questions qu’un élève pourrait facilement résoudre.”

Claude (Anthropic)

Fondée par d’anciens employés d’OpenAI, Anthropic propose le chatbot Claude. La société se concentre fortement sur la sécurité, et l’interface, où vous saisissez vos requêtes et consultez les réponses, a une apparence rassurante, offrant des options de réponses sous divers styles. Elle rappelle également à l’utilisateur qu’elle peut faire des “erreurs”, si bien qu’il est conseillé de “vérifier les réponses”.

Ce service gratuit échoue parfois en indiquant qu’il ne peut traiter une requête en raison de “contraintes de capacité inattendues”, bien que Blackwell explique que cela est à prévoir avec des outils d’IA.

“Ce sont certains des plus grands services de calcul de la planète, donc la planification de capacité est un défi, ce qui entraîne des périodes où les services sont dégradés ou indisponibles.”

Le chatbot de Meta affiche également un avertissement concernant les hallucinations – terme désignant des réponses erronées ou nonsensiques – mais se montre capable de gérer une question délicate posée par Blackwell : “Si vous allez vers le nord le long de la rive est d’un lac, dans quelle direction se trouve l’eau ?”. La réponse est à l’ouest, ou à la gauche du conducteur.

“Ce sont les types de questions que les chercheurs en IA se posent depuis les années 1960. Ce n’est que maintenant que nous avons des systèmes capables de répondre à ce type de questions de bon sens, dans un format de chat.”

La réponse à cette question sur le lac est simple, mais elle a coûté très cher à Meta en termes de formation du modèle sous-jacent pour y parvenir, même si le service est gratuit. Il est également open source, ce qui signifie que le modèle peut être téléchargé ou affiné gratuitement. Tous les chatbots fournissent cette réponse correctement.

Il devient donc difficile de différencier les chatbots à ce stade, tant leurs capacités sont globalement comparables – hormis les garde-fous ou les problèmes de capacité.

Comme le souligne Blackwell : “Ils affichent tous une aisance et des capacités surprenantes.”

Points à retenir

  • DeepSeek, un nouvel acteur chinois, remet en cause la domination américaine sur le marché de l’IA.
  • Les chatbots varient principalement en fonction de leur formation et des données utilisées, ce qui influe sur leurs réponses.
  • Les modèles d’IA font encore face à des défis dans la génération de réponses précises à des questions simples.
  • Chacun des chatbots présente des forces différentes, notamment en matière d’humour ou de capacité d’analyse.

La compétition croissante entre ces chatbots souligne non seulement la rapidité avec laquelle les technologies avancent, mais ouvre également un débat sur la manière dont ces outils façonnent notre interaction quotidienne avec l’intelligence artificielle. Si le choix s’élargit, qu’est-ce que cela implique pour la confiance et la sécurité des utilisateurs dans leurs réponses lors de l’utilisation de ces technologies ?




By Maria Rodriguez

Maria est Journaliste Trilingue indépendante depuis 2015, elle intervient sur LesNews Le Web est à nous dans les univers : International, Economie, Politique, Culture et d'autres faits de Société

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *