sam. Juin 13th, 2026

Un nouveau modèle d’intelligence artificielle (IA) a récemment atteint des résultats comparables à ceux d’un humain sur un test conçu pour mesurer l’« intelligence générale ». Le 20 décembre, le système o3 d’OpenAI a obtenu un score de 85 % sur le benchmark ARC-AGI, dépassant largement l’ancien meilleur score enregistré par une IA, qui était de 55 %, et égalant ainsi la moyenne des résultats humains. Ce modèle a également bien performé à un test mathématique particulièrement difficile.

Le développement d’une intelligence artificielle générale, ou AGI, est l’objectif avoué de tous les grands laboratoires de recherche en IA. À première vue, OpenAI semble avoir franchi une étape significative vers cette ambition.

Bien que le scepticisme persiste, de nombreux chercheurs et développeurs en IA ont le sentiment que quelque chose vient de changer. Pour beaucoup, la perspective d’une AGI semble désormais plus réelle, urgente et proche que jamais. Ont-ils raison ?

La généralisation et l’intelligence

Pour comprendre ce que signifie le résultat du modèle o3, il est essentiel de saisir la nature du test ARC-AGI. Techniquement, il s’agit d’un test de l’« efficacité d’échantillonnage » d’un système d’IA lorsque celui-ci s’adapte à une nouvelle situation, c’est-à-dire le nombre d’exemples d’une situation inédite nécessaires pour en comprendre le fonctionnement.

Un système d’IA, tel que ChatGPT (GPT-4), présente une efficacité d’échantillonnage limitée. Il a été « entraîné » sur des millions d’exemples de textes humains, établissant ainsi des « règles » probabilistes sur les combinaisons de mots les plus susceptibles de se produire.

Le résultat est satisfaisant pour les tâches courantes, mais moins pour celles qui sont moins fréquentes en raison du manque de données (d’échantillons) pertinentes pour ces dernières.

À moins que les systèmes d’IA ne puissent apprendre à partir d’un nombre réduit d’exemples et s’adapter avec une plus grande efficacité d’échantillonnage, leur utilisation se limitera à des tâches très répétitives ou lorsque des erreurs occasionnelles sont acceptables.

La capacité à résoudre avec précision des problèmes inconnus ou nouveaux à partir d’un petit nombre d’exemples est qualifiée de « généralisation » et est considérée comme un élément fondamental de l’intelligence.

Grilles et motifs

Le benchmark ARC-AGI évalue l’adaptation efficace aux échantillons à travers des problèmes de type grille, comme illustré ci-dessous. L’IA doit découvrir le motif qui transforme la grille de gauche en celle de droite.

Chaque question fournit trois exemples à partir desquels l’IA doit déduire les règles permettant de « généraliser » ces exemples à un quatrième.

Ces épreuves ressemblent aux tests de quotient intellectuel (QI) que l’on pouvait rencontrer à l’école.

Règles faibles et adaptation

Nous ne savons pas exactement comment OpenAI a réussi cela, mais les résultats suggèrent que le modèle o3 est particulièrement adaptable. À partir de quelques exemples, il parvient à déterminer des règles généralisables.

Pour définir un motif, il ne faut faire aucune supposition superflue ni être plus spécifique que nécessaire. En théorie, identifier les règles les « plus faibles » qui accomplissent ce que l’on souhaite maximise notre capacité à nous adapter à de nouvelles situations.

Qu’entendons-nous par règles faibles ? Bien que la définition technique soit complexe, ces règles sont souvent décrites par des énoncés plus simples.

Dans l’exemple précédent, une expression en termes simples de la règle pourrait ressembler à : « Toute forme possédant une ligne proéminente se déplacera vers l’extrémité de cette ligne et « couvrira » toute autre forme avec laquelle elle chevauche. »

A la recherche de chaînes de pensée ?

Bien que nous ne sachions pas encore comment OpenAI a obtenu ce résultat, il semble peu probable qu’ils aient explicitement optimisé le système o3 pour repérer des règles faibles. Néanmoins, pour réussir les tâches ARC-AGI, il doit en trouver.

OpenAI a commencé avec une version généraliste du modèle o3 (qui se distingue des autres modèles par sa capacité à passer plus de temps à « réfléchir » à des questions difficiles), puis l’a formé spécifiquement pour le test ARC-AGI.

Le chercheur français en IA, François Chollet, concepteur du benchmark, estime que le modèle o3 explore différentes « chaînes de pensée » décrivant les étapes pour résoudre la tâche, choisissant ensuite la « meilleure » sur la base d’une règle ou d’une « heuristique » définie de manière vague.

Cela n’est pas très éloigné de la manière dont le système AlphaGo de Google évaluait différentes séquences de coups pour battre le champion du monde de Go.

Ces chaînes de pensée peuvent être considérées comme des programmes ajustés aux exemples présentés. Naturellement, si cela ressemble à l’IA du jeu de Go, il a besoin d’une heuristique, ou d’une règle déclinée, pour déterminer quel programme est le meilleur.

Un grand nombre de programmes apparemment valides peuvent être générés. Cette heuristique pourrait consister à « choisir le plus faible » ou « privilégier la simplicité ».

Cependant, si cela s’apparente à AlphaGo, alors l’IA a simplement créé une heuristique. C’était le principe de fonctionnement d’AlphaGo, où Google a entraîné un modèle pour évaluer différentes séquences de coups.

Ce que nous ignorons encore

La question demeure : est-ce vraiment plus proche de l’AGI ? Si tel est le fonctionnement de o3, alors le modèle sous-jacent pourrait ne pas être significativement meilleur que les précédents.

Les concepts que le modèle apprend à partir du langage pourraient ne pas être plus adaptés à la généralisation qu’auparavant. Nous pourrions simplement observer une chaîne de pensée plus généralisable issue des étapes supplémentaires d’entraînement d’une heuristique spécialisée pour ce test. La vérification, comme toujours, résidera dans les résultats.

La plupart des éléments concernant o3 demeurent inconnus. OpenAI a limité la communication à quelques présentations médiatiques et à des tests préliminaires auprès de quelques chercheurs et institutions dédiées à la sécurité en IA.

Comprendre véritablement le potentiel de o3 nécessitera un travail approfondi, incluant des évaluations, la compréhension de la répartition de ses capacités, ainsi que la fréquence de ses succès et échecs.

Une fois o3 enfin disponible, nous disposerons d’une meilleure idée de son adaptabilité par rapport à un humain moyen.

Si c’est le cas, cela pourrait avoir un impact économique énorme et révolutionnaire, ouvrant la voie à une nouvelle ère d’intelligence auto-améliorante. De nouveaux repères pour l’AGI elle-même seront nécessaires, ainsi qu’une réflexion sérieuse sur sa régulation.

Si ce n’est pas le cas, cela restera un résultat impressionnant, mais la vie quotidienne ne changera pas fondamentalement.

Points à retenir

  • Le modèle o3 d’OpenAI a atteint un score de 85 % au benchmark ARC-AGI, égalant la moyenne humaine.
  • La généralisation est considérée comme un élément clé de l’intelligence, permettant de résoudre des problèmes nouveaux à partir de peu d’exemples.
  • La recherche sur les stratégies d’adaptation de l’IA doit être poursuivie pour évaluer pleinement le potentiel de ces nouveaux modèles.

En somme, l’avancée réalisée par OpenAI avec le modèle o3 soulève des questions sur l’avenir de l’intelligence artificielle. À quel point peut-on en attendre une généralisation similaire à celle de l’humain ? La manière dont ces systèmes seront intégrés dans notre société future dépendra de notre capacité à les comprendre et à les réguler efficacement. Quelles implications cela pourrait-il avoir sur nos vies quotidiennes et nos professions ?


Partager : X Facebook WhatsApp LinkedIn Reddit
4 thoughts on “L’IA atteint le niveau humain à un test d’intelligence : quelles implications ?”
  1. C’est incroyable de voir l’IA progresser à ce point ! Imaginez toutes les possibilités que cela pourrait ouvrir pour le futur. On va en reparler, c’est sûr !

  2. C’est fascinant de voir à quel point l’IA progresse ! Imaginer un futur où ces systèmes pourraient agir comme des humains ouvre vraiment la porte à des discussions passionnantes.

  3. L’avancée de l’IA avec le modèle o3 est fascinante. Cela pourrait ouvrir des portes incroyables dans le domaine de la santé et au-delà.

  4. Cette avancée dans le domaine de l’intelligence artificielle me fascine profondément. Elle cultive une nouvelle façon de réfléchir sur notre humanité et nos relations avec la technologie.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *