sam. Juin 13th, 2026

Les modèles d’intelligence artificielle (IA) progressent à une vitesse et à une échelle impressionnantes. Cependant, une qualité essentielle leur fait encore défaut comparée à la majorité des humains : le bon sens. Cette compréhension intuitive issue de l’expérience quotidienne—comme le fait que les oiseaux ne peuvent pas voler à reculons, que les miroirs sont réfléchissants ou que la glace fond en eau—doit être explicitement enseignée aux IA. Cela leur permettrait de répondre avec précision à des questions complexes et de naviguer dans des environnements physiques imprévisibles, tels que des entrepôts industriels ou des routes.

Pour relever ce défi, NVIDIA a mis au point une série de tests destinés à apprendre aux IA les contraintes du monde réel. En somme, il s’agit d’inculquer à ces machines ce que l’on pourrait appeler le sens commun physique.

Ces tests alimentent le développement de modèles de raisonnement comme NVIDIA Cosmos Reason. Ce modèle de langage visuel (VLM) ouvert, conçu pour des applications IA physiques, est capable de générer des réponses ancrées dans le temps avec un haut degré de pertinence. Récemment, Cosmos Reason s’est hissé en tête du classement des modèles de raisonnement physique sur la plateforme Hugging Face.

Ce qui distingue Cosmos Reason des modèles précédents, c’est son orientation vers l’accélération du développement de l’IA physique dans des secteurs tels que la robotique, les véhicules autonomes et les environnements intelligents. Il est capable d’inférer et de raisonner dans des scénarios jusque-là inexplorés, grâce à une base de connaissances en bon sens physique.

Pour qu’un modèle comprenne l’environnement complexe d’un laboratoire ou d’un site industriel, il faut commencer par des cas simples. Par exemple, dans un test, Cosmos Reason doit répondre à une question à choix multiples concernant la vitesse relative d’objets dans une vidéo.

Exemple tiré du jeu de données d’évaluation Cosmos Reason

Le Raisonnement, Qu’est-ce que C’est pour une IA ?

Le développement des capacités de raisonnement passe par un apprentissage renforcé qui enseigne aux modèles les principes physiques du monde réel.

Un robot, par exemple, ne sait naturellement pas ce que signifient les notions de gauche, droite, haut ou bas. Ces concepts spatiaux et temporels lui sont enseignés avec soin. Pour les robots utilisés dans des tests de sécurité, comme les crash-tests automobiles, cette connaissance est vitale : il faut qu’ils comprennent comment leurs corps interagissent avec le monde et soient capables d’anticiper les conséquences.

Sans cette forme de bon sens, les risques sont réels. Comme l’explique Yin Cui, chercheur chez NVIDIA : « Sans connaissance basique du monde physique, un robot pourrait tomber ou casser quelque chose, mettant en danger son environnement et les personnes autour. »

C’est donc en construisant cet héritage du bon sens humain que NVIDIA prépare la prochaine génération d’IA.

Une équipe mondiale d’analystes, provenant de disciplines diverses telles que la bioingénierie, le commerce et la linguistique, travaille à constituer des bases de données essentielles. Elles servent ensuite à entraîner ces IA à raisonner.

La Fabrication des Données

Un des projets majeurs de cette équipe est la création de modèles fondamentaux du monde physique. Ces environnements virtuels génèrent des réseaux neuronaux profonds, plus sûrs et efficaces, basés sur des domaines simulés qui servent d’entraînement aux modèles.

Tout commence par un groupe d’annotateurs qui créent des paires question-réponse à partir de vidéos issues du monde réel. Cela peut aller d’images de poulets dans une basse-cour à des voitures circulant en campagne.

Par exemple, un annotateur pourrait demander : « Quelle main utilise cette personne pour couper les spaghettis ? »

Exemple tiré du jeu de données d’évaluation Cosmos Reason

Les annotateurs proposent ensuite quatre réponses possibles, notées de A à D. Le modèle reçoit ces données et doit raisonner pour choisir la bonne réponse.

« Nous construisons en fait une sorte d’examen pour le modèle », explique Yin Cui. « Toutes nos questions sont à choix multiples, semblables à celles que l’on trouve dans un examen scolaire. »

Ces paires Q&R font ensuite l’objet d’une validation rigoureuse par des analystes comme Michelle Li. Son expérience en santé publique et analyse de données lui permet de prendre du recul et de vérifier que le contenu est en accord avec les objectifs du projet.

Après validation, les données sont transmises aux responsables du projet avant d’être intégrées aux modèles. Ces derniers les ingèrent via un apprentissage par renforcement, se familiarisant ainsi avec les limites du monde physique.

Applications de l’IA à Capacité de Raisonnement

Les modèles de raisonnement se distinguent par leur capacité à comprendre le temps et à anticiper des conséquences. Ils peuvent analyser une situation, envisager plusieurs scénarios probables et choisir le plus plausible.

Autrement dit, ces IA tentent d’émuler la pensée humaine en expliquant leur démarche, ce qui offre une meilleure transparence à l’utilisateur.

Par exemple, on peut demander au modèle d’analyser une vidéo montrant deux voitures circulant sur une route et poser la question : « Que se passerait-il si les deux voitures roulaient dans la même voie en sens inverse ? » Le modèle raisonnant anticipera un accident probable.

« Nous créons un modèle de raisonnement pionnier, centré sur l’IA physique », précise Tsung-Yi Lin, scientifique principal chez NVIDIA.

La qualité des données produites par l’équipe de fabrication sera essentielle pour permettre le développement d’agents autonomes intelligents et d’IA physiques capables d’interagir en toute sécurité avec le monde réel, au fur et à mesure que l’innovation progresse.

Points à retenir

  • Le sens commun, acquis de manière naturelle par les humains à travers l’expérience, est une compétence rare et difficile à enseigner aux intelligences artificielles.
  • NVIDIA travaille sur des modèles capables de comprendre et de raisonner dans des environnements physiques grâce à des bases de données construites à partir de vidéos réelles annotées et validées.
  • Le principal défi est de transmettre à ces IA des notions de spatialité et de temporalité indispensables à leur interaction sécurisée dans le monde réel, notamment pour la robotique ou les véhicules autonomes.
  • Les modèles à capacité de raisonnement peuvent anticiper des conséquences, ce qui ouvre la porte à des applications plus sûres et plus fiables dans des domaines variés.
  • La qualité et la pertinence des données utilisées pour l’apprentissage sont déterminantes pour le succès et la pertinence des modèles développés.

Au final, on se rend compte que d’inculquer du bon sens à une machine, ce n’est pas si simple. Peut-être qu’un jour les IA nous apprendront elles-mêmes à ne pas faire confiance à notre intuition — finalement, qui a besoin d’expérience quand on a des algorithmes ? Mais bon, pour l’instant, mieux vaut leur enseigner comment on marche avant de leur demander de courir.


Partager : X Facebook WhatsApp LinkedIn Reddit
3 thoughts on “Comment Apprendre à un IA à Raisonner ? Grâce aux Humains”
  1. L’approche de NVIDIA pour enseigner le bon sens aux IA est fascinante. Cela pourrait vraiment transformer notre interaction avec ces technologies, rendant nos vies encore plus sûres et enrichissantes.

  2. C’est fascinant de voir comment l’IA peut apprendre à raisonner comme nous ! Ces avancées ouvrent un monde de possibilités pour un futur où technologie et créativité se rencontrent.

  3. C’est fascinant de voir comment l’intelligence artificielle progresse. Apprendre à donner du bon sens aux machines pourrait vraiment changer notre quotidien, surtout dans la santé des enfants !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *