Si vous n’êtes pas encore familiarisé avec le concept de « modèles du monde », une effervescence d’activité prévue au début de l’année 2025 semble indiquer que ce terme pourrait bientôt devenir courant.

Jensen Huang, PDG de Nvidia, a profité de son discours d’ouverture lors du CES pour présenter une nouvelle plateforme, Cosmos, dédiée à des modèles dits « fondamentaux du monde ». Cosmos constitue un outil d’IA générative capable de produire des vidéos évoquant des mondes virtuels. Le lendemain, DeepMind de Google a annoncé des ambitions similaires dans le cadre d’un projet dirigé par un ancien ingénieur d’OpenAI. Cela arrive quelques mois après que la startup World Labs ait atteint le statut de licorne, c’est-à-dire qu’elle a été évaluée à plus d’un milliard de dollars en seulement quatre mois pour réaliser des projets comparables.

Pour comprendre ce que sont les modèles du monde, il est important de noter que nous sommes à un tournant dans la manière de concevoir et de déployer des machines intelligentes telles que des drones, des robots et des véhicules autonomes. Plutôt que de programmer explicitement un comportement, les ingénieurs se tournent vers la simulation 3D et l’IA pour permettre aux machines d’apprendre par elles-mêmes. Ainsi, les mondes virtuels physiquement précis deviennent une source essentielle de données d’entraînement, permettant d’enseigner aux machines à percevoir, comprendre et naviguer dans un espace tridimensionnel.

Les modèles du monde, analogues aux grands modèles linguistiques tels que ChatGPT, sont donc des outils d’IA générative capables de créer des environnements 3D et de simuler des mondes virtuels. Tout comme ChatGPT est muni d’une interface de discussion intuitive, les interfaces des modèles du monde pourraient permettre à un plus grand nombre de personnes, y compris celles sans compétences techniques en développement de jeux, de concevoir des mondes virtuels en 3D. Elles pourraient également aider les robots à mieux comprendre, planifier et naviguer dans leur environnement.

Pour être clairs, la majorité des premiers modèles du monde, y compris ceux annoncés par Nvidia, génèrent des données d’entraînement spatiales sous forme vidéo. Toutefois, certains modèles sont déjà capables de produire des scènes entièrement immersives. Un outil développé par une startup nommée Odyssey utilise le « gaussian splatting » pour créer des scènes pouvant être intégrées dans des logiciels 3D tels qu’Unreal Engine et Blender. De son côté, Decart a présenté son modèle du monde sous la forme d’une version jouable d’un jeu similaire à Minecraft. DeepMind a également emprunté la voie du jeu vidéo.

Toute cette dynamique témoigne d’un potentiel changement dans la manière dont les graphismes informatiques fonctionnent à un niveau fondamental. En 2023, Huang prédisait qu’à l’avenir, « chaque pixel sera généré, non pas rendu, mais généré ». Récemment, il a adopté un point de vue plus nuancé en affirmant que les systèmes de rendu traditionnels ne disparaîtront probablement pas complètement. Il est cependant clair que l’IA générative, qui prédit les pixels à afficher, pourrait bientôt empiéter sur les tâches réalisées par les moteurs de jeu aujourd’hui.

Les implications pour la robotique sont potentiellement considérables.

Nvidia s’emploie activement à établir le terme « IA physique » pour désigner les systèmes intelligents qui alimenteront des robots mobiles autonomes dans les entrepôts, des drones d’inventaire, des robots humanoïdes, des véhicules autonomes, des tracteurs sans agriculteurs, des robots de livraison, et bien plus encore. Pour permettre à ces systèmes d’exécuter leur travail de manière efficace dans le monde réel, notamment dans des environnements peuplés d’humains, ils doivent s’entraîner dans des simulations physiquement précises. Les modèles du monde pourraient potentiellement générer des scénarios d’entraînement synthétiques de toutes sortes imaginables.

Cette idée justifie le changement dans la manière dont les entreprises envisagent l’avenir de l’IA, et World Labs en est peut-être la meilleure illustration. Fondée par Fei-Fei Li, reconnue comme la marraine de l’IA grâce à son travail fondateur en vision par ordinateur, World Labs se définit comme une entreprise d’intelligence spatiale. Selon elle, pour atteindre une véritable intelligence générale, les IA auront besoin d’une capacité incarnée à « raisonner sur les objets, les lieux et les interactions dans l’espace et le temps en 3D ». Tout comme leurs concurrents, elles cherchent à développer des modèles fondamentaux capables de déplacer l’IA dans un espace tridimensionnel.

À l’avenir, ces modèles pourraient évoluer vers une représentation interne et humaine du monde et de ses règles. Cela pourrait permettre aux IA de prédire comment leurs actions affecteront l’environnement qui les entoure et de planifier des approches raisonnables pour accomplir une tâche. Par exemple, une IA pourrait apprendre que si l’on serre un œuf trop fort, il risque de se fissurer. Toutefois, le contexte compte. Si votre objectif est de le placer dans un carton, soyez délicat, mais si vous préparez une omelette, n’hésitez pas à exercer plus de pression.

Bien que les modèles du monde semblent connaître un certain engouement, il s’agit encore d’un domaine émergent, avec des limitations notables à court terme. L’entraînement et l’exécution de modèles du monde nécessitent des quantités massives de puissance de calcul, même comparées à l’IA d’aujourd’hui. De plus, ces modèles ne sont pas encore constamment en accord avec les règles du monde réel et, comme tout modèle d’IA générative, ils seront influencés par les biais présents dans leurs propres données d’entraînement.

Comme l’écrit Kyle Wiggers de TechCrunch, « un modèle du monde principalement entraîné sur des vidéos de temps ensoleillé dans des villes européennes pourrait avoir du mal à comprendre ou à dépeindre des villes coréennes sous la neige. » Pour ces raisons, les outils de simulation traditionnels comme les moteurs de jeux et de physique continueront à être utilisés encore un certain temps pour générer des scénarios d’entraînement pour les robots. De plus, Yann LeCun, responsable de l’IA chez Meta, qui a longuement réfléchi au concept en 2022, pense que les modèles du monde avancés — semblables à ceux que nous avons en tête — demanderont encore du temps à se développer.

Cependant, c’est un moment passionnant pour les spécialistes de la robotique. Tout comme ChatGPT a marqué un tournant pour l’IA en accédant à la conscience collective, les robots, drones et systèmes d’IA incarnée pourraient être à l’aube d’un moment similaire de percée. Pour y parvenir, des environnements 3D physiquement précis deviendront le terrain d’entraînement de ces systèmes pour apprendre et se développer.

Les premiers modèles du monde pourraient faciliter comme jamais auparavant la génération d’une multitude de scénarios d’entraînement nécessaires pour inaugurer une ère de machines intelligentes sur le plan spatial.

Points à retenir

  • Les modèles du monde présentent un potentiel pour transformer l’entraînement des robots en leur permettant de naviguer et d’interagir dans des environnements 3D complexes.
  • Ces technologies nécessitent une puissance de calcul considérable et ne sont pas encore totalement conformes aux règles du monde réel.
  • Des entreprises comme World Labs et Nvidia explorent comment intégrer des capacités d’intelligence spatiale dans les systèmes d’IA.

En somme, alors que les modèles du monde sont en pleine émergence, ils soulèvent des questions sur leur impact futur sur la robotique et l’IA. Quelles seront les limites de ces technologies et comment innoveront-elles pour surmonter ces obstacles ? Une réflexion sur l’avenir de la technologie s’impose.




By Maria Rodriguez

Maria est Journaliste Trilingue indépendante depuis 2015, elle intervient sur LesNews Le Web est à nous dans les univers : International, Economie, Politique, Culture et d'autres faits de Société

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *