Google DeepMind a annoncé lundi (6 janvier) la création d’une nouvelle équipe dédiée à l’élaboration de modèles génératifs “massifs” capables de “simuler le monde”. Ces modèles représentent une avancée significative dans les capacités de l’intelligence artificielle (IA) en matière de prise de décision, de planification et de créativité.
Les modèles mondiaux sont des structures computationnelles qui permettent aux systèmes d’IA de comprendre et de simuler le monde réel ou virtuel. Ils jouent un rôle crucial pour enseigner aux systèmes d’IA comment naviguer dans un environnement et trouvent des applications étendues dans des domaines tels que la robotique, les jeux vidéo et les systèmes autonomes.
Par exemple, les véhicules autonomes utilisent ces modèles pour simuler les conditions de circulation et de route. Ils sont également utilisés pour former des robots IA généralistes dans divers environnements. Un défi majeur réside dans le manque d’environnements d’entraînement riches, diversifiés et sûrs pour ce que l’on appelle l’IA incarnée.
Dans son offre d’emploi publiée lundi, DeepMind a souligné que le scalabilité des modèles IA est essentiel à l’évolution de la technologie.
« Nous pensons que l’échelle de préentraînement sur des données vidéo et multimodales est sur la voie critique vers une intelligence générale artificielle. Les modèles mondiaux alimenteront de nombreux domaines, tels que le raisonnement visuel et la simulation, la planification pour les agents incarnés, et le divertissement interactif en temps réel », peut-on lire dans l’annonce. PYMNTS a tenté de contacter Google mais n’a pas encore obtenu de réponse.
Tim Brooks, qui a quitté OpenAI en octobre pour rejoindre Google DeepMind, dirigera cette équipe. Chez OpenAI, il était co-responsable du développement de Sora, un modèle de génération vidéo qui a suscité un vif intérêt lors de sa présentation grâce à sa sophistication.
Les offres d’emploi pour cette nouvelle équipe précisent que les nouvelles recrues “collaboreront et s’appuieront” sur les travaux des équipes Gemini, Veo (modèle de génération vidéo) et Genie (modèle mondial) de Google.
Le choix de Google DeepMind de se concentrer sur les modèles mondiaux coïncide avec l’annonce d’une startup d’IA, World Labs, qui a révélé son existence en septembre dernier. Cette startup, dirigée par la pionnière de l’IA de Stanford, Fei-Fei Li, est financée par des figures emblématiques telles que le lauréat du prix Nobel Geoffrey Hinton, Marc Benioff, PDG de Salesforce, et Eric Schmidt, ancien président de Google.
Google DeepMind a déjà développé plusieurs modèles mondiaux, parmi lesquels Genie et Genie 2. Genie 2 a la capacité de transformer du texte et des images en mondes 3D réactifs selon les actions de l’utilisateur, tandis que Genie ne créait que des mondes 2D.
Genie 2 est un modèle d’IA puissant qui apprend à partir d’un vaste ensemble de données vidéo et utilise un processus pour compresser les images vidéo en représentations plus simples et significatives via un autoencodeur. Ces images compressées sont ensuite analysées par un modèle de transformateur qui prédit l’évolution de la vidéo, étape par étape, en utilisant une méthode similaire à celle des modèles de génération de texte comme ChatGPT.
Entraîné sur un ensemble de données vidéo à grande échelle, Genie 2 peut modéliser des interactions entre objets, des animations de personnages complexes, ainsi que des phénomènes physiques (comme la gravité et des effets d’éclaboussure). Le monde qu’il génère peut durer jusqu’à une minute, la plupart étant dans une plage de 10 à 20 secondes.
La concentration élargie de Google DeepMind sur les modèles mondiaux devrait affiner encore davantage les capacités de ses systèmes d’IA, alors qu’elle rivalise avec OpenAI, Meta, Microsoft et Amazon pour offrir des solutions aux entreprises.
Cette dernière innovation enrichit un éventail déjà impressionnant d’innovations, l’une d’elles ayant récemment valu des nominations pour le prix Nobel à son PDG, Demis Hassabis, et à John M. Jumper : AlphaFold2, un modèle d’IA capable de prédire la structure de toutes les protéines connues, résolvant ainsi un défi vieux de 50 ans en biochimie.
Dans un article publié en octobre, les chercheurs de Google DeepMind ont indiqué avoir développé un modèle de langage appelé Habermas Machine, servant d’IA médiatrice pour aider de petits groupes au Royaume-Uni à trouver un terrain d’entente sur des sujets controversés tels que le Brexit ou l’immigration, en rédigeant un “déclaration de groupe” reflétant leurs points de vue communs.
Points à retenir
- Google DeepMind crée une équipe pour développer des modèles génératifs avancés.
- Les modèles mondiaux sont cruciaux pour l’apprentissage de l’IA et ses applications dans divers secteurs.
- Des figures influentes soutiennent le développement de l’IA, telles que Fei-Fei Li et Geoffrey Hinton.
- Genie 2 illustre la capacité à transformer des éléments textuels et visuels en mondes 3D réactifs.
- DeepMind continue de rivaliser avec des géants de l’IA sur le marché des entreprises.
En somme, l’accroissement des capacités des modèles d’IA nous invite à réfléchir sur les implications éthiques et sociétales de ces technologies. À mesure que l’IA devient plus performante, quelles en seront les conséquences sur nos entreprises et notre quotidien ? Les discussions sur les bonnes pratiques d’utilisation de ces outils doivent donc se poursuivre.

Ces avancées en IA me fascinent ! J’imagine déjà comment elles pourraient transformer notre façon de créer et d’interagir. L’innovation est une belle aventure !
Julien, cet article met bien en lumière les avancées de Google DeepMind. J’ai hâte de voir comment ces modèles transformeront notre interaction avec la technologie.
L’évoquer comme un monde à part entière, ces modèles génératifs nous offrent une nouvelle symphonie pour explorer des dimensions inexplorées de la créativité et de l’autonomie. Fascinant !
C’est fascinant de voir comment ces modèles d’IA peuvent transformer notre interaction avec le monde. Imaginons un avenir où nos vies seront influencées par ces avancées technologiques !