Le mardi, des chercheurs de Google et de l’Université de Tel Aviv ont dévoilé GameNGen, un nouveau modèle d’IA capable de simuler de manière interactive le classique jeu de tir à la première personne de 1993, Doom, en temps réel en utilisant des techniques de génération d’images IA empruntées à Stable Diffusion. Il s’agit d’un système de réseau neuronal pouvant fonctionner comme un moteur de jeu limité, ouvrant potentiellement de nouvelles possibilités pour la synthèse de jeux vidéo en temps réel à l’avenir.
Par exemple, au lieu de dessiner des images vidéo à l’aide de techniques traditionnelles, des jeux futurs pourraient utiliser un moteur IA pour “imaginer” ou halluciner des graphismes en temps réel dans le cadre d’une tâche de prédiction.
« Le potentiel ici est absurde », a écrit Nick Dobos, développeur d’applications, en réaction à cette nouvelle. « Pourquoi écrire des règles complexes pour le logiciel à la main quand l’IA peut penser chaque pixel pour vous ? »
GameNGen pourrait générer de nouveaux cadres de gameplay de Doom à plus de 20 images par seconde en utilisant une seule unité de traitement tensoriel (TPU), un type de processeur spécialisé similaire à un GPU, optimisé pour les tâches d’apprentissage machine.
Lors des tests, les chercheurs affirment que dix évaluateurs humains ont parfois échoué à distinguer entre des clips courts (de 1,6 secondes à 3,2 secondes) de séquences de jeu réelles de Doom et des sorties générées par GameNGen, identifiant les véritables séquences de jeu dans 58 % ou 60 % des cas.
La synthèse de jeux vidéo en temps réel utilisant ce que l’on pourrait appeler le “rendu neural” n’est pas une idée complètement nouvelle. Le PDG de Nvidia, Jensen Huang, a prévu lors d’une interview en mars, peut-être avec une certaine audace, que la plupart des graphismes de jeux vidéo pourraient être générés par l’IA en temps réel dans cinq à dix ans.
GameNGen s’appuie également sur des travaux antérieurs dans le domaine, cités dans l’article de GameNGen, qui incluent World Models en 2018, GameGAN en 2020, et Genie de Google en mars. De plus, un groupe de chercheurs universitaires a formé un modèle d’IA (appelé “DIAMOND“) pour simuler des jeux vidéo vintage Atari utilisant un modèle de diffusion plus tôt cette année.
En outre, la recherche continue sur les “modèles de monde” ou “simulateurs de monde“, communément associés aux modèles de synthèse vidéo IA comme Gen-3 Alpha de Runway et Sora d’OpenAI, s’oriente vers une direction similaire. Par exemple, lors du lancement de Sora, OpenAI a montré des vidéos de démonstration du générateur IA simulant Minecraft.
La diffusion est essentielle
Dans un article de recherche en prépublication intitulé “Les modèles de diffusion sont des moteurs de jeu en temps réel“, les auteurs Dani Valevski, Yaniv Leviathan, Moab Arar et Shlomi Fruchter expliquent comment fonctionne GameNGen. Leur système utilise une version modifiée de Stable Diffusion 1.4, un modèle de diffusion de synthèse d’images publié en 2022, que les gens utilisent pour produire des images générées par IA.
« Il s’avère que la réponse à ‘peut-il faire tourner DOOM ?’ est oui pour les modèles de diffusion », a écrit Tanishq Mathew Abraham, directeur de la recherche de Stability AI, qui n’était pas impliqué dans le projet de recherche.
En étant dirigé par les actions du joueur, le modèle de diffusion prédit le prochain état du jeu à partir des états précédents, après avoir été formé sur une vaste quantité de séquences de Doom en action.
Le développement de GameNGen a impliqué un processus d’entraînement en deux étapes. Dans un premier temps, les chercheurs ont formé un agent d’apprentissage par renforcement pour jouer à Doom, les sessions de jeu étant enregistrées pour créer un ensemble de données d’entraînement généré automatiquement — les séquences que nous avons mentionnées. Ils ont ensuite utilisé ces données pour former le modèle de diffusion Stable personnalisé.
Cependant, l’utilisation de Stable Diffusion introduit certains problèmes graphiques, comme le notent les chercheurs dans leur résumé : « L’auto-encodeur pré-entraîné de Stable Diffusion v1.4, qui compresse des patchs de 8×8 pixels en 4 canaux latents, entraîne des artefacts significatifs lors de la prédiction des images de jeu, ce qui affecte des détails mineurs et en particulier la barre d’interface utilisateur en bas. »
Et ce n’est pas le seul défi. Garder les images visuellement claires et cohérentes dans le temps (souvent appelé “cohérence temporelle” dans le domaine des vidéos IA) peut être un défi. Les chercheurs de GameNGen affirment que « la simulation interactive du monde est plus qu’une simple génération vidéo très rapide », comme ils l’écrivent dans leur article. « Le besoin de se baser sur un flux d’actions d’entrée qui n’est disponible que tout au long de la génération brise certaines hypothèses des architectures de modèles de diffusion existantes », y compris la génération répétée de nouveaux cadres sur la base des précédents (appelée “autoregression”), ce qui peut conduire à une instabilité et à une rapide dégradation de la qualité du monde généré au fil du temps.
En tant que passionné de technologies émergentes, je trouve fascinant de voir comment des avancées comme GameNGen pourraient révolutionner le paysage des jeux vidéo en rendant la création et l’expérience de jeu plus dynamiques et immersives. C’est une époque excitante pour intégrer l’IA et le jeu, et j’ai hâte de voir ce que l’avenir nous réserve.