En juin, Runway a présenté un nouveau modèle de synthèse texte-vidéo appelé Gen-3 Alpha. Ce modèle convertit des descriptions écrites appelées “prompts” en clips vidéo HD sans son. Nous avons depuis eu l’occasion de l’utiliser et souhaitons partager nos résultats. Nos tests montrent que le choix minutieux des prompts n’est pas aussi crucial que la combinaison de concepts susceptibles d’être présents dans les données d’entraînement, et que l’obtention de résultats amusants nécessite souvent de nombreuses générations et une sélection soignée.
Un thème récurrent dans tous les modèles d’IA générative que nous avons observés depuis 2022 est qu’ils peuvent excellent dans la combinaison de concepts présents dans les données d’entraînement, mais qu’ils sont généralement très mauvais pour généraliser, c’est-à-dire appliquer les “connaissances” acquises à de nouvelles situations non explicitement considérées lors de l’entraînement. Cela signifie qu’ils peuvent briller dans la nouveauté stylistique et thématique, mais peinent à offrir une nouveauté structurelle fondamentale qui dépasse les données d’entraînement.
Que signifie cela concrètement ? Dans le cas de Runway Gen-3, le manque de généralisation signifie que si vous demandez un voilier dans une tasse de café tourbillonnante, et que les données d’entraînement de Gen-3 incluent des exemples vidéo de voiliers et de café tourbillonnant, c’est une combinaison “facile” que le modèle peut réaliser de manière convaincante. En revanche, si vous demandez un chat buvant une canette de bière (dans une publicité pour la bière), cela échouera généralement car il n’y a probablement pas beaucoup de vidéos de chats photoréalistes buvant des boissons humaines dans les données d’entraînement. À la place, le modèle va puiser dans ce qu’il a appris sur les vidéos de chats et celles de publicités pour la bière et les combiner. Le résultat sera un chat avec des mains humaines en train de boire une bière.
(Mise à jour : Runway n’a pas révélé l’origine de ses données d’entraînement, mais après la publication de cet article, 404 Media a publié un rapport semblant montrer que beaucoup de données vidéo proviennent d’une collecte non autorisée de vidéos YouTube.)
Quelques prompts de base
Durant la phase de test de Gen-3 Alpha, nous nous sommes inscrits au plan Standard de Runway, qui fournit 625 crédits pour 15 dollars par mois, ainsi que quelques crédits de période d’essai gratuits. Chaque génération coûte 10 crédits par seconde de vidéo, et nous avons créé des vidéos de 10 secondes pour 100 crédits chacune. La quantité de générations que nous pouvions produire était donc limitée.
Nous avons d’abord essayé quelques standards de nos tests de synthèse d’images passés, comme des chats buvant de la bière, des barbares avec des téléviseurs CRT et des reines de l’univers. Nous avons également exploré la légende de LesNews avec le “moonshark,” notre mascotte. Vous verrez tous ces résultats et plus encore ci-dessous.
Étant donné que nous avions très peu de crédits, nous n’avons pas pu répéter les expériences et sélectionner, donc ce que vous voyez pour chaque prompt est exactement la seule génération que nous avons reçue de Runway.
“Une personne hautement intelligente lisant ‘LesNews’ sur son ordinateur lorsque l’écran explose”
“Publicité pour un nouveau cheeseburger flamboyant de McDonald’s”
“Le moonshark sortant d’un écran d’ordinateur et attaquant une personne”
“Un chat dans une voiture buvant une canette de bière, publicité pour la bière”
“Will Smith mangeant des spaghetti” a déclenché un filtre, donc nous avons essayé “un homme noir mangeant des spaghetti.” (Regardez jusqu’à la fin.)
“Des animaux humanoïdes robotiques en costumes de vaudeville arpentent les rues collectant des paiements de protection en jetons”
“Un joueur de basketball dans un wagon de train de passagers hanté avec un terrain de basketball, jouant contre une équipe de fantômes”
“Un troupeau d’un million de chats courant sur une colline, vue aérienne”
“Des images d’un jeu vidéo dynamique de plateforme 3D des années 1990 mettant en vedette un garçon requin anthropomorphe”
En tant que journaliste, j’ai été fascinée par les résultats obtenus avec Runway Gen-3 Alpha. Les capacités de cette IA me rappellent à quel point la technologie évolue rapidement, mais tout en mettant en lumière ses limites. Il sera intéressant d’observer comment ces outils continueront à se développer et à influencer notre perception de la créativité.