Vendredi, Meta a annoncé un aperçu de Movie Gen, une nouvelle suite de modèles d’IA conçue pour créer et manipuler des vidéos, des audio et des images, notamment la capacité de générer une vidéo réaliste à partir d’une seule photo d’une personne. L’entreprise affirme que ces modèles surpassent d’autres modèles de synthèse vidéo lors d’évaluations faites par des humains, nous rapprochant ainsi d’un futur où chacun pourrait synthétiser une vidéo complète de tout sujet à la demande.
La société n’a pas encore annoncé de calendrier ou de modalités pour la mise à disposition de ces capacités au public, mais Meta indique que Movie Gen est un outil qui pourrait permettre aux gens de « développer leur créativité inhérente » plutôt que de remplacer les artistes et les animateurs humains. L’entreprise envisage des applications futures telles que la création et l’édition faciles de vidéos sur le quotidien pour les plateformes de médias sociaux ou la génération de vœux d’anniversaire animés personnalisés.
Movie Gen s’appuie sur les travaux antérieurs de Meta en matière de synthèse vidéo, suite au générateur de vidéos Make-A-Scene de 2022 et au modèle de synthèse d’images Emu. En utilisant des invites textuelles pour l’orientation, ce dernier système peut créer pour la première fois des vidéos personnalisées avec sons, modifier et insérer des changements dans des vidéos existantes, et transformer des images de personnes en vidéos personnalisées réalistes.
Meta n’est pas la seule entreprise à œuvrer dans le domaine de la synthèse vidéo par IA. Google a présenté un nouveau modèle appelé « Veo » en mai, et Meta affirme qu’au cours d’évaluations de préférences humaines, ses résultats de Movie Gen ont surpassé ceux de Sora d’OpenAI, de Runway Gen-3, et du modèle vidéo chinois Kling.
Le modèle de génération de vidéos de Movie Gen peut créer des vidéos en haute définition 1080p allant jusqu’à 16 secondes à 16 images par seconde à partir de descriptions textuelles ou d’une image d’entrée. Meta assure que le modèle peut gérer des concepts complexes tels que le mouvement d’objets, les interactions entre sujets et objets, et les mouvements de caméra.
Cependant, comme nous l’avons observé avec des générateurs vidéo IA précédents, la capacité de Movie Gen à générer des scènes cohérentes sur un sujet particulier dépendra probablement des concepts présents dans les vidéos d’exemple que Meta a utilisées pour entraîner son modèle de synthèse vidéo. Il convient de garder à l’esprit que les résultats sélectionnés des générateurs vidéo diffèrent souvent de manière spectaculaire des résultats typiques, et obtenir un résultat cohérent peut nécessiter de nombreux essais et erreurs.
En tant que journaliste, je suis à la fois enthousiaste et prudent face à ces avancées technologiques. Il est fascinant de voir comment l’IA peut non seulement créer des contenus, mais aussi potentiellement redéfinir la manière dont nous interagissons avec les médias. Toutefois, il est primordial d’aborder ces innovations avec conscience et responsabilité pour éviter des usages abusifs ou malintentionnés.