Jeudi, la startup d’IA Black Forest Labs a annoncé le lancement de sa société et la sortie de sa première suite de modèles d’IA texte-image, appelée FLUX.1. Basée en Allemagne, l’entreprise a été fondée par des chercheurs ayant développé la technologie derrière Stable Diffusion et inventé la technique de diffusion latente. Elle vise à créer une IA générative avancée pour les images et les vidéos.
Le lancement de FLUX.1 survient environ sept semaines après le lancement problématique de Stable Diffusion 3 Medium par Stability AI à la mi-juin. L’offre de Stability AI a fait l’objet de critiques généralisées parmi les amateurs de synthèse d’images en raison de ses performances médiocres dans la génération de l’anatomie humaine, les utilisateurs partageant des exemples d’ membres et de corps déformés sur les réseaux sociaux. Ce lancement difficile a suivi le départ de trois ingénieurs clés de Stability AI — Robin Rombach, Andreas Blattmann et Dominik Lorenz — qui ont ensuite cofondé Black Forest Labs avec Patrick Esser, également co-développeur de la diffusion latente et d’autres membres de l’équipe.
Black Forest Labs a été lancée avec la sortie de trois modèles FLUX.1 texte-image : une version “pro” commerciale haut de gamme, une version “dev” intermédiaire avec des poids ouverts pour un usage non commercial, et une version “schnell” à poids ouverts, plus rapide (“schnell” signifie rapide en allemand). Black Forest Labs affirme que ses modèles surpassent les options existantes telles que Midjourney et DALL-E en termes de qualité d’image et de respect des consignes textuelles.
D’après notre expérience, les résultats des deux modèles FLUX.1 haut de gamme sont généralement comparables à ceux de DALL-E 3 d’OpenAI en termes de fidélité aux consignes, avec un photoréalisme qui semble proche de Midjourney 6. Ils représentent une amélioration significative par rapport à Stable Diffusion XL, le dernier lancement majeur de l’équipe sous Stability (si l’on ne compte pas SDXL Turbo).
Les modèles FLUX.1 utilisent ce que l’entreprise appelle une “architecture hybride” combinant des techniques de transformateurs et de diffusion, augmentée à 12 milliards de paramètres. Black Forest Labs indique que ce modèle améliore les modèles de diffusion précédents en intégrant l’appariement de flux et d’autres optimisations.
FLUX.1 semble compétent pour générer des mains humaines, ce qui était un point faible des modèles de synthèse d’images antérieurs comme Stable Diffusion 1.5 en raison d’un manque d’images d’entraînement axées sur les mains. Depuis ces débuts, d’autres générateurs d’images AI comme Midjourney ont également perfectionné les représentations de mains, mais il est notable de voir un modèle à poids ouverts capable de rendre les mains relativement précises dans diverses poses.
Nous avons téléchargé le fichier de poids du modèle FLUX.1 dev depuis GitHub, mais avec 23 Go, il ne rentre pas dans les 12 Go de VRAM de notre carte RTX 3060, il nécessitera donc une quantification pour fonctionner localement (réduisant sa taille), ce qui, selon des discussions sur Reddit, a déjà réussi à certains.
Au lieu de cela, nous avons expérimenté avec les modèles FLUX.1 sur des plateformes d’hébergement cloud AI Fal et Replicate, qui sont payantes, bien que Fal propose des crédits gratuits pour commencer.
Black Forest se projette vers l’avenir
Bien que Black Forest Labs soit une nouvelle entreprise, elle attire déjà des financements d’investisseurs. Elle a récemment clôturé un tour de financement Seed de 31 millions de dollars dirigé par Andreessen Horowitz, avec des investissements supplémentaires de General Catalyst et MätchVC. L’entreprise a également recruté des conseillers de haut niveau, notamment l’exécutif du divertissement et ancien président de Disney Michael Ovitz et le chercheur en IA Matthias Bethge.
“Nous croyons que l’IA générative sera un élément fondamental de toutes les futures technologies,” a déclaré l’entreprise dans son annonce. “En rendant nos modèles accessibles à un large public, nous souhaitons en faire bénéficier tout le monde, éduquer le public et renforcer la confiance dans la sécurité de ces modèles.”
En parlant de “confiance et sécurité”, l’entreprise n’a pas mentionné d’où elle a obtenu les données d’entraînement qui ont appris aux modèles FLUX.1 à générer des images. À en juger par les résultats que nous avons pu produire avec le modèle, incluant des représentations de personnages protégés par des droits d’auteur, Black Forest Labs a probablement utilisé une énorme collecte d’images non autorisée sur Internet, peut-être recueillie par LAION, une organisation qui a collecté les ensembles de données ayant formé Stable Diffusion. C’est une spéculation à ce stade. Bien que l’accomplissement technologique sous-jacent de FLUX.1 soit remarquable, il semble que l’équipe joue aux limites de l’éthique du “fair use” en matière de collecte d’images, à l’instar de ce que faisait Stability AI. Cette pratique pourrait finalement attirer des poursuites judiciaires comme celles intentées contre Stability AI.
Bien que la génération texte-image soit l’accent actuel de Black Forest, l’entreprise prévoit de s’étendre à la génération vidéo ensuite, affirmant que FLUX.1 servira de fondation pour un nouveau modèle texte-vidéo en développement, qui rivalisera avec Sora d’OpenAI, Gen-3 Alpha de Runway et Kling de Kuaishou dans un concours pour altérer la réalité médiatique à la demande. “Nos modèles vidéo permettront une création et un montage précis en haute définition et à une vitesse sans précédent,” affirme l’annonce de Black Forest.
En somme, l’essor de Black Forest Labs et de ses modèles FLUX.1 suscite un intérêt considérable. Pour ma part, je pense que l’IA générative est à un tournant, et les décisions prises aujourd’hui par les entreprises comme Black Forest détermineront l’orientation éthique de cette technologie à l’avenir. Il est impératif de continuer à surveiller ces développements avec une attention particulière sur les implications éthiques et les droits d’auteur.