La semaine dernière, un passionné a découvert en expérimentant avec le nouveau modèle de synthèse d’images Flux qu’il était particulièrement efficace pour reproduire des polices de caractères personnalisées. Bien que des méthodes plus efficaces d’affichage des polices informatiques existent depuis des décennies, cette nouvelle technique est utile pour les amateurs d’images générées par IA, car Flux est capable d’afficher des textes précis, les utilisateurs pouvant maintenant insérer directement des mots rendus dans des polices personnalisées dans leurs créations d’images IA.
Depuis les années 1980 (années 1970 dans le domaine de la recherche), nous avons la technologie pour produire fidèlement des polices de caractères générées par ordinateur sous différentes formes, donc créer une police répliquée par IA n’est pas une grande nouvelle en soi. Cependant, la nouvelle technique signifie que vous pourriez voir apparaître une police particulière dans des images générées par IA, comme un menu sur un tableau noir dans un restaurant photoréaliste ou une carte de visite imprimée tenue par un renard cyborg.
Peu après l’émergence de modèles de synthèse d’images IA grand public comme Stable Diffusion en 2022, certains utilisateurs ont commencé à se demander : Comment puis-je insérer mon propre produit, item vestimentaire, personnage ou style dans une image générée par IA ? Une réponse a fait surface sous la forme de LoRA (adaptation à faible rang), une technique découverte en 2021 qui permet aux utilisateurs d’amplifier leurs connaissances dans un modèle de base d’IA avec des modules complémentaires ayant été personnalisés lors de l’entraînement.
Ces LoRA, comme on les appelle, permettent aux modèles de synthèse d’images de créer de nouveaux concepts qui n’étaient pas à l’origine présents (ou mal représentés) dans les données d’entraînement du modèle de fond. En pratique, les amateurs de synthèse d’images les utilisent pour rendre des styles uniques (par exemple, tout en art de tableau noir) ou des sujets (images détaillées de Spider-Man, par exemple). Chaque LoRA doit être spécialement entraînée en utilisant des exemples fournis par l’utilisateur.
Avant Flux, la plupart des générateurs d’images IA n’étaient pas très bons pour rendre un texte précis dans une scène. Si vous demandiez à Stable Diffusion 1.5 de rendre un panneau disant “fromage”, il renverrait des gribouillis. DALL-E 3 d’OpenAI, sorti l’année dernière, a été le premier modèle grand public à bien traiter du texte. Flux fait encore des erreurs avec les mots et les lettres par moments, mais il est le modèle d’IA le plus capable de rendre du “texte dans le monde” (vous pourriez l’appeler) que nous avons vu jusqu’à présent.
Étant donné que Flux est un modèle ouvert disponible au téléchargement et à la mise au point, ce mois dernier a été la première fois où entraîner une LoRA de police pourrait avoir du sens. C’est exactement ce qu’un passionné d’IA nommé Vadim Fedenko (qui n’a pas répondu à une demande d’interview avant la publication) a récemment découvert.“Je suis vraiment impressionné par le résultat”, a écrit Fedenko dans un post Reddit. “Flux saisit à quoi ressemblent les lettres dans un style/type de police particulier, ce qui permet d’entraîner des LoRA avec des polices, types de caractères spécifiques, etc. Je vais entraîner plus de ces polices bientôt.”
Pour son premier essai, Fedenko a choisi une police de style “Y2K” rappelant celles populaires à la fin des années 1990 et au début des années 2000, publiant le modèle résultant sur la plateforme Civitai le 20 août.Deux jours plus tard, un utilisateur de Civitai nommé “AggravatingScree7189” a posté une seconde LoRA de police qui reproduit une police similaire à celle trouvée dans le jeu vidéo Cyberpunk 2077.
“Le texte était tellement mauvais auparavant que je n’aurais jamais pensé que l’on pouvait faire cela”, a écrit un utilisateur de Reddit nommé eggs-benedryl en réagissant au post de Fedenko sur la police Y2K. Un autre Redditor a écrit : “Je ne savais pas que le journal Y2K était faux jusqu’à ce que je zoome.”
C’est excessif ?
Il est vrai qu’utiliser un réseau de neurones de synthèse d’images profondément entraîné pour rendre une police basique sur un fond simple est probablement excessif. Vous ne voudriez probablement pas utiliser cette méthode pour remplacer Adobe Illustrator lors de la conception d’un document.
“Ça a l’air bien, mais c’est plutôt drôle de voir comment nous réinventons l’idée de polices en tant que LoRA de 300 Mo”, a écrit un commentateur sur Reddit dans un fil de discussion concernant la police de Cyberpunk 2077.
L’IA générative est souvent critiquée pour son impact environnemental, et c’est une préoccupation légitime pour les énormes centres de données cloud. Mais nous trouvons que Flux peut insérer ces polices dans des scènes générées par IA tout en tournant localement sur un RTX 3060 de manière quantifiée (réduite en taille) (et le modèle dev complet peut tourner sur un RTX 3090). La consommation d’électricité est similaire à celle d’un jeu vidéo sur le même PC. Il en va de même pour la création de LoRA : le créateur de la police de Cyberpunk 2077 a entraîné la LoRA en trois heures sur un GPU 3090.
Il y a également des questions éthiques concernant l’utilisation des générateurs d’images IA, notamment comment ils sont entraînés sur des données récoltées sans le consentement des propriétaires de contenu. Bien que la technologie soit divisive parmi certains artistes, une grande communauté l’utilise chaque jour et partage les résultats en ligne à travers des plateformes sociales comme Reddit, ce qui conduit à de nouvelles applications de cette technologie comme celle-ci.
À l’heure où j’écris ces lignes, il n’y a que deux LoRA de polices personnalisées disponibles sur Flux, mais nous avons déjà entendu parler des projets de création de davantage de ces modèles en cours de rédaction. Bien qu’elle soit encore à ses débuts, la technique de création de LoRA de polices pourrait devenir fondamentale si la synthèse d’images IA était largement déployée à l’avenir. Adobe, avec ses propres modèles de synthèse d’images, est probablement en train de surveiller cela.