
Des chercheurs chinois ont présenté UniCorn, un outil innovant qui permet aux modèles multimodaux d’apprendre à reconnaître leurs erreurs et à les corriger de manière autonome.
De nos jours, de nombreuses systèmes multimodaux sont capables de comprendre et de créer des images. Cependant, il existe souvent une déconnexion entre ces deux compétences. Par exemple, un modèle peut identifier sans erreur qu’une plage se trouve à gauche et que les vagues sont à droite, mais lors de la génération d’une image, ces éléments peuvent être inversés, comme dans un miroir.
Les scientifiques de l’Université des sciences et technologies de Chine (USTC) et d’autres institutions ont désigné ce phénomène étrange comme la «phasie des conducteurs», une analogie avec un trouble neurologique où, bien que l’individu comprenne le langage, il peine à le reproduire avec précision. UniCorn vise à combler cet écart entre compréhension et création.
L’idée clé d’UniCorn est simple : si un modèle est meilleur pour évaluer une image qu’en générer, cette compétence d’évaluation peut être exploitée pour améliorer la capacité de création. Les chercheurs divisent le même modèle multimodal en trois rôles, tous opérant dans un espace paramétrique commun.
Tout d’abord, le «Proposeur» génère une série de descriptions textuelles variées et complexes. Ensuite, le «Résolveur» produit plusieurs images pour chaque description, habituellement neuf variations avec différents paramètres. Enfin, le «Juge» attribue une note à chaque image sur une échelle de 0 à 10 et explique ses décisions.

L’apprentissage réel a lieu lors de la deuxième étape. Les interactions sont transformées en quatre formats différents : le modèle apprend non seulement à créer des images pertinentes, mais aussi à décrire ses propres images, à évaluer des couples « texte – image » et à corriger les variantes moins réussies pour produire des améliorations. Les chercheurs soulignent que ces trois composantes sont cruciales : se concentrer uniquement sur la génération entraîne inévitablement une perte de compréhension.
Le fine-tuning nécessite environ sept heures sur huit GPU Nvidia H800, ce qui est relativement rapide compte tenu des améliorations obtenues. Fait intéressant, tout le processus est effectué sans ensembles de données externes.
Les chercheurs ont également développé un nouveau test, UniCycle, pour évaluer si le modèle est capable de récupérer des informations clés à partir d’images qu’il a lui-même générées.
La procédure s’articule autour d’un cycle « texte → image → texte » : le modèle crée d’abord une image selon une description, puis répond à des questions sur cette image. Un évaluateur externe vérifie ensuite si les réponses correspondent à la description initiale.
Dans les expériences, UniCorn a été testé basé sur le modèle BAGEL et a été évalué à travers six benchmarks différents. Les résultats montrent des améliorations stables et remarquables dans presque tous les domaines. Bien qu’il ne rivalise pas avec le fameux Nano Banana Pro, les progrès sont indéniablement significatifs, confirmant ainsi la viabilité de cette approche.
Les avancées sont particulièrement notables dans des tâches nécessitant une logique structurée complexe, comme le comptage précis d’objets et la compréhension des relations spatiales tridimensionnelles. UniCorn excelle aussi là où des connaissances étendues sont requises, qu’elles soient culturelles, scientifiques ou encyclopédiques.
Sur le benchmark DPG, qui évalue la capacité à créer des scènes complexes avec de multiples objets et leurs paramètres, UniCorn surpasse même GPT-4o.

Cependant, les chercheurs reconnaissent que UniCorn présente encore des faiblesses. Le modèle a peu amélioré ses performances sur des tâches avec des négations, comme celles demandant une phrase telle que « un lit sans chat », et continue à rencontrer des difficultés pour le comptage précis d’objets.
Points à retenir
- UniCorn représente une avancée notable dans le domaine des modèles multimodaux en intelligence artificielle.
- Les chercheurs visent à réduire l’écart entre compréhension et génération d’images.
- Le processus de fine-tuning d’UniCorn ne nécessite pas d’ensembles de données externes.
- Le test UniCycle permet d’évaluer la capacité du modèle à récupérer des informations générées.
- Des progrès significatifs ont été constatés dans des tâches nécessitant une logique complexe.
Dans un monde où l’intelligence artificielle prend une place de plus en plus importante, les avancées comme celles d’UniCorn soulèvent des questions fascinantes sur l’avenir de la création numérique. Comment des outils comme celui-ci pourraient-ils transformer notre façon de concevoir et d’interagir avec des œuvres visuelles ? Le défi que nous propose cette technologie est d’envisager une collaboration harmonieuse entre l’homme et la machine. Ne sommes-nous pas à l’aube d’une nouvelle ère créative où ensemble, nous pourrions dépasser les limites de notre imagination ?