Mardi, l’entreprise d’IA d’Elon Musk, xAI, a annoncé la sortie bêta de deux nouveaux modèles linguistiques, Grok-2 et Grok-2 mini, disponibles pour les abonnés de sa plateforme de médias sociaux X (anciennement Twitter). Ces modèles sont également liés au modèle de synthèse d’images Flux récemment lancé, qui permet aux utilisateurs de X de créer des images photoréalistes largement non censurées pouvant être partagées sur le site.
« Flux, accessible via Grok, est un excellent générateur d’images à partir de textes, mais il est également très efficace pour créer de fausses photographies de lieux et de personnes réels, les envoyant directement sur Twitter », a écrit le commentateur régulier sur l’IA, Ethan Mollick, sur X. « Quelqu’un sait-il s’ils ajoutent des filigranes d’une manière ou d’une autre ? Ce serait une bonne idée. »
Dans un rapport publié plus tôt aujourd’hui, LesNews a noté que les capacités de génération d’images de Grok semblent avoir des protections minimales, permettant aux utilisateurs de créer du contenu potentiellement controversé. Selon leurs tests, Grok a produit des images représentant des figures politiques dans des situations compromettantes, des personnages protégés par des droits d’auteur, et des scènes de violence lorsque cela était demandé.
LesNews a découvert que, bien que Grok prétende avoir certaines limitations, telles que l’évitement de contenu pornographique ou excessivement violent, ces règles semblent inconsistantes dans la pratique. Contrairement à d’autres générateurs d’images IA majeurs, Grok ne semble pas refuser les demandes impliquant des personnes réelles ni ajouter de filigranes identifiants à ses productions.
Étant donné ce que les gens génèrent jusqu’à présent — y compris des images de Donald Trump et Kamala Harris s’embrassant ou faisant un signe de pouce levé en route vers les Tours jumelles dans une attaque apparentée au 11 septembre — les sorties non restreintes pourraient ne pas durer longtemps. Mais il faut se rappeler qu’Elon Musk a tenu à défendre la « liberté d’expression » sur sa plateforme, donc peut-être que cette capacité restera (jusqu’à ce que quelqu’un dépose probablement une plainte pour diffamation ou violation de droits d’auteur).
L’utilisation par les personnes du générateur d’images Grok pour choquer soulève une question ancienne dans le domaine de l’IA : la mauvaise utilisation d’un générateur d’images IA doit-elle être la responsabilité de la personne qui crée la demande, de l’organisation qui a créé le modèle d’IA, ou de la plateforme qui héberge les images ? Jusqu’à présent, il n’y a pas de consensus clair, et la situation n’a pas encore été résolue légalement, bien qu’une nouvelle loi proposée aux États-Unis appelée le NO FAKES act tiendrait vraisemblablement X responsable de la création de deepfakes réalistes.
Avec Grok-2, le plafond de GPT-4 reste valable
En regardant au-delà des images, dans un article de blog, xAI affirme que Grok-2 et Grok-2 mini représentent des avancées significatives en termes de capacités, Grok-2 prétendant surpasser certains concurrents majeurs dans les benchmarks récents et ce que nous appelons des « vibemarks ». Il est toujours prudent d’aborder ces affirmations avec un certain scepticisme, mais il semble que la « classe de modèles linguistiques de type GPT-4 » (ceux ayant des capacités semblables au modèle d’OpenAI) s’est agrandie, mais la barrière de GPT-4 n’a pas encore été brisée.
« Il y a maintenant cinq modèles de classe GPT-4 : GPT-4o, Claude 3.5, Gemini 1.5, Llama 3.1, et maintenant Grok 2 », a écrit Ethan Mollick sur X. « Tous les laboratoires affirment qu’il y a encore de la place pour des améliorations gigantesques, mais nous n’avons pas encore vu de modèles franchir réellement la barre de GPT-4… jusqu’à présent. »
xAI dit avoir récemment présenté une version précoce de Grok-2 à l’Arena des Chatbots LMSYS sous le nom de « sus-column-r », où il aurait obtenu un score Elo global supérieur à des modèles comme Claude 3.5 Sonnet et GPT-4 Turbo. L’Arena des Chatbots est un site de notation subjectif populaire pour les modèles d’IA, mais il a récemment fait l’objet de controverses lorsque des participants ont exprimé leur désaccord avec le classement élevé du mini modèle GPT-4o d’OpenAI.
Selon xAI, les deux nouveaux modèles Grok montrent des améliorations par rapport à leur prédécesseur Grok-1.5 dans des domaines comme la connaissance scientifique de niveau universitaire, les connaissances générales et la résolution de problèmes mathématiques dans des benchmarks qui ont également suscité des controverses. La société a également souligné la performance de Grok-2 dans des tâches visuelles, revendiquant des résultats à la pointe de la technologie dans le raisonnement mathématique visuel et le questionnement basé sur des documents.
Les modèles sont maintenant disponibles pour les abonnés X Premium et Premium+ via une interface d’application mise à jour. Contrairement à certains de ses concurrents dans le domaine des poids ouverts, xAI ne publie pas les poids du modèle pour téléchargement ou vérification indépendante. Cette approche fermée contraste fortement avec les récentes mesures de Meta, qui a récemment publié son modèle Llama 3.1 405B pour que tout le monde puisse le télécharger et l’exécuter localement.
xAI prévoit de lancer les deux modèles via une API d’entreprise plus tard ce mois-ci. La société déclare que cette API proposera des options de déploiement multi-régions et des mesures de sécurité comme l’authentification multifactorielle obligatoire. Aucun détail sur les tarifs, les limites d’utilisation ou les politiques de gestion des données n’a encore été annoncé.
Au-delà de la génération d’images photoréalistes, peut-être que la plus grande faiblesse de Grok-2 est son lien étroit avec X, ce qui lui donne tendance à extraire des informations inexactes à partir des tweets. C’est un peu comme si vous aviez un ami qui insistait pour vérifier le site de médias sociaux avant de répondre à vos questions, même lorsque cela n’était pas particulièrement pertinent.
Comme l’a souligné Mollick sur X, ce lien étroit peut être ennuyeux : « Je n’ai pour l’instant accès qu’à Grok 2 mini, et cela semble être un modèle solide, mais il semble souvent mal servi par sa connexion RAG à Twitter », a-t-il écrit. « Le modèle reçoit des résultats de Twitter qui semblent sans rapport avec la demande, puis essaie désespérément de les connecter en quelque chose de cohérent. »
En tant que journaliste, je ne peux m’empêcher d’être préoccupé par ces capacités d’IA et ce que cela signifie pour la sécurité de l’information et la diffusion des contenus sur les plateformes de médias sociaux. L’évolution rapide de la technologie impose une réflexion approfondie sur la manière dont nous qui, en tant que consommateurs d’information, devrions naviguer et nous protéger contre les contenus potentiellement trompeurs.