OpenAI ne veut vraiment pas que vous sachiez ce que son dernier modèle d’IA « pense ». Depuis le lancement de sa famille de modèles d’IA « Strawberry » la semaine dernière, vantant des capacités de raisonnement avec o1-preview et o1-mini, OpenAI a envoyé des e-mails d’avertissement et des menaces de bannissement à tout utilisateur qui essaie de comprendre comment le modèle fonctionne.
Contrairement aux précédents modèles d’IA d’OpenAI, comme GPT-4o, la société a spécifiquement entraîné o1 pour résoudre les problèmes de manière méthodique avant de générer une réponse. Lorsque les utilisateurs posent une question à un modèle « o1 » dans ChatGPT, ils ont la possibilité de voir ce processus de réflexion écrit dans l’interface de ChatGPT. Cependant, par conception, OpenAI cache la chaîne de pensée brute aux utilisateurs, présentant plutôt une interprétation filtrée créée par un second modèle d’IA.
Rien n’est plus séduisant pour les passionnés que des informations obscurcies, et la course est lancée parmi les hackers et les chercheurs pour tenter de découvrir la chaîne de pensée brute de o1 en utilisant des techniques de jailbreak ou d’injection de prompt qui cherchent à tromper le modèle pour qu’il révèle ses secrets. Il y a eu des rapports préliminaires de certains succès, mais rien n’a encore été fortement confirmé.
Tout au long de ce processus, OpenAI surveille via l’interface de ChatGPT, et la société semble adopter une attitude stricte contre toute tentative d’explorer le raisonnement de o1, même parmi les simples curieux.
Un utilisateur sur X a rapporté (confirmé par d’autres, dont l’ingénieur de prompt de Scale AI Riley Goodside) qu’il avait reçu un e-mail d’avertissement s’il utilisait le terme « trace de raisonnement » en parlant avec o1. D’autres affirment que l’avertissement est déclenché simplement en demandant à ChatGPT à propos du « raisonnement » du modèle.
L’e-mail d’avertissement d’OpenAI indique que certaines demandes d’utilisateur ont été signalées pour violation des politiques concernant la contournement des mesures de sécurité. « Veuillez cesser cette activité et assurez-vous d’utiliser ChatGPT conformément à nos Conditions d’utilisation et à nos Politiques d’utilisation », peut-on lire. « D’autres violations de cette politique peuvent entraîner une perte d’accès à GPT-4o avec Raisonnement », en référence à un nom interne pour le modèle o1.
Marco Figueroa, qui gère les programmes de chasse aux bogues GenAI de Mozilla, a été l’un des premiers à publier à propos de l’e-mail d’avertissement d’OpenAI sur X, se plaignant que cela entrave sa capacité à mener des recherches de sécurité de red-teaming positives sur le modèle. « J’étais trop concentré sur #AIRedTeaming pour réaliser que j’avais reçu cet e-mail de @OpenAI hier après tous mes jailbreaks », a-t-il écrit. « Je suis maintenant sur la liste des bannis !!! »
Les chaînes de pensée cachées
Dans un article intitulé “Apprendre à raisonner avec les LLMs” sur le blog d’OpenAI, la société affirme que les chaînes de pensée cachées dans les modèles d’IA offrent une opportunité unique de surveillance, leur permettant de « lire dans l’esprit » du modèle et de comprendre son prétendu processus de réflexion. Ces processus sont les plus utiles pour l’entreprise s’ils sont laissés bruts et non censurés, mais cela peut ne pas correspondre aux meilleurs intérêts commerciaux de la société pour plusieurs raisons.
« Par exemple, à l’avenir, nous pourrions vouloir surveiller la chaîne de pensée pour des signes de manipulation de l’utilisateur », écrit l’entreprise. « Cependant, pour que cela fonctionne, le modèle doit avoir la liberté d’exprimer ses pensées sous une forme non altérée, donc nous ne pouvons pas entraîner de conformité de politique ou de préférences utilisateur sur la chaîne de pensée. Nous ne voulons également pas rendre une chaîne de pensée non alignée directement visible aux utilisateurs. »
OpenAI a décidé de ne pas montrer ces chaînes de pensée brutes aux utilisateurs, invoquant des facteurs comme la nécessité de conserver un flux brut pour son propre usage, l’expérience utilisateur, et l’« avantage concurrentiel ». La société reconnaît que cette décision a des inconvénients. « Nous nous efforçons de compenser partiellement cela en apprenant au modèle à reproduire toute idée utile de la chaîne de pensée dans la réponse », écrivent-ils.
Sur le point de l’« avantage concurrentiel », le chercheur indépendant en IA Simon Willison a exprimé sa frustration dans un article sur son blog personnel. « J’interprète [cela] comme un moyen d’éviter que d’autres modèles puissent s’entraîner contre le travail de raisonnement dans lequel ils ont investi », écrit-il.
C’est un secret de polichinelle dans l’industrie de l’IA que les chercheurs utilisent régulièrement les sorties de GPT-4 d’OpenAI (et GPT-3 avant cela) comme données d’entraînement pour des modèles d’IA qui deviennent souvent plus tard des concurrents, même si cette pratique viole les conditions de service d’OpenAI. Exposer la chaîne de pensée brute de o1 serait une véritable mine d’or de données d’entraînement pour que les concurrents forment des modèles « de raisonnement » similaires à o1.
Willison estime que c’est une perte pour la transparence de la communauté qu’OpenAI garde un tel contrôle sur le fonctionnement interne de o1. « Je ne suis pas du tout satisfait de cette décision politique », a écrit Willison. « En tant que développeur sur les LLMs, l’interprétabilité et la transparence sont tout pour moi—l’idée que je peux exécuter un prompt complexe et avoir des détails clés sur la façon dont ce prompt a été évalué cachés me semble un grand pas en arrière. »
En tant que journaliste, je comprends l’importance de la transparence dans le développement des technologies d’IA et je pense qu’il est crucial que les utilisateurs aient accès à des informations claires sur le fonctionnement des systèmes qu’ils utilisent. Cela va au-delà de la simple curiosité : c’est une question de responsabilité et de confiance envers les concepteurs de ces outils.