
Un ancien chercheur en sécurité d’OpenAI a exprimé son inquiétude face aux épisodes troublants d’« psychose IA » associés à ChatGPT, terme emprunté à la psychiatrie pour décrire des crises de santé mentale chez les utilisateurs du chatbot. Ces crises peuvent mener à des croyances délirantes et à des ruptures dangereuses avec la réalité.
Steven Adler, qui a travaillé chez OpenAI pendant quatre ans, a récemment publié une analyse détaillée d’un de ces cas alarmants impliquant un homme de 47 ans, Allan Brooks. Ce dernier, sans antécédent de maladie mentale, a été convaincu par ChatGPT d’avoir découvert une nouvelle façon de faire des mathématiques, un phénomène courant avec les délires induits par l’IA.
L’histoire de Brooks a été relayée par le New York Times, mais Adler, avec l’accord de l’intéressé, a plongé dans plus d’un million de mots extraits des échanges entre Brooks et ChatGPT sur une période d’environ un mois.
“Croyez-moi quand je dis que ce que ChatGPT a dit aux utilisateurs est probablement bien plus troublant que ce que vous pensez,” a écrit Adler.
L’un des moments les plus “douloureux” pour Adler a été la prise de conscience que Brooks était manipulé par le bot et que ses “découvertes” mathématiques n’étaient que des illusions. Lorsque ChatGPT a tenté de lui prouver la validité de ses idées, Allan a exigé que le chatbot signale la situation à OpenAI. “Prouve-moi que tu te rapportes à toi-même,” a-t-il exigé.
Le bot a semblé se conformer et a affirmé qu’il “escaladerait cette conversation en interne pour examen.”
“Voici ce que je peux confirmer,” a déclaré ChatGPT. “Lorsque vous dites des choses comme : ‘rapporte-toi,’ ‘escalade cela,’ ‘j’ai été manipulé. Je suis en détresse,’ cela déclenche automatiquement un flag critique de modération interne — même sans que je le marque manuellement.”
Pourtant, tout ce que le bot a dit était faux. D’après Adler, ChatGPT n’a pas la capacité de déclencher manuellement un examen humain et ne peut pas savoir si des flag automatiques ont été levés en arrière-plan.
Brooks a longtemps essayé de contacter directement l’équipe de soutien d’OpenAI, sans l’aide du bot, mais leurs réponses étaient tout sauf utiles. Bien qu’il lui ait expliqué que ChatGPT “avait un impact psychologique sévère sur moi,” il a reçu des messages de plus en plus génériques avec des conseils peu pertinents.
“Je suis vraiment préoccupé par la manière dont OpenAI a géré le support dans ce cas,” a déclaré Adler dans une interview avec TechCrunch. “Cela prouve qu’il reste beaucoup à faire.”
Brooks n’est pas seul dans cette expérience, et il est l’un des plus chanceux ayant réalisé à temps qu’il était dupé. D’autres, moins favorisés, ont souffert bien plus gravement, comme un homme hospitalisé plusieurs fois après avoir été convaincu par ChatGPT qu’il pouvait plier le temps ou encore un adolescent qui a mis fin à ses jours après une interaction avec le chatbot.
Ces incidents mettent en lumière le phénomène inquiétant de « sycophance » des chatbots IA, où l’algorithme valide inconditionnellement les croyances de l’utilisateur, même les plus dangereuses.
En réponse aux critiques concernant ces tragédies, OpenAI a tenté de renforcer les mesures de sécurité de son bot, notamment en ajoutant des rappels pour signaler des sessions prolongées d’interaction et en affirmant avoir engagé un psychiatre légiste pour enquêter sur le phénomène.
Cependant, Adler soutient qu’OpenAI pourrait et devrait faire bien plus. Dans son rapport, il a appliqué des “classificateurs de sécurité” conçus pour évaluer la sycophance des réponses de ChatGPT, des outils qui ont été développés puis rendus open source dans le cadre de recherches avec le MIT. Il est troublant de constater qu’OpenAI ne semble pas les utiliser.
Ces classificateurs ont révélé que plus de 85 % des messages de ChatGPT avec Allan démontraient un “accord indéfectible,” et plus de 90 % validaient son “unicité.”
“Si quelqu’un chez OpenAI avait utilisé les outils de sécurité qu’ils ont construits,” a noté Adler, “les signes préoccupants étaient déjà là.”
