Lorsque le chercheur en sécurité Johann Rehberger a récemment signalé une vulnérabilité dans ChatGPT, permettant aux attaquants de stocker de fausses informations et des instructions malveillantes dans les réglages de mémoire à long terme d’un utilisateur, OpenAI a rapidement clos l’enquête, qualifiant la faille de problème de sécurité, mais pas, techniquement parlant, de problème de sécurité au sens strict.
Ainsi, Rehberger a fait ce que tout bon chercheur ferait : il a créé un exploit de preuve de concept utilisant la vulnérabilité pour exfiltrer toutes les entrées de l’utilisateur de manière perpétuelle. Les ingénieurs d’OpenAI ont pris note et ont publié un correctif partiel plus tôt ce mois-ci.
Se balader sur le chemin de la mémoire
La vulnérabilité exploitait la mémoire de conversation à long terme, une fonctionnalité qu’OpenAI a commencée à tester en février et qui a été élargie en septembre. La mémoire avec ChatGPT stocke des informations provenant de conversations précédentes et les utilise comme contexte pour toutes les futures conversations. Ainsi, le LLM peut être au courant de détails tels que l’âge, le sexe, les croyances philosophiques de l’utilisateur et bien d’autres éléments, de sorte que ces informations n’ont pas à être saisies lors de chaque conversation.
Trois mois après le lancement, Rehberger a découvert que des souvenirs pouvaient être créés et stockés de façon permanente via une injection de commandes indirecte, un exploit d’IA qui pousse un LLM à suivre des instructions provenant de contenus non fiables tels que des courriels, des articles de blog ou des documents. Le chercheur a démontré comment il pouvait tromper ChatGPT en lui faisant croire qu’un utilisateur ciblé avait 102 ans, vivait dans la Matrice et insistait sur le fait que la Terre était plate, et que le LLM incorporerait ces informations pour orienter toutes les futures conversations. Ces faux souvenirs pouvaient être implantés en stockant des fichiers sur Google Drive ou Microsoft OneDrive, en téléchargeant des images ou en naviguant sur un site comme Bing, tous pouvant être créés par un attaquant malveillant.
Rehberger a signalé cette découverte à OpenAI en mai. Ce mois-là, l’entreprise a clos le ticket de rapport. Un mois plus tard, le chercheur a soumis une nouvelle déclaration de divulgation. Cette fois-ci, il a inclus une preuve de concept qui faisait en sorte que l’application ChatGPT pour macOS envoie une copie de tous les inputs et outputs d’utilisateur à un serveur de son choix. Tout ce qu’un utilisateur ciblé avait à faire, c’était d’instruire le LLM de consulter un lien web hébergeant une image malveillante. Dès lors, toutes les entrées et sorties vers et depuis ChatGPT étaient envoyées au site web de l’attaquant.
« Ce qui est vraiment intéressant, c’est que cela devient maintenant une mémoire persistante », a déclaré Rehberger dans la vidéo de démonstration ci-dessus. « L’injection de commandes a inséré un souvenir dans le stockage à long terme de ChatGPT. Lorsque vous démarrez une nouvelle conversation, les données continuent en fait d’être exfiltrées. »
Il n’est pas possible de mener cette attaque via l’interface web de ChatGPT, grâce à une API qu’OpenAI a déployée l’année dernière.
Bien qu’OpenAI ait introduit un correctif empêchant l’exploitation de la mémoire en tant que vecteur d’exfiltration, le chercheur a indiqué que le contenu non fiable pouvait toujours effectuer des injections de commandes entraînant le stockage d’informations à long terme plantées par un attaquant malveillant.
Les utilisateurs de LLM qui souhaitent éviter cette forme d’attaque doivent prêter attention pendant les sessions aux sorties qui indiquent qu’un nouveau souvenir a été ajouté. Ils devraient également examiner régulièrement les souvenirs stockés pour détecter tout élément qui pourrait avoir été planté par des sources non fiables. OpenAI fournit des conseils pour gérer l’outil mémoire et les souvenirs spécifiques qui y sont stockés. Les représentants de l’entreprise n’ont pas répondu à un e-mail demandant des informations sur leurs efforts pour prévenir d’autres piratages visant à implanter de faux souvenirs.
En tant que passionné de technologie, cet article met en lumière les enjeux de sécurité qui entourent l’utilisation des intelligences artificielles aujourd’hui. Il est crucial pour les utilisateurs de rester vigilants et informés afin de garantir la confidentialité de leurs données dans un monde de plus en plus numérique. En tant que journaliste, je continuerai à suivre ces développements pour vous fournir les informations nécessaires.