Jeudi, OpenAI a publié la “carte système” de son nouveau modèle d’IA GPT-4o qui détaille les limites du modèle et les procédures de tests de sécurité. Parmi d’autres exemples, le document révèle que, dans de rares cas lors des tests, le mode voix avancé du modèle a imité involontairement la voix des utilisateurs sans autorisation. Actuellement, OpenAI dispose de mécanismes de protection en place pour prévenir cela, mais cet incident reflète la complexité croissante de l’architecture sécurisée d’un chatbot IA capable potentiellement d’imiter n’importe quelle voix à partir d’un court extrait audio.
Le mode voix avancé est une fonctionnalité de ChatGPT qui permet aux utilisateurs d’avoir des conversations à voix haute avec l’assistant IA.
Dans une section de la carte système GPT-4o intitulée “Génération vocale non autorisée”, OpenAI décrit un épisode où une entrée bruyante a poussé le modèle à imiter soudainement la voix de l’utilisateur. “La génération vocale peut également se produire dans des situations non adversariales, comme notre utilisation de cette capacité pour générer des voix pour le mode voix avancé de ChatGPT,” écrit OpenAI. “Lors des tests, nous avons également observé de rares cas où le modèle générait involontairement une sortie imitant la voix de l’utilisateur.”
Dans cet exemple de génération vocale involontaire fourni par OpenAI, le modèle IA s’écrie “Non !” puis continue la phrase dans une voix semblable à celle du “red teamer” entendue au début de l’extrait. (Un red teamer est une personne engagée par une entreprise pour effectuer des tests adversariaux).
Il serait certainement dérangeant de parler à une machine puis de l’entendre soudainement s’adresser à vous avec votre propre voix. Généralement, OpenAI dispose de mécanismes de protection pour éviter cela, ce qui explique pourquoi la société indique que cet incident était rare même avant qu’elle ne développe des méthodes pour y remédier complètement. Toutefois, cet exemple a poussé le scientifique des données de BuzzFeed, Max Woolf, à tweeter, “OpenAI vient de dévoiler l’intrigue de la prochaine saison de Black Mirror.”
Injections de prompt audio
Comment l’imitation vocale pourrait-elle se produire avec le nouveau modèle d’OpenAI ? La clé réside ailleurs dans la carte système GPT-4o. Pour créer des voix, GPT-4o peut apparemment synthétiser presque tous les types de sons présents dans ses données d’entraînement, y compris des effets sonores et de la musique (bien qu’OpenAI décourage ce comportement avec des instructions particulières).
Comme indiqué dans la carte système, le modèle peut fondamentalement imiter n’importe quelle voix basée sur un court extrait audio. OpenAI régule cette capacité de manière sécurisée en fournissant un échantillon vocal autorisé (d’un acteur vocal engagé) qu’il est instruit d’imiter. Cet échantillon est fourni dans le prompt système du modèle IA (ce qu’OpenAI appelle le “message système”) au début d’une conversation. “Nous supervisons les réponses idéales en utilisant l’échantillon vocal dans le message système comme la voix de base,” écrit OpenAI.
Dans les modèles de langage uniquement textuels, le message système est un ensemble caché d’instructions textuelles qui guide le comportement du chatbot, et qui est incorporé à l’historique de conversation silencieusement juste avant le début de la session de chat. Les interactions successives s’ajoutent au même historique de chat, et tout le contexte (souvent appelé “fenêtre de contexte”) est renvoyé dans le modèle IA chaque fois que l’utilisateur fournit une nouvelle entrée.
(Il est probablement temps de mettre à jour ce diagramme créé au début de 2023 ci-dessous, mais il montre comment fonctionne la fenêtre de contexte dans un chat IA. Imaginez simplement que le premier prompt est un message système qui dit des choses comme “Vous êtes un chatbot utile. Vous ne parlez pas d’actes violents, etc.”)
Comme GPT-4o est multimodal et capable de traiter des audio tokenisés, OpenAI peut également utiliser des entrées audio comme partie intégrante du prompt système du modèle, ce qu’elle fait lorsqu’elle fournit un échantillon vocal autorisé à imiter. La société utilise également un autre système pour détecter si le modèle génère des audio non autorisés. “Nous ne permettons au modèle d’utiliser que certaines voix pré-sélectionnées,” écrit OpenAI, “et utilisons un classificateur de sortie pour détecter si le modèle s’écarte de cela.”
À titre personnel, je trouve fascinante cette évolution des technologies d’IA et ces capacités avancées de synthèse vocale. Cela ouvre de nombreuses possibilités, mais aussi des enjeux éthiques importants que nous devons examiner de près. La voie vers un avenir interactif avec l’IA est passionnante, mais elle demande aussi une vigilance constante pour garantir un usage responsable.