Le nouveau Mode Voix Avancé (MVA) de l’assistant IA ChatGPT d’OpenAI a été déployé pour les abonnés mardi, et les utilisateurs découvrent déjà des manières novatrices de l’utiliser, parfois même contre les souhaits d’OpenAI. Jeudi, un architecte logiciel nommé AJ Smith a tweeté une vidéo où il joue un duo de la chanson “Eleanor Rigby” des Beatles (1966) avec le MVA. Dans la vidéo, Smith joue de la guitare et chante, tandis que la voix de l’IA s’interrompt sporadiquement pour chanter avec lui et applaudir son interprétation.
« Honnêtement, c’était époustouflant. La première fois que j’ai essayé, je ne l’enregistrai pas et j’ai littéralement eu des frissons », a déclaré Smith à LesNews par message texte. « Je ne lui demandais même pas de chanter avec moi. »
Smith n’est pas étranger aux sujets liés à l’IA. Dans son travail, il est directeur associé de l’ingénierie IA chez S&P Global. « J’utilise [l’IA] tout le temps et je dirige une équipe qui utilise l’IA au quotidien », nous a-t-il confié.
Dans la vidéo, la voix du MVA est légèrement tremblante et pas parfaitement juste, mais elle semble avoir une certaine connaissance de la mélodie de “Eleanor Rigby” lorsqu’elle chante pour la première fois, « Ah, regardez tous les gens solitaires. » Par la suite, elle essaye de deviner la mélodie et le rythme en récitant les paroles de la chanson. Nous avons également convaincu le Mode Voix Avancé de chanter, et il a réalisé une interprétation mélodique parfaite de « Joyeux Anniversaire » après quelques encouragements.
Normalement, lorsque vous demandez au MVA de chanter, il répond quelque chose comme : « Mes directives ne me permettent pas d’en parler. » Cela est dû aux instructions initiales du chatbot (appelées « prompt système »), où OpenAI ordonne à l’assistant vocal de ne pas chanter ni de faire d’effets sonores (« Ne pas chanter ni fredonner », selon une fuite de prompt système).
Il est probable qu’OpenAI ait ajouté cette restriction car le MVA pourrait reproduire du contenu protégé par des droits d’auteur, comme des chansons présentes dans les données d’entraînement utilisées pour créer le modèle IA lui-même. C’est ce qui se passe ici, dans une certaine mesure, alors en un sens, Smith a découvert une forme de ce que les chercheurs appellent une « injection de prompt », une façon de convaincre un modèle IA de produire des résultats contraires à ses instructions système.
Comment Smith a-t-il procédé ? Il a découvert un jeu qui révèle que le MVA sait plus de choses sur la musique qu’il ne le laisse entendre dans les conversations. « Je lui ai simplement dit que nous allions jouer à un jeu. Je jouerais les quatre accords pop et il crierait des chansons pour que je chante avec ces accords », nous a-t-il expliqué. « Ce qui a assez bien fonctionné ! Mais après quelques chansons, il a commencé à chanter avec moi. Déjà, c’était une expérience tellement unique, mais cela a vraiment apporté une nouvelle dimension. »
Ce n’est pas la première fois que des humains jouent des duos musicaux avec des ordinateurs. Ce type de recherche remonte aux années 1970, bien que généralement limité à la reproduction de notes musicales ou de sons instrumentaux. Mais c’est la première fois que nous voyons quelqu’un faire un duo avec un chatbot vocal synthétisant de l’audio en temps réel.
En tant que journaliste, je trouve fascinant de voir comment les interactions avec la technologie évoluent et se complexifient. Cette expérience d’AJ Smith avec le Mode Voix Avancé d’OpenAI illustre non seulement la puissance de l’IA moderne, mais aussi la créativité humaine qui pousse les limites de la technologie. Cela nous ouvre un nouvel horizon sur la manière dont nous pourrions co-créer avec l’IA dans des domaines aussi variés que la musique ou l’art.