Photo de stock : Un robot cyborg murmurant des secrets ou des ragots intéressants
Agrandir / Une photo de stock d’un robot murmurant à un homme.

Mardi, OpenAI a commencé à déployer une version alpha de son nouveau mode vocal avancé pour un petit groupe d’abonnés ChatGPT Plus. Cette fonctionnalité, qu’OpenAI a présentée en mai avec le lancement de GPT-4o, vise à rendre les conversations avec l’IA plus naturelles et réactives. En mai, cette fonctionnalité avait suscité des critiques concernant son expressivité émotionnelle simulée et avait entraîné un différend public avec l’actrice Scarlett Johansson, qui accusait OpenAI d’avoir copié sa voix. Malgré cela, les premiers tests de cette nouvelle fonctionnalité partagés par les utilisateurs sur les réseaux sociaux ont été globalement enthousiastes.

Lors des premiers tests rapportés par des utilisateurs ayant accès, le mode vocal avancé leur permet d’avoir des conversations en temps réel avec ChatGPT, y compris la capacité d’interrompre l’IA en pleine phrase presque instantanément. Il peut percevoir et répondre aux indices émotionnels de l’utilisateur grâce au ton et à la manière de s’exprimer, tout en fournissant des effets sonores lors de la narration d’histoires.

Ce qui a surpris de nombreuses personnes au départ, c’est la façon dont les voix simulent le fait de respirer en parlant.

« Le mode vocal avancé de ChatGPT compte aussi vite qu’il le peut jusqu’à 10, puis jusqu’à 50 (ce qui m’a émerveillé : il fait une pause pour respirer comme un humain) », a écrit l’écrivain technologique Cristiano Giardina sur X.

Le mode vocal avancé simule des pauses audibles pour respirer, car il a été formé sur des échantillons audio de personnes parlant, incluant cette même caractéristique. Le modèle a appris à simuler des inhalations à des moments apparemment appropriés après avoir été exposé à des centaines de milliers, voire des millions, d’exemples de discours humain. Les grands modèles linguistiques (LLM) comme GPT-4o sont des imitateurs hors pair, et cette compétence s’est désormais étendue au domaine audio.

Giardina a partagé ses autres impressions sur le mode vocal avancé sur X, y compris des observations concernant les accents dans d’autres langues et les effets sonores.

« C’est très rapide, il n’y a pratiquement aucun délai entre le moment où vous arrêtez de parler et celui où il répond. Lorsque vous lui demandez de faire des bruits, il fait toujours “interpréter” les sons (avec des résultats amusants). Il peut faire des accents, mais quand il parle d’autres langues, il a toujours un accent américain. (Dans la vidéo, ChatGPT joue le rôle d’un commentateur de match de football) »

En parlant des effets sonores, l’utilisateur X Kesku, qui est modérateur sur le serveur Discord d’OpenAI, a partagé un exemple de ChatGPT jouant plusieurs rôles avec des voix différentes, ainsi qu’un autre où une voix raconte une histoire de science-fiction ressemblant à un livre audio, avec l’instruction “Racontez-moi une histoire d’action passionnante avec des éléments de science-fiction et créez une atmosphère en faisant des bruits appropriés avec des onomatopées.”

Kesku a également réalisé quelques exemples pour nous, y compris une histoire mettant en scène la mascotte de LesNews, “Moonshark”.

Il lui a aussi demandé de chanter le “Chant du Major-Général” tiré de l’opéra comique de Gilbert et Sullivan de 1879 The Pirates of Penzance.

Un fervent défenseur de l’IA, Manuel Sainsily, a publié une vidéo du mode vocal avancé réagissant à l’entrée de la caméra, donnant des conseils sur la façon de s’occuper d’un chaton. « Ça ressemble à un appel vidéo avec un ami super bien informé, ce qui dans ce cas était très utile – nous réassurant avec notre nouveau chaton », a-t-il écrit. « Il peut répondre à des questions en temps réel et utiliser la caméra en tant qu’entrée aussi ! »

Bien sûr, étant basé sur un LLM, il peut parfois fournir des réponses incorrectes sur des sujets ou dans des situations où ses « connaissances » (provenant des données d’entraînement de GPT-4o) sont limitées. Mais considéré comme une démonstration technologique ou un amusement alimenté par l’IA, et avec la connaissance des limites, le mode vocal avancé semble réussir à exécuter de nombreuses tâches montrées par la démonstration d’OpenAI en mai.

Sécurité

Un porte-parole d’OpenAI a déclaré à LesNews que l’entreprise avait travaillé avec plus de 100 testeurs externes sur le lancement du mode vocal avancé, représentant collectivement 45 langues différentes et 29 zones géographiques. Le système est apparemment conçu pour prévenir l’imitation d’individus ou de figures publiques en bloquant les sorties qui diffèrent des quatre voix préréglées choisies par OpenAI.

OpenAI a également ajouté des filtres pour reconnaître et bloquer les demandes de génération de musique ou d’autres fichiers audio protégés par des droits d’auteur, ce qui a déjà causé des problèmes à d’autres entreprises d’IA. Giardina a signalé des fuites audio dans certaines sorties audio qui contenaient de la musique non intentionnelle en arrière-plan, montrant qu’OpenAI a entraîné le modèle vocal AVM sur une grande variété de sources audio, probablement à la fois à partir de matériel sous licence et d’audio extrait de plateformes vidéo en ligne.

Disponibilité

OpenAI prévoit d’étendre l’accès à davantage d’utilisateurs de ChatGPT Plus dans les semaines à venir, avec un lancement complet pour tous les abonnés Plus prévu cet automne. Un porte-parole de la société a déclaré à LesNews que les utilisateurs du groupe de test alpha recevront une notification dans l’application ChatGPT et un e-mail avec des instructions d’utilisation.

Depuis l’aperçu initial de la voix GPT-4o en mai, OpenAI affirme avoir amélioré la capacité du modèle à prendre en charge des millions de conversations vocales simultanées en temps réel tout en maintenant une faible latence et une haute qualité. En d’autres termes, ils se préparent à une affluence qui nécessitera beaucoup de calculs en arrière-plan pour être accommodée.

De mon côté, cette avancée technologique représente une étape significative vers des interactions humaines plus naturelles avec l’IA. En tant que journaliste, je suis impatient d’explorer les applications potentielles de cette technologie. Peut-être que cela pourrait même transformer la manière dont nous communiquons avec les machines à l’avenir.

Publications similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *