Que ce soit pour décrire le bruit d’un moteur de voiture défectueux ou pour imiter le miaulement du chat de votre voisin, reproduire des sons avec sa voix peut s’avérer utile lorsque les mots ne suffisent pas à exprimer un concept. L’imitation vocale est l’équivalent sonore du dessin rapide visant à communiquer une idée – sauf qu’au lieu d’utiliser un crayon pour illustrer une image, on utilise notre appareil vocal pour exprimer un son. Bien que cela puisse sembler difficile, c’est quelque chose que nous faisons tous instinctivement : essayez d’imiter le sirène d’une ambulance, le croassement d’un corbeau ou le son d’une cloche.

Des chercheurs du MIT, au sein du laboratoire d’informatique et d’intelligence artificielle (CSAIL), se sont inspirés des sciences cognitives liées à la communication pour développer un système d’intelligence artificielle capable de produire des imitations vocales ressemblant à celles des humains, sans aucune formation préalable, et sans avoir jamais « entendu » d’impression vocale humaine auparavant.

Pour y parvenir, les chercheurs ont conçu leur système de manière à produire et interpréter les sons de manière similaire à nous. Ils ont commencé par modéliser le tractus vocal humain, simulant comment les vibrations provenant des cordes vocales sont façonnées par la gorge, la langue et les lèvres. Ensuite, ils ont utilisé un algorithme d’IA inspiré de la cognition pour contrôler ce modèle de tractus vocal et générer des imitations, tenant compte des manières contextuelles dont les humains choisissent de communiquer les sons.

Ce modèle peut efficacement prendre de nombreux sons du monde et générer une imitation humaine de ceux-ci, y compris des bruits tels que le bruissement des feuilles, le sifflement d’un serpent ou la sirène d’une ambulance. Il peut également être utilisé dans le sens inverse pour deviner les sons réels à partir d’imitations vocales humaines, à l’instar de certains systèmes de vision par ordinateur qui retracent des images de qualité à partir de croquis. Par exemple, le modèle est capable de distinguer correctement le miaulement d’un humain imitant un chat de son sifflement.

À l’avenir, ce modèle pourrait potentiellement ouvrir la voie à des interfaces « basées sur l’imitation » plus intuitives pour les concepteurs de son, des personnages d’IA plus humains dans la réalité virtuelle et même des méthodes pour aider les étudiants à apprendre de nouvelles langues.

Les co-auteurs principaux — les doctorants du MIT CSAIL Kartik Chandra SM ’23 et Karima Ma, ainsi que le chercheur de premier cycle Matthew Caren — soulignent que les chercheurs en graphismes informatiques ont depuis longtemps reconnu que le réalisme n’est que rarement l’objectif ultime de l’expression visuelle. Par exemple, une peinture abstraite ou le gribouillage d’un enfant peuvent être tout aussi expressifs qu’une photographie.

“Au cours des dernières décennies, les avancées dans les algorithmes de croquis ont conduit à de nouveaux outils pour les artistes, à des progrès en matière d’IA et de vision par ordinateur, ainsi qu’à une compréhension plus approfondie de la cognition humaine,” explique Chandra. “De la même manière qu’un croquis est une représentation abstraite et non photoréaliste d’une image, notre méthode capture des façons abstraites et non phonoréalistes dont les humains expriment les sons qu’ils entendent. Cela nous apprend sur le processus d’abstraction auditive.”

Video thumbnail
Jouez vidéo

“L’objectif de ce projet était de comprendre et de modéliser de manière computationnelle l’imitation vocale, que nous considérons comme l’équivalent auditif du croquis dans le domaine visuel,” déclare Caren.

L’art de l’imitation en trois temps

L’équipe a développé trois versions de son modèle, chacune de plus en plus nuancée, afin de les comparer aux imitations vocales humaines. Dans un premier temps, ils ont créé un modèle de base visant à générer des imitations aussi proches des sons réels que possible — mais ce modèle ne correspondait pas vraiment au comportement humain.

Les chercheurs ont ensuite conçu un second modèle “communicatif”. Ce modèle prend en compte ce qui est distinctif d’un son pour un auditeur. Par exemple, vous imiteriez probablement le bruit d’un bateau à moteur en reproduisant le grondement de son moteur, car c’est son aspect auditif le plus distinctif, même s’il n’est pas le plus fort par rapport à, disons, l’éclaboussement de l’eau. Ce deuxième modèle a généré de meilleures imitations que le premier, mais l’équipe souhaitait encore l’améliorer.

Pour aller plus loin, les chercheurs ont ajouté une couche finale de raisonnement à leur modèle. “Les imitations vocales peuvent varier selon l’effort que vous y consacrez. Produire des sons parfaitement précis demande du temps et de l’énergie,” souligne Chandra. Le modèle complet tient compte de cela en essayant d’éviter les énoncés très rapides, bruyants ou à des tonalités très hautes ou basses, qui sont moins susceptibles d’être utilisés dans une conversation. Le résultat : des imitations plus humaines qui correspondent étroitement aux décisions que les humains prennent lorsqu’ils imitent les mêmes sons.

Après avoir construit ce modèle, l’équipe a réalisé une expérience comportementale pour déterminer si les imitations vocales générées par l’IA ou par des humains étaient perçues comme meilleures par des juges humains. Notamment, les participants à l’expérience ont favorisé le modèle d’IA 25 % du temps en général, et jusqu’à 75 % pour une imitation d’un bateau à moteur et 50 % pour une imitation d’un coup de feu.

Vers une technologie sonore plus expressive

Passionné par la technologie pour la musique et l’art, Caren imagine que ce modèle pourrait aider les artistes à mieux communiquer des sons aux systèmes informatiques et à assister les cinéastes ainsi que d’autres créateurs de contenu dans la génération de sons d’IA plus adaptés à un contexte spécifique. Cela pourrait également permettre à un musicien de rechercher rapidement une base de données sonore en imitant un bruit difficile à décrire, par exemple par un texte.

En attendant, Caren, Chandra et Ma examinent les implications de leur modèle dans d’autres domaines, y compris le développement du langage, la manière dont les nourrissons apprennent à parler, et même les comportements d’imitation chez les oiseaux comme les perroquets et les oiseaux chanteurs.

L’équipe a encore des travaux à réaliser avec l’itération actuelle de son modèle : il rencontre des difficultés avec certaines consonnes, comme le « z », ce qui entraîne des impressions inexactes de certains sons, tels que le bourdonnement des abeilles. Ils ne parviennent pas non plus encore à reproduire la façon dont les humains imitent la parole, la musique ou les sons qui sont imités différemment selon les langues, comme le battement de cœur.

Le professeur de linguistique à l’Université de Stanford, Robert Hawkins, affirme que le langage regorge d’onomatopées et de mots qui imitent sans jamais répliquer complètement les choses qu’ils décrivent, comme le son « meow » qui représente très inexactement le bruit que font les chats. “Les processus qui nous amènent du son d’un vrai chat à un mot comme ‘meow’ révèlent beaucoup sur l’interaction complexe entre la physiologie, le raisonnement social et la communication dans l’évolution du langage,” dit Hawkins, qui n’a pas participé à la recherche du CSAIL. “Ce modèle présente une avancée passionnante vers la formalisation et le test de théories de ces processus, montrant que tant les contraintes physiques du tractus vocal humain que les pressions sociales de la communication sont nécessaires pour expliquer la répartition des imitations vocales.”

Caren, Chandra et Ma ont rédigé l’article avec deux autres affiliés du CSAIL : Jonathan Ragan-Kelley, professeur associé au département d’ingénierie électrique et d’informatique du MIT, et Joshua Tenenbaum, professeur en sciences cérébrales et cognitives au MIT et membre du Center for Brains, Minds, and Machines. Leur travail a été soutenu notamment par la Hertz Foundation et la National Science Foundation. Cette recherche a été présentée à SIGGRAPH Asia au début du mois de décembre.

Points à retenir

  • Les chercheurs du MIT ont conçu un système d’IA capable d’imiter des sons humains sans formation préalable.
  • Le modèle s’inspire des mécanismes cognitifs pour générer et interpréter les sons de manière similaire à l’homme.
  • Des applications potentielles incluent des interfaces sonores intuitives et des aides à l’apprentissage des langues.

Cette recherche pose des questions intéressantes sur notre compréhension des sons et de la communication. L’évolution de la technologie pourrait-elle redéfinir notre façon de percevoir et d’interagir avec le monde sonore, impactant ainsi notre culture et notre langue ?



  • Source image(s) : news.mit.edu
  • Source : https://news.mit.edu/2025/teaching-ai-communicate-sounds-humans-do-0109


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *