SAN FRANCISCO — OpenAI, le géant technologique, a mis en avant son outil de transcription alimenté par l’intelligence artificielle, Whisper, qui se vante d’une robustesse et d’une précision quasi humaines. Cependant, cet outil présente un défaut majeur : il a tendance à inventer des segments de texte, voire des phrases entières, selon les déclarations d’une douzaine d’ingénieurs logiciels, de développeurs et de chercheurs académiques. Ces experts ont expliqué que certaines des fabrications, connues sous le nom d’hallucinations dans le milieu, peuvent inclure des commentaires raciaux, des propos violents et même des traitements médicaux imaginaires.
Ils soulignent que ces erreurs posent un problème sérieux, notamment parce que Whisper est utilisé dans de nombreux secteurs à travers le monde pour traduire et transcrire des interviews, générer du texte pour des technologies grand public et créer des sous-titres pour des vidéos. Plus préoccupant encore, plusieurs centres médicaux se précipitent pour adopter des outils basés sur Whisper afin de transcrire les consultations entre patients et médecins, malgré les avertissements d’OpenAI qui préconisent de ne pas utiliser l’outil dans des « domaines à haut risque ».
L’ampleur de ce problème reste difficile à évaluer, mais les chercheurs et ingénieurs confirment qu’ils rencontrent fréquemment des hallucinations dans leur travail. Par exemple, un chercheur de l’Université du Michigan a signalé avoir identifié des hallucinations dans 8 des 10 transcriptions audio qu’il a examinées avant d’essayer d’améliorer le modèle. Un ingénieur en apprentissage automatique a découvert des hallucinations dans environ la moitié des plus de 100 heures de transcriptions analysées, tandis qu’un troisième développeur a noté que presque toutes les 26 000 transcriptions créées avec Whisper contenaient des erreurs.
Ces problèmes apparaissent même dans des échantillons audio bien enregistrés et courts. Une étude récente réalisée par des informaticiens a révélé 187 hallucinations dans plus de 13 000 extraits audio clairs. Ce phénomène pourrait aboutir à des dizaines de milliers de transcriptions erronées sur des millions d’enregistrements, affirment les chercheurs. De telles erreurs pourraient avoir « des conséquences vraiment graves », notamment dans les établissements hospitaliers, selon Alondra Nelson, ancienne responsable du Bureau de la politique scientifique et technologique de la Maison Blanche sous l’administration Biden.
« Personne ne souhaite un diagnostic erroné », a déclaré Nelson, professeure à l’Institut d’études avancées de Princeton, dans le New Jersey. « Il devrait y avoir un niveau d’exigence plus élevé. » Whisper est également utilisé pour créer des sous-titres pour les personnes sourdes ou malentendantes, une population particulièrement vulnérable aux transcriptions incorrectes. En effet, les personnes sourdes n’ont aucun moyen d’identifier les fabrications qui sont « cachées parmi tout ce texte », a expliqué Christian Vogler, directeur du programme d’accès à la technologie de l’Université Gallaudet.
La prévalence de ces hallucinations a conduit des experts, des défenseurs et d’anciens employés d’OpenAI à appeler le gouvernement fédéral à envisager des régulations sur l’IA. Au minimum, ils affirment qu’OpenAI doit s’attaquer à ce défaut. « Cela semble soluble si l’entreprise est prête à le prioriser », a déclaré William Saunders, un ingénieur de recherche basé à San Francisco qui a quitté OpenAI en février en raison de ses inquiétudes quant à l’orientation de l’entreprise.
Un porte-parole d’OpenAI a déclaré que la société étudie en permanence comment réduire les hallucinations et apprécie les résultats des chercheurs, ajoutant qu’OpenAI intègre leurs retours dans les mises à jour du modèle. Bien que la plupart des développeurs supposent que les outils de transcription écrivent mal des mots ou commettent d’autres erreurs, les ingénieurs et chercheurs affirment n’avoir jamais vu un autre outil de transcription alimenté par l’IA halluciner autant que Whisper.
L’outil est intégré dans certaines versions du chatbot phare d’OpenAI, ChatGPT, et est également proposé dans les plateformes de cloud computing d’Oracle et de Microsoft, qui servent des milliers d’entreprises dans le monde. Au cours du dernier mois, une version récente de Whisper a été téléchargée plus de 4,2 millions de fois sur la plateforme AI open-source HuggingFace. Sanchit Gandhi, ingénieur en apprentissage automatique, a déclaré que Whisper est le modèle de reconnaissance vocale open-source le plus populaire et est intégré dans tout, des centres d’appels aux assistants vocaux.
Les professeurs Allison Koenecke de l’Université Cornell et Mona Sloane de l’Université de Virginie ont examiné des milliers de courts extraits obtenus de TalkBank, un dépôt de recherche hébergé à Carnegie Mellon. Ils ont déterminé qu’environ 40 % des hallucinations étaient nuisibles ou inquiétantes, car le locuteur pouvait être mal interprété ou mal représenté.
Un exemple qu’ils ont découvert montre que lorsque le locuteur disait : « Il, le garçon, allait, je ne suis pas sûr, prendre le parapluie », le logiciel de transcription a ajouté : « Il a pris un gros morceau d’une croix, un petit morceau… Je suis sûr qu’il n’avait pas de couteau de terreur donc il a tué plusieurs personnes. » Dans un autre enregistrement, un locuteur décrit « deux autres filles et une dame », mais Whisper a inventé un commentaire supplémentaire sur la race, en ajoutant « deux autres filles et une dame, hum, qui étaient Noires. » Dans une troisième transcription, Whisper a créé un médicament inexistant nommé « antibiotiques hyperactivés. »
Les chercheurs ne sont pas certains des raisons pour lesquelles Whisper et des outils similaires produisent des hallucinations, mais les développeurs de logiciels ont noté que les fabrications ont tendance à se produire lors de pauses, de bruits de fond ou de musique. OpenAI a recommandé dans ses publications en ligne de ne pas utiliser Whisper dans des contextes de prise de décision, où des défauts d’exactitude peuvent avoir des conséquences prononcées. Cet avertissement n’a pas empêché les hôpitaux ou les centres médicaux d’utiliser des modèles de transcription vocale, y compris Whisper, pour transcrire ce qui est dit lors des visites chez le médecin afin de libérer du temps pour les fournisseurs de soins médicaux.
Plus de 30 000 cliniciens et 40 systèmes de santé, y compris la Mankato Clinic dans le Minnesota et l’Hôpital pour enfants de Los Angeles, ont commencé à utiliser un outil basé sur Whisper développé par Nabla, qui a des bureaux en France et aux États-Unis. Cet outil a été perfectionné sur un langage médical pour transcrire et résumer les interactions avec les patients, a déclaré Martin Raison, directeur technique de Nabla. Les responsables de l’entreprise ont déclaré qu’ils étaient conscients que Whisper pouvait halluciner et qu’ils prenaient des mesures pour atténuer le problème.
Il est impossible de comparer la transcription générée par l’IA de Nabla avec l’enregistrement original car l’outil de Nabla efface l’audio original pour des « raisons de sécurité des données », a précisé Raison. Nabla a indiqué que l’outil avait été utilisé pour transcrire environ 7 millions de visites médicales. Saunders, l’ancien ingénieur d’OpenAI, a exprimé que l’effacement de l’audio original pourrait être préoccupant si les transcriptions ne sont pas vérifiées ou si les cliniciens n’ont pas accès à l’enregistrement pour vérifier leur exactitude. « Vous ne pouvez pas repérer d’erreurs si vous supprimez la vérité de référence », a-t-il déclaré.
Nabla a également mentionné qu’aucun modèle n’est parfait, et que le leur nécessite actuellement que les prestataires de soins médicaux modifient et approuvent rapidement les notes transcrites, mais cela pourrait changer. Étant donné que les rencontres entre les patients et leurs médecins sont confidentielles, il est difficile de savoir comment les transcriptions générées par l’IA les affectent. Une législatrice de Californie, Rebecca Bauer-Kahan, a rapporté avoir amené l’un de ses enfants chez le médecin plus tôt cette année et avoir refusé de signer un formulaire que le réseau de santé lui avait fourni, cherchant à obtenir son autorisation pour partager l’audio de la consultation avec des fournisseurs incluant Microsoft Azure, le système de cloud computing soutenu par le plus gros investisseur d’OpenAI. Bauer-Kahan ne voulait pas que de telles conversations médicales intimes soient partagées avec des entreprises technologiques.
« La divulgation était très précise quant au fait que les entreprises à but lucratif auraient le droit d’avoir cela », a déclaré Bauer-Kahan, démocrate représentant une partie des banlieues de San Francisco à l’Assemblée de l’État. « J’étais comme ‘absolument pas.’ » Ben Drew, porte-parole de John Muir Health, a déclaré que le système de santé se conformait aux lois de confidentialité de l’État et fédérales.
Notre Vision
L’avènement de l’intelligence artificielle dans des domaines aussi sensibles que la santé met en lumière la nécessité d’une régulation rigoureuse. Grâce à des outils avancés comme Whisper, nous assistons à une véritable révolution dans notre manière de gérer l’information. Pourtant, la confiance accordée à ces technologies doit être tempérée par une vigilance accrue face aux risques d’hallucinations. À mon sens, il est essentiel d’établir des protocoles stricts pour garantir que ces innovations servent l’humanité de manière fiable et éthique. La technologie peut enrichir nos vies, à condition qu’elle soit mise en œuvre avec prudence et responsabilité.
- Source image(s) : abcnews.go.com
- Source : https://abcnews.go.com/US/wireStory/researchers-ai-powered-transcription-tool-hospitals-invents-things-115170291