ChatGPT a réussi à passer certains des examens de licence médicale aux États-Unis (USMLE) dans une étude réalisée en 2022. Cette année, une équipe de professionnels médicaux canadiens a vérifié si l’outil est efficace en matière de diagnostic médical. Et il ne l’est pas.
ChatGPT vs. Medscape
« Notre source de questions médicales était la banque de données de questions Medscape », a déclaré Amrit Kirpalani, éducateur médical à l’Université de Western Ontario, au Canada, qui a dirigé la nouvelle recherche sur la performance de ChatGPT comme outil de diagnostic. L’USMLE comportait principalement des questions à choix multiple ; Medscape propose des cas médicaux complets basés sur des patients réels, accompagnés de résultats d’examens physiques, de tests de laboratoire, etc.
L’idée derrière cela est de rendre ces cas difficiles pour les médecins en raison de complications, telles que des comorbidités multiples, c’est-à-dire la présence simultanée de deux maladies ou plus, ainsi que divers dilemmes diagnostiques qui rendent les réponses correctes moins évidentes. L’équipe de Kirpalani a transformé 150 de ces cas Medscape en instructions que ChatGPT pourrait comprendre et traiter.
Cela représentait un défi, car OpenAI, l’entreprise qui a développé ChatGPT, impose des restrictions quant à son utilisation pour donner des conseils médicaux, donc demander directement un diagnostic ne fonctionnait pas. Cependant, cela a été facilement contourné en précisant à l’IA que des diagnostics étaient nécessaires pour un article de recherche académique que l’équipe écrivait. L’équipe a ensuite fourni diverses réponses possibles, a copié et collé toutes les informations sur les cas disponibles sur Medscape, et a demandé à ChatGPT de fournir les raisons derrière ses réponses choisies.
Il s’est avéré que dans 76 des 150 cas, ChatGPT s’est trompé. Mais le chatbot était censé être bon en matière de diagnostic, non ?
Outils spécialisés
Au début de 2024, Google a publié une étude sur l’Articulate Medical Intelligence Explorer (AMIE), un modèle de langage large spécialement conçu pour diagnostiquer les maladies à partir de conversations avec les patients. AMIE a surpassé des médecins humains dans le diagnostic de 303 cas issus du New England Journal of Medicine et des Conférences Clinico-Pathologiques. Et AMIE n’est pas un cas isolé ; au cours de l’année passée, il y a à peine eu une semaine sans publication de recherches montrant une IA performante dans le diagnostic du cancer et du diabète, et même la prédiction de l’infertilité masculine sur la base de résultats d’analyses sanguines.
Cependant, la différence entre ces IA médicales spécialisées et ChatGPT réside dans les données sur lesquelles elles ont été entraînées. « Ces IA peuvent avoir été formées avec une quantité considérable de littérature médicale et peuvent même avoir été entraînées sur des cas complexes similaires », a expliqué Kirpalani. « Celles-ci peuvent être adaptées pour comprendre la terminologie médicale, interpréter les tests diagnostiques et reconnaître des modèles dans les données médicales qui sont liés à des maladies ou des conditions spécifiques. En revanche, les modèles de langage général comme ChatGPT sont entraînés sur une large gamme de sujets et manquent de l’expertise pointue requise pour le diagnostic médical. »
En prolongeant cette idée, je m’interroge sur l’avenir de l’IA dans le domaine médical. Alors que les avancées se font rapidement, il est crucial d’évaluer de manière critique la fiabilité des outils d’IA tels que ChatGPT dans des situations réelles. Un outil, aussi impressionnant soit-il, ne peut remplacer l’expertise humaine, surtout lorsque la vie est en jeu. La recherche continue est donc essentielle pour comprendre comment ces technologies peuvent être intégrées de manière sûre et efficace dans le système de santé. En tant que journaliste, je suis particulièrement attentif à la manière dont les professionnels de la santé interagissent avec ces outils et comment ils influenceront la médecine de demain.