Les modèles ChatGPT-3.5 et ChatGPT-4 ont démontré leur capacité à produire des diagnostics différentiels à partir de conclusions radiologiques transcrites de cas patients dans une variété de sous-spécialités, selon une étude publiée le 15 octobre dans le magazine Radiology.
Dirigée par Shawn Sun, MD, de l’Université de Californie à Irvine, l’équipe a testé ces modèles sur 339 cas issus du livre de référence Top 3 Differentials in Radiology. Les résultats ont révélé que GPT-3.5 atteignait une précision globale de 53,7 % pour le diagnostic final, tandis que GPT-4 atteignait 66,1 %. Cependant, les déclarations erronées persistent comme un défi majeur.
« L’effet d’hallucination représente une préoccupation majeure pour l’avenir, mais l’amélioration significative avec le modèle GPT-4 est prometteuse », ont commenté Sun et ses collègues.
Cet intérêt grandissant pour ChatGPT en tant qu’outil potentiellement utile dans le domaine médical souligne la nécessité d’évaluations systématiques de ses capacités et de ses limites, selon les auteurs de l’étude. Ils ont examiné l’exactitude, la fiabilité et la répétabilité des diagnostics différentiels générés par ChatGPT à partir de résultats radiologiques transcrits.
Les chercheurs ont sélectionné 339 cas provenant de plusieurs sous-spécialités radiologiques à partir de Top 3 Differentials in Radiology. Ils ont transformé ces cas en requêtes standardisées et ont analysé les réponses pour vérifier leur précision en les comparant avec le diagnostic final et les trois principaux diagnostics différentiels fournis dans le manuel, qui ont servi de vérité de référence.
Ils ont ensuite testé la fiabilité des algorithmes en identifiant les déclarations factuellement incorrectes et les références fictives, tout en mesurant la répétabilité par des réponses indépendantes de chaque algorithme pour 10 cas dans chaque sous-spécialité.
Les résultats clés incluent :
- Dans les 339 cas radiologiques, ChatGPT-3.5 et ChatGPT-4 ont atteint une précision de 53,7 % et 66,1 % (p < 0,001) pour le meilleur diagnostic, avec un score différentiel moyen respectif de 0,5 et de 0,54 (p = 0,06).
- ChatGPT-3.5 a généré des références fictives dans 39,9 % des cas, tandis que 16,2 % des déclarations étaient fausses, contre 14,3 % (p < 0,001) pour les références fictives de ChatGPT-4 et 4,7 % (p < 0,001) pour les déclarations erronées.
- Les tests de répétabilité de ChatGPT-4 ont montré un accord moyen entre 59 % et 93 % pour le diagnostic le plus probable, et entre 26 % et 49 % pour les trois meilleurs diagnostics différentiels selon les sous-spécialités.
« ChatGPT a fourni des diagnostics précis à partir de résultats radiologiques transcrits pour une majorité des cas ; cependant, des problèmes d’hallucination et de répétabilité subsistent », ont noté les chercheurs.
Les chercheurs estiment que le taux de moins de 5 % de déclarations fausses dans les cas traités par ChatGPT-4 pourrait être acceptable pour la plupart des usages éducatifs alimentaires. Ils suggèrent que l’utilisation de ces algorithmes sous la supervision d’experts, avec une attente de certains niveaux d’erreurs, pourrait représenter la meilleure approche actuelle.
« La plupart des stagiaires en radiologie et des médecins seront en mesure d’identifier ces déclarations erronées s’ils comprennent que les hallucinations se produisent malgré le ton confiant des réponses de l’algorithme », conclut le groupe.
Dans un éditorial accompagnant, Paul Chang, MD, de l’Université de Chicago, a indiqué que, bien que ces études de faisabilité avec l’IA générative en radiologie soient les bienvenues, elles ont peut-être déjà rempli leur rôle principal.
« Si nous voulons franchir le fossé entre la faisabilité prouvée et l’application dans le monde réel, il est probablement temps de commencer à aborder des problèmes et hypothèses plus complexes en utilisant des approches plus avancées », a-t-il suggéré.
Pour consulter l’étude complète, vous pouvez la trouver ici.
Notre Point de vue
Dans le contexte de l’introduction des IA génératives comme ChatGPT dans le domaine de la radiologie, il est crucial de reconnaître à la fois les avancées et les défis qui se présentent. Tout en célébrant les résultats prometteurs de cette étude, qui témoignent d’un potentiel considérable pour l’assistance des praticiens, il est tout aussi important de ne pas négliger les limites inhérentes à ces technologies. Les erreurs d’interprétation et les références fictives soulignent la nécessité d’une utilisation prudente, accompagnée d’une supervision experte. À l’avenir, il sera essentiel d’explorer des applications plus complexes et de renforcer l’évaluation continue de ces outils afin d’en maximiser l’impact tout en minimisant les risques pour la pratique médicale.
- Source image(s) : www.auntminnie.com
- Source : https://www.auntminnie.com/imaging-informatics/artificial-intelligence/article/15705923/how-accurate-is-chatgpt-for-differential-diagnoses