ChatGPT et Gemini : évaluation de la fiabilité des chatbots sur l’hépatite virale

Ces dernières années, l’émergence des plateformes d’intelligence artificielle (IA) a suscité des débats sur leurs avantages et inconvénients dans le domaine médical. L’intelligence artificielle pourrait alléger la charge de travail des systèmes de santé en sensibilisant le public aux maladies. Cependant, des questions demeurent quant à la fiabilité de ces technologies. Ainsi, une étude a été réalisée pour évaluer la connaissance et la fiabilité des chatbots ChatGPT et Gemini sur l’hépatite virale, qui est la cause infectieuse la plus fréquente de cirrhose et de cancer du foie.

Les résultats de cette étude montrent que ChatGPT et Gemini ont répondu avec succès à des questions des Centers for Disease Control and Prevention (CDC) (90,1 % contre 91,9 %) ainsi qu’à des questions posées sur les réseaux sociaux (82,5 % contre 90,0 %). En revanche, les taux de réponses correctes aux questions basées sur les directives n’ont pas été satisfaisants (49,4 % contre 61,4 %). De plus, les taux de reproductibilité de ces chatbots étaient élevés (ChatGPT : 91,3 % contre Gemini : 92 %). Toutefois, les deux chatbots ont montré des résultats faibles concernant les recommandations de traitement dans les directives, avec un taux de réponses correctes de 42,8 %.

Plusieurs études indiquent que ChatGPT réussit à répondre à des questions médicales sur Internet et les réseaux sociaux. Par exemple, Ozgor et al. ont constaté que ChatGPT fournissait des réponses totalement précises dans 91,4 % des cas concernant l’endométriose. D’autres études mentionnent des taux de réponses correctes de 92,5 % pour des questions sur les maladies infectieuses. Dans notre étude, bien que les résultats soient légèrement inférieurs, les taux de réponses entièrement correctes pour les questions sur les réseaux sociaux et du CDC étaient respectivement de 82,5 % et 90,1 %. À noter que ChatGPT a donné des réponses trompeuses à 5 % des questions des réseaux sociaux, mais aucune erreur pour les questions du CDC, ce qui valide son potentiel en tant que source fiable sur l’hépatite virale.

Des études sur la conformité de ChatGPT avec les recommandations médicales montrent des taux de réponses correctes plus faibles. Par exemple, Dyckhoff-Shen et al. ont rapporté que ChatGPT avait répondu correctement à 70 % des questions de la directive Brain Abscess de l’ESCMID. D’autres recherches ont montré des taux de 69,2 % et 61,3 % pour des questions semblables. En revanche, une étude a révélé que l’IA avait un taux de réussite de 89,7 %. Dans notre étude, ChatGPT a fourni des réponses entièrement correctes à la moitié des questions liées aux directives.

Concernant Google Gemini, anciennement connu sous le nom de Google Bard, il a été rapporté comme moins performant que ChatGPT dans une série d’études sur le domaine médical. Par exemple, une étude portant sur l’immuno-oncologie a montré que Gemini offrait un taux de réponses correctes inférieur à celui de ChatGPT-3.5. Cependant, notre étude a révélé que les scores totaux de ChatGPT (3,55) et de Gemini (3,57) étaient similaires, et les taux de réponses correctes étaient équivalents, suggérant que Gemini a atteint des niveaux de performance comparables à ceux de ChatGPT.

Cette étude est la première à évaluer l’adéquation et la fiabilité des chatbots ChatGPT et Gemini face à des questions publiques et basées sur des directives concernant l’hépatite virale. Toutefois, elle présente certaines limitations. La taille restreinte de l’échantillon pour l’évaluation des questions des réseaux sociaux limite la portée des résultats. De plus, les questions sélectionnées ne représentent pas toutes les problématiques recherchées par le grand public. Enfin, bien que les réponses aient été analysées par au moins deux spécialistes, l’interprétation subjective peut influencer le processus de notation.

Points à retenir

  • Les chatbots ChatGPT et Gemini ont montré des résultats variables en matière de fiabilité sur les questions relatives à l’hépatite virale.
  • Bien que les taux de réponses correctes soient globalement élevés pour certaines questions, ils restent insuffisants pour des recommandations de traitement.
  • Les différences de performance entre ChatGPT et Gemini rappellent l’importance de continuellement évaluer l’efficacité des outils d’IA dans un contexte médical.

Dans un monde où l’IA prend une place de plus en plus importante dans le domaine de la santé, ces résultats soulignent l’importance de l’évaluation continue de ces technologies. Comment pouvons-nous garantir que le public reçoit des informations fiables tout en prenant conscience des limitations actuelles des systèmes d’IA ? La discussion est ouverte.



  • Source image(s) : www.nature.com
  • Source : https://www.nature.com/articles/s41598-024-83575-1


By Maria Rodriguez

Maria est Journaliste Trilingue indépendante depuis 2015, elle intervient sur LesNews Le Web est à nous dans les univers : International, Economie, Politique, Culture et d'autres faits de Société

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *