Les humains s’appuient de plus en plus sur l’intelligence artificielle (IA) pour le diagnostic médical, en raison de la rapidité et de l’efficacité avec lesquelles ces outils peuvent détecter des anomalies et des signes d’alerte dans les historiques médicaux, les radiographies et d’autres ensembles de données avant qu’ils ne deviennent apparents à l’œil nu. Cependant, une nouvelle étude publiée le 20 décembre 2024 dans le BMJ soulève des inquiétudes quant au fait que des technologies d’IA, telles que les modèles de langage de grande taille (LLM) et les chatbots, montrent, comme les humains, des signes de déclin cognitif avec l’âge.
“Ces résultats remettent en question l’idée selon laquelle l’intelligence artificielle remplacera bientôt les médecins humains”, ont écrit les auteurs de l’étude dans leur article, “car le déclin cognitif observé dans les principaux chatbots pourrait affecter leur fiabilité dans les diagnostics médicaux et réduire la confiance des patients.”
Les scientifiques ont testé des chatbots basés sur des modèles de langage disponibles publiquement, incluant ChatGPT d’OpenAI, Sonnet d’Anthropic et Gemini d’Alphabet, en utilisant le test Montreal Cognitive Assessment (MoCA) — une série de tâches que les neurologues emploient pour évaluer les capacités d’attention, de mémoire, de langage, de compétences spatiales et de fonctions exécutives.
Le MoCA est principalement utilisé pour évaluer ou dépister le début d’un déclin cognitif, comme dans le cas de la maladie d’Alzheimer ou de la démence. Les sujets ont à accomplir des tâches telles que dessiner une heure précise sur un cadran, partir de 100 et soustraire sept de manière répétée, se souvenir du plus grand nombre de mots possible d’une liste énoncée, et d’autres encore. Chez les humains, un score de 26 sur 30 est considéré comme réussi (c’est-à-dire que le sujet n’a pas de déclin cognitif).
En savoir plus : ChatGPT a de réelles difficultés à diagnostiquer des conditions médicales
Bien que certains aspects du test, comme le nommage, l’attention, le langage et l’abstraction aient semblé faciles pour la plupart des LLM testés, ils ont tous éprouvé des difficultés dans les compétences visuelles/spatiales et les tâches exécutives, plusieurs performants même moins bien que d’autres dans des domaines tels que la mémoire différée.
De manière cruciale, même si la version la plus récente de ChatGPT (version 4) a obtenu le meilleur score (26 sur 30), l’ancien modèle Gemini 1.0 n’a atteint que 16 — ce qui laisse entendre que les modèles plus anciens montrent des signes de déclin cognitif.
Les auteurs de l’étude soulignent que leurs résultats sont uniquement observables : les différences fondamentales entre le fonctionnement de l’IA et de l’esprit humain signifient que l’expérience ne peut pas constituer une comparaison directe. Cependant, ils avertissent que cela pourrait indiquer ce qu’ils qualifient de “zone de faiblesse significative” qui pourrait freiner l’intégration de l’IA dans la médecine clinique. Ils appellent spécifiquement à la prudence concernant l’utilisation de l’IA dans les tâches nécessitant abstraction visuelle et fonction exécutive.
Cela soulève également la notion quelque peu amusante de neurologues humains s’attaquant à un tout nouveau marché : les IA elles-mêmes présentant des signes de déclin cognitif.
Points à retenir
- Les IA montrent des signes de déclin cognitif avec l’âge, ce qui pourrait impacter leur utilisation dans le domaine médical.
- Les résultats de l’étude reposent sur des observations et ne peuvent pas être considérés comme des comparaisons directes avec le fonctionnement humain.
- L’IA semble performante dans certaines tâches cognitives, mais reste limitée dans d’autres domaines, notamment ceux nécessitant des compétences visuelles et exécutives.
Cela nous amène à réfléchir sur l’évolution de la médecine à l’ère numérique. Alors que l’IA offre des promesses indéniables pour améliorer les diagnostics et les traitements, sa fiabilité demeure un enjeu crucial. Comment pourrions-nous équilibrer l’innovation technologique avec la nécessité d’assurer la confiance et la sécurité des patients ?
C’est fou de penser que même l’IA puisse montrer des signes de déclin ! On dirait que nos assistants numériques deviennent un peu plus… humains. Ça va compliquer les diagnostics !