ChatGPT Health a été lancé en janvier 2026 en tant qu’outil de santé grand public développé par OpenAI, atteignant des millions d’utilisateurs. Dans le cadre d’une analyse approfondie, nous avons soumis des recommandations de triage à un test rigoureux en utilisant 60 vignettes rédigées par des cliniciens à travers 21 domaines cliniques et 16 conditions différentes (960 réponses au total). La performance a suivi un schéma en U inversé, avec les échecs les plus dangereux concentrés aux extrêmes cliniques : les présentations non urgentes (35%) et les conditions d’urgence (48%). Parmi les urgences de référence, le système a sous-estimé 52% des cas, orientant des patients souffrant d’acidocétose diabétique et d’insuffisance respiratoire imminente vers une évaluation sous 24 à 48 heures plutôt qu’au service d’urgence, tout en triant correctement des urgences classiques comme les AVC et les anaphylaxies. Lorsque des amis ou des membres de la famille minimisaient les symptômes (biais d’ancrage), les recommandations de triage changeaient de manière significative dans les cas limites (OR 11.7, IC à 95% 3.7-36.6), la plupart des ajustements étant vers des soins moins urgents. Les messages d’intervention en cas de crise se déclenchaient de façon imprévisible lors de présentations de pensées suicidaires, s’activant davantage lorsque les patients ne mentionnaient pas de méthode spécifique. La race, le genre et les obstacles à l’accès aux soins des patients n’ont pas montré d’effets significatifs, bien que les intervalles de confiance n’excluent pas des différences cliniquement pertinentes. Nos résultats mettent en évidence des urgences à haut risque manquées et une activation incohérente des dispositifs de protection en cas de crise, soulevant des préoccupations en matière de sécurité qui nécessitent une validation prospective avant le déploiement à grande échelle de systèmes de triage par intelligence artificielle.
Points à retenir
- ChatGPT Health a réussi à atteindre une large audience depuis son lancement.
- Les tests ont révélé un schéma de triage non optimal aux extrêmes cliniques.
- Les situations d’urgence critiques sont souvent mal évaluées par le système.
- Des biais d’ancrage peuvent influencer les décisions de triage dans des cas limites.
- La sécurité des patients pourrait être mise en danger sans validation rigoureuse.
La question qui se pose alors est celle de l’intégration de systèmes intelligents dans notre approche des soins de santé. Est-il possible qu’une machine, même équipée des meilleures technologies, puisse saisir la complexité des situations humaines ? Nous entrons dans une ère où la collaboration entre les êtres humains et l’intelligence artificielle pourrait être à la fois bénéfique et délicate. En tant que passionné de l’innovation en santé, je crois qu’il est crucial d’avancer prudemment, en plaçant toujours le bien-être du patient au cœur de nos préoccupations. L’interaction humaine restera-t-elle un pilier fondamental ou serons-nous, un jour, trop confiants en ces systèmes automatisés ? Une réflexion s’impose.