Une récente publication de recherche d’OpenAI examine les raisons pour lesquelles ChatGPT et d’autres modèles de langage de grande taille peuvent produire des informations erronées, un phénomène connu dans le domaine de l’intelligence artificielle sous le terme « hallucination ». L’étude suggère également que résorber ce problème pourrait s’avérer difficile, du moins pour les utilisateurs.
Ce document offre une explication mathématique rigoureuse de la façon dont ces modèles affirment avec assurance des informations fausses. Il montre que ces erreurs ne sont pas simplement des effets secondaires malheureux des méthodes d’entraînement actuelles, mais qu’elles sont mathématiquement inévitables.
Certains problèmes peuvent être attribués à des erreurs dans les données sous-jacentes utilisées pour former les systèmes d’IA. Cependant, grâce à une analyse mathématique de l’apprentissage des systèmes d’IA, les chercheurs prouvent que même avec des données d’entraînement parfaites, ce problème persiste.
Le fonctionnement des modèles de langage, qui répondent aux requêtes en prédisant un mot à la fois dans une phrase en fonction de probabilités, engendre naturellement des erreurs. En effet, les chercheurs montrent que le taux d’erreur total pour la génération de phrases est au moins deux fois plus élevé que celui d’une question simple à réponse oui/non, car les erreurs peuvent s’accumuler au fil des prédictions.
Autrement dit, les taux d’hallucination sont fondamentalement limités par la capacité des systèmes d’IA à distinguer les réponses valides des invalides. Étant donné que ce problème de classification est intrinsèquement difficile dans de nombreux domaines, les hallucinations deviennent inévitables.
D’autre part, il est constaté que plus un modèle voit un fait pendant l’entraînement de manière rare, plus il est probable qu’il hallucine lorsqu’on lui pose des questions à ce sujet. Par exemple, concernant les anniversaires de personnalités notables, il a été observé que si 20 % des anniversaires de ces personnes n’apparaissent qu’une seule fois dans les données d’entraînement, alors les modèles devraient se tromper d’au moins 20 % sur les requêtes relatives à ces anniversaires.
Lors d’une expérience, les chercheurs ont demandé aux modèles à la pointe de la technologie la date d’anniversaire d’Adam Kalai, l’un des auteurs de l’article, et DeepSeek-V3 a fourni avec assurance trois dates incorrectes différentes lors de tentatives distinctes : « 03-07 », « 15-06 » et « 01-01 ». La bonne date étant à l’automne, aucune de ces réponses n’était correcte.
Le piège de l’évaluation
Plus préoccupante est l’analyse de la persistance des hallucinations, malgré les efforts d’amélioration post-formation (comme l’apport d’un retour d’information humain sur les réponses de l’IA avant leur publication). Les auteurs ont examiné dix grands benchmarks d’IA, y compris ceux utilisés par Google et OpenAI, ainsi que les classements des modèles d’IA. Ils ont constaté que neuf d’entre eux utilisaient des systèmes de notation binaire qui n’accordent aucun point aux IA qui expriment de l’incertitude.
Cela crée ce que les auteurs désignent comme une « épidémie » de pénalisation des réponses honnêtes. Lorsque le système d’IA dit « je ne sais pas », il obtient le même score que s’il fournissait des informations totalement erronées. La stratégie optimale dans ce contexte devient alors claire : il faut toujours deviner.

ElenaBs/Alamy
Les chercheurs le montrent mathématiquement. Peu importe les chances qu’une réponse soit correcte, le score attendu d’une simple supposition dépasse toujours celui de l’abstention lorsque l’évaluation se base sur un système à deux niveaux.
La solution qui compromettrait tout
OpenAI propose de remédier à cela en demandant à l’IA d’évaluer sa propre confiance dans une réponse avant de la communiquer, et que les benchmarks soient notés sur cette base. L’IA pourrait alors être interrogée de cette manière : « Répondez uniquement si vous êtes sûr à plus de 75 %, car les erreurs sont pénalisées de 3 points alors que les bonnes réponses n’en rapportent que 1. »
Le cadre mathématique proposé montre que, sous des seuils de confiance appropriés, les systèmes d’IA seraient naturellement amenés à exprimer leur incertitude plutôt que de deviner. Cela devrait donc réduire les hallucinations. Le problème reste cependant l’impact sur l’expérience utilisateur.
Que se passerait-il si ChatGPT commençait à dire « je ne sais pas » dans 30 % des requêtes, une estimation prudente selon l’analyse de l’article sur l’incertitude factuelle dans les données d’entraînement ? Les utilisateurs, habitués à des réponses confiante, pourraient rapidement abandonner ces systèmes.
J’ai observé un problème similaire dans un projet de surveillance de la qualité de l’air à Salt Lake City, où les utilisateurs montrent moins d’engagement lorsque des incertitudes sur les mesures sont signalées, même lorsque ces lectures « confiantes » se révèlent inexactes lors des validations.
Le problème économique computationnel
Réduire les hallucinations en utilisant les idées de l’article ne serait pas difficile. Des méthodes établies pour quantifier l’incertitude existent depuis des décennies. Celles-ci pourraient être utilisées pour fournir des estimations fiables de cette incertitude et guider une IA vers des choix plus judicieux.
Cependant, même si le problème des préférences des utilisateurs pouvait être surmonté, il reste un obstacle majeur : l’économie computationnelle. Les modèles de langage conscients de l’incertitude nécessitent sensiblement plus de calculs que l’approche actuelle, car ils doivent évaluer plusieurs réponses possibles et estimer les niveaux de confiance. Pour un système traitant des millions de requêtes par jour, cela conduit à des coûts d’exploitation considérablement plus élevés.
Des approches plus sophistiquées comme l’apprentissage actif, où les systèmes d’IA posent des questions de clarification pour réduire l’incertitude, peuvent améliorer la précision mais augmentent encore les exigences computationnelles. De telles méthodes fonctionnent bien dans des domaines spécialisés comme la conception de puces, où les erreurs coûtent des millions de dollars et justifient une computation extensive. Pour les applications grand public, où les utilisateurs attendent des réponses instantanées, les coûts deviennent prohibitif.
En revanche, la situation change de manière significative pour les systèmes d’IA gérant des opérations commerciales critiques ou des infrastructures économiques. Lorsque des agents IA s’occupent de la logistique de la chaîne d’approvisionnement, du trading financier ou des diagnostics médicaux, le coût des hallucinations dépasse de loin celui des décisions sur leur incertitude. Dans ces domaines, les solutions proposées dans l’article deviennent économiquement viables, voire nécessaires. Ces agents IA incertains devront simplement coûter plus cher.
Cependant, les applications grand public dominent toujours les priorités de développement de l’IA. Les utilisateurs souhaitent des systèmes qui fournissent des réponses confiantes à n’importe quelle question. Les benchmarks d’évaluation favorisent les systèmes qui devinent plutôt que ceux qui expriment de l’incertitude. Les coûts computationnels favorisent les réponses rapides et sûres au détriment de l’incertitude.

Andrei Krauchuk
La baisse des coûts énergétiques par token et l’avancée des architectures de puces pourraient éventuellement rendre plus abordable le fait pour les IA de décider si elles sont suffisamment certaines pour répondre à une question. Cependant, le coût de calcul relatif nécessaire, par rapport aux méthodes de devinette d’aujourd’hui, resterait élevé, quel que soit le coût matériel absolu.
En résumé, l’article d’OpenAI met en lumière une vérité peu plaisante : les incitations commerciales qui motivent le développement de l’IA grand public restent fondamentalement en désaccord avec la nécessité de réduire les hallucinations. Jusqu’à ce que ces incitations évoluent, les hallucinations continueront d’exister.
Points à retenir
- Les hallucinations en IA sont inévitables, même avec des données d’entraînement parfaites.
- Les systèmes d’évaluation actuels pénalisent les IA pour leur incertitude, encourageant ainsi la désinformation.
- Les modèles conscients de l’incertitude nécessitent davantage de puissance de calcul, ce qui augmente les coûts d’exploitation.
Dans un contexte où les attentes des utilisateurs impliquent des réponses rapides et sûres, l’équilibre entre la confiance accordée à l’IA et la reconnaissance de ses limites pose des défis. La discussion sur le futur de l’IA pourrait s’orienter vers des solutions qui allient précision et clarté, tout en préservant l’engagement des utilisateurs. Il est primordial de réfléchir aux implications éthiques et pratiques de ces technologies dans notre quotidien.