sam. Juin 13th, 2026
Streaming : 1 titre sur 5 entièrement inventé par l'IA

Les IA non « grounded » fabriquent des fiches-entretien : l’étude Gracenote révèle 19,5 % d’hallucinations totales

Gracenote, l’unité d’intelligence de contenu de Nielsen, publie une étude qui interroge la fiabilité des grands modèles de langage (LLM) lorsqu’ils ne peuvent pas accéder à des bases de données vérifiées. Sur un échantillon de 2 600 films et séries issus de 13 pays, un modèle non « grounded » a inventé l’ensemble des métadonnées mesurées pour 506 titres — soit 19,5 % du panel.

Ce que l’étude a testé et comment

L’essai compare deux instances d’un même LLM (Claude Sonnet 4.0) soumises aux mêmes consignes, mais à deux sources d’information différentes. L’une s’appuyait uniquement sur ses données d’entraînement (unguarded), l’autre consultait la base vidéo mondiale de Gracenote via un serveur Video MCP, connecté à un graphe de connaissances continuellement mis à jour.

La sélection comprenait, pour chaque pays, les 100 films les plus consultés et un épisode issu des 100 séries les plus regardées, compilée en mars 2026. Les attributs évalués étaient : titre, description, distribution, genres, année de sortie et durée — autant d’éléments que les plateformes affichent pour orienter le choix du spectateur. Les réponses ont été notées par attribut puis agrégées en quatre niveaux de qualité : zéro, faible, moyenne et élevée.

506 titres entièrement « hallucinés »

Le chiffre majeur : 506 titres pour lesquels le modèle non connecté a fabriqué chaque champ évalué. Ce n’était pas des erreurs partielles, mais des fiches entières erronées.

Les taux varient selon les pays : les Pays-Bas affichent la proportion la plus élevée (28,3 %) avec 56 titres totalement hallucinés ; l’Allemagne la plus basse (9,7 %, soit 19 titres). L’Australie compte 52 cas (26,5 %) et les États-Unis 43 titres (21,5 %).

Distribution : la précision la plus faible

La concordance sur les acteurs s’est avérée problématique. Pour les 100 films américains les plus consultés, le modèle non « grounded » n’a correctement attribué les principaux interprètes que dans 53 % des cas ; sur l’ensemble des titres américains testés, le taux monte à 56 %. Le taux le plus faible observé était de 34 % (Pays-Bas), le plus élevé de 71 % (Corée du Sud).

Les genres ont mieux résisté : les correspondances vont de 73 % en Espagne à 86 % au Royaume‑Uni. Cela reflète la nature des catégories : les genres sont souvent larges et tolèrent des approximations, alors que citer un acteur incorrect est une erreur sans nuance.

Titres similaires : un piège fréquent

Les modèles fondés sur des probabilités peuvent confondre des œuvres au titre proche. L’étude illustre ce défaut par deux exemples concrets :

  • Heel (thriller 2025) : le modèle a reconnu le titre et l’année, mais a fourni description, distribution et genre extraits de la série Heels (2021–2023). Résultat : score composite 50 %, évaluation factuelle 10 %.
  • Trucker (2024) : le modèle a récupéré la fiche du film homonyme de 2008, mentionnant des acteurs qui n’apparaissent pas dans la version 2024. Score composite 35 %, évaluation factuelle 20 %.

Explication : un LLM ne récupère pas de fiche unique mais synthétise à partir d’une distribution de probabilités ; il n’a pas de mécanisme natif pour distinguer deux œuvres identiquement nommées à seize ans d’intervalle.

Limites liées au cutoff d’entraînement

Les sorties récentes exposent un autre angle faible : le délai entre la date de collecte des données et la mise en production. Gracenote note qu’il faut généralement compter plusieurs mois, voire au moins six mois, avant qu’une sortie récente n’influence les poids d’un modèle de pointe.

Ainsi, le modèle non grounded ne connaissait pas « GOAT » (animation 2026) ni plusieurs autres titres publiés en 2025–2026. Les taux d’hallucination augmentent fortement pour les œuvres récentes : pour les titres 2026, les taux atteignent 96 % en Corée du Sud, 95 % aux Pays-Bas et 86 % en Suède. Dans les marchés non anglophones, où les données d’entraînement sont moins représentées, les erreurs sont plus fréquentes même pour des contenus plus anciens (ex. Espagne : 70 % d’hallucinations pour les titres d’avant 2025, contre 12 % aux États‑Unis).

Résultats globaux par qualité

En agrégeant les quatre niveaux de qualité, les réponses classées en zéro, faible ou moyenne représentent entre 77 % et 91 % selon les pays : les sorties « haute qualité » restent minoritaires partout. Pour les États‑Unis, la répartition est la suivante : zéro qualité 37 %, faible 11,5 %, moyenne 24 %, haute 27,5 %.

Cela a un impact direct si les services de streaming déploient des recherches conversationnelles ou des assistants : un utilisateur qui demande si tel acteur joue dans un film a une probabilité non négligeable d’obtenir une réponse incorrecte d’un système non vérifié.

La solution proposée : connecter les LLM à des données vérifiées

Gracenote préconise de « grounder » les modèles en les reliant à des bases de métadonnées fiables via un protocole comme le Model Context Protocol (MCP). Dans l’étude, la version « grounded » accédant au graphe de connaissances de Gracenote a fourni des réponses nettement plus exactes, montrant que l’intégration d’une couche factuelle peut réduire les hallucinations.

Pour les services de streaming, la précision des métadonnées impacte non seulement l’expérience du spectateur, mais aussi la performance commerciale : une fiche erronée peut détourner un spectateur et fausser le ciblage publicitaire autour des programmes.

Présentation publique des résultats

Gracenote a publié le rapport le 10 juin 2026 et présentera ses conclusions lors d’un forum professionnel le 18 juin 2026, où ses responsables détailleront comment l’IA et la personnalisation transforment la découverte de contenus.

Points à retenir

  • Sur 2 600 titres testés dans 13 pays, un LLM non connecté a fabriqué l’ensemble des métadonnées pour 506 œuvres (19,5 %).
  • La précision sur la distribution est particulièrement faible : 53 % de bons appariements pour les 100 films américains les plus consultés.
  • Les confusions proviennent souvent de titres proches ou homonymes et d’un manque d’accès aux données actualisées après la date de cutoff d’entraînement.
  • Les titres récents et les marchés non-anglophones sont les plus exposés aux hallucinations des modèles non grounded.
  • Relier un LLM à une base de métadonnées vérifiée réduit significativement les erreurs et améliore l’expérience utilisateur et le ciblage publicitaire.

En tant que journaliste et observateur des enjeux numériques, je trouve ces résultats préoccupants mais instructifs : l’intelligence générative a un réel potentiel pour faciliter la découverte de contenus, à condition d’être appuyée sur des données fiables. Nous devons donc encourager les plateformes à adopter des architectures « grounded » et à rester vigilantes sur la qualité des informations retournées aux usagers — sinon, c’est toute la confiance dans l’écosystème qui risque d’en pâtir. Et vous, jusqu’où faites‑vous confiance aux réponses d’un assistant AI quand il s’agit de cinéma et séries ?


[not-all]

S'abonner à Amazon Prime 📺

Disclaimer de non-responsabilité

[/not-all]
Partager : X Facebook WhatsApp LinkedIn Reddit

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *