
Dans l’effondrement des modèles de langage, on identifie généralement trois sources d’erreurs : le modèle lui-même, la manière dont ce modèle est entraîné et les données — ou leur absence — sur lesquelles il se forme.
Andriy Onufriyenko/Getty Images
masquer la légende
afficher la légende
Andriy Onufriyenko/Getty Images
Dans l’effondrement des modèles de langage, on identifie généralement trois sources d’erreurs : le modèle lui-même, la manière dont ce modèle est entraîné et les données — ou leur absence — sur lesquelles il se forme.
Andriy Onufriyenko/Getty Images
Vous avez récemment posé des questions à ChatGPT ? Interagi avec un chatbot de service à la clientèle ? Ou exploré les résultats de la fonction “Aperçus AI” de Google ?
Si vous êtes actif sur Internet, il est probable que vous ayez consommé des contenus générés par des modèles de langage avancés.
Les modèles de langage extensifs, tels que DeepSeek-R1 ou ChatGPT d’OpenAI, fonctionnent un peu comme la fonctionnalité de texte prédictif de votre téléphone, mais à une échelle bien plus grande. Pour apprendre à rédiger, ces modèles sont formés sur des millions d’exemples de textes écrits par des humains.
Historiquement, cette formation impliquait de faire lire l’intégralité de l’Internet aux modèles. Toutefois, grâce à ces mêmes modèles de langage, une grande partie du contenu en ligne est maintenant rédigée par des intelligences artificielles génératives.
Cela signifie que les modèles d’IA qui sont formés aujourd’hui peuvent consommer leur propre contenu synthétique, ce qui peut entraîner des complications.
Découvrez les images générées par l’IA mentionnées dans cet épisode.
Avez-vous un autre sujet en intelligence artificielle que vous souhaitez voir traité ? Faites-le nous savoir en envoyant un e-mail à [email protected] !
Écoutez Short Wave sur Spotify et Apple Podcasts.
Écoutez chaque épisode de Short Wave sans publicité et soutenez notre travail en vous inscrivant à Short Wave+ sur plus.npr.org/shortwave.
Cet épisode a été produit par Hannah Chinn, édité par Rebecca Ramirez et l’ingénieur du son était Jimmy Keeley.
Points à retenir
- Les modèles de langage fonctionnent sur la base de grandes quantités de données textuelles pour apprendre à exécuter diverses tâches de rédaction.
- De plus en plus de contenu en ligne est lui-même généré par des intelligences artificielles, ce qui entraîne une auto-consommation potentiellement problématique.
- Les difficultés d’entraînement et la qualité des données sont des aspects cruciaux qui influencent la performance des modèles de langage.
Dans un monde numérique en constante évolution, la question de la confidentialité des données et de l’authenticité des contenus générés par l’IA se pose de manière croissante. Comment les utilisateurs peuvent-ils s’assurer que ce qu’ils lisent provient de sources fiables et non de modèles suralimentés en informations recyclées ? Cela mérite réflexion, surtout à une époque où l’information circule à une vitesse sans précédent.

C’est fascinant de voir comment l’IA évolue, mais il est essentiel de rester vigilant sur l’authenticité des contenus. Prenons le temps de vérifier nos sources !