
Les “moteurs linguistiques” qui sous-tendent l’intelligence artificielle (IA) générative souffrent de divers problèmes pouvant avoir des répercussions négatives sur la société, notamment la diffusion de désinformation et la propagation de contenus discriminatoires, tels que des stéréotypes racistes et sexistes.
En grande partie, ces défaillances des systèmes d’IA populaires comme ChatGPT résultent de lacunes dans les bases de données linguistiques sur lesquelles ils sont entraînés.
Pour remédier à ces problèmes, des chercheurs de l’Université de Birmingham ont mis au point un cadre novateur visant à mieux comprendre les modèles de langage à grande échelle (LLMs) en intégrant des principes issus de la sociolinguistique, laquelle étudie la variation et le changement linguistiques.
Dans leur publication dans Frontiers in AI, les chercheurs soutiennent qu’en représentant fidèlement les différentes “variétés de langue”, il serait possible d’améliorer de manière significative le fonctionnement des systèmes d’IA, en répondant à des enjeux critiques tels que les biais sociaux, la désinformation, l’adaptation aux domaines spécifiques et l’alignement avec des valeurs sociétales.
Les chercheurs soulignent l’importance d’incorporer des principes sociolinguistiques dans l’entraînement des LLM pour mieux représenter les divers dialectes, registres et époques qui composent une langue, ouvrant ainsi la voie à des systèmes d’IA plus précis, fiables et éthiques.
Le professeur Jack Grieve, auteur principal, a déclaré : “Lorsqu’ils sont sollicités, les IA génératives comme ChatGPT ont tendance à produire des représentations négatives de certaines ethnies et genres, mais notre recherche propose des solutions pour entraîner les LLM de manière plus principielle afin d’atténuer les biais sociaux.”
“Ces problèmes peuvent généralement être retracés aux données sur lesquelles le LLM a été formé. Si le corpus de formation contient des expressions relativement fréquentes d’idées nuisibles ou inexactes sur certains groupes sociaux, les LLM reproduiront inévitablement ces biais, engendrant ainsi du contenu potentiellement raciste ou sexiste.”
Cette étude suggère que le perfectionnement des LLM sur des ensembles de données conçus pour représenter la langue cible dans toute sa diversité — comme le décrit en détail plusieurs décennies de recherches en sociolinguistique — peut généralement renforcer la valeur sociétale de ces systèmes d’IA.
Les chercheurs estiment également qu’en équilibrant les données d’entraînement provenant de différents groupes sociaux et contextes, il est possible de résoudre les problèmes liés à la quantité de données requises pour former ces systèmes.
Comme l’a ajouté le professeur Grieve, “Nous proposons que l’augmentation de la diversité sociolinguistique des données d’entraînement est bien plus cruciale que l’expansion de son échelle. Pour toutes ces raisons, il existe un besoin clair et urgent d’intégration des perspectives sociolinguistiques dans la conception et l’évaluation des LLM.”
“Comprendre la structure de la société et comment celle-ci se reflète dans les schémas d’utilisation de la langue est essentiel pour maximiser les bénéfices des LLM pour les sociétés dans lesquelles ils s’intègrent de plus en plus. De manière plus générale, intégrer les connaissances issues des sciences humaines et sociales est crucial pour développer des systèmes d’IA qui servent mieux l’humanité.”
Pour en savoir plus :
Les fondements sociolinguistiques de la modélisation du langage, Frontiers in Artificial Intelligence (2025).
Points à retenir
- Les biais dans les IA résultent souvent de la qualité limitée des données d’entraînement.
- Un meilleur entraînement des LLM en intégrant les divers dialectes et registres pourrait limiter la désinformation.
- L’importance de la diversité sociolinguistique dans les ensembles de données est primordiale pour une IA plus éthique.
- La recherche souligne la nécessité d’une collaboration entre les sciences humaines et l’IA pour des applications socialement responsables.
Cette réflexion soulève des questions pertinentes sur le rôle des chercheurs et des développeurs dans la création d’IA éthiquement responsables. À travers une prise en compte plus fine et variée des langues et des cultures, l’avenir des LLM pourrait non seulement atténuer les préjugés existants, mais aussi promouvoir une compréhension plus riche de la diversité humaine. Comment pouvons-nous dès aujourd’hui commencer à intégrer ces priorités dans le développement de solutions technologiques innovantes ?
C’est fascinant de voir comment la sociolinguistique peut améliorer nos IA. Cela nous pousse à penser plus profondément à l’impact de la langue sur notre société. Bravo aux chercheurs !