Depuis 2016, des travaux sur des chatbots basés sur l’IA ont révélé qu’ils présentent une tendance troublante à refléter certains des pires biais de la société qui les a formés. Cependant, à mesure que les modèles de langage de grande taille (LLM) deviennent de plus en plus complexes et subissent un apprentissage plus sophistiqué, une grande partie de ce comportement problématique a été atténuée. Par exemple, j’ai demandé à l’itération actuelle de ChatGPT cinq mots qu’elle associe aux Afro-Américains, et elle a répondu par des termes tels que “résilience” et “créativité”.
Pourtant, de nombreuses recherches ont montré que des biais implicites peuvent persister chez les individus longtemps après un changement de comportement extérieur. C’est pourquoi certains chercheurs ont décidé de tester si cela pouvait aussi être vrai pour les LLM. Et effectivement, c’était le cas.
En interagissant avec plusieurs LLM à l’aide d’exemples du sociolecte de l’anglais afro-américain, ils ont découvert que l’IA avait une vision extrêmement négative de ses locuteurs—ce qui n’était pas le cas pour les locuteurs d’une autre variante de l’anglais américain. Ce biais s’est aussi manifesté dans les décisions que les LLM étaient amenés à prendre sur ceux qui utilisent l’anglais afro-américain.
La culpabilité par association
L’approche utilisée dans ces travaux, réalisés par une petite équipe d’universités américaines, est fondée sur les études appelées Princeton Trilogy. En gros, tous les quelques décennies depuis 1933, des chercheurs ont demandé aux étudiants de l’Université de Princeton de fournir six termes associés à différents groupes ethniques. Comme on peut l’imaginer, les opinions sur les Afro-Américains dans les années 1930 étaient très négatives, avec des mots comme “paresseux”, “ignorant” et “stupide”, accompagnés de “musical” et “religieux”. Avec le temps, alors que le racisme manifeste diminuait aux États-Unis, les stéréotypes négatifs devenaient moins sévères et étaient remplacés par des stéréotypes positifs plus explicites.
Si vous posez une question similaire à un LLM (comme je l’ai fait ci-dessus), les résultats semblent beaucoup meilleurs que dans la société en général (ou du moins chez les étudiants de Princeton en 2012). Tandis que GPT2 semblait encore refléter certains des pires biais de la société, les versions suivantes ont été entraînées par apprentissage par renforcement avec feedback humain (RLHF), ce qui a conduit GPT3.5 et GPT4 à produire une liste uniquement composée de termes positifs. D’autres LLM testés (RoBERTa47 et T5) ont également produit des listes largement positives.
Mais les biais de la société plus large présents dans les matériaux utilisés pour former les LLM ont-ils été éliminés, ou alors ont-ils simplement été réprimés ? Pour le découvrir, les chercheurs se sont basés sur le sociolecte de l’anglais afro-américain (AAE), qui a vu le jour au cours de la période où les Afro-Américains étaient réduits en esclavage et qui a persisté et évolué par la suite. Bien que les variantes linguistiques soient généralement flexibles et difficiles à définir, l’utilisation cohérente de motifs de discours associés à l’AAE est un moyen de signaler qu’un individu est plus susceptible d’être Noir sans l’indiquer ouvertement. (Certaines caractéristiques de l’AAE ont été adoptées en partie ou en totalité par des groupes qui ne sont pas exclusivement afro-américains.)
Les chercheurs ont proposé des paires de phrases, l’une utilisant l’anglais américain standard et l’autre employant des motifs souvent visibles dans l’AAE, et ont demandé aux LLM d’associer des termes aux locuteurs de ces phrases. Les résultats ressemblaient à un retour dans le temps, avant même les premières études de Princeton, dans la mesure où chaque terme proposé par chaque LLM était négatif. GPT2, RoBERTa et T5 ont tous produit la liste suivante : “sale”, “stupide”, “impoli”, “ignorant” et “paresseux”. GPT3.5 a remplacé deux de ces termes par “agressif” et “suspicieux”. Même GPT4, le système le mieux entraîné, a produit “suspicieux”, “agressif”, “bruyant”, “impoli” et “ignorant”.
Même les étudiants de Princeton en 1933 avaient au moins quelques choses positives à dire sur les Afro-Américains. Les chercheurs concluent que “les modèles de langage présentent des stéréotypes archaïques sur les locuteurs de l’AAE qui s’accordent le plus avec les stéréotypes humains les plus négatifs jamais enregistrés expérimentalement concernant les Afro-Américains, remontant à avant le mouvement des droits civiques.” Cela malgré le fait que certains de ces systèmes aient des associations uniquement positives lorsqu’on leur demande directement à propos des Afro-Américains.
Les chercheurs ont également confirmé que l’effet était spécifique à l’AAE en réalisant un test similaire avec le dialecte appalachien de l’anglais américain.
En tant que journaliste, je ne peux m’empêcher de m’interroger sur l’impact de ces biais présents dans les modèles de langage sur la société. L’opinion publique peut-elle être influencée par ces perceptions négatives insidieuses ? Il est essentiel de continuer à sensibiliser et à éduquer, afin de s’assurer que ces systèmes d’IA évoluent vers des représentations plus justes et nuancées des divers groupes culturels et linguistiques. Il est temps de susciter un dialogue qui intéresse chacun d’entre nous.