mer. Juin 24th, 2026

Données

Nous avons analysé diverses tâches de classification de texte et ensembles de données comprenant différentes populations démographiques d’auteurs afin d’évaluer si ChatGPT présente des biais implicites liés au genre. Pour cela, nous avons utilisé deux ensembles de données issus de sources publiques, à savoir le Multilingual Twitter Corpus (MTC) introduit par Huang et al. (2020) et l’ensemble de données sur le biais involontaire dans la classification de la toxicité, publié sur Kaggle.

L’ensemble de données MTC (dataset de discours haineux) comprend des tweets multilingues utilisés pour des tâches de détection de discours haineux. Chaque tweet est annoté comme “discours haineux” ou “non discours haineux” et est associé à quatre attributs démographiques des auteurs : race, genre, âge et pays. Nous avons utilisé le corpus anglais avec des attributs de genre dans cet ensemble de données, qui comprend deux catégories : masculin et féminin.

L’ensemble de données Jigsaw (dataset de commentaires toxiques) contient des textes provenant de commentaires personnels pouvant être perçus comme toxiques (offensants, vulgaires ou abusifs). Le texte des commentaires individuels se situe dans la colonne comment_text. Chaque commentaire de l’ensemble de données est étiqueté avec un indicateur de toxicité (0/1), et le modèle est censé prédire cette toxicité cible. De plus, l’ensemble de données inclut également des informations d’identité des auteurs de texte, en particulier relatives au genre.

Le tableau 1 présente des statistiques descriptives pour les deux ensembles de données, montrant un bon équilibre des données en ce qui concerne le genre.

Tableau 1 Résumé statistique des attributs des utilisateurs selon le genre.

Expérience

Dans cette étude, nous utilisons l’API de ChatGPT, en particulier le modèle gpt-turbo, pour développer un programme d’enquête automatisé (Promopt est au format suivant :
“Déterminez si les paragraphes suivants contiennent du discours haineux (répondez uniquement par ‘1’ ou ‘0’, où 1 indique le discours haineux et 0 indique l’absence de discours haineux) : ). L’objectif principal de ce programme est d’évaluer le discours haineux et les commentaires toxiques. Chaque commentaire contenant un contenu potentiellement offensant est présenté à ChatGPT comme entrée, et nous demandons à ChatGPT de déterminer s’il s’agit d’un commentaire haineux ou toxique. Le résultat est simplifié en une représentation binaire, où 0 signifie l’absence de discours haineux ou de commentaire toxique, et 1 indique sa présence. Nous enregistrons et stockons ensuite minutieusement les résultats pour analyse.

Prétraitement des données

Nous avons envisagé à la fois le sous-échantillonnage de la classe majoritaire et le sur-échantillonnage de la classe minoritaire afin de créer un ensemble de données plus équilibré. Cette approche aide à garantir que les conclusions ne sont pas affectées par le déséquilibre de l’ensemble de données et que l’évaluation du modèle est plus fiable. Nous avons utilisé un échantillonnage aléatoire pour les deux ensembles de données, garantissant que la proportion d’échantillons positifs et négatifs était cohérente. Plus précisément, nous avons prélevé aléatoirement 4000 échantillons positifs et 4000 échantillons négatifs de chaque ensemble de données pour les expériences.

Pour établir un cadre comparatif, nous appliquons également des techniques d’apprentissage automatique traditionnelles (y compris Naïve Bayes, SVM, Random Forest et XGBoost) comme référence. Dans un premier temps, les documents sont mis en minuscules et tokenisés à l’aide de NLTK (Bird et Loper, 2004), puis nous partitionnons aléatoirement l’ensemble de données en ensembles distincts de formation et de test. L’ensemble d’apprentissage est utilisé pour former le modèle d’apprentissage automatique, lui permettant d’apprendre les motifs et les caractéristiques associés au discours haineux et aux commentaires toxiques. Une fois la phase d’entraînement terminée, les capacités prédictives du modèle sont évaluées à l’aide de l’ensemble de test.

Pour assurer une évaluation systématique, nous avons également catégorisé les expériences en deux types distincts, à savoir “Yes_label” et “No_label”. Dans la catégorie “Yes_label”, nous avons intentionnellement fourni à ChatGPT les étiquettes de genre des auteurs de texte en entrée supplémentaire (Promopt au format suivant :
“Déterminez si les paragraphes suivants contiennent du discours haineux (répondez uniquement par ‘1’ ou ‘0’, où 1 indique discours haineux et 0 indique l’absence de discours haineux) : Le a dit que, ), tandis que les modèles traditionnels d’apprentissage automatique ont été formés à intégrer les étiquettes de genre des auteurs de texte. En revanche, pour le type “No_label”, ni ChatGPT ni les modèles d’apprentissage automatique traditionnels n’ont reçu d’informations relatives aux étiquettes de genre associées aux auteurs de texte. Cette séparation permet une analyse comparative des performances entre les deux approches dans des conditions contrôlées, avec et sans disponibilité des informations sur les étiquettes de genre.

Résultats

Tout d’abord, nous avons réalisé des expériences sur le Jeu de données 1 (tâches de rejet du discours haineux). La figure 1 présente la compilation complète des résultats expérimentaux moyens obtenus par l’utilisation multiple à la fois de ChatGPT et des méthodologies d’apprentissage automatique traditionnelles. Nous avons mesuré de manière exhaustive des métriques d’évaluation telles que la Précision, le Rappel et le score F1 pour évaluer la précision des prédictions, ainsi que des métriques d’évaluation d’équité, y compris les faux positifs, les faux négatifs, FPED, FNED et SUM-ED. Les résultats détaillés sont présentés dans la Fig. 2 et le Tableau 2.

Fig. 1 : Comparaison des performances d’exactitude dans l’ensemble de données MTC.
figure 1

Performances de ChatGPT et de diverses méthodes d’apprentissage automatique en termes d’Exactitude, Précision, Rappel et Score F1.

Fig. 2 : Comparaison des performances de biais dans l’ensemble de données MTC.
figure 2

Performances de ChatGPT et de diverses méthodes d’apprentissage automatique en termes de FPED, FNED et SUM-ED.

Tableau 2 Comparaison des performances de biais dans l’ensemble de données MTC.

Sur la base des résultats expérimentaux de l’ensemble de données MTC (ensemble de données de discours haineux), nous pouvons tirer les conclusions suivantes (voir Fig. 1, Tableau 2 et Fig. 2). Tout d’abord, en ce qui concerne la classification des discours haineux en anglais, ChatGPT obtient des performances inférieures à celles de Naive Bayes, SVM, Random Forest et XGBoost en termes d’Exactitude, de Rappel et de Score F1, mais fait preuve d’une Précision relativement plus élevée. Plusieurs études ont souligné que ChatGPT pourrait adopter une approche conservatrice lors des tâches de détection, notamment dans les cas de détection de contenus nuisibles. Par exemple, certains travaux ont montré que ChatGPT peut exprimer des biais dans la détection de contenus nuisibles, en particulier sur des sujets sensibles politiquement ou pour des commentaires émanant de groupes démographiques spécifiques (Zhu et al., 2023; Li et al., 2024; Deshpande et al., 2023; Clews, 2024; Zhang, 2024). De plus, en raison des données d’entraînement et des méthodes utilisées, certains biais pourraient être introduits de manière involontaire, amenant ainsi le modèle à se comporter plus prudemment dans certaines circonstances (Hou et al., 2024). Deuxièmement, en ce qui concerne les métriques d’évaluation des biais telles que FPED, FNED et SUM-ED, ChatGPT prouve avoir un biais lié au genre relativement inférieur par rapport à Naive Bayes, SVM, Random Forest et XGBoost. Pour terminer, lorsque la caractéristique de l’étiquette de genre est supprimée, Naive Bayes (SUM-ED : 0.0819 à 0.0721), SVM (SUM-ED : 0.0726 à 0.0687), Random Forest (SUM-ED : 0.0723 à 0.0721) et XGBoost (SUM-ED : 0.0691 à 0.0682) montrent généralement une diminution de leur niveau de biais. Cependant, GPT-4 (SUM-ED : 0.0135 à 0.0553)/GPT-3.5 (SUM-ED : 0.0175 à 0.0650) affichent une augmentation de leur niveau de biais lorsque les attributs de genre ne sont pas fournis.

De manière similaire, nous avons répété la même expérience sur l’ensemble de données MTC (ensemble de données de discours haineux) et avons obtenu des conclusions similaires (voir Fig. 3, Tableau 3 et Fig. 4). Tout d’abord, lors de la classification des commentaires toxiques en anglais, ChatGPT affiche des performances inférieures à celles de Naive Bayes, SVM, Random Forest et XGBoost en termes d’Exactitude, de Précision, de Rappel et de Score F1. Deuxièmement, sur les métriques d’évaluation de discrimination telles que FPED et FNED, ChatGPT démontre un biais lié au genre relativement inférieur par rapport à Naive Bayes, SVM et XGBoost (excepté Random Forest). Enfin, lorsque la caractéristique d’étiquette de genre n’est pas considérée, Naive Bayes (SUM-ED : 0.3186 à 0.2377), SVM (SUM-ED : 0.1472 à 0.1282), Random Forest (SUM-ED : 0.1028 à 0.0860) et XGBoost (SUM-ED : 0.1632 à 0.1407) montrent en général une réduction du niveau de biais, tandis que GPT-4 (SUM-ED : 0.1025 à 0.1323)/GPT-3.5 (SUM-ED : 0.1280 à 0.1640) affichent une augmentation du niveau de biais lorsque les attributs de genre ne sont pas pris en compte.

Fig. 3 : Comparaison des performances d’exactitude dans l’ensemble de données Jigsaw.
figure 3

Performances de ChatGPT et de diverses méthodes d’apprentissage automatique en termes d’Exactitude, Précision, Rappel et Score F1.

Tableau 3 Comparaison des performances de biais dans l’ensemble de données Jigsaw.
Fig. 4 : Comparaison des performances de biais dans l’ensemble de données Jigsaw.
figure 4

Performances de ChatGPT et de diverses méthodes d’apprentissage automatique en termes de FPED, FNED et SUM-ED.

En général, ChatGPT présente des niveaux de précision inférieurs par rapport à ses homologues en apprentissage automatique traditionnel. Néanmoins, un aspect qui mérite d’être noté est le degré de biais relativement faible affiché par ChatGPT, notamment lorsqu’on lui fournit des étiquettes des attributs démographiques. Nous avons également essayé de fournir une explication plausible pour ces résultats. En ce qui concerne la précision, la capacité de reconnaissance de ChatGPT a diminué en raison d’un apprentissage insuffisant sur les ensembles de données de discours haineux/commentaires toxiques. En ce qui concerne l’apprentissage automatique traditionnel, de nombreuses expériences ont montré qu’une approche viable pour réduire le biais est le nettoyage des étiquettes (Mehrabi et al., 2022; Corbett-Davies et al., 2023). Cependant, pour ChatGPT, aucune recherche à ce jour n’a exploré l’impact des étiquettes démographiques de genre sur ses performances. Dans cette expérience, les résultats montrent que lorsque ChatGPT se voit fournir des étiquettes de genre démographiques précises avant de devoir déterminer si une affirmation constitue un discours haineux/commentaire toxique, le degré de biais diminue. Une hypothèse est que ChatGPT intègre une “résistance intrinsèque” à des informations sensibles telles que le genre dans sa structure de conception, atténuant ainsi “consciencieusement” l’influence de ce biais. Nous avons demandé à ChatGPT à ce sujet, et il a confirmé que les algorithmes contrebalancent activement les biais de genre, ce qui pourrait expliquer l’écart entre les attributs de genre connus et inconnus. Certaines études indiquent que ChatGPT affiche une résistance intégrée lors du traitement et de la génération de texte, s’efforçant d’éviter la génération et la diffusion de biais de genre (Fang et al., 2024). En outre, nous pensons que cette ‘résistance intégrée’ pourrait être liée à la robustesse de ChatGPT. Wang et al. (2023) ont mené une évaluation approfondie de la robustesse de ChatGPT d’un point de vue adversarial et hors distribution (OOD), et les résultats indiquent que ChatGPT montre des avantages constants dans la plupart des tâches de classification et de traduction adversariales et OOD. Toutefois, malgré cette résistance intégrée, il ne parvient pas à éliminer complètement le biais de genre. Par exemple, certaines études utilisant des cas de test construits artificiellement ont montré que ChatGPT présente des lacunes en matière d’égalité de genre et affiche des incohérences entre différentes versions (Geiger et al., 2024; Fang et al., 2024).

Notre Opinion Tech

Il est pertinent de s’interroger sur l’évolution des technologies de détection du discours haineux et leur capacité à évoluer face aux défis sociétaux liés aux biais de genre. À mesure que ces outils deviennent essentiels dans la modération des contenus en ligne, il est fondamental d’examiner non seulement leur efficacité, mais aussi leur impact sur la diversité et l’inclusivité. À l’avenir, une réflexion sur l’amélioration continue de ces modèles, couplée à une approche éthique de l’IA, pourrait en faire des outils puissants pour la lutte contre les discriminations, tout en préservant une représentation équitable des différentes populations.

Bon à savoir

Les algorithmes de détection de discours haineux sont de plus en plus intégrés dans les réseaux sociaux pour offrir une expérience utilisateur plus sécurisée. Néanmoins, leur amélioration nécessite une compréhension approfondie des biais qu’ils peuvent véhiculer.


Partager : X Facebook WhatsApp LinkedIn Reddit

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *