Un groupe de chercheurs, incluant un informaticien de l’Université Johns Hopkins, a révélé que des biais culturels et sociaux influencent considérablement le contenu multilingue de Wikipédia.
Utilisant un nouvel outil nommé INFOGAP, l’équipe a recours à l’intelligence artificielle pour examiner la présentation des informations biographiques concernant les personnes LGBT à travers les versions anglaise, russe et française de Wikipédia, mettant en lumière des incohérences dans leurs représentations.
Points clés
- L’intelligence artificielle a permis aux chercheurs de déceler des incohérences dans la représentation des personnes LGBT sur les versions anglaise, russe et française de Wikipédia.
- Ces disparités illustrent comment les attitudes culturelles influencent l’information et soulignent la nécessité d’outils pour identifier et corriger les biais afin de favoriser un partage de connaissances plus équitable.
Les différences observées soulignent l’ampleur de l’influence des attitudes culturelles sur l’information, appelant à la mise en place d’outils et de stratégies pour repérer et corriger ces biais, a déclaré Anjalie Field, professeur adjoint au département d’informatique de la Whiting School of Engineering, affilié au Centre de traitement du langage et de la parole.
“Notre outil démontre comment la technologie peut être exploitée pour étudier les biais culturels à grande échelle,” a indiqué Field. “Au-delà de Wikipédia, il peut aider à analyser comment différentes régions ou langues abordent les mêmes sujets dans les actualités ou d’autres médias. Nous pensons que les éducateurs et les décideurs pourraient également l’utiliser pour repérer et traiter les biais dans les ressources largement utilisées, favorisant ainsi une information plus équilibrée.”
L’équipe a présenté ses résultats lors de la Conférence 2024 sur les Méthodes Empiriques en Traitement du Langage Naturel, qui s’est tenue en novembre à Miami.
“Notre outil montre comment la technologie peut être utilisée pour étudier des biais culturels à grande échelle.”
Anjalie Field
Professeur adjoint, Département d’Informatique
INFOGAP a été conçu pour analyser et comparer de grandes quantités de texte dans différentes langues de manière détaillée et précise, identifiant les lacunes et déséquilibres factuels tout en mettant en lumière les influences culturelles, sociales et politiques.
“Les méthodes existantes pour étudier les différences entre langues reposent souvent sur des mesures simples comme la longueur des textes ou le ton général, qui ne permettent pas d’identifier précisément les lacunes ou incohérences,” a expliqué Field. “INFOGAP résout ce problème en faisant correspondre les faits d’un même article écrit dans différentes langues et en vérifiant la cohérence de l’information. Ce processus permet d’examiner et de mesurer finement les différences dans la présentation des faits et le ton utilisé entre les langues, même pour de grandes quantités de données.”
L’outil a démontré ses capacités en utilisant le LGBTBIOCORPUS, une collection de plus de 2 700 biographies de figures publiques LGBT et non LGBT issues des versions anglaise, russe et française de Wikipédia. L’analyse a révélé que les biographies en russe omettaient 77 % du contenu présent dans les versions anglaises. De plus, les entrées pour les individus LGBT non seulement omettaient davantage de contenu, mais mettaient également en avant des aspects négatifs de façon plus fréquente. En moyenne, 50,87 % des faits négatifs concernant les individus LGBT dans la version russe de Wikipédia correspondaient à ceux des versions anglaises, contre 38,53 % pour les biographies non LGBT, suggérant un biais significatif.
Field indique que cette attention portée aux détails négatifs met en lumière comment les attitudes culturelles et les préjugés influencent le contenu dans différentes langues.
“En mesurant ces différences, INFOGAP offre des preuves claires de biais systémiques, soutenant des conclusions antérieures selon lesquelles le contenu russe traite souvent les sujets LGBT de manière plus négative que les versions anglaise ou française,” a-t-elle ajouté.
Les chercheurs soulignent que INFOGAP ne se contente pas d’identifier les différences, mais propose également des solutions en indiquant les faits ou sections manquants entre les langues, offrant ainsi aux éditeurs une feuille de route claire pour les mises à jour. Par exemple, il peut signaler l’absence de détails positifs concernant une personnalité LGBT dans les versions russe ou française de Wikipédia, permettant ainsi de combler ces lacunes. De plus, les chercheurs mettent en avant sa polyvalence, notant qu’il peut analyser les variations dans les médias, les discussions politiques et les récits culturels en dehors de Wikipédia.
Les co-auteurs de cet article incluent Farhan Samir et Vered Shwartz de l’Université de Colombie-Britannique ; et Chan Young Park et Yulia Tsvetkov de l’Université de Washington.
Points à retenir
- INFOGAP illustre l’impact des biais culturels sur des informations spécifiques.
- La technologie peut jouer un rôle clé dans la correction des inégalités d’information dans diverses langues.
- Une telle analyse pourrait également s’étendre à d’autres domaines au-delà de Wikipédia, comme les médias ou la politique.
En conclusion, cet article soulève des questions fondamentales sur l’équité dans la représentation des différentes cultures et identités. La prise de conscience des biais dans des sources d’information communément utilisées est essentielle pour améliorer la qualité des connaissances partagées à l’échelle mondiale. Quelles autres stratégies pourrions-nous envisager pour garantir une représentation équilibrée dans les contenus numériques ?
- Source image(s) : hub.jhu.edu
- Source : https://hub.jhu.edu/2025/01/09/finding-hidden-biases-in-wikipedias-multilingual-content/
Nos rédacteurs utilisent l'IA pour les aider à proposer des articles frais de sources fiables à nos utilisateurs. Si vous trouvez une image ou un contenu inapproprié, veuillez nous contacter via le formulaire DMCA et nous le retirerons rapidement. / Our editors use AI to help them offer our readers fresh articles from reliable sources. If you find an image or content inappropriate, please contact us via the DMCA form and we'll remove it promptly.