Au printemps 2024, Rachael Sawyer, rédactrice technique originaire du Texas, a reçu un message LinkedIn d’un recruteur lui proposant un poste de « writing analyst ». Pensant à un travail similaire à ses expériences précédentes en création de contenu, elle a vite déchanté dès son premier jour. Au lieu de rédiger elle-même, sa mission consistait en réalité à évaluer et modérer les contenus produits par l’intelligence artificielle.
Initialement, elle devait analyser des notes de réunions et des conversations synthétisées par Gemini, le chatbot de Google, et dans certains cas, revoir de courts films générés par l’IA. Elle s’est aussi vue confier, parfois, la tâche de signaler des contenus extrêmes, violents ou sexuellement explicites produits par Gemini. Avec le temps, ces missions de modération sont devenues son activité principale.
« J’ai été choquée par la nature des contenus dont je devais m’occuper, sans aucun avertissement préalable ni contrat clair, et alors que ni l’intitulé du poste ni sa description ne mentionnaient la modération », confie Sawyer, engagée depuis mars 2024 comme « évaluatrice généraliste » des produits d’intelligence artificielle de Google. La pression pour réaliser des dizaines de tâches par jour, chacune en moins de dix minutes, lui a causé crises d’angoisse et attaques de panique, sans aucun soutien psychologique de la part de son employeur.
Sawyer fait partie des milliers de travailleurs dispersés dans le monde, employés via le conglomérat japonais Hitachi et sa filiale GlobalLogic, sous-traitants de Google, chargés d’évaluer et modérer les productions d’IA comme le chatbot Gemini, lancé début 2023, ou les résumés automatisés des résultats de recherche. Ces travailleurs, parfois issus de milieux très qualifiés (enseignants, diplômés en arts ou en sciences pointues comme la physique), opèrent souvent dans l’ombre, entre data labeling et ingénierie.
Les modèles d’IA s’appuient sur des volumes gigantesques d’informations puisées sur Internet. Les évaluateurs comme Sawyer constituent un maillon intermédiaire essentiel de cette chaîne : mieux rémunérés que certains des annotateure·s basés en Afrique ou en Amérique latine, ils restent bien en deçà des ingénieurs californiens qui conçoivent les algorithmes. Pourtant, ces travailleurs se sentent invisibles et remplaçables malgré leur rôle crucial dans le contrôle qualité des modèles.
« L’intelligence artificielle n’est pas magique, c’est une pyramide de travail humain », résume Adio Dinika, chercheur en Allemagne. « Ces évaluateurs sont un rouage invisible, essentiel mais jetable. » De son côté, Google minimise leur impact direct sur les modèles, soulignant que leurs notations ne constituent qu’un indicateur parmi d’autres pour mesurer la qualité des systèmes.
Les évaluateurs d’IA : une main-d’œuvre dans l’ombre
Comme d’autres géants du numérique, Google recrute ses évaluateurs par le biais d’une chaîne complexe de sous-traitants. GlobalLogic a ainsi embauché des « super évaluateurs » dotés de connaissances pointues, recrutant notamment des enseignants et spécialistes. En 2023, leur équipe comptait 25 professionnels, mais la pression de la compétition a vite fait grimper ce chiffre à environ 2 000, principalement basés aux États-Unis.
Ils gagnent entre 16 et 21 dollars de l’heure, un peu plus que leurs homologues en amont qui annotent les données dans des pays à faible coût de main-d’œuvre. Si certains apprécient la stabilité dans un marché de l’emploi compliqué, d’autres dénoncent un salaire ne reflétant pas leur niveau de qualification, et estiment contribuer à un produit dont le monde pourrait se passer.
De nombreux évaluateurs expriment une désillusion grandissante, alimentée par l’isolement, les délais de plus en plus serrés et une inquiétude face à la sécurité des produits qu’ils aident à construire. Certaines pressions les poussent à réduire considérablement le temps consacré à chaque tâche, au détriment de la qualité. Cette précipitation peut rendre le modèle final « dangereux » selon un ancien employé, qui avait alerté le Congrès américain dès 2023.
Pression accrue et flou sur les objectifs
Le travail consiste le plus souvent à comparer deux réponses générées par l’IA à partir d’un même prompt, pour choisir celle qui respecte le mieux les consignes, parfois en testant les limites du système. Ces instructions sont fréquemment modifiées, parfois sans explications complètes, ce qui rend leur application incohérente. Les évaluateurs ont peu de visibilité sur les usages réels des réponses qu’ils valident.
Ils doivent juger la véracité et la pertinence des réponses, même face à des prompts délicats : la corruption serait-elle justifiable ? Quels avantages pour des enfants soldats ? Des questions au contenu choquant formulées de façon anodine, mais qui impliquent une charge émotionnelle considérable.
Les évaluations font souvent l’objet de consensus entre plusieurs personnes. Mais ces réunions, censées harmoniser les notes, sont parfois dominées par les plus assertifs, poussant certains évaluateurs à changer leur évaluation sous pression.
Selon le sociologue Antonio Casilli, spécialiste de la contributivité humaine dans l’intelligence artificielle, ce système collaboratif peut améliorer la fiabilité globale, mais introduit aussi des biais liés aux rapports de force entre évaluateurs.
Assouplissement des règles sur les contenus haineux
En mai 2024, Google a lancé AI Overviews, une fonctionnalité qui résume les résultats du web de façon automatisée. Peu après, des réponses absurdes ont fait le buzz, comme un conseil d’utiliser de la colle pour faire adhérer du fromage à une pizza, ou de manger des cailloux. Google a qualifié ces erreurs de cas isolés et a rapidement retiré manuellement ces réponses farfelues.
Un évaluateur chevronné témoigne que ces anomalies ne sont pas une surprise pour ceux qui travaillent en coulisse, où circulent des contenus encore plus choquants qui ne voient jamais le jour publiquement. L’exigence de qualité s’est pourtant érodée rapidement, la priorité étant souvent donnée à la quantité dans des délais toujours plus contraints.
Rebecca Jackson-Artis, ancienne journaliste provenant de Caroline du Nord, raconte son intégration rapide sans formation adéquate et la pression croissante pour atteindre des quotas. Elle a dû vérifier et enrichir des contenus médicaux, comme des traitements contre le cancer de la vessie, un exercice source de détresse, consciente que des malades consultaient ces informations.
En décembre, les instructions internes ont changé, demandant aux évaluateurs de ne plus pouvoir refuser une tâche faute de compétence, mais d’évaluer partiellement et d’ajouter une remarque en cas d’expertise limitée. Certains experts reçoivent ainsi des questions techniques hors de leur domaine, mais doivent quand même en juger la pertinence.
Plus inquiétant, un document interne divulgué montre qu’en 2024, Google a assoupli ses règles contraignant la reproduction par l’IA de propos haineux, violents ou à caractère sexuel, tant que ces contenus n’étaient pas générés directement par le système mais « simplement » reproduits à partir d’un prompt utilisateur. Un changement qui a suscité une controverse silencieuse au sein des équipes.
« La promesse de sécurité autour de l’IA s’effondre dès que les intérêts commerciaux sont en jeu » résume Adio Dinika. Même si Google affirme que sa politique sur les discours haineux n’a pas changé, une clause ajoutée fin 2024 autorise désormais des exceptions « lorsque les bénéfices publics surpassent les risques », notamment pour l’art ou l’éducation, une nuance difficile à apprécier pour les évaluateurs sur le terrain.
Malgré l’essor de l’industrie, les emplois des évaluateurs restent précaires. Depuis début 2025, plusieurs vagues de licenciements ont affecté GlobalLogic, réduisant la main-d’œuvre spécialisée et creusant le décalage entre ces experts et la confiance qu’ils accordent aux produits qu’ils contribuent à améliorer. Nombre d’entre eux évitent désormais d’utiliser les intelligences artificielles ou recommandent à leur entourage de faire pareil.
« L’IA n’est pas une magie technologique, malgré le petit symbole étincelant à côté des réponses », rappelle Sawyer. « Elle repose sur le dos d’humains surmenés et sous-payés. »
Points à retenir
- Les évaluateurs d’IA sont souvent recrutés via des chaînes de sous-traitance et occupent une position intermédiaire entre les annotateurs de données et les ingénieurs. Leur rôle est fondamental pour garantir la qualité et la sécurité des réponses générées par l’IA.
- Les conditions de travail sont marquées par une pression constante, des délais courts et une formation souvent insuffisante, ce qui peut nuire à la qualité des évaluations.
- Le contenu modéré inclut parfois des sujets sensibles ou choquants auxquels ces travailleurs ne sont pas toujours préparés ni soutenus psychologiquement.
- Un assouplissement récent des règles internes permet désormais à l’IA de reproduire certains propos haineux si ceux-ci proviennent d’une requête utilisateur, soulevant des questions éthiques évidentes.
- Malgré leur rôle clé, les évaluateurs restent peu visibles et précaires, avec des effectifs en baisse chez les sous-traitants, ce qui interroge sur la pérennité de cette main-d’œuvre.
En fin de compte, on se demande si cette « magie » de l’intelligence artificielle n’est pas avant tout un gigantesque système de bricolage humain, où le vrai génie semble résider dans la capacité à ignorer le coût humain derrière chaque réponse automatique. Mais bon, tant que ça marche… pour combien de temps encore ?