Cinquante mille livres pour entraîner l’IA : un exploit colossal !

ByJulien Macé

Jan 22, 2026

Récemment, nous avons appris que NVIDIA fait face à une
action en justice déposée dans le District Nord de Californie, aux États-Unis, pour avoir utilisé des livres piratés afin d’entraîner ses modèles d’IA. Cette nouvelle n’est guère surprenante. Souvenons-nous que Meta (anciennement Facebook) a également été accusé d’utiliser BitTorrent pour se procurer des livres piratés afin de former son modèle d’IA (Llama). Cependant, la situation va au-delà de cela.

Pour mieux comprendre le contexte de l’affaire NVIDIA, il est important de mentionner que OpenAI (ChatGPT), Microsoft (Copilot), Anthropic (Claude), Google (Gemini) et même Apple ont été accusés d’utiliser des sources d’information protégées sans avoir obtenu les droits nécessaires. Des modèles générant des images, tels que Stability AI, Midjourney ou DeviantArt, font face à des plaintes similaires. Dans ce cadre, de nombreux artistes ont vu leurs œuvres utilisées sans autorisation pour entraîner ces modèles d’IA. En somme, il n’est pas étonnant que les avancées fulgurantes de l’IA soient en partie dues à “l’appropriation” de l’information accessible sur Internet.

Sommaire

NVIDIA accusée d’avoir utilisé près de 500 To de livres piratés

Demande NVIDIA pour utilisation de livres piratés

Revenons à l’affaire : NVIDIA est confrontée à une action collective dans laquelle plusieurs auteurs l’accusent d’avoir copié et utilisé des œuvres protégées pour entraîner ses modèles d’IA. Cela inclut des contenus provenant de “bibliothèques cachées” comme The Pile, Bibliotik/Books3 et Anna’s Archive. Selon les documents de la demande, cette situation serait survenue en 2023, alors que NVIDIA était sous pression pour développer rapidement un modèle de langage à grande échelle (LLM) pour un événement destiné aux développeurs.

Pour atteindre les objectifs de volume, NVIDIA aurait ainsi devenu très dépendante d’une telle information. La plainte affirme également que NVIDIA a tenté de négocier avec les éditeurs pour obtenir un accès rapide à de grands volumes de livres, mais n’a pas réussi à conclure des accords de licence à temps. C’est alors qu’elle aurait sollicité une bibliothèque cachée, Anna’s Archive, qui prétend avoir été contactée par la société.

Anna’s Archive a vu son domaine suspendu en janvier 2026. Elle possède environ 62 millions de livres et près de 96 millions d’articles, totalisant un volume de 1,1 pétaoctets, ce qui représente 1 100 To. Ainsi, NVIDIA aurait pu accéder à près de la moitié de cette base de données. Les accusations stipulent qu’Anna’s Archive a reçu une demande de NVIDIA pour un accès accéléré, ce qui est décrit comme une forme de “piraterie légale“. Malgré l’avertissement d’Anna’s Archive concernant le caractère illégal de son contenu, NVIDIA aurait reçu une “approbation” pour accéder à une multitude de livres une semaine plus tard.

Anna’s Archive a promis l’accès à 500 To de livres

Fuite Spotify de fichiers et métadonnées

Le document indique qu’Anna’s Archive a promis à NVIDIA un accès à “de nombreux livres”, c’est-à-dire environ 500 To de données. Toutefois, il reste à déterminer si NVIDIA a effectivement payé pour cet accès. De plus, la plainte élargit le champ des accusations en affirmant que NVIDIA aurait eu accès à d’autres bibliothèques similaires telles que LibGen, Sci-Hub et Z-Library. Elle aurait également facilité à certains clients d’entreprise les outils nécessaires pour télécharger des ensembles de données.

Cette affaire illustre une nouvelle plainte contre un géant technologique dans le domaine de l’IA (NVIDIA) qui aurait eu recours à du matériel piraté afin de rester compétitif. Cependant, les précédents montrent que ces affaires n’aboutissent souvent pas.

En ce qui concerne Meta, depuis 2025, peu d’informations ont filtré, sauf que le juge avait rejeté la motion des plaignants. Pour ce qui est d’OpenAI et de Microsoft, des mises à jour pourraient survenir entre janvier et février de cette année. Anthropic est quasiment l’un des rares à considérer une “amende”. En effet, ils ont proposé un accord de 1,5 milliard de dollars pour avoir eu recours à des livres piratés, mais cet accord a été suspendu par un juge fédéral en attente de plus de détails. À ce jour, aucune grande entreprise n’a encore été condamnée à une amende pour l’utilisation de livres ou de matériel piraté.

Points à retenir

NVIDIA est poursuivie pour avoir utilisé des livres piratés afin d’entraîner ses modèles d’IA.
D’autres entreprises comme Meta et OpenAI se trouvent dans des situations similaires.
La plainte souligne une dépendance accrue à des ressources non légitimes dans le domaine de l’IA.
NVIDIA aurait tenté de négocier des licences avec des éditeurs, sans succès dans les délais impartis.
La situation soulève des questions sur la propriété intellectuelle dans le secteur technologique.

En tant qu’observateur passionné des évolutions technologiques, je trouve fascinant de réfléchir à l’équilibre entre innovation et respect des droits d’auteur. Les avancées impressionnantes de l’IA soulèvent des interrogations éthiques et légales cruciales, mais le débat doit aussi envisager l’impact de ces décisions sur la création artistique et l’accès à la connaissance. Où s’arrête l’innovation légitime et où commence l’infraction? C’est une question qui mérite d’être approfondie.