Pour entraîner ses chatbots, Anthropic a sacrifié des millions de livres !

ByJulien Macé

Fév 10, 2026

En 2024, l’un des fondateurs d’Anthropic, la société à l’origine du chatbot Claude, a présenté à ses employés un projet audacieux : “scanner de manière destructrice tous les livres du monde”. Cette initiative, connue en interne sous le nom de Project Panama, avait pour ambition d’acquérir de grandes quantités de livres d’occasion afin de les numériser pour entraîner les modèles d’intelligence artificielle de l’entreprise.

Les livres ont en effet été endommagés. Pour permettre une numérisation plus rapide et plus efficace, leurs dos ont été retirés. C’est pourquoi Project Panama devait rester secret : « Nous ne voulons pas que cela soit su », a écrit un des fondateurs dans des documents internes.

Le Washington Post a récemment levé le voile sur ce projet, ayant eu accès à une documentation liée à une action en justice collective contre Anthropic, accusée d’avoir enfreint les droits d’auteur des ouvrages utilisés pour l’entraînement de ses IA. En septembre dernier, la société a accepté de régler le litige en versant environ 1,5 milliard de dollars, mais certains documents relatifs à l’affaire ont été publiés par un juge en janvier.

D’après les révélations du Washington Post (Anthropic n’a pas commenté cette affaire), l’entreprise a fait appel à Tom Turvey, un ancien employé de Google ayant travaillé sur Google Books, pour assurer le succès de Project Panama. Ce dernier avait collaboré à une initiative controversée visant à numériser et mettre en ligne des millions de livres.

Google avait utilisé des scanners spéciaux qui permettaient de préserver l’intégrité des ouvrages, en collaborant avec de nombreuses bibliothèques publiques. En revanche, la méthode choisie par Anthropic, bien que plus rapide, s’est révélée moins respectueuse des livres.

Pour minimiser l’impact de son opération, Anthropic a majoritairement opté pour des livres d’occasion. Tom Turvey a ainsi commencé à se fournir auprès de The Strand, une célèbre librairie new-yorkaise, et de diverses bibliothèques publiques américaines, mais a surtout collaboré avec deux grands revendeurs de livres d’occasion : Better World Books et World of Books. Bien qu’il n’existe pas de chiffres officiels, le Washington Post évoque des millions de livres acquis par l’entreprise.

Ce n’est pas la première fois qu’une société d’IA se retrouve dans la tourmente pour avoir utilisé de grandes quantités d’œuvres protégées pour entraîner ses modèles. Cependant, la plupart du temps, ces livres étaient en version numérique, téléchargés sur des sites tels que LibGen, qui offrent un accès illégal à de milliers d’œuvres sous copyright. Ces “bibliothèques ombre” ont également été utilisées par des entreprises comme OpenAI et Meta. Selon les documents du Washington Post, Anthropic y aurait eu recours, mais dément cette allégation.

Des poursuites légales sont en cours depuis des années de la part d’auteurs et d’éditeurs contre des entreprises du secteur de l’IA, accusées de violations de droits d’auteur dans le développement de modèles linguistiques. L’issue de ces conflits demeure incertaine, en partie à cause d’un manque de clarté juridique sur les questions soulevées. Dans ce contexte, il est possible que le choix d’Anthropic d’utiliser et de détruire des livres d’occasion ait été une stratégie réfléchie.

Des décisions judiciaires récentes, notamment une impliquant Anthropic, suggèrent que l’utilisation de matériel protégé pour l’entraînement d’IA pourrait être considérée comme légale. Cette phase serait perçue comme “transformative”, ayant pour but de créer de nouveaux contenus distincts des ressources initiales, sans duplication. Ainsi, l’usage de ces contenus pour l’entraînement pourrait entrer dans la doctrine du “fair use” du droit américain, qui autorise, sous certaines conditions, l’utilisation d’œuvres protégées à des fins de critique ou de commentaire, même sans l’accord des ayants droit.

Selon ce point de vue, les entreprises du secteur seraient donc libres d’utiliser du matériel protégé à condition qu’il soit acquis légalement. Des sources comme LibGen seraient ainsi illégales, tandis que les livres d’occasion récupérés par Anthropic, acquis de manière légale, n’entreraient pas dans ce cadre.

Points à retenir

Project Panama vise à numériser des livres d’occasion pour entraîner des IA.
Les livres sont endommagés lors de leur préparation pour la numérisation.
Des poursuites en cours contre Anthropic mettent en lumière des enjeux de droits d’auteur.
Des stratégies légales pourraient permettre l’utilisation de matériel protégé sous certaines conditions.
Les pratiques d’acquisition de livres d’occasion suscitent des débats éthiques dans le domaine de l’IA.

À mon sens, cette affaire soulève des questions essentielles sur la frontière entre innovation et respect des droits d’auteur. Alors que les entreprises d’IA cherchent à innover, il est crucial d’entamer une discussion sur la manière dont elles peuvent concilier leurs ambitions avec des pratiques respectueuses envers les créateurs. Cette réflexion est peut-être le début d’un nouveau cadre légal plus adapté aux enjeux contemporains, et je suis sûr que d’autres acteurs du secteur seront attentifs à l’évolution de cette situation.”

By Julien Macé

Articles de la même catégorie

Intelligence Artificielle

Pour entraîner ses chatbots, Anthropic a sacrifié des millions de livres !

ByJulien Macé

Points à retenir

By Julien Macé

Articles de la même catégorie

Restrictions américaines sur les puces : Alibaba révèle l’inefficacité de la stratégie pour freiner l’IA chinoise !

DeepSeek inquiète OpenAI : le nouveau modèle d’IA à 100 fois moins cher, et Alibaba se lance dans la course aux agents !

Golem : Créature des Ombres et Protecteur des Secrets !

Laisser un commentaire Annuler la réponse

Ne ratez pas

Un matériau mystérieux émergé après l’explosion d’Hiroshima enfin identifié par les scientifiques !

BlackRock élargit son offre de liquidités tokenisées avec de nouvelles solutions de marché monétaire basées sur la blockchain !

Le véritable rôle d’un pilote de MotoGP dans le développement des motos : entre passion et innovation !

Réseaux sociaux réservés aux 16 ans et plus ? Une étude révèle d’importants manques d’apprentissage chez les jeunes utilisateurs.