Cette décision de justice controversée aurait pu changer le cours non seulement de cette affaire, mais également d’autres futures impliquant des entreprises d’IA. Le tribunal a décidé qu’OpenAI avait renoncé à son privilège avocat-client en contestant des accusations selon lesquelles elle aurait sciemment violé les droits d’auteur d’auteurs dont les livres auraient été téléchargés illégalement. Ce jugement a potentiellement ouvert la voie à des communications internes concernant l’effacement de deux vastes ensembles de données de livres piratés, exposant ainsi la société à d’importants dommages.
OpenAI a immédiatement interjeté appel de cette décision en s’adjoignant les services de Lisa Blatt, une avocate chevronnée du barreau de la Cour suprême, ayant pour clients Google, Bank of America et Starbucks. Dans son argumentation, elle a émis un avertissement sérieux : si cette décision était maintenue, elle porterait atteinte aux assertions de privilège dans toute affaire de droits d’auteur impliquant ce qu’on appelle l’état d’esprit, utilisé pour déterminer si un accusé a intentionnellement commis une infraction ou en était inconscient.
Vendredi, OpenAI a obtenu gain de cause dans sa demande d’inversion de la décision du tribunal. En jeu, des milliards de dollars. Les communications auraient pu aider à prouver une infraction intentionnelle, avec des dommages pouvant atteindre 150 000 dollars par ouvrage, contre seulement 200 dollars. Surtout, la décision menaçait de permettre aux plaignants de signaler des entreprises d’IA d’obtenir des preuves généralement considérées comme des informations privilégiées.
Cette question a été un point de tension majeur lors de la procédure. Elle concerne un employé d’OpenAI ayant téléchargé des copies piratées de livres en 2018 pour créer deux ensembles de données, appelés « books 1 » et « books 2 », pour entraîner deux modèles GPT qui ont depuis été abandonnés. Après avoir initialement indiqué que ces ensembles de données avaient été supprimés en 2022 « en raison de leur non-utilisation », la société a ensuite soutenu que les raisons de leur effacement étaient privilégiées. Des avocats représentant des auteurs et des éditeurs ont dénoncé un comportement inapproprié.
En novembre, la magistrate Ona Wang a stipulé qu’OpenAI devait fournir des preuves révélant les motivations de la société pour avoir supprimé les ensembles de données. Elle a conclu que l’entreprise avait ouvert la porte à des informations privilégiées en dévoilant que « books 1 » et « books 2 » avaient été supprimés pour cause de « non-utilisation », tout en soulignant que l’entreprise avait effectivement renoncé au privilège avocat-client en niant des allégations d’infraction intentionnelle.
En rendant sa décision contre les auteurs et les éditeurs, y compris Sarah Silverman, le juge de district Sidney Stein a souligné que la simple dénégation des allégations d’infraction intentionnelle n’équivaut pas à avancer une défense de bonne foi. Cela met donc à l’écart la découverte des raisons pour lesquelles OpenAI a effacé les ensembles de données en 2022. « Il y a une distinction entre un défendeur en matière de droits d’auteur qui se contente de nier des allégations de volonté — sur laquelle le plaignant porte le fardeau de la preuve — et un défendeur qui affirme de manière proactive qu’il croyait de bonne foi que ses actions étaient légales », a écrit Stein.
Ce renversement a créé une déviation de jurisprudence dans cette affaire. Bien que cette décision ait été annulée, l’argumentation était astucieuse de la part des avocats représentant les auteurs, menés par Justin Nelson et Craig Smyser du cabinet Susman Godfrey, qui avait négocié le règlement de 1,5 milliard de dollars avec Anthropic. Si la décision avait été maintenue, les entreprises d’IA auraient été tenues de prouver qu’elles n’avaient pas l’intention de violer la loi sur les droits d’auteur chaque fois qu’elles contestaient des allégations d’infraction intentionnelle.
Par ailleurs, le débat portait sur la question de savoir si OpenAI avait révélé des informations privilégiées en indiquant que les ensembles de données avaient été supprimés « en raison d’une non-utilisation ». À ce sujet, Stein a affirmé que cette assertion ne constituait pas un conseil juridique, ce qui signifie qu’elle ne peut pas servir de base pour conclure qu’OpenAI avait renoncé à ce privilège.
Malgré cette perte dans la bataille des découvertes, les avocats des auteurs progressent sur ce qui semble devenir un argument de plus en plus gagnant concernant la pratique de pirater des livres à partir de bibliothèques clandestines. Cette théorie a évolué au cours des litiges liés à l’IA. Initialement, les avocats des auteurs reliaient directement la piraterie à la formation des modèles d’OpenAI. Cependant, plus tard, ils ont séparé les théories, affirmant que l’acte distinct de téléchargement illégal des œuvres, indépendamment de leur utilisation, constitue une infraction aux droits d’auteur.
Cette stratégie s’appuie sur une victoire pour les auteurs dans un autre procès sur les droits d’auteur concernant une plainte d’Andrea Bartz contre Anthropic, liée à des téléchargements illégaux de millions de livres. Bien que la décision ait largement penché en faveur d’Anthropic, le tribunal a validé cette théorie pour le procès OpenAI. « Le fait qu’Anthropic ait par la suite acheté un exemplaire d’un livre qu’il avait précédemment volé sur internet ne l’absout pas de sa responsabilité », a écrit le juge fédéral William Alsup. Après cette décision, Anthropic a accepté de payer 1,5 milliard de dollars pour régler le litige.
Il reste encore beaucoup d’incertitudes quant aux bases sur lesquelles les systèmes d’IA actuels sont formés. OpenAI a utilisé « books 1 » et « books 2 », téléchargés depuis LibGen, un site web de bibliothèque clandestine, pour entraîner d’anciennes versions de GPT, mais a ensuite supprimé les ensembles de données. Pourtant, des milliards de dollars ont été levés par des entreprises d’IA largement grâce à des modèles formés sur des livres piratés.
Points à retenir
- La décision d’OpenAI peut avoir des conséquences sur d’autres cas de droits d’auteur.
- L’argumentation d’OpenAI sur le privilège avocat-client soulève des questions complexes.
- Les avocats des auteurs adaptent leurs stratégies de litige face à l’évolution des technologies d’IA.
- Les pratiques de piraterie de livres peuvent avoir des implications juridiques plus larges dans le secteur de l’IA.
Pour conclure, cette affaire soulève des interrogations cruciales sur l’intersection entre innovation technologique et respect de la propriété intellectuelle. En tant qu’observateur passionné de ces dynamiques, je me demande où se situe la ligne entre le progrès et la protection des droits des créateurs. Quel sera l’impact à long terme sur l’industrie de l’édition et sur la manière dont nous concevons l’usage d’IA dans la création de contenu ? Les débats ne sont pas prêts de s’éteindre.