L’Open Source Initiative (OSI) a récemment dévoilé sa dernière définition préliminaire de “l’IA open source”, visant à clarifier l’utilisation ambiguë de ce terme dans un domaine en rapide évolution. Cette initiative survient alors que certaines entreprises, comme Meta, publient des modèles de langage d’IA entraînés, ainsi que leur code, avec des restrictions d’utilisation, tout en arborant l’étiquette “open source”. Cela a suscité des débats intenses parmi les défenseurs des logiciels libres concernant ce qui constitue vraiment un “open source” dans le contexte de l’IA.
Par exemple, le modèle Llama 3 de Meta, bien qu’il soit disponible gratuitement, ne répond pas aux critères traditionnels de l’open source tel que défini par l’OSI pour les logiciels, car il impose des restrictions de licence selon la taille de l’entreprise ou le type de contenu généré avec le modèle. L’outil de création d’images par IA, Flux, est également un modèle “ouvert” qui n’est pas véritablement open source. En raison de ce type d’ambiguïté, nous avons généralement décrit les modèles d’IA qui incluent du code ou des poids avec des restrictions, ou qui manquent de données d’entraînement accompagnantes, avec des termes alternatifs comme “poids ouverts” ou “source disponible.”
Pour aborder la question de manière formelle, l’OSI—qui est bien connue pour sa défense des normes de logiciels ouverts—a rassemblé un groupe d’environ 70 participants, comprenant des chercheurs, des avocats, des responsables politiques et des militants. Des représentants des grandes entreprises technologiques comme Meta, Google et Amazon ont également rejoint l’effort. Le projet préliminaire actuel (version 0.0.9) de la définition de l’IA open source met l’accent sur “quatre libertés fondamentales”, rappelant celles qui définissent les logiciels libres : donner aux utilisateurs du système d’IA la permission de l’utiliser à toute fin, d’étudier son fonctionnement, de le modifier à toute fin, et de le partager avec ou sans modifications.
En établissant des critères clairs pour l’IA open source, l’organisation espère fournir un point de référence permettant d’évaluer les systèmes d’IA. Cela aidera probablement les développeurs, les chercheurs et les utilisateurs à faire des choix plus éclairés concernant les outils d’IA qu’ils créent, étudient ou utilisent.
Une véritable IA open source pourrait également mettre en lumière les éventuelles vulnérabilités logicielles des systèmes d’IA, puisque les chercheurs pourraient observer le fonctionnement des modèles d’IA en coulisses. Contrairement à un système opaque comme ChatGPT d’OpenAI, qui est plus qu’un simple modèle de langage GPT-4 avec une interface sophistiquée—c’est un système propriétaire d’ modèles et de filtres interconnectés, et son architecture précise est un secret bien gardé.
Le calendrier du projet de l’OSI indique qu’une version stable de la définition de “l’IA open source” devrait être annoncée en octobre lors de l’événement All Things Open 2024 à Raleigh, Caroline du Nord.
“Innovation sans permission”
Dans un communiqué de presse de mai, l’OSI a souligné l’importance de définir ce que signifie vraiment l’IA open source. “L’IA est différente des logiciels classiques et oblige tous les acteurs à revoir comment les principes de l’Open Source s’appliquent à cet espace”, a déclaré Stefano Maffulli, directeur exécutif de l’OSI. “L’OSI estime que tout le monde mérite de conserver son autonomie et son contrôle sur la technologie. Nous reconnaissons également que les marchés prospèrent lorsque des définitions claires favorisent la transparence, la collaboration et l’innovation sans permission.”
La définition préliminaire la plus récente de l’organisation va au-delà du simple modèle d’IA ou de ses poids, englobant l’ensemble du système et ses composants.
Pour qu’un système d’IA soit qualifié d’open source, il doit fournir un accès à ce que l’OSI appelle la “forme préférée pour effectuer les modifications”. Cela inclut des informations détaillées sur les données d’entraînement, le code source complet utilisé pour entraîner et exécuter le système, ainsi que les poids et paramètres du modèle. Tous ces éléments doivent être disponibles sous des licences ou des conditions approuvées par l’OSI.
Notamment, le projet ne mandate pas la publication des données d’entraînement brutes. Au lieu de cela, il exige des “informations sur les données”—des métadonnées détaillées sur les données d’entraînement et les méthodes utilisées. Cela comprend des informations sur les sources de données, les critères de sélection, les techniques de prétraitement, et d’autres détails pertinents qui permettraient à une personne qualifiée de recréer un système similaire.
L’approche des “informations sur les données” vise à fournir transparence et reproductibilité sans forcément divulguer le jeu de données réel, abordant ainsi d’éventuelles préoccupations relatives à la confidentialité ou aux droits d’auteur tout en respectant les principes open source, bien que ce point puisse être sujet à un débat ultérieur.
“La chose la plus intéressante à propos de [la définition], c’est qu’ils permettent de ne pas publier les données d’entraînement”, a déclaré Simon Willison, chercheur indépendant en IA, dans une brève interview sur la proposition de l’OSI. “C’est une approche éminemment pragmatique—s’ils n’avaient pas autorisé cela, il n’y aurait pratiquement aucun modèle ‘open source’ capable.”
En tant que journaliste pour LesNews, je pense qu’aborder le sujet de l’IA open source est crucial dans notre ère technologique actuelle. La définition qui se dessine met en avant des principes qui peuvent aider à garantir un développement respectueux de la société tout en préservant l’innovation. Je suis impatient de voir comment cette discussion évoluera et les impacts que cela aura sur le paysage technologique futur.