La société chinoise spécialisée dans l’intelligence artificielle DeepSeek a lancé en début d’année un chatbot nommé R1, qui a rapidement défrayé la chronique. Ce qui a particulièrement retenu l’attention, c’est qu’une entreprise relativement modeste et peu connue prétendait avoir développé un chatbot capable de rivaliser avec les performances des grandes figures mondiales de l’IA, tout en utilisant une fraction des ressources informatiques et des coûts habituels. Cette annonce a provoqué une chute spectaculaire des actions de nombreuses entreprises technologiques occidentales ; Nvidia, fournisseur des puces essentielles au fonctionnement des modèles IA dominants, a ainsi perdu en une seule journée plus de valeur boursière que toute autre entreprise dans l’histoire.
Une partie de cette agitation médiatique a aussi alimenté des soupçons. Certains suggéraient que DeepSeek avait exploité sans autorisation le modèle propriétaire o1 d’OpenAI via une technique appelée « distillation ». Plusieurs articles ont présenté cette hypothèse comme un coup de tonnerre dans l’industrie de l’IA, insinuant que DeepSeek avait découvert une méthode inédite et plus efficace pour créer des intelligences artificielles.
Or, la distillation — ou distillation des connaissances — est une pratique bien connue dans le monde de l’intelligence artificielle. Son étude remonte à plus d’une décennie et elle est couramment appliquée par les géants du secteur. « La distillation est l’un des outils les plus essentiels dont disposent aujourd’hui les entreprises pour rendre les modèles plus efficaces », explique Enric Boix-Adsera, chercheur à la Wharton School de l’Université de Pennsylvanie.
La « connaissance obscure »
Le concept de distillation est né d’un article publié en 2015 par trois chercheurs de Google, dont Geoffrey Hinton, souvent surnommé le parrain de l’IA et lauréat du prix Nobel 2024. À cette époque, les chercheurs utilisaient souvent des ensembles de plusieurs modèles — ce que l’on appelle des « ensembles » — pour améliorer leurs résultats. « C’était extrêmement lourd et coûteux de faire fonctionner tous ces modèles en parallèle », confie Oriol Vinyals, scientifique principal chez Google DeepMind et co-auteur de l’article. L’idée était donc de condenser tout cela en un seul modèle.
Le problème que le groupe cherchait à résoudre était que les algorithmes de machine learning pénalisaient toutes les erreurs de manière équivalente, sans nuance. Par exemple, dans un modèle de reconnaissance d’images, confondre un chien avec un renard était sévèrement puni tout comme confondre un chien avec une pizza, sans distinction. Or, les modèles en ensemble capturent implicitement cette subtilité. L’idée était qu’un « modèle étudiant » plus léger pourrait apprendre plus vite en bénéficiant des enseignements d’un « modèle enseignant » plus massif. Hinton a baptisé ce phénomène « connaissance obscure », en référence à la matière noire en cosmologie.
Vinyals a ainsi mis au point une méthode pour transmettre au modèle étudiant davantage d’informations à partir des « cibles molles » fournies par le modèle enseignant : au lieu de fournir une réponse binaire (oui/non), le modèle enseignant attribue une probabilité à chaque catégorie possible. Par exemple, une image pouvait être interprétée à 30 % comme un chien, 20 % comme un chat, 5 % comme une vache, et 0,5 % comme une voiture. Pour le modèle étudiant, cela révèle que chiens et chats sont proches, que les vaches s’en éloignent un peu, et que les voitures sont bien distinctes. Grâce à cette astuce, il est possible de réduire considérablement la taille des modèles sans perdre en précision.
Un essor inattendu
Au départ, la distillation n’a pas fait l’unanimité : l’article initial a même été refusé dans une conférence. Vinyals a un temps abandonné la piste. Pourtant, c’est justement à ce moment que la taille des modèles d’IA a explosé, confrontant les chercheurs aux coûts colossaux liés à leur exécution.
La distillation s’est alors imposée comme une solution pour concevoir des modèles plus légers. En 2018, les chercheurs de Google ont dévoilé BERT, un modèle de langage puissant mais très gourmand en ressources, utilisé notamment pour analyser des milliards de requêtes web. L’année suivante, une version allégée et distillée, appelés DistilBERT, a vu le jour, répondant parfaitement aux besoins du marché et de la recherche. La distillation est aujourd’hui une technique courante, proposée en service par des grands noms tels que Google, OpenAI ou Amazon. L’article fondateur, initialement seulement disponible en prépublication sur arxiv.org, a été cité plus de 25 000 fois.
Il est important de noter que la distillation exige un accès approfondi au « modèle enseignant ». Cela empêche une extraction sournoise de données depuis un modèle fermé comme o1 d’OpenAI, contrairement aux allégations à l’encontre de DeepSeek. Toutefois, un étudiant peut apprendre beaucoup via une approche presque socratique, en posant diverses questions au modèle enseignant et en exploitant les réponses pour entraîner le sien.
De nouvelles applications continuent d’émerger : en janvier dernier, le laboratoire NovaSky de l’Université de Californie à Berkeley a démontré que la distillation fonctionne très bien pour entraîner des modèles de raisonnement en chaîne, capables de réfléchir étape par étape pour résoudre des questions complexes. Leur modèle open-source Sky-T1, formé pour moins de 450 dollars, offre des performances comparables à un autre modèle open-source beaucoup plus volumineux. « Nous avons été sincèrement étonnés par l’efficacité de la distillation dans ce contexte », confie Dacheng Li, doctorant à Berkeley et co-responsable de NovaSky. Une technique qui, décidément, s’impose comme un pilier incontournable de l’IA.
Points à retenir
- La distillation est une technique ancienne mais toujours d’actualité pour rendre les modèles IA plus légers et efficaces.
- Elle repose sur la transmission de probabilités (« cibles molles ») d’un modèle complexe à un modèle plus simple, ce qui facilite l’apprentissage.
- La technique a surmonté un accueil initial mitigé pour devenir incontournable dans la conception des intelligences artificielles modernes.
- Les accusations contre DeepSeek montrent surtout une méconnaissance répandue des pratiques courantes dans l’univers de l’IA.
- La distillation ne se limite pas aux simples modèles d’images ou de texte : elle s’adapte aussi à des formes de raisonnement plus sophistiquées.
- Contrairement aux idées reçues, il est difficile d’extraire des données secrètes d’un modèle fermé sans avoir un accès direct à son fonctionnement interne.
En somme, la distillation est un peu le tour de passe-passe préféré des chercheurs, une manière de dire que parfois, dans la quête effrénée de l’intelligence artificielle, il suffit surtout de savoir faire passer la bonne info au bon modèle, sans forcément en faire des tonnes. Alors, au lieu de s’écharper sur qui copine avec qui dans ce vaste bal des IA, on ferait mieux de s’interroger : jusqu’où peut-on vraiment alléger ces monstres numériques sans finir par parler à des robots aussi légers qu’une feuille de papier ? Allez, gardez cela en tête pour la prochaine révolution technologique – elle pourrait bien tenir dans une tasse de thé… ou dans un petit café bien serré.