Jeudi, la plateforme d’hébergement d’IA Hugging Face a dépassé un million de modèles d’IA listés pour la première fois, marquant une étape importante dans le domaine en pleine expansion de l’apprentissage automatique. Un modèle d’IA est un programme informatique (souvent utilisant un réseau neuronal) formé sur des données pour effectuer des tâches spécifiques ou faire des prédictions. La plateforme, qui a débuté comme une application de chatbot en 2016 avant de devenir un hub open source pour les modèles d’IA en 2020, propose désormais un large éventail d’outils pour les développeurs et les chercheurs.
Le domaine de l’apprentissage automatique représente un monde bien plus vaste que les grands modèles de langage (LLMs) comme ceux qui alimentent ChatGPT. Dans un post sur X, le PDG de Hugging Face, Clément Delangue, a écrit que son entreprise héberge de nombreux modèles d’IA de haut niveau, tels que “Llama, Gemma, Phi, Flux, Mistral, Starcoder, Qwen, Stable diffusion, Grok, Whisper, Olmo, Command, Zephyr, OpenELM, Jamba, Yi,” mais aussi “999 984 autres.”
La raison pour laquelle, dit Delangue, vient de la personnalisation. “Contrairement à la fallacie du ‘1 modèle pour tous les gouverner’,” a-t-il écrit, “des modèles plus petits, spécialisés, personnalisés et optimisés pour votre cas d’utilisation, votre domaine, votre langue, votre matériel et, généralement, vos contraintes sont meilleurs. En fait, peu de gens réalisent qu’il y a presque autant de modèles sur Hugging Face qui sont privés, utilisés seulement par une seule organisation – pour que les entreprises construisent des IA en privé, spécifiquement pour leurs cas d’utilisation.”
La transformation de Hugging Face en une plateforme majeure d’IA suit le rythme accéléré de la recherche et du développement en IA dans l’industrie technologique. En seulement quelques années, le nombre de modèles hébergés sur le site a considérablement augmenté, tout comme l’intérêt pour le domaine. Sur X, l’ingénieur produit de Hugging Face, Caleb Fahlgren a publié un graphique montrant le nombre de modèles créés chaque mois sur la plateforme (et un lien vers d’autres graphiques), disant : “Les modèles augmentent de manière exponentielle de mois en mois et septembre n’est même pas terminé.
La puissance du fine-tuning
Comme le laisse entendre Delangue ci-dessus, le nombre impressionnant de modèles sur la plateforme provient de la nature collaborative de la plateforme et de la pratique du fine-tuning des modèles existants pour des tâches spécifiques. Le fine-tuning consiste à prendre un modèle existant et à lui donner un entraînement supplémentaire pour ajouter de nouveaux concepts à son réseau neuronal et modifier la manière dont il produit des résultats. Des développeurs et des chercheurs du monde entier contribuent à leurs résultats, entraînant la création d’un vaste écosystème.
Par exemple, la plateforme héberge de nombreuses variations des modèles Llama à poids ouverts de Meta qui représentent différentes versions ajustées des modèles de base originaux, chacune étant optimisée pour des applications spécifiques.
Le dépôt de Hugging Face comprend des modèles pour une large gamme de tâches. La navigation sur sa page de modèles révèle des catégories telles que “image vers texte”, “réponse à des questions visuelles” et “réponse à des questions de documents” dans la section “Multimodal”. Dans la catégorie “Vision par ordinateur”, il existe des sous-catégories pour l’estimation de profondeur, la détection d’objets et la génération d’images, parmi d’autres. Des tâches de traitement de langage naturel comme la classification de texte et la réponse à des questions sont également représentées, ainsi que des modèles audio, tabulaires et d’apprentissage par renforcement (RL).
Lorsqu’on trie par “les plus téléchargés“, la liste des modèles de Hugging Face révèle des tendances sur les modèles d’IA que les gens trouvent les plus utiles. En tête avec un énorme avantage de 163 millions de téléchargements se trouve Audio Spectrogram Transformer du MIT, qui classe le contenu audio comme la parole, la musique, et les sons environnementaux. Suivant avec 54,2 millions de téléchargements se trouve BERT de Google, un modèle d’IA linguistique qui apprend à comprendre l’anglais en prédisant des mots masqués et des relations de phrases, lui permettant ainsi d’assister dans diverses tâches linguistiques.
Complétant le top cinq des modèles d’IA, on trouve all-MiniLM-L6-v2 (qui mappe les phrases et les paragraphes à des représentations vectorielles denses de 384 dimensions, utiles pour la recherche sémantique), Vision Transformer (qui traite les images comme des séquences de patchs pour effectuer des classifications d’images), et le modèle CLIP d’OpenAI CLIP (qui relie images et texte, lui permettant de classifier ou de décrire le contenu visuel en utilisant un langage naturel).
Quel que soit le modèle ou la tâche, la plateforme continue de croître. “Aujourd’hui, un nouveau dépôt (modèle, jeu de données ou espace) est créé toutes les 10 secondes sur HF,” a écrit Delangue. “En fin de compte, il y aura autant de modèles que de dépôts de code et nous serons là pour ça!”
En tant que journaliste, je suis fasciné par l’ampleur de cette évolution dans le domaine de l’IA. Hugging Face est en train de redéfinir les normes et d’ouvrir de nouvelles perspectives dans la recherche et le développement au sein de cette industrie. Suivre ces progrès est non seulement passionnant mais également essentiel pour comprendre où nous en sommes et où nous allons dans le monde technologique.