Des chercheurs de Google ont mis au point une méthode innovante pour améliorer la vitesse et l’efficacité des modèles de langage AI en utilisant une approche inhabituelle : permettre à des modèles de plus petite taille d’enseigner aux plus grands.

Une équipe conjointe de Google Research et de DeepMind a développé une méthode d’entraînement nommée SALT (Small model aided large model training), qui réduit le temps d’entraînement jusqu’à 28 % tout en augmentant les performances. L’innovation clé ? L’utilisation de modèles de langage plus petits comme enseignants assistants.

Le processus s’effectue en deux étapes. Dans un premier temps, le grand modèle apprend d’un modèle plus petit grâce à une méthode appelée distillation des connaissances, où un modèle AI enseigne à un autre en partageant à la fois ses réponses et sa confiance quant à celles-ci. Bien que la distillation des connaissances implique généralement que de plus grands modèles enseignent de plus petits, l’équipe de Google a découvert que le processus peut fonctionner dans le sens inverse, du moins pendant certaines phases de l’entraînement. Dans la seconde étape, le grand modèle revient à des méthodes d’entraînement conventionnelles.

Le modèle plus petit s’avère particulièrement utile dans les domaines où il fait déjà des prévisions solides. Pour ces tâches plus simples, le grand modèle apprend plus rapidement et de manière plus fiable avant de passer à un entraînement traditionnel pour relever des défis plus complexes.

SALT pourrait rendre l’entraînement des modèles AI plus accessible

L’équipe a testé SALT en utilisant un modèle de 1,5 milliard de paramètres pour entraîner un modèle de 2,8 milliards de paramètres. Les résultats ont été impressionnants : le modèle plus grand a atteint ses cibles de performance en seulement 70 % du temps habituel d’entraînement, puis a obtenu de meilleurs scores lors de divers tests.

Les améliorations se sont particulièrement manifestées après un ajustement pour des tâches spécifiques. Pour des problèmes mathématiques, les modèles entraînés avec SALT ont atteint une précision de 34,87 %, contre 31,84 % pour les modèles entraînés de manière traditionnelle. Les scores de compréhension de lecture sont passés de 63,7 % à 67 %.

Les chercheurs ont également créé une version améliorée appelée SALTDS, qui sélectionne soigneusement les données d’entraînement, en se concentrant sur les exemples où le modèle plus petit excelle.

Alors que SALT peut contribuer à créer des modèles de langage de grande puissance, il pourrait s’avérer particulièrement précieux pour les organisations disposant de ressources limitées. Au lieu d’avoir besoin d’accéder aux plus grands modèles AI, les institutions pourraient utiliser SALT pour développer des modèles de langage performants avec des capacités de calcul plus modestes, ont indiqué les chercheurs.

Points à retenir

  • La méthode SALT bénéficie des capacités d’enseignement de modèles de langage plus petits pour accélérer l’apprentissage de modèles plus grands.
  • Cette approche a démontré une réduction significative du temps de formation tout en améliorant les résultats des modèles lors de tests spécifiques.
  • SALT pourrait stimuler l’accessibilité des technologies AI pour les organisations à ressources limitées, en évitant la nécessité d’infrastructure coûteuse.

Au-delà des résultats prometteurs de SALT, il est intéressant de réfléchir à la manière dont cette méthode pourrait transformer le paysage de l’IA. Cela pourrait non seulement favoriser l’innovation, mais aussi rendre les technologies d’intelligence artificielle plus démocratiques, permettant à un plus grand nombre d’organisations, petites ou grandes, d’explorer leurs propres solutions basées sur AI. Comment ces avancées pourraient-elles redéfinir le rôle des petits modèles dans le développement de systèmes intelligents ?



  • Source image(s) : the-decoder.com
  • Source : https://the-decoder.com/google-finds-new-way-to-train-ai-models-using-smaller-teacher-models/


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *