Une étude menée par des chercheurs de Google et de l’Université de Boston, présentée en juillet lors de la 42e conférence internationale sur l’apprentissage machine (ICML) à Vancouver, révèle que même de faibles niveaux de contamination dans les données d’entraînement peuvent entraîner une surestimation significative des performances des traductions par l’intelligence artificielle dans les modèles de langage (LLM).
La contamination des données désigne l’inclusion accidentelle d’exemples d’évaluation – partiellement ou totalement – dans les données de pré-entraînement. Cela influence les résultats d’évaluation sur les benchmarks largement utilisés et remet en question leur validité, car les modèles ne sont plus testés sur des données réellement inédites.
En utilisant des modèles de 1 et 8 milliards de paramètres entraînés sur des données multilingues, les chercheurs ont observé que lorsque les deux côtés, source et cible, des exemples de test étaient inclus dans les données d’entraînement, les scores BLEU pouvaient être gonflés jusqu’à 30 points pour les modèles plus grands (8B). Les modèles plus petits ont montré des gains plus modestes, la surestimation de performance étant environ 2,5 fois inférieure. « Les modèles plus grands sont plus sensibles même à un seul exemplaire de contamination », ont-ils noté.
La contamination partielle, telle que l’inclusion seulement du texte source ou cible, avait un impact généralement limité et incohérent. « La contamination n’impliquant qu’un seul côté des données parallèles semble moins critique », ont ajouté les chercheurs.
Les chercheurs ont également souligné que le moment de la contamination était important. Lorsque des exemples contaminés apparaissaient tôt dans l’entraînement, les modèles montraient une brusque augmentation de performance qui s’estompe au fil du temps. En revanche, la contamination introduite plus tard avait un impact plus durable. Plus notable encore, lorsque la contamination se répartissait uniformément tout au long de l’entraînement – une situation qui reflète la manière dont la contamination se produit dans la pratique – l’inflation des scores BLEU était à la fois plus forte et plus persistante.
Les effets de la contamination se sont également révélés inégaux selon les langues. Les chercheurs n’ont pas trouvé de coup de pouce significatif pour les langues absentes des données de pré-entraînement, ce qui suggère qu’un certain niveau de représentation linguistique est nécessaire pour que la contamination ait un effet. De plus, la contamination a un impact plus significatif dans la direction En→X par rapport à X→En.
Ces résultats s’ajoutent à un corpus de recherches croissant qui interpelle sur la fiabilité des benchmarks de traduction de l’IA. Comme l’a précédemment rapporté Slator, Google a mis en avant des problèmes de qualité des données dans des ensembles de données de discours multilingues, a souligné les limites de l’évaluation sur un seul critère et a appelé à de meilleures stratégies d’évaluation pour les LLM multilingues.
« Ce travail met en lumière les manières nuancées dont la contamination des données affecte la performance des modèles et souligne la nécessité de pratiques d’évaluation plus fiables dans le développement des modèles de langue de grande taille », ont conclu les chercheurs.
Points à retenir
- La contamination des données peut sérieusement fausser les résultats d’évaluation des modèles de traduction.
- Les effets varient selon la taille des modèles et la quantité de contamination présente.
- Des études futures doivent se pencher sur des méthodes d’évaluation plus robustes pour mieux refléter les performances réelles.
En réfléchissant à ces éléments, il devient essentiel de se demander comment nous garantissons l’intégrité et la fiabilité des données dans une ère de perfectionnement rapide des modèles d’IA. Comment nous pourrions établir des normes d’évaluation qui assureraient la transparence et la précision dans la traduction automatique ? Cela ouvre un vaste champ de réflexion pour les linguistes, les développeurs et les chercheurs.
