Les entreprises qui cherchent à développer des modèles d’intelligence artificielle (IA) de plus grande envergure rencontrent de plus en plus de difficultés en raison d’un manque de données d’entraînement de haute qualité. Alors que les entreprises technologiques parcourent le web à la recherche de données supplémentaires pour alimenter leurs modèles, elles pourraient se tourner de plus en plus vers des données d’utilisateur potentiellement sensibles. Une équipe de Google Research étudie de nouvelles techniques afin de réduire la probabilité que les grands modèles de langage (LLM) “mémorisent” ce type de contenu.
Les LLM présentent des résultats non déterministes, ce qui signifie qu’il est difficile de prévoir exactement ce qu’ils vont produire. Bien que la sortie puisse varier même pour des entrées identiques, ces modèles peuvent parfois reproduire des éléments de leurs données d’entraînement. Si le modèle a été formé avec des données personnelles, cela peut constituer une violation de la vie privée des utilisateurs. Dans le cas où des données protégées par des droits d’auteur se glissent dans les données d’entraînement (qu’il s’agisse d’une erreur ou d’une volonté délibérée), leur apparition dans les résultats peut causer d’autres problèmes pour les développeurs. La notion de “vie privée différentielle” peut empêcher cette mémorisation en introduisant du bruit calibré durant la phase d’entraînement.
Ajouter la vie privée différentielle à un modèle a ses inconvénients, notamment en termes de précision et d’exigences de calcul. Jusqu’à présent, personne ne s’était penché sur l’impact de cette approche sur les lois de mise à l’échelle des modèles d’IA. L’équipe a travaillé en partant du principe que la performance du modèle serait principalement influencée par le ratio entre le bruit et la taille des échantillons, qui compare le volume de bruit aléatoire à celui des données d’entraînement originales.
En menant des expériences avec des tailles de modèles et des ratios de bruit variés, l’équipe a établi une compréhension de base des lois de mise à l’échelle de la vie privée différentielle, qui se traduit par un équilibre entre le budget de calcul, le budget de confidentialité et le budget de données. En résumé, une hausse du bruit entraîne une baisse de la qualité des résultats, à moins que cela soit compensé par un budget de calcul (FLOPs) ou un budget de données (tokens) plus important. Le document souligne les lois de mise à l’échelle pour les LLM privés, pouvant ainsi aider les développeurs à déterminer un ratio optimal de bruit pour rendre un modèle plus respectueux de la vie privée.
Points à retenir
- Les données d’entraînement de haute qualité sont essentielles pour éviter la mémorisation de contenus sensibles.
- Les résultats non déterministes des LLM posent des défis en matière de prévisibilité.
- La vie privée différentielle pourrait réduire les risques liés à la divulgation involontaire de données sensibles.
- Le ratio entre bruit et données d’entraînement est crucial pour l’optimisation des performances des modèles.
Il est fascinant de constater comment des techniques innovantes comme la vie privée différentielle peuvent contribuer à l’évolution des modèles d’IA tout en explorant les limites de la protection de la vie privée. Avec l’importance croissante des données dans notre société actuelle, la manière dont les entreprises abordent cette dualité entre performance et respect de la vie privée mérite d’être constamment reconsidérée.
