01/02/2025
L’intelligence artificielle (IA) reposant sur l’apprentissage automatique ouvre de nouvelles perspectives dans le domaine des sciences de la vie. Cependant, des difficultés se présentent souvent dans la pratique. L’une des causes majeures est le “data leakage”, soit la fuite non autorisée d’informations du jeu de données d’entraînement vers le jeu de test.
Des chercheurs de la Technische Universität München (TUM), de l’Université des Sciences Appliquées Weihenstephan-Triesdorf (HSWT) et d’autres institutions de recherche plaident désormais en faveur d’une collaboration interdisciplinaire renforcée selon de nouvelles lignes directrices. Dans cette interview, Dominik Grimm, professeur de bioinformatique, et Markus List, professeur de sciences des données en biologie des systèmes, expliquent pourquoi il est crucial de se pencher sur cette problématique dès maintenant.
Pourquoi avez-vous jugé nécessaire de publier cette ligne directrice avec des chercheurs de FAU Erlangen, de l’Institut Helmholtz pour la recherche pharmaceutique de la Sarre et de l’Université de la Sarre ?
Dominik Grimm : Il y a une activité intense dans ce domaine, ce qui est positif car de nombreuses questions ne peuvent plus être résolues uniquement par des capacités analytiques humaines. En même temps, on observe un décalage entre les résultats obtenus dans les études et ceux observés dans les applications réelles. Les résultats sont souvent non reproductibles, ce qui représente un risque important lorsque ces modèles sont utilisés dans le diagnostic clinique.
Markus List : De nombreuses publications présentent des modèles affichant une très haute précision prédictive. Cela peut induire une fausse confiance, car le modèle semble initialement résoudre la tâche demandée de manière fiable. Pourtant, il est souvent impossible de comprendre comment le modèle est parvenu à ses prédictions. Les problèmes d’apprentissage automatique et les dépendances cachées des données peuvent conduire à une précision artificiellement élevée. Ces derniers peuvent seulement être identifiés par des experts dans les domaines de l’apprentissage automatique et des sciences de la vie. C’est pourquoi nous plaidons pour une collaboration renforcée entre les différentes disciplines afin de combiner leurs compétences et ainsi détecter les problèmes causés par des dépendances cachées.
Que voulez-vous dire par dépendances cachées ?
List : Souvent, les données d’une seule étude sont utilisées pour développer des modèles. Il est rare de tester si ces modèles fonctionnent également en pratique avec des données collectées dans des lieux différents ou avec d’autres dispositifs de mesure. Prenons pour exemple des chercheurs qui créent un jeu de données décrivant le microbiome de 500 personnes à Munich. Nous partageons ces données et utilisons 400 échantillons comme données d’entraînement pour le modèle.
Initialement, nous retenons 100 échantillons pour évaluer la performance du modèle sur des données non vues – il s’agit de nos données de test. Le modèle apprend alors à reconnaître des motifs présents au niveau moléculaire chez des patients vivant à Munich. Il fonctionne très bien sur les 100 échantillons retenus – les données de test. Cependant, lorsqu’il est appliqué à des personnes vivant à Hambourg, les résultats diffèrent brusquement. Une des raisons pourrait être des dépendances cachées, comme le fait que le microbiome des habitants de Munich diffère de celui de la population de Hambourg.
Un problème se pose également lorsque le modèle est entraîné avec des informations qui ne seront pas disponibles par la suite. Par exemple, si vous souhaitez que le modèle prédisent si une personne développera de l’hypertension, vous utilisez des données cliniques de personnes déjà hypertendues. Le modèle examine alors les indicateurs d’hypertension et constate que les patients prennent des médicaments antihypertenseurs. Toutefois, si vous l’utilisez pour une personne avec une hypertension non diagnostiquée, cette caractéristique ne pourra pas être trouvée dans les données cliniques car cette personne ne prend pas encore de médicaments.
Donc, certaines parties des données d’entraînement se retrouvent dans les données de test, mais elles ne devraient pas y être ?
Grimm : Oui, c’est exact. Nous appelons cela le data leakage, qui peut être décrit comme le débordement illicite d’informations des données d’entraînement vers les données de test. Il existe des corrélations cachées entre des mesures non pertinentes ou trompeuses dans l’application réelle. Nos lignes directrices visent à sensibiliser à ce problème et, plus important encore, à améliorer la compréhension des données et des applications. Ainsi, les dépendances cachées peuvent être identifiées tôt, et le data leakage évité lors du développement et de l’entraînement de nouveaux modèles.
List : Au final, il s’agit de bien réfléchir à l’application pour laquelle les modèles sont conçus. Lors de l’entraînement, il faut s’assurer de disposer des données appropriées pour l’application spécifique. Cependant, des données indépendantes ne sont souvent pas disponibles pour les tests. Pour entraîner efficacement des modèles robustes, ceux-ci doivent être conçus pour éviter les raccourcis ou l’incorporation de biais.
Pourriez-vous brièvement expliquer ce que vous entendez par là ?
List : Souvent, les données sont entraînées pour représenter certains aspects de manière unidimensionnelle. Dans l’exemple précédent du microbiome, cet aspect géographique n’a pas été suffisamment pris en compte. En pratique, nous rencontrons souvent le problème que des maladies bien documentées sont surreprésentées dans les bases de données par rapport à celles pour lesquelles nous avons peu de connaissances établies. Ces biais peuvent conduire à des prédictions erronées de la part des modèles.
Et que se passera-t-il si ces problèmes ne sont pas abordés ?
Grimm : Les données collectées sur plusieurs décennies de recherche sont conservées dans des bases de données et peuvent être utilisées pour des projets de recherche ultérieurs. Si des erreurs s’introduisent, elles se perpétuent dans les études suivantes. En fin de compte, cela pourrait avoir des conséquences sur le traitement médical et, dans le pire des cas, mettre en danger la sécurité des patients.
List : Ce problème est exacerbé à mesure que nous collectons plus de données et que les méthodes deviennent plus complexes. Avec des modèles simples, il est encore possible de comprendre comment un résultat est obtenu. Avec des réseaux neuronaux très complexes, cela devient finalement impossible. Nous devons ouvrir la boîte noire, examiner de manière critique les biais possibles et tester les modèles pour leur applicabilité pratique. De nombreux chercheurs développent également de nouvelles méthodes permettant de jeter un œil dans cette boîte noire et de comprendre les processus de décision.
Grimm : Les chercheurs doivent comprendre la complexité des données et des dépendances, ainsi que ce qu’ils alimentent dans les algorithmes. Ils doivent également être clairs sur les questions auxquelles ils souhaitent que les modèles répondent. Utilisés judicieusement, ces modèles peuvent nous aider à restreindre les espaces de recherche et à trouver des indices de solutions. Il est maintenant essentiel de guider les travaux avec ces modèles dans la bonne direction pour y parvenir.
» Publication originale
Source : TU Munich
Notre Opinion Tech
Dans le domaine de l’intelligence artificielle appliquée aux sciences de la vie, il est impératif d’adopter une approche méthodique et collaborative. La complexité des données et la nécessité de prévenir les biais sont des éléments cruciaux qui, s’ils ne sont pas traités soigneusement, pourraient nuire non seulement à la validité des recherches, mais également à la sécurité des patients. Les stratégies de collaboration interdisciplinaire proposées par les experts doivent être mises en œuvre pour renforcer la rigueur scientifique et assurer une utilisation éthique et précise de ces technologies innovantes.
C’est fascinant de voir comment l’intelligence artificielle peut révolutionner les sciences de la vie ! Mais je suis d’accord, il faut vraiment éviter le data leakage pour garantir des résultats fiables.
L’importance de traiter soigneusement les données en IA est capitale. En tant qu’amoureuse des plantes, je vois souvent des parallèles avec la nature : chaque détail compte pour une bonne récolte.
L’intelligence artificielle dans les sciences de la vie ouvre des horizons fascinants, mais il est essentiel d’en comprendre les subtilités pour mieux accompagner notre avenir et celui des patients.