Loading IMGCréé avec Sketch.” alt=”Saskia Hoving” title=”Saskia Hoving | © Springer Nature 2024″ style=”max-height: 140px” />

Le webinaire intitulé ‘Introduction à l’exploration de textes et de données pour les scientifiques des données’ a exploré des techniques avancées d’exploration de données textuelles (TDM) associées à l’intelligence artificielle (IA). Quatre études de cas provenant de différentes disciplines ont été présentées. Ces exemples — deux issus des sciences biomédicales, un des sciences des matériaux, et un de la technologie financière (fintech) — montrent le potentiel de la combinaison des outils de TDM et d’IA sur le corpus de recherche publié par Springer Nature, accessible via une puissante interface de programmation d’applications (API). Dans ce résumé de webinaire, le Dr Prathik Roy et Eddie Bates expliquent comment utiliser l’API pour ces projets divers.

Comment l’IA renforce l’efficacité de la TDM

À l’origine, la TDM visait principalement à découvrir des informations cachées dans les recherches publiées, car la quantité de matériel publié est bien trop importante pour que les êtres humains puissent tout lire. Cependant, avec l’émergence de grands modèles fondamentaux et d’autres modèles d’apprentissage machine et profond, les scientifiques des données peuvent désormais utiliser le corpus de recherches publiées pour former leurs propres modèles. Ces modèles peuvent alors offrir des analyses prédictives et prescriptives, au lieu de se limiter à une analyse descriptive. L’outil AlphaFold de Google, par exemple, qui prédit la manière dont les protéines se replient, illustre bien la puissance de ces outils.

Sciences biomédicales, cas d’utilisation 1 : BenevolentAI

En combinant des données provenant de différentes sources — rapports d’essais cliniques, brevets, publications dans des revues et livres, et dossiers patients — il est possible d’établir plus d’un milliard de relations entre gènes, symptômes, maladies, protéines, tissus, espèces et médicaments candidats.

BenevolentAI, une entreprise spécialisée dans l’utilisation de l’IA avancée pour accélérer la découverte de médicaments biopharmaceutiques, utilise ces ensembles de données pour former des modèles afin d’identifier les gènes associés à certaines conditions médicales, et de les relier à des composés candidats pouvant agir sur ces conditions. L’entreprise a même pu identifier des candidats potentiels pour traiter les symptômes de Covid-19.

Sciences biomédicales, cas d’utilisation 2 : CiteAb

CiteAb, une entreprise qui se présente comme un moteur de recherche de réactifs, a développé des modèles pour extraire des informations sur les réactifs à partir de la littérature. Cela a été réalisé en utilisant d’abord des experts humains pour créer un modèle d’exemple d’informations sur les réactifs et les anticorps, puis en entraînant l’IA sur ce modèle. Ainsi, ils peuvent continuellement améliorer et affiner ce modèle, capable de trouver et d’extraire rapidement des informations sur les réactifs et les anticorps depuis la littérature.

Sciences des matériaux, cas d’utilisation : Conception de semi-conducteurs

Les modèles IA appliqués à la TDM sur les données matérielles ont élargi les possibilités offertes par ces données. Au départ, la TDM était utilisée pour trouver des données sur les structures cristallines et en déduire les propriétés des matériaux à partir de bases de données complètes. La prochaine étape consistait à utiliser la composition d’un matériau pour découvrir à la fois sa structure et ses propriétés. Désormais, les modèles IA peuvent générer une conception de matériaux basée sur des analyses prédictives. Cela signifie qu’il est possible d’utiliser des données chimiques et physiques pour concevoir un matériau avec la composition, la structure et les propriétés souhaitées, puis de réaliser des expériences virtuelles avant même d’aboutir à la synthèse et à l’évaluation dans le monde réel.

Jusqu’à présent, cette approche a montré un impact significatif dans la conception des semi-conducteurs, ce qui alimente à son tour la conception des circuits intégrés (IC) et des puces. Cela a permis de réduire la marge de dépassement des délais pour la conception d’IC à moins de 10 %, et de diminuer la durée des projets de 10 %.

Cas d’utilisation en technologie financière

Même les entreprises financières s’intéressent à l’utilisation de la TDM pour analyser des recherches publiées. L’application de ces modèles et de la TDM à un corpus de recherche a permis à ces entreprises de comprendre et d’analyser les chaînes d’approvisionnement, en particulier pour la fabrication chimique. Cela a également contribué à comprendre comment les modèles de recherche des entreprises de R&D peuvent prédire les performances boursières de ces sociétés.

Tirer parti des données de recherche avec l’API et les principes FAIR

Ces cas d’utilisation reposent sur le corpus de recherche de Springer Nature, et l’API donne accès aux données utilisées par ces modèles. Cela implique donc deux éléments : la qualité des données et l’accès à celles-ci.

Springer Nature a construit — et continue de construire — cet ensemble de données avec soin. Nous attirons des auteurs vers nos revues et livres en leur offrant un soutien de premier plan à chaque étape, validant rigoureusement les soumissions avec des évaluations par les pairs de haute qualité, et transformant ces manuscrits en articles, livres et bases de données parmi les meilleurs du secteur.

Cependant, ces données ne peuvent pas alimenter ces modèles si l’accès n’est pas facilité. C’est pourquoi Springer Nature s’efforce de rendre l’ensemble de notre base de données conforme aux principes FAIR, ce qui signifie :

  • Findable : Métadonnées rigoureuses et autres éléments visant à alimenter des plateformes de découverte et/ou des applications.
  • Accessible : Le matériau doit être lisible et exploitable à la fois pour les humains et les machines, et être rendu aussi accessible que possible.
  • Interopérable : Structuration des données pour une utilisation dans le plus grand nombre possible de cas d’utilisation dans des laboratoires numériques, avec des vocabulaires de métadonnées spécialisés.
  • Reusable : Données validées reliées directement à des éléments de recherche associés.

Le prochain élément est l’API qui crée le lien entre les données de Springer Nature et les modèles ainsi que les machines qui les exploitent.

Le webinaire — d’une durée d’environ une heure, y compris la session de questions-réponses — vous guide à travers ces études de cas pour montrer ce qui pourrait être possible pour vous et votre institution. Visionnez le webinaire ici, et découvrez comment en apprendre davantage et passer à l’étape suivante.

Contenu connexe

Ne manquez pas les dernières nouvelles et blogs, abonnez-vous aux Alertes de The Link !

Notre Opinion Tech

Dans un futur proche, la convergence entre l’intelligence artificielle et l’exploration de données textuelles pourrait transformer la manière dont la recherche scientifique est conduite. Grâce à l’utilisation croissante d’API, nous pourrions voir émerger des applications encore plus sophistiquées qui non seulement permettent l’extraction d’informations, mais également la création de nouvelles hypothèses basées sur les corrélations et les modèles détectés dans les vastes ensembles de données. Cela ouvre la voie à une collaboration interdisciplinaire renforcée où chercheurs, data scientists et entreprises pourront travailler ensemble à des solutions innovantes.

Bon à savoir : La mise en œuvre des principes FAIR (Findable, Accessible, Interoperable, Reusable) est cruciale dans le domaine de la recherche, car elle garantit que les données demeurent accessibles et exploitables au sein de la communauté scientifique.



  • Source image(s) : www.springernature.com
  • Source : https://www.springernature.com/gp/librarians/the-link/rd-blogpost/exploring-ai-tdm-life-sciences-materials-fintech/27731316


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *