Dans cette dernière partie (et bravo si vous avez lu les deux premières !), nous avons essayé de prendre un peu de recul sur les conséquences de la disponibilité de modèles de fondation tels que Evo2. En particulier, la question des usages à venir des bases de données de séquences nous semble importante. Egalement, la question de l'accès pour les équipes de recherche en bioinformatique (mais pas seulement) à des ressources de calculs à haute performance nous apparaît devenir critique, dans un contexte où ces ressources deviennent limitées (à l'instar des énergies fossiles - et on sait comment l'histoire se termine…). Avant de conclure, nous souhaitons remercier l'équipe de "Bioinfo-fr.net", pour la liberté et l'espace qui nous ont été donnés dans la rédaction de ces textes. Partager, et contribuer à notre manière à un effort collectif, aura été une grande source de joie ! Maintenant que c'est dit ☺️, place à nos "réflexions" finales 🎉.
Un outil intégratif particulièrement puissant
La « bioinformatique intégrative » est une composante de la bioinformatique qui a émergée de l’accumulation des données « omiques » ces 20 dernières années. Son objectif est de tirer avantage de la multitude des informations disponibles, malgré leur diversité. J’ai (Gaëlle) toujours eu un peu de mal à concevoir cette notion « d’intégration ». Est-ce qu’analyser des données multi-omiques (transcriptomiques et protéomiques par exemple) consiste à réaliser une intégration ? N’est-ce pas simplement une analyse statistique conjointe de jeux de données biologiques ?
Avec Evo2 en revanche, la notion « intégrative » apparaît clairement. On dispose en effet d’un unique objet mathématique (le réseau de neurones artificiel entraîné, voir Figure 1) qui à lui seul, a retenu des informations initialement dispersées au sein de centaines de milliers de séquences différentes.

Une autre manière d’accéder à l’information
Dans ce contexte, on peut légitimement se questionner sur les usages futurs des bases de données publiques. Est-il encore pertinent de les interroger individuellement ? N’a-t-on pas plutôt intérêt à utiliser le modèle Evo2 (ou un autre) dans le contexte des analyses de séquences biologiques ? Actuellement, nous ne sommes pas en mesure de répondre fermement à cette question, mais quelques éléments nous semblent intéressants à prendre en compte.
Ressources informatiques nécessaires
Le premier concerne les ressources informatiques utilisées. Au-delà des considérations écologiques1, l’accès au modèle Evo2 n’est pas trivial. Son installation sur un ordinateur de travail nécessite des ressources importantes dont la plupart des chercheurs et chercheuses en biologie ne disposent pas. Des mutualisations de ressources à l’échelle des instituts de recherche sont donc à organiser. Également, la notion de « GPU rich/poor » est en train de changer le partage des connaissances en recherche. Ainsi, certains laboratoires « GPU rich » pourront exploiter des modèles d’intelligence artificielle puissants et avancer plus rapidement dans leurs recherches que les laboratoires « GPU poor ».
En tant que bioinformaticienne, je (Gaëlle) me suis toujours sentie relativement protégée vis à vis des aléas du financement de la recherche en biologie. Tant que mon salaire et ceux des personnes avec qui je travaille étaient sécurisés, le reste était à mes yeux une sorte de "bonus", non essentiel. J'ai toujours pensé que suffisamment de données étaient en libre accès dans les bases de données publiques et qu'avec un ordinateur relativement performant, je pourrais, quoi qu'il arrive imaginer des projets de recherche "in silico" intéressants. J'avais à l'esprit l'idée que les données (la matière première à mes activités de recherche) étaient gratuites et illimitées, tout comme les ressources de calcul nécessaires pour les travailler.
Aujourd’hui, je comprends que les ressources de calcul nécessaires à l'utilisation des modèles d'intelligence artificielle les plus performants (et donc à l’exploitation des données intégrées dans ces modèles) sont bien au-delà de nos capacités actuelles. Dans ce contexte, développer des stratégies pour limiter les ressources de calculs nécessaires à nos analyses devient une problématique de recherche en soi.
Pour finir…
Avec ces articles, notre souhait était de partager avec la communauté des bioinformaticiens et bioinformaticiennes la révolution « IA » qui est en cours. Au-delà d’un simple effet de mode, nous sommes convaincues que la manière de faire de la recherche en bioinformatique évolue à une vitesse vertigineuse. Cette évolution suscite à la fois un grand enthousiasme et une certaine inquiétude.
À l'instar des défis précédemment relevés (il s'en est passé des choses depuis 2002 !) avec les méthodes NGS, le Big Data en biologie ou la Data Science, qui ont constitué les carburants indispensables au bon fonctionnement des algorithmes d’intelligence artificielle auxquels nous avons désormais accès, elle impose un changement de nos pratiques et une nouvelle manière de conceptualiser les questionnements scientifiques. Et cela, nous ne pourrons le réussir individuellement qu'avec le soutien d'une communauté de bioinformaticiens et de bioinformaticiennes forte (telle que celle à laquelle nous nous adressons aujourd'hui 🙂).
1 Tout un article sur le sujet pourrait être rédigé.


Laisser un commentaire