Cher·es toutes et tous !
À chaque fois que je parcours ce blog, je me dis : « Ouah, c'est génial de prendre le temps, ainsi, de partager ses idées et ses savoir-faire, mais pourquoi est-ce que je ne le fais pas plus souvent ? ». Ma dernière (et unique !) contribution date en effet de 2021. Cela fait 5 ans… Un quinquennat donc, au cours duquel les transformations de la bioinformatique n'ont pourtant pas manqué.
Alors, début 2026, je me suis dit : « Cette année, Gaëlle, tu partages au moins un truc ». Et nous y sommes (enfin 6 mois après !… Décidément, ce temps, il reste bien incontrôlable…).
Avec ce texte, notre objectif est de vous partager notre compréhension, au laboratoire, de la révolution en cours dans l'analyse des séquences biologiques, suite à l'arrivée (en force !) des modèles de fondation en intelligence artificielle. Pour cela, nous vous proposons un ensemble de 3 billets de blog (tant qu'à faire, on a mis le paquet 😅).
Le premier raconte la « prise de conscience » (un peu douloureuse, je dois dire) d'un tsunami en approche. Il explique également la notion de modèle de fondation, en revenant aux fondamentaux de la notion de réseaux de neurones (franchement, nous avions bien besoin de ce retour aux sources, alors on partage !). Celles et ceux qui seraient au fait sur le sujet pourront lire directement la partie 2, dédiée à la présentation du modèle Evo2 et de ses usages en analyse des génomes. Enfin, en partie 3, nous partagerons quelques réflexions en cours, qui ne manqueront pas de se compléter et de se renforcer, nous l'espérons, grâce à vos retours et compléments d'informations !
Bonne lecture à vous 🙂.
Partie 1 : la prise de conscience…
Pour la plupart d'entre vous, l'année 2002 n'est même pas un souvenir. Elle se réfère à un "à l'époque" lointain comme le dirait mon fils de 17 ans ("à l'époque il existait…", "vous aviez déjà à l'époque…", etc.). Toutefois pour moi (Gaëlle), cette année marquait mon entrée dans la milieu professionnel de la Bioinformatique. Je terminais le DEA AGM21, en ayant choisi la spécialité « Analyse des Génomes ». Cette préférence était cohérente avec ma formation initiale en Biologie, centrée autour de la génétique. Mes collègues de l'autre spécialisation, nommée « Modélisation Moléculaire », étaient pour la plupart des biochimistes. Toutes et tous écrivaient dans leurs projets de thèse : « à long terme, il sera possible de prédire, avec la seule information de la séquence en acides aminés, la structure tri-dimensionnelle d’une protéine ». Cette perspective leur semblait toutefois très lointaine (pour ne pas dire inaccessible). Il faut dire qu'en 2005, répondre à la question « Can we predict how proteins will fold ? » faisait partie des 125 défis majeurs listés par la revue Science (Kennedy and Norman 2005). Ainsi, nos carrières de scientifiques auraient bien le temps de se terminer, que seuls quelques résultats nouveaux auraient été obtenus. Enfin, c'est ce que nous pensions "à l'époque"…
Ainsi, quand les communications autour des performances du programme AlphaFold (Jumper et al. 2021) sont arrivées jusqu’à moi, j'ai pensé à mes ancien·nes collègues. Finalement, leur communauté scientifique avait réussi, quel exploit ! Je me souviens également me dire, avec un peu d’ironie, « heureusement que j’avais choisi l’analyse des génomes comme spécialité, là, nous avons encore de quoi faire ! ». Mais voilà, seulement 5 ans après, l'exploit se répète… Et c'est en assistant au séminaire de clôture de la formation du DUO2, que j'ai découvert le modèle de fondation Evo2 (Brixi et al. 2025). Et immédiatement, j'ai compris que c’était au tour de « l’analyse des génomes » de vivre sa révolution… Gloups.
De retour au laboratoire, je me suis appliquée avec la doctorante qui m’accompagne dans mes recherches, Anakim, à mieux comprendre les fondements méthodologiques sous-jacents aux modèles de fondation en intelligence artificielle, et leurs potentialités associées. Entre enthousiasme et vertige, notre besoin de démêler les mythes de la réalité scientifique des modèles d’intelligence artificielle, a constitué un travail utile pour appréhender avec rationalité ce nouveau virage de la bioinformatique.
Ci-dessous, nous introduisons donc la notion de modèle de fondation, en lien avec celle de réseaux de neurones artificiels et celle d’apprentissage auto-supervisé. Le cas particulier des grands modèles de langage est enfin expliqué. Dans un deuxième article, nous présenterons les résultats de l’article de présentation d’Evo2 qui ont le plus retenu notre attention. Enfin, nous conclurons dans un troisième article avec quelques éléments de réflexions en lien avec l’avenir de l’analyse bioinformatique des séquences biologiques.
Un modèle de fondation, qu’est-ce que c’est ?
Définition
D’après la définition de Wikipédia : « Un modèle de fondation ou modèle fondateur est un modèle d'intelligence artificielle (IA) de grande taille, entraîné sur une grande quantité de données non étiquetées (généralement par apprentissage auto-supervisé). Le modèle résultant peut être adapté à un large éventail de tâches en aval3 (downstream tasks en anglais) ». Cette définition nous plonge dans le vif du sujet. Les mots clés « intelligence artificielle », « grande taille » et « entraînement par apprentissage auto-supervisé » sont là. Associés à ceux de « réseaux de neurones artificiels » et « grands modèles de langage » (juste après dans le texte Wikipedia), le panorama des notions théoriques utiles pour la compréhension du modèle Evo2 est complet.
Réseaux de neurones artificiels
Schématiquement, un neurone artificiel est un algorithme qui permet la réalisation d’un calcul à partir de variables d’entrée, pour obtenir la valeur d’une variable de sortie (voir Figure 1).

Ce qui est intéressant, c’est que changer les valeurs des paramètres permet de changer la valeur de la variable de sortie (Figure 2). Ainsi, le choix des paramètres, lors de l’usage d’un neurone artificiel est une étape critique. Elle est nommée « entraînement du modèle ». Concrètement, il s’agit de « contraindre » le neurone artificiel à reproduire un comportement souhaité (agir par exemple, comme un opérateur logique).

Pour entraîner un modèle de neurone artificiel, il est nécessaire de disposer d’exemples, dans lesquels les valeurs souhaitées des sorties, sont mises en relation avec les valeurs possibles des variables d’entrée (Figure 3). L’algorithme est alors mis en application, avec différents ensembles de paramètres et finalement, ceux qui permettent d’obtenir les sorties souhaitées sont retenues.

Associés entre eux, les neurones artificiels permettent la création de réseaux de neurones artificiels (Figure 4), dont l’avantage est de modéliser des relations plus complexes entre les observations en entrée (« ce que l’on connaît ou choisit ») et les résultats obtenus en sortie (« ce que l’on calcule »). Un exemple emblématique d’usage de réseau de neurones tel que celui présenté ci-dessous concerne la reconnaissance d’images.

Le cas particulier des grands modèles de langages
Dans ce contexte, les LLMs (ou « Large Langage Model ») sont un cas particulier de réseau de neurones (Figure 5). Ils ont la spécificité de traiter en entrée des sources de données textuelles, afin de calculer en sortie des valeurs de probabilités. Le mot (ou token) présentant la probabilité la plus élevée est alors sélectionné dans un ensemble de mots possibles (le vocabulaire), comme étant le plus susceptible de suivre la séquence textuelle fournie en entrée. Pour cela, les LLMs reposent sur la spécification de très nombreux paramètres (plusieurs millions) dont les valeurs sont choisies lors d’une phase d’entraînement.
Il est à noter que dans le cas de données textuelles, l’entraînement est facilité par la possibilité de « masquer » la fin d’une phrase (par exemple Figure 5, le mot « Paris »), et la vérification que la proposition de sortie avec la probabilité la plus élevée est celle attendue (ici 92% pour Paris, qui est bien le mot attendu). On parle d’apprentissage « auto-supervisé ».
Ainsi les connaissances a priori, nécessaires pour entraîner les modèles LLMs sont très nombreuses et peu coûteuses à obtenir. Il s’agit de prendre des textes (disponibles sur Internet ou autre), de masquer certaines parties et de vérifier si les propositions du réseau de neurones sont correctes. C’est ainsi que les LLMs les plus performants aujourd’hui ont pu se permettre d’intégrer des milliards de paramètres.
On considère aujourd’hui que tous les textes rédigés par des humains ont été utilisés dans les modèles LLMs tels que GPT (175 milliards de paramètres pour GPT-3), Llama (70 milliards de paramètres pour Llama 3) ou Mistral (7 milliards de paramètres pour Mistral 7B). Un élément important à prendre en compte est également la disponibilité de ressources de calculs à très haute performance, reposant principalement sur des processeurs graphiques (GPU) dédiés à l'entraînement massif.

À suivre dans le prochain article :
Nous présenterons les résultats de l’article de présentation d’Evo2 qui ont le plus retenu notre attention…
1 DEA signifie « Diplôme d’Études Approfondies », c’est l’équivalent du Master 2 aujourd’hui. Cette formation était dirigée par Serge HAZOUT, à l’Université Paris Diderot (aujourd’hui Paris Cité).
2 Le DU « Création, analyse et valorisation de données omiques » est une formation professionnelle qui est animée par Bertrand COSSON et Pierre POULAIN, à l’Université Paris Cité. Le séminaire était présenté par Guillaume GAUTREAU.
3 Telles que la classification d’images, la traduction automatique ou la génération de code informatique.
Merci à Évoluscope et à Isabelle pour la relecture.


Laisser un commentaire