IA et analyse des génomes : une autre révolution en cours ? (partie 1)

17 juin 2026

-

par

dans Bioinformatique, Découverte, Opinion

Cher·es toutes et tous !

À chaque fois que je parcours ce blog, je me dis : « Ouah, c'est génial de prendre le temps, ainsi, de partager ses idées et ses savoir-faire, mais pourquoi est-ce que je ne le fais pas plus souvent ? ». Ma dernière (et unique !) contribution date en effet de 2021. Cela fait 5 ans… Un quinquennat donc, au cours duquel les transformations de la bioinformatique n'ont pourtant pas manqué.

Alors, début 2026, je me suis dit : « Cette année, Gaëlle, tu partages au moins un truc ». Et nous y sommes (enfin 6 mois après !… Décidément, ce temps, il reste bien incontrôlable…).

Avec ce texte, notre objectif est de vous partager notre compréhension, au laboratoire, de la révolution en cours dans l'analyse des séquences biologiques, suite à l'arrivée (en force !) des modèles de fondation en intelligence artificielle. Pour cela, nous vous proposons un ensemble de 3 billets de blog (tant qu'à faire, on a mis le paquet 😅).

Le premier raconte la « prise de conscience » (un peu douloureuse, je dois dire) d'un tsunami en approche. Il explique également la notion de modèle de fondation, en revenant aux fondamentaux de la notion de réseaux de neurones (franchement, nous avions bien besoin de ce retour aux sources, alors on partage !). Celles et ceux qui seraient au fait sur le sujet pourront lire directement la partie 2, dédiée à la présentation du modèle Evo2 et de ses usages en analyse des génomes. Enfin, en partie 3, nous partagerons quelques réflexions en cours, qui ne manqueront pas de se compléter et de se renforcer, nous l'espérons, grâce à vos retours et compléments d'informations !

Bonne lecture à vous 🙂.

Partie 1 : la prise de conscience…

Pour la plupart d'entre vous, l'année 2002 n'est même pas un souvenir. Elle se réfère à un "à l'époque" lointain comme le dirait mon fils de 17 ans ("à l'époque il existait…", "vous aviez déjà à l'époque…", etc.). Toutefois pour moi (Gaëlle), cette année marquait mon entrée dans la milieu professionnel de la Bioinformatique. Je terminais le DEA AGM2¹, en ayant choisi la spécialité « Analyse des Génomes ». Cette préférence était cohérente avec ma formation initiale en Biologie, centrée autour de la génétique. Mes collègues de l'autre spécialisation, nommée « Modélisation Moléculaire », étaient pour la plupart des biochimistes. Toutes et tous écrivaient dans leurs projets de thèse : « à long terme, il sera possible de prédire, avec la seule information de la séquence en acides aminés, la structure tri-dimensionnelle d’une protéine ». Cette perspective leur semblait toutefois très lointaine (pour ne pas dire inaccessible). Il faut dire qu'en 2005, répondre à la question « Can we predict how proteins will fold ? » faisait partie des 125 défis majeurs listés par la revue Science (Kennedy and Norman 2005). Ainsi, nos carrières de scientifiques auraient bien le temps de se terminer, que seuls quelques résultats nouveaux auraient été obtenus. Enfin, c'est ce que nous pensions "à l'époque"…

Ainsi, quand les communications autour des performances du programme AlphaFold (Jumper et al. 2021) sont arrivées jusqu’à moi, j'ai pensé à mes ancien·nes collègues. Finalement, leur communauté scientifique avait réussi, quel exploit ! Je me souviens également me dire, avec un peu d’ironie, « heureusement que j’avais choisi l’analyse des génomes comme spécialité, là, nous avons encore de quoi faire ! ». Mais voilà, seulement 5 ans après, l'exploit se répète… Et c'est en assistant au séminaire de clôture de la formation du DUO², que j'ai découvert le modèle de fondation Evo2 (Brixi et al. 2025). Et immédiatement, j'ai compris que c’était au tour de « l’analyse des génomes » de vivre sa révolution… Gloups.

De retour au laboratoire, je me suis appliquée avec la doctorante qui m’accompagne dans mes recherches, Anakim, à mieux comprendre les fondements méthodologiques sous-jacents aux modèles de fondation en intelligence artificielle, et leurs potentialités associées. Entre enthousiasme et vertige, notre besoin de démêler les mythes de la réalité scientifique des modèles d’intelligence artificielle, a constitué un travail utile pour appréhender avec rationalité ce nouveau virage de la bioinformatique.

Ci-dessous, nous introduisons donc la notion de modèle de fondation, en lien avec celle de réseaux de neurones artificiels et celle d’apprentissage auto-supervisé. Le cas particulier des grands modèles de langage est enfin expliqué. Dans un deuxième article, nous présenterons les résultats de l’article de présentation d’Evo2 qui ont le plus retenu notre attention. Enfin, nous conclurons dans un troisième article avec quelques éléments de réflexions en lien avec l’avenir de l’analyse bioinformatique des séquences biologiques.

Un modèle de fondation, qu’est-ce que c’est ?

Définition

D’après la définition de Wikipédia : « Un modèle de fondation ou modèle fondateur est un modèle d'intelligence artificielle (IA) de grande taille, entraîné sur une grande quantité de données non étiquetées (généralement par apprentissage auto-supervisé). Le modèle résultant peut être adapté à un large éventail de tâches en aval³ (downstream tasks en anglais) ». Cette définition nous plonge dans le vif du sujet. Les mots clés « intelligence artificielle », « grande taille » et « entraînement par apprentissage auto-supervisé » sont là. Associés à ceux de « réseaux de neurones artificiels » et « grands modèles de langage » (juste après dans le texte Wikipedia), le panorama des notions théoriques utiles pour la compréhension du modèle Evo2 est complet.

Réseaux de neurones artificiels

Schématiquement, un neurone artificiel est un algorithme qui permet la réalisation d’un calcul à partir de variables d’entrée, pour obtenir la valeur d’une variable de sortie (voir Figure 1).

Figure 1 : Exemple d’un neurone artificiel de type perceptron. Les variables d’entrée sont nommées x1 et x2 (à gauche). L’algorithme consiste en la mise en application d’une formule mathématique (encadrée en bleu) qui dépend de valeurs de paramètres données (entourés en rouge).

Ce qui est intéressant, c’est que changer les valeurs des paramètres permet de changer la valeur de la variable de sortie (Figure 2). Ainsi, le choix des paramètres, lors de l’usage d’un neurone artificiel est une étape critique. Elle est nommée « entraînement du modèle ». Concrètement, il s’agit de « contraindre » le neurone artificiel à reproduire un comportement souhaité (agir par exemple, comme un opérateur logique).

Figure 2 : Exemple d’un même modèle de neurone artificiel dont le comportement est modifié en fonction des valeurs choisies pour ses paramètres (opérateur logique « ET » à gauche et « OU » à droite). Il est possible de tester le fonctionnement de ce modèle de perceptron ici : https://www.101ai.net/nnet/perceptron.

Pour entraîner un modèle de neurone artificiel, il est nécessaire de disposer d’exemples, dans lesquels les valeurs souhaitées des sorties, sont mises en relation avec les valeurs possibles des variables d’entrée (Figure 3). L’algorithme est alors mis en application, avec différents ensembles de paramètres et finalement, ceux qui permettent d’obtenir les sorties souhaitées sont retenues.

Figure 3 : Exemple des connaissances a priori nécessaires pour entrainer le modèle de neurone artificiel de la Figure 2. Plusieurs tests de paramètres sont réalisés, afin de trouver les valeurs qui permettent d’obtenir des sorties cohérentes avec les connaissances *a priori*.

Associés entre eux, les neurones artificiels permettent la création de réseaux de neurones artificiels (Figure 4), dont l’avantage est de modéliser des relations plus complexes entre les observations en entrée (« ce que l’on connaît ou choisit ») et les résultats obtenus en sortie (« ce que l’on calcule »). Un exemple emblématique d’usage de réseau de neurones tel que celui présenté ci-dessous concerne la reconnaissance d’images.

Figure 4 : Exemple de réseau de neurone artificiel de type « deep neural neural network ». Les neurones artificiels sont représentés par des boites de couleur orange. Ils sont connectés les uns aux autres de sorte que les variables de sortie des uns correspondent aux variables d’entrée des autres. Cette image est extraite du cours FIDLE (https://www.fidle.cnrs.fr/w3/sequences/05-DNN.html).

Le cas particulier des grands modèles de langages

Dans ce contexte, les LLMs (ou « Large Langage Model ») sont un cas particulier de réseau de neurones (Figure 5). Ils ont la spécificité de traiter en entrée des sources de données textuelles, afin de calculer en sortie des valeurs de probabilités. Le mot (ou token) présentant la probabilité la plus élevée est alors sélectionné dans un ensemble de mots possibles (le vocabulaire), comme étant le plus susceptible de suivre la séquence textuelle fournie en entrée. Pour cela, les LLMs reposent sur la spécification de très nombreux paramètres (plusieurs millions) dont les valeurs sont choisies lors d’une phase d’entraînement.

Il est à noter que dans le cas de données textuelles, l’entraînement est facilité par la possibilité de « masquer » la fin d’une phrase (par exemple Figure 5, le mot « Paris »), et la vérification que la proposition de sortie avec la probabilité la plus élevée est celle attendue (ici 92% pour Paris, qui est bien le mot attendu). On parle d’apprentissage « auto-supervisé ».

Ainsi les connaissances a priori, nécessaires pour entraîner les modèles LLMs sont très nombreuses et peu coûteuses à obtenir. Il s’agit de prendre des textes (disponibles sur Internet ou autre), de masquer certaines parties et de vérifier si les propositions du réseau de neurones sont correctes. C’est ainsi que les LLMs les plus performants aujourd’hui ont pu se permettre d’intégrer des milliards de paramètres.

On considère aujourd’hui que tous les textes rédigés par des humains ont été utilisés dans les modèles LLMs tels que GPT (175 milliards de paramètres pour GPT-3), Llama (70 milliards de paramètres pour Llama 3) ou Mistral (7 milliards de paramètres pour Mistral 7B). Un élément important à prendre en compte est également la disponibilité de ressources de calculs à très haute performance, reposant principalement sur des processeurs graphiques (GPU) dédiés à l'entraînement massif.

Figure 5 : Présentation schématique d’un LLM. A partir d’une source de données textuelle fournie en entrée (nommée la fenêtre de contexte), le modèle calcule des probabilités permettant de prédire la suite du texte. Dans cet exemple, le mot « Paris » est proposé à la suite de « La capitale de la France est ».

À suivre dans le prochain article :

Nous présenterons les résultats de l’article de présentation d’Evo2 qui ont le plus retenu notre attention…

1 DEA signifie « Diplôme d’Études Approfondies », c’est l’équivalent du Master 2 aujourd’hui. Cette formation était dirigée par Serge HAZOUT, à l’Université Paris Diderot (aujourd’hui Paris Cité).

2 Le DU « Création, analyse et valorisation de données omiques » est une formation professionnelle qui est animée par Bertrand COSSON et Pierre POULAIN, à l’Université Paris Cité. Le séminaire était présenté par Guillaume GAUTREAU.

3 Telles que la classification d’images, la traduction automatique ou la génération de code informatique.

Merci à Évoluscope et à Isabelle pour la relecture.

Auteurs/autrices

Partagez cet article

AI génome machine learning modélisation

Pour continuer la lecture :

Commentaires

2 réponses à “IA et analyse des génomes : une autre révolution en cours ? (partie 1)”

Guillaume Gautreau

23 juin 2026

Bravo pour cet article ! Très accessible 🙂

Mini-remarque : les LLM ne reposent pas uniquement sur des réseaux de neurones. Les mécanismes d'attention (calculs matriciels), constituent un élément essentiel de leur architecture (sauf exception).

Répondre
Gaëlle et Anakim

23 juin 2026

Merci pour ce retour Guillaume. Tu as tout à fait raison, les LLMs utilisent des réseaux de neurone plus qu'ils ne sont un réseau de neurone (comme dit dans l'article) . Cette clarification pourrait faire l'objet d'un prochain article de blog, qu'en penses-tu ?

Répondre

Laisser un commentaireAnnuler la réponse.

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.