Accessibility Tools

- Le blog participatif de bioinformatique francophone depuis 2012 -

Si vous avez lu la partie 1 de cette série de trois articles, vous aurez compris que l'étude de l'article de présentation du modèle Evo2 (Brixi et al., 2025) nous aura littéralement enflammées au laboratoire 🤯. Le texte est à la fois dense et exigeant, mais il offre une contribution véritablement nouvelle au domaine. Ci-​dessous, nous présentons les résultats qui nous ont particulièrement marquées. Le lecteur ou la lectrice intéressé(e) pourra se référer à la publication originale pour en apprendre plus sur le sujet.

Présentation générale

Le modèle de fondation Evo2 a été présenté dans la littérature scientifique sous la forme d’un preprint1en 2025 (Brixi et al. 2025) puis publié en mars 2026 dans la revue Nature (Brixi et al. 2026). Il s’agit d’un réseau de neurones artificiel de type LLM, à l’instar des modèles tels que GPT, Llama ou Mistral (voir partie 1). Son originalité est qu’il a été entrainé à partir de séquences nucléotidiques, à la place du vocabulaire « humain ». Il est ainsi capable de réaliser des calculs de probabilité permettant de prédire « la prochaine base », à partir d’une séquence donnée en entrée (voir Figure 1). Evo2 existe sous deux versions, un petit modèle composé de 7 milliards de paramètres et un grand modèle composé de 40 milliards de paramètres. Ces modèles sont disponibles pour la communauté des scientifiques en OpenSource, ce qui signifie que les codes informatiques peuvent être récupérés, utilisés et éventuellement modifiés par toute personne qui le souhaiterait. Depuis son partage sur la plateforme BioRxiv, l’article de présentation de Evo2 a été cité plusieurs centaines de fois, ce qui le place parmi preprints les plus influents (top 1%) dans le domaine de la bioinformatique.

Figure 1 : Présentation générale du modèle de fondation Evo2. A partir d’une séquence nucléotidique donnée en entrée (à gauche), Evo2 effectue un calcul de probabilités permettant de prédire de la base suivante (à droite).

Ci-​dessous, nous verrons d’une part la stratégie d’entraînement du modèle qui a été utilisée, en portant une attention particulière à la création du jeu de données d’apprentissage. Puis, nous verrons d’autre part, quelques exemples d’utilisation du modèle. À nouveau, ces exemples ne sont pas exhaustifs, mais nous ont semblé emblématiques des potentialités spectaculaires associées aux usages du modèle Evo2.

Stratégie d’entrainement

Comme nous l’avons vu précédemment, « entraîner un réseau de neurones artificiel » signifie « choisir les valeurs de ses paramètres » pour optimiser les performances du réseau de neurones artificiel dans sa tâche de prédiction (ici trouver la base suivante à partir d’une séquence nucléotidique). Pour cela, un jeu de données d’entraînement est nécessaire. Dans le contexte d’Evo2, les auteurs ont créé un jeu de données de séquences nucléotidiques nommé OpenGenome2. Ce jeu de données est composé de 8.84 trillions (pour rappel 1 trillion = 1000 milliards !) de nucléotides, ce qui représente plus de 100 000 génomes procaryotes et plus de 10 000 génomes eucaryotes. C’est colossal. Les séquences proviennent des bases de données publiques et ont l’avantage de représenter une grande diversité d’espèces. Evo2 est ainsi un modèle généraliste, capable de réaliser des prédictions à partir de séquences nucléotidiques de n’importe quel organisme.

La stratégie d’entraînement ressemble à celle décrite classiquement pour les LLMs (voir la partie 1). Une originalité consiste à avoir présenté le jeu de données d’apprentissage deux fois. Une première fois en utilisant des fenêtres de contexte composées de séquences courtes (de l’ordre de 8000 tokens, un token pouvant être associé à un nucléotide), puis une deuxième fois en utilisant des fenêtres de contexte longues (pouvant atteindre 1 millions de tokens). Les auteurs expliquent que cet entrainement en deux étapes a permis au modèle de capturer d’une part l’information des éléments fonctionnels de base qui composent les génomes (CDS, séquences régulatrices, etc.), et d’autre part les relations longue distance entre ces éléments (séquences enhancer et promoteur de gène par exemple).

D’un point de vue computationnel, cet entraînement a nécessité une infrastructure informatique impressionnante (plusieurs milliers de GPU) entraînant un coût financier de l’ordre de plusieurs millions de dollars. Un partenariat avec NVIDIA a dans ce contexte été réalisé et plusieurs auteurs de l’article ont des affiliations à des entreprises reconnues pour leur savoir-​faire en termes de grands modèles de langage telles que Goodfire et OpenAI.

Un schéma récapitulatif est présenté ci-​dessous (Figure 2).

Figure 2 : Schéma récapitulatif de la présentation du modèle Evo2. Pour son entraînement, un jeu de données de séquences nucléotidiques nommé OpenGenome2 a été créé. Ce jeu de données est composé de plusieurs centaines de milliers de génomes complets, à la fois des génomes procaryotes, eucaryotes et des métagénomes. Deux modèles sont disponibles, un petit modèle utilisant 7 milliards de paramètres et un grand modèle de 40 milliards de paramètres. Evo2 est capable d’analyser des fenêtres de contexte de 1 Mb, soit 1 million de nucléotides. Le coût d’entraînement est estimé à plusieurs millions de dollars et a nécessité des partenariats avec des entreprises spécialisées en calculs à haute performance telles que NVIDIA et OpenAI.

Exemples d’utilisation

Dans cette partie, nous verrons quelques exemples d’utilisation du modèle de fondation Evo2, tels que présentés dans la publication. A noter que les résultats présentés ont été obtenus en mode « zero-​shot » ce qui signifie que le modèle Evo2 est utilisé seul, sans étape de fine-​tuning supplémentaire.

1. Création de génomes artificiels

La création de génomes artificiels est sans doute l’utilisation la plus « intuitive » d’Evo2. En effet, nous sommes habitué·es à utiliser les agents conversationnels pour générer du texte (ou du code informatique). Ici, la tâche réalisée par Evo2 est comparable. A partir d’une séquence fournie en entrée, Evo2 propose une séquence en sortie. Celle-​ci a l’avantage de reproduire les caractéristiques d’un « vrai » génome, en termes de composition en gènes, de positionnement des séquences régulatrices, etc.

Pour cela, il suffit de fournir en entrée du modèle un morceau de séquence génomique, et Evo2 propose une suite. Tout simplement. Deux exemples présentés dans la publication sont particulièrement spectaculaires. Le premier concerne la création de génomes mitochondriaux. Une séquence de 3000 nucléotides du génome mitochondrial humain est donnée en entrée, puis Evo2 génère 16 kb supplémentaires. L’analyse bioinformatique de ces séquences « artificielles » par l’outil MitoZ (Meng et al. 2019) montre la présence de séquences pertinentes (gènes codant des protéines, ou bien des ARNt ou ARNr) dans le contexte d’un génome mitochondrial. C’est principalement leur ordre synténique sur les génomes artificiels est qui est variable, en fonction des simulations réalisées (Figure 3).

Figure 3 : Extrait de la Figure 5 de l’article Evo2 présentant l’analyse bioinformatique de divers génomes artificiels obtenus à partir d’un prompt composé des premières 3000 bases du génome mitochondrial humain. Les boites bleues sont conformes avec des séquences de gènes, tels que décrit dans la base de données MitoZ.

Le deuxième exemple concerne la génération d’un chromosome de la levure Saccharomyces cerevisiae complet. Pour cela, les auteurs ont fourmi un prompt des 10 premières kb du chromosome III de cette levure, permettant la génération d’une séquence complémentaire de 330 kb. Une fois de plus, l’analyse bioinformatique des séquences obtenues, montre la présence de caractéristiques typiques de génomes eucaryotes, avec notamment des séquences de gènes codants des ARNt, des séquences promotrices, des séquences de gènes codants des protéines, etc.

2. Identification de régions génomiques soumises à de fortes contraintes évolutives

Comme nous l’avons vu précédemment, le fonctionnement de base d’Evo2 consiste à calculer les probabilités des bases A, T, C et G, en fonction du contexte d’une séquence (voir Figure 1). De ces calculs de probabilités, il est possible de dériver un score de « vraisemblance » pour chacune des positions d’une séquence quelconque. Dans leur article, les auteurs mettent en relation directe cette notion de vraisemblance avec celle de contrainte évolutive. En effet, plus une région génomique est « forte », c’est-à-dire peu variable, plus elle est facile à prédire pour le modèle de fondation. Pour soutenir cette affirmation, l’exemple de la Figure 4 est présenté. Les régions pour lesquelles les scores de vraisemblance sont élevés sont représentées en jaune, tandis que celles pour lesquels les scores de vraisemblance sont faibles sont représentées en bleu. Ainsi, il est observé une forte contrainte évolutive au niveau du codon Start (ATG), tandis que la troisième base des codons, est, elle, plus faiblement contrainte. Ces observations sont en cohérence avec la notion de redondance du code génétique (les codons synonymes varient à cette position).

Figure 4 : Extrait de la Figure 2 de l’article d’Evo2 présentant l’intérêt de calculer la vraisemblance des séquences, position par position. Ici, la position du codon Start apparaît comme fortement contrainte, tandis que les 3ème bases des codons apparaît comme plus faiblement contrainte.

3. Prédiction de l’impact fonctionnel d’une mutation

Toujours en lien avec le calcul du score de vraisemblance (voir ci-​dessus), les auteurs expliquent qu’il est possible d’utiliser Evo2 pour prédire l’impact d’une mutation. Pour cela, des variations de séquences sont appliquées à chacune des positions d’une séquence données. L’écart entre la vraisemblance initiale (celle de la « vraie » séquence) et la nouvelle vraisemblance (celle de la séquence mutée) est mesuré. Les auteurs expliquent que plus cet écart est grand, plus une mutation à cette position aura un impact fonctionnel fort. Pour soutenir cette affirmation, l’exemple de la Figure 5 est présenté. On y observe que les changements de séquence réalisés dans des régions génomiques fonctionnellement très contraintes telles que les régions codantes se caractérisent par des variations des scores de vraisemblance plus importantes que les changements réalisés dans les régions génomiques fonctionnellement moins contraintes (telles que les régions intergéniques).

Figure 5 : Extrait de la Figure 2 de l’article Evo2. Des changements de séquences ont été réalisés dans différents types de régions génomiques non-​codantes (régions intergéniques, transcrites en ARN non codants, ARNr ou ARNt) ou bien codantes (mutations synonymes, non synonymes, apparition d’un codon Stop prématurément, délétion d’une base) et les variations de vraisemblance ont été mesurées. Les grandes variations sont associées aux positions connues pour être particulièrement contraintes fonctionnellement (mutations synonymes versus décalage du cadre de lecture par délétion d’une base).

4. Extraction de « features » utiles pour la création d’outils de prédiction spécialisés

Pour finir, les auteurs expliquent qu’il est possible, avec Evo2, d’extraire de nouvelles « features » (ou caractéristiques) intéressantes pour créer des outils de prédiction spécialisés. Cette partie est de loin la plus complexe à comprendre, mais c’est également celle qui ouvre les perspectives les plus impressionnantes. De façon schématique, il s’agit de présenter au modèle Evo2 des séquences dont les rôles fonctionnels sont connus. Lors de leurs analyses, des parties spécifiques du réseau de neurones vont être "activées". En repérant ces parties, celles-​ci sont mises en relation avec le rôle fonctionnel de la séquence présentées. Ainsi, si une autre séquence est présentée au réseau, cette fois de fonction inconnue, et que cette même partie du réseau est activée, une prédiction de fonction pourra être réalisée (voir Figure 6). Ici, on comprend à quel point le modèle Evo2 a été capable d’assimiler des informations biologiques nombreuses, permettant d’envisager des usages très polyvalents.

Figure 6 : Extrait de la Figure 4 de l’article Evo2 présentant une partie du génome de E. coli. L’annotation connue est montrée sur la ligne du bas, tandis que les annotations prédites par Evo2 sont montrées sur les lignes au-​dessus. Les annotations reposent sur l’observation de l’activation de « features » dont les noms sont notés à gauche (en gris). Leur correspondance avec des éléments fonctionnels est notée en bleu. Cette correspondance a pu être établie dans une phase au cours de laquelle des séquences de fonctions connues ont été présentées au modèle.

Conclusion

Une fois de plus, notre présentation des résultats de l'article Evo2 n'est que partielle et superficielle. Nous vous encourageons à regarder la publication originale pour en apprendre plus sur le sujet. Dans la dernière partie de cette série de 3 articles, nous discuterons des conséquences de l'existence ce type d'outil bioinformatique, en particulier en ce qui concerne nos usages des bases de données de séquences. A très vite donc 🙂.

Auteurs/​autrices



Commentaires

Laisser un commentaire

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.