Découverte :
La complétion de réseaux métaboliques

Il y a quelques temps, sur ce blog, j'ai publié un article qui parlait de la reconstruction automatique de réseaux métaboliques à partir d'un génome annoté. Dans cet article je vous ai promis de continuer à parler de ce sujet, notamment pour voir comment l'on pouvait améliorer la qualité d'un réseau métabolique fraichement créé. Pour rappel, la toute première reconstruction d'un réseau métabolique est habituellement de qualité variable, directement dépendant de la qualité de l'annotation du génome, que l'on appelle "draft métabolique". Un génome n'étant jamais annoté parfaitement et les bases de données ne pouvant recenser toutes les réactions métaboliques existantes, ce draft métabolique comportera toujours des trous, des inexactitudes, etc.
Dans cet article je vais donc revenir plus en détail sur la manière dont on peut combler ces trous et ainsi améliorer le réseau.

L'identification de trous dans le réseau...

Si on peut raisonnablement penser qu'aucun génome n'est annoté parfaitement et qu'aucune base de données de réactions métaboliques ne contient toutes les réactions existantes, on en conclue très rapidement qu'un draft métabolique ne peut être complet. Il contient donc des trous (que l'on appelle "gaps"). Et pour combler des trous dans un réseau, encore faut-il savoir où ils se situent.

Pour avoir une indication de la présence de gaps, une idée très raisonnable consiste à se baser sur les connaissances biologiques acquises durant des années d'expérimentations à la paillasse. En effet, un réseau métabolique, avant de pouvoir servir à faire de la prédiction de comportement chez une espèce doit au moins pouvoir expliquer ce que l'on connait déjà chez cette espèce. Une manière classique d'effectuer une telle vérification nécessite la connaissance de deux données : le milieu de culture de l'organisme que l'on étudie (qui contient habituellement des molécules simples) et un ensemble le plus complet possible des molécules identifiées biologiquement chez cet organisme (qui contient des molécules habituellement plus complexes). Le milieu de culture pourra être aisément obtenu dans le cas d'une culture de cellule en laboratoire, un peu moins facilement dans le cas d'organismes plus complexes. De même l'ensemble de molécules que l'on sait être présentes chez l'organisme étudié pourra être obtenu soit en questionnant les biologistes, soit en se référant à la littérature.

Une fois ces données  recueillies, les plus affutés d'entre vous ont déjà deviné ce qu'on allait faire avec : il va falloir que notre réseau puisse expliquer la présence de l'ensemble des molécules identifiées à partir du set de molécules représentant le milieu de culture, et uniquement lui. La manière la plus simple pour faire cela consiste à regarder s'il existe un chemin dans le graphe de notre réseau métabolique qui permette de passer des molécules du milieu de culture (que l'on appelle classiquement "graines") vers les molécules complexes (que l'on appelle classiquement "cibles"). Des études plus complexes pourront effectuer la même chose mais quantitativement et pas juste qualitativement, en se basant notamment sur des techniques de Flux Balance Analysis. Il serait intéressant de réaliser un article dédié uniquement à cette technique prochainement.
Une fois cette étape réalisée, on aura identifié les métabolites qui ne peuvent pas être produits par le draft (faites-moi confiance, il y en aura). À partir de là, on va rajouter dans notre réseau des réactions biochimiques provenant des bases de données métaboliques telles que MetaCyc. Tout l'intérêt des techniques de gap-filling (ou "remplissage de trous") consiste à bien choisir ces réactions.

... et le comblement de ceux-ci...

Classiquement, on choisit d'ajouter un nombre minimal de réactions dans le modèle en se basant sur un principe de parcimonie. C'est notamment ce que l'on trouvera dans la fameuse méthode Gapfind/Gapfill qui réalise cela en utilisant de l'optimisation linéaire en nombre entiers. Pour chaque métabolite ne pouvant être produit par le réseau, Gapfill va nous renvoyer une solution unique contenant la liste minimale de réactions à rajouter pour produire ce métabolite précis.

Un autre approche a été développée il y a quelques années par Nils Christian. À l'inverse des approches dites "bottom-up" où l'on rajoute le minimum de réactions, ici on va rajouter l'ensemble des réactions de la base de données dans le modèle. Une fois cet ajout effectué, on va retirer aléatoirement, une par une, les réactions que l'on a ajoutées et à chaque pas on vérifie si l'ensemble des cibles est toujours productible. Si oui on retire définitivement cette réaction du modèle (elle ne semblait pas intéressante pour expliquer les connaissances biologiques). Si non, on la laisse définitivement dans le modèle en la considérant comme indispensable.
Je vous vois déjà faire de grands yeux devant le coté "aléatoire". L'ordre dans lequel on testera les réactions est bien évidemment très important, plus une réaction possèdera un rang élevé dans la liste, plus elle aura de chance d'être considérée comme indispensable. C'est pour cela que l'on va lancer cet algorithme un grand nombre de fois afin d'avoir un nombre suffisant de réalisations pour effectuer des analyses "statistiques" sur les résultats de ces simulations. Il sera notamment possible de regarder si telle ou telle réaction revient plus ou moins souvent. Il sera également possible d'intégrer d'autres données biologiques en biaisant l'aléa de l'ordre où sont retirées les réactions. Si l'on a des signes plus ou moins probant qu'une enzyme codant pour une certaine réaction est présente dans le génome de notre organisme, on placera cette réaction vers la fin de la liste.

Ces techniques se basant sur les "graines" et les "cibles" possèdent l'intérêt de pouvoir être appliquées indifféremment sur les organismes eucaryotes et procaryotes. Si l'on s'intéresse plus particulièrement aux procaryotes il est bien évidemment possible et recommandé d'utiliser la structure très particulière du génome procaryote en opérons. Pour cela je ne peux que vous inviter à aller voir de plus près l'excellent travail effectué par l'équipe de Claudine Médigue avec l'outil CanOE intégré à la plateforme MicroScope.

... pour obtenir un réseau de qualité

Une fois cette étape de gap-filling terminée on peut en général considérer que l'on a un réseau de qualité suffisante et que la phase de questionnement de ce réseau va pouvoir commencer. Mais ce sera l'objet d'un futur article...

  • À propos de
  • Je suis issu d'une formation en biologie puis en bioinformatique à l'université de Rennes 1 (licence BCGMP puis master de modélisation des systèmes biologiques) que j'ai complété par un M2 d'informatique fondamentale à l'ENS Lyon. J'ai soutenu ma thèse sur la reconstruction et l'étude de réseaux métaboliques à l'aide de la programmation par contraintes en novembre 2014 et je suis actuellement en recherche de post-doc sur la reconstruction de réseaux métaboliques appliquée à des communautés d'espèces.

Laisser un commentaire