Le nombre de génomes séquencés croît aujourd'hui exponentiellement. Il est probable que d'ici peu de temps chacun d'entre nous puisse avoir la séquence de son propre génome pour une poignée de dollars en quelques jours seulement. On peut d'ailleurs se référer à ce récent débat vidéo, dans lequel intervient notamment le professeur Denis Duboule (généticien à l'École Polytechnique Fédérale de Lausanne), pour avoir plus d'informations au sujet des séquençages haut débit, des risques que cela comporte pour chacun d'entre nous, des précautions à prendre vis-à-vis du "tout séquençage".
Du point de vue de la recherche, de très nombreux organismes sont aujourd'hui séquencés à la chaîne. Ces séquençages haut débit apportent une quantité d'information énorme qu'il convient ensuite d'étudier, et notamment une information sur le métabolisme d'un organisme via l'identification des enzymes présentes dans les cellules. Et la reconstruction de réseaux métaboliques (n'ayez crainte, je vous expliquerais plus loin de quoi il s'agit) est un excellent moyen de prendre en compte cette grande quantité d'information.
Une première étape logique après un séquençage consiste en l'annotation du génome. Bien qu'il s'agisse là encore d'un travail de bioinformaticien et qu'il est indispensable à la création de réseaux métaboliques, ce n'est pas l'objet premier de cet article et je n'entrerais donc pas dans les détails de l'annotation d'un génome (mais nul doute que l'annotation de génomes fera un jour l'objet d'un article sur ce blog). Non, ce qui va nous intéresser ici c'est ce que l'on peut faire une fois que l'on est en possession d'un génome annoté. Quelles connaissances peut-on en tirer ? Quels sont les apports en biologie ?
Mais avant de répondre à ces questions, il convient de répondre à une première : qu'est-ce que l'annotation d'un génome ? Et bien c'est très simple, l'annotation d'un génome consiste en l'attribution pour chaque gène de sa fonction au sein d'une cellule. On a ainsi une liste de gènes associés à leur fonction pour un organisme donné. Et c'est cette liste de gènes que l'on va utiliser pour mieux comprendre le fonctionnement d'un organisme dans sa globalité, en reconstruisant son réseau métabolique.
Un réseau métabolique ? Késako ?
Un réseau métabolique, c'est le regroupement de l'ensemble des processus chimiques et physiques qui déterminent la physiologie d'une cellule. Il comprend l'ensemble des réactions chimiques intervenant dans le métabolisme de cette cellule, l'ensemble des réactions de transport mais également les régulations qui interviennent au niveau de ces réactions.
Et comment reconstruire un tel réseau à partir d'un génome annoté ?
Il y a habituellement deux grandes étapes dans la reconstruction d'un réseau métabolique. La première, la plus rapide, consiste à prendre le génome annoté et de regarder pour chaque annotation, comment on pourrait ajouter telle ou telle information dans notre réseau. On obtient ainsi un "draft" métabolique, c'est-à-dire un réseau brut, de qualité variable (et directement dépendante de la qualité de l'annotation du génome) et pouvant être amélioré.
La seconde étape consiste d'ailleurs en l'amélioration de ce draft métabolique. Elle pourra se faire à la main, des experts de l'organisme étudié pouvant se concentrer sur certaines voies métaboliques importantes, ou elle pourra se faire en utilisant des techniques particulières dites de gap-filling ("remplissage de trous"). Dans cet article, je ne vais vous présenter que la première des deux étapes, la seconde étant un domaine si vaste qu'il pourra faire l'objet d'un ou plusieurs articles ultérieurs sur ce blog.
Pour la première étape, consistant donc à produire un premier réseau métabolique à partir de la seule information du génome annoté, différents outils existent. Je vais vous présenter celui que je maîtrise le mieux et qui semble être le plus utilisé par la communauté : Pathway tools, développé par l'équipe de bioinformatique de SRI international.
Le fonctionnement global de Pathway tools (et plus précisément de PathoLogic, la partie de l'outil permettant de reconstruire des réseaux métaboliques) est assez simple à comprendre. Comme je vous l'ai dit, il prend en entrée un génome annoté. Dans ces annotations, on va notamment avoir les annotations des gènes enzymatiques. Ces gènes enzymatiques sont habituellement associés à un numéro EC correspondant à une classification internationale des enzymes. À chaque numéro EC correspondra une réaction enzymatique donnée. Pathway tools va faire correspondre ce numéro EC (ou à défaut de numéro EC, le nom de l'enzyme) à une ou plusieurs bases de données de réactions enzymatiques. De manière générale, la base de donnée utilisée est MetaCyc, mais selon les spécificités de telle ou telle espèce on pourra utiliser des bases de données particulières. À chaque fois qu'une annotation aura été retrouvée dans MetaCyc, Pathway tools ajoute celle-ci au réseau métabolique en associant les différents métabolites entre eux. Ainsi une réaction 1 produisant un métabolite B à partir d'un substrat A pourra être couplée à une réaction 2 produisant un métabolite C à partir du B précédemment identifié, et ainsi de suite.
On obtiendra ainsi un réseau représentable sous forme de graphe bi-partite, un des types de nœuds correspondant aux réactions (et indirectement aux gènes et enzymes associés), l'autre correspondant aux substrats et aux produits de ces réactions. Les arcs entre ces nœuds permettent de faire le lien entre les réactions et les composés biochimiques. Un des apports de Pathway tools est que ce logiciel se charge ensuite de découper ce réseau en voies métaboliques. Là encore, Pathway tools va aller chercher ses connaissances dans MetaCyc, cette base de données associant chaque réaction à un certain nombre de voies métaboliques. Ainsi Pathway tools va regarder, pour chaque voie métabolique présente dans la base de données, si un nombre suffisant de réactions appartenant à cette voie sont présentes dans le draft. Si c'est le cas, le logiciel va considérer cette voie comme étant présente chez notre organisme, qu'elle comporte des trous, ou non. La « complétion » de ces trous interviendra ultérieurement dans le processus de reconstruction.
Après avoir appliqué cette approche, on se retrouve donc avec réseau métabolique qui n'est certes pas parfait mais duquel on peut tout de même retirer quelques informations. Par exemple, on va pouvoir voir quelles voies métaboliques sont présentes ou non chez notre espèce d'étude, voir si le draft est proche de ceux que l'on peut obtenir chez des espèces proches, etc.
Et ensuite ?
Comme je vous l'ai dit auparavant, cette reconstruction n'est en général que le début du travail. Elle sera suivie d'autres approches qui consisteront à compléter le réseau à la main, en y intégrant notamment toutes les connaissances qui ne sont pas présentes dans les bases de données car trop spécifiques à un organisme donné, ou automatiquement en utilisant toute sorte de méthodes qui seront développées sur ce même blog ultérieurement.
Pour aller plus loin
Cet article n'est bien évidemment qu'une introduction à la reconstruction automatique de réseaux métaboliques. Pour une vue plus "globale" du travail de reconstruction on peut se référer à l'excellent article d'Ines Thiele et Bernhard Ø Palsson qui fait le tour à la fois de la reconstruction initiale mais également des méthodes pour une amélioration ultérieure du réseau. On pourra notamment y découvrir que d'autres outils que Pathway tools existent pour effectuer le type de reconstruction présenté dans l'article. On peut par exemple citer les logiciels metaSHARK ou AUTOGRAPH mais cette liste est, vous vous en doutez, loin d'être exhaustive.
Laisser un commentaire