*grosse voix très sérieuse*
Attention ! L'article qui suit est le premier d'une série d'articles sur la représentation du métabolisme sous forme de réseaux et leur analyse.
Il existe, en bioinformatique, plusieurs catégories de modèles pour décrire le métabolisme.
Tout d’abord, les modèles pour l’analyse structurelle du métabolisme. Cette catégorie regroupe principalement les modèles reposant sur la théorie des graphes. Ces derniers sont basés sur les données qualitatives et sont utilisés pour analyser des propriétés topologiques du réseau ainsi que les différentes interactions entre les entités qui y sont représentées.
Viennent ensuite les modèles pour l’analyse des flux de matière dans le réseau, notamment avec des techniques comme la « Flux Balance Analysis », dont j'ai déjà parlé précédemment dans un article.
Pour finir, il y a les modèles pour l’analyse dynamique du métabolisme. Ces modèles sont orientés pour la simulation du métabolisme et l’étude de ses propriétés dynamiques. Dans ce genre de modèles les graphes peuvent être utilisés, mais étant donné qu’il s’agit d’étude de la dynamique, des informations quantitatives sont requises, faisant que les réseaux ne sont que des intermédiaires dans le processus de modélisation. Ce sont des modèles assez complexes à construire car nécessitent des données sur la cinétique de chacune des transformations chimiques dans la cellule.
Dans cet article, nous allons donc aborder l’utilisation des graphes pour la représentation du métabolisme au travers des différents types de graphes qui peuvent être utilisés.
Le métabolisme est l’ensemble des interactions moléculaires qui se produisent dans un organisme. Les molécules peuvent être divisées en deux grands types : les métabolites (molécules souvent de petite taille et qui sont les briques cellulaires) et les enzymes qui catalysent la transformation des métabolites. Il est commun de représenter le métabolisme d’un organisme, comme d’autres notions biologiques où l’interaction entre ses éléments est présente, sous forme d’un réseau.
Voici par exemple à quoi peut ressembler un réseau métabolique :
C'est grand et a l'air complexe, n'est-ce-pas ? La modélisation des réseaux en graphes mathématiques en bioinformatique en facilite l’analyse.
Petit aparté technique (car j'aime bien me la jouer "je peux utiliser des termes complexes, muahaha!"):
Un graphe est une structure utilisée pour modéliser des relations binaires entre les objets d’une collection donnée. D’une façon formelle, un graphe G est défini par un couple (V,E) où V est un ensemble fini de nœuds (ou sommets) et E est une partie de V2 est un ensemble d’arêtes (en cas de graphe non-orienté) ou d’arcs (en cas de graphe orienté).
Ainsi, un réseau biologique est un ensemble de nœuds et d’arêtes (ou d’arcs si la direction de l’interaction existe et/ou est connue) étiquetés. Ces étiquettes, ou labels, peuvent être qualitatifs, comme, par exemple, des identifiants de gènes, de protéines, de réactions, ou quantitatifs, notamment des poids ou des probabilités de transition sur les nœuds ou les arêtes. Il existe plusieurs types de réseaux métaboliques, où les nœuds et les liens entre les nœuds représentent des entités biologiques différentes.
Voici un tout petit réseau métabolique (il s'agit en fait d'une voie métabolique) qui va nous servir d'exemple de départ ici :
Il s'agit d'une façon très humaine de représenter le métabolisme, on y voit les métabolites, les réactions qui transforment ces métabolites, et les enzymes qui catalysent ces réactions. Logique non ? Sauf que du point de vue informatique, c'est pas terrible ! Plusieurs types d'entités dans une même structure, des arêtes qui fusionnent et qui se scindent… pas très organisé tout ça, et surtout, pas très facile à analyser ! Voici donc plusieurs façons de représenter ce même réseau métabolique d'une façon intelligible pour nos machines !
1. Réseau de métabolites
Dans le réseau de métabolites, les nœuds représentent les composés chimiques et deux nœuds
sont liés par une arête s'il existe une réaction qui permet la transformation du premier métabolite en deuxième (c’est à dire si un des métabolites est le substrat et l’autre le produit).
2. Réseau de réactions
Dans le réseau de réactions, les nœuds représentent les réactions biochimiques (catalysées par des enzymes ou spontanées). Deux nœuds sont reliés s’il existe un composé chimique produit par la première réaction qui intervient comme substrat dans la deuxième.
Hé oui, il n'y a que trois réactions au final dans le réseau initial !
3. Réseau d’enzymes
Dans le réseau d’enzymes, les nœuds correspondent aux enzymes. Elles sont reliées par une arête si elles catalysent des réactions qui ont un composé chimique en commun. Ce type de réseau est cependant très peu utilisé car il présente des limites. D’abord, une enzyme peut catalyser plusieurs réactions, et particulièrement des réactions qui ont un nombre différent de substrats et/ou de produits. Ce cas introduit des courts-circuits dans le réseau. Il existe aussi des réactions qui peuvent être catalysées par plusieurs enzymes (c’est le cas des isoenzymes et des enzymes peu spécifiques à grande promiscuité de substrat comme les alcools déshydrogénases). Dans ce cas, la réaction sera dupliquée dans le réseau. Enfin, la connaissance sur les enzymes n’est pas encore complète (de nombreuses réactions enzymatiques sont orphelines d’enzymes) donc le réseau enzymatique contient forcément des trous. Cependant, si on ne s’intéresse qu’aux enzymes et aux relations entre elles, la perte d’information structurelle qu’entraîne l’utilisation de ce type de réseaux n’est pas dommageable.
Oui, tout petit aussi !
4. Graphe biparti et hypergraphe des métabolites
Selon ce que l’on souhaite représenter et les informations que l’on veut en tirer, le réseau de métabolites et le réseau de réactions peuvent être imprécis. Cette imprécision peut être résolue en ajoutant des étiquettes sur les arêtes (avec les identifiants des réactions ou des métabolites pour lever l’ambiguïté respectivement sur un réseau de métabolites ou un réseau de réactions). Il existe aussi des modèles de graphes plus éloquents pour lever cette ambiguïté : le graphe biparti et l’hypergraphe de métabolites.
Un graphe biparti est un graphe dans lequel l’ensemble des nœuds peut être divisé en deux ensembles totalement disjoints V et U tel que chaque arête du graphe relie un nœud d’un ensemble à un nœud de l’autre ensemble.
Concrètement, deux nœuds d’un même ensemble ne peuvent être reliés par une arête. Dans la modélisation du métabolisme, ces deux ensembles de nœuds correspondent aux métabolites et aux réactions et les arêtes relient les métabolites et les réactions.
Un hypergraphe de métabolites est un graphe où les nœuds représentent des métabolites qui sont reliés entre eux par une hyperarête s’ils interviennent dans une même réaction comme substrats ou comme produits. Une hyperarête est une arête qui peut lier deux nœuds et plus (une arête simple relie au plus deux nœuds).
Un graphe biparti et un hypergraphe de métabolites sont strictement équivalents en termes de quantité et qualité d’informations et le passage de l’un à l’autre est très simple.
Il existe, bien évidemment, d’autres façons de représenter le métabolisme sous la forme d’un réseau, mais elles sont moins fréquemment étudiées et ne seront donc pas décrites ici.
Achtung !
(oui, depuis que j'ai déménagé en Allemagne, ça me prend de crier en rouge parfois 🙂 )
Tous les métabolites n’ont pas la même fonction et ne sont pas présents en mêmes quantités ou au même moment dans la cellule. Même si l’étude décrite ici se porte essentiellement sur un modèle statique du métabolisme, qui représente tous les états possibles connus du métabolisme, la question des composés ubiquitaires demeure importante. Il faut donc les prendre en compte lorsque l'on souhaite faire de la reconstruction de réseaux métaboliques corrects ! Comment ? Paragraphe suivant !
5. Composés ubiquitaires et réseaux « petit-monde »
Dans toutes les façons de représenter le métabolisme, décrites précédemment, les réactions et les métabolites sont considérés comme des acteurs équivalents. Or, comme vous devez le savoir d'après vos cours de bio (si vous en avez suivi, bien sûr!), parmi les métabolites on trouve les cofacteurs (par exemple l’ATP et le NAD) qui, bien que parfois présents dans les équations de réactions, ne sont pas leurs composants principaux. Interviennent, également, dans les réactions, des molécules ubiquitaires comme par exemple l’eau (H2O), le dioxyde de carbone (CO2 ) et le dioxygène (O2 ). Ces molécules sont souvent en excès dans le milieu cellulaire et elles se retrouvent impliquées dans de très nombreuses réactions. Si on tient compte de ces composés ubiquitaires dans la modélisation du métabolisme, on risque de se retrouver avec des réseaux trop connexes (pour un grand nombre de couples (u, v) de sommets dans ce réseau, il existe un chemin de u à v) et concentrés autour de ces métabolites. Ceci peut mener à de mauvaises interprétations, car on va notamment connecter entre eux des réactions et des enzymes qui n’ont rien en commun à part un cofacteur.
Une étude sur le métabolisme de Escherichia coli, publiée en 2001 montre qu’une modélisation d’un réseau métabolique complet, où tous les métabolites, mêmes les ubiquitaires, sont présents, exhibe des propriétés de réseaux « petit monde ». Un réseau dit « petit monde » est un modèle mathématique utilisé pour représenter des réseaux réels. Par exemple, les réseaux sociaux ont la propriété de petit monde car dans la majorité des cas, deux nœuds (c’est à dire deux individus), peuvent être reliés par un très faible nombre de connaissances intermédiaires. Dans le cadre de cette même étude, les auteurs montrent que l’on peut relier n’importe quelle paire de métabolites de ce réseau par un chemin relativement court. Cependant, en se positionnant du point de vue cellulaire, on ne s’intéresse pas simplement à relier des métabolites entre eux via n’importe quel chemin possible, mais dans un ordre bien précis ayant un sens biologique. Comme l’a démontré une autre étude parue en 2004, d’un point de vue biochimique, la meilleure alternative est de se concentrer sur les motifs de changements structuraux des métabolites d’intérêt et sur les flux d’atomes de carbone dans les voies métaboliques. L’auteur démontre entre autres que le réseau métabolique de Escherichia coli n’est pas un réseau petit monde, et que l’on a tout intérêt à retirer (ou démarquer) les composés ubiquitaires pour étudier le métabolisme d’une façon optimale et calculer des chemins réalistes entre les composés.
Plusieurs techniques permettent de traiter ces métabolites gênants. La première consiste à tout simplement retirer les métabolites les plus fréquents. Il faut toutefois fixer un seuil pour définir à partir de quel moment un métabolite est « trop » fréquent. On court aussi le risque d’éliminer des réactions essentielles dans lesquelles des molécules ubiquitaires interviennent comme composants principaux (la synthèse de l’ATP à partir de l’ADP par exemple, ou la réaction qui permet d’obtenir du dihydrogène (H2 ) à partir de deux protons).
Une autre méthode consiste à retirer les métabolites auxiliaires des réactions. Elle est plus pertinente que la première car elle a l’avantage de ne pas retirer systématiquement les métabolites ubiquitaires, considérant le contexte dans lequel ceux-là sont employés. Ainsi, en reprenant l’exemple de la synthèse de l’ATP à partir de l’ADP, où ces métabolites sont les composés principaux, ils ne seront pas retirés. Par contre, dans une réaction où l’ATP agit comme un donneur de phosphate et d’énergie, il sera enlevé. La difficulté principale de cette méthode est de définir systématiquement pour chaque réaction les composés principaux et auxiliaires. Cette sélection peut se faire automatiquement en utilisant la notion de voie métabolique, où un composé est principal (ou « primaire ») s’il est produit et consommé dans la voie. Dans la base de données MetaCyc, lorsqu’une réaction fait partie d’une voie métabolique, les composés chimiques sont marqués comme « primaires » ou « secondaires » selon s'ils sont un des substrats initiaux ou produits finaux, ou décrits comme composé intermédiaire dans la voie métabolique. La distinction entre les métabolites principaux et auxiliaires peut aussi se faire manuellement à partir de dessins de cartes métaboliques comme celles de KEGG.
Voici donc la fin de ce premier article sur la représentation et l'analyse du métabolisme ! A très bientôt pour de nouvelles aventures métaboliques, où on parlera notamment des différents types d'analyses que l'on peut effectuer sur ces réseaux !
Merci à Kumquatum et Lroy pour leurs corrections et suggestions !
Laisser un commentaire