La complétion de réseaux métaboliques

Il y a quelques temps, sur ce blog, j'ai publié un article qui par­lait de la recons­truc­tion auto­ma­tique de réseaux méta­bo­liques à par­tir d'un génome anno­té. Dans cet article je vous ai pro­mis de conti­nuer à par­ler de ce sujet, notam­ment pour voir com­ment l'on pou­vait amé­lio­rer la qua­li­té d'un réseau méta­bo­lique frai­che­ment créé. Pour rap­pel, la toute pre­mière recons­truc­tion d'un réseau méta­bo­lique est habi­tuel­le­ment de qua­li­té variable, direc­te­ment dépen­dant de la qua­li­té de l'annotation du génome, que l'on appelle "draft méta­bo­lique". Un génome n'étant jamais anno­té par­fai­te­ment et les bases de don­nées ne pou­vant recen­ser toutes les réac­tions méta­bo­liques exis­tantes, ce draft méta­bo­lique com­por­te­ra tou­jours des trous, des inexac­ti­tudes, etc.
Dans cet article je vais donc reve­nir plus en détail sur la manière dont on peut com­bler ces trous et ain­si amé­lio­rer le réseau.

L'identification de trous dans le réseau…

Si on peut rai­son­na­ble­ment pen­ser qu'aucun génome n'est anno­té par­fai­te­ment et qu'aucune base de don­nées de réac­tions méta­bo­liques ne contient toutes les réac­tions exis­tantes, on en conclue très rapi­de­ment qu'un draft méta­bo­lique ne peut être com­plet. Il contient donc des trous (que l'on appelle "gaps"). Et pour com­bler des trous dans un réseau, encore faut-il savoir où ils se situent.

Abs­truse Goose /​ CC BY-NC 3.0

Pour avoir une indi­ca­tion de la pré­sence de gaps, une idée très rai­son­nable consiste à se baser sur les connais­sances bio­lo­giques acquises durant des années d'expérimentations à la paillasse. En effet, un réseau méta­bo­lique, avant de pou­voir ser­vir à faire de la pré­dic­tion de com­por­te­ment chez une espèce doit au moins pou­voir expli­quer ce que l'on connait déjà chez cette espèce. Une manière clas­sique d'effectuer une telle véri­fi­ca­tion néces­site la connais­sance de deux don­nées : le milieu de culture de l'organisme que l'on étu­die (qui contient habi­tuel­le­ment des molé­cules simples) et un ensemble le plus com­plet pos­sible des molé­cules iden­ti­fiées bio­lo­gi­que­ment chez cet orga­nisme (qui contient des molé­cules habi­tuel­le­ment plus com­plexes). Le milieu de culture pour­ra être aisé­ment obte­nu dans le cas d'une culture de cel­lule en labo­ra­toire, un peu moins faci­le­ment dans le cas d'organismes plus com­plexes. De même l'ensemble de molé­cules que l'on sait être pré­sentes chez l'organisme étu­dié pour­ra être obte­nu soit en ques­tion­nant les bio­lo­gistes, soit en se réfé­rant à la lit­té­ra­ture.

Une fois ces don­nées  recueillies, les plus affu­tés d'entre vous ont déjà devi­né ce qu'on allait faire avec : il va fal­loir que notre réseau puisse expli­quer la pré­sence de l'ensemble des molé­cules iden­ti­fiées à par­tir du set de molé­cules repré­sen­tant le milieu de culture, et uni­que­ment lui. La manière la plus simple pour faire cela consiste à regar­der s'il existe un che­min dans le graphe de notre réseau méta­bo­lique qui per­mette de pas­ser des molé­cules du milieu de culture (que l'on appelle clas­si­que­ment "graines") vers les molé­cules com­plexes (que l'on appelle clas­si­que­ment "cibles"). Des études plus com­plexes pour­ront effec­tuer la même chose mais quan­ti­ta­ti­ve­ment et pas juste qua­li­ta­ti­ve­ment, en se basant notam­ment sur des tech­niques de Flux Balance Ana­ly­sis. Il serait inté­res­sant de réa­li­ser un article dédié uni­que­ment à cette tech­nique pro­chai­ne­ment.
Une fois cette étape réa­li­sée, on aura iden­ti­fié les méta­bo­lites qui ne peuvent pas être pro­duits par le draft (faites-moi confiance, il y en aura). À par­tir de là, on va rajou­ter dans notre réseau des réac­tions bio­chi­miques pro­ve­nant des bases de don­nées méta­bo­liques telles que Meta­Cyc. Tout l'intérêt des tech­niques de gap-filling (ou "rem­plis­sage de trous") consiste à bien choi­sir ces réac­tions.

… et le comblement de ceux-ci…

Clas­si­que­ment, on choi­sit d'ajouter un nombre mini­mal de réac­tions dans le modèle en se basant sur un prin­cipe de par­ci­mo­nie. C'est notam­ment ce que l'on trou­ve­ra dans la fameuse méthode Gapfind/​Gapfill qui réa­lise cela en uti­li­sant de l'optimisation linéaire en nombre entiers. Pour chaque méta­bo­lite ne pou­vant être pro­duit par le réseau, Gap­fill va nous ren­voyer une solu­tion unique conte­nant la liste mini­male de réac­tions à rajou­ter pour pro­duire ce méta­bo­lite pré­cis.

Un autre approche a été déve­lop­pée il y a quelques années par Nils Chris­tian. À l'inverse des approches dites "bot­tom-up" où l'on rajoute le mini­mum de réac­tions, ici on va rajou­ter l'ensemble des réac­tions de la base de don­nées dans le modèle. Une fois cet ajout effec­tué, on va reti­rer aléa­toi­re­ment, une par une, les réac­tions que l'on a ajou­tées et à chaque pas on véri­fie si l'ensemble des cibles est tou­jours pro­duc­tible. Si oui on retire défi­ni­ti­ve­ment cette réac­tion du modèle (elle ne sem­blait pas inté­res­sante pour expli­quer les connais­sances bio­lo­giques). Si non, on la laisse défi­ni­ti­ve­ment dans le modèle en la consi­dé­rant comme indis­pen­sable.
Je vous vois déjà faire de grands yeux devant le coté "aléa­toire". L'ordre dans lequel on tes­te­ra les réac­tions est bien évi­dem­ment très impor­tant, plus une réac­tion pos­sè­de­ra un rang éle­vé dans la liste, plus elle aura de chance d'être consi­dé­rée comme indis­pen­sable. C'est pour cela que l'on va lan­cer cet algo­rithme un grand nombre de fois afin d'avoir un nombre suf­fi­sant de réa­li­sa­tions pour effec­tuer des ana­lyses "sta­tis­tiques" sur les résul­tats de ces simu­la­tions. Il sera notam­ment pos­sible de regar­der si telle ou telle réac­tion revient plus ou moins sou­vent. Il sera éga­le­ment pos­sible d'intégrer d'autres don­nées bio­lo­giques en biai­sant l'aléa de l'ordre où sont reti­rées les réac­tions. Si l'on a des signes plus ou moins pro­bant qu'une enzyme codant pour une cer­taine réac­tion est pré­sente dans le génome de notre orga­nisme, on pla­ce­ra cette réac­tion vers la fin de la liste.

Ces tech­niques se basant sur les "graines" et les "cibles" pos­sèdent l'intérêt de pou­voir être appli­quées indif­fé­rem­ment sur les orga­nismes euca­ryotes et pro­ca­ryotes. Si l'on s'intéresse plus par­ti­cu­liè­re­ment aux pro­ca­ryotes il est bien évi­dem­ment pos­sible et recom­man­dé d'utiliser la struc­ture très par­ti­cu­lière du génome pro­ca­ryote en opé­rons. Pour cela je ne peux que vous invi­ter à aller voir de plus près l'excellent tra­vail effec­tué par l'équipe de Clau­dine Médigue avec l'outil CanOE inté­gré à la pla­te­forme Micro­Scope.

… pour obtenir un réseau de qualité

Une fois cette étape de gap-filling ter­mi­née on peut en géné­ral consi­dé­rer que l'on a un réseau de qua­li­té suf­fi­sante et que la phase de ques­tion­ne­ment de ce réseau va pou­voir com­men­cer. Mais ce sera l'objet d'un futur article…



Pour continuer la lecture :


Commentaires

Laisser un commentaire