- Le blog participatif de bioinformatique francophone depuis 2012 -

iPath partout !

Depuis quelques mois j'utilise un outil nom­mé iPath2.0 qui peut être très utile pour cer­tains.

Logo d'iPath2.0
Logo offi­ciel d'iPath2.0

Présentation de l'outil

iPath2.0 est un outil en ligne, acces­sible à l'adresse http://​path​ways​.embl​.de/​i​P​a​t​h​2​.​cgi. Son prin­ci­pal inté­rêt est la visua­li­sa­tion et l'analyse de voies méta­bo­lique.

Il se com­pose de trois cartes. La pre­mière, celle que j'utilise le plus et qui sera détaillée ici, repré­sente les grandes voies méta­bo­liques connues et anno­tées, comme le méta­bo­lisme des lipides, le méta­bo­lisme des acides ami­nés, etc. Sur cette carte, les nœuds cor­res­pondent à des com­po­sés chi­miques et les arcs à des séries de réac­tions bio­chi­miques.

Exemple d'image du logiciel
Aper­çu du logi­ciel

La seconde carte est axée sur une sélec­tion de voies de régu­la­tions et de modules fonc­tion­nels d'intérêt, comme "Répli­ca­tion et répa­ra­tion de l'ADN", "Mobi­li­té cel­lu­laire", 'Trans­port mem­bra­naire", etc. La der­nière carte est une repré­sen­ta­tion de la syn­thèse des méta­bo­lites secon­daires.

Toutes ces infor­ma­tions sont basées sur KEGG (Kyo­to Ency­clo­pe­dia of Genes and Genomes) et plus par­ti­cu­liè­re­ment sur les voies méta­bo­liques anno­tées dans KEGG. Ain­si, en cli­quant sur un arc, on accède direc­te­ment à de nom­breuses infor­ma­tions venant de KEGG : l'identifiant KEGG de la voie méta­bo­lique sélec­tion­née et son nom, les KOs (le sys­tème de "KEGG Ortho­lo­gy" consiste en une col­lec­tion de groupes ortho­logues manuel­le­ment défi­nie. Ces groupes sont hié­rar­chi­sé sui­vant les voies méta­bo­liques de KEGG.), modules et réac­tions enzy­ma­tiques KEGG qui y sont liés, les groupes ortho­logues d'eggNOG, etc.

Informations des arcs
Exemple d'informations acces­sibles en cli­quant sur un arc.

En cli­quant sur un nœud, on accède à l'identifiant KEGG du com­po­sé chi­mique, son nom, sa masse, la repré­sen­ta­tion de sa struc­ture et plu­sieurs liens vers des bases de don­nées externes (Pub­Chem, ChE­BI…).

Informations des noeuds
Exemple d'informations acces­sibles en cli­quant sur un noeud.

Toutes ces don­nées sont des liens redi­ri­geant vers la page concer­née, et donc bien que basé sur KEGG, iPath2.0 per­met un lien rapide entre plu­sieurs autres bases de don­nées.

Personnaliser la carte

Bon, tout cela est très bien, mais l'intérêt est de pou­voir y entrer ses don­nées. Voi­ci donc com­ment faire. IPath2.0 est équi­pé d'un petit pan­neau laté­ral “Cus­to­mize” et c'est ici que tout va se pas­ser. Dans ce menu, on peut ajou­ter une liste d'identifiants pro­ve­nant de vos don­nées anno­tées. iPath2.0 accepte plu­sieurs types d'identifiants : KEGG Path­ways, KEGG Com­pounds, KEGG KOs, STRING pro­teins, KEGG pro­teins ; COGs/​eggNOGG OGs, Enzyme EC num­bers, Uni­prot IDs/​ACCs, IPI IDs et NCBI GI IDs

Après avoir sai­si vos don­nées, iPath2.0 vous affiche les arcs et nœuds dans les­quels vos iden­ti­fiants sont impli­qués. Pour l'exemple, j'ai insé­ré les KO K00021 et K00042 (K02000 n'étant pas pré­sent).

Exemple de résultats
Résul­tat d'iPath2.0 sur les iden­ti­fiants K00021 et K00042.

On voit que K00042 est impli­qué dans la voie méta­bo­lique dite « Glyoxy­late and dicar­boxy­late meta­bo­lism », ou en bon fran­çais : « méta­bo­lisme de l'oxoa­cé­tate et du dicar­boxy­late ». Il est pos­sible dans le pan­neau laté­ral de confi­gu­rer de nom­breuses choses comme la cou­leur de fond, la cou­leur des arcs non sélec­tion­nés, etc. Mais sur­tout, il est très facile de colo­rer et régler la taille des arcs et nœuds où nos don­nées appa­raissent.

Formater ses données

Pour l'exemple, je vais ima­gi­ner deux expé­riences A et B. A est la condi­tion nor­male et B, la condi­tion tes­tée. Après les mani­pu­la­tions, on extrait les don­nées et on les annote. On obtient alors deux listes de gènes anno­tés. Chaque gène est asso­cié à une valeur d'expression. On ne garde que les gènes signi­fi­ca­ti­ve­ment dif­fé­ren­tiel­le­ment expri­més dans B par rap­port à A, c'est à dire les gènes dont l'expression varie for­te­ment entre les deux condi­tions.

Dans notre exemple, nous avons 20 gènes qui res­sortent dont 5 sous-expri­més dans B et 15 sur-expri­més dans B.

Iden­ti­fiant du gèneValeur de l'expression
noc:Noc_2806-5
ddi:DDB_G026977210
yli:YALI0F02695g-12
ath:AT2G437525
ath:AT2G430808
tne:Tneu_02394
ncr:NCU00578-22
ath:AT4G19710-10
ath:AT5G1328020
yen:YE307511
syn:slr13694
mar:MAE_3190014
syc:syc0836_d8
ath:AT1G637707
sfx:S3110-24
ath:AT1G2319012
osa:43345546
syf:Synpcc7942_198317
osa:43271783
npu:Npun_R40968

Il y a trois carac­té­ris­tiques sur les­quelles on peut jouer dans iPath2.0 : la cou­leur des arcs, leur taille et leur opa­ci­té. Il peut être inté­res­sant de régler la taille sur la valeur d'expression. Pour régler la taille, il suf­fit d'ajouter un nombre pré­cé­dé d'un « W » après l'identifiant. On peut donc aisé­ment trans­for­mer notre liste en ajou­tant seule­ment un « W » devant nos valeurs d'expression. De même, la cou­leur ser­vi­ra a repré­sen­ter le sens de l'expression : tout ce qui est sur-expri­mé sera bleu et tout ce qui est sous-expri­mé, rouge. Il suf­fit d'ajouter une cou­leur HTML sur la ligne qu'on sou­haite colo­rer.

devient alors

Notez qu'il vous fau­dra enle­ver le sym­bole « — » des don­nées sous-expri­mées.

iPath ne peut pas affi­cher des infor­ma­tions qui lui semble contra­dic­toires. Par exemple, ath:AT4G19710 est sous-expri­mé et ath:AT5G13280 est sur-expri­mé mais tout les deux inter­viennent dans la même voie méta­bo­lique. iPath impri­me­ra sys­té­ma­ti­que­ment les carac­té­ris­tique du der­nier gène dans la liste. Dès lors il faut mieux clas­ser les gènes par valeur d'expression crois­sante : il serait dom­mage de ne pas voir un gène expri­mé à 25 car juste après un gène expri­mé à 1 inter­vient dans la même voie méta­bo­lique. Et fina­le­ment, pour évi­ter de nom­breux sou­cis, il est sage de sépa­rer les gènes sous-expri­més des sur-expri­més.

Notre liste devient alors :

Sur-expri­més :

On passe ces deux listes dans iPath2.0 et l'on exporte les résul­tats en SVG (onglet “Export” en haut à droite). Nous avons alors deux images qui nous montre les voies méta­bo­liques sur-expri­mées et sous-expri­mées dans notre expé­rience B par rap­port à A. Évi­de­ment, le SVG n'est qu'une image et ne contient pas toutes les infor­ma­tions qu'on a dans iPath2.0 en cli­quant sur les arcs.

Résultats des données sur-exprimées
Résul­tats avec les don­nées sur-expri­mées.
Résultats sur les données sous-exprimées.
Résul­tats avec les don­nées sous-expri­mées.

Une der­nière astuce pour les plus moti­vés et les connais­seurs d'Inkscape : fusion­ner les deux images de manière intel­li­gente.

“Inkscaper” les résultats

Inks­cape est un logi­ciel d'image vec­to­riel et est donc par­fait pour modi­fier les SVG. Comme expli­qué pré­cé­dem­ment, il est pos­sible qu'un arc soit à la fois colo­ré en bleu et en rouge : deux gènes dif­fé­rents sont expri­mé de manière oppo­sée mais inter­viennent dans la même voie méta­bo­lique.

Super­po­ser les deux images n'est donc pas suf­fi­sant pour voir ce genre de sub­ti­li­té. Il va fal­loir se débrouiller pour les plus “petits” objets appa­raissent au des­sus des plus gros.

On ouvre dans Inks­cape une des deux images. On la sélec­tionne puis on la dégroupe une fois (Ctrl+G). On sup­prime alors 5 choses : le fond blanc, les légends en noirs, les nœuds, les légendes en blancs dans les bulles de cou­leurs et les bulles de cou­leurs. Il ne reste alors que les arcs.

On fait exac­te­ment la même chose sur la seconde image, sans sau­ve­gar­der. On copie les arcs d'une image sur la seconde, on aligne le tout (Ctrl+Shift+A).

On sélec­tionne tout et on dégroupe. Chaque arc est alors indé­pen­dant des autres. Il faut alors cli­quer en dehors de notre image, puis tout sélec­tion­ner à nou­veau (cela semble inutile mais sans cela un bug appa­raît). Une fois qu'on a tout sélec­tion­ner, il suf­fit d'aller dans le menu « Exten­sions », « Orga­ni­ser », « Réem­pi­ler » et choi­sir « De haut en bas (270) ».

Une fois le pro­ces­sus ter­mi­ner, nos arcs seront clas­sé avec les plus gros au fond et les plus fin au des­sus, ren­dant visible l'ensemble des infor­ma­tions.

Avant Inkscape
Avant réor­ga­ni­sa­tion des objets par Inks­cape.
Après Inkscape
Après réor­ga­ni­sa­tion des objets par Inks­cape. Au milieu, un arc rouge est pré­sent sur un arc bleu plus large. Le bleu cachait le rouge avant le trai­te­ment.

(On voit que l'arc bleu vers le milieu est aus­si rouge et plus fin après le trai­te­ment)

Alors, on peut rou­vrir une des images, la dégrou­per et ali­gner notre nou­velle image d'arcs à l'ancienne. Puis en sup­pri­mant l'ancienne, on retrouve les légendes et les nœuds.

Image finale
Image finale après le trai­te­ment par Inks­cape

Pour aller plus loin :
L'aide d'iPath2.0 est très bien réa­li­sée (http://​path​ways​.embl​.de/​h​e​l​p​.​h​tml) et la publi­ca­tion offi­cielle est assez simple à lire.

Taku­ji Yama­da, Ivi­ca Letu­nic, Shu­ji­ro Oku­da, Mino­ru Kane­hi­sa and Peer Bork (2011). iPath2.0 : inter­ac­tive path­way explo­rer. NAR, 39.

Mer­ci à Aki­ra et Nal­lias pour les relec­tures et conseils.



Pour continuer la lecture :


Commentaires

3 réponses à “iPath partout !”

  1. Nisaea_

    Ça a l'air vrai­ment chouette, mer­ci pour l'info !

  2. Avatar de nell05

    Bon­jour,

    Mer­ci pour cet article inté­res­sant.

    J'aimerais savoir plus pré­ci­sé­ment pour­quoi "il est sage de sépa­rer les gènes sous-expri­més des sur-expri­més." ?

    Mer­ci par avance de votre retour.
    Bien cor­dia­le­ment.

    1. Nico M.

      Bon­jour, la rai­son prin­ci­pale est qu'il est pos­sible que deux gènes dif­fé­rents soient expri­més de manière oppo­sée mais inter­viennent dans la même voie méta­bo­lique, comme dans mon exemple.

      Si on ne sépare pas les sous-expri­més des sur-expri­més, cela va créer un conflit dans le logi­ciel : pour un arc don­né il aura des infor­ma­tions dif­fé­rentes (par exemple, taille de 5 et cou­leur rouge puis taille de 25 et cou­leur bleu). Il va alors choi­sir la der­nière source de don­nées et on per­dra donc de l'information (iPath l'indique dans la colonne "Selec­tion conflits"). C'est aus­si pour cette rai­son qu'il est bon de trier les iden­ti­fiants par expres­sion crois­sante.

      Enfin, quand on l'utilise pour des expé­riences plus com­plexes, avec plu­sieurs échan­tillons, etc, il peut arri­ver qu'un même gène soit à la fois sur-expri­mé et sous-expri­mé par rap­port à une condi­tion neutre. Dans ce cas encore, sépa­rer les deux cas per­met d'avoir toutes les infor­ma­tions.

Laisser un commentaire