iPath partout !

Depuis quelques mois j'utilise un outil nom­mé iPath2.0 qui peut être très utile pour cer­tains.

Logo d'iPath2.0
Logo offi­ciel d'iPath2.0

Présentation de l'outil

iPath2.0 est un outil en ligne, acces­sible à l'adresse http://​path​ways​.embl​.de/​i​P​a​t​h​2​.​cgi. Son prin­ci­pal inté­rêt est la visua­li­sa­tion et l'analyse de voies méta­bo­lique.Il se com­pose de trois cartes. La pre­mière, celle que j'utilise le plus et qui sera détaillée ici, repré­sente les grandes voies méta­bo­liques connues et anno­tées, comme le méta­bo­lisme des lipides, le méta­bo­lisme des acides ami­nés, etc. Sur cette carte, les nœuds cor­res­pondent à des com­po­sés chi­miques et les arcs à des séries de réac­tions bio­chi­miques.

Exemple d'image du logiciel
Aper­çu du logi­ciel

La seconde carte est axée sur une sélec­tion de voies de régu­la­tions et de modules fonc­tion­nels d'intérêt, comme "Répli­ca­tion et répa­ra­tion de l'ADN", "Mobi­li­té cel­lu­laire", 'Trans­port mem­bra­naire", etc. La der­nière carte est une repré­sen­ta­tion de la syn­thèse des méta­bo­lites secon­daires.

Toutes ces infor­ma­tions sont basées sur KEGG (Kyo­to Ency­clo­pe­dia of Genes and Genomes) et plus par­ti­cu­liè­re­ment sur les voies méta­bo­liques anno­tées dans KEGG. Ain­si, en cli­quant sur un arc, on accède direc­te­ment à de nom­breuses infor­ma­tions venant de KEGG : l'identifiant KEGG de la voie méta­bo­lique sélec­tion­née et son nom, les KOs (le sys­tème de "KEGG Ortho­lo­gy" consiste en une col­lec­tion de groupes ortho­logues manuel­le­ment défi­nie. Ces groupes sont hié­rar­chi­sé sui­vant les voies méta­bo­liques de KEGG.), modules et réac­tions enzy­ma­tiques KEGG qui y sont liés, les groupes ortho­logues d'eggNOG, etc.

Informations des arcs
Exemple d'informations acces­sibles en cli­quant sur un arc.

En cli­quant sur un nœud, on accède à l'identifiant KEGG du com­po­sé chi­mique, son nom, sa masse, la repré­sen­ta­tion de sa struc­ture et plu­sieurs liens vers des bases de don­nées externes (Pub­Chem, ChE­BI…).

Informations des noeuds
Exemple d'informations acces­sibles en cli­quant sur un noeud.

Toutes ces don­nées sont des liens redi­ri­geant vers la page concer­née, et donc bien que basé sur KEGG, iPath2.0 per­met un lien rapide entre plu­sieurs autres bases de don­nées.

Personnaliser la carte

Bon, tout cela est très bien, mais l'intérêt est de pou­voir y entrer ses don­nées. Voi­ci donc com­ment faire. IPath2.0 est équi­pé d'un petit pan­neau laté­ral “Cus­to­mize” et c'est ici que tout va se pas­ser. Dans ce menu, on peut ajou­ter une liste d'identifiants pro­ve­nant de vos don­nées anno­tées. iPath2.0 accepte plu­sieurs types d'identifiants : KEGG Path­ways, KEGG Com­pounds, KEGG KOs, STRING pro­teins, KEGG pro­teins ; COGs/​eggNOGG OGs, Enzyme EC num­bers, Uni­prot IDs/​ACCs, IPI IDs et NCBI GI IDs

Après avoir sai­si vos don­nées, iPath2.0 vous affiche les arcs et nœuds dans les­quels vos iden­ti­fiants sont impli­qués. Pour l'exemple, j'ai insé­ré les KO K00021 et K00042 (K02000 n'étant pas pré­sent).

Exemple de résultats
Résul­tat d'iPath2.0 sur les iden­ti­fiants K00021 et K00042.

On voit que K00042 est impli­qué dans la voie méta­bo­lique dite « Glyoxy­late and dicar­boxy­late meta­bo­lism », ou en bon fran­çais : « méta­bo­lisme de l'oxoa­cé­tate et du dicar­boxy­late ». Il est pos­sible dans le pan­neau laté­ral de confi­gu­rer de nom­breuses choses comme la cou­leur de fond, la cou­leur des arcs non sélec­tion­nés, etc. Mais sur­tout, il est très facile de colo­rer et régler la taille des arcs et nœuds où nos don­nées appa­raissent.

Formater ses données

Pour l'exemple, je vais ima­gi­ner deux expé­riences A et B. A est la condi­tion nor­male et B, la condi­tion tes­tée. Après les mani­pu­la­tions, on extrait les don­nées et on les annote. On obtient alors deux listes de gènes anno­tés. Chaque gène est asso­cié à une valeur d'expression. On ne garde que les gènes signi­fi­ca­ti­ve­ment dif­fé­ren­tiel­le­ment expri­més dans B par rap­port à A, c'est à dire les gènes dont l'expression varie for­te­ment entre les deux condi­tions.

Dans notre exemple, nous avons 20 gènes qui res­sortent dont 5 sous-expri­més dans B et 15 sur-expri­més dans B.

Iden­ti­fiant du gène Valeur de l'expression
noc:Noc_2806 -5
ddi:DDB_G0269772 10
yli:YALI0F02695g -12
ath:AT2G4375 25
ath:AT2G43080 8
tne:Tneu_0239 4
ncr:NCU00578 -22
ath:AT4G19710 -10
ath:AT5G13280 20
yen:YE3075 11
syn:slr1369 4
mar:MAE_31900 14
syc:syc0836_d 8
ath:AT1G63770 7
sfx:S3110 -24
ath:AT1G23190 12
osa:4334554 6
syf:Synpcc7942_1983 17
osa:4327178 3
npu:Npun_R4096 8

Il y a trois carac­té­ris­tiques sur les­quelles on peut jouer dans iPath2.0 : la cou­leur des arcs, leur taille et leur opa­ci­té. Il peut être inté­res­sant de régler la taille sur la valeur d'expression. Pour régler la taille, il suf­fit d'ajouter un nombre pré­cé­dé d'un « W » après l'identifiant. On peut donc aisé­ment trans­for­mer notre liste en ajou­tant seule­ment un « W » devant nos valeurs d'expression. De même, la cou­leur ser­vi­ra a repré­sen­ter le sens de l'expression : tout ce qui est sur-expri­mé sera bleu et tout ce qui est sous-expri­mé, rouge. Il suf­fit d'ajouter une cou­leur HTML sur la ligne qu'on sou­haite colo­rer.

ddi:DDB_G0269772 10

devient alors

ddi:DDB_G0269772 W10 #0000FF

Notez qu'il vous faudra enlever le symbole « - » des données sous-exprimées.

iPath ne peut pas afficher des informations qui lui semble contradictoires. Par exemple, ath:AT4G19710 est sous-exprimé et ath:AT5G13280 est sur-exprimé mais tout les deux interviennent dans la même voie métabolique. iPath imprimera systématiquement les caractéristique du dernier gène dans la liste. Dès lors il faut mieux classer les gènes par valeur d'expression croissante : il serait dommage de ne pas voir un gène exprimé à 25 car juste après un gène exprimé à 1 intervient dans la même voie métabolique. Et finalement, pour éviter de nombreux soucis, il est sage de séparer les gènes sous-exprimés des sur-exprimés.

Notre liste devient alors :

Sur-exprimés :

osa:4327178 W3 #0000FF
tne:Tneu_0239 W4 #0000FF
syn:slr1369 W4 #0000FF
osa:4334554 W6 #0000FF
ath:AT1G63770 W7 #0000FF
ath:AT2G43080 W8 #0000FF
syc:syc0836_d W8 #0000FF
npu:Npun_R4096 W8 #0000FF
ddi:DDB_G0269772 W10 #0000FF
yen:YE3075 W11 #0000FF
ath:AT1G23190 W12 #0000FF
MAE_31900 W14 #0000FF
syf:Synpcc7942_1983 W17 #0000FF
ath:AT5G13280 W20 #0000FF
ath:AT2G43750 W25 #0000FF
Sous-exprimés :
noc:Noc_2806 W5 #FF0000
ath:AT4G19710 W10 #FF0000
yli:YALI0F02695g W12 #FF0000
ncr:NCU00578 W22 #FF0000
sfx:S3110 W24 #FF0000

On passe ces deux listes dans iPath2.0 et l'on exporte les résultats en SVG (onglet “Export” en haut à droite). Nous avons alors deux images qui nous montre les voies métaboliques sur-exprimées et sous-exprimées dans notre expérience B par rapport à A. Évidement, le SVG n'est qu'une image et ne contient pas toutes les informations qu'on a dans iPath2.0 en cliquant sur les arcs.

Résultats des données sur-exprimées
Résultats avec les données sur-exprimées.
Résultats sur les données sous-exprimées.
Résultats avec les données sous-exprimées.

Une dernière astuce pour les plus motivés et les connaisseurs d'Inkscape : fusionner les deux images de manière intelligente.

“Inkscaper” les résultats

Inkscape est un logiciel d'image vectoriel et est donc parfait pour modifier les SVG. Comme expliqué précédemment, il est possible qu'un arc soit à la fois coloré en bleu et en rouge : deux gènes différents sont exprimé de manière opposée mais interviennent dans la même voie métabolique.

Superposer les deux images n'est donc pas suffisant pour voir ce genre de subtilité. Il va falloir se débrouiller pour les plus “petits” objets apparaissent au dessus des plus gros.

On ouvre dans Inkscape une des deux images. On la sélectionne puis on la dégroupe une fois (Ctrl+G). On supprime alors 5 choses : le fond blanc, les légends en noirs, les nœuds, les légendes en blancs dans les bulles de couleurs et les bulles de couleurs. Il ne reste alors que les arcs.

On fait exactement la même chose sur la seconde image, sans sauvegarder. On copie les arcs d'une image sur la seconde, on aligne le tout (Ctrl+Shift+A).

On sélectionne tout et on dégroupe. Chaque arc est alors indépendant des autres. Il faut alors cliquer en dehors de notre image, puis tout sélectionner à nouveau (cela semble inutile mais sans cela un bug apparaît). Une fois qu'on a tout sélectionner, il suffit d'aller dans le menu « Extensions », « Organiser », « Réempiler » et choisir « De haut en bas (270) ».

Une fois le processus terminer, nos arcs seront classé avec les plus gros au fond et les plus fin au dessus, rendant visible l'ensemble des informations.

Avant Inkscape
Avant réorganisation des objets par Inkscape.
Après Inkscape
Après réorganisation des objets par Inkscape. Au milieu, un arc rouge est présent sur un arc bleu plus large. Le bleu cachait le rouge avant le traitement.

(On voit que l'arc bleu vers le milieu est aussi rouge et plus fin après le traitement)

Alors, on peut rouvrir une des images, la dégrouper et aligner notre nouvelle image d'arcs à l'ancienne. Puis en supprimant l'ancienne, on retrouve les légendes et les nœuds.

Image finale
Image finale après le traitement par Inkscape

Pour aller plus loin :
L'aide d'iPath2.0 est très bien réalisée (http://pathways.embl.de/help.html) et la publication officielle est assez simple à lire.

Takuji Yamada, Ivica Letunic, Shujiro Okuda, Minoru Kanehisa and Peer Bork (2011). iPath2.0: interactive pathway explorer. NAR, 39.

Merci à Akira et Nallias pour les relectures et conseils.



Pour continuer la lecture :


Commentaires

3 réponses à “iPath partout !”

  1. Avatar de Nisaea

    Ça a l'air vrai­ment chouette, mer­ci pour l'info !

  2. Avatar de nell05

    Bon­jour,

    Mer­ci pour cet article inté­res­sant.

    J'aimerais savoir plus pré­ci­sé­ment pour­quoi "il est sage de sépa­rer les gènes sous-expri­més des sur-expri­més." ?

    Mer­ci par avance de votre retour.
    Bien cor­dia­le­ment.

    1. Avatar de Nico M.

      Bon­jour, la rai­son prin­ci­pale est qu'il est pos­sible que deux gènes dif­fé­rents soient expri­més de manière oppo­sée mais inter­viennent dans la même voie méta­bo­lique, comme dans mon exemple.

      Si on ne sépare pas les sous-expri­més des sur-expri­més, cela va créer un conflit dans le logi­ciel : pour un arc don­né il aura des infor­ma­tions dif­fé­rentes (par exemple, taille de 5 et cou­leur rouge puis taille de 25 et cou­leur bleu). Il va alors choi­sir la der­nière source de don­nées et on per­dra donc de l'information (iPath l'indique dans la colonne "Selec­tion conflits"). C'est aus­si pour cette rai­son qu'il est bon de trier les iden­ti­fiants par expres­sion crois­sante.

      Enfin, quand on l'utilise pour des expé­riences plus com­plexes, avec plu­sieurs échan­tillons, etc, il peut arri­ver qu'un même gène soit à la fois sur-expri­mé et sous-expri­mé par rap­port à une condi­tion neutre. Dans ce cas encore, sépa­rer les deux cas per­met d'avoir toutes les infor­ma­tions.

Laisser un commentaire