Découverte :
Un tour d'horizon des bases de données consacrées au métabolisme

La toute première activité enzymatique a été découverte par Anselme Payen, un chimiste industriel français qui a piqué, grâce à son génie, la domination du marché de borax aux néerlandais. C'était une α-amylase, isolée à partir d'un extrait de malt, et capable de découper l'amidon en glucose. Nommée initialement diastase (synonyme d'"enzyme" à l'heure actuelle), c'était la première d'une longue série d'enzymes découvertes depuis et partageant le même suffixe : "ase".

Depuis cette époque, les connaissances sur les enzymes n'ont cessé de croître, à tel point qu'à la fin des années 1950, plusieurs équipes de biochimistes se sont mises à vouloir les classifier. De ces efforts, et après beaucoup de discussions de niveau international, est née la fameuse classification des activités enzymatiques, la classification EC (Enzyme Commission) par l'IUBMB (International Union of Biochemistry and Molecular Biology). Là, quelques précisions : une activité enzymatique est réalisée par une enzyme (jusque là tout le monde est d'accord, j'espère), du coup il ne faut pas confondre les deux.

Un EC number est un identifiant numérique composé de quatre chiffres (digits). Le premier chiffre est pour la classe de la réaction (il y a au total 6 classes de réactions), le deuxième est pour le type de composant impliqué dans la réaction, le troisième est pour la nature de la réaction et le dernier est simplement un numéro de série identifiant chaque activité enzymatique.

Description des quatre digits d'un EC number.  Image par l'auteur.

Description des quatre digits d'un EC number.
Image par l'auteur.

Les EC numbers désignent une activité (catalytique de réactions biochimiques) qui peut être réalisée par une ou plusieurs enzymes (qui sont des protéines, donc des objets physiques), en une ou plusieurs étapes. Une enzyme (on peut d'ailleurs aussi dire UN enzyme, les deux sont officiellement valides selon l'Académie Française 🙂 ) peut donc être décrite par plusieurs EC numbers (cas des enzymes multifonctionnelles) et un EC number peut correspondre à plusieurs enzymes non-homologues, mais catalysant les mêmes réactions. Depuis ce temps là, la classification EC est la seule et unique façon de classifier les activités enzymatiques. Même si il y a des activités enzymatiques qui ont été très bien décrites, mais ne peuvent être classées selon celle-ci. Et même si soumettre une nouvelle activité enzymatique pour qu'elle y soit classée est extrêmement long.

bob l'éponge

Même Bob l’Éponge sait que tout est lié dans le métabolisme

Bah, me direz-vous, j'ai cliqué sur le titre de l'article pour voir les différentes ressources sur le métabolisme, et l'auteur vient me raconter la vie des biochimistes et des enzymes !

 

Oui, mais c'est forcément lié. Parce que qu'est-ce qu'est le métabolisme ? Définition scientifique (qui peut être différente de celles des diététiciens, sportifs, etc) : c'est l'ensemble des réactions biochimiques effectuées dans un organisme. Donc, l'ensemble des réactions qui transforment les métabolites et qui sont très souvent catalysées par des enzymes. On s'y retrouve.

Mais avant de me lancer (enfin!) dans la revue des bases de données publiques sur le métabolisme, je voudrais préciser un autre détail : la notion de voie métabolique. Il n'y a pas de consensus sur la définition d'une voie métabolique, malgré le fait que certaines voies sont étudiées et très bien connues depuis très longtemps. Et ce, parce que le découpage du métabolisme en voies métaboliques est complètement artificiel et arbitraire. La plupart des scientifiques s'accordent à dire que les voies métaboliques sont des parties non-partitionnantes du métabolisme, car une réaction peut appartenir à plusieurs voies, et qu'il peut y avoir plusieurs sous-voies dans une voie aboutissant à la même chose à la fin. Donc, les voies métaboliques sont souvent différentes d'une ressource à une autre.

 

Voilà, je peux (finalement!) passer à mon survol des ressources sur le métabolisme la conscience tranquille!

 

EC Numbers

On peut retrouver toute la classification EC officielle à différents endroits maintenus par différentes institutions. Mais finalement, elles regroupent toutes les mêmes informations, à quelques jours de décalage au moment des mises à jour de la classification.

  • ENZYME DB (ExPaSy) créée par une collaboration entre le SIB (Swiss Institute of Bioinformatics) et l'EBI (European Institute of bioinformatics) et maintenue par le SIB. Contient aussi des EC numbers préliminaires définis par les experts de SwissProt lors de l'annotation manuelle des enzymes. On peut les repérer à la présence d'un 'n' au niveau du 4é digit.
  • Intenz est la jumelle d'ExPaSy, maintenue par l'EBI. Contient aussi les EC numbers préliminaires.
  • IUBMB(Gerry Moss Pages). Sous ses airs flashy et archaïques, cette ressource est THE ressource officielle pour les EC numbers.
  • ExplorEnz développée et maintenue à Dublin, a l'avantage de simplicité. Elle a aussi la particularité de formater les noms des composants chimiques selon les standards IUPAC (International Union of Pure and Applied Chemistry) : InCHI.

Au moment de l'écriture de cet article, il y a 5025 EC numbers valides.

KEGGkegg

The Kyoto Encyclopedia of Genes and Genomes est une grande ressource de données relatives aux génomes, aux voies métaboliques et aux composés chimiques impliqués dans la vie. KEGG comporte une quinzaine de bases de données plus ou moins entremêlées entre elles, mais celles qui nous intéressent ici sont PATHWAY, REACTION et ENZYME, qui comme leur nom le suggère, contiennent des informations sur les voies métaboliques, les réactions et les enzymes les catalysant, ainsi que sur les transformations chimiques liées aux réactions. Les voies métaboliques dans KEGG sont décrites d'une façon assez particulière : elles contiennent l'information sur comment se déroule une transformation d'un composé chimique en un autre dans tous les organismes à la fois, et la voie qui en ressort est donc assez abstraite. Un point intéressant à mentionner est que les réactions enzymatiques y sont décrites par des formules les décomposant en lots de paires de réactifs (RPairs), dont l'alignement des structures chimiques est réalisé afin d'extraire un pattern de conversion représentant un échange d'atomes entre deux composés chimiques. Les réactions de KEGG sont décrites sans tenir compte de la charge des composés chimiques, à un état de totale protonation.

KEGG en chiffres :

  • nombre de voies métaboliques : 392
  • nombre de réactions : 9229
  • nombre de EC numbers : 5911 (comprend aussi des EC numbers obsolètes)
  • nombre de gènes : 8660858
  • nombre de composants chimiques : 27937
  • nombre d'organismes : 2440

 

MetaCycmetacyc

MetaCyc (prononcer avec un accent anglais, "met-a-sike") est une base de données contenant des voies métaboliques non-redondantes et expérimentalement démontrées, maintenue et développée par l'équipe de Peter Karp au SRI International. Y sont stockées des données de préférence qualitatives plutôt que quantitatives même s'il commence à y avoir quelques données sur la cinétique enzymatique. Ce qui rend cette base de données unique est qu'elle est curée par des experts qui se basent sur la littérature scientifique expérimentale, contenant ainsi des données de très grande qualité. Ici, les voies métaboliques sont plus courtes que dans KEGG, car définies uniquement pour le (ou les) organismes où elles ont été observées. De plus, depuis peu, MetaCyc offre désormais la possibilité de voir l'"Atom Mapping", qui permet de suivre plus facilement la transformation des éléments chimiques lors des réactions, via un code couleur ou une numérotation d'atomes. Pour finir, je ne peux pas parler de MetaCyc sans mentionner le superbe outil développé par la même équipe et qui y est étroitement lié, Pathway Tools, un outil de production de réseaux métaboliques à partir d'un génome annoté, dont l'utilisation dans le contexte est décrite dans un article de ce blog. Les réactions de MetaCyc sont équilibrées au niveau des charges et des masses et ont une protonation au pH 7.3.

MetaCyc en chiffres :

  • nombre de voies métaboliques : 1928
  • nombre de réactions : 10481
  • nombre d'enzymes : 8426
  • nombre de gènes : 8317
  • nombre de composants chimiques : 10157
  • nombre de d'organismes : 2362

MetaCyc possède beaucoup de petites soeurs, des bases de données très spécifiées, dédiées à des organismes particuliers. Ces bases de données font partie de la collection de bases de données BioCyc. La plus connue d'entre-elles est sans doute EcoCyc, sur Escherichia coli K12 .

 

BRENDABrenda

BRENDA est la principale base de données contenant des informations biochimiques relatives aux activités enzymatiques, qui  y sont classifiées uniquement par EC numbers (ce qui, au vu du nombre réel de réactions connues par rapport au nombre existant d'EC numbers est dommage, car du coup, environ 50% des activités enzymatiques n'y sont pas décrites...). C'est une ressource d'informations très riche en ce qui concerne les propriétés biochimiques des enzymes, et contient aussi des données introuvables ailleurs, comme la liste la plus complète d'organismes dans lesquels les activités enzymatiques ont été expérimentalement observées. Les experts de BRENDA essayent de compenser les limitations de la classification EC en attribuant aux activités enzymatiques bien décrites, mais sans EC number, un EC number provisoire, contenant un 'B' au niveau du quatrième digit. De mon point de vue, strictement personnel, cette base de données est assez mal organisée, on s'y retrouve assez facilement manuellement, mais elle est difficilement exploitable si on veut automatiser des choses dessus.

BRENDA en chiffres :

  • nombre d'activités enzymatiques : 5859
  • nombre d'organismes : 17788
  • nombre de protéines : 2811325

 

RHEA rhea

Base de données de réactions créée, à l'image d'ExPaSy et d'IntEnz par une collaboration entre le SIB et l'EBI. C'est une ressource curée manuellement, contenant des réactions décrites en utilisant les espèces chimiques de ChEBI. Les réactions de RHEA sont équilibrées au niveau des charges et des masses et ont une protonation au pH 7.3, comme dans MetaCyc. Elles sont aussi très bien cross-référencées avec d'autres grandes ressources métaboliques, dont celles décrites plus haut et vers les ressources bibliographiques.

RHEA en chiffres :

  • nombre de réactions : 21431
  • nombre de composés chimiques : 4526

 

Autres bases de données intéressantes, plus spécialisées, qui n'ont pas été présentées :

  • AmiGO : molecular functions  une classification des activités enzymatiques selon Gene Ontology. Très eucaryote.
  • SFLD : très bien curée, mais ne contient pas assez d’éléments pour figurer dans la liste principale
  • WikiPathways : une plateforme publique d'annotation de voies métaboliques, que j'étais particulièrement contente de découvrir (merci Guillaume Collet 🙂 ). Très peu de voies métaboliques bactériennes y sont présentes.
  • CAZy : référence les enzymes agissant sur les carbohydrates
  • MEROPS : base de données sur les peptidases
  • REBASE : base de données d'enzymes de restriction
  • ESTHER : base de données dédiée à l'étude d'estherases et d'alpha/beta hydrolases
  • PeroxiBase : base de données sur les peroxydases
  • KinBase : base de données sur les kinases

Un grand merci à Estel et Guillaume Collet pour la relecture, et aux admins pour leur patience et gentillesse!

  • À propos de
  • Actuellement postdoc en bioinformatique au CECAD (http://cellnet.cecad.uni-koeln.de) à Cologne (Allemagne). J'ai fait ma thèse en bioinformatique à l'Université Paris-Saclay, au Genoscope (http://www.genoscope.cns.fr/agc/blog/microscope/), après avoir fait le master BIBS à l'Université Paris-Sud sur le campus d'Orsay. Ma spécialité principale est l'analyse du métabolisme et de tout ce qui y touche (réseaux métaboliques, activités enzymatiques, structure des métabolites).

2 commentaires sur “Un tour d'horizon des bases de données consacrées au métabolisme

  1. Intéressant, merci. Les lecteurs seront peut-être intéressés par cet article récent sur la mise à jour du réseau métabolique humain obtenu par prédictions.

    http://www.nature.com/nbt/journal/vaop/ncurrent/full/nbt.2488.html

  2. Il y a quelques semaines déjà est !enfin! paru un article comparant d\'une façon très exhaustive KEGG et MetaCyc : http://www.biomedcentral.com/1471-2105/14/112/abstract

    La critique qui peut être faite est que cette étude a été menée par le même labo qui maintient MetaCyc, mais personnellement je trouve qu\'ils sont très impartiaux.

Laisser un commentaire