N'importe quel bioinformaticien, débutant ou confirmé, s'est confronté au moins une fois dans sa vie à ce problème : l'annotation d'une séquence. Vous me direz, faciiiiiile ! Il y a désormais des tonnes d'outils qui permettent, très rapidement en plus, de trouver une fonction pour une séquence ! Alors, déjà, il y a BLAST, InterPro, Pfam, PRIAM, HMMER, … et bien d'autres ! Puis il y a tellement de séquences déjà annotées dans des bases de données manuellement curées comme SwissProt que l'annotation fonctionnelle n'est plus vraiment un problème !
Bon, vous vous doutez bien que si on écrit un article sur l'annotation fonctionnelle sur ce blog, c'est que tout n'est pas aussi simple. Aujourd'hui je ne parlerai pas des différents outils d'annotation fonctionnelle des protéines, bien que ce soit un sujet très intéressant. Je ne ferai que mentionner la très grande proportion de protéines annotées comme "uncharacterized", "putative" ou "protein of unknown function" dans UniProt (pour info, plus de 40% de protéines dans cette base de données sont annotées avec un de ces trois termes !). Même, j'outrepasserai le fait qu'un nombre difficilement estimable de protéines sont mal annotées : une étude de 2009 combinant des méthodes bioinformatiques et expérimentales a montré que dans les familles de protéines étudiées, l'annotation de 5 à 63% de ses membres était fausse.
Non, aujourd'hui j'ai prévu de parler d'un problème auquel on ne pense pas suffisamment souvent, surtout en tant que bioinformaticien — la promiscuité enzymatique, ainsi que des problèmes que ça pose pour l'annotation fonctionnelle, et les pistes à envisager pour réduire les dégâts.
Petit aparté introductif pour rappeler quelques définitions
Une enzyme (on peut aussi dire "un" enzyme, les deux sont corrects et validés par l'Académie Française) est une protéine qui est capable de catalyser (c'est à dire d'accélérer, voire, de rendre possible dans les conditions cellulaires) des réactions biochimiques. Ces réactions permettent de transformer des métabolites (petites molécules chimiques) en d'autres métabolites, plus intéressants pour le bon fonctionnement de la cellule. Une activité enzymatique est la réaction qu'une enzyme est capable de catalyser ainsi que la façon mécanistique de le faire.
La promiscuité enzymatique — kézako ?
Les enzymes sont connues pour être des catalyseurs extrêmement spécifiques. Pourtant, l’idée que beaucoup d’enzymes sont capables de catalyser d’autres réactions et/ou de transformer d’autres substrats en plus de ceux pour lesquels elles se sont spécialisées au cours de l’évolution n’est pas nouvelle. Ces enzymes, qui ne font pas que ce qu’on attend d’elles, sont appelées enzymes promiscuitaires (des espèces d'enzymes stakhanovistes, qui ne font pas uniquement la tâche attendue, ces petites malines !). Une des premières publications sur une enzyme promiscuitaire date de 1921 et décrit la pyruvate décarboxylase pour sa capacité à former des liaisons carbone-carbone entre de nombreuses molécules. Une des grandes hypothèses actuelles propose que les activités enzymatiques promiscuitaires servent de point de départ pour l’évolution des organismes et de leur métabolisme.
Sont décrits actuellement trois types majeurs de promiscuité :
- substrat : l'enzyme est capable de catalyser le même type de transformation chimique sur plusieurs substrats différents
- réaction : l'enzyme est capable de catalyser plusieurs types de réactions sur un ou plusieurs substrats différents
- condition : remarquée chez des protéines dont la fonction peut varier considérablement suivant les conditions physico-chimiques (variation de température, pH, salinité, ou présence/absence de certaines molécules dans le milieu). Ces enzymes promiscuitaires de condition sont souvent (mais pas toujours!) appelées "moonlighting enzymes" (ou enzymes "lunatiques" chez les frenchies).
Pour nous, ça voudra dire qu'une enzyme (sous la forme d'une séquence protéique) devra être annotée avec plus d'une fonction (là, il y a une diversité de possibilités, annotations textuelles, EC numbers, termes GO pour ne citer que ceux-là).
Nous avons désormais de plus en plus d'indices indiquant que la grande majorité, sinon toutes les enzymes sont promiscuitaires d'une façon ou d'une autre. Et c'est là que les choses se compliquent ! Car oui, dans un monde idéal, il faudrait arriver à associer toutes les réactions qu'une enzyme est capable de catalyser à sa séquence, et mettre tout ça dans les bases de données publiques, à disposition de la communauté scientifique.
Le potentiel promiscuitaire des enzymes entraîne l’évolution de nouvelles fonctions enzymatiques au sein de superfamilles structurales et par conséquence, l’émergence de nouvelles familles ou superfamilles d’enzymes. Chez les organismes procaryotes notamment, leur style de vie pousse les enzymes à être promiscuitaires, cette plasticité catalytique favorisant grandement la survie en cas de changement brutal de l’environnement.
Ça sonne super bien tout ça… mais au final, en quoi la promiscuité enzymatique est problématique ?
Les enzymes nous trollent
Le problème principal de la promiscuité enzymatique est la difficulté, voire, l'impossibilité, de connaître toutes les capacités catalytiques d'une enzyme donnée, dans toutes les conditions imaginables. Vu que nous avons appris dès les bancs du lycée qu'une enzyme est une protéine hyper spécialisée pour un métabolite donné (principe clé-serrure, rappelez-vous !), une fois qu'une activité enzymatique a été associée à une séquence protéique, on a tendance à la laisser tranquille et passer à la suivante.
Ceci crée bien sûr des lacunes dans les connaissances sur le monde vivant, que la communauté scientifique cherche quotidiennement à combler. Et ces lacunes entraînent un certain nombre de problèmes plus pratiques, en plus du côté noble de la recherche de la compréhension du monde qui nous entoure. Je ne vais pas prétendre citer ici tous les problèmes que ceci peut engendrer, mais je vais essayer de vous donner une idée.
Tout d'abord, ne pas connaître tout le potentiel des enzymes crée automatiquement une incomplétion dans la reconstruction des réseaux métaboliques à partir de génomes entiers. Et donc, en plus des problèmes que ça peut entraîner du point de vue calculatoire, cette incomplétion ne permet pas d'identifier toutes les capacités métaboliques de l'organisme, et donc de l'utiliser à bon escient (ce bon escient pouvant être l'industrie agro-alimentaire, la pharmaceutique et la médecine, la bio-dépollution, et bien d'autres).
Le fait de ne pas connaître tout le potentiel des enzymes dans un organisme empêche parfois d'identifier les "backup enzymes" (pour les anglophobes, je ne sais pas traduire ce terme dans ce contexte, désolée — vos propositions de traduction sont les bienvenues 🙂 — et le terme "enzymes de sauvegarde" ne représente pas tout à fait la réalité). Une enzyme de backup est une enzyme qui est capable d'assumer le rôle d'une autre (il s'agit souvent d'un rôle essentiel) dans le cas où une de ses consœurs est mutée ou son gène est rendu non-fonctionnel. Ceci peut poser des problèmes dans les expériences où on supprime un ou plusieurs gènes pour comprendre leur fonctionnement et leur importance dans l'organisme, et peut conduire à de fausses conclusions quand à la fonction principale de ceux-là.
La promiscuité enzymatique pose aussi problème dans le domaine de l'annotation fonctionnelle de nouvelles séquences par transfert d'annotation (la façon la plus répandue et la plus rapide d'annoter en fait!) car cela entraîne automatiquement la propagation de l'incomplétion (et/ou de la misannotation) au niveau des annotations. Donc on se retrouve avec des séquences enzymatiques de plus en plus nombreuses et de moins en moins bien annotées. Et ça, c'est embêtant.
Dernier cas que je vais évoquer ici, celui des activités enzymatiques orphelines de séquences (appelées "enzymes orphelines" pour faire plus court). Dans cette problématique assez complexe en soi, les enzymes promiscuitaires peuvent aussi jouer un rôle important. Les enzymes orphelines sont des activités enzymatiques que l'on connaît, on sait qu'elles sont présentes dans l'organisme, mais on ne sait pas du tout (mais du tout, même avec des transferts d'annotation) quelle enzyme effectue cette activité (oui, ça existe, et ce phénomène concerne plus de 20% des activités enzymatiques classées par la nomenclature de la Commission Enzymatique). Ces activités orphelines pourraient se cacher en fait parmi les capacités inconnues des enzymes promiscuitaires.
Comment révéler tout le potentiel d'une enzyme ?
Alors comment résoudre le problème posé par la promiscuité enzymatique ? Peut-on vraiment mettre la main sur tout ce qu'une enzyme est capable de faire ? Voici quelques solutions possibles !
La promiscuité enzymatique, ainsi que le potentiel "d'évolvabilité" promiscuitaire des enzymes, peuvent être prédits avec des méthodes chémoinformatiques et statistiques (quelques liens à la fin de cet article) qui combinent à la fois structure des protéines et structure des métabolites.
On peut aussi essayer de prédire qu'une enzyme est capable de catalyser la même réaction sur des composés chimiques de structure similaire à son métabolite préféré/connu. Dans ce cas, les outils de prédiction de similarité de structure moléculaire (indice de Tanimoto, bien sûr, mais aussi des méthodes chémoinformatiques plus avancées) sont d'une très grande utilité.
On peut aussi envisager de faire du "docking" (amarrage) moléculaire à haut débit. Il s'agit d'une technique de modélisation 3D des enzymes où on essaye de faire "rentrer" dans la poche catalytique divers métabolites. S'il y a une configuration possible pour que le métabolite puisse rentrer dans la poche, celui-là sera un bon candidat pour être catalysé par l'enzyme.
On peut aussi essayer de faire de l'intégration de données issues de multiples bases de données publiques afin de croiser les informations et voir s'il y a des divergences entre ces différentes sources pour compléter les informations sur l'enzyme en question. Mais comme les très grandes bases de données biologiques communiquent entre elles (ce qui est très très bien d'ailleurs !), il faut souvent aller rechercher ces informations dans de petites bases de données assez spécialisées, et le croisement de données dans ce cas peut devenir complexe à cause des éventuelles différences d'identification des enzymes ou de la sémantique utilisée.
Je voudrais aussi mentionner l'Enzyme Function Initiative (EFI pour les intimes) qui est une grande collaboration entre plein de labo pour proposer des outils qui permettent d'améliorer la prédiction de la fonction des enzymes appartenant à une même famille de protéines en fonction de leur voisinage génomique et métabolique.
Cependant, la meilleure solution reste, comme très souvent en sciences de la vie, l'expérimentation. À mon avis (qui est un avis personnel, hein!), la meilleure technologie reste pour l'instant le screening enzymatique à haut débit. Il s'agit de tester la catalyse ou non de beaucoup de métabolites différents pour chaque enzyme. Les résultats sont souvent assez surprenants, car on découvre vraiment un tout nouveau potentiel catalytique pour les enzymes analysées, mais il ne faut pas non plus oublier qu'il s'agit d'expériences in vitro sur des enzymes purifiées, donc dans des conditions pas très naturelles…
Est-ce que un jour on connaîtra le potentiel catalytique complet de toutes les enzymes ? La question reste ouverte, mais j'espère bien que oui, cela facilitera bien la vie aux bioinformaticiens qui travaillent sur le métabolisme et tous les autres ! 😀
Un peu de littérature sur le sujet :
Généraliste :
Recent advances in enzyme promiscuity
Méthodes :
Molecular signatures-based prediction of enzyme promiscuity
Enzyme assays for high-throughput screening
Un grand merci à Akira, HedJour et Nico M. pour leurs corrections, discussion, patience et la tentative de me faire franciser les termes scientifiques !
Laisser un commentaire