Journal Club :
Comment détecter, compiler et annoter des facteurs de transcription ?

Travis Jon Allison (CC-by-NC-SA)

Après la réunion de rentrée de tous les contributeurs du blog, nous avons décidé d'étendre la rubrique "Journal Club". Ainsi, il est désormais non seulement possible mais aussi fortement recommandé de proposer des billets discutant d'un article en particulier. Nous inaugurons cette extension avec un sujet passionnant : la détection de facteurs de transcription. Bonne lecture 🙂

Ce billet résume un article de revue rédigé sous forme de tutoriel et publié récemment en tant que protocole dans Gene Regulatory Networks : "How do you find transcription factors? Computational approaches to compile and annotate repertoires of regulators for any genome". Le choix de cet article a été motivé par sa forme originale. Il s'agit d'un article à visée clairement pédagogique qui explique point par point comment procéder. Ce billet n'en est qu'un condensé. Je vous invite à lire l'article original si cette mise en bouche vous a plu.

Plus spécifiquement, cet article vous propose un protocole permettant de créer un répertoire de facteurs de transcription pour un génome donné (Eucaryote ou Procaryote). Le but d'une telle étude est de mettre en avant l’existence de facteurs qui n'auraient pas encore été identifiés en se basant sur la recherche de gènes ayant des domaines communs avec les familles de facteurs de transcriptions déjà connus.

La régulation de la transcription est un des mécanismes fondamentaux qui contrôlent la quantité de protéines produites par la cellule. Cette régulation diffère selon les conditions environnementales et le stade de développement de l'organisme. Un vaste panel de protéines parmi lesquelles les ARN polymérases, les histones, les modificateurs d'histones, les facteurs de transcription et les co-facteurs, est impliqué dans le maintient de la précision et de la spécificité du processus de régulation.

Rôle des facteurs de transcription dans la régulation de l'expression génique (Philippe Hupé, CC-by-SA)

Les facteurs de transcription (ou TF, pour Transcription Factor) sont des protéines de liaison à l'ADN qui influent directement sur l'expression de gènes en se liant spécifiquement à des séquences régulatrices que l'on appelle promoteurs. La liaison d'un TF sur un promoteur permet soit d'initier la transcription du gène qu'il régule soit, au contraire, d'empêcher son initiation.

Cet article décrit une des stratégies possibles pour identifier un répertoire de facteurs de transcription et pour annoter de nouveaux gènes codant pour un TF, quelque soit l'organisme étudié.

Identification d'un répertoire de facteurs de transcription

Kasaa(CC by-nc)

Les gènes qui codent potentiellement pour un facteur de transcription peuvent être détectés par différentes approches informatiques. La méthode la plus répandue est d'utiliser un algorithme d'alignement de séquences par paire tel que BLAST pour identifier des séquences homologues à des facteurs de transcription connus. Une approche plus précise consiste à chercher des gènes contenant des domaines de liaison à l'ADN connus en utilisant des méthodes basées sur la recherche de motifs comme InterProScan, HMMER et PSI-BLAST. Des outils tels que InterPro, Pfam et SUPERFAMILY permettent d'obtenir des modèles de conservation décrivant des groupes de domaines ou de régions dont la séquence protéique est conservée.

Voici étape par étape le protocole pour identifier le répertoire de facteurs de transcription pour un génome donné :

  1. Télécharger une liste de domaines de liaison à l'ADN (par exemple sur le site du MRC-LMB) ;
  2. Télécharger et installer l'API InterProScan ;
  3. Télécharger un jeu de données de référence des protéines de l'organisme qui vous intéresse sur UniProt ;
  4. Lancer InterProScan sur le set de protéines en laissant les paramètres par défaut ;
  5. Examiner le résultat et filtrer les protéines en gardant celles qui match avec un des domaines de liaison à l'ADN (cf. 1.).

Évaluer la couverture du répertoire

OliBac(cc by)

Une fois que vous avez identifié les facteurs de transcription, il est recommandé d'évaluer votre répertoire en le comparant à d'autres jeux de données connus pour jauger de sa couverture. La première approche consiste à comparer avec un jeu de données de référence constitué de gènes annotés comme facteurs de transcription dans la base de données Gene Ontology (GO, annotation "molecular function"). Notez bien que ce jeu de données ne constitue pas un gold standard, d'autant plus que votre but est d'améliorer la liste des facteurs de transcription connus. Cette comparaison permet cependant de vérifier la qualité de votre répertoire en vérifiant que les facteurs de transcription du jeu de données de référence sont bien inclus dans votre répertoire.

Attribuer des fonctions de régulation aux facteurs de transcription

JogiBaer2 (CC-By)

Il est possible de déterminer les processus cellulaires et biologiques connus pour être régulés par votre répertoire en utilisant des ressources comme GO, Entrez ou PubMed. Pour attribuer les fonctions régulatrices à votre répertoire, voici le protocole à suivre :

  1. Extraire les annotations GO (catégorie "biological process") de votre répertoire. Il est possible de restreindre les annotations selon si elles sont expérimentales ou inférées automatiquement ;
  2. Soumettre le répertoire de facteurs de transcription sur le site g:Profiler pour déterminer les processus biologiques qui sont significativement enrichis ;
  3. Éventuellement, rechercher sur PubMed la fonction des TF de votre répertoire0

À ce stade, vous avez une liste de facteurs de transcription dont certains sont potentiellement inconnus ; vous savez également (pour la plupart) quelles sont les fonctions qu'ils régulent. La prochaine étape consiste donc à les classer.

Classification structurelle des facteurs de transcription

Les facteurs de transcription sont couramment classés en fonction de leur domaine de liaison à l'ADN. Cette classification permet de retracer l'origine des familles de facteurs au cours de l'évolution et de comprendre comment ils reconnaissent et se lient aux séquences d'ADN. De plus, l'identité même du domaine de liaison donne des indications sur la fonction régulatrice du TF.

Mesurer l'expression des gènes codant pour les facteurs de transcription

Kat Masback (CC-by-SA)

Les jeux de données à grande échelle sur l'expression génétique tels que ceux issus de puces à ADN ou de RNA-seq permettent de déterminer des profils d'activité des facteurs de transcription en fonction des types de cellules et des différentes conditions. Il est possible de déduire deux types d'information de ces données :

  • l'expression d'un facteur de transcription dans des circonstances spécifiques renseigne sur sa fonction en tant que régulateur de cette condition ;
  • l'expression globale du répertoire de facteurs de transcription devrait révéler l'organisation du système de régulation.

En analysant ces données, il ne faut pas perdre de vue que beaucoup de ces facteurs sont régulés de manière post-transcriptionnelle à travers des modifications covalentes, des relocalisations cellulaires ou bien des oligomérisations. Dans ce cas, leur expression n'est en aucun cas indicatrice de leur activité. De plus, chez les Eucaryotes, la plupart des facteurs de transcription se combinent à d'autres régulateurs pour être actifs. La connaissance de ces combinaisons est donc indispensable pour comprendre l'activité d'un facteur de transcription et peut constituer une difficulté pour identifier le rôle d'un nouveau facteur.

Conclusion

La régulation de la transcription, que ce soit chez les Eucaryotes ou chez les Procaryotes, est un processus complexe et constitue un sujet de recherche hautement attractif pour la compréhension des fonctions cellulaires. L'étude des facteurs de transcription combinée aux données d'expression génétique permet d'appréhender les mécanismes de régulations et constitue un point de départ à d'autres analyses plus poussées, soit sur les facteurs de transcription eux-mêmes, soit sur des réseaux de régulations génétiques particuliers.

---

Sources:

http://www.springerlink.com/content/p876215825772g20

http://atlasgeneticsoncology.org/Educ/TFactorsFr.html

Remerciements:

Je remercie Estel, Malicia et Clem_ pour la relecture et les commentaires constructifs. Merci également à Juanma Vaquerizas, premier auteur de l'article que je vous ai présenté, et avec qui j'ai partagé mon bureau quelques mois lors d'un stage à l'EBI.

  • À propos de
  • Passionnée d'informatique, de logiciels libres, de graphisme, touche à tout, curieuse et têtue comme une bretonne.

    Diplomée d'une licence de biologie cellulaire et moléculaire et du master de bioinformatique de Rennes; précédemment stagiaire longue durée à l'EMBL-EBI à Cambridge UK puis ingénieur d'étude au laboratoire d'informatique médicale de Rennes et actuellement doctorante en biologie/bioinformatique à l'université de Genève.

Un commentaire sur “Comment détecter, compiler et annoter des facteurs de transcription ?

  1. Hello,

    Super article! Merci pour ces références. le livre Springer à l\'air excellent.

    A bientôt!

    jsobel

Laisser un commentaire