Astuce :
L'annotation de régions génomiques et les analyses d’enrichissement

1920px-Gas_centrifuge_cascade

Non il ne s'agit pas d'enrichissement d'uranium ! (U.S. Department of Energy, Domaine Public)

Les annotations sont essentielles lors d'analyses fonctionnelles à large échelle sur le génome. 

Lorsque l’on pratique des analyses en génomique, basées sur des techniques comme le RNA-seq ou le ChIP-seq, on se retrouve avec respectivement une liste de transcrits ou de pics (régions génomiques). Dans le cas des analyses ChIP-seq, on souhaite caractériser les gènes cibles du facteur de transcription étudié sur tout le génome (genome-wide), pour comprendre la fonction biologique de ce facteur. Dans le cas du RNA-seq, on obtient une liste de transcrits différentiellement exprimés dont on souhaite caractériser la fonction.

Dans cet article nous allons utiliser plusieurs librairies R pour automatiser cette analyse, à partir d’un fichier .bed (voir article Bed & Fasta), ou d’une liste de transcripts Ensembl.

Pour commencer, nous allons utiliser des sites de ChIP-seq du récepteur aux glucocorticoïdes GR (Grøntved L, John S, Baek S, Liu Y et al. , EMBO J 2013, GSE46047). GR est un récepteur nucléaire important impliqué dans la gluconéogenèse, la glycolyse, le métabolisme des acides gras et la réponse immunitaire et inflammatoire. Nous allons annoter les pics de GR avec les gènes les plus proches sur le génome de la souris (mm9) à l’aide de la librairie ChIPpeakanno.

Ensuite, nous allons voir comment convertir des identifiants Ensembl en symboles de gènes à l’aide de la librairie BiomaRt. Enfin, nous allons faire une analyse d’enrichissement d’annotations à l’aide de la librairie RDAVIDWebServiceDAVID est un très bon site d’analyse d’annotations qui permet de travailler avec différentes sources comme les ontologies de gènes (GO terms), que nous avions introduites dans un article précédent et les voies de signalisations entre autres. La base de données de l’outil DAVID permet de faire des requêtes sur 82 sources, dont notamment REACTOMEKEGG et PANTHER, qui sont maintenues par des biocurateurs.

DAVID vous permet d’utiliser son interface web via son site, ou des services web (accès programmatique). D’autres applications web permettent de travailler directement avec des fichiers .bed, comme l’excellent outil GREAT du laboratoire Bejerano de Stanford.

Un peu de code R: mise en place de l'environnement de travail 

Vous pouvez télécharger les données et le script ici.

Dans un premier temps il faut installer les librairies nécessaires pour l’analyse avec les commandes R suivantes :

Dans un deuxième temps, nous devons importer les données des pics de GR au format .bed

Nous pouvons utiliser biomaRt pour obtenir les sites d’initiation de la transcription (TSS). Nous utilisons les données de Ensembl NCBIM37 pour l’assemblage du génome “mm9”.

Comment annoter des pics de GR sur le génome avec les gènes les plus proches ?

Grâce aux commandes ci-dessus nous pouvons obtenir une table ayant la structure suivante :

Le champ « seqnames » représente le chromosome , les champs « start » et « end » représentent les coordonnées génomiques des pics de GR. Ces pics sont annotés avec le TSS du gène Ensembl le plus proche en indiquant la distance et le chevauchement (overlap).

Comment faire des requêtes sur Biomart pour convertir des identifiants Ensembl en symboles de gènes ?

En regardant à nouveau la table, on voit que les symboles des gènes sont à présent affichés sur la dernière colonne. Pour travailler avec les identifiants des transcrits et non des gènes, il faut simplement utiliser "ensembl_transcript_id".

Comment faire une analyse d’enrichissement grâce à DAVID ? Et qu'est-ce qu’une analyse d’enrichissement ?

Les analyses d’enrichissement d’annotations ont pour but de calculer une probabilité : sachant qu’un groupe de gènes est annoté avec un terme spécifique de KEGG_PATHWAY, quelle est la probabilité que la totalité ou une fraction de ces gènes soit dans le groupe des cibles de GR (dans ce cas). David utilise le test hyper géométrique pour calculer cette valeur p.

On peut faire une analyse d'enrichissement à partir de n'importe quelle liste de transcrits provenant soit de RNA-seq soit de pics de ChIP annotés avec les gènes les plus proches (comme ci-dessus).

Vous devez d’abord vous inscrire sur le site de DAVID pour utiliser le service web.
Puis vous pouvez vous connecter :

Vous pouvez accéder à la liste des annotations disponibles avec la commande:

Lorsque vous avez choisi les annotations utiles (une ou plusieurs) pour votre analyse (dans ce cas KEGG_PATHWAY), vous pouvez utiliser le code suivant :

Vous pouvez également ajouter une liste de gènes en arrière plan (avec listType="Background") pour améliorer votre analyse, en ne considérant que les gènes exprimés dans un tissus précis (par exemple).

Le service web de DAVID va vous envoyer une table contenant dans chaque ligne les annotations triées par la P-valeur, avec différentes métriques (FDR, Bonferroni) et les identifiants Ensembl.

On peut enfin visualiser l’analyse à l’aide d’un bar plot.

Screenshot 2015-04-07 20.51.41

On constate sur ce graphique que, parmi les annotations enrichies, on retrouve une majorité de fonctions, décrites dans la littérature, des récepteurs aux glucocorticoïdes (GR). Nous voyons par exemple que les adipocytokines (inflammation) et les récepteurs des cellules T (réponse immunitaire) sont parmi les cibles les plus importantes de GR.

En conclusion, nous avons un joli script qui permet d' automatiser des requêtes sur DAVID à partir d’un fichier de régions génomiques au format .bed. D’autres packages R offrent la possibilité de faire des analyses similaires comme topGO ou encore GAGE. N’hésitez pas à les tester. Donnez-nous votre avis sur les outils que vous connaissez !

Merci aux relecteurs: Yoann M, ook4mi, NiGoPol, muraveill, Zazo0o et Estel

  • À propos de
  • Doctorant à l’école polytechnique de Lausanne (EPFL) dans le laboratoire de biologie computationnelle des systèmes. Je travaille sur le rythme circadien dans le foie de souris en utilisant des données de séquençage de nouvelle génération (CHiP-seq, RNA-seq, etc). J’aime la bioinformatique, les arts martiaux et la guitare.

Laisser un commentaire