Quelques pistes pour contrôler vos données de ChIP-seq

7 mai 2014

-

par

Le ChIP-seq est une méthode aujourd'hui répandue qui consiste à cibler une partie du génome grâce à une protéine et à séquencer uniquement les parties du génome auxquelles celle-ci s'est fixée. On la capture ensuite avec un anticorps spécifique et on séquence uniquement l'ADN qu'elle protégeait (voir notre article : DNase-seq, FAIRE-seq, ChIP-seq, trois outils d'analyse de la régulation de l'expression des gènes ). La technique a été adaptée à de nombreuses sources d'intérêt (facteur de transcription, nucléosome, ARN polymérase…), mais l'objectif reste toujours le même, établir une carte du génome marquant les zones où la protéine s'est fixée. Finalement avec cette carte on peut par exemple chercher un motif de fixation (voir notre article : Soirée BED & FASTA ! ) ou encore chercher si les gènes marqués appartiennent à une famille particulière.

ADN légo par mknowels (https://www.flickr.com/photos/mknowles/) — ADN légo par mknowels

Dans cet article je vais détailler certaines étapes de la préparation des données de ChIP-seq, ce que vous pouvez faire une fois que vous avez reçu vos données au format fastq (voir notre article : Analyse des données de séquençage à ARN). Le "protocole" ici détaillé est très fortement inspiré des articles cités en bas de page, je vous conseille donc de les consulter si vous ne craignez pas la langue de Shakespeare. Vous pouvez également consulter notre article, très complet, sur le traitement des données de RNA-seq, qui vous donnera de très bons conseils pour la préparation et l'analyse de vos données. Même si RNA-seq et ChIP-seq sont différents, certaines étapes de leur préparation sont similaires.

Avant même d'avoir vos données, sachez que pour une expérience de ChIP-seq il est indispensable d'avoir un échantillon contrôle, cela peut être un séquençage sans immunoprécipitation ou avec un anticorps non spécifique, qui ne ciblera rien sur votre génome. Ces données vous serviront à déterminer le bruit de fond de votre séquençage. Il est également très très fortement conseillé de faire des réplicats biologiques, ils serviront à déterminer les similitudes et la reproductibilité des informations trouvées.
Après alignement sur le génome de référence des données de ChIP-seq, on recherche des pics (voir le paragraphe 'Recherche de pics') formés par l'accumulation de séquences aux endroits où la protéine s'est fixée, mais on séquence également d'autres parties du génome, c'est le bruit de fond. Le contrôle et les réplicats vous serviront à séparer le vrai du faux.

Contrôle qualité du séquençage

Le séquençage à haut débit n'est pas une technique parfaite et certaines erreurs sont connues. On sait par exemple que la fin des séquences produites par la machine sont souvent de moins bonne qualité que le début. Pour vérifier que tout c'est bien passé, voici quelques tests que vous pouvez effectuer.

La première information que l'on peut vérifier est simplement si le nombre de lectures (séquences obtenues par séquençage à haut débit) est suffisant pour l'analyse. Les données de ChIP-seq peuvent être divisées en trois catégories en fonction de la forme de leurs pics :
- Pics fins, peu étendus et qui pourront être réduits à une position précise sur le génome. On obtient ce genre de pic en étudiant les facteurs de transcription et certaines marques de chromatine.
- Pics larges/étendus, ici c'est une zone enrichie en séquences plus qu'une position qui sera marquée. On obtient ces pics avec certaines marques de chromatine et l'étude de RNA Pol II par exemple.
- Pics mixtes, un mélange des deux premiers, les pics fins trouvés appartenant à des zones plus larges enrichies en séquences.

Du type de pics produit par vos données, dépend la quantité de lectures qu'il vous faudra. Pour un génome de mammifère, il est conseillé d'avoir 20 millions de lectures pour la recherche de pics fins et entre 40 et 60 millions de lectures pour les pics étendus (20-30 millions par réplicats).

Dans le même temps vous pouvez contrôler la qualité de vos séquences (score phred) et la distribution des nucléotides. Un déséquilibre dans la distribution des nucléotides dans un échantillon est souvent le signe d'un problème de séquençage, par exemple si la machine a produit des erreurs ou alors si vous avez séquencé des adaptateurs ou autres séquences qui ne vous intéressent pas. Il existe des logiciels qui feront ces contrôles pour vous et produiront également des graphiques pour faciliter la lecture des résultats (e.g FASTX-toolkit).

Une autre information que vous pouvez vérifier c'est la présence de séquences dupliquées. Le séquençage de vos données va probablement produire des séquences identiques, mais il ne faut pas que celles-ci soient trop abondantes, avec un petit peu de code bash et awk vous pourrez compter la proportion des séquences répétées et détecter une contamination par des adaptateurs ou autres (voir le "Nature protocol" en lien à la fin de l'article).

En fonction de la qualité de votre séquençage, il peut être utile de retirer une partie des lectures si leur qualité est trop faible, ou encore de couper la fin des séquences si la qualité diminue drastiquement le long du séquençage, avec le logiciel sickle par exemple. Quoi qu'il en soit il est conseillé de garder une taille unique pour les lectures, car deux séquences de tailles différentes n'ont pas les mêmes propriétés d'alignements et cela va créer une variation supplémentaire dans votre échantillon.

Alignement

Maintenant que vous êtes sûr de la qualité de votre séquençage, vous pouvez passer à l'alignement (mapping) et à la recherche de pics (peak calling). L'alignement est une étape commune à toutes les données de séquençages, il s'agit simplement de chercher l'origine de votre séquence sur le génome. Le fichier obtenu vous indique la position de chaque lecture sur le génome et vous permet donc de savoir ce que vous avez séquencé. Vous trouverez plus d'informations sur notre site dans nos articles sur la préparation de données de RNA-seq et leur analyse. Personnellement j'utilise Bowtie2 pour mes données de ChIP-seq, mais il existe une multitude de mapper (BWA, GEM, STAR…) n'hésitez pas à donner vos préférences en commentaire.

Vos données sont maintenant alignées, il y a de grandes chances pour que vous ayez un fichier SAM ou BAM entre les mains. Si vous avez un SAM utilisez SAMtools pour changer de format et obtenir un BAM, il s'agit du même fichier mais en binaire, ça vous permet d'économiser beaucoup de place sur votre disque dur et la plupart des logiciels utilisent ce format. Cela dit en fonction des données et des logiciels que vous utiliserez, vous devrez peut-être également les convertir en fichier BED, utilisez BEDtools pour changer de format (celui-ci prend plus de place sur le disque).

Qualité de l'échantillon après alignement

Avoir des séquences de qualités et leurs positons sur le génome, c'est bien, mais ce n'est pas suffisant. Les données de ChIP-seq ont des propriétés particulières, principalement parce qu'on ne séquence qu'une partie infime de génome, celle marqué par notre protéine. Voici quelques tests pour vérifier que votre échantillon se comporte bien comme attendu :

- Après alignement des données sur le génome, vous pouvez vérifier le nombre de lectures qui s'alignent à une position unique sur le génome (au moins un tiers de vos séquences) et la proportion de ces lectures dont la séquence en nucléotide est unique (au moins 50%). Vous pouvez également calculer le score NRF (Non-Redundant Fraction) = (Nombre de lectures uniques)/(nombre de lectures alignées uniquement). Il est conseillé d'avoir un NRF supérieur ou égal à 0,8 pour un échantillon avec 10 millions de lectures.

- Le logiciel CHANCE calcule pour vous le score "IP strength". Il compare la distribution des lectures dans votre échantillon et votre contrôle à des données produites pour le projet ENCODE, le score vous indique le degré de réussite de votre ChIP-seq. CHANCE produit des graphiques pour une analyse visuelle des résultats. Attention cependant, comme ENCODE est un projet sur le génome Humain, le logiciel est moins/pas adapté aux autres organismes.

- Le logiciel phantompeakqualtools, permet de calculer une série de scores qui vous aideront à déterminer la qualité de votre expérience. Les scores NSC (Normalized Strand Correlation) et RSC (Relative Strand Correlation) sont expliqués en détails dans le papier ENCODE. Dans les grandes lignes, un pic de ChIP-seq est visible sur le brin plus et sur le brin moins, mais il existe un décalage entres ces 2 pics. Ce décalage est considéré comme la taille du fragment marqué par la protéine. Le logiciel calcule la corrélation entre les pics du brin plus et du brin moins, ce qui pour une expérience de ChIP-seq réussi produit deux pics, un marquant la taille des lectures et un la taille du fragment. Le NSC est le rapport entre le score de corrélation trouvé pour le fragment et le score minimum et RSC est le rapport entre le score de corrélation pour le fragment moins la corrélation minimum et le score pour la taille des lectures moins la corrélation minimum. Pour le projet ENCODE, les échantillons avec une qualité trop faible (i.e NCS<1,05 ou RSC<0,8) sont séquencés de nouveau.

Recherche de pics

La recherche de pics ou peak calling est l'étape essentielle de l'analyse de ChIP-seq. C'est ici que vous allez déterminer quelles positions du génome ont été marquées par votre expérience et la qualité de votre analyse dépend directement de ce résultat. Toute la difficulté réside dans le fait de pouvoir distinguer le bruit de fond des zones marquées par votre protéine. La présentation de cette étape mérite à elle seule un article, cependant, comme pour l'alignement je ne vais pas trop rentrer dans les détails.

Comme dit précédemment, il existe plusieurs types de données en ChIP-seq pour le peak calling sur les échantillons avec des pics fins et mixés MACS2 fonctionne très bien et SICER pour les échantillons avec des pics larges (Il existe beaucoup de logiciels, n'hésitez pas à parler de vos préférences dans les commentaires). Dans tout les cas il existe une série de valeurs que vous pouvez faire varier et qui influenceront le résultat final. Les deux logiciels sus-nommés utilisent une fenêtre pour parcourir le génome et déterminer les zones enrichies en lectures. Vous pouvez faire varier la taille de la fenêtre, des gaps (trous) autorisés à l’intérieur d'un pic, du shift (déplacement d'une lecture à l’intérieur de la fenêtre)… selon les valeurs données votre peak calling sera plus ou moins restrictif. La plupart des logiciels donnent un score aux pics trouvés, FDR (False Discovery Rate) ou p-value, en jouant avec ces valeurs vous pouvez passer de quelques centaines à plusieurs milliers de pics trouvés.
Comme ces logiciels utilisent une fenêtre, il est possible que deux pics soient fusionnés si ils sont trop proches. Il existe également quelques logiciels pour raffiner vos résultats et éventuellement séparer ces pics (PeakSplitter, GPS, polyaPeak, narrowPeaks).

Un premier score que vous pouvez calculer sur votre peak calling est le FRiP (Fraction of Reads in Peaks) : Il s'agit simplement de compter le nombre de lectures étant dans un pic. Le projet ENCODE recommande un FRiP de 1% au minimum, tout en précisant que cette valeur peut ne pas fonctionner pour certains échantillons, comme ceux avec très peu de sites ciblé sur le génome.

Reproductibilité de l'expérience

La comparaison entre échantillons peut bien sûr servir pour confronter deux conditions, mais également deux réplicats, afin de valider les pics trouvés. En effet comme il est difficile de séparer signal et bruit de fond, on utilise les réplicats pour valider les pics. Si un pic est présent et fort dans deux réplicats c'est certainement un bon signe. Pour faire cela on peut utiliser deux scores :

- PCC (Pearson Correlation Coefficient) : La couverture par des lectures de chaque position du génome est comparée entre deux échantillons, donnant au final un score de corrélation. Deux réplicats devraient avoir un score supérieur à 0,9 là où deux échantillons sans rapport auront un score de 0,3-0,4 (voir "Nature Protocol").

- IDR (Irreproducible Discovery Rate) : On classe les pics de deux échantillons sur leur valeur de FDR, p-value ou autres critères montrant la probabilité d'être un vrai pic. Si on compare deux réplicats, les pics les plus forts devraient être plus consistants que les pics faibles. Sur un graphe produit à partir des deux listes de pics, classées par FDR par exemple, et montrant la consistance entre les deux classements, on devrait voir une transition entre les pics avec un fort FDR (présent dans les deux réplicats) et les pics avec un faible FDR. Le logiciel phantompeakqualtools permet de calculer le score IDR qui indique pour chaque pic si il a plus de chance d’appartenir au groupe des pics reproductibles ou à celui des pics non reproductibles.

Pour aller plus loin :
ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia.
A computational pipeline for comparative ChIP-seq analyses.
Evaluation of Algorithm Performance in ChIP-Seq Peak Detection
Practical Guidelines for the Comprehensive Analysis ofChIP-seq Data

_________________
Cet article ne couvre que le pré-traitement des données de ChIP-seq, l'objectif ici est de vous indiquer quelques tests à faire pour vérifier la qualité de vos données et les logiciels qui permettent de produire certains d'entre eux. Pour l'analyse de vos données, je vous conseille de lire les articles mis en référence. Vous trouverez des détails sur les scores présentés, mais aussi d'autres informations sur la normalisation, la visualisation et sur les analyses possibles avec des données de ChIP-seq (Motif finding, comparaison entre différentes conditions…).

Merci aux relecteurs, ook4mi, bunny, nahoy et Nelly.

Partagez cet article

Akira

Après un stage à l'EMBL Heidelberg en 2010, où j'ai découvert le traitement des données de séquençage (NGS), j'ai travaillé 3 ans à Genève entre deux laboratoires du SIB. J'y ai principalement géré une grande quantité de données RNA-seq et mis en place plusieurs pipelines pour le traitement automatique de ces données. Depuis décembre 2013 je travaille à l'IGH Montpellier, notre groupe étudie les problèmes liés à la réplication dans les cellules tumorales.

Pour continuer la lecture :

Commentaires

Une réponse à “Quelques pistes pour contrôler vos données de ChIP-seq”

Nasser

10 mai 2014

Quel livre de bioinformatique me conseillez vous ? J'en veux un qui parle bien sûr du langage Python.

Répondre

Laisser un commentaireAnnuler la réponse.

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.