Une cellule eucaryote comporte un noyau qui contient l’information génétique portée par les chromosomes, eux même composés d’ADN. Chez l'Homme, l'ADN des chromosomes mis bouts à bouts mesure 1,9 mètre de long. Or, tout ce matériel génétique doit tenir dans le noyau des cellules, qui lui mesure 5 à 7 micromètres de diamètre (en moyenne chez l'Homme). Pour cela, l'ADN va être compacté à l'aide de protéines pour former la chromatine (Fig. 1). Cette compaction ne se fait pas au hasard. L’organisation spatiale de la chromatine dans le noyau, et en particulier les interactions entre différentes régions du génome, joue un rôle essentiel dans la régulation de la transcription.
Il existe de nombreuses méthodes permettant de déterminer la conformation tridimensionnelle de l’ADN (3C, 4C, 5C, Hi‑C…). Ces méthodes, couplées ou non à du séquençage haut débit, dérivent toute du même principe. L'état de l'ADN est d'abord spatialement figé, puis les régions très proches entre elles sont capturées, amplifiées, et lues. On obtient ainsi une carte des régions de l'ADN qui potentiellement interagissent entre elles.
Alors que le Hi‑C capture toutes les régions du génome qui sont à proximité les unes des autres, le 4C ne s'intéresse qu'à une seule région d'intérêt bien précise que l'on appelle viewpoint. Il permet de déterminer quelles sont les portions d'ADN qui sont proches de cette région d'intérêt.
Un des usages les plus classiques du 4C consiste à découvrir de nouvelles régions régulatrices de l'expression des gènes, comme les enhancers. Ces derniers sont de petites séquences (~700 paires de bases) qui se trouvent à des distances (linéaires) assez variables des gènes qu'ils régulent. Pour fonctionner, les enhancers distaux doivent se rapprocher du promoteur de leurs gènes cibles, et pour ce faire, ils forment des boucles. En choisissant le promoteur d'un gène comme région cible, il est possible avec le 4C de déterminer quelles régions de l'ADN se retrouvent à proximité de ce promoteur, et donc de constituer une liste de potentiels enhancers.
Le 4C seq a aussi été utilisé dans plusieurs autres types d'études [1], comme par exemple :
- L’inactivation du chromosome X [2]
- L’organisation des loci pour les récepteurs d’antigène [3]
- Le pattern des translocations [4]
- La corrélation de la régulation de la transcription [5]
Protocole Biologique
Principe du 4C
Comme dit plus haut, le principe du 4C est basé sur la fixation des régions de la chromatine spatialement proches avec communément du formaldéhyde. En clair, le formaldéhyde va figer la conformation 3D de l'ADN en créant des liaisons covalentes (cross-link) entre les protéines de la chromatine et l'ADN (Fig.2 A). Une fois les cellules fixées et lysées, on va fragmenter le génome par digestion à l'aide d'une première enzyme de restriction afin d'obtenir de petits fragments (entre 1 et 10 kilo-bases) (Fig.2 B). Ensuite vient une première étape de ligation in situ (Fig.2 C). Les fragments d'ADN digérés et toujours attachés entre eux par le cross-link vont se lier entre eux et ainsi ne former qu'un seul fragment constitué des deux régions d'ADN qui à l'origine étaient spatialement proches. Enfin, nos fragments hybrides sont libérés de leur cross-link et l'ADN purifié de toutes protéines (Fig.2 D).
Toutes ces étapes sont communes aux méthodes dérivées du 3C (3C, 4C, 5C, Hi‑C…). La spécificité du 4C réside dans une seconde étape de digestion (à l’aide d’une nouvelle enzyme de restriction) et une seconde étape de ligation . Ces étapes vont permettre de raccourcir et de circulariser nos fragments hybrides (Fig.2 E et F). On va ensuite amplifier par PCR les fragments proches de notre région d’intérêt, à l’aide d’amorces s’hybridant de part et d’autre du viewpoint (Fig.2 G). Les fragments ainsi obtenus peuvent être préparés pour être séquencés (Fig.2 H).
Du protocole biologique au choix des enzymes de restriction
Comme on l'a vu, le 4C utilise deux enzymes de restriction E1 et E2, dont le choix est primordial pour la réussite, et la qualité de l'expérience. Alors, comment choisit-on les enzymes ?
La première enzyme E1, celle qui fragmente le génome, doit être choisie en fonction de la fréquence de son site de restriction dans le génome. Plus le site de restriction est fréquent, plus les fragments obtenus après la première digestion vont être courts. On augmente ainsi la probabilité d'avoir plusieurs coupures dans la boucle d'ADN comme dans la figure 2 B et C, et donc d'obtenir les régions les plus proches possibles du cross-link. On dit que la première enzyme définit la résolution de l'expérience 4C. Il s’agit souvent d’une enzyme qui reconnaît des séquences de 4 paires de bases.
Une fois la première enzyme définie, on regarde entre les sites de restriction E1 si l'on trouve un site reconnu par une seconde enzyme. Il faut rappeler que les génomes sont bourrés de sites reconnus par pléthores d'enzymes de restriction, donc on a l'embarras du choix. Le choix de cette seconde enzyme E2 se fera en fonction de trois critères principaux. Son site doit se trouver à au moins 200 paires de bases d'un des sites de l'enzyme E1. Tout comme la première enzyme, elle doit couper assez fréquemment pour espérer couper une fois dans la région inconnue. Enfin, elle ne doit couper qu'une seule fois entre les deux sites E1 (Fig. 3).
Choix des amorces de PCR
Notre couple d'enzymes étant choisi, nous avons enfin défini notre viewpoint. Il nous faut ensuite déterminer les amorces de PCR afin d'amplifier les fragments ADN proches de ce viewpoint (Fig.2 G et H). Ces amorces PCR doivent s’hybrider de part et d'autre du viewpoint et se diriger vers l'extérieur du viewpoint pour amplifier le fragment d'ADN qui y est lié.
Cette étape va permettre d'obtenir des fragments linéaires composés : d'un bout de viewpoint, suivi d’une séquence inconnue qui était à proximité physique de notre région d'intérêt et encadrée par les sites de restriction des enzymes E1 et E2 puis d'un autre bout du viewpoint (Fig.2 H).
Les ADN obtenus vont servir à préparer une librairie 4C qui sera séquencée en single-end, avec une taille de read d'au moins 75 pb sur votre séquenceur préféré (Illumina ou autre).
Données obtenues
Après séquençage, les reads obtenus sont théoriquement formés de trois parties :
- Une partie du viewpoint en 5’ (qui correspond aux amorces utilisées lors de la PCR inverse) (partie rouge sur la figure 4)
- Un site de restriction (partie jaune ou verte sur la figure 4)
- Le fragment inconnu (celui qui nous intéresse) (partie bleue sur la figure 4).
Pour identifier la partie inconnue, nous voulons aligner uniquement les fragments en bleu sur le génome de référence. Pour cela nous devons trimmer (ou enlever) la partie rouge qui correspond à une partie du viewpoint. Comme on connaît la séquence du viewpoint jusqu'aux sites de restriction, il suffit donc d'enlever cette partie des reads avant de les aligner sur le génome.
Après alignement, la grande majorité des reads (>60%) correspond à des fragments localisés sur le même chromosome que le viewpoint. On constate également un fort enrichissement de reads correspondant à des fragments situés à proximité du viewpoint sur le génome linéaire car ils sont également proches spatialement.
La figure 5 ci-dessous montre un résultat typique d’un 4C-Seq visualisé sur un genome browser.
Quelques pistes d’analyse :
Après que les reads aient été trimmés, alignés, et filtrés en fonction de critères de qualité (score d'alignement, etc…), on peut passer à l'analyse des résultats. La première chose à faire est l'appel des peaks (ou peak calling).
L'appel de peaks lors de l'analyse de donnée 4C a la même signification que l'appel de peaks dans des données de ChIP-seq. C'est-à-dire que l'endroit où il y a une accumulation de reads est identifiée comme statistiquement enrichie et témoigne d'une région physiquement très proche du viewpoint (zones bleues de la Fig.5).
Il existe également d'autres types d'analyses en fonction de ce qui nous intéresse : quantification des peaks, analyse différentielle entre plusieurs conditions…
Une publication de benchmarking [7] compare différents outils selon leur but. La plupart des outils sont codés en R, utilisent des fichiers d’alignements (bam/sam) ou des fichiers de comptages comme le format wig. Par exemple, voici une liste non exhaustive des différents outils et de leurs objectifs :
- r3Cseq [8], fourSig [9], Splinter [10] font de l’identification de peaks. Pour cela ils utilisent des fichiers d’alignements bam ou sam.
- peakC [11] fait de l’identification de peaks par groupe. Pour cela il utilise des fichiers wigs pour chaque échantillon.
- FourCSeq [12] fait de l’analyse différentielle et utilise des fichiers au format bam.
- 4C-ker [13] fait de l’analyse différentielle et utilise un fichier de comptage délimité par des tabulations.
Conclusion
Le 4C est une méthode de biologie moléculaire permettant de déterminer les régions d'ADN spatialement proches d'une région d'intérêt, comme un promoteur de gène ou une région cis-régulatrice de l'expression des gènes. Elle est principalement utilisée pour l'étude des interactions enhancer-promoteur qui régissent la spécificité spatio-temporelle de l'expression des gènes dans un organisme tout au long de sa vie.
Par rapport à la méthode Hi‑C qui s'intéresse à la conformation 3D de l'ADN à l'échelle du génome, le 4C est un zoom très résolutif sur une seule région, permettant une analyse fine des interactions ADN-ADN. Il est cependant à noter que l'interprétation des données 4C est très dépendante de la qualité et de la reproductibilité des résultats. Il est donc primordial d'avoir des répliquas ainsi que des contrôles (régions avec des interactions déjà connues). De plus, un peak obtenu en 4C n'est pas forcément fonctionnel. Pour interpréter plus en détail les résultats de 4C, il est intéressant de recouper la présence ou non de peak avec l'expression du ou des gènes à proximité du viewpoint ou des peaks (selon si le viewpoint est situé dans un promoteur ou une région cis-régulatrice). On peut aussi coupler le 4C avec des données de ChIP-seq afin de connaître les différentes marques d'histones et les sites de fixation de facteurs de transcriptions.
Références :
[1] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4406053/ [2] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3134081/ [3] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4810778/ [4] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3571766/ [5] https://www.ncbi.nlm.nih.gov/pubmed/21998387 [6] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4406053/ [7] https://www.ncbi.nlm.nih.gov/pubmed/31134276 [8] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3711450/ [9] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4005674/ [10] http://www.ncbi.nlm.nih.gov/pubmed/22609568 [11] https://www.ncbi.nlm.nih.gov/pubmed/29800273 [12] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4576695/ [13] https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1004780Je tiens grandement à remercier Léopold Carron, Gwenaelle, ZaZo0o, Raphael Schneider et Séverine Vincent pour leurs remarques ainsi que l’intérêt qu'ils ont porté.
Laisser un commentaire