1… 2… 3… 4C ! Ou comment capturer l'état de la chromatine.

Une cel­lule euca­ryote com­porte un noyau qui contient l’information géné­tique por­tée par les chro­mo­somes, eux même com­po­sés d’ADN. Chez l'Homme, l'ADN des chro­mo­somes mis bouts à bouts mesure 1,9 mètre de long. Or, tout ce maté­riel géné­tique doit tenir dans le noyau des cel­lules, qui lui mesure 5 à 7 micro­mètres de dia­mètre (en moyenne chez l'Homme). Pour cela, l'ADN va être com­pac­té à l'aide de pro­téines pour for­mer la chro­ma­tine (Fig. 1). Cette com­pac­tion ne se fait pas au hasard. L’organisation spa­tiale de la chro­ma­tine dans le noyau, et en par­ti­cu­lier les inter­ac­tions entre dif­fé­rentes régions du génome, joue un rôle essen­tiel dans la régu­la­tion de la trans­crip­tion.

Figure 1 : Orga­ni­sa­tion de l'ADN dans le noyau d'une cel­lule euca­ryote
(Image adap­tée de NIH-Phrood, CC-BY-SA)

Il existe de nom­breuses méthodes per­met­tant de déter­mi­ner la confor­ma­tion tri­di­men­sion­nelle de l’ADN (3C, 4C, 5C, Hi‑C…). Ces méthodes, cou­plées ou non à du séquen­çage haut débit, dérivent toute du même prin­cipe. L'état de l'ADN est d'abord spa­tia­le­ment figé, puis les régions très proches entre elles sont cap­tu­rées, ampli­fiées, et lues. On obtient ain­si une carte des régions de l'ADN qui poten­tiel­le­ment inter­agissent entre elles.

Alors que le Hi‑C cap­ture toutes les régions du génome qui sont à proxi­mi­té les unes des autres, le 4C ne s'intéresse qu'à une seule région d'intérêt bien pré­cise que l'on appelle view­point. Il per­met de déter­mi­ner quelles sont les por­tions d'ADN qui sont proches de cette région d'intérêt.

Un des usages les plus clas­siques du 4C consiste à décou­vrir de nou­velles régions régu­la­trices de l'expression des gènes, comme les enhan­cers. Ces der­niers sont de petites séquences (~700 paires de bases) qui se trouvent à des dis­tances (linéaires) assez variables des gènes qu'ils régulent. Pour fonc­tion­ner, les enhan­cers dis­taux doivent se rap­pro­cher du pro­mo­teur de leurs gènes cibles, et pour ce faire, ils forment des boucles. En choi­sis­sant le pro­mo­teur d'un gène comme région cible, il est pos­sible avec le 4C de déter­mi­ner quelles régions de l'ADN se retrouvent à proxi­mi­té de ce pro­mo­teur, et donc de consti­tuer une liste de poten­tiels enhan­cers.

Le 4C seq a aus­si été uti­li­sé dans plu­sieurs autres types d'études [1], comme par exemple :

  • L’inactivation du chro­mo­some X [2]
  • L’organisation des loci pour les récep­teurs d’antigène [3]
  • Le pat­tern des trans­lo­ca­tions [4]
  • La cor­ré­la­tion de la régu­la­tion de la trans­crip­tion [5]

Protocole Biologique

Principe du 4C

Comme dit plus haut, le prin­cipe du 4C est basé sur la fixa­tion des régions de la chro­ma­tine spa­tia­le­ment proches avec com­mu­né­ment du for­mal­dé­hyde. En clair, le for­mal­dé­hyde va figer la confor­ma­tion 3D de l'ADN en créant des liai­sons cova­lentes (cross-link) entre les pro­téines de la chro­ma­tine et l'ADN (Fig.2 A). Une fois les cel­lules fixées et lysées, on va frag­men­ter le génome par diges­tion à l'aide d'une pre­mière enzyme de res­tric­tion afin d'obtenir de petits frag­ments (entre 1 et 10 kilo-bases) (Fig.2 B). Ensuite vient une pre­mière étape de liga­tion in situ (Fig.2 C). Les frag­ments d'ADN digé­rés et tou­jours atta­chés entre eux par le cross-link vont se lier entre eux et ain­si ne for­mer qu'un seul frag­ment consti­tué des deux régions d'ADN qui à l'origine étaient spa­tia­le­ment proches. Enfin, nos frag­ments hybrides sont libé­rés de leur cross-link et l'ADN puri­fié de toutes pro­téines (Fig.2 D).

Figure 2 : Les grandes étapes du pro­to­cole 4C
(Isa­belle Sté­vant, CC-BY-SA)

Toutes ces étapes sont com­munes aux méthodes déri­vées du 3C (3C, 4C, 5C, Hi‑C…). La spé­ci­fi­ci­té du 4C réside dans une seconde étape de diges­tion (à l’aide d’une nou­velle enzyme de res­tric­tion) et une seconde étape de liga­tion . Ces étapes vont per­mettre de rac­cour­cir et de cir­cu­la­ri­ser nos frag­ments hybrides (Fig.2 E et F). On va ensuite ampli­fier par PCR les frag­ments proches de notre région d’intérêt, à l’aide d’amorces s’hybridant de part et d’autre du view­point (Fig.2 G). Les frag­ments ain­si obte­nus peuvent être pré­pa­rés pour être séquen­cés (Fig.2 H).

Du protocole biologique au choix des enzymes de restriction

Comme on l'a vu, le 4C uti­lise deux enzymes de res­tric­tion E1 et E2, dont le choix est pri­mor­dial pour la réus­site, et la qua­li­té de l'expérience. Alors, com­ment choi­sit-on les enzymes ?

La pre­mière enzyme E1, celle qui frag­mente le génome, doit être choi­sie en fonc­tion de la fré­quence de son site de res­tric­tion dans le génome. Plus le site de res­tric­tion est fré­quent, plus les frag­ments obte­nus après la pre­mière diges­tion vont être courts. On aug­mente ain­si la pro­ba­bi­li­té d'avoir plu­sieurs cou­pures dans la boucle d'ADN comme dans la figure 2 B et C, et donc d'obtenir les régions les plus proches pos­sibles du cross-link. On dit que la pre­mière enzyme défi­nit la réso­lu­tion de l'expérience 4C. Il s’agit sou­vent d’une enzyme qui recon­naît des séquences de 4 paires de bases.

Une fois la pre­mière enzyme défi­nie, on regarde entre les sites de res­tric­tion E1 si l'on trouve un site recon­nu par une seconde enzyme. Il faut rap­pe­ler que les génomes sont bour­rés de sites recon­nus par plé­thores d'enzymes de res­tric­tion, donc on a l'embarras du choix. Le choix de cette seconde enzyme E2 se fera en fonc­tion de trois cri­tères prin­ci­paux. Son site doit se trou­ver à au moins 200 paires de bases d'un des sites de l'enzyme E1. Tout comme la pre­mière enzyme, elle doit cou­per assez fré­quem­ment pour espé­rer cou­per une fois dans la région incon­nue. Enfin, elle ne doit cou­per qu'une seule fois entre les deux sites E1 (Fig. 3).

Figure 3 : Choix des enzymes et des amorces de PCR. Une fois la pre­mière enzyme E1 choi­sie, la seconde enzyme ne doit cou­per qu'une seule fois entre les deux sites E1 et doit être à au moins 200 paires de bases d'un site E1. Sur le Sché­ma, l'enzyme E2 répond aux cri­tères, contrai­re­ment à l'enzyme E3. Enfin, une fois que la zone du view­point est défi­nie par les sites de res­tric­tions choi­sis, on peut défi­nir les séquences des amorces de PCR, de part et d'autre du view­point et se diri­geant vers l'extérieur du view­point pour ampli­fier le frag­ment d'ADN qui y est lié.
(Isa­belle Sté­vant, CC-BY-SA)

Choix des amorces de PCR

Notre couple d'enzymes étant choi­si, nous avons enfin défi­ni notre view­point. Il nous faut ensuite déter­mi­ner les amorces de PCR afin d'amplifier les frag­ments ADN proches de ce view­point (Fig.2 G et H). Ces amorces PCR doivent s’hybrider de part et d'autre du view­point et se diri­ger vers l'extérieur du view­point pour ampli­fier le frag­ment d'ADN qui y est lié.
Cette étape va per­mettre d'obtenir des frag­ments linéaires com­po­sés : d'un bout de view­point, sui­vi d’une séquence incon­nue qui était à proxi­mi­té phy­sique de notre région d'intérêt et enca­drée par les sites de res­tric­tion des enzymes E1 et E2 puis d'un autre bout du view­point (Fig.2 H).

Les ADN obte­nus vont ser­vir à pré­pa­rer une librai­rie 4C qui sera séquen­cée en single-end, avec une taille de read d'au moins 75 pb sur votre séquen­ceur pré­fé­ré (Illu­mi­na ou autre).

Données obtenues

Après séquen­çage, les reads obte­nus sont théo­ri­que­ment for­més de trois par­ties :

  • Une par­tie du view­point en 5’ (qui cor­res­pond aux amorces uti­li­sées lors de la PCR inverse) (par­tie rouge sur la figure 4)
  • Un site de res­tric­tion (par­tie jaune ou verte sur la figure 4)
  • Le frag­ment incon­nu (celui qui nous inté­resse) (par­tie bleue sur la figure 4).
Figure 4 : Sché­ma du type de read obte­nus via le séquen­çage de don­née 4C (Isa­belle Sté­vant, CC-BY-SA).

Pour iden­ti­fier la par­tie incon­nue, nous vou­lons ali­gner uni­que­ment les frag­ments en bleu sur le génome de réfé­rence. Pour cela nous devons trim­mer (ou enle­ver) la par­tie rouge qui cor­res­pond à une par­tie du view­point. Comme on connaît la séquence du view­point jusqu'aux sites de res­tric­tion, il suf­fit donc d'enlever cette par­tie des reads avant de les ali­gner sur le génome.

Après ali­gne­ment, la grande majo­ri­té des reads (>60%) cor­res­pond à des frag­ments loca­li­sés sur le même chro­mo­some que le view­point. On constate éga­le­ment un fort enri­chis­se­ment de reads cor­res­pon­dant à des frag­ments situés à proxi­mi­té du view­point sur le génome linéaire car ils sont éga­le­ment proches spa­tia­le­ment.

La figure 5 ci-des­sous montre un résul­tat typique d’un 4C-Seq visua­li­sé sur un genome brow­ser.

Figure 5 : Exemple de view­point et d’interactions poten­tielles
(Figure adap­tée de van de Wer­ken et al, 2012)

Quelques pistes d’analyse :

Après que les reads aient été trim­més, ali­gnés, et fil­trés en fonc­tion de cri­tères de qua­li­té (score d'alignement, etc…), on peut pas­ser à l'analyse des résul­tats. La pre­mière chose à faire est l'appel des peaks (ou peak cal­ling).

L'appel de peaks lors de l'analyse de don­née 4C a la même signi­fi­ca­tion que l'appel de peaks dans des don­nées de ChIP-seq. C'est-à-dire que l'endroit où il y a une accu­mu­la­tion de reads est iden­ti­fiée comme sta­tis­ti­que­ment enri­chie et témoigne d'une région phy­si­que­ment très proche du view­point (zones bleues de la Fig.5).

Il existe éga­le­ment d'autres types d'analyses en fonc­tion de ce qui nous inté­resse : quan­ti­fi­ca­tion des peaks, ana­lyse dif­fé­ren­tielle entre plu­sieurs condi­tions…

Une publi­ca­tion de bench­mar­king [7] com­pare dif­fé­rents outils selon leur but. La plu­part des outils sont codés en R, uti­lisent des fichiers d’alignements (bam/​sam) ou des fichiers de comp­tages comme le for­mat wig. Par exemple, voi­ci une liste non exhaus­tive des dif­fé­rents outils et de leurs objec­tifs :

  • r3Cseq [8], four­Sig [9], Splin­ter [10] font de l’identification de peaks. Pour cela ils uti­lisent des fichiers d’alignements bam ou sam.
  • peakC [11] fait de l’identification de peaks par groupe. Pour cela il uti­lise des fichiers wigs pour chaque échan­tillon.
  • FourC­Seq [12] fait de l’analyse dif­fé­ren­tielle et uti­lise des fichiers au for­mat bam.
  • 4C-ker [13] fait de l’analyse dif­fé­ren­tielle et uti­lise un fichier de comp­tage déli­mi­té par des tabu­la­tions.

Conclusion

Le 4C est une méthode de bio­lo­gie molé­cu­laire per­met­tant de déter­mi­ner les régions d'ADN spa­tia­le­ment proches d'une région d'intérêt, comme un pro­mo­teur de gène ou une région cis-régu­la­trice de l'expression des gènes. Elle est prin­ci­pa­le­ment uti­li­sée pour l'étude des inter­ac­tions enhan­cer-pro­mo­teur qui régissent la spé­ci­fi­ci­té spa­tio-tem­po­relle de l'expression des gènes dans un orga­nisme tout au long de sa vie.

Par rap­port à la méthode Hi‑C qui s'intéresse à la confor­ma­tion 3D de l'ADN à l'échelle du génome, le 4C est un zoom très réso­lu­tif sur une seule région, per­met­tant une ana­lyse fine des inter­ac­tions ADN-ADN. Il est cepen­dant à noter que l'interprétation des don­nées 4C est très dépen­dante de la qua­li­té et de la repro­duc­ti­bi­li­té des résul­tats. Il est donc pri­mor­dial d'avoir des répli­quas ain­si que des contrôles (régions avec des inter­ac­tions déjà connues). De plus, un peak obte­nu en 4C n'est pas for­cé­ment fonc­tion­nel. Pour inter­pré­ter plus en détail les résul­tats de 4C, il est inté­res­sant de recou­per la pré­sence ou non de peak avec l'expression du ou des gènes à proxi­mi­té du view­point ou des peaks (selon si le view­point est situé dans un pro­mo­teur ou une région cis-régu­la­trice). On peut aus­si cou­pler le 4C avec des don­nées de ChIP-seq afin de connaître les dif­fé­rentes marques d'histones et les sites de fixa­tion de fac­teurs de trans­crip­tions.

Réfé­rences :

[1] https://​www​.ncbi​.nlm​.nih​.gov/​p​m​c​/​a​r​t​i​c​l​e​s​/​P​M​C​4​4​0​6​0​53/

[2] https://​www​.ncbi​.nlm​.nih​.gov/​p​m​c​/​a​r​t​i​c​l​e​s​/​P​M​C​3​1​3​4​0​81/

[3] https://​www​.ncbi​.nlm​.nih​.gov/​p​m​c​/​a​r​t​i​c​l​e​s​/​P​M​C​4​8​1​0​7​78/

[4] https://​www​.ncbi​.nlm​.nih​.gov/​p​m​c​/​a​r​t​i​c​l​e​s​/​P​M​C​3​5​7​1​7​66/

[5] https://​www​.ncbi​.nlm​.nih​.gov/​p​u​b​m​e​d​/​2​1​9​9​8​387

[6] https://​www​.ncbi​.nlm​.nih​.gov/​p​m​c​/​a​r​t​i​c​l​e​s​/​P​M​C​4​4​0​6​0​53/

[7] https://​www​.ncbi​.nlm​.nih​.gov/​p​u​b​m​e​d​/​3​1​1​3​4​276

[8] https://​www​.ncbi​.nlm​.nih​.gov/​p​m​c​/​a​r​t​i​c​l​e​s​/​P​M​C​3​7​1​1​4​50/

[9] https://​www​.ncbi​.nlm​.nih​.gov/​p​m​c​/​a​r​t​i​c​l​e​s​/​P​M​C​4​0​0​5​6​74/

[10] http://​www​.ncbi​.nlm​.nih​.gov/​p​u​b​m​e​d​/​2​2​6​0​9​568

[11] https://​www​.ncbi​.nlm​.nih​.gov/​p​u​b​m​e​d​/​2​9​8​0​0​273

[12] https://​www​.ncbi​.nlm​.nih​.gov/​p​m​c​/​a​r​t​i​c​l​e​s​/​P​M​C​4​5​7​6​6​95/

[13] https://​jour​nals​.plos​.org/​p​l​o​s​c​o​m​p​b​i​o​l​/​a​r​t​i​c​l​e​?​i​d​=​1​0​.​1​3​7​1​/​j​o​u​r​n​a​l​.​p​c​b​i​.​1​0​0​4​780

Je tiens gran­de­ment à remer­cier Léo­pold Car­ron, Gwe­naelle, ZaZo0o, Raphael Schnei­der et Séve­rine Vincent pour leurs remarques ain­si que l’intérêt qu'ils ont por­té.



Pour continuer la lecture :


Commentaires

Laisser un commentaire