- Le blog participatif de bioinformatique francophone depuis 2012 -

Traquer les régions ouvertes de l'ADN avec l'ATAC-seq

L'étude de la régu­la­tion de l'expression des gènes est une dis­ci­pline com­plexe qui recoupe des don­nées pro­ve­nant de divers types d'expériences. Dans un pré­cé­dent article, nous avions vu trois tech­niques de bio­lo­gie molé­cu­laire cou­plées à du séquen­çage haut débit clas­si­que­ment employées pour mettre en évi­dence les régions acces­sibles de l'ADN, et donc poten­tiel­le­ment des régions régu­la­trices de l'expression de gènes, à savoir le DNase-seq, le FAIRE-seq et éga­le­ment le ChIP-seq (même si cette der­nière a un usage plus large). Une nou­velle méthode déve­lop­pée en 2013 semble faire des émules et se répand de plus en plus grâce à sa faci­li­té d'exécution et à la qua­li­té des don­nées obte­nues, c'est l'ATAC-seq (Assay for Trans­po­sase-Acces­sible Chro­ma­tin with high­through­put sequen­cing).

Tout comme le DNAse-seq et le FAIRE-seq, l'ATAC-seq sert à détec­ter les régions ouvertes de la chro­ma­tine. Ces régions ouvertes sont enri­chies en pro­mo­teurs de gènes ain­si qu'en sites de liai­sons pour des fac­teurs de trans­crip­tion (appe­lées régions cis-régu­la­trices, ou plus pré­ci­sé­ment enhan­cers). En d'autres termes, quand une région est ouverte, elle est acces­sible aux fac­teurs de trans­crip­tions qui vont s'y lier et ain­si per­mettre d'activer la trans­crip­tion de ses gènes cibles. Alors que lorsque cette même région est fer­mée, elle n'est plus acces­sible aux fac­teurs de trans­crip­tion et donc les gènes dont elle régule l'expression seront poten­tiel­le­ment répri­més. Ces régions régu­la­trices ne sont pas for­cé­ment à proxi­mi­té directe de leurs gènes cibles. Leur dis­tance est très variable, cer­taines régions peuvent être jusqu'à 1Mb (1 mil­lion de paires de bases) des gènes qu'elles régulent !  Quand une région régu­la­trice ouverte est liée à des fac­teurs de trans­crip­tion, elle va for­mer une boucle pour inter­agir phy­si­que­ment avec le pro­mo­teur des gènes cibles. Voyez l'ADN comme une grosse pelote, avec des régions éloi­gnées linéai­re­ment mais qui en vrai se touchent (cf cet article). Pour en savoir plus sur la confor­ma­tion 3D de l'ADN et sur l'organisation des élé­ments régu­la­teurs, je vous invite à lire les articles Wiki­pé­dia sur les TAD (Topo­lo­gi­cal­ly Asso­cia­ted Domain) et les enhan­cers (régions cis-régu­la­trices) (articles en anglais, car leurs ver­sions fran­çaises ne sont pas aus­si bien four­nies).

Reve­nons aux régions régu­la­trices. Pour­quoi cherche-t-on à étu­dier ces régions ? Pour­quoi ne pas se conten­ter d'un séquen­çage de l'ARN (RNA-seq) et faire l'inventaire des gènes ON ou OFF ? Eh bien pour com­prendre pour­quoi chez cer­taines per­sonnes les gènes sont OFF alors qu'ils devraient être ON, ou bien pour com­prendre l'effet de cer­tains trai­te­ments, ou même encore pour com­prendre com­ment cer­tains gènes s'expriment à un moment pré­cis lors du déve­lop­pe­ment embryon­naire et/​ou dans un tis­su seule­ment.

Tout comme le FAIRE-seq et le DNase-seq, l'ATAC-seq consiste à cap­tu­rer l'ADN qui se retrouve en dehors des his­tones et de les séquen­cer.  Les don­nées man­quantes repré­sentent donc les por­tions d'ADN com­pac­tées.

Le protocole

Pro­to­cole de l'ATAC-seq en une image. (source : ZaZo0o, CC-BY-SA)

Le pro­to­cole de l'ATAC-seq est très simple, c'est d'ailleurs ce qui fait son suc­cès. Le maté­riel de départ est une faible quan­ti­té de cel­lules : 500 à 50 000 cel­lules, à adap­ter selon les tis­sus, ce qui repré­sente presque 10 à 100x moins que pour le FAIRE-seq et le DNase-seq. Les cel­lules sont lysées afin d'accéder au conte­nu des noyaux, l'ADN non-conden­sé est frag­men­té par diges­tion enzy­ma­tique, puis puri­fié, ampli­fié, et séquen­cé. La pro­cé­dure de l'ATAC ne dure pas plus d'une demi-jour­née, contre trois à quatre jours pour les autres méthodes.

L'ATAC-seq se base sur une enzyme modi­fiée : la trans­po­sase Tn5. Cette ver­sion modi­fiée (évi­dem­ment pro­té­gée par un bre­vet) est hyper­ac­tive et per­met de frag­men­ter l'ADN toutes les 400 paires de base envi­ron. De plus, cet enzyme porte avec elle deux frag­ments d'ADN, qu'elle va rajou­ter à chaque extré­mi­té de l'ADN qu'elle frag­mente, c'est ce qu'on appelle la tag­men­ta­tion. En gros, cette enzyme per­met en une seule réac­tion de frag­men­ter l'ADN acces­sible et de taguer les frag­ments en y ajou­tant les adap­teurs pour l'amplification par PCR et pour l'ajout des indexes de séquen­çage. Pour plus de détails sur le pro­to­cole, je vous invite à lire la docu­men­ta­tion de la pré­pa­ra­tion de librai­rie Nex­te­ra.

Les données

Les don­nées obte­nues sont sen­si­ble­ment iden­tiques à celles obte­nues par le FAIRE-seq, c'est-à-dire des pics de reads dans les régions ouvertes. J'ai lu cepen­dant que les don­nées d'ATAC-seq pré­sen­taient moins de bruit de fond que le FAIRE-seq, à tel point que le labo à l'origine du FAIRE-seq a aban­don­né sa tech­nique au pro­fit de l'ATAC-seq (source).

Le pro­jet ENCODE pro­pose un pipe­line d'analyse stan­dard afin de trai­ter les don­nées. Après un contrôle qua­li­té du séquen­çage, les reads sont cou­pés afin d'enlever les séquences des adap­teurs, puis ali­gnés sur un génome de réfé­rence après quoi les pics signi­fi­ca­tifs sont détec­tés avec un algo­rithme clas­si­que­ment uti­li­sé pour les ChIP-seq (tel que MACS). Les pics obte­nus peuvent être ensuite visua­li­sés dans un genome brow­ser tel que UCSC après conver­sion des fichiers en for­mat Bed.

Iden­ti­fi­ca­tion d'un enhan­cer (région régu­la­trice de l'expression géné­tique, en bleu clair) dans le tis­su pri­mor­dium de l'oeil chez la dro­so­phile avec de l'ATAC-seq et du FAIRE-seq (Davie et al. 2015, Plos Gene­tics, CC-BY)

Conclusion et perspectives

L'ATAC-seq semble être la tech­nique qui s'impose afin d'analyser les régions ouvertes de la chro­ma­tine. La rapi­di­té de son pro­to­cole et le faible nombre de cel­lules requis per­met de gran­de­ment faci­li­ter et d'accélérer la recherche, notam­ment lorsque le maté­riel bio­lo­gique est rare (biop­sies, tis­sus embryon­naires, cel­lules rares…). De plus, le pro­to­cole de pré­pa­ra­tion ne requière pas d'utilisation d'anticorps ni de soni­ca­tion qui sou­vent intro­duisent des pro­blèmes tech­niques et altèrent la qua­li­té des don­nées.

Cepen­dant tout n'est pas si rose, il ne faut pas mal de tra­vail en amont pour opti­mi­ser le nombre de cel­lules adé­quat afin de géné­rer les meilleures don­nées pos­sibles. De plus, il a été consta­té que l'ADN mito­chon­drial peut être sur-repré­sen­té dans les don­nées obte­nues. Dans ce cas, il est recom­man­dé d'optimiser le pro­to­cole en amont, comme l'extraction des noyaux de cel­lules plu­tôt que d'utiliser des cel­lules entières. Il est aus­si conseillé de pro­cé­der à un pré-séquen­çage (séquen­çage à très faible pro­fon­deur) avant de séquen­cer pour de vrai ses échan­tillons afin de s'assurer que le pro­to­cole a fonc­tion­né et ne pas, dans le cas échéant, dépen­ser tout le bud­get du labo pour des séquen­çages ratés…

L'ATAC-seq n'échappe pas à l'ère de la minia­tu­ri­sa­tion. La sen­si­bi­li­té de cette tech­nique à un faible nombre de cel­lules en a fait un très bon can­di­dat pour une adap­ta­tion au niveau de la cel­lule unique (single-cell ATAC-seq ou scA­TAC-seq). Il existe déjà plu­sieurs publi­ca­tions de scA­TAC-seq avec des pro­to­coles mai­sons, et un pro­to­cole stan­dar­di­sé et auto­ma­ti­sé vient tout juste de sor­tir chez 10X Geno­mics.

En défi­ni­tive, gar­dez un œil sur cette tech­nique, elle pour­rait vous être utile.

Un grand mer­ci aux relec­teurs Guillaume Devailly, M. Blum, et Gwe­naelle.




Commentaires

Laisser un commentaire