Découverte :
Traquer les régions ouvertes de l'ADN avec l'ATAC-seq

L'étude de la régulation de l'expression des gènes est une discipline complexe qui recoupe des données provenant de divers types d'expériences. Dans un précédent article, nous avions vu trois techniques de biologie moléculaire couplées à du séquençage haut débit classiquement employées pour mettre en évidence les régions accessibles de l'ADN, et donc potentiellement des régions régulatrices de l'expression de gènes, à savoir le DNase-seq, le FAIRE-seq et également le ChIP-seq (même si cette dernière a un usage plus large). Une nouvelle méthode développée en 2013 semble faire des émules et se répand de plus en plus grâce à sa facilité d'exécution et à la qualité des données obtenues, c'est l'ATAC-seq (Assay for Transposase-Accessible Chromatin with highthroughput sequencing).

Tout comme le DNAse-seq et le FAIRE-seq, l'ATAC-seq sert à détecter les régions ouvertes de la chromatine. Ces régions ouvertes sont enrichies en promoteurs de gènes ainsi qu'en sites de liaisons pour des facteurs de transcription (appelées régions cis-régulatrices, ou plus précisément enhancers). En d'autres termes, quand une région est ouverte, elle est accessible aux facteurs de transcriptions qui vont s'y lier et ainsi permettre d'activer la transcription de ses gènes cibles. Alors que lorsque cette même région est fermée, elle n'est plus accessible aux facteurs de transcription et donc les gènes dont elle régule l'expression seront potentiellement réprimés. Ces régions régulatrices ne sont pas forcément à proximité directe de leurs gènes cibles. Leur distance est très variable, certaines régions peuvent être jusqu'à 1Mb (1 million de paires de bases) des gènes qu'elles régulent !  Quand une région régulatrice ouverte est liée à des facteurs de transcription, elle va former une boucle pour interagir physiquement avec le promoteur des gènes cibles. Voyez l'ADN comme une grosse pelote, avec des régions éloignées linéairement mais qui en vrai se touchent (cf cet article). Pour en savoir plus sur la conformation 3D de l'ADN et sur l'organisation des éléments régulateurs, je vous invite à lire les articles Wikipédia sur les TAD (Topologically Associated Domain) et les enhancers (régions cis-régulatrices) (articles en anglais, car leurs versions françaises ne sont pas aussi bien fournies).

Revenons aux régions régulatrices. Pourquoi cherche-t-on à étudier ces régions ? Pourquoi ne pas se contenter d'un séquençage de l'ARN (RNA-seq) et faire l'inventaire des gènes ON ou OFF ? Eh bien pour comprendre pourquoi chez certaines personnes les gènes sont OFF alors qu'ils devraient être ON, ou bien pour comprendre l'effet de certains traitements, ou même encore pour comprendre comment certains gènes s'expriment à un moment précis lors du développement embryonnaire et/ou dans un tissu seulement.

Tout comme le FAIRE-seq et le DNase-seq, l'ATAC-seq consiste à capturer l'ADN qui se retrouve en dehors des histones et de les séquencer.  Les données manquantes représentent donc les portions d'ADN compactées.

Le protocole

Protocole de l'ATAC-seq en une image. (source: ZaZo0o, CC-BY-SA)

Le protocole de l'ATAC-seq est très simple, c'est d'ailleurs ce qui fait son succès. Le matériel de départ est une faible quantité de cellules : 500 à 50 000 cellules, à adapter selon les tissus, ce qui représente presque 10 à 100x moins que pour le FAIRE-seq et le DNase-seq. Les cellules sont lysées afin d'accéder au contenu des noyaux, l'ADN non-condensé est fragmenté par digestion enzymatique, puis purifié, amplifié, et séquencé. La procédure de l'ATAC ne dure pas plus d'une demi-journée, contre trois à quatre jours pour les autres méthodes.

L'ATAC-seq se base sur une enzyme modifiée : la transposase Tn5. Cette version modifiée (évidemment protégée par un brevet) est hyperactive et permet de fragmenter l'ADN toutes les 400 paires de base environ. De plus, cet enzyme porte avec elle deux fragments d'ADN, qu'elle va rajouter à chaque extrémité de l'ADN qu'elle fragmente, c'est ce qu'on appelle la tagmentation. En gros, cette enzyme permet en une seule réaction de fragmenter l'ADN accessible et de taguer les fragments en y ajoutant les adapteurs pour l'amplification par PCR et pour l'ajout des indexes de séquençage. Pour plus de détails sur le protocole, je vous invite à lire la documentation de la préparation de librairie Nextera.

Les données

Les données obtenues sont sensiblement identiques à celles obtenues par le FAIRE-seq, c'est-à-dire des pics de reads dans les régions ouvertes. J'ai lu cependant que les données d'ATAC-seq présentaient moins de bruit de fond que le FAIRE-seq, à tel point que le labo à l'origine du FAIRE-seq a abandonné sa technique au profit de l'ATAC-seq (source).

Le projet ENCODE propose un pipeline d'analyse standard afin de traiter les données. Après un contrôle qualité du séquençage, les reads sont coupés afin d'enlever les séquences des adapteurs, puis alignés sur un génome de référence après quoi les pics significatifs sont détectés avec un algorithme classiquement utilisé pour les ChIP-seq (tel que MACS). Les pics obtenus peuvent être ensuite visualisés dans un genome browser tel que UCSC après conversion des fichiers en format Bed.

Identification d'un enhancer (région régulatrice de l'expression génétique, en bleu clair) dans le tissu primordium de l'oeil chez la drosophile avec de l'ATAC-seq et du FAIRE-seq (Davie et al. 2015, Plos Genetics, CC-BY)

Conclusion et perspectives

L'ATAC-seq semble être la technique qui s'impose afin d'analyser les régions ouvertes de la chromatine. La rapidité de son protocole et le faible nombre de cellules requis permet de grandement faciliter et d'accélérer la recherche, notamment lorsque le matériel biologique est rare (biopsies, tissus embryonnaires, cellules rares...). De plus, le protocole de préparation ne requière pas d'utilisation d'anticorps ni de sonication qui souvent introduisent des problèmes techniques et altèrent la qualité des données.

Cependant tout n'est pas si rose, il ne faut pas mal de travail en amont pour optimiser le nombre de cellules adéquat afin de générer les meilleures données possibles. De plus, il a été constaté que l'ADN mitochondrial peut être sur-représenté dans les données obtenues. Dans ce cas, il est recommandé d'optimiser le protocole en amont, comme l'extraction des noyaux de cellules plutôt que d'utiliser des cellules entières. Il est aussi conseillé de procéder à un pré-séquençage (séquençage à très faible profondeur) avant de séquencer pour de vrai ses échantillons afin de s'assurer que le protocole a fonctionné et ne pas, dans le cas échéant, dépenser tout le budget du labo pour des séquençages ratés...

L'ATAC-seq n'échappe pas à l'aire de la miniaturisation. La sensibilité de cette technique à un faible nombre de cellules en a fait un très bon candidat pour une adaptation au niveau de la cellule unique (single-cell ATAC-seq ou scATAC-seq). Il existe déjà plusieurs publications de scATAC-seq avec des protocoles maisons, et un protocole standardisé et automatisé vient tout juste de sortir chez 10X Genomics.

En définitive, gardez un œil sur cette technique, elle pourrait vous être utile.

 

Un grand merci aux relecteurs Guillaume Devailly, M. Blum, et Gwenaelle.

  • À propos de
  • Passionnée d'informatique, de logiciels libres, de graphisme, touche à tout, curieuse mais grognon.Licence de biologie et master de bioinfo à l'université de Rennes, et PhD en bioinformatique à l'université de Genève.

Laisser un commentaire