Hi-C : Quelques bases

29 octobre 2014

-

par

Aujourd'hui on va découvrir ensemble une des petites dernières dans la famille des techniques hauts débits : le High Chromosome Contact map (Hi C)[1] . Revenons sur quelques bases : un gène ne pourra être exprimé que si l'ADN qui le code est déplié. Par conséquent les régions dans lesquelles les gènes ne sont pas exprimés sont quant à elles repliées et forment ce qu'on appelle les domaines topologiques (TADs). La méthode présentée ici permet d'étudier ces domaines et leurs interactions . Tachant en premier lieu de comprendre le protocole biologique de la technique, nous donnerons une idée globale des étapes requises avant la visualisation des données.

Protocole biologique

Cette méthode a été développée grâce à un couplage entre les techniques NGS et de Chromosome Conformation Capture (3C)[6].

Nous pouvons réaliser cette méthode en suivant ce protocole : partant d'une culture cellulaire, un crosslink ( réticulation : tout fragment d'ADN proche d'un autre va être chainé à celui-ci) sur l'ADN des cellules est fait. Ensuite l'ensemble de l'ADN est soumis à une enzyme de restriction (généralement HindIII). Les fragments obtenus sont liés pour ensuite, enlever le crosslink. On obtient ainsi une librairie (banque d'ADN physique) qui contient donc des fragments d'ADN étant, à l'origine, issus de deux fragments spatialement proches dans le noyau.

Image 1 : Protocole du Hi-C, les 4 premières étapes sont communes avec le 3C (non détaillé dans cette image). (CC)

Cette base est un protocole 3C classique et il ne nous reste plus qu'une étape de séquençage haut débit sur les deux sens des fragment en paired-end ( reads appairés) pour passer du 3C au Hi-C.

Traitement des reads(séquences lues) et visualisation des données

Cette partie permet de décrire comment manipuler les jeux de données NGS obtenus pour en extraire une information nouvelle : une carte de contact chromosomique. Cette carte se présente sous la forme d'une matrice, dans laquelle est contenue le nombre de fois qu'un read a été retrouvé avec un autre.

Les jeux de données NGS ainsi obtenus contiennent une information : des séquences couplées, appelées paired end en anglais. Ces séquences correspondent à des régions de l'ADN en contact au moment de la réticulation (cross link sur l'image 1), et qui sont donc proches spatialement dans la cellule. Le but va donc être de retrouver toutes ces régions et de les visualiser ensembles.

1ère étape : Mapping (Alignement sur un génome de référence)

Pour cette étape, l'alignement doit être réalisé en priorité sans mismatch(décalage) en favorisant le meilleur score d'alignement possible. Par exemple, utiliser Bowtie2[5] avec les options --local et –very-sensitive-local.

Point technique important : Les reads appairés pouvant être séquencés sur des régions qui sont très éloignées (voir sur des chromosomes différents), il faudra mapper indépendamment les deux parties des reads appairés (qui sont normalement dans deux fichiers séparés). Par la suite, ce complément d'information sera inclus dans l'analyse grâce aux numéros des reads qui sont communs entre les deux parties du read pairé, nous permettant plus tard de fusionner à nouveaux les deux résultats en un seul.

2ème étape : Filtre des séquences lues

Une fois les séquences alignées sur le génome, on va filtrer les fichiers pour ne garder que les coordonnées chromosomiques et le numéro ou chaque read a été mappé. Une fois ce filtre réalisé, on fusionne les deux fichiers en ne sélectionnant que les reads qui ont le même numéro dans les deux fichiers, et donc qui sont appairés. On obtiendra ainsi une liste contenant les coordonnées chromosomiques de chaque paire.

exemple :

chr1 2000 chr 5 548624

chr1 2144 chr1 2411

chr1 2144 chr1 2166

…

chrY 45454 chr Y 24765

On note qu'il peut être intéressant de remplacer les coordonnées des reads par celles des fragments de restriction dont elles sont issues. Cette étape fera potentiellement gagner du temps sur la suite du pipeline et réduira considérablement la taille du résultat final sans perte de sa qualité.

3ème étape : Constitution de la carte de contact chromosomique

À partir de cette liste, il faut maintenant compter le nombre de fois qu'un read apparaît avec un autre et stocker le résultat dans une matrice ordonnée par chromosome. La matrice ainsi obtenue est une matrice de contact ou carte de contact chromosomique.

4ème étape : Visualisation

Pour visualiser une matrice, on réalise une image scalaire de la matrice. La façon de visualiser correctement une matrice pourrait être le sujet d'un article entier et demande des heures de travail. Cet article étant un article d'introduction seuls quelques conseils seront fournis :

Ces matrices sont souvent très volumineuses et contiennent des informations peu homogène sur l'ensemble de la matrice. Regrouper les informations permet d'obtenir une meilleure vision des informations. La matrice ainsi obtenue, plus petite, ne sera que plus facile à afficher et stocker en mémoire.
Normaliser les données entre 0 et 1 est souvent indispensable faute de quoi, les informations en très grandes quantités proches de la diagonale rendront les autres invisibles.
Dans une publication, le plus important est de voir ce qui est observé. Si l'on regarde l'ensemble des données , les carrés observables proches de la diagonale correspondront aux contacts intra-chromosomique. À plus fine échelle sur un chromosome, un carré visible sur l'image (case de damier) correspondra à un domaine topologique, c'est-à-dire une région où l'ADN est très replié sur lui-même. On observe souvent une forme de damier sur ces images ce qui se traduit par le fait qu'un domaine topologique peut interagir avec plusieurs autre.

Image 2 : Exemple de représentation de ces matrices. Cette matrice est symétrique par rapport à sa diagonale principale (d'en haut à gauche, vers en bas à droite) . Le gradient de couleur montre la proportion de contacts dans la région observée. Cette image représente la cartographie de contact du chromosome 1 de la souris. Les *reads* ont été regroupés pour n'avoir plus que 3000 fragments ce qui améliore grandement la qualité visuelle de l'image.(CC)

Nous vous avons ainsi présenté les bases de la technique Hi-C, vous permettant à la fois de comprendre le protocole biologique de la technique et les idées de bases du traitement de ces données. Nous reviendrons dans un prochain article sur des points plus spécifiques, comme la normalisation des matrices de contact. En attendant, pour plus d'information, nous vous recommandons d'aller sur des sites proposant un tutoriel complet comme Homer[3].
Pour ceux qui ne souhaitent pas construire leurs pipelines eux-mêmes, des sites comme Babraham[4] ou encore Mirny[5] ainsi qu'Homer proposent des outils pour l'analyse de ces données.

Remerciements

Je tiens à remercier Julien Mozziconacci et Julien Riposo pour m'avoir tant apprit dans ce domaine. Je tiens aussi à remercier sincèrement Annie Lebreton, Hedjour et Nahoy pour leurs précieuses relectures.

Citations :

1.The Hi-C [WWW Document], n.d. URL

http://www.jove.com/video/1869/hi-c-a-method-to-study-the-three-dimensional-architecture-of-genomes

(Accessed 24.06.2014)

2.HOMER Pipeline [WWW Document], n.d. URL

http://homer.salk.edu/homer/ (Accessed 24.06.2014)

3.Babraham Pipeline [WWW Document], n.d URL

http://www.bioinformatics.babraham.ac.uk/projects/hicup/ (Accessed 04.08.2014)

4.Mirny Pipeline [WWW Document], n.d URL

http://mirnylab.bitbucket.org/hiclib/ (Accessed 04.08.2014)

5.Langmead B, Salzberg S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 2012, 9:357-359

6.Dekker J, Rippe K, Dekker M, Kleckner N (2002). "Capturing chromosome conformation". Science 295 (5558): 1306–1311

Partagez cet article

Léopold Carron

Bioinformaticien de formation ayant complété son cursus par un master de machine learning appliqué aux langues à Nantes. Après une thèse et postdoc à la Sorbonne, je suis maintenant data scientist. J'aime python, le machine learning et analyser des données!

Pour continuer la lecture :

Commentaires

2 réponses à “Hi-C : Quelques bases”

Bioss

16 mai 2020

Cet article est très utile merci beaucoup. J'ai une question par rapport à la première étape, que vont contenir les fichiers en sortie de Bowtie après le mapping ?

Répondre
1. Léopold Carron
  
  19 mai 2020
  
  Salut Bioss, les fichiers en sorties de bowtie sont au format SAM et contiennent les positions ou chaque read/lecture est positionné sur le génome. Ils contiennent également de nombreuses informations sur la qualité de l'alignement. Plus de retour sur le format de sortie de bowtie ici :
  https://fr.wikipedia.org/wiki/SAM_(format_de_fichier)
  Merci du retour !
  
  Répondre

Laisser un commentaireAnnuler la réponse.

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.