- Le blog participatif de bioinformatique francophone depuis 2012 -

Hi‑C : Quelques bases

Aujourd'hui on va décou­vrir ensemble une des petites der­nières dans la famille des tech­niques hauts débits : le High Chro­mo­some Contact map (Hi C)[1] . Reve­nons sur quelques bases : un gène ne pour­ra être expri­mé que si l'ADN qui le code est déplié. Par consé­quent les régions dans les­quelles les gènes ne sont pas expri­més sont quant à elles repliées et forment ce qu'on appelle les domaines topo­lo­giques (TADs). La méthode pré­sen­tée ici per­met d'étudier ces domaines et leurs inter­ac­tions . Tachant en pre­mier lieu de com­prendre le pro­to­cole bio­lo­gique de la tech­nique, nous don­ne­rons une idée glo­bale des étapes requises avant la visua­li­sa­tion des don­nées.

Protocole biologique

Cette méthode a été déve­lop­pée grâce à un cou­plage entre les tech­niques NGS et de Chro­mo­some Confor­ma­tion Cap­ture (3C)[6].

Nous pou­vons réa­li­ser cette méthode en sui­vant ce pro­to­cole : par­tant d'une culture cel­lu­laire, un cross­link ( réti­cu­la­tion : tout frag­ment d'ADN proche d'un autre va être chai­né à celui-ci) sur l'ADN des cel­lules est fait. Ensuite l'ensemble de l'ADN est sou­mis à une enzyme de res­tric­tion (géné­ra­le­ment Hin­dIII). Les frag­ments obte­nus sont liés pour ensuite, enle­ver le cross­link. On obtient ain­si une librai­rie (banque d'ADN phy­sique) qui contient donc des frag­ments d'ADN étant, à l'origine, issus de deux frag­ments spa­tia­le­ment proches dans le noyau.

Image 1 : Pro­to­cole du Hi‑C, les 4 pre­mières étapes sont com­munes avec le 3C (non détaillé dans cette image). (CC)

Cette base est un pro­to­cole 3C clas­sique et il ne nous reste plus qu'une étape de séquen­çage haut débit sur les deux sens des frag­ment en pai­red-end ( reads appai­rés) pour pas­ser du 3C au Hi‑C.

Traitement des reads(séquences lues) et visualisation des données

Cette par­tie per­met de décrire com­ment mani­pu­ler les jeux de don­nées NGS obte­nus pour en extraire une infor­ma­tion nou­velle : une carte de contact chro­mo­so­mique. Cette carte se pré­sente sous la forme d'une matrice, dans laquelle est conte­nue le nombre de fois qu'un read a été retrou­vé avec un autre.

Les jeux de don­nées NGS ain­si obte­nus contiennent une infor­ma­tion : des séquences cou­plées, appe­lées pai­red end en anglais. Ces séquences cor­res­pondent à des régions de l'ADN en contact au moment de la réti­cu­la­tion (cross link sur l'image 1), et qui sont donc proches spa­tia­le­ment dans la cel­lule. Le but va donc être de retrou­ver toutes ces régions et de les visua­li­ser ensembles.

1ère étape : Mapping (Alignement sur un génome de référence)

Pour cette étape, l'alignement doit être réa­li­sé en prio­ri­té sans mis­match(déca­lage) en favo­ri­sant le meilleur score d'alignement pos­sible. Par exemple, uti­li­ser Bowtie2[5] avec les options –local et –very-sen­si­tive-local.

Point tech­nique impor­tant : Les reads appai­rés pou­vant être séquen­cés sur des régions qui sont très éloi­gnées (voir sur des chro­mo­somes dif­fé­rents), il fau­dra map­per indé­pen­dam­ment les deux par­ties des reads appai­rés (qui sont nor­ma­le­ment dans deux fichiers sépa­rés). Par la suite, ce com­plé­ment d'information sera inclus dans l'analyse grâce aux numé­ros des reads qui sont com­muns entre les deux par­ties du read pai­ré, nous per­met­tant plus tard de fusion­ner à nou­veaux les deux résul­tats en un seul.

2ème étape : Filtre des séquences lues

 Une fois les séquences ali­gnées sur le génome, on va fil­trer les fichiers pour ne gar­der que les coor­don­nées chro­mo­so­miques et le numé­ro ou chaque read a été map­pé. Une fois ce filtre réa­li­sé, on fusionne les deux fichiers en ne sélec­tion­nant que les reads qui ont le même numé­ro dans les deux fichiers, et donc qui sont appai­rés. On obtien­dra ain­si une liste conte­nant les coor­don­nées chro­mo­so­miques de chaque paire.

exemple :

chr1 2000 chr 5 548624

chr1 2144 chr1 2411

chr1 2144 chr1 2166

chrY 45454 chr Y 24765

On note qu'il peut être inté­res­sant de rem­pla­cer les coor­don­nées des reads par celles des frag­ments de res­tric­tion dont elles sont issues. Cette étape fera poten­tiel­le­ment gagner du temps sur la suite du pipe­line et rédui­ra consi­dé­ra­ble­ment la taille du résul­tat final sans perte de sa qua­li­té.

3ème étape : Constitution de la carte de contact chromosomique

À par­tir de cette liste, il faut main­te­nant comp­ter le nombre de fois qu'un read appa­raît avec un autre et sto­cker le résul­tat dans une matrice ordon­née par chro­mo­some. La matrice ain­si obte­nue est une matrice de contact ou carte de contact chro­mo­so­mique.

4ème étape : Visualisation

Pour visua­li­ser une matrice, on réa­lise une image sca­laire de la matrice. La façon  de visua­li­ser cor­rec­te­ment une matrice pour­rait être le sujet d'un article entier et demande des heures de tra­vail. Cet article  étant un article d'introduction seuls quelques conseils seront four­nis :

  • Ces matrices sont sou­vent très volu­mi­neuses et contiennent des infor­ma­tions peu homo­gène sur l'ensemble de la matrice. Regrou­per les infor­ma­tions per­met d'obtenir une meilleure vision des infor­ma­tions. La matrice ain­si obte­nue, plus petite, ne sera que plus facile à affi­cher et sto­cker en mémoire.
  • Nor­ma­li­ser les don­nées entre 0 et 1 est sou­vent indis­pen­sable faute de quoi, les infor­ma­tions en très grandes quan­ti­tés proches de la dia­go­nale ren­dront les autres invi­sibles.
  • Dans une publi­ca­tion, le plus impor­tant est de voir ce qui est obser­vé. Si l'on regarde l'ensemble des don­nées , les car­rés obser­vables proches de la dia­go­nale cor­res­pon­dront aux contacts intra-chro­mo­so­mique. À plus fine échelle sur un chro­mo­some, un car­ré visible sur l'image (case de damier) cor­res­pon­dra à un domaine topo­lo­gique, c'est-à-dire une région où l'ADN est très replié sur lui-même. On observe sou­vent une forme de damier sur ces images ce qui se tra­duit par le fait qu'un domaine topo­lo­gique peut inter­agir avec plu­sieurs autre.
Image 2 : Exemple de repré­sen­ta­tion de ces matrices. Cette matrice est symé­trique par rap­port à sa dia­go­nale prin­ci­pale (d'en haut à gauche, vers en bas à droite) . Le gra­dient de cou­leur montre la pro­por­tion de contacts dans la région obser­vée. Cette image repré­sente la car­to­gra­phie de contact du chro­mo­some 1 de la sou­ris. Les reads ont été regrou­pés pour n'avoir plus que 3000 frag­ments ce qui amé­liore gran­de­ment la qua­li­té visuelle de l'image.(CC)

Nous vous avons ain­si pré­sen­té les bases de la tech­nique Hi‑C, vous per­met­tant à la fois de com­prendre le pro­to­cole bio­lo­gique de la tech­nique et les idées de bases du trai­te­ment de ces don­nées. Nous revien­drons dans un pro­chain article sur des points plus spé­ci­fiques, comme la nor­ma­li­sa­tion des matrices de contact. En atten­dant, pour plus d'information,  nous vous recom­man­dons d'aller sur des sites pro­po­sant un tuto­riel com­plet comme Homer[3].
Pour ceux qui ne sou­haitent pas construire leurs pipe­lines eux-mêmes, des sites comme Babraham[4] ou encore Mirny[5] ain­si qu'Homer pro­posent des outils pour l'analyse de ces don­nées.

Remer­cie­ments

Je tiens à remer­cier Julien Moz­zi­co­nac­ci et Julien Ripo­so pour m'avoir tant apprit dans ce domaine. Je tiens aus­si à remer­cier sin­cè­re­ment Annie Lebre­ton,  Hed­jour et Nahoy  pour leurs pré­cieuses relec­tures.

Cita­tions :

1.The Hi‑C [WWW Docu­ment], n.d. URL

http://​www​.jove​.com/​v​i​d​e​o​/​1​8​6​9​/​h​i​-​c​-​a​-​m​e​t​h​o​d​-​t​o​-​s​t​u​d​y​-​t​h​e​-​t​h​r​e​e​-​d​i​m​e​n​s​i​o​n​a​l​-​a​r​c​h​i​t​e​c​t​u​r​e​-​of-genomes

(Acces­sed 24.06.2014)

2.HOMER Pipe­line [WWW Docu­ment], n.d. URL

http://​homer​.salk​.edu/​h​o​m​er/ (Acces­sed 24.06.2014)

3.Babraham Pipe­line [WWW Docu­ment], n.d URL

http://​www​.bio​in​for​ma​tics​.babra​ham​.ac​.uk/​p​r​o​j​e​c​t​s​/​h​i​c​up/ (Acces­sed 04.08.2014)

4.Mirny Pipe­line [WWW Docu­ment], n.d URL

http://​mir​ny​lab​.bit​bu​cket​.org/​h​i​c​l​ib/ (Acces­sed 04.08.2014)

5.Langmead B, Salz­berg S. Fast gap­ped-read ali­gn­ment with Bow­tie 2. Nature Methods. 2012, 9:357–359

6.Dekker J, Rippe K, Dek­ker M, Kle­ck­ner N (2002). "Cap­tu­ring chro­mo­some confor­ma­tion". Science 295 (5558): 1306–1311



Pour continuer la lecture :


Commentaires

2 réponses à “Hi‑C : Quelques bases”

  1. Avatar de Bioss

    Cet article est très utile mer­ci beau­coup. J'ai une ques­tion par rap­port à la pre­mière étape, que vont conte­nir les fichiers en sor­tie de Bow­tie après le map­ping ?

    1. Mathurin
      Léopold Carron

      Salut Bioss, les fichiers en sor­ties de bow­tie sont au for­mat SAM et contiennent les posi­tions ou chaque read/​lecture est posi­tion­né sur le génome. Ils contiennent éga­le­ment de nom­breuses infor­ma­tions sur la qua­li­té de l'alignement. Plus de retour sur le for­mat de sor­tie de bow­tie ici :
      https://​fr​.wiki​pe​dia​.org/​w​i​k​i​/​S​A​M​_​(​f​o​r​m​a​t​_​d​e​_​f​i​c​h​ier)
      Mer­ci du retour !

Laisser un commentaire