- Le blog participatif de bioinformatique francophone depuis 2012 -

Ce qu'il faut voir sur une carte de contact chromosomique

Vous ne connais­sez pas le Hi‑C ? Avant de com­men­cer cette lec­ture, peut être vous faut-il la base, pré­cé­dem­ment expli­quée (mal­adroi­te­ment certes, pre­mier article oblige) sur cet autre article.

Sur la fin de mon stage de Mas­ter 2, j'ai eu la joie de reve­nir faire un tour dans les cartes de contacts chro­mo­so­miques (Hi‑C) pour diverses rai­sons. Par amu­se­ment (on va le dire ain­si), j'ai joué avec les échelles de cou­leur afin d’étudier l'impact sur les images obte­nues. Cette petite ses­sion d'orgie colo­ri­mé­trique m’a fait réa­li­ser quel impact le choix des cou­leurs pou­vait avoir sur la com­pré­hen­sion qu'on a des résul­tats. Et en bon scien­ti­fi­co-scep­tique, cela m’a don­né envie d'écrire un article sur un point très impor­tant de ce type de don­nées.

Sur les cartes de Hi‑C, dans une publi­ca­tion scien­ti­fique, que faut-il voir ? Quels sont les points, les infor­ma­tions impor­tantes à véri­fier nous per­met­tant de dire que nous ne sommes pas juste en train de nous faire tota­le­ment flouer par un biais tech­nique du fait du choix de la palette de cou­leur, de notre vision et notre per­cep­tion esthé­tique ?

Alors aujourd'hui, pour vous, je vais reprendre som­mai­re­ment les points impor­tants, et ce aus­si bien dans le trai­te­ment bio­in­for­ma­tique que dans la visua­li­sa­tion des cartes, en ten­tant par­fois de vous mon­trer ce qu'il faut regar­der sur ces images.

Petit résumé rapide du Hi‑C (pour les âmes perdues)

Le Hi‑C est une tech­nique per­met­tant de mesu­rer les quan­ti­tés de contacts de l'ensemble des régions de la chro­ma­tine dans le noyau des cel­lules d’un tis­su don­né. Cette infor­ma­tion est résu­mée sous la forme de matrices tri­an­gu­laires ordon­nées par coor­don­nées chro­mo­so­miques et par chro­mo­some. Chaque matrice repré­sente ain­si les inter­ac­tions rele­vées entre 2 loci sub­di­vi­sés en échan­tillons dis­crets de tailles fixes (en paires de bases) avec le pre­mier locus repré­sen­té par l’axe hori­zon­tal, et le second par l’axe ver­ti­cal.

Cette matrice est issue de pro­to­coles bio­lo­giques et bio­in­for­ma­tiques consé­quents. Une fois obte­nue, la carte est affi­chée sous forme d'image sca­laire. Géné­ra­le­ment, celle-ci est affi­chée en échelle loga­rith­mique afin de pou­voir dis­cer­ner quelque chose à l’œil, l’écart mesu­ré entre dif­fé­rentes valeurs étant pos­si­ble­ment très impor­tant.

Chaque case de la matrice repré­sente l'ensemble des inter­ac­tions entre deux régions i et j du génome. On défi­nit ain­si la réso­lu­tion comme la taille de l’échantillonnage réa­li­sé.

Points techniques de pipeline

Par­lons un peu de petites, hum… pré­ci­sions qu'il faut tou­jours véri­fier avec les cartes Hi‑C si vous vou­lez être sûrs de com­prendre la publi­ca­tion sur laquelle vous vous pen­chez.

Pre­mière ques­tion à se poser : Consi­dé­rant la ques­tion scien­ti­fique posée, les cartes ont-elles une pro­fon­deur de séquen­çage suf­fi­sante pour y répondre ?

Oui, c'est un point basique, mais qui s’avère capi­tal pour le Hi‑C. Contrai­re­ment à d’autres tech­niques telles que le Chip-seq ou le Rna-seq qui demandent aujourd’hui une pro­fon­deur de séquen­çage rela­ti­ve­ment rai­son­nable pour obte­nir un signal de qua­li­té, le Hi‑C demande un effort plus consé­quent. En effet, les inter­ac­tions cap­tu­rées vont se dérou­ler dans une frac­tion plus ou moins impor­tante des cel­lules de l’échantillon. Les inter­ac­tions longues dis­tances sont par exemple par nature très rares et donc dif­fi­ciles à cap­tu­rer. Au contraire, les inter­ac­tions à courtes dis­tances sont très fré­quentes, et vont donc capi­ta­li­ser une grande majo­ri­té des évé­ne­ments cap­tu­rés. Ain­si, alors qu’en ChIP-Seq une cou­ver­ture impor­tante per­met­tra de mieux dis­cer­ner les sites de fixa­tion plus faibles par rap­port au bruit de fond, elle per­met­tra avant tout pour le Hi‑C de carac­té­ri­ser des inter­ac­tions à plus longue dis­tance par rap­port au bruit de fond. A titre indi­ca­tif, dans une publi­ca­tion récente, Dar­row & al [5] ont séquen­cé chez l’humain jusqu’à 1.75 mil­liards de reads appai­rés pour une condi­tion pour cap­tu­rer 1.19 mil­liards d’interactions dont 640 mil­lions à plus de 20Kb de dis­tance. Dans la publi­ca­tion de Gab­dank & al[3] chez C.elegans, 6.2 mil­lions de reads ont été obte­nus per­met­tant d’obtenir 800 000 contacts valides dans la carte.

Dans cette tech­nique, ce n'est vrai­ment pas le nombre de reads obte­nus qui compte. L’information impor­tante, c’est le nombre d’interactions uniques cap­tu­rées. L’idée étant d’avoir alors suf­fi­sam­ment de reads (de signal) pour être capable de mesu­rer des dif­fé­rences entre régions du génome. Petit rap­pel, le génome de la dro­so­phile fait aux der­nières nou­velles envi­ron 120 Mega­base cou­vrable (on va dire 100 pour l’exemple qui va suivre) alors que celui de l'homme fait envi­ron 3 Giga­base. Donc il faut s'attendre à ce que pour des cartes de qua­li­té égales, le génome de l'homme soit séquen­cé 3000² fois plus (arron­di de 3Gb/​100Mb).

Cepen­dant, en fonc­tion de ce qui est cher­ché, une pro­fon­deur consé­quente n'est pas tou­jours néces­saire. Elle per­met d’obtenir des infor­ma­tions très fines sur des petites régions du génome. Aus­si pour des ana­lyses glo­bales, une pro­fon­deur réduite peut être lar­ge­ment suf­fi­sante. Les pre­mières publi­ca­tions ont per­mis de mesu­rer des inter­ac­tions à l’échelle de la méga­base, là où avec un séquen­çage plus impor­tant il est pos­sible d’avoir des cartes où les inter­ac­tions sont obser­vables à 5, voir 1 Kb !

Deuxième ques­tion plus taquine : Com­ment les reads ont-ils été fil­trés ?

Cette ques­tion est bien plus dif­fi­cile à appré­hen­der mais a tout de même son impor­tance. Autant le dire tout de suite, je ne suis pas un expert de la ques­tion. Voi­la cepen­dant ce que je peux vous trans­mettre : chaque pipe­line ne filtre pas les reads de la même manière. En géné­ral, sont conser­vés les reads dont la qua­li­té après séquen­çage est supé­rieure à un cer­tain seuil. Sont conser­vés éga­le­ment les reads se retrou­vant de part et d’autre d’un site de cou­pure, étant don­né que le pro­to­cole appuie sur l’utilisation d’une enzyme de res­tric­tion. Sans ren­trer dans les détails, les frag­ments que vous allez séquen­cer ont par­fois eu quelques ano­ma­lies et ne cor­res­pondent pas à ce qui est vrai­ment atten­du pour consti­tuer une carte.

Troi­sième pas si banale : La carte a t’elle été trai­tée ?

Der­nier petit point impor­tant, il est pos­sible de faire biens des trai­te­ments à une carte après sa consti­tu­tion… voyons donc ça !

Le pre­mier trai­te­ment consiste à nor­ma­li­ser la carte pour en sup­pri­mer les biais. Il existe une petite dizaine de méthodes pour se faire. La plus cou­rante consiste à faire en sorte que la somme de chaque ligne de la matrice soit égale, homo­gé­néi­sant ain­si l’information de la carte[2,6]. Il existe éga­le­ment des tech­niques per­met­tant de fil­trer selon les dés­équi­libres bio­lo­giques pou­vant affec­ter tech­ni­que­ment les mesures (taux de GC, faci­li­té d’identifier les régions lors de l'alignement etc… La nor­ma­li­sa­tion a un impact cer­tain sur les don­nées. Chaque méthode peut avoir un impact par­ti­cu­lier sur les don­nées et il est donc impor­tant de spé­ci­fier le choix de la méthode.

Il est éga­le­ment pos­sible de divi­ser les dia­go­nales d'une carte par leur valeur moyenne pour homo­gé­néi­ser la carte, ou de la trans­for­mer en carte de cor­ré­la­tion selon le coef­fi­cient de Pear­son. Ensuite petit détail à rap­pe­ler, les cartes sont géné­ra­le­ment affi­chées en échelle loga­rith­mique, géné­ra­le­ment log10, mais ça aus­si, c'est à véri­fier sys­té­ma­ti­que­ment (avec le pipe­line Homer[4] par exemple, les cartes sont affi­chées en échelle log2 !) .

Une petite der­nière : Et la réso­lu­tion de la carte ?

A titre de rap­pel, la réso­lu­tion d'observation d'une carte est défi­nie comme la taille des fenêtres uti­li­sées pour décou­per le génome en élé­ments dis­crets. Pour faire simple, le génome est divi­sé en fenêtres de taille fixe dans les­quelles les inter­ac­tions mesu­rées sont regrou­pées. En fonc­tion de la taille défi­nie on peut obser­ver des choses à plus ou moins grande échelle. Si on regroupe les régions avec une taille de fenêtre petite (1000 paires de bases par case dans la carte), on obtient alors une réso­lu­tion très détaillée des inter­ac­tions chro­ma­ti­niennes. Entre 10 000 et 50 000 paires de base, la réso­lu­tion est consi­dé­rée comme moyenne et idéale pour obser­ver les domaines topo­lo­giques ain­si que les com­par­ti­ments géno­miques ou les inter­ac­tions longue dis­tance (inter­ac­tion entre deux régions à plus de 20 000 paires de bases de dis­tance géno­mique). Des réso­lu­tions plus éle­vées sont idéales pour obser­ver les inter­ac­tions à très longue dis­tance et les inter­ac­tions entre chro­mo­somes (ou par­fois juste comp­ter le nombre de chro­mo­somes dans la carte et véri­fier les don­nées, ça m'arrive…). Le risque dans le choix d’une taille de fenêtre trop faible est de ne plus cap­tu­rer assez d’interactions pour chaque fenêtre, de diluer le signal, dimi­nuer le ratio signal/​bruit et perdre ain­si la capa­ci­té de retrou­ver les locus ayant des inter­ac­tions par­ti­cu­liè­re­ment éle­vées par rap­port à une moyenne.

Vous ne savez pas ce que sont toutes ces choses et com­ment on doit les voir sur une carte ? Eh bien c'est par­ti pour une petite séance d'exemples !

Les choses qu'on peut/​doit voir avec une carte : séance visuelle !

Pour cette par­tie je vais uti­li­ser mes propres cri­tères de visua­li­sa­tion en indi­quant à chaque fois tous les trai­te­ments que j'ai réa­li­sés à par­tir de la carte de contact sans nor­ma­li­sa­tion. Ces choix métho­do­lo­giques sont des choix per­son­nels et en aucun cas modèles à suivre à la lettre.

Pour ces exemples j'ai uti­li­sé des cartes de contacts de l'homme de très haute qua­li­té pro­ve­nant de Rao et al[1]. J'ai éga­le­ment uti­li­sé un peu, pour chan­ger les don­nées de C.elegans pro­ve­nant de Gab­dank et al[3].

Les domaines topologiques

Pour obser­ver des domaines topo­lo­giques et des inter­ac­tions entre domaines topo­lo­giques (ou TAD) avec des génomes tels que la dro­so­phile ou l'homme, l’idéal est d'avoir une réso­lu­tion rela­ti­ve­ment éle­vée, entre 1Kb et 50Kb. J'apprécie per­son­nel­le­ment de regar­der des cartes à 20Kb. Les TAD's s'observent sur des PETITES régions (pas plus de 5Mb est idéal). Pour l'exemple, je vous pro­pose de regar­der le chro­mo­some 1 en échelle log10 sans aucun trai­te­ment par­ti­cu­lier, dans la région allant de 100 à 105 Mega­base (Mb).

100to105mb-20kbres-log10untraited

Intri­guant non ? Com­pre­nons ce qu'il faut voir sur cette carte main­te­nant avec un peu d'annotation, j'ai enca­dré un domaine topo­lo­gique et un sous domaine en bleu sur cette carte :

Un domaine topologique, avec deux sous domaines sont encadrés en bleu!
Un domaine topo­lo­gique avec deux sous domaines enca­drés en bleu !

Ce qu'il faut voir sur cette carte : Le long de la dia­go­nale, vous voyez des tri­angles un peu plus mar­qués (par symé­trie on observe des car­rés autour de la dia­go­nale). Les lignes où il n'y a pas de contacts (les grands traits blancs), sont des régions ou il n'a pas été pos­sible de récu­pé­rer des contacts par manque d'accessibilité bio­lo­gique (région non ali­gnable voir non acces­sible au moment de l'expérience).

Les compartiments

Étu­dier les com­par­ti­ments géno­miques sur une carte est un peu plus com­plexe. Une fois la carte en main, j'ai alors nor­ma­li­sé la carte pour faire en sorte que chaque ligne et chaque colonne ait la même somme (selon la méthode de Cournac[2]), puis j'ai divi­sé chaque ligne, chaque dia­go­nale par sa valeur moyenne. J'ai ensuite trans­for­mé la carte en carte de cor­ré­la­tion pour enfin affi­cher le résul­tat. Les com­par­ti­ments sont des régions conte­nant les TAD's, il faut donc obser­ver des cartes plus grandes. Ici j'ai pris le chro­mo­some 1 entre 30 et 50Megabase. Pour la réso­lu­tion, elle est ici de 20Kb. On observe les com­par­ti­ments à des échelles de gran­deur supé­rieurs ou égale au TAD, en gar­dant à l'idée que les TAD's sont situés dans les com­par­ti­ments. Les échelles d'observations pour regar­der des com­par­ti­ments sont donc entre 20 et 100 Kb (toutes étant viable, ce qui compte le plus est d'observer une carte suf­fi­sam­ment grande).

badcor

Ce qu'il faut voir sur cette carte : Ce damier à un sens. Il per­met de voir les régions où la chro­ma­tine est active (et donc où les gènes sont expri­més) par rap­port aux régions ou la chro­ma­tine est inac­tive. Les car­rés sur la dia­go­nale ne sont plus des TAD's, mais contiennent des TAD's étant don­né que nous sommes à une échelle d'observation plus grande. Un autre point inté­res­sant sur cette carte réside dans l’échelle de cou­leur : avec une échelle com­prise entre 0 et 1, j’ai reca­li­bré l'étalonnage pour avoir un seuil de tran­si­tion de cou­leur à 0.5, on voit alors que sur cette carte, les cor­ré­la­tions entre com­po­sant sont rela­ti­ve­ment faibles.

Un pro­blème avec cette carte ? L'échelle de cou­leur est étrange non ? C'est exact ! Elle est faite pour vous faire voir ce que je sou­haite vous mon­trer. Lorsqu'on fait une carte de cor­ré­la­tion, il est plus juste de faire un éta­lon­nage avec deux cou­leurs avec une tran­si­tion en 0. Toute modi­fi­ca­tion de cet éta­lon­nage sera là pour modi­fier votre regard/​perception des obser­va­tions. Voi­la ce qu'il faut donc faire (la carte est iden­tique mais avec juste une échelle de cou­leur faite pro­pre­ment) :

bettercor

Alors certes, on dis­cerne peut-être moins bien les car­rés (donc les com­par­ti­ments qui sont, ce qu'on cherche à étu­dier), mais l'échelle de cou­leur ne biaise pas notre obser­va­tion cette fois-ci, elle per­met d'avoir un regard cri­tique sur nos don­nées direc­te­ment !

Les chromosomes entre eux

Pour obser­ver des inter­ac­tions entre chro­mo­somes, on va pas­ser à une échelle un peu plus grande car les inter­ac­tions rele­vées sont plus rares. En géné­ral, on regarde alors uni­que­ment les contacts inter­chro­mo­so­miques. La carte ne repré­sente donc plus un chro­mo­some par rap­port à lui même, mais un chro­mo­some par rap­port à un autre. Là j'ai choi­sis de vous mon­trer une carte de C.elegans adulte à par­tir des don­nées de Gab­dank et al[3] à une réso­lu­tion de 100Kb. Une fois n'est pas cou­tume je n’ai pas anno­té les axes X et Y. Sur cette carte le plus inté­res­sant n'est pas les coor­don­nées mais de voir que chaque car­ré ici est un chro­mo­some. Les contacts inter­chro­mo­so­miques sont donc les contacts entre les car­rés.

celegansallchr

Ce qu'il faut voir sur cette carte : si l'on cherche à étu­dier des contacts inter­chro­mo­so­miques, cette carte n'est pas adap­tée car elle contient rela­ti­ve­ment peu de signal dans ces régions.

En effet, j’ai repré­sen­té sur le même gra­phique les inter­ac­tions ayant lieu sur un même chro­mo­some (qua­si majo­ri­té des inter­ac­tions rele­vées) et celles beau­coup plus rares entre chro­mo­somes. Les faibles valeurs sont ain­si écra­sées par les fortes valeurs et ne sont donc plus visibles. Nous arri­vons donc à un point impor­tant dans la dif­fi­cul­té de repré­sen­ter les don­nées de Hi‑C : si les don­nées ne sont pas visibles, sont-elles pour autant inexis­tantes ou du moins pas impor­tantes ?

Attention à la visualisation

La forme de la carte

Les cartes sont géné­ra­le­ment affi­chées de trois manières cou­rantes. Et comme une image est tou­jours bien plus effi­cace que mes expli­ca­tions, voi­ci pour vous trois visua­li­sa­tions stric­te­ment iden­tiques de la même carte. Le résul­tat pré­sen­té est le même, seuls la forme et l'esthétisme changent. Pour ces exemples, j'ai sim­ple­ment récu­pé­ré le chro­mo­some 1 de l'homme et affi­ché 40Mb (entre 60 et 100Mb) de ce chro­mo­some en log10 à une réso­lu­tion de 20Kb.

fromwhitetored
Forme simple
fromwhitetored-copie
Forme inver­sé

C'est la même carte, on inverse juste l'axe des ordon­nées à l'observation (c'est une habi­tude, pour moi cette visua­li­sa­tion est équi­va­lente à la pre­mière).

 

fromwhitetored-autre-copie
Forme tri­an­gu­laire (a son charme aus­si)

Cette forme à l'avantage de ne plus nous faire voir la symé­trie et donne un vrai sens à la dis­tance entre deux régions géno­miques, ou on regarde plus faci­le­ment un chro­mo­some le long de son axe. Là encore, une ques­tion d'habitude, mais qui glo­ba­le­ment donne le résul­tat sui­vant. Ensuite per­son­nel­le­ment cette forme me gêne car j'ai du mal à y dis­tin­guer les domaines topo­lo­giques (cher­chant déses­pé­ré­ment un car­ré quelque part comme point de repère).

L’échelle de couleur

Main­te­nant je vais ten­ter de jouer avec les per­cep­tions de votre œil au niveau des échelles de cou­leurs. Voi­ci la carte pré­cé­dente, avec juste une visua­li­sa­tion… un peu per­son­nelle.

cheatedcolorscalejet
Obser­vez bien la zone que j'ai sur­li­gnée sur cette carte, on dirait un car­ré sur cette image.

Regar­dons en détail l'échelle de cou­leur… on remarque alors que le petit malin qui a fait cette carte a mis un palier de cou­leur tota­le­ment arti­fi­ciel à un moment don­né (une tran­si­tion de bleu vers jaune autour de 2.3 en échelle log10). Ce qu'il faut en com­prendre ? C'est qu'il NE FAUT PAS faire confiance à cette image ! L'auteur mali­cieux (qui, moi ?) à volon­tai­re­ment joué avec le contraste de l'image pour vous faire voir ce qu'il sou­haite ! Pour vous don­ner une idée de la tri­che­rie plus en détail, j'ai refait cette carte avec deux échelles : de blanc vers noir et de noirs vers blanc.

fromwhitetoblack
fromblacktowhite

Dis­cer­nez-vous la même chose sur les deux cartes ? Oui ? Non ? Voi­la les limites d'observations de votre œil et com­ment il est pos­sible de le mani­pu­ler avec une échelle de cou­leur bien ajus­tée.

Main­te­nant, on va reprendre la forme simple, encore une fois sur la même carte et agir sur la palette de cou­leurs. Je vais alors reprendre des palettes de cou­leur pré­sentes dans dif­fé­rentes publi­ca­tions et cou­ram­ment uti­li­sées.

suncolored
whitetowhiteweard

bluetowhite

Amu­sant non ? Arri­vez-vous à obser­ver les mêmes choses sur la carte en fonc­tion de l'échelle de cou­leur ? De manière géné­rale, on remarque que pour le Hi‑C, les échelles de cou­leur avec soit un seul gra­dient (de blanc vers rouge par exemple) ou deux gra­dients (de bleu à blanc, de blanc à rouge) semblent plus convain­cante a l’œil à condi­tion de savoir dans quel contexte les uti­li­ser.

Les don­nées de Hi‑C sont des don­nées com­plexes à ana­ly­ser et repré­sen­ter. Il revient aux bio­in­for­ma­ti­ciens de com­prendre le fonc­tion­ne­ment des outils en amont et des choix qui ont été posés jusqu’à la visua­li­sa­tion afin d’être en mesure d’intégrer les dif­fé­rences que tout cela peut appor­ter aux résul­tats.

Enjoy !

Un grand mer­ci aux relec­teurs : Nico_​M, Cho­po­pope et Kum­qua­tum

Je tiens tout par­ti­cu­liè­re­ment à remer­cier Nibua ancien enca­drant, et tou­jours là pour échan­ger et m’éclairer (me relire ?) dans ce domaine et en fait, co-auteur de l’article.

Citations

  1. A 3D Map of the Human Genome at Kilo­base Reso­lu­tion Reveals Prin­ciples of Chro­ma­tin Loo­ping, Rao, Suhas S.P. et al. Cell , Volume 159 , Issue 7 , 1665 — 1680
  2. Cour­nac A, Marie-Nel­ly H, Mar­bou­ty M, Kos­zul R, Moz­zi­co­nac­ci J. Nor­ma­li­za­tion of a chro­mo­so­mal contact map. BMC Geno­mics. 2012;13:436. doi:10.1186/1471–2164-13–436.
  3. Gab­dank I, Rama­kri­sh­nan S, Vil­le­neuve AM, Fire AZ. A stream­li­ned tethe­red chro­mo­some confor­ma­tion cap­ture pro­to­col. BMC Geno­mics. 2016;17:274. doi:10.1186/s12864-016‑2596‑3.
  4. Heinz S, Ben­ner C, Spann N, Ber­to­li­no E et al. Simple Com­bi­na­tions of Lineage-Deter­mi­ning Trans­crip­tion Fac­tors Prime cis-Regu­la­to­ry Ele­ments Requi­red for Macro­phage and B Cell Iden­ti­ties. Mol Cell 2010 May 28;38(4):576–589. PMID : 20513432
  5. Dele­tion of DXZ4 on the human inac­tive X chro­mo­some alters higher-order genome archi­tec­ture, Emi­ly M. Dar­row, Miriam H. Hunt­ley, Olga Dud­chen­ko, Ele­na K. Sta­me­no­va, Neva C. Durand,Zhuo Suna, Su-Chen Huang, Adrian L. San­born, Ido Machol, Muham­mad Sha­mim, Andrew P. Seberg,Eric S. Lan­der, Brian P. Chad­wick, and Erez Lie­ber­man Aiden, PNAS 2016
  6. Ima­kaev M, Fuden­berg G, McCord RP, et al. Ite­ra­tive Cor­rec­tion of Hi‑C Data Reveals Hall­marks of Chro­mo­some Orga­ni­za­tion. Nature methods. 2012;9(10):999‑1003. doi:10.1038/nmeth.2148.


Pour continuer la lecture :


Commentaires

6 réponses à “Ce qu'il faut voir sur une carte de contact chromosomique”

  1. Mer­ci beau­coup pour cet article mathu­rin 🙂

    J'ai quelques ques­tions qui me sont venues à l'esprit en te lisant :
    — A ta troi­sième ques­tion tu parles de biais à sup­pri­mer, quelle est leur ori­gine ? La seule sous enten­due par tes phrases qui suivent serait une ori­gine bio­lo­gique due à la varia­bi­li­té du vivant si je com­prends bien.
    — J'avoue me perdre un peu dans ton intro­duc­tion de la séance visuelle : si les cri­tères de visua­li­sa­tion que tu prends sur tes cartes sont per­son­nels (et donc arbi­traires ?) com­ment peut-on com­pa­rer deux cartes ?
    — "Il est plus juste de faire un éta­lon­nage avec deux cou­leurs avec une tran­si­tion en 0" => pour­quoi ? Est-ce que cela réduit un biais cog­ni­tif ?
    — Si la colo­ra­tion impacte tant l'interprétation des cartes et semble si sub­jec­tive, com­ment peut-on être sur de la vali­di­té de notre carte et donc de notre inter­pré­ta­tion ?

    1. Mathurin

      -Ca dépend des hypo­thèses que tu fais. La des­sus deux écoles. La pre­mière consiste à dire que comme chaque ligne ne contient pas autant de contact il faut faire en sorte que oui. La deuxième tente de prendre en compte divers para­mètres ( taux en GC, faci­li­té à ali­gner un read sur une région) et d'avoir un fac­teur de cor­rec­tion sur l'ensemble de ces biais. Donc oui, c'est une volon­té de cor­rec­tion de plu­sieurs biais bio­lo­giques.
      ‑Si deux cartes ont autant de contacts, un trai­te­ment bio­in­for­ma­tique équi­valent et sont obser­vées avec une échelle de cou­leur simi­laire, elles sont com­pa­rables visuel­le­ment, et numé­ri­que­ment.
      ‑Avec une cor­ré­la­tion clas­sique, tu as 3 valeurs qui ont du sens : ‑1,0 et 1, donc 3 valeurs impor­tantes à dis­cer­ner sur la carte, toutes tran­si­tions de cou­leurs en dehors de ces valeurs risque de biai­ser ton obser­va­tion (comme les mau­vais exemples que j'ai mis un peu par­tout).
      ‑En étant rigou­reux tout sim­ple­ment, et avec l'expérience. Les domaines topo­lo­giques sont robustes à pas mal de trai­te­ments et tou­jours visible sur une carte qui contient suf­fi­sam­ment de contacts. Donc si tes obser­va­tions avant et après trai­te­ment sont simi­laires, c'est que tu peux être sur de ton obser­va­tion.

      Est ce que ça répond à tes ques­tions ?

  2. Bon­jour !

    Tout d'abord un tout grand MERCI pour votre article très infor­ma­tif, je débute dans le domaine de l'Hi‑C & co., et il m'a bien aidé à com­prendre l'interprétation de ces cartes d'interaction.

    Par contre, je ne suis pas bien sûre d'avoir sai­si le lien résolution/​profondeur de séquen­çage. Comme j'avais com­pris, aug­men­ter la pro­fon­deur de séquen­çage per­met­tait une réso­lu­tion plus fine (i.e. inter­ac­tions courte dis­tance ?), car on ne cap­ture "par chance" qu'une par­tie des inter­ac­tions (en lien avec l'activité des enzymes de res­tric­tion ?) et plus on regarde à plus petite échelle, plus la pro­ba­bi­li­té d'avoir cou­vert une région en par­ti­cu­lier s'amenuise, d'où la néces­si­té d'augmenter la cou­ver­ture. C'est comme ça que je com­pre­nais e.g. les cita­tions sui­vantes : "to increase the reso­lu­tion by a fac­tor of n, one must increase the num­ber of reads by a fac­tor of n^2" (Lie­ber­man-Aiden et al. 2009) ou encore "if the goal is to mea­sure large scale struc­tures, such as geno­mic com­part­ments, then a lower reso­lu­tion will often suf­fice (1–10 MB)" (Lajoie et al. 2015). Dès lors, votre expli­ca­tion ("Les inter­ac­tions longues dis­tances sont par exemple par nature très rares et donc dif­fi­ciles à cap­tu­rer. Au contraire, les inter­ac­tions à courtes dis­tances sont très fré­quentes, et vont donc capi­ta­li­ser une grande majo­ri­té des évé­ne­ments cap­tu­rés. Ain­si, […] une cou­ver­ture impor­tante […] per­met­tra avant tout pour le Hi‑C de carac­té­ri­ser des inter­ac­tions à plus longue dis­tance par rap­port au bruit de fond.") m'a mis dans la confu­sion. Pour­riez-vous m'éclairer sur ce point ? Aug­men­ter la réso­lu­tion veut bien dire pou­voir "bin­ner" le génome avec des fenêtres de plus en plus petites ?

    Autre petite ques­tion au pas­sage, pour­riez-vous me dire quel outil vous avez uti­li­sé pour pro­duire ces cartes (HiC­Plot­ter?) ? En auriez-vous un à recom­man­der à un(e) débutant(e) ?

    Encore mer­ci et cor­diales salu­ta­tions,

    Eri­ca

    1. Mathurin

      Salut Eri­ca ! Alors :

      Pour­riez-vous m'éclairer sur ce point ? Les contacts à longues dis­tances sont plus rares. Donc pour être sur d'en avoir, il faut avoir séquen­cés suf­fi­sam­ment de reads. Ta com­pré­hen­sion des cita­tions est bonne, c'est juste une infor­ma­tion sup­plé­men­taire. A savoir qu'il est bien de séquen­cer plus AUSSI pour voir les contacts à longues dis­tances, que typi­que­ment tu dis­cerne mieux avec des don­nées de très hautes qua­li­tés.

      Aug­men­ter la réso­lu­tion veut bien dire pou­voir "bin­ner" le génome avec des fenêtres de plus en plus petites ? Exact, et pour cela il faut avoir suf­fi­sam­ment de contacts dans ta carte, donc bien séquen­cer plus.

      Pour ces cartes j'ai uti­li­sé quelques lignes de com­mandes mat­lab. J'ai pas spé­cia­le­ment de recom­man­da­tion d'outil à faire, beau­coup se valent. Mais si tu cherche quelque chose de rela­ti­ve­ment com­plet et abor­dable en terme d'accès uti­li­sa­teur, tu peux regar­der du coté de HiC-Pro.

      1. Mer­ci beau­coup pour votre réponse 🙂

  3. Méthode (le HI‑C) très inter­es­sante et très très bien expli­quée. Mer­ci !

Laisser un commentaire