Qu'est ce qu'un TAD ? (Topological associated domain)

Dans l'article pré­cé­dent, j'ai par­lé des dif­fé­rentes échelles d'organisation de la chro­ma­tine mais me suis attar­dé sur les éche­lons les plus grands. Cette obser­va­tion glo­bale de la carte a alors per­mis de défi­nir la notion de com­par­ti­ment géno­mique. Mais com­ment l'ADN s'organise loca­le­ment ? Qu'observe-t-on sur une carte de contact chro­mo­so­mique en zoo­mant fine­ment sur une région plu­tôt que regar­der un chro­mo­some entier ? Aujourd'hui je vous pro­pose de conti­nuer d'en apprendre plus sur le sujet en essayant de com­prendre ce qu'est un TAD (pour topo­lo­gi­cal asso­cia­ted domain).

Ces deux articles étant écrits en miroir l'un de l'autre, je vous conseille vive­ment de lire le pré­cé­dent, mais éga­le­ment les quelques notions de Hi‑C dis­pen­sées sur le blog (bases, cartes de contact, les visua­li­ser). Les pré­re­quis de lec­tures à connaître sont les sui­vantes : savoir ce que contient une carte Hi‑C, la notion de réso­lu­tion sur ces cartes et quelques bases de géné­tique.

L'organisation locale de la chromatine dans le noyau

Repar­tons de nos com­par­ti­ments géno­miques comme échelle d'étude de la chro­ma­tine. Pour pou­voir expri­mer un gène, cer­taines régions d'un com­par­ti­ment vont avoir besoin d'être proches les unes des autres. Ces régions vont alors s’agglutiner entre elles et for­mer des amas de chro­ma­tine. Lorsque ces deux régions sont éloi­gnées dans la séquence, il se for­me­ra alors une boucle de chro­ma­tine. Si plus de deux régions ont besoin d'une cer­taine proxi­mi­té, il se for­me­ra un amas plus com­plexe : un TAD. Il est alors pos­sible de voir la chro­ma­tine comme une suc­ces­sion de boucle ou de TAD qui vont se répar­tir dans dif­fé­rents com­par­ti­ments géno­miques.

Pour expli­quer plus sim­ple­ment cette idée je vais reprendre la méta­phore de l'article pré­cé­dent : met­tons des gens dans un bar et regar­dons com­ment les fumeurs (qui repré­sentent nos gènes expri­més) vont se répar­tir par rap­port aux non-fumeurs (qui repré­sentent tout le reste du génome) dans la pièce. En rai­son des contraintes impo­sées par le lieu, les fumeurs vont avoir ten­dance à se regrou­per dans les mêmes salles du res­tau­rant, c'est la notion de com­par­ti­ment dans l'espace et de répar­ti­tion de ceux-ci. Mais si je sou­haite aller plus loin je peux regar­der com­ment les indi­vi­dus se répar­tissent à chaque table dans ces salles, sont-ils à la même table ? Est-ce qu'il y a tout de même des non-fumeurs qui les accom­pagnent ? Est-ce qu'il y a des gens autour d'une table qui sont plus col­lés que le reste du groupe ? Pour savoir cela, il faut arrê­ter de regar­der glo­ba­le­ment le bar, mais d'aller voir ce qui se passe loca­le­ment entre chaque table pour com­prendre nos inter­ac­tions entre indi­vi­dus. Pour cela je vais donc devoir récol­ter plus d'informations sur les gens pré­sents (leur deman­der dans quelle salle ils sont, mais aus­si leur numé­ro de table) , c'est-à-dire col­lec­ter plus de signal, et zoo­mer atten­ti­ve­ment sur chaque table étu­diée si je veux être pré­cis sur les inter­ac­tions. Du point de vue de la chro­ma­tine c'est la même chose, le TAD est un affi­ne­ment d'échelle d'observation !

Obser­va­tion paral­lèle d'une carte Hi‑C et la réa­li­té bio­lo­gique équi­va­lente. Les cartes Hi‑C ont été trai­tées de manière à mettre en avant chaque struc­ture. Si on regarde les com­par­ti­ments on regarde com­ment chaque bloc du génome se répar­tit dans l'espace et donc quel bloc est en proche de quel autre (le damier). Si on regarde les TAD on regarde ce que contient chaque bloc et com­ment il est for­mé. Cette infor­ma­tion se trouve uni­que­ment dans les régions autour de la dia­go­nale.

Propriétés biologiques des TAD et des boucles

Un TAD peut éven­tuel­le­ment conte­nir des boucles de chro­ma­tine. La pre­mière publi­ca­tion [1] par­lant de cette struc­ture montre que la chro­ma­tine est divi­sée en suites d'amas le long du génome. Dans de nom­breux papiers, on remarque que l'expression des gènes est liée à la pré­sence de boucle ou de TAD. Leur for­ma­tion est prin­ci­pa­le­ment liée à deux pro­téines, la cohé­sine et CTCF. CTCF va avoir pour rôle de for­mer des amas en rap­pro­chant deux séquences d'ADN spé­ci­fiques. Inver­ser le site de fixa­tion de CTCF va inva­li­der la for­ma­tion du TAD asso­cié et modi­fier sa hié­rar­chie. Ce genre de modi­fi­ca­tion peut cau­ser des patho­lo­gies comme des poly­dac­ty­lies [2]. La cohé­sine va super­vi­ser CTCF, faci­li­tant la for­ma­tion des TADs. Pour une ver­sion ani­mée je conseille for­te­ment cette vidéo [3].

Reconnaître les TADs et boucles à l'oeil

Voyons main­te­nant com­ment trou­ver ces struc­tures sur des don­nées Hi‑C. Comme pour l'article pré­cé­dent, je vais uti­li­ser les don­nées humaines issues de Rao 2014 [4] en zoo­mant sur les don­nées. Pour obser­ver cor­rec­te­ment les com­par­ti­ments géno­miques, on regarde le génome par bloc de 100 kb. Ici pour les TAD, je vais le regar­der par bloc de plus petite taille, 20 kb (mais il est pos­sible de prendre plus petit, un TAD fait une cen­taine de kilo­bases, il faut donc avoir une réso­lu­tion assez fine pour le voir). L'idée est de voir appa­raître des struc­tures qu'on ne pour­rait pas voir en regar­dant ces images par bloc plus gros. Plu­tôt que d'afficher le chro­mo­some entier, je vais zoo­mer sur le début du chro­mo­some 1 sur la région de 6 à 10 méga­base et ain­si avoir un exemple encore plus par­lant. La carte est affi­chée en échelle log10 après nor­ma­li­sa­tion pour avoir une infor­ma­tion homo­gène par ligne/​colonne. Les points les plus blancs contiennent peu de contacts. Les points rouges sont ceux ou on retrouve beau­coup de contacts.

Carte de fré­quence de contact du chro­mo­some 1 entre 6Mb et 10Mb, nor­ma­li­sée pour avoir une infor­ma­tion homo­gène par ligne/​colonne puis affi­chée en log10. Les points les plus blancs contiennent peu de contacts. Les points les plus blancs contiennent peu de contacts. Les points rouges sont ceux ou on retrouve beau­coup de contacts. Don­nées pro­ve­nant de Rao & al, 2014 [2].

Qu'observe-t-on ? Le long de la dia­go­nale, on voit des petits car­rés nets, comme dans un de mes articles pré­cé­dents (qui était la ver­sion sim­pli­fiée de celui-ci en fait hum…). Ce sont des TADs !

Si vous êtes pré­cis vous pou­vez voir que tous les car­rés ne se res­semblent pas. Le long du génome, on peut voir plu­sieurs struc­tures carac­té­ris­tiques : les TAD, les boucles. Voi­ci un petit sché­ma résu­mé de ce qu'il faut voir sur cette carte :

Repré­sen­ta­tion d'un TAD et d'une boucle.

En résu­mé, sur cette image, un TAD, c'est un car­ré sur la dia­go­nale, soit basi­que­ment un amas loca­li­sé de contacts sur toute une région du génome. Une boucle c'est un car­ré hors de la dia­go­nale, c'est une concen­tra­tion de contacts entre deux régions pré­cises plu­tôt que sur un amas entier. Dans l'article pré­cé­dent, un com­par­ti­ment géno­mique était l’interaction de toutes les régions entre elles. Nous sommes donc pas­sé des inter­ac­tions glo­bales (les com­par­ti­ments) aux locales (nos TADs et nos boucles).

Détecter les TAD à partir de données Hi‑C

Main­te­nant que nous avons vu les bases, essayons de faire un peu d'analyse sur ces don­nées en posant la ques­tion sui­vante : est-il pos­sible de détec­ter auto­ma­ti­que­ment tous les TADs pré­sents dans une carte de contacts ? Pour répondre à cette ques­tion, nous sommes confron­tés à plu­sieurs dif­fi­cul­tés. Com­ment défi­nir la hié­rar­chie entre les TADs ? Sommes-nous capable d'en extraire des bor­dures à la case près ? Est-ce qu'il y a une marge d'erreur dans la détec­tion de ses struc­tures en fonc­tion de la réso­lu­tion ? Toutes ses ques­tions ont ame­né de nom­breuses équipes à pro­po­ser leurs outils de détec­tions. Deux méthodes connues sont Top­Dom [5] et Arrow­head [6], mais ce ne sont que deux exemples d'idées pour résoudre ce pro­blème par­mi une longue liste [7,8,9]. D'autres solu­tions sont toutes autant valables à l'heure où j'écris ces lignes. Pour com­pa­rer ces méthodes entre elles, je recom­mande la lec­ture d'une publi­ca­tion de bench­mark [10].

Plu­tôt que de vous détailler toutes ces tech­niques, je vais finir cet article en vous pré­sen­tant rapi­de­ment l'algorithme Top­Dom, avec lequel j'ai le plus d’expérience. La méthode uti­lise les pro­prié­tés des cartes de contact en regar­dant l'ensemble des contacts les plus proches de la dia­go­nale. Pour cela, l'algorithme défi­nit un car­ré au-des­sus de la dia­go­nale avec laquelle il va par­cou­rir la carte de contact. Il va alors cal­cu­ler la somme des contacts pré­sents dans ce car­ré le long du génome. Là où un TAD est pré­sent, la somme le long de la fenêtre sera plus grande que dans le reste du génome. Entre deux TAD, on trouve une baisse dans cette somme. L'objectif va alors être de détec­ter tous les mini­ma locaux dans cette somme en ne gar­dant que les plus extrêmes. On obtient alors la liste des coor­don­nées des TADs détec­tés.

Figure résu­mée et ins­pi­rée de TOPDOM en ver­sion assez simple. J'ai juste affi­ché la carte de contact pré­cé­dente et mon­tré le signal pré­sent dans les régions par­cou­rues. Quand le signal dimi­nue il y a une fron­tière entre deux TADs.

Arri­ver à cette ver­sion de l'article a été l'occasion de nom­breux débats et réécri­ture pour gagner en clar­té. Je dois donc de grand mer­ci à beau­coup de relec­teurs : Élo­die Laine, Gwe­naëlle, le petit Guillaume Devailly, la grande Jnsll, Pierre E, aze­rin, Yoann M, et ZaZo0o.

Références



Pour continuer la lecture :


Commentaires

Laisser un commentaire