Qu'est ce qu'un TAD ? (Topological associated domain)

10 septembre 2020

-

par

Dans l'article précédent, j'ai parlé des différentes échelles d'organisation de la chromatine mais me suis attardé sur les échelons les plus grands. Cette observation globale de la carte a alors permis de définir la notion de compartiment génomique. Mais comment l'ADN s'organise localement ? Qu'observe-t-on sur une carte de contact chromosomique en zoomant finement sur une région plutôt que regarder un chromosome entier ? Aujourd'hui je vous propose de continuer d'en apprendre plus sur le sujet en essayant de comprendre ce qu'est un TAD (pour topological associated domain).

Ces deux articles étant écrits en miroir l'un de l'autre, je vous conseille vivement de lire le précédent, mais également les quelques notions de Hi-C dispensées sur le blog (bases, cartes de contact, les visualiser). Les prérequis de lectures à connaître sont les suivantes : savoir ce que contient une carte Hi-C, la notion de résolution sur ces cartes et quelques bases de génétique.

L'organisation locale de la chromatine dans le noyau

Repartons de nos compartiments génomiques comme échelle d'étude de la chromatine. Pour pouvoir exprimer un gène, certaines régions d'un compartiment vont avoir besoin d'être proches les unes des autres. Ces régions vont alors s’agglutiner entre elles et former des amas de chromatine. Lorsque ces deux régions sont éloignées dans la séquence, il se formera alors une boucle de chromatine. Si plus de deux régions ont besoin d'une certaine proximité, il se formera un amas plus complexe : un TAD. Il est alors possible de voir la chromatine comme une succession de boucle ou de TAD qui vont se répartir dans différents compartiments génomiques.

Pour expliquer plus simplement cette idée je vais reprendre la métaphore de l'article précédent : mettons des gens dans un bar et regardons comment les fumeurs (qui représentent nos gènes exprimés) vont se répartir par rapport aux non-fumeurs (qui représentent tout le reste du génome) dans la pièce. En raison des contraintes imposées par le lieu, les fumeurs vont avoir tendance à se regrouper dans les mêmes salles du restaurant, c'est la notion de compartiment dans l'espace et de répartition de ceux-ci. Mais si je souhaite aller plus loin je peux regarder comment les individus se répartissent à chaque table dans ces salles, sont-ils à la même table ? Est-ce qu'il y a tout de même des non-fumeurs qui les accompagnent ? Est-ce qu'il y a des gens autour d'une table qui sont plus collés que le reste du groupe ? Pour savoir cela, il faut arrêter de regarder globalement le bar, mais d'aller voir ce qui se passe localement entre chaque table pour comprendre nos interactions entre individus. Pour cela je vais donc devoir récolter plus d'informations sur les gens présents (leur demander dans quelle salle ils sont, mais aussi leur numéro de table) , c'est-à-dire collecter plus de signal, et zoomer attentivement sur chaque table étudiée si je veux être précis sur les interactions. Du point de vue de la chromatine c'est la même chose, le TAD est un affinement d'échelle d'observation !

Observation parallèle d'une carte Hi-C et la réalité biologique équivalente. Les cartes Hi-C ont été traitées de manière à mettre en avant chaque structure. Si on regarde les compartiments on regarde comment chaque bloc du génome se répartit dans l'espace et donc quel bloc est en proche de quel autre (le damier). Si on regarde les TAD on regarde ce que contient chaque bloc et comment il est formé. Cette information se trouve uniquement dans les régions autour de la diagonale.

Propriétés biologiques des TAD et des boucles

Un TAD peut éventuellement contenir des boucles de chromatine. La première publication [1] parlant de cette structure montre que la chromatine est divisée en suites d'amas le long du génome. Dans de nombreux papiers, on remarque que l'expression des gènes est liée à la présence de boucle ou de TAD. Leur formation est principalement liée à deux protéines, la cohésine et CTCF. CTCF va avoir pour rôle de former des amas en rapprochant deux séquences d'ADN spécifiques. Inverser le site de fixation de CTCF va invalider la formation du TAD associé et modifier sa hiérarchie. Ce genre de modification peut causer des pathologies comme des polydactylies [2]. La cohésine va superviser CTCF, facilitant la formation des TADs. Pour une version animée je conseille fortement cette vidéo [3].

Reconnaître les TADs et boucles à l'oeil

Voyons maintenant comment trouver ces structures sur des données Hi-C. Comme pour l'article précédent, je vais utiliser les données humaines issues de Rao 2014 [4] en zoomant sur les données. Pour observer correctement les compartiments génomiques, on regarde le génome par bloc de 100 kb. Ici pour les TAD, je vais le regarder par bloc de plus petite taille, 20 kb (mais il est possible de prendre plus petit, un TAD fait une centaine de kilobases, il faut donc avoir une résolution assez fine pour le voir). L'idée est de voir apparaître des structures qu'on ne pourrait pas voir en regardant ces images par bloc plus gros. Plutôt que d'afficher le chromosome entier, je vais zoomer sur le début du chromosome 1 sur la région de 6 à 10 mégabase et ainsi avoir un exemple encore plus parlant. La carte est affichée en échelle log10 après normalisation pour avoir une information homogène par ligne/colonne. Les points les plus blancs contiennent peu de contacts. Les points rouges sont ceux ou on retrouve beaucoup de contacts.

Carte de fréquence de contact du chromosome 1 entre 6Mb et 10Mb, normalisée pour avoir une information homogène par ligne/colonne puis affichée en log10. Les points les plus blancs contiennent peu de contacts. Les points les plus blancs contiennent peu de contacts. Les points rouges sont ceux ou on retrouve beaucoup de contacts. Données provenant de Rao & al, 2014 [2].

Qu'observe-t-on ? Le long de la diagonale, on voit des petits carrés nets, comme dans un de mes articles précédents (qui était la version simplifiée de celui-ci en fait hum…). Ce sont des TADs !

Si vous êtes précis vous pouvez voir que tous les carrés ne se ressemblent pas. Le long du génome, on peut voir plusieurs structures caractéristiques : les TAD, les boucles. Voici un petit schéma résumé de ce qu'il faut voir sur cette carte :

Représentation d'un TAD et d'une boucle.

En résumé, sur cette image, un TAD, c'est un carré sur la diagonale, soit basiquement un amas localisé de contacts sur toute une région du génome. Une boucle c'est un carré hors de la diagonale, c'est une concentration de contacts entre deux régions précises plutôt que sur un amas entier. Dans l'article précédent, un compartiment génomique était l’interaction de toutes les régions entre elles. Nous sommes donc passé des interactions globales (les compartiments) aux locales (nos TADs et nos boucles).

Détecter les TAD à partir de données Hi-C

Maintenant que nous avons vu les bases, essayons de faire un peu d'analyse sur ces données en posant la question suivante : est-il possible de détecter automatiquement tous les TADs présents dans une carte de contacts ? Pour répondre à cette question, nous sommes confrontés à plusieurs difficultés. Comment définir la hiérarchie entre les TADs ? Sommes-nous capable d'en extraire des bordures à la case près ? Est-ce qu'il y a une marge d'erreur dans la détection de ses structures en fonction de la résolution ? Toutes ses questions ont amené de nombreuses équipes à proposer leurs outils de détections. Deux méthodes connues sont TopDom [5] et Arrowhead [6], mais ce ne sont que deux exemples d'idées pour résoudre ce problème parmi une longue liste [7,8,9]. D'autres solutions sont toutes autant valables à l'heure où j'écris ces lignes. Pour comparer ces méthodes entre elles, je recommande la lecture d'une publication de benchmark [10].

Plutôt que de vous détailler toutes ces techniques, je vais finir cet article en vous présentant rapidement l'algorithme TopDom, avec lequel j'ai le plus d’expérience. La méthode utilise les propriétés des cartes de contact en regardant l'ensemble des contacts les plus proches de la diagonale. Pour cela, l'algorithme définit un carré au-dessus de la diagonale avec laquelle il va parcourir la carte de contact. Il va alors calculer la somme des contacts présents dans ce carré le long du génome. Là où un TAD est présent, la somme le long de la fenêtre sera plus grande que dans le reste du génome. Entre deux TAD, on trouve une baisse dans cette somme. L'objectif va alors être de détecter tous les minima locaux dans cette somme en ne gardant que les plus extrêmes. On obtient alors la liste des coordonnées des TADs détectés.

Figure résumée et inspirée de TOPDOM en version assez simple. J'ai juste affiché la carte de contact précédente et montré le signal présent dans les régions parcourues. Quand le signal diminue il y a une frontière entre deux TADs.

Arriver à cette version de l'article a été l'occasion de nombreux débats et réécriture pour gagner en clarté. Je dois donc de grand merci à beaucoup de relecteurs : Élodie Laine, Gwenaëlle, le petit Guillaume Devailly, la grande Jnsll, Pierre E, azerin, Yoann M, et ZaZo0o.

Références

[1] : Papier ayant défini le terme
[2] Pourquoi les TAD c'est rigolo à regarder
[3] Le principe de formation des boucles
[4] Un très très bon papier de référence (à relire tous les ans avec des cookies)
[5] TopDom
[6] Vidéo pour expliquer arrowhead
[7] Un détecteur de boucle tout récent qui marche très bien
[8] Encore un détecteur de TAD, TADtree
[9] HOMER, un outil multi usage toujours utile
[10] Benchmark de détections des TAD

Auteur / autrice

Léopold Carron

Bioinformaticien de formation ayant complété son cursus par un master de machine learning appliqué aux langues à Nantes. Après une thèse et postdoc à la Sorbonne, je suis maintenant data scientist. J'aime python, le machine learning et analyser des données !

Voir toutes les publications

Partagez cet article

Pour continuer la lecture :

Commentaires

Laisser un commentaireAnnuler la réponse.

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.