Cette question est la première que m'a posé mon jury de thèse lors de ma soutenance. Aujourd'hui, je vous propose d'y répondre le plus simplement possible.
Pour comprendre cet article, il est probablement nécessaire de connaître les bases du Hi‑C, déjà résumées par votre humble serviteur en visualisation, ou en analyse sur ce blog au cours des années passées.
L'organisation spatiale de la chromatine dans le noyau
Définir un compartiment génomique, c'est définir la répartition spatiale (organisation 3D) de la chromatine dans le noyau. Pour comprendre cette notion il est nécessaire de faire un petit cours de biologie accéléré. L'ADN est le support de l'information génétique. De part sa grande taille, il est soumis à de fortes contraintes pour pouvoir rentrer dans le noyau et il va donc être compacté. Pour cela, chez les eucaryotes, il va s'enrouler sur lui-même à l'aide de protéines appelées histones et former la chromatine. À un niveau de compaction dense, la chromatine est appelée hétérochromatine. Dans ces régions-là du génome, l’expression des gènes est alors réprimée en raison du manque d'accès à la séquence d'ADN. Cependant, afin d'assurer la vie de la cellule, tout le génome ne peut pas être réprimé. Certaines régions doivent maintenir un niveau de compaction moins dense afin de permettre aux gènes de s'exprimer, on parle alors d'euchromatine.
À cause des contraintes physiques régissant ces deux types de chromatines, chacune va avoir tendance à co-localiser ( être plus proches entre-elle qu'avec le reste ) avec elle-même et se retrouver dans le même espace dans le noyau. On définit alors la compartimentation du génome comme cette séparation de phase que le génome fait en fonction de sa compaction.
Une métaphore simple pour expliquer cette définition est la répartition des gens dans un bar en fonction de l'espace fumeur et non fumeur. En raison des contraintes imposées par le lieu , les fumeurs vont avoir tendance à se regrouper, nous permettant de définir deux groupes de populations dans l'espace du bar. On peut alors étudier les propriétés de chaque groupe afin de vérifier s'ils ont des caractéristiques communes ou non (indice : ils en ont !). La principale différence entre nos humains et nos repliements d'ADN réside dans le nombre de dimensions de l'espace de répartition. Des personnes dans un bar se répartissent dans un espace 2D (en général), le noyau cellulaire, lui, est un espace 3D, ce qui complexifie l’analyse !
Propriétés biologiques des compartiments génomiques
Maintenant qu'on a répondu à la question titre de l'article, on peut se demander quelles propriétés sont déjà connues sur les compartiments génomiques. Cette question a été très largement étudiée depuis une dizaine d'années et je vais vous faire un résumé rapide de ce que nous nous savons.
L'hétérochromatine et l'euchromatine n’ont pas les mêmes protéines caractéristiques. Par exemple, chez les plantes, notamment chez Arabidopsis thaliana, il est connu qu'un variant spécifique d'histone est présent dans l'hétérochromatine, et un autre dans l'euchromatine. De plus, les modifications chimiques de ces histones (marques épigénétiques) ne sont pas les mêmes en fonction de l'état chromatinien. Ainsi, on attribue des marques épigénétiques spécifiques à l'hétérochromatine et d'autres spécifiques à l'euchromatine. Il est possible de regrouper ces marques en fonction de leur localisation sur l'ADN et d'attribuer des fonctions à chacun des groupes ou clusters détectés. Par exemple, chez l'homme comme chez la drosophile, on sait que la modification H3K36me3 (Sur l'histone 3, lysine 36 trimetyle) est associé à la présence d'une famille protéique appelé les polycombes. Quand une polycombe est présente, l'ARN polymérase est fortement réprimée (mis en pause, pour être exact). On retrouve donc un fort enrichissement en H3K36me3 dans les régions définies comme de l'hétérochromatine.
Je pourrais alors m'amuser à vous lister chaque marque et son rôle précis, mais ce sera le but d'un prochain article. Si le sujet vous intéresse je vous recommande quelques lectures en fin d'article. Pour l'instant, retenez deux choses : les propriétés physiques et l'idée générale des compartiments génomiques, car elles sont globalement universelles. Mais attention ! Les marques épigénétiques associées à ces propriétés ne sont pas les mêmes dans toutes les espèces ! Un exemple qui pour moi a été le plus marquant est la méthylation des cytosines sur l'ADN. Chez l'homme, on retrouve cette méthylation dans les régions riches en gènes et donc dans les régions riches en euchromatine. Chez les plantes, on retrouve des méthylations sur l'ADN… au niveau des centromères riches en hétérochromatine !
Détecter les compartiments génomiques à partir de données Hi‑C
Maintenant que nous avons résumé le contexte global, amusons-nous un peu à extraire cette information à partir de données réelles. Pour cela, on va utiliser des cartes de contacts chromosomiques (comme tous mes articles sur le blog hum…). Pour rappel, une carte de contact représente la proximité spatiale entre chaque région d'ADN. On observe cette proximité à l'aide d'une matrice ordonnée par coordonnées chromosomiques (croissantes), où chaque cellule (i,j) donne le nombre de fois où on a trouvé les deux régions i et j en contact pendant l'expérience. Maintenant, comment identifie-t-on les compartiments génomiques à partir de ce type de signal ? Voyons ça. Je vais pour cela regarder les données humaines GM12878. Je vais regarder le chromosome 22 par bloc de 100 kilobases (kb) et voir ce qui apparaît dans mon signal.
La première chose qu'on remarque en regardant cette carte, c'est son organisation en damier. Il y a donc des régions le long du génome qu'on retrouve plus fréquemment en contact, au point de former un damier… et donc de séparer l'ADN en deux groupes… hum.. ce serait pas des compartiments génomiques ça ?
Préparation des données
Pour extraire ce damier avec précision, il peut être intéressant de normaliser la carte. L'idée derrière va être de supprimer tous les biais biologiques (présence d'autres structures dans la carte, biais de protocole…), et de se concentrer uniquement sur le signal d’intérêt. Pour cela, je vais vous montrer un protocole simple directement inspiré des standards du domaine.
Dans un premier temps, on remarque que par biais de séquençage, l'information contenue le long du génome n'est pas homogène. Certaines régions ont plus de contacts que d'autres, il y a des régions ou il est difficile d'aligner des reads car riche en régions répétées etc… Pour harmoniser cette information, on va appliquer la SCN (sequential component normalisation). L'idée de cet algorithme est d'appliquer une correction itérative sur les lignes et les colonnes de la matrice pour que la somme des contacts de chaque ligne et de chaque colonne soit la même. Une fois cette étape réalisée, on va chercher à contraindre la matrice pour extraire le damier le plus facilement possible. Pour cela, on réalise deux opérations. De part les propriétés physiques de la chromatine, deux régions qui sont plus proches le long de l'ADN auront une probabilité plus grande d'être proches dans l'espace. Pour mettre en avant le damier et l'extraire plus facilement on va retirer cette information des données. Pour cela, on divise chaque point par la valeur moyenne de la diagonale sur laquelle il se situe.
Une fois ce traitement réalisé, on peut maintenant effectuer une dernière étape qui va être de regarder notre carte sous forme de matrice de corrélation. Pour cela, on remplace chaque point par la corrélation entre sa ligne et sa colonne. On a alors le résultat suivant :
Et voila un damier bien mis en avant. À partir de là, il existe beaucoup de méthodes simples pour extraire ce damier.
Extraction du signal
La matrice qu'on regarde maintenant représente la corrélation entre toutes les régions génomiques les unes par rapport aux autres. Cette façon de regarder nous permet de demander basiquement à chaque région de la carte "Eh toi, tu corrèles plus avec ce bloc ou avec un autre ?". Pour répondre à cette question, la méthode la plus simple courante est d'appliquer une PCA (analyse en composantes principales) sur la matrice ou de calculer les vecteurs propres de la matrice. Une autre option est d’entraîner une chaîne de Markov cachée sur cette matrice et de lui demander la séquence d'état la plus probable qu'il trouve à partir de cette la carte en entré. Le premier vecteur propre à l'allure suivante.
On remarque alors une distinction très nette entre des valeurs positives sur ce vecteur et des valeurs négatives. Quand on regarde le contenu des régions génomiques associées à chacun de ses blocs, on remarque alors qu'un bloc est très dense en gène et en marques épigénétiques associées à l'expression des gènes. Par nomenclature courante, on définit ce bloc comme le compartiment A (l'euchromatine !). L'autre bloc lui, contient principalement des régions enrichies en H3K36me3 et en d'autres marques associées à la répression de la chromatine, c'est le compartiment B (l'hétérochromatine). On a donc la deux compartiments génomiques distincts ! La proportion de A et de B varie en fonction des différentes espèces autour de ratios proches de 60A/40B.
Et voila, si vous avez compris toute mon histoire, vous savez ce que c'est un compartiment génomique. Je ferais un article plus détaillé sur les quelques points que j'ai volontairement simplifiés à la demande !
En attendant merci aux relecteurs, toujours là pour supporter mes bêtises : Élodie Laine, Billbis, Gwenaëlle.
Références / Conseil de lecture
- Papier de référence sur le sujet
- Un papier vachement cool chez les plantes
- Une revue sur la séparation des compartiments par les centromères.
- La SCN, ou son équivalent ICED
- Un papier HiChip : un must read qui permet de voir les différentes marques épigénétiques impliqués.
- Une jolie revue, pleine de jolies schémas !
Laisser un commentaire