Accessibility Tools

- Le blog participatif de bioinformatique francophone depuis 2012 -

Qu'est-ce qu'un compartiment génomique ?

Cette ques­tion est la pre­mière que m'a posé mon jury de thèse lors de ma sou­te­nance. Aujourd'hui, je vous pro­pose d'y répondre le plus sim­ple­ment pos­sible.

Pour com­prendre cet article, il est pro­ba­ble­ment néces­saire de connaître les bases du Hi‑C, déjà résu­mées par votre humble ser­vi­teur en visua­li­sa­tion, ou en ana­lyse sur ce blog au cours des années pas­sées.

L'organisation spatiale de la chromatine dans le noyau

Défi­nir un com­par­ti­ment géno­mique, c'est défi­nir la répar­ti­tion spa­tiale (orga­ni­sa­tion 3D) de la chro­ma­tine dans le noyau. Pour com­prendre cette notion il est néces­saire de faire un petit cours de bio­lo­gie accé­lé­ré. L'ADN est le sup­port de l'information géné­tique. De part sa grande taille, il est sou­mis à de fortes contraintes pour pou­voir ren­trer dans le noyau et il va donc être com­pac­té. Pour cela, chez les euca­ryotes, il va s'enrouler sur lui-même à l'aide de pro­téines appe­lées his­tones et for­mer la chro­ma­tine. À un niveau de com­pac­tion dense, la chro­ma­tine est appe­lée hété­ro­chro­ma­tine. Dans ces régions-là du génome, l’expression des gènes est alors répri­mée en rai­son du manque d'accès à la séquence d'ADN. Cepen­dant, afin d'assurer la vie de la cel­lule, tout le génome ne peut pas être répri­mé. Cer­taines régions doivent main­te­nir un niveau de com­pac­tion moins dense afin de per­mettre aux gènes de s'exprimer, on parle alors d'euchromatine.

La conden­sa­tion de l'ADN en ver­sion sim­pli­fiée, source Wiki­pé­dia.

À cause des contraintes phy­siques régis­sant ces deux types de chro­ma­tines, cha­cune va avoir ten­dance à co-loca­li­ser ( être plus proches entre-elle qu'avec le reste ) avec elle-même et se retrou­ver dans le même espace dans le noyau. On défi­nit alors la com­par­ti­men­ta­tion du génome comme cette sépa­ra­tion de phase que le génome fait en fonc­tion de sa com­pac­tion.

Idée glo­bale de com­ment la chro­ma­tine se répar­tit dans le noyau. Cette vision est assez géné­ra­liste et n'est pas repré­sen­ta­tive de toutes les espèces.

Une méta­phore simple pour expli­quer cette défi­ni­tion est la répar­ti­tion des gens dans un bar en fonc­tion de l'espace fumeur et non fumeur. En rai­son des contraintes impo­sées par le lieu , les fumeurs vont avoir ten­dance à se regrou­per, nous per­met­tant de défi­nir deux groupes de popu­la­tions dans l'espace du bar. On peut alors étu­dier les pro­prié­tés de chaque groupe afin de véri­fier s'ils ont des carac­té­ris­tiques com­munes ou non (indice : ils en ont !). La prin­ci­pale dif­fé­rence entre nos humains et nos replie­ments d'ADN réside dans le nombre de dimen­sions de l'espace de répar­ti­tion. Des per­sonnes dans un bar se répar­tissent dans un espace 2D (en géné­ral), le noyau cel­lu­laire, lui, est un espace 3D, ce qui com­plexi­fie l’analyse !

Propriétés biologiques des compartiments génomiques

Main­te­nant qu'on a répon­du à la ques­tion titre de l'article, on peut se deman­der quelles pro­prié­tés sont déjà connues sur les com­par­ti­ments géno­miques. Cette ques­tion a été très lar­ge­ment étu­diée depuis une dizaine d'années et je vais vous faire un résu­mé rapide de ce que nous nous savons. 

L'hétérochromatine et l'euchromatine n’ont pas les mêmes pro­téines carac­té­ris­tiques. Par exemple, chez les plantes, notam­ment chez Ara­bi­dop­sis tha­lia­na, il est connu qu'un variant spé­ci­fique d'histone est pré­sent dans l'hétérochromatine, et un autre dans l'euchromatine. De plus, les modi­fi­ca­tions chi­miques de ces his­tones (marques épi­gé­né­tiques) ne sont pas les mêmes en fonc­tion de l'état chro­ma­ti­nien. Ain­si, on attri­bue des marques épi­gé­né­tiques spé­ci­fiques à l'hétérochromatine et d'autres spé­ci­fiques à l'euchromatine. Il est pos­sible de regrou­per ces marques en fonc­tion de leur loca­li­sa­tion sur l'ADN et d'attribuer des fonc­tions à cha­cun des groupes ou clus­ters détec­tés. Par exemple, chez l'homme comme chez la dro­so­phile, on sait que la modi­fi­ca­tion H3K36me3 (Sur l'histone 3, lysine 36 tri­me­tyle) est asso­cié à la pré­sence d'une famille pro­téique appe­lé les poly­combes. Quand une poly­combe est pré­sente, l'ARN poly­mé­rase est for­te­ment répri­mée (mis en pause, pour être exact). On retrouve donc un fort enri­chis­se­ment en H3K36me3 dans les régions défi­nies comme de l'hétérochromatine. 

Je pour­rais alors m'amuser à vous lis­ter chaque marque et son rôle pré­cis, mais ce sera le but d'un pro­chain article. Si le sujet vous inté­resse je vous recom­mande quelques lec­tures en fin d'article. Pour l'instant, rete­nez deux choses : les pro­prié­tés phy­siques et l'idée géné­rale des com­par­ti­ments géno­miques, car elles sont glo­ba­le­ment uni­ver­selles. Mais atten­tion ! Les marques épi­gé­né­tiques asso­ciées à ces pro­prié­tés ne sont pas les mêmes dans toutes les espèces ! Un exemple qui pour moi a été le plus mar­quant est la méthy­la­tion des cyto­sines sur l'ADN. Chez l'homme, on retrouve cette méthy­la­tion dans les régions riches en gènes et donc dans les régions riches en euchro­ma­tine. Chez les plantes, on retrouve des méthy­la­tions sur l'ADN… au niveau des cen­tro­mères riches en hété­ro­chro­ma­tine !

Détecter les compartiments génomiques à partir de données Hi‑C

Main­te­nant que nous avons résu­mé le contexte glo­bal, amu­sons-nous un peu à extraire cette infor­ma­tion à par­tir de don­nées réelles. Pour cela, on va uti­li­ser des cartes de contacts chro­mo­so­miques (comme tous mes articles sur le blog hum…). Pour rap­pel, une carte de contact repré­sente la proxi­mi­té spa­tiale entre chaque région d'ADN. On observe cette proxi­mi­té à l'aide d'une matrice ordon­née par coor­don­nées chro­mo­so­miques (crois­santes), où chaque cel­lule (i,j) donne le nombre de fois où on a trou­vé les deux régions i et j en contact pen­dant l'expérience. Main­te­nant, com­ment iden­ti­fie-t-on les com­par­ti­ments géno­miques à par­tir de ce type de signal ? Voyons ça. Je vais pour cela regar­der les don­nées humaines GM12878. Je vais regar­der le chro­mo­some 22 par bloc de 100 kilo­bases (kb) et voir ce qui appa­raît dans mon signal.

La pre­mière chose qu'on remarque en regar­dant cette carte, c'est son orga­ni­sa­tion en damier. Il y a donc des régions le long du génome qu'on retrouve plus fré­quem­ment en contact, au point de for­mer un damier… et donc de sépa­rer l'ADN en deux groupes… hum.. ce serait pas des com­par­ti­ments géno­miques ça ?

Préparation des données

Pour extraire ce damier avec pré­ci­sion, il peut être inté­res­sant de nor­ma­li­ser la carte. L'idée der­rière va être de sup­pri­mer tous les biais bio­lo­giques (pré­sence d'autres struc­tures dans la carte, biais de pro­to­cole…), et de se concen­trer uni­que­ment sur le signal d’intérêt. Pour cela, je vais vous mon­trer un pro­to­cole simple direc­te­ment ins­pi­ré des stan­dards du domaine.

Dans un pre­mier temps, on remarque que par biais de séquen­çage, l'information conte­nue le long du génome n'est pas homo­gène. Cer­taines régions ont plus de contacts que d'autres, il y a des régions ou il est dif­fi­cile d'aligner des reads car riche en régions répé­tées etc… Pour har­mo­ni­ser cette infor­ma­tion, on va appli­quer la SCN (sequen­tial com­ponent nor­ma­li­sa­tion). L'idée de cet algo­rithme est d'appliquer une cor­rec­tion ité­ra­tive sur les lignes et les colonnes de la matrice pour que la somme des contacts de chaque ligne et de chaque colonne soit la même. Une fois cette étape réa­li­sée, on va cher­cher à contraindre la matrice pour extraire le damier le plus faci­le­ment pos­sible. Pour cela, on réa­lise deux opé­ra­tions. De part les pro­prié­tés phy­siques de la chro­ma­tine, deux régions qui sont plus proches le long de l'ADN auront une pro­ba­bi­li­té plus grande d'être proches dans l'espace. Pour mettre en avant le damier et l'extraire plus faci­le­ment on va reti­rer cette infor­ma­tion des don­nées. Pour cela, on divise chaque point par la valeur moyenne de la dia­go­nale sur laquelle il se situe.

Une fois ce trai­te­ment réa­li­sé, on peut main­te­nant effec­tuer une der­nière étape qui va être de regar­der notre carte sous forme de matrice de cor­ré­la­tion. Pour cela, on rem­place chaque point par la cor­ré­la­tion entre sa ligne et sa colonne. On a alors le résul­tat sui­vant :

Chro­mo­some 22 à 100kb après trai­te­ment des don­nées pour mettre le damier en avant et faci­li­ter son extrac­tion de la carte. Don­nées pro­ve­nant de Rao & al 2014.

Et voi­la un damier bien mis en avant. À par­tir de là, il existe beau­coup de méthodes simples pour extraire ce damier.

Extraction du signal

La matrice qu'on regarde main­te­nant repré­sente la cor­ré­la­tion entre toutes les régions géno­miques les unes par rap­port aux autres. Cette façon de regar­der nous per­met de deman­der basi­que­ment à chaque région de la carte "Eh toi, tu cor­rèles plus avec ce bloc ou avec un autre ?". Pour répondre à cette ques­tion, la méthode la plus simple cou­rante est d'appliquer une PCA (ana­lyse en com­po­santes prin­ci­pales) sur la matrice ou de cal­cu­ler les vec­teurs propres de la matrice. Une autre option est d’entraîner une chaîne de Mar­kov cachée sur cette matrice et de lui deman­der la séquence d'état la plus pro­bable qu'il trouve à par­tir de cette la carte en entré. Le pre­mier vec­teur propre à l'allure sui­vante.

On remarque alors une dis­tinc­tion très nette entre des valeurs posi­tives sur ce vec­teur et des valeurs néga­tives. Quand on regarde le conte­nu des régions géno­miques asso­ciées à cha­cun de ses blocs, on remarque alors qu'un bloc est très dense en gène et en marques épi­gé­né­tiques asso­ciées à l'expression des gènes. Par nomen­cla­ture cou­rante, on défi­nit ce bloc comme le com­par­ti­ment A (l'euchromatine !). L'autre bloc lui, contient prin­ci­pa­le­ment des régions enri­chies en H3K36me3 et en d'autres marques asso­ciées à la répres­sion de la chro­ma­tine, c'est le com­par­ti­ment B (l'hétérochromatine). On a donc la deux com­par­ti­ments géno­miques dis­tincts ! La pro­por­tion de A et de B varie en fonc­tion des dif­fé­rentes espèces autour de ratios proches de 60A/​40B.

Et voi­la, si vous avez com­pris toute mon his­toire, vous savez ce que c'est un com­par­ti­ment géno­mique. Je ferais un article plus détaillé sur les quelques points que j'ai volon­tai­re­ment sim­pli­fiés à la demande ! 

En atten­dant mer­ci aux relec­teurs, tou­jours là pour sup­por­ter mes bêtises : Élo­die Laine, Bill­bis, Gwe­naëlle.

Références /​ Conseil de lecture

  • Papier de réfé­rence sur le sujet
  • Un papier vache­ment cool chez les plantes
  • Une revue sur la sépa­ra­tion des com­par­ti­ments par les cen­tro­mères.
  • La SCN, ou son équi­valent ICED
  • Un papier HiChip : un must read qui per­met de voir les dif­fé­rentes marques épi­gé­né­tiques impli­qués.
  • Une jolie revue, pleine de jolies sché­mas !

Vous avez aimé ? Dites-le nous !

Moyenne : 0 /​ 5. Nb de votes : 0

Pas encore de vote pour cet article.

Partagez cet article




Commentaires

Laisser un commentaire

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.