Petite introduction sur… les éléments répétés

Suite à l'excellent billet pro­po­sé par un autre auteur du blog, de nom­breuses ques­tions sur ce que sont les élé­ments répé­tés sont res­tées en sus­pens. Après le séquen­çage du génome humain dans les années 2000, de nom­breux cher­cheurs ont consta­té que la majeure par­tie du génome n'était pas com­po­sée de gènes, mais d'ADN à l'époque qua­li­fié de pou­belle. Celui-ci conte­nant un grand nombre de motifs étranges qui ne sem­blaient alors pas avoir de sens. Dans ces régions, nous trou­vons de nom­breuses séquences fort mys­té­rieuses, par­mi les­quelles figurent les élé­ments répé­tés. Mais à quoi servent donc ces séquences ?

A faire les ban­dits bien sur !

Afin de mettre de l'ordre dans tous ces concepts, je vous pro­pose ici de reve­nir sur quelques points de défi­ni­tions clefs de ce domaine et voir quelques ques­tions scien­ti­fiques qui sont posées avec.

Les défi­ni­tions pro­po­sées n'auront pas pour but d'être exhaus­tives ni com­plètes, seule­ment de vous don­ner une vision pré­cise de chaque terme du domaine.

Alors c'est par­ti, on res­sort les cours de bio­lo­gie, place aux défi­ni­tions infor­melles !

Les concepts de bases : un élément répété c'est quoi ?

Pour les plus étran­gers au concept d'éléments répé­tés, voi­ci les notions qu'il faut abso­lu­ment connaître pour com­prendre une conver­sa­tion sur ce sujet.

Un élément répété ?

Les élé­ments répé­tés sont des séquences dans l'ADN qu'on retrouve en de mul­tiples copies dans le génome. Par­mi ces élé­ments plu­sieurs familles existent, dont les élé­ments trans­po­sables. On retrouve aus­si les répé­ti­tions simples très pré­sentes près des cen­tro­mères entre autres, mais bien d'autres. Autre­ment dit, quand une per­sonne par­le­ra d'élément répé­té, le mot élé­ment trans­po­sable sera en per­ma­nence inclus dans sa réflexion comme un des cas pos­sible.

Un élément transposable ?

Les élé­ments trans­po­sables sont des séquences pré­sentes dans l'ADN qui ont la pro­prié­té de se dépla­cer d’un point à un autre du génome. On dis­tingue prin­ci­pa­le­ment deux types d'éléments trans­po­sables : ceux se dépla­çant à l'aide d'une matrice d'ADN sur un sys­tème de "cou­per-col­ler" (par trans­po­si­tion) et ceux uti­li­sant une matrice d'ARN qui se déplacent sur un sys­tème de "copier-col­ler" (par rétro­trans­po­si­tion). Les élé­ments fonc­tion­nant par trans­po­si­tion seront dépla­cés dans le génome sans dupli­ca­tion là où ceux fonc­tion­nant par rétro­trans­po­ti­tion vont pou­voir se dupli­quer en de nom­breuses copies. Les trans­po­sons seront donc à prio­ri beau­coup moins inva­sifs dans le génome que les rétro­trans­po­sons, et dans un monde idéal où il ne serait pré­sent dans le génome qu'une copie cha­cun, ce ne serait pas des élé­ments répé­tés. Cepen­dant, par les voies de la recom­bi­nai­son de l'ADN, un trans­po­son a la pos­si­bi­li­té de se pro­pa­ger.

Pour la petite his­toire, les élé­ments répé­tés ont à l'origine été décou­verts par Bar­ba­ra McClin­tock suite à un pro­blème de croi­se­ment géné­tique qui ne sem­blait pas fonc­tion­ner selon les lois connues. Elle a alors sup­po­sé qu'un élé­ment dans le génome était mobile pour expli­quer com­ment cer­taines varié­tés exis­taient, met­tant ain­si en évi­dence… un élé­ment trans­po­sable ! Par­mi l'ensemble des élé­ments trans­po­sables et répé­tés pré­sents dans un génome à un ins­tant t, fort peu sont actifs. En effet, la plu­part d'entre eux vont être répri­més par divers méca­nismes. Par exemple, cer­tains seront très pré­sents dans des régions inac­tives de l'ADN et donc, pas expri­més. Dans les faits, bien des trans­po­sons sont peu actifs chez l'homme mais très actifs chez le maïs… bref chaque génome a ses spé­ci­fi­ci­tés avec les élé­ments répé­tés !

CC0 Crea­tive Com­mons

La notion de consensus :

Pour qu'une séquence du génome puisse être assi­gnée à une caté­go­rie d'élément répé­té, il faut que cette séquence soit simi­laire à la séquence consen­sus de cet élé­ment. Que veut dire cette défi­ni­tion ? Elle sous-entend que le génome évo­lue en per­ma­nence au cours du temps et donc que plu­sieurs copies d'une même séquence auront pu subir quelques modi­fi­ca­tions, mais que toutes ses copies ont un motif carac­té­ris­tique com­mun (consen­sus). On sup­pose que ce consen­sus est la pre­mière ver­sion de l’élément répé­té qui s'est insé­ré dans le génome et à par­tir duquel des dupli­ca­tions et autres évé­ne­ments ont pu avoir lieu.

Par exemple si je cherche l'ensemble des élé­ments Gyp­sy (une famille d’élément connue) pré­sents chez la dro­so­phile, je vais cher­cher dans mon génome l'ensemble des régions pos­sé­dant une séquence simi­laire au consen­sus de cet élé­ment. Plus celle-ci aura subi des muta­tions, plus elle aura diver­gé de sa séquence d'origine. On défi­nit alors la diver­gence comme le taux de modi­fi­ca­tion d'un élé­ment don­né par rap­port à son consen­sus d'origine. L'ensemble de ces défi­ni­tions repose sur les bases de la théo­rie de l'évolution molé­cu­laire.

Pour les plus cou­ra­geux d'entre vous, il existe aus­si une ver­sion you­tube (en anglais) de ces défi­ni­tions, ici ou ici ou bien même  !

Les 'grandes' familles d'éléments répétés

Plu­tôt que de faire la liste exhaus­tive de chaque famille d'éléments répé­tés, je vous pro­pose de conti­nuer d'avoir une idée géné­rale de ce que sont quelques familles les plus connues d'éléments répé­tés.

Répé­ti­tion simple : Une répé­ti­tion simple est une petite séquence de quelques nucléo­tides répé­tés en de nom­breuses copies les unes à la suite des autres. Le motif de la répé­ti­tion peut être extrê­me­ment court (entre 2 et 10 nucléo­tides en moyenne). Ce type de répé­ti­tion est assez facile à iden­ti­fier car très pré­sent dans les régions cen­tro­mé­riques et télo­mé­riques (res­pec­ti­ve­ment au milieu, et aux extré­mi­tés des chro­mo­somes). Les petits (CAATG)n ou autre (ATn) qui rendent l'assemblage des génomes dif­fi­cile, c'est eux. Ils sont sou­vent dû à des biais de dupli­ca­tion d'ADN ou à des erreurs de recom­bi­nai­sons rajou­tant une répé­ti­tion de plus à une région. Toutes pro­por­tions gar­dées, ce sont des élé­ments qu'on va trou­ver chez tous les génomes euca­ryotes (j'ai pu en iden­ti­fier dans Ostreo­co­cus tau­ri, un euca­ryote dont le génome est tout petit !). Pour vous don­ner une petite idée de la taille de ces élé­ments dans un génome, j'ai pris un élé­ment au hasard et fait un his­to­gramme de sa taille d'après les don­nées pré­sentes dans Repeat­mas­ker pour l'homme. On voit assez vite que beau­coup d'entre eux peuvent être répé­tés en grande quan­ti­té les uns à la suite des autres ! Pour plus de sta­tis­tiques, c'est par ici.

Dis­tri­bu­tion de la taille de l'élément (GTTT)n chez l'homme.

LTR :  Ce doux acro­nyme signi­fie long ter­mi­nal repeat. Ces élé­ments font par­tie de la famille des retro­trans­po­sons. En Mas­ter de bio­in­for­ma­tique peuvent être évo­qués les élé­ments gyp­sy et copia appar­te­nant à cette famille. Pour don­ner une image facile, ce type d'éléments marche comme l'ADN du virus du SIDA, trans­crit à par­tir d'une matrice d'ARN pour s'insérer dans un génome. La dif­fé­rence  majeure qu'ont les LTR avec les rétro­vi­rus est qu'ils ne peuvent pas se pro­pa­ger dans d'autres cel­lules.

SINE et LINE : Ces deux grandes familles d'élé­ments sont les acro­nymes res­pec­tifs de Short INter­sper­sed Ele­ment et de Long INter­sper­sed Ele­ments. Ce sont deux familles connues de rétro­trans­po­sons qui ne sont pas des LTR (dif­fé­rent méca­nisme d'insertion dans le génome, mais sur­tout de séquence). Les SINE sont des petites séquences trans­crites (moins de 1000 paires de base), les LINE eux auront un méca­nisme simi­laire mais auront des grandes séquences (>5000 pb). N'étant pas un expert des méca­nismes bio­lo­giques de ces séquences, je vous invite à aller ici ou ici si vous vou­lez en savoir plus. On dis­tingue beau­coup de familles connues, chez les SINE on retrou­ve­ra les alu et les MIR. Du côté des LINE, on cite­ra sou­vent les L1 et L2, très pré­sents dans le génome de la sou­ris.

Quelques outils importants à connaitre

Repeat­Mas­ker : Ce logi­ciel est le gold stan­dard du domaine pour l'annotation des élé­ments répé­tés sur un génome. Il per­met de mas­quer les régions conte­nant des élé­ments répé­tés sur un génome et de four­nir la posi­tion et l'annotation de l'ensemble des élé­ments répé­tés sur ce génome. Pour pou­voir fonc­tion­ner celui-ci a besoin d'une base de don­nées d'éléments répé­tés carac­té­ris­tiques trou­vable sur le site web GIRI. Iden­ti­fiant les élé­ments pré­sents dans la base de don­nées four­nie, ce logi­ciel sert avant toute chose à retrou­ver des élé­ments répé­tés déjà connus. Si vous sou­hai­tez iden­ti­fier de nou­veaux élé­ments répé­tés car peu carac­té­ri­sés jusqu'à pré­sent, il fau­dra vous repo­ser sur d'autres outils pour faire de l'identification de novo (voir Repeat­Mo­de­ler). Il est impor­tant de noter que la plu­part des élé­ments iden­ti­fiés par ce type de logi­ciel ne sont pas fonc­tion­nels, la plu­part seront des frag­ments de consen­sus iden­ti­fiés ain­si que des séquences qui auront trop muté pour être fonc­tion­nelles.

Repeat­Mo­de­ler :  Cet outil sert à iden­ti­fier des élé­ments répé­tés nou­veaux dans une espèce. Il est très proche de Repeat­Mak­ser car déve­lop­pé par les mêmes équipes. Il per­met notam­ment de détec­ter des élé­ments qui n'existeraient pas dans d'autres espèces, ou auraient des élé­ments déjà exis­tant chez d'autres espèces mais qui ont beau­coup diver­gé des consen­sus déjà éta­blis. Pour fonc­tion­ner, celui-ci se base sur trois outils déjà exis­tant qui sont RepeatS­cout , RECON et TRF.

UCSC table brow­ser : Site web connu pour ses bases de don­nées,  ici il nous ser­vi­ra à récu­pé­rer l'ensemble des anno­ta­tions des élé­ments répé­tés d'un génome de réfé­rence. Pour savoir com­ment faire, je vous conseille de suivre le tuto­riel de cet article.

La suite REPET : Si votre espèce est peu réfé­ren­cée ou que vous tra­vaillez sur des génomes de plante, l'équipe URGI de l'INRA de Ver­sailles a déve­lop­pé cette solu­tion alter­na­tive et effi­cace. Elle repose sur deux outils qui sont TEde­no­vo pour l'identification de nou­veaux élé­ments répé­tés et TEan­not pour anno­ter le génome à par­tir des iden­ti­fi­ca­tions de-novo cou­plé à Repeat­Mas­ker. Le TEan­not se ser­vant de ce logi­ciel en rou­tine-pré­li­mi­naire.

Quelques questions 'chaudes' du domaine

Voi­ci quelques réflexions que j'ai pu voir en confé­rence et for­ma­tion autour des ques­tions qui se posent sur les élé­ments répé­tés. Que font les cher­cheurs actuel­le­ment dans le domaine ? Quelles sont cer­taines des ques­tions qu'ils se posent ? Quels sont leurs objec­tifs ? Voi­ci un petit aper­çu de cer­tains chal­lenges à venir.

Obte­nir une anno­ta­tion fine des élé­ments répé­tés à la paire de base près : Peut-on anno­ter auto­ma­ti­que­ment avec pré­ci­sion un génome don­né à la paire de base près ? En dépit de toutes les années de recherche et l'amélioration des tech­niques de séquen­çage haut débit, avoir une anno­ta­tion à la paire de base près d'un élé­ment répé­té est par­fois un chal­lenge tech­nique deman­dant une exper­tise tou­jours manuelle. De nom­breuses avan­cées sont en cours de ce côté-là et des équipes se regroupent pour trou­ver des solu­tions face à ce pro­blème majeur (ici, ou la, voir même ici par exemple) .

L'impact de ces régions sur l'organisation des génomes : Quel est l'impact évo­lu­tif des élé­ments répé­tés dans les génomes ? Autant le dire, il n'est pas pos­sible de répondre à cette ques­tion actuel­le­ment. Dans l'état de l'art actuel, on sait que chez les euca­ryotes, de nom­breux enhan­cer dérivent des SINE. On sait éga­le­ment que cer­taines familles d'éléments répé­tés auront ten­dance à se loca­li­ser dans les régions actives des génomes là où d'autre iront dans les régions inac­tives. Des cher­cheurs ont éga­le­ment étu­dié le lien sub­til entre taille des génomes et quan­ti­té d'éléments répé­tés. D'autres ont éga­le­ment retra­cé l'histoire d'une famille d'éléments répé­tés avec pré­ci­sion. On sait aus­si que tout un tas d'éléments répé­tés sont impli­qués dans des méca­nismes de régu­la­tion de génome (exemple la, ici, ou la). De là à dire le rôle exact des élé­ments répé­tés : les réponses sont mul­tiples et encore à com­plé­ter, l'objectif de com­prendre la fonc­tion de chaque région dans un génome reste encore en cours.

L'histoire des génomes à tra­vers les élé­ments répé­tés : Com­ment de nou­veaux élé­ments répé­tés appa­raissent dans un génome ? Quels sont les méca­nismes der­rière l'évolution de ces séquences ? Des cher­cheurs pensent que les élé­ments répé­tés ont poten­tiel­le­ment une ori­gine exo­gène (pro­ve­nant d'autres espèces), sans que cela reste prou­vé  (autre exemple).  Aujourd'hui, tout cela reste un mys­tère et un champ de recherche ouvert.

Conclusions

Et voi­là, ce sera tout pour aujourd'hui, j'espère vous avoir per­mis de mieux resi­tuer cer­tains concepts clefs pour com­men­cer à vous gui­der vers cette voie mer­veilleuse. Un grand mer­ci aux relec­teurs, humble deuxième main de l'article le ren­dant plus com­plet, acces­sible : Annie Lebre­ton , Guillaume Devailly et Nol­wenn.

Un humble mer­ci à Cho­po­pope pour son illus­tra­tion. Mer­ci éga­le­ment à notre bon admi­nis­tra­teur de la semaine, tou­jours là pour aider à mettre en publi­ca­tion les articles, notre bon Yoann M !




Commentaires

4 réponses à “Petite introduction sur… les éléments répétés”

  1. Bon­jour, mer­ci pour cet article !

    Pour avoir tra­vaillé plu­sieurs années au déve­lop­pe­ment de la suite REPET, il me semble inté­res­sant d'ajouter qu'elle implé­mente une stra­té­gie com­bi­née. C'est à dire que plu­sieurs outils ayant le même but (par exemple le clus­te­ring) sont uti­li­sés sur le même jeu de don­nées, puis leurs résul­tats sont com­bi­nés et inter-vali­dés en éli­mi­nant les redon­dances. Cela per­met d'améliorer à la fois la sen­si­bi­li­té et la spé­ci­fi­ci­té de la détection/​annotation. Plu­sieurs outils cités dans l'article sont d'ailleurs inté­grés dans REPET (Repeat­Mas­ker, TRF, Recon…).

    REPET intègre aus­si une solu­tion de clas­si­fi­ca­tion des élé­ments répé­tés (PAS­TE­Clas­si­fier). Elle se base sur une mul­ti­tude d'informations (struc­ture, simi­la­ri­té avec élé­ments connus, pro­fils HMM, gènes hôtes etc…) pour don­ner la clas­si­fi­ca­tion la plus pro­bable de chaque séquence extraite du génome. PASTEC est uti­li­sé en Step 6 du pipe­line TEde­no­vo, mais peut aus­si fonc­tion­ner en stand-alone sur une biblio­thèque FASTA mai­son.

    Bref REPET est une grosse machine qui fait beau­coup de choses. Clus­ter de cal­cul recom­man­dé si vous tra­vaillez sur des gros génomes répé­tés comme cer­taines plantes !

  2. Mer­ci pour cet article Mathu­rin ! Petite note, le lien de cette phrase semble ne pas fonc­tion­ner. "Pour savoir com­ment faire, je vous conseille de suivre le tuto­riel de cet article."

    1. Avatar de Yoann M.

      répa­ré 🙂
      Mer­ci Maga­li pour le coup d'oeil !

  3. Mer­ci RSTB pour ton com­men­taire recom­man­dant REPET. Pour infor­ma­tion la pro­chaine release V3.0 sor­ti­ra en jan­vier 2018.
    Repet team

Laisser un commentaire