Didacticiel :
Petite introduction sur... les éléments répétés

Suite à l'excellent billet proposé par un autre auteur du blog, de nombreuses questions sur ce que sont les éléments répétés sont restées en suspens. Après le séquençage du génome humain dans les années 2000, de nombreux chercheurs ont constaté que la majeure partie du génome n'était pas composée de gènes, mais d'ADN à l'époque qualifié de poubelle. Celui-ci contenant un grand nombre de motifs étranges qui ne semblaient alors pas avoir de sens. Dans ces régions, nous trouvons de nombreuses séquences fort mystérieuses, parmi lesquelles figurent les éléments répétés. Mais à quoi servent donc ces séquences?

A faire les bandits bien sur!

Afin de mettre de l'ordre dans tous ces concepts, je vous propose ici de revenir sur quelques points de définitions clefs de ce domaine et voir quelques questions scientifiques qui sont posées avec.

Les définitions proposées n'auront pas pour but d'être exhaustives ni complètes, seulement de vous donner une vision précise de chaque terme du domaine.

Alors c'est parti, on ressort les cours de biologie, place aux définitions informelles !

Les concepts de bases : un élément répété c'est quoi ?

Pour les plus étrangers au concept d'éléments répétés, voici les notions qu'il faut absolument connaître pour comprendre une conversation sur ce sujet.

Un élément répété ?

Les éléments répétés sont des séquences dans l'ADN qu'on retrouve en de multiples copies dans le génome. Parmi ces éléments plusieurs familles existent, dont les éléments transposables. On retrouve aussi les répétitions simples très présentes près des centromères entre autres, mais bien d'autres. Autrement dit, quand une personne parlera d'élément répété, le mot élément transposable sera en permanence inclus dans sa réflexion comme un des cas possible.

Un élément transposable ?

Les éléments transposables sont des séquences présentes dans l'ADN qui ont la propriété de se déplacer d’un point à un autre du génome. On distingue principalement deux types d'éléments transposables : ceux se déplaçant à l'aide d'une matrice d'ADN sur un système de "couper-coller" (par transposition) et ceux utilisant une matrice d'ARN qui se déplacent sur un système de "copier-coller" (par rétrotransposition). Les éléments fonctionnant par transposition seront déplacés dans le génome sans duplication là où ceux fonctionnant par rétrotranspotition vont pouvoir se dupliquer en de nombreuses copies. Les transposons seront donc à priori beaucoup moins invasifs dans le génome que les rétrotransposons, et dans un monde idéal où il ne serait présent dans le génome qu'une copie chacun, ce ne serait pas des éléments répétés. Cependant, par les voies de la recombinaison de l'ADN, un transposon a la possibilité de se propager.

Pour la petite histoire, les éléments répétés ont à l'origine été découverts par Barbara McClintock suite à un problème de croisement génétique qui ne semblait pas fonctionner selon les lois connues. Elle a alors supposé qu'un élément dans le génome était mobile pour expliquer comment certaines variétés existaient, mettant ainsi en évidence... un élément transposable! Parmi l'ensemble des éléments transposables et répétés présents dans un génome à un instant t, fort peu sont actifs. En effet, la plupart d'entre eux vont être réprimés par divers mécanismes. Par exemple, certains seront très présents dans des régions inactives de l'ADN et donc, pas exprimés. Dans les faits, bien des transposons sont peu actifs chez l'homme mais très actifs chez le maïs... bref chaque génome a ses spécificités avec les éléments répétés!

CC0 Creative Commons

La notion de consensus :

Pour qu'une séquence du génome puisse être assignée à une catégorie d'élément répété, il faut que cette séquence soit similaire à la séquence consensus de cet élément. Que veut dire cette définition ? Elle sous-entend que le génome évolue en permanence au cours du temps et donc que plusieurs copies d'une même séquence auront pu subir quelques modifications, mais que toutes ses copies ont un motif caractéristique commun (consensus). On suppose que ce consensus est la première version de l’élément répété qui s'est inséré dans le génome et à partir duquel des duplications et autres événements ont pu avoir lieu.

Par exemple si je cherche l'ensemble des éléments Gypsy (une famille d’élément connue) présents chez la drosophile, je vais chercher dans mon génome l'ensemble des régions possédant une séquence similaire au consensus de cet élément. Plus celle-ci aura subi des mutations, plus elle aura divergé de sa séquence d'origine. On définit alors la divergence comme le taux de modification d'un élément donné par rapport à son consensus d'origine. L'ensemble de ces définitions repose sur les bases de la théorie de l'évolution moléculaire.

Pour les plus courageux d'entre vous, il existe aussi une version youtube (en anglais) de ces définitions, ici ou ici ou bien même !

Les 'grandes' familles d'éléments répétés

Plutôt que de faire la liste exhaustive de chaque famille d'éléments répétés, je vous propose de continuer d'avoir une idée générale de ce que sont quelques familles les plus connues d'éléments répétés.

Répétition simple : Une répétition simple est une petite séquence de quelques nucléotides répétés en de nombreuses copies les unes à la suite des autres. Le motif de la répétition peut être extrêmement court (entre 2 et 10 nucléotides en moyenne). Ce type de répétition est assez facile à identifier car très présent dans les régions centromériques et télomériques (respectivement au milieu, et aux extrémités des chromosomes). Les petits (CAATG)n ou autre (ATn) qui rendent l'assemblage des génomes difficile, c'est eux. Ils sont souvent dû à des biais de duplication d'ADN ou à des erreurs de recombinaisons rajoutant une répétition de plus à une région. Toutes proportions gardées, ce sont des éléments qu'on va trouver chez tous les génomes eucaryotes (j'ai pu en identifier dans Ostreococus tauri, un eucaryote dont le génome est tout petit !). Pour vous donner une petite idée de la taille de ces éléments dans un génome, j'ai pris un élément au hasard et fait un histogramme de sa taille d'après les données présentes dans Repeatmasker pour l'homme. On voit assez vite que beaucoup d'entre eux peuvent être répétés en grande quantité les uns à la suite des autres! Pour plus de statistiques, c'est par ici.

Distribution de la taille de l'élément (GTTT)n chez l'homme.

LTR :  Ce doux acronyme signifie long terminal repeat. Ces éléments font partie de la famille des retrotransposons. En Master de bioinformatique peuvent être évoqués les éléments gypsy et copia appartenant à cette famille. Pour donner une image facile, ce type d'éléments marche comme l'ADN du virus du SIDA, transcrit à partir d'une matrice d'ARN pour s'insérer dans un génome. La différence  majeure qu'ont les LTR avec les rétrovirus est qu'ils ne peuvent pas se propager dans d'autres cellules.

SINE et LINE : Ces deux grandes familles d'éléments sont les acronymes respectifs de Short INterspersed Element et de Long INterspersed Elements. Ce sont deux familles connues de rétrotransposons qui ne sont pas des LTR (différent mécanisme d'insertion dans le génome, mais surtout de séquence). Les SINE sont des petites séquences transcrites (moins de 1000 paires de base), les LINE eux auront un mécanisme similaire mais auront des grandes séquences (>5000 pb). N'étant pas un expert des mécanismes biologiques de ces séquences, je vous invite à aller ici ou ici si vous voulez en savoir plus. On distingue beaucoup de familles connues, chez les SINE on retrouvera les alu et les MIR. Du côté des LINE, on citera souvent les L1 et L2, très présents dans le génome de la souris.

Quelques outils importants à connaitre

RepeatMasker : Ce logiciel est le gold standard du domaine pour l'annotation des éléments répétés sur un génome. Il permet de masquer les régions contenant des éléments répétés sur un génome et de fournir la position et l'annotation de l'ensemble des éléments répétés sur ce génome. Pour pouvoir fonctionner celui-ci a besoin d'une base de données d'éléments répétés caractéristiques trouvable sur le site web GIRI. Identifiant les éléments présents dans la base de données fournie, ce logiciel sert avant toute chose à retrouver des éléments répétés déjà connus. Si vous souhaitez identifier de nouveaux éléments répétés car peu caractérisés jusqu'à présent, il faudra vous reposer sur d'autres outils pour faire de l'identification de novo (voir RepeatModeler). Il est important de noter que la plupart des éléments identifiés par ce type de logiciel ne sont pas fonctionnels, la plupart seront des fragments de consensus identifiés ainsi que des séquences qui auront trop muté pour être fonctionnelles.

RepeatModeler :  Cet outil sert à identifier des éléments répétés nouveaux dans une espèce. Il est très proche de RepeatMakser car développé par les mêmes équipes. Il permet notamment de détecter des éléments qui n'existeraient pas dans d'autres espèces, ou auraient des éléments déjà existant chez d'autres espèces mais qui ont beaucoup divergé des consensus déjà établis. Pour fonctionner, celui-ci se base sur trois outils déjà existant qui sont RepeatScout , RECON et TRF.

UCSC table browser : Site web connu pour ses bases de données,  ici il nous servira à récupérer l'ensemble des annotations des éléments répétés d'un génome de référence. Pour savoir comment faire, je vous conseille de suivre le tutoriel de cet article.

La suite REPET : Si votre espèce est peu référencée ou que vous travaillez sur des génomes de plante, l'équipe URGI de l'INRA de Versailles a développé cette solution alternative et efficace. Elle repose sur deux outils qui sont TEdenovo pour l'identification de nouveaux éléments répétés et TEannot pour annoter le génome à partir des identifications de-novo couplé à RepeatMasker. Le TEannot se servant de ce logiciel en routine-préliminaire.

Quelques questions 'chaudes' du domaine

Voici quelques réflexions que j'ai pu voir en conférence et formation autour des questions qui se posent sur les éléments répétés. Que font les chercheurs actuellement dans le domaine ? Quelles sont certaines des questions qu'ils se posent ? Quels sont leurs objectifs ? Voici un petit aperçu de certains challenges à venir.

Obtenir une annotation fine des éléments répétés à la paire de base près : Peut-on annoter automatiquement avec précision un génome donné à la paire de base près ? En dépit de toutes les années de recherche et l'amélioration des techniques de séquençage haut débit, avoir une annotation à la paire de base près d'un élément répété est parfois un challenge technique demandant une expertise toujours manuelle. De nombreuses avancées sont en cours de ce côté-là et des équipes se regroupent pour trouver des solutions face à ce problème majeur (ici, ou la, voir même ici par exemple) .

L'impact de ces régions sur l'organisation des génomes : Quel est l'impact évolutif des éléments répétés dans les génomes ? Autant le dire, il n'est pas possible de répondre à cette question actuellement. Dans l'état de l'art actuel, on sait que chez les eucaryotes, de nombreux enhancer dérivent des SINE. On sait également que certaines familles d'éléments répétés auront tendance à se localiser dans les régions actives des génomes là où d'autre iront dans les régions inactives. Des chercheurs ont également étudié le lien subtil entre taille des génomes et quantité d'éléments répétés. D'autres ont également retracé l'histoire d'une famille d'éléments répétés avec précision. On sait aussi que tout un tas d'éléments répétés sont impliqués dans des mécanismes de régulation de génome (exemple la, ici, ou la). De là à dire le rôle exact des éléments répétés : les réponses sont multiples et encore à compléter, l'objectif de comprendre la fonction de chaque région dans un génome reste encore en cours.

L'histoire des génomes à travers les éléments répétés : Comment de nouveaux éléments répétés apparaissent dans un génome ? Quels sont les mécanismes derrière l'évolution de ces séquences ? Des chercheurs pensent que les éléments répétés ont potentiellement une origine exogène (provenant d'autres espèces), sans que cela reste prouvé  (autre exemple).  Aujourd'hui, tout cela reste un mystère et un champ de recherche ouvert.

Conclusions

Et voilà, ce sera tout pour aujourd'hui, j'espère vous avoir permis de mieux resituer certains concepts clefs pour commencer à vous guider vers cette voie merveilleuse. Un grand merci aux relecteurs, humble deuxième main de l'article le rendant plus complet, accessible : Annie Lebreton , Guillaume Devailly et Nolwenn.

Un humble merci à Chopopope pour son illustration. Merci également à notre bon administrateur de la semaine, toujours là pour aider à mettre en publication les articles, notre bon Yoann M!

  • À propos de
  • Bioinformaticien de formation ayant complété son cursus par un master de machine learning appliqué aux langues à Nantes. Actuellement en Doctorat au laboratoire physique théorique de la matière condensé à Paris, ma thèse a pour sujet l'organisation 3D des génomes eucaryotes et les éléments répétés. J'aime python, le machine learning et les techniques d'études des chromosomes.

Un commentaire sur “Petite introduction sur... les éléments répétés

  1. Bonjour, merci pour cet article!

    Pour avoir travaillé plusieurs années au développement de la suite REPET, il me semble intéressant d\'ajouter qu\'elle implémente une stratégie combinée. C\'est à dire que plusieurs outils ayant le même but (par exemple le clustering) sont utilisés sur le même jeu de données, puis leurs résultats sont combinés et inter-validés en éliminant les redondances. Cela permet d\'améliorer à la fois la sensibilité et la spécificité de la détection/annotation. Plusieurs outils cités dans l\'article sont d\'ailleurs intégrés dans REPET (RepeatMasker, TRF, Recon...).

    REPET intègre aussi une solution de classification des éléments répétés (PASTEClassifier). Elle se base sur une multitude d\'informations (structure, similarité avec éléments connus, profils HMM, gènes hôtes etc...) pour donner la classification la plus probable de chaque séquence extraite du génome. PASTEC est utilisé en Step 6 du pipeline TEdenovo, mais peut aussi fonctionner en stand-alone sur une bibliothèque FASTA maison.

    Bref REPET est une grosse machine qui fait beaucoup de choses. Cluster de calcul recommandé si vous travaillez sur des gros génomes répétés comme certaines plantes!

Laisser un commentaire