L'analyse de séquences est une mission centrale de la bioinformatique. Quelques mots sur celle de l'ADN, un domaine incontournable dans lequel les chercheurs s’attèlent à comprendre la fonction des régions régulatrices du génome et des gènes grâce aux nouvelles technologies.
Le credo de la bio
En biologie, il existe de nombreuses macromolécules renfermant un code permettant d’exécuter des processus cellulaires et moléculaires. C’est ce que l’on appelle le dogme central de la biologie moléculaire : un gène est transcrit en ARN messager puis traduit en protéines — principales protagonistes des processus biologiques de la cellule. L'ADN et l'ARN sont faits de longues séquences de nucléotides ATGC et AUGC et les protéines, de chaînes composées d'acides aminés.
L'ADN, star des publications
Au fil du temps, les méthodes de séquençage du génome et des ARN messagers génèrent de nombreuses séquences de nucléotides, ouvrant la voie à une meilleure classification des espèces (Phylogénétique). Celle de Sanger est la première. La fonction des gènes et des protéines est ainsi décodée, du virus bactériophage φX174 en 1977 à l’être humain en 2001.
Depuis les années 1980, l'analyse de séquences d'ADN devient la star des publications. En 2012, la base de donnée scientifiques Pubmed répertorie quelque 18392 nouvelles entrées, à ce sujet.
Depuis les années 1970
Les premiers algorithmes utilisés pour cette classification phylogénétique sont basés sur des méthodes d’alignement global de séquences. Dans les années 1970, l’algorithme de Needleman-Wunsch fait ses preuves en la matière. Vous pouvez d'ailleurs depuis peu vous amuser à comprendre son fonctionnement avec cette web-application réalisée entièrement en JavaScript. En 1981, celui de Smith-Waterman permet d’étudier efficacement des alignements locaux. En comparant les séquences des ARN ribosomaux et des ARN de transfert de Escherichia coli, il identifie des sous-séquences aux fonctions spécifiques.
Cité plus de 20'000 fois
Trouver des relations fonctionnelles ou évolutives entre les séquences, et identifier les membres d'une même famille de gènes : c'est ce que permet l’algorithme BLAST (Basic Local Alignment Search Tool), créé en 1990 par Stephen Altschul et ses collègues. La publication le décrivant a été citée plus de 20'000 fois, un record, et cet algorithme miraculeux est encore utilisé aujourd’hui pour l’analyse de séquences d’ADN, d’ARN et de protéines.
Grâce à ces algorithmes et leurs successeurs, les secrets des alignements multiples ont été percés. La conservation entre gènes orthologues et paralogues a pu être quantifiée et de nombreuses familles de gènes et des régions régulatrices ont été identifiées. Les sites de début de la transcription, les séquences Kozak, et les sites d'origine de réplication bactériens, entre autres, comptent parmi les principales découvertes de l'analyse de séquences ADN.
Un nouvel essor
Avec les technologies récentes basées sur le séquençage, la recherche sur le génome a pris un nouvel essor. Les données issues des techniques CHiP-seq, RNA-seq et DNase-seq permettent par exemple d’étudier, l'une les sites de liaison de différentes protéines à l’ADN, la seconde le niveau d’expression des transcrits et la troisième, l’accessibilité de la chromatine.
La génomique fonctionnelle, nouveau domaine de la biologie moléculaire définie par l’étude quantitative et qualitative de la structure de la chromatine à l’échelle du génome, est issue de ces techniques. Elle inclut notamment l’analyse des interactions ADN-protéines, ainsi que celle des niveaux d’expression des gènes codant ces dernières.
CHiP-chip !
CHiP-chip, PBM, HT-SELEX, yeast one-hybrid ou encore SPR ont contribué spécifiquement à l’étude des interactions protéines-ADN. Ces techniques ont permis d'établir des séquences consensus ou plus précisément des matrice poids-positions (PWM) décrivant les sites de liaison de facteurs de transcription à l'ADN. Elles sont expliquées en détail dans une excellente review de Gary Stromo.
Le logo qui cartonne
La représentation en logos des matrices poids-positions de l'Américain Gary Stromo (publié en 1982) a rendu son modèle extrêmement populaire et fait de leur auteur l'un des principaux théoriciens des interactions ADN-protéines. Plusieurs bases de données dont Jaspar et Transfac sont consacrées à ces matrices poids-positions. Elles permettent de représenter les sites de liaison à l'ADN, l'ARN ainsi que des domaines de protéines ayant un rôle particulier.
La transcription est influencée entre autres par la structure tridimensionnelle de la chromatine et l’arrangement spatial des chromosomes dans le noyau. Le lien entre structure de la chromatine et transcription des gènes a été prouvé par des études sur la capture de la conformation des chromosomes (3C, 4C, 5C, Hi‑C et CHiA-pet), basées sur les travaux de Dekker publiés en 2002.
Étudié depuis plus de quarante ans, L'ADN renferme le secret de la vie. La compréhension des mécanismes de régulation de la transcription permettra d’appréhender son essence, tout en offrant de beau jours à la bioinformatique et à l'analyse de séquences.
Références
- Needleman, Saul B.; and Wunsch, Christian D. (1970). "A general method applicable to the search for similarities in the amino acid sequence of two proteins". Journal of Molecular Biology 48 (3): 443–53. doi :10.1016/0022–2836(70)90057–4. PMID 5420325.
- Smith, Temple F.; and Waterman, Michael S. (1981). "Identification of Common Molecular Subsequences". Journal of Molecular Biology 147 : 195–197. doi :10.1016/0022–2836(81)90087–5. PMID 7265238.
- Altschul, Stephen ; Gish, Warren ; Miller, Webb ; Myers, Eugene ; Lipman, David (1990). "Basic local alignment search tool". Journal of Molecular Biology 215 (3): 403–410. doi :10.1016/S0022-2836(05)80360–2. PMID 2231712.
- Stormo, Gary D.; Schneider, Thomas D.; Gold, Larry ; Ehrenfeucht, Andrzej (1982). "Use of the ‘Perceptron’ algorithm to distinguish translational initiation sites in E. coli". Nucleic Acids Research 10 (9): 2997–3011. doi :10.1093/nar/10.9.2997
- Gary D.Stormo and Yue Zhao (2010) "Determining the specificity of protein–DNA interactions", Nature Reviews Genetics AOP, 28 September 2010 ; doi:10.1038/nrg2845
- Schneider TD, Stephens RM (1990). "Sequence Logos : A New Way to Display Consensus Sequences". Nucleic Acids Res 18 (20): 6097–6100. doi :10.1093/nar/18.20.6097. PMC 332411. PMID 2172928
- Dekker J, Rippe K, Dekker M, Kleckner N (2002). "Capturing chromosome conformation". Science 295 (5558): 1306–1311. doi :10.1126/science.1067799 . PMID 11847345
Un grand merci aux relecteurs Estel , Yoann M., nahoy, Julien Delafontaine et Aline Jaccottet
Laisser un commentaire