Cet article est en partie basé sur mon introduction de thèse [0], reformatée pour convenir au format du blog et agrémentée des nouvelles informations pour ne pas être un simple catalogue de connaissances.
Qu'il s'agisse du génome entier, du génome de tissus ou du génome de cellules spécifiques, l'étude de la quantité de transcrits produits, ou transcriptome, a permis à la recherche en biologie et bioinfo de mieux comprendre le fonctionnement basal et sain de ces entités [1,2].
Un rapide historique
L'ARN est une de ces molécules biologiques casse-pieds : sa stabilité est faible et sa dégradation rapide en raison des nombreuses enzymes de dégradation la ciblant dans et hors de la cellule. Alors les premières technologies de transcriptomique ont donc rarement ciblé les ARN en eux-mêmes et ont plutôt construit des ADN complémentaires (ADNc) de leurs séquences à l'aide de transcriptases inverses découvertes en 1970 [3].
Ces premières technologies furent basées sur les marqueurs de séquences exprimées (expressed sequence tags en anglais ou EST), de courtes séquences d'ADNc identifiantes de transcrits qu'on détectait ensuite par migration sur gel. Développés au début des années 70, les EST ont servi de base à la méthode SAGE (Serial Analysis of Gene Expression) créée en 1995 [4] qui analyse les EST concaténés via le séquençage Sanger (le fameux qu'on nous rabâche en cours) lui-même inventé en 1975 [5]. Cette technique de séquençage alors très populaire à l'époque [6] est dite rétrospectivement de bas débit et a permis les premiers séquençages de transcriptome partiels [7] ou complets pour des organismes à ARN de petite taille comme le bactériophage MS2 [8]. La quantification par réaction en chaine d'ARN retro-transposé (RT-qPCR de l'anglais reverse transcription quantitative polymerase chain reaction) combinée à un buvardage de northern* (en anglais northernblot) fut également utilisée à partir de la fin des années 80 en raison de sa grande précision [9].
L'utilisation de SAGE et de RT-qPCR dans l'étude de l'expression de gènes a toutefois diminué progressivement au profit de nouvelles technologies capables de quantifier un plus grand nombre de transcrits simultanément [10]. Les puces à ADN par hybridation (en anglais hybridization-based microarrays) ont ainsi été prisés dès le milieu des années 90 [11] après la commercialisation de la première puce Affimetrix [12] en raison de leur faible rapport coût sur transcrits quantifiés.
Cependant, face à la contrainte des puces à ADN de devoir connaître les séquences des transcrits à quantifier, la technologie du RNA-seq (séquençage de l'ARN, RNA sequencing en anglais) est devenue un incontournable dans nombre d'études. Profitant de l'amélioration des technologies de séquençage génomique via toujours une transcription inverse de l'ARNm en ADNc, la technologie du RNA-seq va émerger dans les années 2000 et est promu comme révolutionnaire [13]. Pourtant, sa mention dans une publication n'arrivera finalement qu'en 2008 [14] bien qu'elle soit utilisée dans des études dès 2006 [15]. La baisse progressive de son coût (non je ne remettrai pas cette figure que tout le monde connaît), la rapidité du processus et l'équipement progressif des laboratoires avec des automates va alors la rendre incontournable.
Les puces à ADN et le RNA-seq sont encore aujourd'hui les deux technologies de quantification de l'expression des gènes couramment utilisées, malgré le déclin annoncé des puces à ADN pour de la quantification d'expression (Figure 1). Les bio-informaticien·ne·s sont donc amené·e·s à devoir traiter et analyser les données issues de ces deux approches en tenant compte des propriétés biologiques, techniques et statistiques respectives à chacune des deux technologies.
Les technologies en quelques mots
Il existe de nombreuses variations d'une même technologie (euphémisme si on compte les solutions maison [16]) et il est ainsi impossible de toutes les présenter dans cet humble article. Voici donc une version générale pour chacune d'entre elle.
Les puces à ADN
S'il existe une version de génotypage des puces à ADN, c'est bien la version de quantification de l'expression des gènes qui nous intéresse ici. Pour obtenir cette information, on utilise une lame de verre sur laquelle est déposé un ensemble de fragments d'ADN nommés amorces (en anglais probes) dans des puits qui correspondent aux ARN que l'on souhaite quantifier. Les constructeurs de puces à ADN tels que Affymetrix, Illumina ou Agilent (les plus courants) mettent donc à disposition plusieurs modèles de puces contenant un ensemble d'amorces prédéfinies pour réaliser la quantification de l'expression chez un organisme [17].
Les transcrits purifiés sont ensuite retro-transcrits pour être capables de se lier avec les amorces. Au passage on leur ajoute des fluorochromes pour les repérer et les quantifier plus tard. Certaines puces sont prévues pour une utilisation avec un seul fluorochrome (un canal), tandis que d'autres permettent l'hybridation de deux échantillons (deux canaux) différents tels que deux conditions expérimentales (sain/malade, sauvage/muté [18]). Un détecteur équipé d'un capteur de fluorescence va ensuite mesurer l'intensité émanant de chaque puits et chaque longueur d'onde s'il s'agit d'une puce à deux canaux. Il en résulte une image, ou deux si il y a deux canaux, telle que visible en Figure 2. L'intensité du signal reçue par le capteur est ensuite transformée en intensité d'expression après plusieurs corrections et normalisation qu'on ne détaillera pas dans cet article.
Le RNA-seq
Le protocole de préparation des transcrits est le même que pour les puces à ADN avec une étape supplémentaire avant séquençage : une amplification par PCR et une fragmentation selon la taille requise par la technologie de séquençage.
On en distingue deux : la première et la seconde, perdu, la seconde et la troisième (la première étant associée aux méthode à base d'EST). Les technologies de seconde génération dont Illumina reste très répandu, consistent à paralléliser un très grand nombre d'opérations de séquençage de tout transcrit présent dans l'échantillon. Des fragments de petite à moyenne taille (400 bp au maximum) peuvent alors être séquencé par différentes méthodes : pyroséquençage, terminateur de colorant réversible, ligature en chaîne d'oligonucléotides 8‑mer, etc. Les technologies de troisième génération telles que PacBio ou Nanopore (Figure 3), quant à elles, utilisent encore d'autres méthodes : variation du champ électrique de nanopores, guides d'ondes à mode zéro [20]. La différence avec la seconde génération réside dans la taille de fragment séquençable bien supérieure avec comme contre coup de prendre plus de temps et d'avoir un nombre d'erreurs de lectures discutable.
Conclusion
"Et les autres méthodes de quantification de l'expression ?" certains me diront. Car oui, les technologies présentées ici ne sont que les plus classiques et cet article ne se veut pas exhaustif. Isabelle nous parlait ainsi par exemple de la transcriptomique spatiale ou du single-cell sequencing sur notre blog.
En attendant, voilà la courte histoire de comment différentes générations de jeux de donnée d'expression de gènes se baladent dans GEO et comment vous pouvez être amené à travailler avec. Attention cependant car comme vous vous en doutez, chacune possède ses propres biais de quantification d'expression et doit donc être pré-traité différemment. On essaiera donc dans un prochain article de revenir sur ce point.
Sources
- [0] Gwenaëlle Lemoine, "Développement de méthodes et outils d'analyse transcriptomique par réseaux de co-expression de gènes pour la détection de gènes candidats dans le vieillissement de différents tissus humains", Thèse Université Laval (CA), Dec 2021, https://hdl.handle.net/20.500.11794/72645
- [1] T. R. Hughes et al., “Functional Discovery via a Compendium of Expression Profiles,” Cell, vol. 102, pp. 109–126, jul 2000.
- [2] N. Cloonan et al., “Stem cell transcriptome profiling via massive-scale mRNA sequencing,” Nat. Methods, vol. 5, pp. 613–619, Jul 2008.
- [3] H. M. Temin and S. Mizutani, “Viral RNA-dependent DNA Polymerase : RNA-dependent DNA Polymerase in Virions of Rous Sarcoma Virus,” Nature, vol. 226, pp. 1211–1213, Jun 1970.
- [4] V. E. Velculescu et al., “Serial Analysis of Gene Expression,” Science, vol. 270, pp. 484–487, Oct 1995
- [5] F. Sanger and A. R. Coulson, “A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase,” J. Mol. Biol., vol. 94, pp. 441–448, May 1975
- [6] M. A. Marra, L. Hillier, and R. H. Waterston, “Expressed sequence tags — ESTablishing bridges between genomes,” Trends Genet., vol. 14, pp. 4–7, Jan 1998.
- [7] P. G. N. Jeppesen et al., “Gene Order in the Bacteriophage R17 RNA : 5′– ;A Protein–Coat Protein–Synthetase–3′,” Nature, vol. 226, pp. 230–237, Apr 1970.
- [8] W. Fiers, R. Contreras, F. Duerinck, G. Haegeman, D. Iserentant, J. Merregaert, W. M. Jou,
- F. Molemans et al., “Complete nucleotide sequence of bacteriophage MS2 RNA : primary and secondary structure of the replicase gene,” Nature, vol. 260, pp. 500–507, Apr 1976.
- [9] M. Becker-André and K. Hahlbrock, “Absolute mRNA quantification using the polymerase chain reaction (PCR). A novel approach by a PCR aided transcipt titration assay (PATTY),” Nucleic Acids Res., vol. 17, pp. 9437–9446, Nov 1989.
- [10] R. Lowe et al., “Transcriptomics technologies,” PLoS Comput. Biol., vol. 13, p. e1005457, May 2017.
- [11] M. Schena et al., “Quantitative Monitoring of Gene Ex-
- pression Patterns with a Complementary DNA Microarray,” Science, vol. 270, pp. 467–470, Oct 1995.
- [12] T. Lenoir and E. Giannella, “The emergence and diffusion of DNA microarray technology,” J. Biomed. Discovery Collab., vol. 1, p. 11, 2006.
- [13] Wang, M. Gerstein, and M. Snyder, “RNA-Seq : a revolutionary tool for transcriptomics,” Nat. Rev. Genet., vol. 10, pp. 57–63, Jan 2009.
- [14] U. Nagalakshmi et al., “The Transcriptional Landscape of the Yeast Genome Defined by RNA Sequencing,” Science, vol. 320, pp. 1344–1349, Jun 2008.
- [15] F. Cheung et al., and C. D. Town, “Sequencing Medicago truncatula expressed sequenced tags using 454 Life Sciences technology,” BMC Genomics, vol. 7, pp. 1–10, Dec 2006.
- [16] A. Thompson et al., “It’s easy to build your own microarrayer !,” Trends Microbiol., vol. 9, pp. 154–156, Apr 2001
- [17] H. Liu, “Microarray probes and probe sets,” Frontiers in Bioscience, vol. E2, no. 1, pp. 325–338, 2010.
- [18] R. Bumgarner, “Overview of DNA Microarrays : Types, Applications, and Their Future,” Current Protocols in Molecular Biology, vol. 101, pp. 22.1.1–22.1.11, Jan 2013
- [19] A. Petrov and S. Shams, “Microarray Image Processing and Quality Control,” The. Journal of VLSI Signal Processing-Systems. for Signal, Image, and Video Technology, vol. 38, pp. 211–226, Nov 2004
- [20] Thomas P. Niedringhaus et al., "Landscape of Next-Generation Sequencing Technologies", Analytical Chemistry, 2011, vol.83 (12), 4327–4341
Merci à Marion P., Léopold Carron, et Isabelle S. pour la relecture.
- *Oui, oui, c'est bien la traduction en français de northernblot, cf. http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=8392423
Laisser un commentaire