Je vais vous exposer dans cet articles un exemple de collaboration entre biologistes et bioinformaticiens afin de répondre à un problème biologique complexe : l'étude de la régulation de l'épissage alternatif. Je vais vous présenter dans un premier temps le contexte biologique, à savoir ce qu'est l'épissage et comment il est régulé. Puis je vais vous décrire les méthodes de biologie moléculaires permettant de détecter d'une part les événements épissages alternatifs (puces à exons, RNAseq), et d'autre part les liaisons protéines/ARN (iCLIP). Enfin, je vous présenterai les méthodes d'intégration de ces données pour répondre à la question : comment une protéine influence le choix des exons à épisser.
(Attention, article très long!)
1- Introduction
1.1- L'épissage
L'épissage alternatif est un processus biologique découvert à la fin des années 1970 et constitue l'un des mécanismes les plus complexes chez les eucaryotes. L'ARN (acide ribonucléique), molécule servant d'intermédiaire entre les gènes et les protéines, est synthétisé dans le noyau des cellules et subit plusieurs transformations avant d'être traduit en protéines.
L'une de ces transformations, nommée épissage, est la plus complexe et est en grande partie responsable de la diversité du protéome (ensemble des protéines exprimées dans une cellule). L'ARN des eucaryotes n'est en effet pas composé d'une chaîne continue d'informations comme chez les bactéries. Un ARN eucaryote se décompose en régions codantes, les exons, entrecoupées de régions non-codantes, les introns. L'épissage est le processus durant lequel les introns sont enlevés de l'ARN pour ne garder que l'information nécessaire à la production de protéines fonctionnelles.
Sur ce schéma (Figure 2), nous pouvons voir le principe même de l'épissage. Le "A" (Adénine), côté 3' de l'intron en violet opère une attaque nucléophile sur sa partie 5', qui va se détacher. La seconde extrémité est à son tour libérée et les deux exons ici en bleu sont raccordés.
Cette réaction est catalysée par un des plus gros complexes protéique des cellules eucaryotes : le spliceosome. La figure 3 représente l'assemblage de ce complexe qui se déroule en 4 phases. Tout d'abord nous avons la fixation du snRNP U1 et du splicing factor SF1, puis le recrutement de U2AF qui va définir où l'ARN va être coupé. Ensuite vient U2 et enfin le tri-snRNP. Le complexe va ensuite changer de conformation et opérer l'épissage comme vu précédemment.
1.2- L'épissage Alternatif
L'épissage ne se produit pas toujours de la même manière. Les exons peuvent être enlevés de l'ARN, ou bien un intron peut être gardé. On appelle ce phénomène l'épissage alternatif. Ce tableau décrit les formes les plus classiques d'épissages alternatifs (Tableau 1).
Ici nous avons 5 formes différentes d'épissages : exon cassette, exons mutuellement exclusif (soit l'un, soit l'autre est choisi mais jamais les deux ou aucun), extrémitée 5' ou 3' alternative et enfin, la rétention d'introns. Même si ces formes décrivent les cas les plus répandus de l'épissage, elles ne reflètent pas la complexité du mécanisme. Les exons ne sont pas choisi par hasard. L'épissage est régulé par des protéines de liaison à l'ARN (répresseurs et activateurs), qui se lient sur des séquences cis-régulatrices ("silencer" et "enhancer"). La structure secondaire de l'ARN peut elle aussi influer sur l'épissage.
Les éléments cis-régulateurs sont par convention classés en fonction de leur place par rapport à l'exon et en fonction de leur capacité à faciliter ou à empêcher l'épissage. Les ESE pour Exonic Splicing Enhancer et les ESS pour Exonic Splicing Silencer affectent l'épissage de l'exon dans lequel ils se trouvent, alors que les ISE (Intronic Splicing Enhancer) et les ISS (Intronic Splicing Silencer) influent sur les exons adjacents depuis leur position intronique (Figure 4).
Les éléments cis-régulateurs sont les cibles des protéines de laison à l'ARN qui participent au choix des exons à épisser en faciltant le recrutement du spliceosome ou bien en rentrant en compétition avec ce complexe.
La figure 5 résume les principales protéines de liaison qui régulent l'épissage et leurs éléments cis-régulateurs correspondants.
2- Approche Experimentale
L'étude de l'épissage alternative à l'échelle d'un génome est un des challenges actuel que rencontre la biologie moléculaire. Avec l'avènement des techniques de hautes résolutions il devient de plus en plus facile d'étudier les évènements d'épissage. Dans un premier temps je vous présenterai comment les événements d'épissage sont détectés (puce à exons et RNAseq) puis comment identifier les intéractions protéines/ARN avec la méthode iCLIP (individual-nucleotide resolution UV cross-linking and immunoprecipitation).
2.1- Puces à exons
Avant le développement des puces à exons (splice-junction microarrays), l'épissage alternatif était étudié au cas par cas. Depuis quelques années, de plus en plus d'études ont travaillé sur les propriétés globales de l'épissage alternatif en utilisant les puces (microarrays) fournissant des informations sur les isoformes d'ARN messagers. Je vais décrire brièvement comment détecter les différences d'épissage avec les puces à exons.
Le principe des puces à ARN Affimetrix© est décrit figure 6. L'ARNm est extrait des cellules, puis subit une transcription inverse. À l'issue de cette première transformation nous obtenons de l'ADNc (ADN complémentaire). Cet ADNc est transcrit pour reconstituer le brin d'ARNm originel et y inclure des nucléotides marqués avec de la biotine. Cet ARNc marqué est ensuite fragmenté et hybridé sur la puce. La puce contient des sondes qui sont des séquences spécifiques complémentaires de l'ARNc. Après l'hybridation, la puce est lavée pour enlever les ARNc qui ne sont pas liés spécifiquement aux sondes. Un anticorps anti-biotine couplé à un fluorophore est utilisé pour révélé l'hybridation. Le signal fluorescent est détecté et analysé, en partant du principe que l'intensité du signal est proportionnel au nombre d'ARNc hybridés.
Dans les cas des puces à exons, le but n'est pas de détecter l'expression génétique mais les différentes formes d'épissage présents dans les cellules. La puce contient des sondes couvrant toutes les formes d'épissages alternatifs connus pour les ARN.
La figure 7 montre les sondes utilisées pour détecter les événements d'épissage d'un exon cassette. Les sondes couvrant l'intérieur des exons (en rouge) sont utilisées comme références pour détecter l'inclusion de chacun des trois exons alors que les sondes recouvant les jonctions exon-exon (en vert et en jaune) permettent de détecter quel isoforme est présent.
La figure 8 est un exemple de signaux que l'on peut obtenir dans le cas d'un exon cassette. Les barres bleues représentent le signal mesuré quand l'exon cassette est inclu dans l'ARN mature (isoforme 1), et les barres grises représentent le cas où l'exon est exclu (isoforme 2).
2.2- RNAseq
Le séquençage de l'ARN (RNAseq) est une technique récemment développée qui utilise les technologies nouvelles génération du séquençage de l'ADN pour étudier le transcriptome. L'ARN messager est extrait des cellules et converti en ADNc par transcrition inverse en utilisant comme amorce une séquence poly(T) qui va se lier à la queue poly(A) de l'ARN. l'ADNc est ensuite fragmenté en séquences courtes (reads) qui sont ensuite séquencés. Une fois séquencés, la séquence originelle des ARN est retrouvée en "mappant" les reads sur le génome de référence. Les reads recouvrant l'intérieur des exons sont les plus facile à replacer sur le génome et sont donc "mappés" en premier. Ensuite, différentes méthodes peuvent être utilisées pour identifier les reads qui chevauchent des jonctions exon-exon connues ou non connues (par exemple, une partie d'un intron exceptionnellement inclu comme un exon). Je vous renvoie à l'article de ademcan pour plus de détail. La figure 9 décrit le "mapping" de reads de deux isoformes sur un génome de référence.
Une fois que les différences d'épissages ont été découvertes, il faut maintenant identifier les facteurs qui sont responsables de ces différences. La stratégie est de se focaliser sur une protéine de liaison à l'ARN et d'étudier la localisation des interactions de cette protéine avec l'ARN afin de voir si celle-ci entre en compétition avec le spliceosome.
2.3- iCLIP (Individual-nucleotide Resolution UV Cross-linking and Immunoprecipitation)
iCLIP est une méthode de biologie moléculaire qui permet de détecter les intéractions protéine/ARN in vivo et de déterminer la séquence exacte reconnue par la protéine. Les cellules en culture sont irradiées avec des ultra-violets (UV), ce qui entraîne la formation de liaisons covalentes entre les protéines et l'ARN. Cette méthode utilise la photoréactivité, une propriété naturelle qui s'applique aux nucléotides, particulièrement aux pyrimidines (Thymine, Uracile, Cytosine), et à certains acides aminés ( Cys, Lys, Phe, Trp et Ty). Une irradiation à 254nm (ondes UV) permet de figer les intéractions entre les protéines et les acides nucléiques ce qui implique que seules les intéractions directes avec l'ARN sont détectées par iCLIP.
Après l'irradiation, les complexes ARN/Protéines liés sont immunoprécipités en utilisant un anticorps spécifique de la protéine d'intérêt, puis un adaptateur (oligonucléotide) est rajouté à l'ARN précipité. La protéine de liaison est ensuite dégradée par la protéinase K qui va laisser un polypeptide là où la protéine est liée à l'ARN. L'ARN ainsi libéré de la protéine est converti en ADNc en utilisant une amorce qui contient deux régions clivables et un code barre aléatoire (séquence de 3 nucléotides choisis par hasard). Le polypeptide présent sur l'ARN va causer l'arrêt prématuré de la transcription inverse à l'endoit de la liaison protéine/ARN, ce qui fait que le dernier nucléotide ajouté lors de la transcription inverse correspond au nucléotide qui précède directement la liaison protéine/ARN. L'ADNc est ensuite circularisé et linéarisé en clivant l'adaptateur avec une enzyme de restriction spécifique. L'ADNc est amplifié par PCR puis est séquencé par un séquenceur nouvelle génération. Les reads sont mappés sur le génome de référence de l'organisme étudié après avoir enlevé les séquences adaptatrices (Figure 10).
Les reads présentant le même code barre et la même position sur le génome sont enlevés des résultats pour se préserver des artefacts de PCR. Nous obtenons donc le nombre d'événement de liaison sur un nucléotide en comptant les ADNc qui présentent un code barre différent et une position identique (Figure 11).
3- Approche Bioinformatique
Après avoir réalisé d'une part la recherche des épissages alternatifs, et d'autre part la position des liaisons protéine/ARN, il nous faut maintenant recouper ces informations. C'est là qu'entrent en jeux les bioinformaticiens.
3.1- Genome Browser
La première façon de confronter ces résultats (et la plus facile) est de visualiser le tout dans un genome browser. La figure 12 est une copie d'écran d'un genome browser où sont chargées les données de RNAseq et les données de iCLIP. Du bas vers le haut nous avons les coordonnées génomique, l'annotation des gènes (ici CD55, le rectangle bleu représente un exon, la ligne un intron), puis en bleu nous avons les données de RNAseq pour des cellules controles, en rouge une RNAseq sur des cellules où l'on a enlevé la protéine de liaison hnRNP C, et en vert les données iCLIP pour la protéine de liaison hnRNP C.
Nous voyons bien que l'exon cassette sur lequel on se focalise est fortement inclu dans l'ARN lorsque les cellules n'expriment pas la protéines hnRNP C. En parallèle, nous constatons un pic de liaison de hnRNP C juste en amont de cet exon en condition normale. Nous pouvons donc supposer qu'il y a une relation entre l'exclusion de l'exon et la liaison de la protéine en amont de l'exon.
Il est évident que pour étudier un gène précis cette méthode est adaptée, mais pour une approche à large échelle, nous n'allons pas étudier les exons un par un ! Pour étudier les effets globaux de la protéine de la liaison sur l'épissage, nous allons réaliser des RNA splicing maps, ou cartes d'épissage.
3.2- RNA splicing map
Les RNA splicing maps sont des représentations graphiques permettant de visualiser l'effet global d'une protéine sur l'épissage. Le principe est simple. Nous séparons les donées d'épissage en trois groupes :
- les exons down-régulés (silenced) par la protéine (exons qui montrent une hausse significative de fréquence d'inclusion quand la protéine n'est pas exprimée)
- les exons controls (exons qui ne montrent aucune différence d'inclusions avec ou sans la protéine)
- les exons up-régulés (enhanced) par la protéine (exons qui montrent une baisse significative de fréquence d'inclusion quand la protéine n'est pas exprimée)
Pour chaque exon de chaque groupe, on définit quatre fenêtres d'étude (figure 13):
- la fin de l'exon précédant l'exon d'intérêt
- le début de l'exon d'intéret
- la fin de l'exon d'intérêt
- le début de l'exon suivant l'exon d'intérêt
Dans ces fenêtres, on va regarder s'il y a des événements de liaison pour chaque nucléotide grâce aux données de iCLIP. Une fois tous ces événements recensés, on va sommer le nombre de liaisons pour chaque nucléotide de tous nos exons et diviser ces nombres par le nombre total d'exons. On obtient donc le nombre moyen de liaisons de la protéine à chaque nucléotide. On va enfin représenter tous ces résultats sur un même graphe pour comparer les événements de liaisons pour les exons up-régulés, down-régulés et controls, où l'axe des abcisses représente nos fenêtres d'études relatives aux coordonnées des exons, et l'axe des ordonnées représente le nombre moyen de liaisons par base (Figure 14).
Et voici ce que donne la RNA splicing map pour la protéine hnRNP C sur des données de puce à exon :
Cette carte a été réalisée avec un script écrit en R avec la librairie Lattice que je vous recommande si vous voulez faire de beaux graphiques en R. Un jour si j'ai le courage, je publierai mon script chez Bioconductor. On y voit que les exons down-regulés (en bleu) présentent un nombre remarquable de hnRNP C juste avant le début de l'exon, alors que chez les exons controls (gris) et les exons up-régulés (en rouge) ne présentent pas de région particulièrement ciblée par hnRNP C. On a donc, grâce à ces cartes, mis en évidence un effet global de la protéine hnRNP C sur l'épissage alternatif.
3.3- Heatmap
Une autre manière d'étudier l'épissage alternatif régulé par des protéines est de s'intéresser aux compétitions entre protéines pour un même site de fixation. Pour celà il suffit de réaliser trois expériences iCLIP :
- protéine 1 en condition normale
- protéine 2 en condition normale
- protéine 2 en condition de non-expression de la protéine 1 (knock-down)
On met ensuite ces résultats en relation avec les données d'épissages reccueillies par RNAseq ou par puce à ARN, on sélectionne des exons présentant des différences d'épissage significatives et on peut soit faire une RNA splicing map en superposant les courbes, soit réaliser une heatmap comme celle-ci :
La heatmap permet de visualiser les liaisons des protéines en amont des exons (ici 50 nucléotides en amont) pour les 2 protéines et dans deux conditions. Chaque ligne représente un exon, et l'intensité du bleu représente le nombre de liaisons. On voit ici que la protéine 2 se lie beaucoup plus en amont des exons quand la protéine 1 est absente des cellules. On est en présence d'une compétition entre les deux protéines.
4- Conclusion
Je pense avoir illustré à travers cet article comment les biologistes et les bioinformaticiens peuvent travailler de consort pour répondre à un problème biologique complexe tel que l'étude de l'épissage alternatif. Les progrès des expériences de biologie moléculaires gagnent non seulement en complexité mais aussi et surtout en qualité. Nous sommes désormais en mesure d'étudier des phénomènes aussi complexes que l'épissage et à une résolution extêmement précise.
Références
Alberts, B. et al. Molecular Biology of the Cell in Cell 5th, vol. 54 (Garland Science, Taylor & Francis Group, USA, 2008), 5 edn.
König, J. et al. iCLIP reveals the function of hnRNP particles in splicing at individual nucleotide resolution. Nature Structural & Molecular Biology 17, 909–916 (2010).
Nilsen, T. W. The spliceosome : the most complex macromolecular machine in the cell ? BioEssays : news and reviews in molecular, cellular and developmental biology 25, 1147–9 (2003).
Chen, M. & Manley, J. L. Mechanisms of alternative splicing regulation : insights from molecular and genomics approaches. Nature reviews. Molecular cell biology 10, 741–54 (2009).
Black, D. L. Mechanisms of alternative pre-messenger RNA splicing. Annual review of biochemistry 72, 291–336 (2003).
Ule, J. et al. An RNA map predicting Nova-dependent splicing regulation. Nature 444, 580–6 (2006).
Barash, Y. et al. Deciphering the splicing code Nature 465,53–59 (2010).
Figures :
Figure 1 : BorisTM (Public Domain) http://en.wikipedia.org/wiki/File:Nucleotides_1.svg
Figure 2, 4, 5, 7, 8, 9, 11, 13, 14 & Tableau 1 : Isabelle Stévant (Art Libre) (adaptées de divers articles)
Figure 3 : Reproduction d'une figure du livre Molecular Biology of the Cell
Figure 6 : http://www.affymetrix.com
Figure 10 : tirée de König et al.
Figure 12, 15, 16 : Isabelle Stévant (Tous droits réservés)
Laisser un commentaire