Étude de la régulation de l'épissage alternatif

4 mai 2012

-

par

https://www.flickr.com/photos/wheatfields/2074115838/in/photostream/

Je vais vous exposer dans cet articles un exemple de collaboration entre biologistes et bioinformaticiens afin de répondre à un problème biologique complexe : l'étude de la régulation de l'épissage alternatif. Je vais vous présenter dans un premier temps le contexte biologique, à savoir ce qu'est l'épissage et comment il est régulé. Puis je vais vous décrire les méthodes de biologie moléculaires permettant de détecter d'une part les événements épissages alternatifs (puces à exons, RNAseq), et d'autre part les liaisons protéines/ARN (iCLIP). Enfin, je vous présenterai les méthodes d'intégration de ces données pour répondre à la question : comment une protéine influence le choix des exons à épisser.

(Attention, article très long!)

1- Introduction

1.1- L'épissage

Figure 1 : Synthèse et maturation de l'ARN messager chez les eucaryotes

L'épissage alternatif est un processus biologique découvert à la fin des années 1970 et constitue l'un des mécanismes les plus complexes chez les eucaryotes. L'ARN (acide ribonucléique), molécule servant d'intermédiaire entre les gènes et les protéines, est synthétisé dans le noyau des cellules et subit plusieurs transformations avant d'être traduit en protéines.

L'une de ces transformations, nommée épissage, est la plus complexe et est en grande partie responsable de la diversité du protéome (ensemble des protéines exprimées dans une cellule). L'ARN des eucaryotes n'est en effet pas composé d'une chaîne continue d'informations comme chez les bactéries. Un ARN eucaryote se décompose en régions codantes, les exons, entrecoupées de régions non-codantes, les introns. L'épissage est le processus durant lequel les introns sont enlevés de l'ARN pour ne garder que l'information nécessaire à la production de protéines fonctionnelles.

Figure 2 : Mécanisme de l'épissage de l'ARNm

Sur ce schéma (Figure 2), nous pouvons voir le principe même de l'épissage. Le "A" (Adénine), côté 3' de l'intron en violet opère une attaque nucléophile sur sa partie 5', qui va se détacher. La seconde extrémité est à son tour libérée et les deux exons ici en bleu sont raccordés.

Cette réaction est catalysée par un des plus gros complexes protéique des cellules eucaryotes : le spliceosome. La figure 3 représente l'assemblage de ce complexe qui se déroule en 4 phases. Tout d'abord nous avons la fixation du snRNP U1 et du splicing factor SF1, puis le recrutement de U2AF qui va définir où l'ARN va être coupé. Ensuite vient U2 et enfin le tri-snRNP. Le complexe va ensuite changer de conformation et opérer l'épissage comme vu précédemment.

1.2- L'épissage Alternatif

L'épissage ne se produit pas toujours de la même manière. Les exons peuvent être enlevés de l'ARN, ou bien un intron peut être gardé. On appelle ce phénomène l'épissage alternatif. Ce tableau décrit les formes les plus classiques d'épissages alternatifs (Tableau 1).

Tableau 1 : Classification traditionnelle des formes d'épissage alternatif

Ici nous avons 5 formes différentes d'épissages : exon cassette, exons mutuellement exclusif (soit l'un, soit l'autre est choisi mais jamais les deux ou aucun), extrémitée 5' ou 3' alternative et enfin, la rétention d'introns. Même si ces formes décrivent les cas les plus répandus de l'épissage, elles ne reflètent pas la complexité du mécanisme. Les exons ne sont pas choisi par hasard. L'épissage est régulé par des protéines de liaison à l'ARN (répresseurs et activateurs), qui se lient sur des séquences cis-régulatrices ("silencer" et "enhancer"). La structure secondaire de l'ARN peut elle aussi influer sur l'épissage.

Les éléments cis-régulateurs sont par convention classés en fonction de leur place par rapport à l'exon et en fonction de leur capacité à faciliter ou à empêcher l'épissage. Les ESE pour Exonic Splicing Enhancer et les ESS pour Exonic Splicing Silencer affectent l'épissage de l'exon dans lequel ils se trouvent, alors que les ISE (Intronic Splicing Enhancer) et les ISS (Intronic Splicing Silencer) influent sur les exons adjacents depuis leur position intronique (Figure 4).

Figure 4 : Éléments cis-régulateurs de l'épissage

Les éléments cis-régulateurs sont les cibles des protéines de laison à l'ARN qui participent au choix des exons à épisser en faciltant le recrutement du spliceosome ou bien en rentrant en compétition avec ce complexe.

Figure 5 : Protéines auxilliaires de l'épissage

La figure 5 résume les principales protéines de liaison qui régulent l'épissage et leurs éléments cis-régulateurs correspondants.

2- Approche Experimentale

L'étude de l'épissage alternative à l'échelle d'un génome est un des challenges actuel que rencontre la biologie moléculaire. Avec l'avènement des techniques de hautes résolutions il devient de plus en plus facile d'étudier les évènements d'épissage. Dans un premier temps je vous présenterai comment les événements d'épissage sont détectés (puce à exons et RNAseq) puis comment identifier les intéractions protéines/ARN avec la méthode iCLIP (individual-nucleotide resolution UV cross-linking and immunoprecipitation).

2.1- Puces à exons

Avant le développement des puces à exons (splice-junction microarrays), l'épissage alternatif était étudié au cas par cas. Depuis quelques années, de plus en plus d'études ont travaillé sur les propriétés globales de l'épissage alternatif en utilisant les puces (microarrays) fournissant des informations sur les isoformes d'ARN messagers. Je vais décrire brièvement comment détecter les différences d'épissage avec les puces à exons.

Figure 6 : Protocole de préparation de puce à ADN (Affimetrix©)

Le principe des puces à ARN Affimetrix© est décrit figure 6. L'ARNm est extrait des cellules, puis subit une transcription inverse. À l'issue de cette première transformation nous obtenons de l'ADNc (ADN complémentaire). Cet ADNc est transcrit pour reconstituer le brin d'ARNm originel et y inclure des nucléotides marqués avec de la biotine. Cet ARNc marqué est ensuite fragmenté et hybridé sur la puce. La puce contient des sondes qui sont des séquences spécifiques complémentaires de l'ARNc. Après l'hybridation, la puce est lavée pour enlever les ARNc qui ne sont pas liés spécifiquement aux sondes. Un anticorps anti-biotine couplé à un fluorophore est utilisé pour révélé l'hybridation. Le signal fluorescent est détecté et analysé, en partant du principe que l'intensité du signal est proportionnel au nombre d'ARNc hybridés.

Figure 7 : Sondes utilisées pour détecter l'épissage d'un exon cassette (exon violet)

Dans les cas des puces à exons, le but n'est pas de détecter l'expression génétique mais les différentes formes d'épissage présents dans les cellules. La puce contient des sondes couvrant toutes les formes d'épissages alternatifs connus pour les ARN.

La figure 7 montre les sondes utilisées pour détecter les événements d'épissage d'un exon cassette. Les sondes couvrant l'intérieur des exons (en rouge) sont utilisées comme références pour détecter l'inclusion de chacun des trois exons alors que les sondes recouvant les jonctions exon-exon (en vert et en jaune) permettent de détecter quel isoforme est présent.

La figure 8 est un exemple de signaux que l'on peut obtenir dans le cas d'un exon cassette. Les barres bleues représentent le signal mesuré quand l'exon cassette est inclu dans l'ARN mature (isoforme 1), et les barres grises représentent le cas où l'exon est exclu (isoforme 2).

Figure 8 : Exemple de signaux détectés pour 2 isoformes avec un exon cassette

2.2- RNAseq

Le séquençage de l'ARN (RNAseq) est une technique récemment développée qui utilise les technologies nouvelles génération du séquençage de l'ADN pour étudier le transcriptome. L'ARN messager est extrait des cellules et converti en ADNc par transcrition inverse en utilisant comme amorce une séquence poly(T) qui va se lier à la queue poly(A) de l'ARN. l'ADNc est ensuite fragmenté en séquences courtes (reads) qui sont ensuite séquencés. Une fois séquencés, la séquence originelle des ARN est retrouvée en "mappant" les reads sur le génome de référence. Les reads recouvrant l'intérieur des exons sont les plus facile à replacer sur le génome et sont donc "mappés" en premier. Ensuite, différentes méthodes peuvent être utilisées pour identifier les reads qui chevauchent des jonctions exon-exon connues ou non connues (par exemple, une partie d'un intron exceptionnellement inclu comme un exon). Je vous renvoie à l'article de ademcan pour plus de détail. La figure 9 décrit le "mapping" de reads de deux isoformes sur un génome de référence.

Figure 9 : Méthode de détection d'isoformes par mapping de reads RNAseq

Une fois que les différences d'épissages ont été découvertes, il faut maintenant identifier les facteurs qui sont responsables de ces différences. La stratégie est de se focaliser sur une protéine de liaison à l'ARN et d'étudier la localisation des interactions de cette protéine avec l'ARN afin de voir si celle-ci entre en compétition avec le spliceosome.

2.3- iCLIP (Individual-nucleotide Resolution UV Cross-linking and Immunoprecipitation)

iCLIP est une méthode de biologie moléculaire qui permet de détecter les intéractions protéine/ARN in vivo et de déterminer la séquence exacte reconnue par la protéine. Les cellules en culture sont irradiées avec des ultra-violets (UV), ce qui entraîne la formation de liaisons covalentes entre les protéines et l'ARN. Cette méthode utilise la photoréactivité, une propriété naturelle qui s'applique aux nucléotides, particulièrement aux pyrimidines (Thymine, Uracile, Cytosine), et à certains acides aminés ( Cys, Lys, Phe, Trp et Ty). Une irradiation à 254nm (ondes UV) permet de figer les intéractions entre les protéines et les acides nucléiques ce qui implique que seules les intéractions directes avec l'ARN sont détectées par iCLIP.

Figure 10 : Protocole iCLIP (König 2010)

Après l'irradiation, les complexes ARN/Protéines liés sont immunoprécipités en utilisant un anticorps spécifique de la protéine d'intérêt, puis un adaptateur (oligonucléotide) est rajouté à l'ARN précipité. La protéine de liaison est ensuite dégradée par la protéinase K qui va laisser un polypeptide là où la protéine est liée à l'ARN. L'ARN ainsi libéré de la protéine est converti en ADNc en utilisant une amorce qui contient deux régions clivables et un code barre aléatoire (séquence de 3 nucléotides choisis par hasard). Le polypeptide présent sur l'ARN va causer l'arrêt prématuré de la transcription inverse à l'endoit de la liaison protéine/ARN, ce qui fait que le dernier nucléotide ajouté lors de la transcription inverse correspond au nucléotide qui précède directement la liaison protéine/ARN. L'ADNc est ensuite circularisé et linéarisé en clivant l'adaptateur avec une enzyme de restriction spécifique. L'ADNc est amplifié par PCR puis est séquencé par un séquenceur nouvelle génération. Les reads sont mappés sur le génome de référence de l'organisme étudié après avoir enlevé les séquences adaptatrices (Figure 10).

Les reads présentant le même code barre et la même position sur le génome sont enlevés des résultats pour se préserver des artefacts de PCR. Nous obtenons donc le nombre d'événement de liaison sur un nucléotide en comptant les ADNc qui présentent un code barre différent et une position identique (Figure 11).

Figure 11 : Principe du comptage des ADNc pour les nucléotides liés aux protéines

3- Approche Bioinformatique

Après avoir réalisé d'une part la recherche des épissages alternatifs, et d'autre part la position des liaisons protéine/ARN, il nous faut maintenant recouper ces informations. C'est là qu'entrent en jeux les bioinformaticiens.

3.1- Genome Browser

La première façon de confronter ces résultats (et la plus facile) est de visualiser le tout dans un genome browser. La figure 12 est une copie d'écran d'un genome browser où sont chargées les données de RNAseq et les données de iCLIP. Du bas vers le haut nous avons les coordonnées génomique, l'annotation des gènes (ici CD55, le rectangle bleu représente un exon, la ligne un intron), puis en bleu nous avons les données de RNAseq pour des cellules controles, en rouge une RNAseq sur des cellules où l'on a enlevé la protéine de liaison hnRNP C, et en vert les données iCLIP pour la protéine de liaison hnRNP C.

Figure 12 : Exon cassette régulé par la protéine hnRNP C

Nous voyons bien que l'exon cassette sur lequel on se focalise est fortement inclu dans l'ARN lorsque les cellules n'expriment pas la protéines hnRNP C. En parallèle, nous constatons un pic de liaison de hnRNP C juste en amont de cet exon en condition normale. Nous pouvons donc supposer qu'il y a une relation entre l'exclusion de l'exon et la liaison de la protéine en amont de l'exon.

Il est évident que pour étudier un gène précis cette méthode est adaptée, mais pour une approche à large échelle, nous n'allons pas étudier les exons un par un ! Pour étudier les effets globaux de la protéine de la liaison sur l'épissage, nous allons réaliser des RNA splicing maps, ou cartes d'épissage.

3.2- RNA splicing map

Les RNA splicing maps sont des représentations graphiques permettant de visualiser l'effet global d'une protéine sur l'épissage. Le principe est simple. Nous séparons les donées d'épissage en trois groupes :

les exons down-régulés (silenced) par la protéine (exons qui montrent une hausse significative de fréquence d'inclusion quand la protéine n'est pas exprimée)
les exons controls (exons qui ne montrent aucune différence d'inclusions avec ou sans la protéine)
les exons up-régulés (enhanced) par la protéine (exons qui montrent une baisse significative de fréquence d'inclusion quand la protéine n'est pas exprimée)

Pour chaque exon de chaque groupe, on définit quatre fenêtres d'étude (figure 13):

la fin de l'exon précédant l'exon d'intérêt
le début de l'exon d'intéret
la fin de l'exon d'intérêt
le début de l'exon suivant l'exon d'intérêt

Figure 13 : Fenêtre d'études pour les RNA maps

Dans ces fenêtres, on va regarder s'il y a des événements de liaison pour chaque nucléotide grâce aux données de iCLIP. Une fois tous ces événements recensés, on va sommer le nombre de liaisons pour chaque nucléotide de tous nos exons et diviser ces nombres par le nombre total d'exons. On obtient donc le nombre moyen de liaisons de la protéine à chaque nucléotide. On va enfin représenter tous ces résultats sur un même graphe pour comparer les événements de liaisons pour les exons up-régulés, down-régulés et controls, où l'axe des abcisses représente nos fenêtres d'études relatives aux coordonnées des exons, et l'axe des ordonnées représente le nombre moyen de liaisons par base (Figure 14).

Et voici ce que donne la RNA splicing map pour la protéine hnRNP C sur des données de puce à exon :

Cette carte a été réalisée avec un script écrit en R avec la librairie Lattice que je vous recommande si vous voulez faire de beaux graphiques en R. Un jour si j'ai le courage, je publierai mon script chez Bioconductor. On y voit que les exons down-regulés (en bleu) présentent un nombre remarquable de hnRNP C juste avant le début de l'exon, alors que chez les exons controls (gris) et les exons up-régulés (en rouge) ne présentent pas de région particulièrement ciblée par hnRNP C. On a donc, grâce à ces cartes, mis en évidence un effet global de la protéine hnRNP C sur l'épissage alternatif.

3.3- Heatmap

Une autre manière d'étudier l'épissage alternatif régulé par des protéines est de s'intéresser aux compétitions entre protéines pour un même site de fixation. Pour celà il suffit de réaliser trois expériences iCLIP :

protéine 1 en condition normale
protéine 2 en condition normale
protéine 2 en condition de non-expression de la protéine 1 (knock-down)

On met ensuite ces résultats en relation avec les données d'épissages reccueillies par RNAseq ou par puce à ARN, on sélectionne des exons présentant des différences d'épissage significatives et on peut soit faire une RNA splicing map en superposant les courbes, soit réaliser une heatmap comme celle-ci :

Figure 16 : Heatmap représentant une compétition entre deux protéines de liaison

La heatmap permet de visualiser les liaisons des protéines en amont des exons (ici 50 nucléotides en amont) pour les 2 protéines et dans deux conditions. Chaque ligne représente un exon, et l'intensité du bleu représente le nombre de liaisons. On voit ici que la protéine 2 se lie beaucoup plus en amont des exons quand la protéine 1 est absente des cellules. On est en présence d'une compétition entre les deux protéines.

4- Conclusion

Je pense avoir illustré à travers cet article comment les biologistes et les bioinformaticiens peuvent travailler de consort pour répondre à un problème biologique complexe tel que l'étude de l'épissage alternatif. Les progrès des expériences de biologie moléculaires gagnent non seulement en complexité mais aussi et surtout en qualité. Nous sommes désormais en mesure d'étudier des phénomènes aussi complexes que l'épissage et à une résolution extêmement précise.

Références

Alberts, B. et al. Molecular Biology of the Cell in Cell 5th, vol. 54 (Garland Science, Taylor & Francis Group, USA, 2008), 5 edn.

König, J. et al. iCLIP reveals the function of hnRNP particles in splicing at individual nucleotide resolution. Nature Structural & Molecular Biology 17, 909–916 (2010).

Nilsen, T. W. The spliceosome : the most complex macromolecular machine in the cell ? BioEssays : news and reviews in molecular, cellular and developmental biology 25, 1147–9 (2003).

Chen, M. & Manley, J. L. Mechanisms of alternative splicing regulation : insights from molecular and genomics approaches. Nature reviews. Molecular cell biology 10, 741–54 (2009).

Black, D. L. Mechanisms of alternative pre-messenger RNA splicing. Annual review of biochemistry 72, 291–336 (2003).

Ule, J. et al. An RNA map predicting Nova-dependent splicing regulation. Nature 444, 580–6 (2006).

Barash, Y. et al. Deciphering the splicing code Nature 465,53–59 (2010).

Figures :

Figure 1 : BorisTM (Public Domain) http://en.wikipedia.org/wiki/File:Nucleotides_1.svg
Figure 2, 4, 5, 7, 8, 9, 11, 13, 14 & Tableau 1 : Isabelle Stévant (Art Libre) (adaptées de divers articles)
Figure 3 : Reproduction d'une figure du livre Molecular Biology of the Cell
Figure 6 : http://www.affymetrix.com
Figure 10 : tirée de König et al.
Figure 12, 15, 16 : Isabelle Stévant (Tous droits réservés)

Partagez cet article

Isabelle S. (ZaZo0o)

Mi-bio, mi-bioinfo, et re-mi-bio derrière. J'ai suivi une licence de biologie cellulaire et génétique et un master de bioinformatique à l'université de Rennes, puis j'ai travaillé comme ingé d'étude en développement web pendant 1 an et demi. Ensuite, j'ai effectué un doctorat en bioinformatique à l'université de Genève (single-cell RNA-seq, paillasse et analyse), puis un premier postdoc mi-bio mi-bioinfo en épigénomique développementale de la Drosophile à l'IGFL à Lyon. Je suis actuellement en postdoc bioinfo à distance pour l'université de Bar Ilan (Tel Aviv), en collaboration avec l'IGH à Montpellier. J'analyse des données multi-omics pour reconstituer la régulation des gènes lors de la différentiation des gonades chez la souris.

Pour continuer la lecture :

Commentaires

7 réponses à “Étude de la régulation de l'épissage alternatif”

Yoann M.

7 mai 2012

J'ai adoré ! Merci pour toutes ces explications qui je pense devraient aider pas mal de monde !

Répondre
Yohann

12 mai 2012

Excellent article qui rafraîchit bien la mémoire.

Merci !

J'aurai une question concernant Lattice.
Je suis utilisateur de ggplot2 et j'aimerai savoir si cela vaut le coup de se mettre a Lattice et si, finalement ces deux packages permettent d'aboutir a des résultats similaires.

Répondre
1. ZaZo0o
  
  14 mai 2012
  
  Je n'ai jamais utilisé ggplot2, mais d'après ce que je vois ça a l'air de faire à peu près la même chose.
  Je pense que le mieux est d'essayer lattice pour se faire une idée. Peut-être que l'un est plus pratique dans certains cas, et l'autres plus adapté à d'autres cas, je ne sais pas.
  
  Répondre
  1. BIoinfoINSERM
    
    23 octobre 2014
    
    Bonjour, Très bon article Merci
    Je me demande s' il existe des outils bioinformatique pour la recherche des cassettes exon (ou alternative splicing) depuis des fichiers (genebank eg.)
    Merci pour votre réponse
    
    Répondre
    1. ZaZo0o
      
      23 octobre 2014
      
      Bonjour,
      
      Il existe des tentatives de bases de données répertoriant les évènements de splicing mais il faut voir si c'est à jour. En voici un par exemple :
      http://hexevent.mmg.uci.edu/cgi-bin/HEXEvent/HEXEventWEB.cgi
      
      Ensuite, en fouillant dans les option de BioMart, je pense qu'il est possible de trouver ce genre d'info vu que le site Ensembl est capable de fournir les infos sur les différents transcrits de gènes.
      
      Dans cette étude, les exons alternatifs ont été définis via les RNAseq et non via des annotations dans des bases de données.
      
      Répondre

Laisser un commentaireAnnuler la réponse.

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.