Analyse des données de séquençage à ARN

Depuis quelques années, le domaine du séquen­çage de l'information géné­tique est ren­tré dans une nou­velle ère : “le séquen­çage de seconde géné­ra­tion”. Cette avan­cée tech­no­lo­gique a per­mis une ana­lyse plus en pro­fon­deur de l'ADN et l'ARN. Nous pou­vons citer par­mi ces nou­velles tech­no­lo­gies le ChIP-seq (Chro­ma­tine Immu­no Pre­ci­pi­ta­tion sequen­cing) ou RNA-seq (Séquen­çage à ARN).

Le pro­jet de thèse que je mène en ce moment porte sur l'étude de l'évolution de l'épissage alter­na­tif ain­si que ses élé­ments régu­la­teurs chez les ver­té­brés. Pour mener à bien cette étude nous avons récem­ment géné­ré dans notre labo­ra­toire une très grosse quan­ti­té de don­nées de séquen­çage à ARN pour dif­fé­rents tis­sus chez plu­sieurs espèces. Ain­si, je pro­fite de l'opportunité de publier chez bioin­fo-fr pour vous pré­sen­ter le fonc­tion­ne­ment du séquen­çage à ARN ain­si que l'analyse des résul­tats obte­nus par cette méthode.

Le séquen­çage à ARN comme son nom l'indique nous per­met d'obtenir toutes les séquences en ARN pré­sentes à un moment don­né dans un tis­su. Pour cela, il faut tout d'abord extraire les séquences d'ARN pour le tis­su étu­dié. Une fois ces séquences extraites, elles sont re-trans­crites en ADN com­plé­men­taire (ou cDNA) par l'intermédiaire d'une trans­crip­tase-inverse. Comme il n'est pas pos­sible de séquen­cer direc­te­ment toutes les chaînes nucléo­ti­diques d'ARN en une seule fois du fait de leur lon­gueur, elles sont par­ta­gées en un nombre de petites séquences de taille iden­tique appe­lées reads. Cette taille était au préa­lable assez petite mais atteint aujourd'hui plus de 200 paires de bases pour les der­niers séquen­ceurs comme Illu­mi­na HiSeq2000. La lon­gueur de ces reads est impor­tante car elle joue un rôle essen­tiel pour l'étape sui­vante qui consiste à "map­per" (de se posi­tion­ner dans le génome) ces der­niers sur un génome de réfé­rence (cf. figure). Plus les reads seront petits, plus ils auront de chances (ou de risques) de map­per à plu­sieurs endroits du génome. Comme vous le savez tous, la séquence de l'ARN mes­sa­ger mature contient uni­que­ment des exons, ain­si les reads obte­nus ne peuvent map­per uni­que­ment que sur des régions exo­niques. Pour détec­ter les introns, il faut étu­dier les reads qui se situent sur deux exons qui se suivent. L'alignement et le map­ping sont les étapes pré­li­mi­naires essen­tielles à l'analyse des don­nées obte­nues. Par la suite il est pos­sible de détec­ter les dif­fé­rents iso­formes pour un même gène ou les niveaux d'expressions de ces gènes.

Dans la figure sui­vante, les reads de deux iso­formes sont repré­sen­tés de dif­fé­rentes cou­leurs. Il est pos­sible de visua­li­ser leur map­ping sur le génome de réfé­rence.

Les don­nées obte­nues en sor­tie du séquen­ceur se pré­sentent sous la forme d'un fichier au for­mat fastQ. Ce fichier atteint géné­ra­le­ment une taille de plu­sieurs giga­oc­tets et contient les infor­ma­tions pour tous les reads ayant map­pé sur le génome. Les reads qui ne mappent sur aucune par­tie du génome sont auto­ma­ti­que­ment reje­tés de l'analyse. Chaque read est repré­sen­té par 4 lignes dont les attri­buts sont les sui­vants :

  • ligne 1 : contient l'identifiant pour le read et com­mence par un @. L'identifiant repré­sente les coor­don­nées de notre échan­tillon dans le séquen­ceur. Un séquen­ceur peut ana­ly­ser plu­sieurs échan­tillons en même temps, pour cela chaque échan­tillon pos­sède des coor­don­nées pour les recon­naître.
  • linge 2 : cor­res­pond à la séquence du read
  • ligne 3 : com­mence par un « + » et est sou­vent sui­vie de l'identifiant. Cette ligne peut conte­nir une des­crip­tion en rap­port avec le read si néces­saire.
  • ligne 4 : contient la valeur de qua­li­té pour chaque nucléo­tide du read. Pour la qua­li­té, dif­fé­rentes méthodes existent : Phred33, Phred64 ou Solexa.

Pour plus de détails, je vous invite aus­si à consul­ter l'excellente page Wiki­pe­dia à pro­pos du for­mat fastQ.

Une fois les don­nées récu­pé­rées, l'analyse peut se faire de dif­fé­rentes façons selon les résul­tats atten­dus. Voi­ci une liste non-exhaus­tive d'outils qui sont fré­quem­ment uti­li­sés dans l'analyse des don­nées de RNA-seq :

    • Bow­tie : cet outil se charge de l'alignement des reads obte­nus après l'analyse.
    • Tophat : pour la détec­tion de jonc­tions. Il est ain­si pos­sible de détec­ter les introns ain­si que les sites d'épissage.
    • Cuf­flinks : uti­li­sé pour la défi­ni­tion des niveaux d'expression des gènes.
    • Galaxy : ce ser­vice web est tout sim­ple­ment excep­tion­nel. Qua­si­ment tous les outils pour l'analyse de don­nées de séquen­çage y sont pré­sent.
    • GDV : Genome Brow­ser, dont le pro­jet est mené par notre cher Yohan Jarosz 🙂 Il per­met une visua­li­sa­tion gra­phique des don­nées.
    • UCSC : assez simi­laire à GDV.
    • Sinon il y a les bons vieux scripts fait-mai­son en Python ou Perl :).

L'analyse de ces don­nées de séquen­çage à ARN n'est pas une chose facile, il faut savoir gérer des fichiers de grosse taille ain­si que de l'analyse très pré­cise. Il arrive même de devoir se concen­trer sur cer­tains reads en par­ti­cu­lier par­mi les mil­lions de reads pré­sent dans l'analyse. Cepen­dant les outils deviennent aus­si de plus en plus puis­sants pour gérer ce type de don­nées. Cela res­te­ra vrai jusqu'à la pro­chaine géné­ra­tion de séquen­çage 🙂



Pour continuer la lecture :


Commentaires

Une réponse à “Analyse des données de séquençage à ARN”

  1. […] aux gènes plus expri­més. Bon résu­mé de la méthode dans deux billets du site Bioin­fo-fr : Ana­lyse des don­nées de séquen­çage à ARN et L’analyse de don­nées RNA-seq : mode d’emploi. Ce deuxième fait aus­si appa­raître […]

Laisser un commentaire