Télécharger des données de séquençage sur le NCBI.. pour les débutants !

Toi petit étu­diant de M1 qui arrive en pre­mier jour de stage… Viens par ici… Oui TOI ! Toi à qui ton maître de stage te demande de récu­pé­rer les don­nées de séquen­çage d'un article vache­ment bien, sans que tu saches le faire… TOI !

Toi le phy­si­cien qui se met à la bio­lo­gie mais qui ignore com­ment les bio-infor­ma­ti­ciens rangent les don­nées…  VOUS ! VOUS RESTEZ ICI, TOUT de suite !

Aujourd'hui, on va par­ler de l'archivage des don­nées de géno­mique. Com­ment sau­ve­garde-t-on les séquences d'ADN ? Quels outils existent pour ça ? Et quel est le voca­bu­laire à avoir pour com­prendre ce que font ces outils et où cher­cher l'information ? Si tu lis cor­rec­te­ment ces lignes et que tes don­nées sont sto­ckées sur le NCBI… NORMALEMENT tu ne devrais plus perdre 2 h à cher­cher une infor­ma­tion dans une page qu'un œil aver­ti trouve en deux minutes.

Seul pré-requis pour lire cet article : savoir ce qu'est un fichier FASTQ et ce qu'est le séquen­çage haut débit. Cet article s'inspire assez lar­ge­ment de ce tuto­riel, une lec­ture très saine ! Un bon moyen de se mettre en jambe pour lire cet article si tu débute aus­si, c'est cet autre article écrit par un copain du blog !

Allons‑y !

Hé mais cette publication a des données vachement bien. Je récupère ça comment ?

La nomenclature indispensable

Pour une publi­ca­tion dans un jour­nal obli­geant la publi­ca­tion des don­nées, le lien vers les don­nées est le plus sou­vent fait via une réfé­rence sur la pla­te­forme GEO. Afin de ne pas se perdre dans toutes les pages qu'il est pos­sible de par­cou­rir dans cette base, voi­ci un petit guide des iden­ti­fiants utiles sur les pages.

  • GEO (Gene Expres­sion Omni­bus) : Base de don­née du NCBI regrou­pant toutes les don­nées et méta-don­nées autour des jeux de don­nées asso­ciés à des publi­ca­tions scien­ti­fiques.
  • GSE (Geno­mic Spa­tial Event) : Iden­ti­fiant unique ser­vant à retrou­ver l'ensemble des don­nées pro­duites lors d'une publi­ca­tion.
  • GSM (GEO Sample) : Expé­riences fai­sant par­tie d'un GSE. Pour chaque GSM, une page web conte­nant le détail spé­ci­fique de l'expérience four­nie est dis­po­nible. Dans le cas où une ana­lyse contien­drait beau­coup de fichiers, il est pos­sible que celle-ci ait plu­sieurs GSM. Cela est alors indi­qué sur la page web liée au GSE.
Impres­sion écran retou­chée sau­va­ge­ment pour se concen­trer sur ce qui nous inté­resse : ici, aller voir le détail des expé­riences qui nous inté­resse en cli­quant sur le GSM.
  • SRA : Base de don­nées de sto­ckage des don­nées haut débit. Uti­lise un for­mat épo­nyme pour cela (.sra) qui est une com­pres­sion "opti­male" des fichiers FASTQ. Il est pos­sible de sto­cker du sam en SRA aus­si.
Conte­nu d'une page SRX, indi­quant les fichiers SRA à télé­char­ger !
  • SRX (SRA eXpe­riment): Iden­ti­fiant de regrou­pe­ment de tous les SRA asso­ciés à un GSE. Si tout va bien, il existe un iden­ti­fiant SRX pour un GSM.
Conte­nu typique d'une page d'un GSM. Pour aller cher­cher les don­nées, il faut aller voir du côté du SRX !  (Non ce n'est pas la mai­son qui rend fou d'Astérix, juste une mai­son bien ran­gée !).

Trouver le lien de téléchargement

Dans ce cas ou les auteurs d'une publi­ca­tion ont four­ni leur don­née sur GEO, il suf­fit de cher­cher le GSE  pré­sent dans l’article pour retrou­ver les don­nées. Il se situe en géné­ral à la fin juste avant les remer­cie­ments. Un petit ctrl+f  sur "GSE" et hop, vous voi­la sur une page com­plexe conte­nant toutes les don­nées uti­li­sées pen­dant une publi­ca­tion. Si l'url est absent, il suf­fit de prendre l'identifiant et de le mettre sur le site de GEO pour retom­ber sur ses pattes. L'objectif à par­tir d'ici sera de retrou­ver les fichiers liés à l'expérience qui vous inté­resse. Pour ça, ana­ly­sons un peu les mots-clefs pré­sents sur cette page !

Petit exemple de page du NCBI pour le GSE93431, au delà de toutes les indi­ca­tions de pro­to­cole (à lire ATTENTIVEMENT), la par­tie inté­res­sante (les don­nées) se trouvent dans les GSM.

Si tu as sui­vi jusque-là, quand tu es sur une page pour un GSE pré­cis, voi­là ce qu'il faut faire :

  • cli­quer sur les GSM de l'expérience qui t'intéresse
  • ensuite aller sur la page SRX qui t'intéresse
  • voir les iden­ti­fiants SRA que tu veux télé­char­ger sans trop savoir com­ment

Main­te­nant, voyons quoi faire avec les iden­ti­fiants SRA pour récu­pé­rer ces fichiers.

Utiliser la SRA toolkit

A ce stade, tu dis­poses d'une liste de noms de fichiers SRA sans trop savoir com­ment télé­char­ger les fichiers qui vont avec. Deux options : aller sur le ser­veur FTP du NCBI et jouer avec (à la main ou en ligne de com­mande inter­ro­geant via FTP), ou uti­li­ser la SRA tool­kit. Dans tous les cas, le SRA tool­kit va vite deve­nir indis­pen­sable, il per­met de décom­pres­ser les fichiers SRA vers le for­mat FASTQ.

Pre­mière étape, l'installation, pour ça le tuto­riel four­ni sur le site est lar­ge­ment suf­fi­sant. Ensuite :

  • Si tu veux télé­char­ger les fichiers FASTQ direc­te­ment en ligne de com­mande (j'ai mis un nom SRA au hasard) :
sratoolkit/bin/fastq-dump SRR238427

Ici l'outil va directement chercher le fichier .sra dans sa base de donnée plutôt que dans ton répertoire courant, le télécharger dans ton .cache temporairement si tu es sur une distribution Linux et l'extraire en FASTQ au passage là où tu te situes.

  • Si tu as déjà téléchargé tes fichiers SRA et que tu veux les décompresser :

Utilise ton terminal et là il te faudra utiliser la commande "fastq-dump" de la SRA toolkit. Si tes reads sont appairés, l'option "--split-files" te permet de séparer les deux paires. Si jamais le fichier contient des reads sans paire l'option "split-3" te permet de séparer tes reads en 3 fichiers et enlever les reads sans paire. Exemple d'utilisation :

sratoolkit/bin/fastq-dump SRR238427.sra

Et voila, normalement tu as tes fichiers de séquençage!

Si JAMAIS les données que tu télécharges te semblent louches, que le fichier FASTQ que tu extrais a un nombre de ligne qui n'est pas un multiple de 4, que la boîte à outil te retourne une erreur étrange, quelques conseils :

  1. Vérifie sur la page SRX la taille du fichier que tu es supposé télécharger et compare la à ce que tu as toi pour vérifier si il y a eu une erreur de transfert.
  2. Vérifie tes options de décompression du fichier sra : Sont-elles cohérentes par rapport aux protocoles décrits dans la publication et sur la page GSM ?
  3. Cherche sur google l'erreur que tu as  (dans le doute)
  4. Si JAMAIS toutes tes vérifications ne t'apportent rien : contacte la plateforme du NCBI, ils sont gentils et répondent vite. Si jamais tu trouves une erreur sur des données (ça m'est arrivé), ils corrigent ça vite. Si tu as un bug sur la SRA-toolkit aussi ils sont de bon conseil là-dessus.

En conclusion

Derrière un effort commun international pour archiver correctement les données, être capable de retrouver une information pour l'extraire reste une tâche complexe. Pour des données issues de séquençage haut débit, un bel effort a été produit donnant des pages où il est facile de retrouver les informations clefs. L'expérience nécessaire pour trouver cette information est un peu coûteuse, mais 2h de perdues une fois vaut bien des centaines d'heures de gagnées ensuite non?

Merci aux relecteurs et admins intervenus pour publier cet article : Jnsll, ZaZo0o et Gwenaëlle.

PS : Je jure en toute bonne foi que l'introduction de ce billet a été écrite avec (beaucoup) de second degré, et ne résulte en rien du nombre incessant de biophysiciens retrouvés perdus sur des opérations simples. J'espère que ces lignes les aideront à ne plus venir m’embêter  gagner un temps précieux au quotidien.

Groumpf



Pour continuer la lecture :


Commentaires

4 réponses à “Télécharger des données de séquençage sur le NCBI.. pour les débutants !”

  1. Il y a aus­si ce petit outil bien pra­tique pour explo­rer SRA https://​ewels​.github​.io/​s​r​a​-​e​x​p​l​o​r​er/

  2. Très utile, mer­ci d'avoir défri­cher la notice de télé­char­ge­ment du NCBI.

  3. Avatar de Elie bordron
    Elie bordron

    Très utile pour anti­ci­per le Mas­ter, mer­ci beau­coup !

  4. Avatar de Pauline

    Per­son­nel­le­ment, je trouve que fastq-dump n'est pas du tout effi­cace, je prends des heures à récu­pé­rer un fastq ! Je les récu­père sur le ftp direc­te­ment en fastq main­te­nant.

Laisser un commentaire