Télécharger des données de séquençage sur le NCBI.. pour les débutants !

Toi petit étu­diant de M1 qui arrive en pre­mier jour de stage… Viens par ici… Oui TOI ! Toi à qui ton maître de stage te demande de récu­pé­rer les don­nées de séquen­çage d'un article vache­ment bien, sans que tu saches le faire… TOI !

Toi le phy­si­cien qui se met à la bio­lo­gie mais qui ignore com­ment les bio-infor­ma­ti­ciens rangent les don­nées…  VOUS ! VOUS RESTEZ ICI, TOUT de suite !

Aujourd'hui, on va par­ler de l'archivage des don­nées de géno­mique. Com­ment sau­ve­garde-t-on les séquences d'ADN ? Quels outils existent pour ça ? Et quel est le voca­bu­laire à avoir pour com­prendre ce que font ces outils et où cher­cher l'information ? Si tu lis cor­rec­te­ment ces lignes et que tes don­nées sont sto­ckées sur le NCBI… NORMALEMENT tu ne devrais plus perdre 2 h à cher­cher une infor­ma­tion dans une page qu'un œil aver­ti trouve en deux minutes.

Seul pré-requis pour lire cet article : savoir ce qu'est un fichier FASTQ et ce qu'est le séquen­çage haut débit. Cet article s'inspire assez lar­ge­ment de ce tuto­riel, une lec­ture très saine ! Un bon moyen de se mettre en jambe pour lire cet article si tu débute aus­si, c'est cet autre article écrit par un copain du blog !

Allons‑y !

Hé mais cette publication a des données vachement bien. Je récupère ça comment ?

La nomenclature indispensable

Pour une publi­ca­tion dans un jour­nal obli­geant la publi­ca­tion des don­nées, le lien vers les don­nées est le plus sou­vent fait via une réfé­rence sur la pla­te­forme GEO. Afin de ne pas se perdre dans toutes les pages qu'il est pos­sible de par­cou­rir dans cette base, voi­ci un petit guide des iden­ti­fiants utiles sur les pages.

  • GEO (Gene Expres­sion Omni­bus) : Base de don­née du NCBI regrou­pant toutes les don­nées et méta-don­nées autour des jeux de don­nées asso­ciés à des publi­ca­tions scien­ti­fiques.
  • GSE (Geno­mic Spa­tial Event) : Iden­ti­fiant unique ser­vant à retrou­ver l'ensemble des don­nées pro­duites lors d'une publi­ca­tion.
  • GSM (GEO Sample) : Expé­riences fai­sant par­tie d'un GSE. Pour chaque GSM, une page web conte­nant le détail spé­ci­fique de l'expérience four­nie est dis­po­nible. Dans le cas où une ana­lyse contien­drait beau­coup de fichiers, il est pos­sible que celle-ci ait plu­sieurs GSM. Cela est alors indi­qué sur la page web liée au GSE.
Impres­sion écran retou­chée sau­va­ge­ment pour se concen­trer sur ce qui nous inté­resse : ici, aller voir le détail des expé­riences qui nous inté­resse en cli­quant sur le GSM.
  • SRA : Base de don­nées de sto­ckage des don­nées haut débit. Uti­lise un for­mat épo­nyme pour cela (.sra) qui est une com­pres­sion "opti­male" des fichiers FASTQ. Il est pos­sible de sto­cker du sam en SRA aus­si.
 
Conte­nu d'une page SRX, indi­quant les fichiers SRA à télé­char­ger !
  • SRX (SRA eXpe­riment): Iden­ti­fiant de regrou­pe­ment de tous les SRA asso­ciés à un GSE. Si tout va bien, il existe un iden­ti­fiant SRX pour un GSM.
Conte­nu typique d'une page d'un GSM. Pour aller cher­cher les don­nées, il faut aller voir du côté du SRX !  (Non ce n'est pas la mai­son qui rend fou d'Astérix, juste une mai­son bien ran­gée !).

Trouver le lien de téléchargement

Dans ce cas ou les auteurs d'une publi­ca­tion ont four­ni leur don­née sur GEO, il suf­fit de cher­cher le GSE  pré­sent dans l’article pour retrou­ver les don­nées. Il se situe en géné­ral à la fin juste avant les remer­cie­ments. Un petit ctrl+f  sur "GSE" et hop, vous voi­la sur une page com­plexe conte­nant toutes les don­nées uti­li­sées pen­dant une publi­ca­tion. Si l'url est absent, il suf­fit de prendre l'identifiant et de le mettre sur le site de GEO pour retom­ber sur ses pattes. L'objectif à par­tir d'ici sera de retrou­ver les fichiers liés à l'expérience qui vous inté­resse. Pour ça, ana­ly­sons un peu les mots-clefs pré­sents sur cette page !

Petit exemple de page du NCBI pour le GSE93431, au delà de toutes les indi­ca­tions de pro­to­cole (à lire ATTENTIVEMENT), la par­tie inté­res­sante (les don­nées) se trouvent dans les GSM.

Si tu as sui­vi jusque-là, quand tu es sur une page pour un GSE pré­cis, voi­là ce qu'il faut faire :

  • cli­quer sur les GSM de l'expérience qui t'intéresse
  • ensuite aller sur la page SRX qui t'intéresse
  • voir les iden­ti­fiants SRA que tu veux télé­char­ger sans trop savoir com­ment

Main­te­nant, voyons quoi faire avec les iden­ti­fiants SRA pour récu­pé­rer ces fichiers.

Utiliser la SRA toolkit

A ce stade, tu dis­poses d'une liste de noms de fichiers SRA sans trop savoir com­ment télé­char­ger les fichiers qui vont avec. Deux options : aller sur le ser­veur FTP du NCBI et jouer avec (à la main ou en ligne de com­mande inter­ro­geant via FTP), ou uti­li­ser la SRA tool­kit. Dans tous les cas, le SRA tool­kit va vite deve­nir indis­pen­sable, il per­met de décom­pres­ser les fichiers SRA vers le for­mat FASTQ.

Pre­mière étape, l'installation, pour ça le tuto­riel four­ni sur le site est lar­ge­ment suf­fi­sant. Ensuite :

  • Si tu veux télé­char­ger les fichiers FASTQ direc­te­ment en ligne de com­mande (j'ai mis un nom SRA au hasard) :

Ici l'outil va direc­te­ment cher­cher le fichier .sra dans sa base de don­née plu­tôt que dans ton réper­toire cou­rant, le télé­char­ger dans ton .cache tem­po­rai­re­ment si tu es sur une dis­tri­bu­tion Linux et l'extraire en FASTQ au pas­sage là où tu te situes.

  • Si tu as déjà télé­char­gé tes fichiers SRA et que tu veux les décom­pres­ser :

Uti­lise ton ter­mi­nal et là il te fau­dra uti­li­ser la com­mande "fastq-dump" de la SRA tool­kit. Si tes reads sont appai­rés, l'option "–split-files" te per­met de sépa­rer les deux paires. Si jamais le fichier contient des reads sans paire l'option "split‑3" te per­met de sépa­rer tes reads en 3 fichiers et enle­ver les reads sans paire. Exemple d'utilisation :

Et voi­la, nor­ma­le­ment tu as tes fichiers de séquen­çage !

Si JAMAIS les don­nées que tu télé­charges te semblent louches, que le fichier FASTQ que tu extrais a un nombre de ligne qui n'est pas un mul­tiple de 4, que la boîte à outil te retourne une erreur étrange, quelques conseils :

  1. Véri­fie sur la page SRX la taille du fichier que tu es sup­po­sé télé­char­ger et com­pare la à ce que tu as toi pour véri­fier si il y a eu une erreur de trans­fert.
  2. Véri­fie tes options de décom­pres­sion du fichier sra : Sont-elles cohé­rentes par rap­port aux pro­to­coles décrits dans la publi­ca­tion et sur la page GSM ?
  3. Cherche sur google l'erreur que tu as  (dans le doute)
  4. Si JAMAIS toutes tes véri­fi­ca­tions ne t'apportent rien : contacte la pla­te­forme du NCBI, ils sont gen­tils et répondent vite. Si jamais tu trouves une erreur sur des don­nées (ça m'est arri­vé), ils cor­rigent ça vite. Si tu as un bug sur la SRA-tool­kit aus­si ils sont de bon conseil là-des­sus.

En conclusion

Der­rière un effort com­mun inter­na­tio­nal pour archi­ver cor­rec­te­ment les don­nées, être capable de retrou­ver une infor­ma­tion pour l'extraire reste une tâche com­plexe. Pour des don­nées issues de séquen­çage haut débit, un bel effort a été pro­duit don­nant des pages où il est facile de retrou­ver les infor­ma­tions clefs. L'expérience néces­saire pour trou­ver cette infor­ma­tion est un peu coû­teuse, mais 2h de per­dues une fois vaut bien des cen­taines d'heures de gagnées ensuite non ?

Mer­ci aux relec­teurs et admins inter­ve­nus pour publier cet article : Jnsll, ZaZo0o et Gwe­naëlle.

PS : Je jure en toute bonne foi que l'introduction de ce billet a été écrite avec (beau­coup) de second degré, et ne résulte en rien du nombre inces­sant de bio­phy­si­ciens retrou­vés per­dus sur des opé­ra­tions simples. J'espère que ces lignes les aide­ront à ne plus venir m’embêter  gagner un temps pré­cieux au quo­ti­dien.

Groumpf



Pour continuer la lecture :


Commentaires

4 réponses à “Télécharger des données de séquençage sur le NCBI.. pour les débutants !”

  1. Il y a aus­si ce petit outil bien pra­tique pour explo­rer SRA https://​ewels​.github​.io/​s​r​a​-​e​x​p​l​o​r​er/

  2. Très utile, mer­ci d'avoir défri­cher la notice de télé­char­ge­ment du NCBI.

  3. Avatar de Elie bordron
    Elie bordron

    Très utile pour anti­ci­per le Mas­ter, mer­ci beau­coup !

  4. Avatar de Pauline

    Per­son­nel­le­ment, je trouve que fastq-dump n'est pas du tout effi­cace, je prends des heures à récu­pé­rer un fastq ! Je les récu­père sur le ftp direc­te­ment en fastq main­te­nant.

Laisser un commentaire