Toi petit étudiant de M1 qui arrive en premier jour de stage… Viens par ici… Oui TOI ! Toi à qui ton maître de stage te demande de récupérer les données de séquençage d'un article vachement bien, sans que tu saches le faire… TOI !
Toi le physicien qui se met à la biologie mais qui ignore comment les bio-informaticiens rangent les données… VOUS ! VOUS RESTEZ ICI, TOUT de suite !
Aujourd'hui, on va parler de l'archivage des données de génomique. Comment sauvegarde-t-on les séquences d'ADN ? Quels outils existent pour ça ? Et quel est le vocabulaire à avoir pour comprendre ce que font ces outils et où chercher l'information ? Si tu lis correctement ces lignes et que tes données sont stockées sur le NCBI… NORMALEMENT tu ne devrais plus perdre 2 h à chercher une information dans une page qu'un œil averti trouve en deux minutes.
Seul pré-requis pour lire cet article : savoir ce qu'est un fichier FASTQ et ce qu'est le séquençage haut débit. Cet article s'inspire assez largement de ce tutoriel, une lecture très saine ! Un bon moyen de se mettre en jambe pour lire cet article si tu débute aussi, c'est cet autre article écrit par un copain du blog !
Allons‑y !
Hé mais cette publication a des données vachement bien. Je récupère ça comment ?
La nomenclature indispensable
Pour une publication dans un journal obligeant la publication des données, le lien vers les données est le plus souvent fait via une référence sur la plateforme GEO. Afin de ne pas se perdre dans toutes les pages qu'il est possible de parcourir dans cette base, voici un petit guide des identifiants utiles sur les pages.
- GEO (Gene Expression Omnibus) : Base de donnée du NCBI regroupant toutes les données et méta-données autour des jeux de données associés à des publications scientifiques.
- GSE (Genomic Spatial Event) : Identifiant unique servant à retrouver l'ensemble des données produites lors d'une publication.
- GSM (GEO Sample) : Expériences faisant partie d'un GSE. Pour chaque GSM, une page web contenant le détail spécifique de l'expérience fournie est disponible. Dans le cas où une analyse contiendrait beaucoup de fichiers, il est possible que celle-ci ait plusieurs GSM. Cela est alors indiqué sur la page web liée au GSE.
- SRA : Base de données de stockage des données haut débit. Utilise un format éponyme pour cela (.sra) qui est une compression "optimale" des fichiers FASTQ. Il est possible de stocker du sam en SRA aussi.
- SRX (SRA eXperiment): Identifiant de regroupement de tous les SRA associés à un GSE. Si tout va bien, il existe un identifiant SRX pour un GSM.
Trouver le lien de téléchargement
Dans ce cas ou les auteurs d'une publication ont fourni leur donnée sur GEO, il suffit de chercher le GSE présent dans l’article pour retrouver les données. Il se situe en général à la fin juste avant les remerciements. Un petit ctrl+f sur "GSE" et hop, vous voila sur une page complexe contenant toutes les données utilisées pendant une publication. Si l'url est absent, il suffit de prendre l'identifiant et de le mettre sur le site de GEO pour retomber sur ses pattes. L'objectif à partir d'ici sera de retrouver les fichiers liés à l'expérience qui vous intéresse. Pour ça, analysons un peu les mots-clefs présents sur cette page !
Si tu as suivi jusque-là, quand tu es sur une page pour un GSE précis, voilà ce qu'il faut faire :
- cliquer sur les GSM de l'expérience qui t'intéresse
- ensuite aller sur la page SRX qui t'intéresse
- voir les identifiants SRA que tu veux télécharger sans trop savoir comment
Maintenant, voyons quoi faire avec les identifiants SRA pour récupérer ces fichiers.
Utiliser la SRA toolkit
A ce stade, tu disposes d'une liste de noms de fichiers SRA sans trop savoir comment télécharger les fichiers qui vont avec. Deux options : aller sur le serveur FTP du NCBI et jouer avec (à la main ou en ligne de commande interrogeant via FTP), ou utiliser la SRA toolkit. Dans tous les cas, le SRA toolkit va vite devenir indispensable, il permet de décompresser les fichiers SRA vers le format FASTQ.
Première étape, l'installation, pour ça le tutoriel fourni sur le site est largement suffisant. Ensuite :
- Si tu veux télécharger les fichiers FASTQ directement en ligne de commande (j'ai mis un nom SRA au hasard) :
1 |
sratoolkit/bin/fastq-dump SRR238427 |
Ici l'outil va directement chercher le fichier .sra dans sa base de donnée plutôt que dans ton répertoire courant, le télécharger dans ton .cache temporairement si tu es sur une distribution Linux et l'extraire en FASTQ au passage là où tu te situes.
- Si tu as déjà téléchargé tes fichiers SRA et que tu veux les décompresser :
Utilise ton terminal et là il te faudra utiliser la commande "fastq-dump" de la SRA toolkit. Si tes reads sont appairés, l'option "–split-files" te permet de séparer les deux paires. Si jamais le fichier contient des reads sans paire l'option "split‑3" te permet de séparer tes reads en 3 fichiers et enlever les reads sans paire. Exemple d'utilisation :
1 |
sratoolkit/bin/fastq-dump SRR238427.sra |
Et voila, normalement tu as tes fichiers de séquençage !
Si JAMAIS les données que tu télécharges te semblent louches, que le fichier FASTQ que tu extrais a un nombre de ligne qui n'est pas un multiple de 4, que la boîte à outil te retourne une erreur étrange, quelques conseils :
- Vérifie sur la page SRX la taille du fichier que tu es supposé télécharger et compare la à ce que tu as toi pour vérifier si il y a eu une erreur de transfert.
- Vérifie tes options de décompression du fichier sra : Sont-elles cohérentes par rapport aux protocoles décrits dans la publication et sur la page GSM ?
- Cherche sur google l'erreur que tu as (dans le doute)
- Si JAMAIS toutes tes vérifications ne t'apportent rien : contacte la plateforme du NCBI, ils sont gentils et répondent vite. Si jamais tu trouves une erreur sur des données (ça m'est arrivé), ils corrigent ça vite. Si tu as un bug sur la SRA-toolkit aussi ils sont de bon conseil là-dessus.
En conclusion
Derrière un effort commun international pour archiver correctement les données, être capable de retrouver une information pour l'extraire reste une tâche complexe. Pour des données issues de séquençage haut débit, un bel effort a été produit donnant des pages où il est facile de retrouver les informations clefs. L'expérience nécessaire pour trouver cette information est un peu coûteuse, mais 2h de perdues une fois vaut bien des centaines d'heures de gagnées ensuite non ?
Merci aux relecteurs et admins intervenus pour publier cet article : Jnsll, ZaZo0o et Gwenaëlle.
PS : Je jure en toute bonne foi que l'introduction de ce billet a été écrite avec (beaucoup) de second degré, et ne résulte en rien du nombre incessant de biophysiciens retrouvés perdus sur des opérations simples. J'espère que ces lignes les aideront à ne plus venir m’embêter gagner un temps précieux au quotidien.
Groumpf
Laisser un commentaire