Astuce :
Récupérez facilement des données hébergées par le NCBI : BatchEntrez

But : Les bases de données du NCBI abritent de très nombreuses informations : génomes, protéines, références bibliographiques, etc. Si vous souhaitez récupérer l'une d'entre-elles, une recherche sur le site est la solution la plus simple, mais si vous avez besoin de récupérer de nombreuses données dans un des formats proposés, alors le NCBI a mis l'outil BatchEntrez à votre disposition. À l'aide d'une liste d'identifiants genbank, refseq ou même pubmed, il vous permet de tout télécharger en une fois (d'où la notion de 'batch').

Difficulté : 1/5 (Très Facile)

Prenons un exemple très simple : on souhaite récupérer les séquences FASTA de trois génomes de cyanobactéries marines dont on connaît les identifiants genbank ou refseq.

On commence par créer un fichier texte (e.g. batch.test) listant ces entrées :

NC_008319.1
NC_007516.1
NC_007513.1

Puis on se rend sur le site du NCBI où se trouve Batch Entrez.

  1. On sélectionne la base de données en relation avec nos exemples. On souhaite ici récupérer des séquences d'ADN, alors "Nucléotide" est le bon choix. A noter que toutes les données stockées par le NCBI sont en théorie accessibles par ce biais : protéines, génomes, publications, livres, etc. pour peu que l'on connaisse les identifiants correspondants.
  2. On fournit le fichier (batch.test ici) en cliquant sur "Parcourir."
  3. Puis sur "Retrieve" pour lancer la machine.

Petite page de transition où il indique s'il a reconnu ou non les identifiants fournis dans la base de données sélectionnée, suivie de la page de résultats. Cette page ressemble plus à un résultat classique de recherche sur le site, on peut sélectionner les résultats, lancer un BLAST, etc. Mais nous, nous souhaitons récupérer les données.

  1. On clique donc sur "Send to:" (en haut à droite)
  2. La destination sera "File" puisqu'on veut récupérer un fichier. A savoir qu'il est possible d'envoyer simplement le résultat dans le presse-papier, vers une bibliothèque personnelle si l'on a un compte NCBI ou de le rediriger vers un outil d'analyse.
  3. La mention "Download 3 items" est rassurante, on sélectionne le format FASTA (les formats suivants sont également disponibles : Résumé, Genbank, ASN.1, XML, Feature Table, Accession list, etc.). On peut également choisir une méthode pour ordonner les entrées (par le numéro d'accession, les dates de publication, de dernière modification, le nom des organismes, etc.).
  4. Enfin sur "Create File", qui lance une fenêtre de téléchargement.

NB : Vous vous en apercevrez très vite, on télécharge un fichier texte unique qui regroupe toutes les entrées, dans l'exemple, il s'agit d'un 'MultiFasta', mais il pourrait également s'agir d'un 'MultiGenbank' que peu de logiciels d'analyse reconnaissent. Vous pourriez donc avoir envie de redécouper ce fichier de façon à découper le MultiGenbank en simples fichiers genbanks. Pour ce faire, BioPython offre une solution assez pratique que vous pourrez découvrir très prochainement sur bioinfo-fr.net.

  • À propos de
  • Post-doc pour l'institut Matís de Reykjavík (Islande) sur la biodiversité des lacs sous-glaciaires et des sources géothermales (projet MarieCurie AstroLakes). Doctorat de l'UPMC pour une thèse en écologie des picocyanobactéries marine à la Station Biologique de Roscoff, Un profil pltôt axé bioanalyse/bioinformatique, sur des données de génomique et métagénomique (assemblage, biodiversité, miTAGs...) Sinon... joueur de go (à mes heures perdues), choriste, amateur de bouquins et de musique, de randonnées islandaises... je milite pour un nouveau monde (sur une base extrêmiste modérée).

Un commentaire sur “Récupérez facilement des données hébergées par le NCBI : BatchEntrez

  1. salut, merci pour tes explications, en fait j\'ai une petite question: qu\'est ce que le format RunInfo? Merci d\'avance.

Laisser un commentaire