Récupérez facilement des données hébergées par le NCBI : BatchEntrez

But : Les bases de don­nées du NCBI abritent de très nom­breuses infor­ma­tions : génomes, pro­téines, réfé­rences biblio­gra­phiques, etc. Si vous sou­hai­tez récu­pé­rer l'une d'entre-elles, une recherche sur le site est la solu­tion la plus simple, mais si vous avez besoin de récu­pé­rer de nom­breuses don­nées dans un des for­mats pro­po­sés, alors le NCBI a mis l'outil Bat­chEn­trez à votre dis­po­si­tion. À l'aide d'une liste d'identifiants gen­bank, ref­seq ou même pub­med, il vous per­met de tout télé­char­ger en une fois (d'où la notion de 'batch').

Dif­fi­cul­té : 1/​5 (Très Facile)

Pre­nons un exemple très simple : on sou­haite récu­pé­rer les séquences FASTA de trois génomes de cya­no­bac­té­ries marines dont on connaît les iden­ti­fiants gen­bank ou ref­seq.

On com­mence par créer un fichier texte (e.g. batch.test) lis­tant ces entrées :

NC_008319.1
NC_007516.1
NC_007513.1

Puis on se rend sur le site du NCBI où se trouve Batch Entrez.

  1. On sélec­tionne la base de don­nées en rela­tion avec nos exemples. On sou­haite ici récu­pé­rer des séquences d'ADN, alors "Nucléo­tide" est le bon choix. A noter que toutes les don­nées sto­ckées par le NCBI sont en théo­rie acces­sibles par ce biais : pro­téines, génomes, publi­ca­tions, livres, etc. pour peu que l'on connaisse les iden­ti­fiants cor­res­pon­dants.
  2. On four­nit le fichier (batch.test ici) en cli­quant sur "Par­cou­rir."
  3. Puis sur "Retrieve" pour lan­cer la machine.

Petite page de tran­si­tion où il indique s'il a recon­nu ou non les iden­ti­fiants four­nis dans la base de don­nées sélec­tion­née, sui­vie de la page de résul­tats. Cette page res­semble plus à un résul­tat clas­sique de recherche sur le site, on peut sélec­tion­ner les résul­tats, lan­cer un BLAST, etc. Mais nous, nous sou­hai­tons récu­pé­rer les don­nées.

  1. On clique donc sur "Send to:" (en haut à droite)
  2. La des­ti­na­tion sera "File" puisqu'on veut récu­pé­rer un fichier. A savoir qu'il est pos­sible d'envoyer sim­ple­ment le résul­tat dans le presse-papier, vers une biblio­thèque per­son­nelle si l'on a un compte NCBI ou de le redi­ri­ger vers un outil d'analyse.
  3. La men­tion "Down­load 3 items" est ras­su­rante, on sélec­tionne le for­mat FASTA (les for­mats sui­vants sont éga­le­ment dis­po­nibles : Résu­mé, Gen­bank, ASN.1, XML, Fea­ture Table, Acces­sion list, etc.). On peut éga­le­ment choi­sir une méthode pour ordon­ner les entrées (par le numé­ro d'accession, les dates de publi­ca­tion, de der­nière modi­fi­ca­tion, le nom des orga­nismes, etc.).
  4. Enfin sur "Create File", qui lance une fenêtre de télé­char­ge­ment.

NB : Vous vous en aper­ce­vrez très vite, on télé­charge un fichier texte unique qui regroupe toutes les entrées, dans l'exemple, il s'agit d'un 'Mul­ti­Fas­ta', mais il pour­rait éga­le­ment s'agir d'un 'Mul­ti­Gen­bank' que peu de logi­ciels d'analyse recon­naissent. Vous pour­riez donc avoir envie de redé­cou­per ce fichier de façon à décou­per le Mul­ti­Gen­bank en simples fichiers gen­banks. Pour ce faire, Bio­Py­thon offre une solu­tion assez pra­tique que vous pour­rez décou­vrir très pro­chai­ne­ment sur bioin​fo​-fr​.net.



Pour continuer la lecture :


Commentaires

Une réponse à “Récupérez facilement des données hébergées par le NCBI : BatchEntrez”

  1. salut, mer­ci pour tes expli­ca­tions, en fait j'ai une petite ques­tion : qu'est ce que le for­mat RunIn­fo ? Mer­ci d'avance.

Laisser un commentaire