Travailler avec des bases de données publiques

Dans un pré­cé­dent article, inti­tu­lé "Base de don­nées — notions" de nahoy, nous vous avons pré­sen­té ce qu'est une base de don­nées et le prin­cipe de fonc­tion­ne­ment. Si vous n'avez aucune notion en base de don­nées, ou si vous sou­hai­tez une piqûre de rap­pel, je vous invite chau­de­ment à lire cet excellent article avant de pas­ser à la suite 🙂 !

Ici je ne vous par­le­rais pas d'une base de don­nées en par­ti­cu­lier mais plus des bases de don­nées publiques. Je tâche­rai de vous pré­sen­ter quel inté­rêt ces bases de don­nées peuvent pré­sen­ter, sur quels cri­tères on peut se baser pour sélec­tion­ner les bases de don­nées à uti­li­ser pour son pro­jet, com­ment repé­rer les don­nées per­ti­nentes des autres, quels outils sont fré­quem­ment uti­li­sés pour le tra­vail sur de telles bases de don­nées et enfin quelles sont les avan­tages et les incon­vé­nients ‑si si, il y en a- que pré­sentent ces don­nées.

The Natio­nal Archives | CC-BY‑3.0

Qu'est-ce qu'une base de données publique ?

Au fil des années, avant l'arrivée de la bio­in­for­ma­tique, les bio­lo­gistes ont géné­ré une quan­ti­té de don­nées consi­dé­rable. Il a donc fal­lu trou­ver une solu­tion pour sto­cker ces don­nées et les mettre à dis­po­si­tion de la com­mu­nau­té scien­ti­fique. La ques­tion du sup­port est alors appa­ru clai­re­ment : com­ment ces don­nées pour­raient-elles être sto­ckées ? Bien qu'il existe des jour­naux, il n'est pas tou­jours facile d'explorer tous les articles cou­vrant sa thé­ma­tique. Les cher­cheurs n'ont pas le temps ni les moyens de pro­cé­der à cette exper­tise longue et fas­ti­dieuse. De plus, plus il y a de don­nées, plus il faut d'espace de sto­ckage. C'est à ce moment là que la néces­si­té de créer des bases de don­nées publiques s'est cruel­le­ment fait res­sen­tir.

Pour résu­mer, une base de don­nées publique, dans le domaine qui nous inté­resse, est une base de don­nées met­tant à la dis­po­si­tion de la com­mu­nau­té scien­ti­fique toutes les infor­ma­tions rela­tives à la thé­ma­tique qu'elle couvre. Il existe de nom­breuses bases de don­nées publiques, cer­taines, très connues, couvrent des infor­ma­tions clas­siques, d'autres, moins connues, sont plus spé­cia­li­sées dans un domaine pré­cis.

Quel intérêt présentent-elles en bioinformatique ?

L'intérêt prin­ci­pal est la mise à dis­po­si­tion des don­nées, sou­vent de façon gra­tuite, la seule contrainte que l'on peut ren­con­trer est celle de devoir indi­quer à quel ins­ti­tut l'on tra­vaille, ceci dans un simple but sta­tis­tique pour l'organisme gérant la base de don­nées. Hé oui, les bases de don­nées publiques aus­si publient leurs sta­tis­tiques et leur métho­do­lo­gie !

Le fait de pou­voir récu­pé­rer les don­nées per­met de pou­voir créer sa propre base de don­nées à par­tir d'une por­tion de la base d'origine, sou­vent four­nie en libre télé­char­ge­ment sous la forme d'un fichier plat. En fonc­tion des pro­jets, toutes les infor­ma­tions four­nies ne sont pas tou­jours inté­res­santes, il faut donc pou­voir effec­tuer un net­toyage en sélec­tion­nant ce qui parait per­ti­nent pour la suite. De plus, le fait de pou­voir récu­pé­rer ces don­nées per­met par la suite de pou­voir ajou­ter des don­nées com­plé­men­taires dis­po­nibles dans son propre labo­ra­toire, ce qui peut appuyer davan­tage les résul­tats des recherches en com­pa­rant, par exemple, les résul­tats obte­nus par votre super algo­rithme de pré­dic­tion des exons et des introns avec les don­nées déjà publiées.

Comment sélectionner les bases de données pour son projet ?

Tout dépend de ce que vous cher­chez ! Si vous tra­vaillez sur des réseaux méta­bo­liques, vous devriez vous orien­ter vers les bases de don­nées comme Reac­tome ou Uni­Pa­th­way. Si vous tra­vaillez sur la levure, orien­tez-vous plu­tôt du côté de Sac­cha­ro­myces Genome Data­base.

Le point impor­tant qui va influen­cer le choix de la ou des bases de don­nées qui vous intéresse(nt) est avant tout votre thé­ma­tique. Il est donc impor­tant, avant même de choi­sir avec quelle base vous allez tra­vailler, quels sont les points prin­ci­paux de votre sujet et les points com­plé­men­taires qui peuvent faire le lien entre cha­cun des points per­ti­nents. Ce sont ces dif­fé­rents points qui vont vous per­mettre de déter­mi­ner avec quelles don­nées vous allez tra­vailler.

Il y a beaucoup d'informations, comment repérer celles qui nous intéressent ?

Une fois que vous avez sélec­tion­né vos bases de don­nées, il vous reste à inté­grer et exploi­ter ces der­nières. Seule­ment voi­là, les bases de don­nées peuvent conte­nir des mil­lions de lignes sur des dizaines de colonnes, et donc peser plu­sieurs giga­oc­tets ! Il peut donc être inté­res­sant de seléc­tion­ner les colonnes et les lignes qui vous inté­ressent en par­ti­cu­lier. Pour cela, il faut pas­ser par une ana­lyse appro­fon­die des don­nées, de la docu­men­ta­tion lorsque celle-ci est four­nie, sou­vent dans un fichier readme.txt, et, si vous avez la chance d'en avoir sous la main, de deman­der leur avis éclai­ré aux experts de votre ins­ti­tut. Si vous êtes plu­tôt mal­chan­ceux, pas­sez sur notre canal IRC, l'un de nous sera peut-être en mesure de vous aider !

Il se peut que, mal­gré le fait que les don­nées répondent par­fai­te­ment à la pro­blé­ma­tique, il manque des infor­ma­tions annexes pou­vant amé­lio­rer la com­pré­hen­sion et l'analyse. Pour cela il faut par­fois pas­ser par un moyen détour­né pour rele­ver l'information per­ti­nente. Ce moyen, tout à fait légal ;), consiste à jouer avec les clés d'une autre base de don­nées. Tou­te­fois, il peut être dif­fi­cile de trou­ver exac­te­ment les infor­ma­tions néces­saires pour le pro­jet avec une seule base de don­nées. Pour cela, bien que que le tra­vail soit plus long et fas­ti­dieux, il est plus simple de com­bi­ner les bases de don­nées entre elles.

Un petit exemple avec Entrez Gene : dans le fichier Homo_sapiens.gene_info, qui est un fichier au for­mat TSV, on trouve de nom­breuses don­nées pour chaque gène. Cepen­dant, si vous tra­vaillez exclu­si­ve­ment sur l'humain, l'information sur l'identifiant du taxon (ici, 9606) ne vous inté­res­se­ra pas pour inté­grer les don­nées, vous pour­rez donc l'exclure. De plus, si vous vous concen­trez uni­que­ment sur de l'interaction gène-pro­téine, les infor­ma­tions sur le chro­mo­some et sa loca­li­sa­tion sur le chro­mo­some ne vous inté­resse pas for­cé­ment non plus, ce qui fait que vous pour­rez éga­le­ment appli­quer un filtre sur ces colonnes. Il fau­dra donc tenir compte de tous ces élé­ments dis­tincts avant de pré­voir leur inté­gra­tion dans votre base. Le mieux à faire res­te­ra tou­jours de bien véri­fier quelles sont vos don­nées, d'où elles pro­viennent, qu'est-ce qu'elles apportent de per­ti­nent pour votre pro­jet et com­ment les inté­grer dans votre base afin qu'elles puissent être réuti­li­sées de façon effi­cace.

Les bases de données : bien connaître les outils

Clas­si­que­ment, les bases de don­nées sont pré­sen­tées à tra­vers des inter­faces gra­phiques, le site inter­net de la base de don­nées. Der­rière cette inter­face on trouve la base de don­nées mais éga­le­ment, pour de nom­breuses bases de don­nées publiques, on trouve des liens pour télé­char­ger la base de don­nées au tra­vers d'un accès FTP. D'autres bases de don­nées, comme HGNC ou Ensem­bl, uti­lisent un sys­tème de web­ser­vice pro­po­sant d'utiliser des pro­to­coles comme SOAP ou WSDL, ou pro­posent d'utiliser leur API.

Un autre outil impor­tant à connaître est le XML. Ce lan­gage est uti­li­sé par de nom­breuses bases de don­nées et cer­taines emploient même leur propre déri­vé : SBML pour la Bio­Mo­dels Data­base ‑entre autre- ou PDBML pour la Pro­tein Data Bank. Il est donc impor­tant de bien connaître le XML et les outils per­met­tant de récu­pé­rer les don­nées conte­nues tels que SAX ou DOM. Ces outils peuvent être uti­li­sés dans de nom­breux lan­gages de pro­gram­ma­tion.

Dans un pré­cé­dent article je vous ai pré­sen­té le logi­ciel Bio­Mart, cet outil peut être une bonne option pour tra­vailler sur les bases de don­nées publiques, à condi­tion que les banques que vous sou­hai­tez consul­ter dis­pose d'un ser­vice Bio­Mart sur leur ser­veur, et que vous ayez les moyens d'y accé­der.

Avantages et inconvénients des bases de données publiques

Avantages

Gra­tui­té : un des gros avan­tages des bases de don­nées publiques réside dans la gra­tui­té de leurs don­nées. Ain­si les don­nées peuvent être consul­tées, récu­pé­rées et exploi­tées sans un apport finan­cier impor­tant.

Acces­si­bi­li­té : comme indi­qué ci-des­sus, il existe de nom­breux outils pour pou­voir exploi­ter les bases de don­nées, ces outils amé­liorent ain­si l'accessibilité de la com­mu­nau­té scien­ti­fique aux don­nées.

Inter­con­nec­ti­vi­té : la plu­part des bases de don­nées publiques ren­seignent sur des iden­ti­fiants uniques d'une autre base de don­nées. Ain­si si vous consul­ter la fiche d'un gène depuis le site Entrez Gene, vous pou­vez consta­ter que cette fiche vous per­met d'accèder à des bases de don­nées externes grâce aux iden­ti­fiants.

Inconvénients

Mises à jour : un des incon­vé­nients majeurs que j'ai pu ren­con­trer est la fré­quence de mise à jour pour cer­taines bases de don­nées. Autant les infor­ma­tions sur cer­tains sujets sont à jour sur de nom­breuses bases de don­nées, autant pour d'autres il faut par­fois attendre plu­sieurs mois avant que les don­nées soient à jour, ce qui peut être un frein pour votre pro­jet.

Qua­li­té des anno­ta­tions : ne pre­nez pas tou­jours les don­nées comme des véri­tés abso­lues ! Véri­fiez avant la façon dont les don­nées ont été anno­tées, de nom­breux ins­ti­tuts géné­rent les don­nées de façon auto­ma­tique avant que celles-ci ne soient véri­fiées expé­ri­men­ta­le­ment. Et encore, quand il y a une véri­fia­tion…

Aban­don de pro­jet : il m'est éga­le­ment arri­vé de trou­ver des réfé­rences à des bases de don­nées publiques dans des articles récents et de ne pas retrou­ver la banque citée. Ou encore de trou­ver le lien mais de voir que le pro­jet est à l'abandon ou en cours de main­te­nance depuis deux ans. Il fau­dra donc tenir compte de cet incon­vé­nient pos­sible pour vos don­nées.

Le mot pour la fin

Dans ce billet je vous ai essen­tiel­le­ment par­lé des bases de don­nées publiques mais je ne vous ai pas par­lé des sites de dépôts de don­nées tels que GEO. Ces sites sont très sou­vent uti­li­sés pour dépo­ser des don­nées issues d'expérimentations et regorgent d'informations, mais ils ne sont pas à consi­dé­rer comme des bases de don­nées ! L'intérêt de ce genre de dépôt est avant tout un inté­rêt de publi­ca­tion. En fonc­tion de ce que vous cher­chez à publier, cer­tains édi­teurs vous deman­de­ront –pour ne pas dire exi­ge­ront– que ces don­nées soient acces­sibles pour la relec­ture avant publi­ca­tion. Une fois l'article publié et l'embargo levé, vous devriez alors pou­voir récu­pé­rer les don­nées en ques­tion, en fonc­tion des cri­tères de res­tric­tion attri­bués par les auteurs.


Mer­ci à Mali­cia, Haut­bit, Aki­ra, Yoann M. et max pour les com­men­taires et dis­cus­sions lors de l’édition de cet article.

Source de l'image : Wiki­me­dia



Pour continuer la lecture :


Commentaires

Laisser un commentaire