Travailler avec des bases de données publiques

27 septembre 2012

-

par

Dans un précédent article, intitulé "Base de données - notions" de nahoy, nous vous avons présenté ce qu'est une base de données et le principe de fonctionnement. Si vous n'avez aucune notion en base de données, ou si vous souhaitez une piqûre de rappel, je vous invite chaudement à lire cet excellent article avant de passer à la suite 🙂 !

Ici je ne vous parlerais pas d'une base de données en particulier mais plus des bases de données publiques. Je tâcherai de vous présenter quel intérêt ces bases de données peuvent présenter, sur quels critères on peut se baser pour sélectionner les bases de données à utiliser pour son projet, comment repérer les données pertinentes des autres, quels outils sont fréquemment utilisés pour le travail sur de telles bases de données et enfin quelles sont les avantages et les inconvénients -si si, il y en a- que présentent ces données.

Qu'est-ce qu'une base de données publique ?

Au fil des années, avant l'arrivée de la bioinformatique, les biologistes ont généré une quantité de données considérable. Il a donc fallu trouver une solution pour stocker ces données et les mettre à disposition de la communauté scientifique. La question du support est alors apparu clairement : comment ces données pourraient-elles être stockées ? Bien qu'il existe des journaux, il n'est pas toujours facile d'explorer tous les articles couvrant sa thématique. Les chercheurs n'ont pas le temps ni les moyens de procéder à cette expertise longue et fastidieuse. De plus, plus il y a de données, plus il faut d'espace de stockage. C'est à ce moment là que la nécessité de créer des bases de données publiques s'est cruellement fait ressentir.

Pour résumer, une base de données publique, dans le domaine qui nous intéresse, est une base de données mettant à la disposition de la communauté scientifique toutes les informations relatives à la thématique qu'elle couvre. Il existe de nombreuses bases de données publiques, certaines, très connues, couvrent des informations classiques, d'autres, moins connues, sont plus spécialisées dans un domaine précis.

Quel intérêt présentent-elles en bioinformatique ?

L'intérêt principal est la mise à disposition des données, souvent de façon gratuite, la seule contrainte que l'on peut rencontrer est celle de devoir indiquer à quel institut l'on travaille, ceci dans un simple but statistique pour l'organisme gérant la base de données. Hé oui, les bases de données publiques aussi publient leurs statistiques et leur méthodologie !

Le fait de pouvoir récupérer les données permet de pouvoir créer sa propre base de données à partir d'une portion de la base d'origine, souvent fournie en libre téléchargement sous la forme d'un fichier plat. En fonction des projets, toutes les informations fournies ne sont pas toujours intéressantes, il faut donc pouvoir effectuer un nettoyage en sélectionnant ce qui parait pertinent pour la suite. De plus, le fait de pouvoir récupérer ces données permet par la suite de pouvoir ajouter des données complémentaires disponibles dans son propre laboratoire, ce qui peut appuyer davantage les résultats des recherches en comparant, par exemple, les résultats obtenus par votre super algorithme de prédiction des exons et des introns avec les données déjà publiées.

Comment sélectionner les bases de données pour son projet ?

Tout dépend de ce que vous cherchez ! Si vous travaillez sur des réseaux métaboliques, vous devriez vous orienter vers les bases de données comme Reactome ou UniPathway. Si vous travaillez sur la levure, orientez-vous plutôt du côté de Saccharomyces Genome Database.

Le point important qui va influencer le choix de la ou des bases de données qui vous intéresse(nt) est avant tout votre thématique. Il est donc important, avant même de choisir avec quelle base vous allez travailler, quels sont les points principaux de votre sujet et les points complémentaires qui peuvent faire le lien entre chacun des points pertinents. Ce sont ces différents points qui vont vous permettre de déterminer avec quelles données vous allez travailler.

Il y a beaucoup d'informations, comment repérer celles qui nous intéressent ?

Une fois que vous avez sélectionné vos bases de données, il vous reste à intégrer et exploiter ces dernières. Seulement voilà, les bases de données peuvent contenir des millions de lignes sur des dizaines de colonnes, et donc peser plusieurs gigaoctets ! Il peut donc être intéressant de seléctionner les colonnes et les lignes qui vous intéressent en particulier. Pour cela, il faut passer par une analyse approfondie des données, de la documentation lorsque celle-ci est fournie, souvent dans un fichier readme.txt, et, si vous avez la chance d'en avoir sous la main, de demander leur avis éclairé aux experts de votre institut. Si vous êtes plutôt malchanceux, passez sur notre canal IRC, l'un de nous sera peut-être en mesure de vous aider !

Il se peut que, malgré le fait que les données répondent parfaitement à la problématique, il manque des informations annexes pouvant améliorer la compréhension et l'analyse. Pour cela il faut parfois passer par un moyen détourné pour relever l'information pertinente. Ce moyen, tout à fait légal ;), consiste à jouer avec les clés d'une autre base de données. Toutefois, il peut être difficile de trouver exactement les informations nécessaires pour le projet avec une seule base de données. Pour cela, bien que que le travail soit plus long et fastidieux, il est plus simple de combiner les bases de données entre elles.

Un petit exemple avec Entrez Gene : dans le fichier Homo_sapiens.gene_info, qui est un fichier au format TSV, on trouve de nombreuses données pour chaque gène. Cependant, si vous travaillez exclusivement sur l'humain, l'information sur l'identifiant du taxon (ici, 9606) ne vous intéressera pas pour intégrer les données, vous pourrez donc l'exclure. De plus, si vous vous concentrez uniquement sur de l'interaction gène-protéine, les informations sur le chromosome et sa localisation sur le chromosome ne vous intéresse pas forcément non plus, ce qui fait que vous pourrez également appliquer un filtre sur ces colonnes. Il faudra donc tenir compte de tous ces éléments distincts avant de prévoir leur intégration dans votre base. Le mieux à faire restera toujours de bien vérifier quelles sont vos données, d'où elles proviennent, qu'est-ce qu'elles apportent de pertinent pour votre projet et comment les intégrer dans votre base afin qu'elles puissent être réutilisées de façon efficace.

Les bases de données : bien connaître les outils

Classiquement, les bases de données sont présentées à travers des interfaces graphiques, le site internet de la base de données. Derrière cette interface on trouve la base de données mais également, pour de nombreuses bases de données publiques, on trouve des liens pour télécharger la base de données au travers d'un accès FTP. D'autres bases de données, comme HGNC ou Ensembl, utilisent un système de webservice proposant d'utiliser des protocoles comme SOAP ou WSDL, ou proposent d'utiliser leur API.

Un autre outil important à connaître est le XML. Ce langage est utilisé par de nombreuses bases de données et certaines emploient même leur propre dérivé : SBML pour la BioModels Database -entre autre- ou PDBML pour la Protein Data Bank. Il est donc important de bien connaître le XML et les outils permettant de récupérer les données contenues tels que SAX ou DOM. Ces outils peuvent être utilisés dans de nombreux langages de programmation.

Dans un précédent article je vous ai présenté le logiciel BioMart, cet outil peut être une bonne option pour travailler sur les bases de données publiques, à condition que les banques que vous souhaitez consulter dispose d'un service BioMart sur leur serveur, et que vous ayez les moyens d'y accéder.

Avantages et inconvénients des bases de données publiques

Avantages

Gratuité : un des gros avantages des bases de données publiques réside dans la gratuité de leurs données. Ainsi les données peuvent être consultées, récupérées et exploitées sans un apport financier important.

Accessibilité : comme indiqué ci-dessus, il existe de nombreux outils pour pouvoir exploiter les bases de données, ces outils améliorent ainsi l'accessibilité de la communauté scientifique aux données.

Interconnectivité : la plupart des bases de données publiques renseignent sur des identifiants uniques d'une autre base de données. Ainsi si vous consulter la fiche d'un gène depuis le site Entrez Gene, vous pouvez constater que cette fiche vous permet d'accèder à des bases de données externes grâce aux identifiants.

Inconvénients

Mises à jour : un des inconvénients majeurs que j'ai pu rencontrer est la fréquence de mise à jour pour certaines bases de données. Autant les informations sur certains sujets sont à jour sur de nombreuses bases de données, autant pour d'autres il faut parfois attendre plusieurs mois avant que les données soient à jour, ce qui peut être un frein pour votre projet.

Qualité des annotations : ne prenez pas toujours les données comme des vérités absolues ! Vérifiez avant la façon dont les données ont été annotées, de nombreux instituts générent les données de façon automatique avant que celles-ci ne soient vérifiées expérimentalement. Et encore, quand il y a une vérifiation…

Abandon de projet : il m'est également arrivé de trouver des références à des bases de données publiques dans des articles récents et de ne pas retrouver la banque citée. Ou encore de trouver le lien mais de voir que le projet est à l'abandon ou en cours de maintenance depuis deux ans. Il faudra donc tenir compte de cet inconvénient possible pour vos données.

Le mot pour la fin

Dans ce billet je vous ai essentiellement parlé des bases de données publiques mais je ne vous ai pas parlé des sites de dépôts de données tels que GEO. Ces sites sont très souvent utilisés pour déposer des données issues d'expérimentations et regorgent d'informations, mais ils ne sont pas à considérer comme des bases de données ! L'intérêt de ce genre de dépôt est avant tout un intérêt de publication. En fonction de ce que vous cherchez à publier, certains éditeurs vous demanderont --pour ne pas dire exigeront-- que ces données soient accessibles pour la relecture avant publication. Une fois l'article publié et l'embargo levé, vous devriez alors pouvoir récupérer les données en question, en fonction des critères de restriction attribués par les auteurs.

Merci à Malicia, Hautbit, Akira, Yoann M. et max pour les commentaires et discussions lors de l’édition de cet article.

Source de l'image : Wikimedia

Partagez cet article

base de données bases de données publiques

Nolwenn

Issue d'une licence de biologie cellulaire et physiopathologie et d'un master de bioinformatique, je m'intéresse tout particulièrement au monde de la recherche et au domaine de la santé. J'ai travaillé dans l'unité 946 de l'INSERM, dirigée par Florence Demenais, où mon travail principal a été l'étude et la recherche de bases de données et d'outils d'intérêt majeur pour l'axe de recherche dans lequel j'étais impliquée. J'ai aussi travaillé à l'Institut Pasteur où j'ai été recrutée en tant qu'ingénieure bioinformaticienne dans le cadre du LabEx Milieu Intérieur et où ma mission principale a été de mettre en place une base de données pour la gestion de nos échantillons biologiques. Mes centres d'intérêt en bioinformatique sont : la mise en application de méthodes dans les domaines de la génomique, de la protéomique et les interactions gène-gène protéine-protéine pouvant nous apporter des informations sur leurs influences dans les maladies. Je travaille actuellement au service informatique de l'IBENS où j'ai été recrutée en qualité de développeuse d'applications !

Pour continuer la lecture :

Commentaires

Laisser un commentaireAnnuler la réponse.

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.