Découverte :
Les bases de données de séquençage : GEO, SRA, ENA, ArrayExpress

De nos jours, lors de la publication de résultats, il est nécessaire de rendre public les éventuelles données de séquençage générées. Si un faible nombre d’irréductibles continuent à ne fournir les données que sur demande, les bonnes pratiques poussent à les déposer dans des bases de données librement accessibles. Quatre grandes bases de données de séquençage existent : les états-uniennes  GEO et SRA du NCBI, et les européennes ArrayExpress et ENA de l'EMBL-EBI. Avant une petite visite rapide, précisons que ces bases de données sont gratuites tant pour le dépôt qu'en accès aux données disponibles, et qu'elles rendent donc un service très utile à la communauté scientifique.

GEO et SRA

Du temps où les méthodes haut débit se résumaient le plus souvent à des puces à ADN, le NCBI (National Center for Biotechnology Information, un institut états-unien) a ouvert une base de données initialement destinée à accueillir des données de puces d'expressions : le Gene Expression Omnibus (GEO). Cette base de données a connu un grand succès grâce à une combinaison de facteurs : l’instauration progressive par les journaux à comité de lecture d'une obligation de fournir les données brutes issues des puces, la praticité du service qui offre aux chercheurs (de toutes nationalités !) un espace de stockage et de partage pérenne et gratuit, et enfin des fichiers d'annotations de puces et des outils d'analyses mis gracieusement à disponibilité de la communauté. Une des plus précieuses innovations a été l'obligation de se conformer à un format de métadonnées précises,  une contrainte légèrement agaçante lors de la soumission de données, mais indispensable pour toute réutilisation de ces dernières.

Page d'accueil de NCBI/GEO

Page d'accueil de NCBI/GEO, sobre, austère, dépassé ? (à moins que...).

Sur GEO, il est donc possible : de chercher des jeux de données via d'innombrables critères combinables, par un formulaire ou via une API, ou encore via des wrapper d'API disponibles dans différents langages, mais aussi d'analyser directement des données de puces via une application web, ou de faire une recherche par gène.

Suite à l'explosion technologique des méthodes haut-débit, GEO s'est ouvert à d'autres technologies, tiling arrays, puces de génotypages, données de RT-qPCR, et maintenant RNA-seq, ChIP-seq et autres techniques issues de méthodes de séquençages haut-débit. Les critères déterminant si un type d'expérience est éligible à une soumission GEO en deviennent d'autant plus flous...

GEO accepts many categories of high-throughput functional genomic data, including all array-based applications and some high-throughput sequencing data. (documentation GEO)

Il y a maintenant 2 252 466 échantillons disponibles sur GEO appartenant à 91 502 études différentes (chiffres du 15 novembre 2017) !

Pourtant, un peu avant que GEO ne s'ouvre aux données issues de séquençage, le NCBI a créé une base de données dédiée aux données de séquençage de fragments courts : la Sequence Read Archive (SRA). Elle vient avec un formulaire de recherche complet. Étrangement, je n'ai pas trouvé d'API spécifique (mais cela ne vous empêchera pas d'y accéder programmatiquement). L’outil sra-toolkit permet cependant un accès programmatique. Notez que les données de séquençage déposées sur GEO sont automatiquement disponibles sur SRA (la réciproque ne semble pas vraie). Au vu des volumes de données concernés, la SRA a dû développer des outils et formats spécifiques, tels que le format .sra (qui nécessite bien souvent une conversion en .fastq via le sra-toolkit avant d'être exploitable).

Page d'accueil de SRA

Page d'accueil de SRA. Et aussi, jeu gratuit des 7 différences entre cette page et la page d'accueil de GEO !

A noter que SRA accepte explicitement les données fragments long PacBio et Nanopore.

ArrayExpress et ENA

L'organisation European Molecular Biology Laboratory (EMBL), via son campus European Bioinformatics Institute (EBI), a lui aussi souhaité développer sa base de données de puces à ADN: ArrayExpress, qui vient avec son API REST et son wrapper R. Ils ont pendant un temps aspiré les données GEO, pour bâtir une redondance, mais sont en train d'arrêter (nouvelle du 13 Octobre 2017, je ne la trouve malheureusement que sur la page d'accueil, voire la capture d'écran ci-dessous). Une des plus-values d'ArrayExpress comparé à GEO est peut-être le service Expression Atlas permettant de retrouver les tissus d'expression de tel ou tel gène.

Page d'accueil d'ArrayExpress

Page d'accueil d'ArrayExpress. Avec 2 231 768 échantillons lors de l'écriture de cet article, ils sont dépassés par GEO d'une courte tête.

Suite à l'arrivée des méthodes de séquençage haut-débit, l'EMBL-EBI a aussi agrandi l'European Nucleotide Archive (l'ENA, mais pas celui bien connu des politiciens français) pour en faire une base de données des données de séquençages haut débit (avant, c'était une base de données de données de séquençages bas débits). En plus des formulaires de recherche, on trouve une API REST. Avec 869 775 341 séquences de stockées (chiffres du 15 novembre 2017), l'ENA fait face elle aussi à des contraintes importantes nécessitant le développement d'outils et formats spécifiques. Citons par exemple le format .CRAM, variante du format .BAM mais assurant une compression supplémentaire de 30%. Ce nouveau format est pleinement supporté par samtools, en plus de mieux supporter les très longs fragments. L'ENA propose un téléchargement des données via aspera, supposément plus rapide que des protocoles d'échanges libres

Page d'accueil de l'ENA

Page d'accueil de l'ENA (non, pas celle-là, l'autre on a dit!).

Alors, NCBI ou EMBL-EBI ?

Passé ce bref exposé, une question demeure : vous avez généré des données et vous souhaitez les partager avec le monde, quelle base de données choisissez-vous ?

Nul doute que pour des données de puces, GEO et ArrayExpress sont plus adaptés que ENA et SRA, qui ne doivent même pas les accepter. Entre ces deux plateformes, GEO offre peut-être plus de fonctionnalités pour l'utilisateur que ArrayExpress.

Pour des données de séquençage, ENA et SRA offrent peut-être plus de souplesse que GEO et ArrayExpress, sachant qu'au final ces données sont partagées entre GEO et SRA d'une part, et entre ArrayExpress et ENA d'autre part. Un patriotisme européen pourra vous pousser dans les bras des bases de données maintenues par l'EMBL-EBI (ArrayExpress et ENA) et qui profitent d'un design et d'une infrastructure un peu plus moderne que leurs équivalents du NCBI. De plus, les coupes budgétaires récurrentes affectant le NCBI ont plusieurs fois menacé la pérennité de ces bases de données. Le financement de l'EMBL apparaît moins menacé à moyen terme. Rappelons que cet organisme, en tant qu’organisation inter-gouvernementale, est totalement indépendant de l'Union Européenne et sera donc moins affecté par le Brexit que son nom aurait pu le faire croire.

Les bases de données de séquençage

Les bases de données de séquençage. INSDC: International Nucleotide Sequence Database Collaboration

Pour ma part j'ai testé GEO pour déposer des données de puces, RNA-seq et ChIP-seq, et l'ENA pour des données de RNA-seq. Dans les deux cas, la démarche, quoique laborieuse (il faut notamment réunir des informations auprès des biologistes ayant initié l'expérience, auprès de la plateforme de séquençage, et enfin auprès des bio-informaticiens l'ayant analysée), est simple et bien documentée. À noter qu'il est possible de mettre une date d'embargo sur les données déposées (une pratique qui rassure certains chefs d'équipe raisonnant encore en termes de science fermée) et de fournir un accès privé à d'éventuels reviewers d'articles.

Il est possible, notamment sur GEO, de fournir, en plus des données brutes, les données processées, ce qui n'est pas le cas sur l'ENA. Il faut alors les fournir soit via les ressources supplémentaires liées à une publication scientifique, soit les déposer sur des bases de données (de préférence citables) telles que Figshare (société privée) ou zenodo (financé par le CERN). Les données de simulation de séquençages, très utiles pour tester et comparer différents outils bio-informatiques, sont dans une zone grise, il est possible qu'elles se fassent refuser de SRA et ENA, et devront donc être partagées par d'autres moyens.

Il existe bien entendu d'autres bases de données que je connais encore moins, telle que la DNA Database of Japan, ou encore des portails thématiques (mais généralement en lecture seule), tels que la bien connue Ensembl pour la génomique, ou l'IHEC regroupant des gros projets en épigénomique humaine. N'hésitez pas à partager vos bases de données favorites et vos retours d'expériences en commentaires !

Merci aux relecteurs Clémence, Pauline Pommeret, et Sylvain P., ainsi qu'à Gwenaelle, l'admin de la semaine ! 🙂

  • À propos de
  • Après une thèse en cancérologie à Lyon et un postdoc en bioinformatique à Édimbourg, je suis chercheur à l'INRA Toulouse depuis fin 2017. Régulation transcriptionnelle et épigénétique. Twitter: @G_Devailly

Laisser un commentaire