Les bases de données de séquençage : GEO, SRA, ENA, ArrayExpress

De nos jours, lors de la publi­ca­tion de résul­tats, il est néces­saire de rendre public les éven­tuelles don­nées de séquen­çage géné­rées. Si un faible nombre d’irréductibles conti­nuent à ne four­nir les don­nées que sur demande, les bonnes pra­tiques poussent à les dépo­ser dans des bases de don­nées libre­ment acces­sibles. Quatre grandes bases de don­nées de séquen­çage existent : les états-uniennes  GEO et SRA du NCBI, et les euro­péennes ArrayEx­press et ENA de l'EMBL-EBI. Avant une petite visite rapide, pré­ci­sons que ces bases de don­nées sont gra­tuites tant pour le dépôt qu'en accès aux don­nées dis­po­nibles, et qu'elles rendent donc un ser­vice très utile à la com­mu­nau­té scien­ti­fique.

GEO et SRA

Du temps où les méthodes haut débit se résu­maient le plus sou­vent à des puces à ADN, le NCBI (Natio­nal Cen­ter for Bio­tech­no­lo­gy Infor­ma­tion, un ins­ti­tut états-unien) a ouvert une base de don­nées ini­tia­le­ment des­ti­née à accueillir des don­nées de puces d'expressions : le Gene Expres­sion Omni­bus (GEO). Cette base de don­nées a connu un grand suc­cès grâce à une com­bi­nai­son de fac­teurs : l’instauration pro­gres­sive par les jour­naux à comi­té de lec­ture d'une obli­ga­tion de four­nir les don­nées brutes issues des puces, la pra­ti­ci­té du ser­vice qui offre aux cher­cheurs (de toutes natio­na­li­tés !) un espace de sto­ckage et de par­tage pérenne et gra­tuit, et enfin des fichiers d'annotations de puces et des outils d'analyses mis gra­cieu­se­ment à dis­po­ni­bi­li­té de la com­mu­nau­té. Une des plus pré­cieuses inno­va­tions a été l'obligation de se confor­mer à un for­mat de méta­don­nées pré­cises,  une contrainte légè­re­ment aga­çante lors de la sou­mis­sion de don­nées, mais indis­pen­sable pour toute réuti­li­sa­tion de ces der­nières.

Page d'accueil de NCBI/GEO
Page d'accueil de NCBI/​GEO, sobre, aus­tère, dépas­sé ? (à moins que…).

Sur GEO, il est donc pos­sible : de cher­cher des jeux de don­nées via d'innombrables cri­tères com­bi­nables, par un for­mu­laire ou via une API, ou encore via des wrap­per d'API dis­po­nibles dans dif­fé­rents lan­gages, mais aus­si d'analyser direc­te­ment des don­nées de puces via une appli­ca­tion web, ou de faire une recherche par gène.

Suite à l'explosion tech­no­lo­gique des méthodes haut-débit, GEO s'est ouvert à d'autres tech­no­lo­gies, tiling arrays, puces de géno­ty­pages, don­nées de RT-qPCR, et main­te­nant RNA-seq, ChIP-seq et autres tech­niques issues de méthodes de séquen­çages haut-débit. Les cri­tères déter­mi­nant si un type d'expérience est éli­gible à une sou­mis­sion GEO en deviennent d'autant plus flous…

GEO accepts many cate­go­ries of high-through­put func­tio­nal geno­mic data, inclu­ding all array-based appli­ca­tions and some high-through­put sequen­cing data. (docu­men­ta­tion GEO)

Il y a main­te­nant 2 252 466 échan­tillons dis­po­nibles sur GEO appar­te­nant à 91 502 études dif­fé­rentes (chiffres du 15 novembre 2017) !

Pour­tant, un peu avant que GEO ne s'ouvre aux don­nées issues de séquen­çage, le NCBI a créé une base de don­nées dédiée aux don­nées de séquen­çage de frag­ments courts : la Sequence Read Archive (SRA). Elle vient avec un for­mu­laire de recherche com­plet. Étran­ge­ment, je n'ai pas trou­vé d'API spé­ci­fique (mais cela ne vous empê­che­ra pas d'y accé­der pro­gram­ma­ti­que­ment). L’outil sra-tool­kit per­met cepen­dant un accès pro­gram­ma­tique. Notez que les don­nées de séquen­çage dépo­sées sur GEO sont auto­ma­ti­que­ment dis­po­nibles sur SRA (la réci­proque ne semble pas vraie). Au vu des volumes de don­nées concer­nés, la SRA a dû déve­lop­per des outils et for­mats spé­ci­fiques, tels que le for­mat .sra (qui néces­site bien sou­vent une conver­sion en .fastq via le sra-tool­kit avant d'être exploi­table).

Page d'accueil de SRA
Page d'accueil de SRA. Et aus­si, jeu gra­tuit des 7 dif­fé­rences entre cette page et la page d'accueil de GEO !

A noter que SRA accepte expli­ci­te­ment les don­nées frag­ments long Pac­Bio et Nano­pore.

ArrayExpress et ENA

L'organisation Euro­pean Mole­cu­lar Bio­lo­gy Labo­ra­to­ry (EMBL), via son cam­pus Euro­pean Bio­in­for­ma­tics Ins­ti­tute (EBI), a lui aus­si sou­hai­té déve­lop­per sa base de don­nées de puces à ADN : ArrayEx­press, qui vient avec son API REST et son wrap­per R. Ils ont pen­dant un temps aspi­ré les don­nées GEO, pour bâtir une redon­dance, mais sont en train d'arrêter (nou­velle du 13 Octobre 2017, je ne la trouve mal­heu­reu­se­ment que sur la page d'accueil, voire la cap­ture d'écran ci-des­sous). Une des plus-values d'ArrayExpress com­pa­ré à GEO est peut-être le ser­vice Expres­sion Atlas per­met­tant de retrou­ver les tis­sus d'expression de tel ou tel gène.

Page d'accueil d'ArrayExpress
Page d'accueil d'ArrayExpress. Avec 2 231 768 échan­tillons lors de l'écriture de cet article, ils sont dépas­sés par GEO d'une courte tête.

Suite à l'arrivée des méthodes de séquen­çage haut-débit, l'EMBL-EBI a aus­si agran­di l'Euro­pean Nucleo­tide Archive (l'ENA, mais pas celui bien connu des poli­ti­ciens fran­çais) pour en faire une base de don­nées des don­nées de séquen­çages haut débit (avant, c'était une base de don­nées de don­nées de séquen­çages bas débits). En plus des for­mu­laires de recherche, on trouve une API REST. Avec 869 775 341 séquences de sto­ckées (chiffres du 15 novembre 2017), l'ENA fait face elle aus­si à des contraintes impor­tantes néces­si­tant le déve­lop­pe­ment d'outils et for­mats spé­ci­fiques. Citons par exemple le for­mat .CRAM, variante du for­mat .BAM mais assu­rant une com­pres­sion sup­plé­men­taire de 30%. Ce nou­veau for­mat est plei­ne­ment sup­por­té par sam­tools, en plus de mieux sup­por­ter les très longs frag­ments. L'ENA pro­pose un télé­char­ge­ment des don­nées via aspe­ra, sup­po­sé­ment plus rapide que des pro­to­coles d'échanges libres

Page d'accueil de l'ENA
Page d'accueil de l'ENA (non, pas celle-là, l'autre on a dit!).

Alors, NCBI ou EMBL-EBI ?

Pas­sé ce bref expo­sé, une ques­tion demeure : vous avez géné­ré des don­nées et vous sou­hai­tez les par­ta­ger avec le monde, quelle base de don­nées choi­sis­sez-vous ?

Nul doute que pour des don­nées de puces, GEO et ArrayEx­press sont plus adap­tés que ENA et SRA, qui ne doivent même pas les accep­ter. Entre ces deux pla­te­formes, GEO offre peut-être plus de fonc­tion­na­li­tés pour l'utilisateur que ArrayEx­press.

Pour des don­nées de séquen­çage, ENA et SRA offrent peut-être plus de sou­plesse que GEO et ArrayEx­press, sachant qu'au final ces don­nées sont par­ta­gées entre GEO et SRA d'une part, et entre ArrayEx­press et ENA d'autre part. Un patrio­tisme euro­péen pour­ra vous pous­ser dans les bras des bases de don­nées main­te­nues par l'EMBL-EBI (ArrayEx­press et ENA) et qui pro­fitent d'un desi­gn et d'une infra­struc­ture un peu plus moderne que leurs équi­va­lents du NCBI. De plus, les coupes bud­gé­taires récur­rentes affec­tant le NCBI ont plu­sieurs fois mena­cé la péren­ni­té de ces bases de don­nées. Le finan­ce­ment de l'EMBL appa­raît moins mena­cé à moyen terme. Rap­pe­lons que cet orga­nisme, en tant qu’organisation inter-gou­ver­ne­men­tale, est tota­le­ment indé­pen­dant de l'Union Euro­péenne et sera donc moins affec­té par le Brexit que son nom aurait pu le faire croire.

Les bases de données de séquençage

Pour ma part j'ai tes­té GEO pour dépo­ser des don­nées de puces, RNA-seq et ChIP-seq, et l'ENA pour des don­nées de RNA-seq. Dans les deux cas, la démarche, quoique labo­rieuse (il faut notam­ment réunir des infor­ma­tions auprès des bio­lo­gistes ayant ini­tié l'expérience, auprès de la pla­te­forme de séquen­çage, et enfin auprès des bio-infor­ma­ti­ciens l'ayant ana­ly­sée), est simple et bien docu­men­tée. À noter qu'il est pos­sible de mettre une date d'embargo sur les don­nées dépo­sées (une pra­tique qui ras­sure cer­tains chefs d'équipe rai­son­nant encore en termes de science fer­mée) et de four­nir un accès pri­vé à d'éventuels revie­wers d'articles.

Il est pos­sible, notam­ment sur GEO, de four­nir, en plus des don­nées brutes, les don­nées pro­ces­sées, ce qui n'est pas le cas sur l'ENA. Il faut alors les four­nir soit via les res­sources sup­plé­men­taires liées à une publi­ca­tion scien­ti­fique, soit les dépo­ser sur des bases de don­nées (de pré­fé­rence citables) telles que Fig­share (socié­té pri­vée) ou zeno­do (finan­cé par le CERN). Les don­nées de simu­la­tion de séquen­çages, très utiles pour tes­ter et com­pa­rer dif­fé­rents outils bio-infor­ma­tiques, sont dans une zone grise, il est pos­sible qu'elles se fassent refu­ser de SRA et ENA, et devront donc être par­ta­gées par d'autres moyens.

Il existe bien enten­du d'autres bases de don­nées que je connais encore moins, telle que la DNA Data­base of Japan, ou encore des por­tails thé­ma­tiques (mais géné­ra­le­ment en lec­ture seule), tels que la bien connue Ensem­bl pour la géno­mique, ou l'IHEC regrou­pant des gros pro­jets en épi­gé­no­mique humaine. N'hésitez pas à par­ta­ger vos bases de don­nées favo­rites et vos retours d'expériences en com­men­taires !

Mer­ci aux relec­teurs Clé­mence, Pau­line Pom­me­ret, et Syl­vain P., ain­si qu'à Gwe­naelle, l'admin de la semaine ! 🙂



Pour continuer la lecture :


Commentaires

Une réponse à “Les bases de données de séquençage : GEO, SRA, ENA, ArrayExpress”

  1. Avatar de Bordron Elie
    Bordron Elie

    Mer­ci beau­coup ! J'ai du mal à tout sai­sir mais ça m'aide à anti­ci­per mon mas­ter de bioin­fo !

Laisser un commentaire