Accessibility Tools

- Le blog participatif de bioinformatique francophone depuis 2012 -

Chronique d'une soumission de données à GEO

Je vais vous racon­ter étape par étape ma sou­mis­sion de don­nées de séquen­çage à la base de don­nées de géno­mique GEO (Gene Expres­sion Omni­bus) d'un pro­jet en cours de fini­tion.

Sommaire

GEO, Qu'est-ce que c'est ?

Lorsque l'on veut publier les résul­tats d'une étude com­pre­nant du séquen­çage haut débit, nous devons publier les don­nées brutes et "pré-pro­ces­sées" sur un site de dépôt de don­nées publiques. De là, n'importe quel cher­cheur peut accé­der à ces don­nées, véri­fier la jus­tesse de notre étude, ou bien réana­ly­ser les don­nées dans le cadre de leurs propres pro­jets.

Les deux dépôts les plus connus sont ArrayEx­press, géré par l'EMBL-EBI (les euro­péens), et GEO, admi­nis­tré par le NCBI (les amé­ri­cains). Je vous invite d'ailleurs à aller faire un tour sur cet article pour en savoir plus. GEO est pro­ba­ble­ment le plus uti­li­sé, ou en tout cas, c'est celui que je retrouve dans la plu­part des publi­ca­tions de mon domaine.

Pourquoi parler du processus de soumission ?

Tous ceux qui s'y sont frot­tés savent à quel point le pro­ces­sus de sou­mis­sion à GEO est pénible. Il faut rem­plir une feuille Excel avec les méta­don­nées de cha­cun des fichiers, dépo­ser les fichiers sur le ser­veur par FTP, puis sou­mettre le fichier de méta­don­nées, et attendre d'être contac­té par e‑mail pour savoir si on a bien rem­pli tous les cri­tères. Bien que le site vous pro­pose une docu­men­ta­tion, on y arrive rare­ment du pre­mier coup. Alors, j'ai déci­dé de vous racon­ter com­ment ça s'est pas­sé pour moi, en espé­rant que ça vous aide, vous aus­si, lors de votre pro­chaine sou­mis­sion.

Quels sont les fichiers à déposer ?

Voi­ci deux exemples ce que l'on peut dépo­ser en fonc­tion de la nature de nos don­nées :

RNA-seq :

  • les fichiers FastQ
  • les matrices de comp­tage des reads par gènes pour chaque échan­tillon
  • les matrices de TPM ou RPKM

ChIP/​ATAC/​CUTnRUN :

  • les fichiers FastQ
  • les matrices de comp­tage des reads dans les peaks pour chaque échan­tillon
  • les fichiers Bed des posi­tions des peaks
  • les fichiers Big­Wig

Première étape : le fichier de métadonnées

Une fois qu'on a bien réflé­chi aux fichiers que l'on veut dépo­ser, on se rend sur la page d'explications du pro­ces­sus de sou­mis­sion de GEO :

https://​www​.ncbi​.nlm​.nih​.gov/​g​e​o​/​i​n​f​o​/​s​e​q​.​h​tml

Cap­ture d'écran de la page web de GEO

Comme vous le consta­tez, rien que l'apparence de cette page nous donne un avant-goût de l'ergonomie du pro­ces­sus de dépôt…

Sur cette page, vous trou­ve­rez un bou­ton per­met­tant de télé­char­ger un fichier Excel pour ren­sei­gner les méta­don­nées qui décrivent tous les fichiers que l'on va sou­mettre.

Pre­mière chose à savoir, si vous sou­met­tez des don­nées de natures dif­fé­rentes, par exemple dans mon cas des RNA-seq et des ATAC-seq, il fau­dra rem­plir un fichier par type de don­nées.

Voi­là à quoi res­semble la pre­mière feuille du fichier :

Cap­ture d'écran de la pre­mière feuille du fichier Excel de méta­don­nées

Vous avez les poils qui se redressent ? Moi aus­si…

Cette pre­mière feuille reprend à peu près les indi­ca­tions don­nées sur la page web. Vous remar­que­rez en bas qu'il y a plu­sieurs feuilles :

  • Meta­da­ta
  • Ins­truc­tions
  • MD5 check­sum
  • 5 autres feuilles ver­rouillées avec des exemples de meta­da­ta pour divers type de don­nées

Celles que nous aurons à rem­plir sont "Meta­da­ta" et "MD5 check­sum".

La feuille Metadata

Pour rem­plir cette feuille, il faut avoir une bonne connais­sance de la façon dont les don­nées ont été pro­duites, et déjà avoir bien orga­ni­sé ses fichiers pour se faci­li­ter le tra­vail. Il va fal­loir rem­plir un maxi­mum de champs. Comp­tez une bonne heure pour tout rem­plir et bien véri­fier que tout est cor­rect. Si vous le pou­vez, faite véri­fier cette feuille par une autre per­sonne pour évi­ter les erreurs.

Voi­ci à quoi res­semble cette fameuse feuille :

Cap­ture d'écran du haut de la feuille de méta­don­nées

Les champs obli­ga­toires sont mar­qués par un asté­risque, et les tri­angles roses aux coins de cer­taines cel­lules font appa­raître des popups d'explications.

La partie STUDY

  • Title : il s'agit le plus sou­vent du titre de la publi­ca­tion à laquelle les don­nées sont asso­ciées. S'il n'y en a pas (encore), vous pou­vez don­ner une des­crip­tion suc­cincte de vos don­nées.
  • Sum­ma­ry : cela peut être l'abstract du papier, ou bien un résu­mé décri­vant com­ment les don­nées ont été pro­duites et à quoi elles servent.
  • Expe­ri­men­tal desi­gn : c'est la des­crip­tion des échan­tillons. De quel ani­mal, tis­sus, cel­lules sont-ils issus ? Y a‑t-il des répli­cats ? Quel type d'expérience, de librai­ries, de type de séquen­çage ?
  • Contri­bu­tor : il s'agit de la liste des auteurs du papier, ou bien toutes les per­sonnes ayant contri­bué à la pro­duc­tion des don­nées. Il faut ren­trer un nom par ligne et donc ajou­ter autant de lignes que néces­saire. Il fau­dra écrire les noms en res­pec­tant ce for­mat : Prénom,Nom. N'oubliez pas la vir­gule et ne met­tez pas d'espaces après !
  • Sup­ple­men­ta­ry file : lis­tez les fichiers autres que les FastQ (pas obli­ga­toire). Ici aus­si, il faut ren­sei­gner un fichier par ligne, donc si vous rem­plis­sez ce champ, ajou­tez autant de lignes que néces­saire.

La partie SAMPLES

C'est à ce moment où avoir ran­gé tous ses fichiers FastQ dans un même dos­sier peut gran­de­ment vous faci­li­ter la tâche. Il fau­dra rem­plir une ligne par échan­tillon, et y ren­sei­gner un maxi­mum d'informations.

  • Libra­ry name : un nom unique à chaque échan­tillon. Ce nom ne sera pas publié sur la page GEO, il sert comme iden­ti­fiant interne pour que GEO traite les don­nées. J'ai choi­si de don­ner le début du nom de mes fastQ.
  • Title : des­crip­tion de chaque échan­tillon selon un for­mat court : type de maté­riel bio­lo­gique, condi­tion, numé­ro de répli­cat…
  • Orga­nism : l'espèce d'où pro­vient vos échan­tillon selon la taxo­no­mie NCBI.
  • Tis­sue : si appli­cable, le tis­sus étu­dié.
  • Cell line : si appli­cable, la lignée de cel­lule étu­diée.
  • Geno­type : si appli­cable, indi­quez si l'organisme a été géné­ti­que­ment modi­fié ou pas.
  • Time : ça peut être l'âge des ani­maux, le temps après un trai­te­ment, etc…
  • Sex : sou­vent négli­gé mais très impor­tant, le sexe des ani­maux !
  • Mole­cule : le type de molé­cule séquen­cée (ARN total, ARN mes­sa­ger, ADN géno­mique..).
  • Single or pai­red-end : indi­quez le type de séquen­çage. Si vous avez du pai­red-end, 2 fichiers FastQ seront atten­dus pour chaque échan­tillon.
  • Ins­tru­ment model : le type de séquen­ceur.
  • Des­crip­tion : infor­ma­tions sup­plé­men­taires, peut être lais­sé vide.
  • Pro­ces­sed data file : nom du ou des fichiers conte­nant les don­nées pré-pro­ces­sées. Si vous four­nis­sez plu­sieurs fichiers, comme une table de comp­tage de reads et des fichiers Big­Wig, il fau­dra créer une colonne pour chaque type de fichier et ren­sei­gner leurs nom pour chaque échan­tillon.
  • Raw file : les noms des fichiers FastQ. Si l'on a du séquen­çage pai­red-end, il fau­dra don­ner le nom des fichiers FastQ R1 et R2 dans deux colonnes dif­fé­rentes.

La partie PROTOCOLS

Dans cette par­tie, il fau­dra ni plus, ni moins copier/​coller le maté­riel et méthode de com­ment les échan­tillons ont été géné­rés, séquen­cés, et ana­ly­sés, ain­si que la ver­sion du génome sur laquelle vous avez map­pé les don­nées, et le type de fichiers pré-pro­ces­sés que vous four­nis­sez (e.g. "com­ma-deli­mi­ted read count for each gene per sample").

La partie PAIRED-END EXPERIMENTS

Enfin, si vous avez des don­nées de séquen­çage pai­red-end, il fau­dra à nou­veau ren­sei­gner le nom des fichiers FastQ R1 et R2 pour chaque échan­tillon dans deux colonnes.

Si vous êtes arri­vé jusque là, pre­nez une pause, allez prendre l'air, vous l'aurez méri­té !

Les MD5sums

L'autre feuille à rem­plir concerne le MD5sums. Pour ceux qui ne connaissent pas, le MD5sum est une sorte d'empreinte digi­tale (oui, comme les doigts) d'un fichier. Il s'agit de la somme de hash de 128 bits d'un fichier, et cette somme est unique (ou presque) à chaque fichier. Le MD5sums est uti­li­sé pour véri­fier l'intégrité d'un fichier après une copie ou un trans­fert afin de s'assurer qu'il n'a pas été cor­rom­pu lors du pro­ces­sus. On cal­cule le MD5sum d'un fichier avant le trans­fert, puis après. Si les MD5sums avant/​après sont iden­tiques, le trans­fert s'est bien pas­sé, si non, le fichier d'arrivé est cor­rom­pu et il fau­dra recom­men­cer le trans­fert. C'est une bonne pra­tique à adop­ter quand on tra­vaille avec des don­nées de séquen­çage que l'on déplace d'un disque ou d'un ser­veur à l'autre.

Ici, nous allons cal­cu­ler les MD5sums de tous les fichiers que nous allons envoyer : FastQ et don­nées pré-pro­ces­sés. Voi­ci un exemple de script pour GNU/​Linux qui per­met de géné­rer un fichier texte conte­nant le nom et les MD5sum de fichiers FastQ :

Voi­ci le résul­tat :

Il ne vous reste plus qu'à repor­ter le conte­nu de ce fichier dans la feuille MD5 Check­sums.

Cap­ture d'écran du haut de la feuille MD5 Check­sums

Seconde étape : transférer les données par FTP

Une fois que vous pen­sez avoir tout bien rem­pli votre feuille de méta­don­née, il va fal­loir vous créer un compte sur le site GEO afin d'obtenir les accès FTP pour trans­fé­rer vos don­nées.

Je vous passe l'étape de créa­tion de compte qui est somme toute assez clas­sique. Une fois connec­té à votre compte, cli­quez sur "New sub­mis­sion" en bas à droite de votre pro­file, puis sur le lien "Sub­mit high-through­put sequen­cing (HTS)", ce qui vous ramène à la page de docu­men­ta­tion où il fau­dra scrol­ler jusqu'à la sec­tion "Uploa­ding your sub­mis­sion" :

Cap­ture d'écran du haut de la page de docu­men­ta­tion.

En cli­quant sur "Trans­fer files", vous aurez alors accès aux infor­ma­tions concer­nant le pro­ces­sus d’envoi des fichiers par FTP :

Votre dos­sier per­son­nel a été créé et se trouve dans "uploads/votre@email_[…]". Notez-là, vous en aurez besoin juste après.

En dépliant l'accordéon "Trans­fert file" de l'étape 2, vous pour­rez voir l'adresse et les iden­ti­fiants pour vous connec­ter à votre espace FTP.

Transfert via FileZilla

Pour trans­fé­rer les don­nées, j'utilise le client File­Zilla. La pro­cé­dure de connexion via ce client a une sub­ti­li­té qui vous est expli­quée en rouge sur le site de GEO.

Dans File­Zilla, pour pou­voir se connec­ter à votre espace et trans­fé­rer les fichiers, cli­quez sur l'icône de ges­tion­naire de site en haut à gauche (icône avec les 3 petits ser­veurs) :

Une fenêtre s'ouvre, cli­quez sur "Nou­veau site" en bas à gauche et rem­plis­sez les champs avec les infor­ma­tions four­nies par GEO :

Puis ren­dez-vous à l'onglet "Avan­cé" pour y ren­sei­gner le che­min de votre dos­sier sur le ser­veur FTP ("uploads/votre@email_[…]"). Vali­dez, et connec­tez-vous, ça devrait fonc­tion­ner.

Pour trans­fé­rer vos don­nées, GEO vous conseille au préa­lable de les ran­ger dans un dos­sier par type de don­nées. Chaque dos­sier com­pren­dra les fichiers FastQ et les fichiers pré-pro­ces­sés (dans le même dos­sier, ne créez pas de sous-dos­sier) :

Hon­nê­te­ment, je ne l'ai pas fait pour ne pas faire de copies de fichiers fastQ inutiles. Je me suis conten­tée de créer les dos­siers "RNA-seq" et "ATAC-seq" direc­te­ment sur le ser­veur via File­Zilla, puis de cher­cher mes fichiers là où ils étaient ran­gés pour les uploa­der dans les bon dos­siers.

Je vous pré­viens, le trans­fert est long. La vitesse d'upload est bri­dée côté ser­veur à 1.2 Mb/​s ! Dans mon cas, pour 24 fichiers FastQ, ça a pris au moins 10 heures. Je vous conseille de lan­cer le trans­fert un soir et de lais­ser tour­ner votre PC toute la nuit pour ne pas perdre trop de temps. Fille­zilla étant (rela­ti­ve­ment) bien conçu, si la connexion saute pen­dant le trans­fert, il se recon­necte auto­ma­ti­que­ment et reprend le trans­fert là où il s'est arrê­té.

Soumission des metadata

Une fois que tous les fichiers auront été envoyés sur le ser­veur, et pas avant, vous pour­rez sou­mettre la feuille Excel de méta­don­nées, ce qui va aler­ter GEO de votre sou­mis­sion.

Retour­nez sur la page de docu­men­ta­tion, scrol­lez jusqu'à la sec­tion "Uploa­ding your sub­mis­sion", et cli­quez sur "Upload meta­da­ta" :

Vous accé­dez à l'interface de sou­mis­sion qui vous pro­pose d'uploa­der une feuille de meta­da­ta par dos­sier créé dans votre espace FTP. Pour chaque type de don­née, vous devrez donc sélec­tion­ner le dos­sier cor­res­pon­dant à chaque type de don­nées et envoyer la feuille de méta­don­nées qui lui cor­res­pond.

Vous pou­vez éga­le­ment défi­nir une date de publi­ca­tion des don­nées si vous ne sou­hai­tez pas qu'elles soient acces­sibles tout de suite. Ici, j'ai spé­ci­fié le 1er juin 2025. C'est utile lorsque vous êtes encore loin de sou­mettre votre publi­ca­tion à un jour­nal. Vous pour­rez modi­fier cette date plus tard dans votre espace per­son­nel.

Lorsque vous cli­quez sur "Sub­mit", le site va véri­fier que votre feuille Excel est bien rem­plie. Si un champ manque ou est mal rem­pli, vous aurez un mes­sage d'erreur. J'ai eu le cas à cause de l'oublie de la vir­gule dans les noms des contri­bu­teurs par exemple. Si tout est bon, voi­ci le mes­sage que vous devriez obte­nir :

Dernière étape : l'attente de la validation

Une fois vos méta­don­nées envoyées, il ne reste plus qu'à attendre que quelqu'un à l'autre bout de la pla­nète véri­fie que rien ne manque, que toutes les infor­ma­tions sont bien ren­sei­gnées, et que chaque fichier est intègre grâce aux MD5sums. Il est annon­cé que ce pro­ces­sus peut prendre jusqu'à une semaine. Dans mon cas j'ai été chan­ceuse, ça n'a pris que 5 heures.

Vous rece­vrez alors un email vous indi­quant si tout c'est bien pas­sé ain­si que les iden­ti­fiants GEO de vos don­nées :

Conclusion

Que vous pas­siez par GEO ou ArrayEx­press, la sou­mis­sion des don­nées de séquen­çage est une étape obli­ga­toire et non négli­geable. Vous devez connaître par­fai­te­ment les détails sur la façon dont vos don­nées ont été géné­rées. Si vous le pou­vez, faites-vous aider par les per­sonnes qui les ont pro­duites pour être sûr de bien rem­plir les infor­ma­tions deman­dées.

C'est un pro­ces­sus (rela­ti­ve­ment) long et pénible, mais ne le négli­gez pas, parce qu'il n'est pas simple de modi­fier ces don­nées une fois que le pro­ces­sus a été vali­dé par GEO.

Les don­nées que vous avez sou­mises peuvent res­ter en accès res­treint jusqu'à la publi­ca­tion finale. Un token d'accès vous est four­ni pour que les revie­wers de votre papier puissent y accé­der le temps du pro­ces­sus de relec­ture. Une fois votre étude publiée, vous pour­rez rendre vos don­nées publiques à la terre entière.

J'espère que cette des­crip­tion détaillée du pro­ces­sus de sou­mis­sion vous sera utile, et bon cou­rage à vous si vous enta­mez la démarche !

Mer­ci à Pierre Mari­jon, Léo­pold Car­ron, Aze­rin et Guillaume Devailly pour la relec­ture.

Vous avez aimé ? Dites-le nous !

Moyenne : 5 /​ 5. Nb de votes : 3

Pas encore de vote pour cet article.

Partagez cet article




Commentaires

Laisser un commentaire

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.