Je vais vous raconter étape par étape ma soumission de données de séquençage à la base de données de génomique GEO (Gene Expression Omnibus) d'un projet en cours de finition.
Sommaire
- GEO, Qu'est-ce que c'est ?
- Pourquoi parler du processus de soumission ?
- Quels sont les fichiers à déposer ?
- Première étape : le fichier de métadonnées
- Seconde étape : transférer les données par FTP
- Dernière étape : l'attente de la validation
- Conclusion
GEO, Qu'est-ce que c'est ?
Lorsque l'on veut publier les résultats d'une étude comprenant du séquençage haut débit, nous devons publier les données brutes et "pré-processées" sur un site de dépôt de données publiques. De là, n'importe quel chercheur peut accéder à ces données, vérifier la justesse de notre étude, ou bien réanalyser les données dans le cadre de leurs propres projets.
Les deux dépôts les plus connus sont ArrayExpress, géré par l'EMBL-EBI (les européens), et GEO, administré par le NCBI (les américains). Je vous invite d'ailleurs à aller faire un tour sur cet article pour en savoir plus. GEO est probablement le plus utilisé, ou en tout cas, c'est celui que je retrouve dans la plupart des publications de mon domaine.
Pourquoi parler du processus de soumission ?
Tous ceux qui s'y sont frottés savent à quel point le processus de soumission à GEO est pénible. Il faut remplir une feuille Excel avec les métadonnées de chacun des fichiers, déposer les fichiers sur le serveur par FTP, puis soumettre le fichier de métadonnées, et attendre d'être contacté par e‑mail pour savoir si on a bien rempli tous les critères. Bien que le site vous propose une documentation, on y arrive rarement du premier coup. Alors, j'ai décidé de vous raconter comment ça s'est passé pour moi, en espérant que ça vous aide, vous aussi, lors de votre prochaine soumission.
Quels sont les fichiers à déposer ?
Voici deux exemples ce que l'on peut déposer en fonction de la nature de nos données :
RNA-seq :
- les fichiers FastQ
- les matrices de comptage des reads par gènes pour chaque échantillon
- les matrices de TPM ou RPKM
ChIP/ATAC/CUTnRUN :
- les fichiers FastQ
- les matrices de comptage des reads dans les peaks pour chaque échantillon
- les fichiers Bed des positions des peaks
- les fichiers BigWig
Première étape : le fichier de métadonnées
Une fois qu'on a bien réfléchi aux fichiers que l'on veut déposer, on se rend sur la page d'explications du processus de soumission de GEO :
https://www.ncbi.nlm.nih.gov/geo/info/seq.html
Comme vous le constatez, rien que l'apparence de cette page nous donne un avant-goût de l'ergonomie du processus de dépôt…
Sur cette page, vous trouverez un bouton permettant de télécharger un fichier Excel pour renseigner les métadonnées qui décrivent tous les fichiers que l'on va soumettre.
Première chose à savoir, si vous soumettez des données de natures différentes, par exemple dans mon cas des RNA-seq et des ATAC-seq, il faudra remplir un fichier par type de données.
Voilà à quoi ressemble la première feuille du fichier :
Vous avez les poils qui se redressent ? Moi aussi…
Cette première feuille reprend à peu près les indications données sur la page web. Vous remarquerez en bas qu'il y a plusieurs feuilles :
- Metadata
- Instructions
- MD5 checksum
- 5 autres feuilles verrouillées avec des exemples de metadata pour divers type de données
Celles que nous aurons à remplir sont "Metadata" et "MD5 checksum".
La feuille Metadata
Pour remplir cette feuille, il faut avoir une bonne connaissance de la façon dont les données ont été produites, et déjà avoir bien organisé ses fichiers pour se faciliter le travail. Il va falloir remplir un maximum de champs. Comptez une bonne heure pour tout remplir et bien vérifier que tout est correct. Si vous le pouvez, faite vérifier cette feuille par une autre personne pour éviter les erreurs.
Voici à quoi ressemble cette fameuse feuille :
Les champs obligatoires sont marqués par un astérisque, et les triangles roses aux coins de certaines cellules font apparaître des popups d'explications.
La partie STUDY
- Title : il s'agit le plus souvent du titre de la publication à laquelle les données sont associées. S'il n'y en a pas (encore), vous pouvez donner une description succincte de vos données.
- Summary : cela peut être l'abstract du papier, ou bien un résumé décrivant comment les données ont été produites et à quoi elles servent.
- Experimental design : c'est la description des échantillons. De quel animal, tissus, cellules sont-ils issus ? Y a‑t-il des réplicats ? Quel type d'expérience, de librairies, de type de séquençage ?
- Contributor : il s'agit de la liste des auteurs du papier, ou bien toutes les personnes ayant contribué à la production des données. Il faut rentrer un nom par ligne et donc ajouter autant de lignes que nécessaire. Il faudra écrire les noms en respectant ce format : Prénom,Nom. N'oubliez pas la virgule et ne mettez pas d'espaces après !
- Supplementary file : listez les fichiers autres que les FastQ (pas obligatoire). Ici aussi, il faut renseigner un fichier par ligne, donc si vous remplissez ce champ, ajoutez autant de lignes que nécessaire.
La partie SAMPLES
C'est à ce moment où avoir rangé tous ses fichiers FastQ dans un même dossier peut grandement vous faciliter la tâche. Il faudra remplir une ligne par échantillon, et y renseigner un maximum d'informations.
- Library name : un nom unique à chaque échantillon. Ce nom ne sera pas publié sur la page GEO, il sert comme identifiant interne pour que GEO traite les données. J'ai choisi de donner le début du nom de mes fastQ.
- Title : description de chaque échantillon selon un format court : type de matériel biologique, condition, numéro de réplicat…
- Organism : l'espèce d'où provient vos échantillon selon la taxonomie NCBI.
- Tissue : si applicable, le tissus étudié.
- Cell line : si applicable, la lignée de cellule étudiée.
- Genotype : si applicable, indiquez si l'organisme a été génétiquement modifié ou pas.
- Time : ça peut être l'âge des animaux, le temps après un traitement, etc…
- Sex : souvent négligé mais très important, le sexe des animaux !
- Molecule : le type de molécule séquencée (ARN total, ARN messager, ADN génomique..).
- Single or paired-end : indiquez le type de séquençage. Si vous avez du paired-end, 2 fichiers FastQ seront attendus pour chaque échantillon.
- Instrument model : le type de séquenceur.
- Description : informations supplémentaires, peut être laissé vide.
- Processed data file : nom du ou des fichiers contenant les données pré-processées. Si vous fournissez plusieurs fichiers, comme une table de comptage de reads et des fichiers BigWig, il faudra créer une colonne pour chaque type de fichier et renseigner leurs nom pour chaque échantillon.
- Raw file : les noms des fichiers FastQ. Si l'on a du séquençage paired-end, il faudra donner le nom des fichiers FastQ R1 et R2 dans deux colonnes différentes.
La partie PROTOCOLS
Dans cette partie, il faudra ni plus, ni moins copier/coller le matériel et méthode de comment les échantillons ont été générés, séquencés, et analysés, ainsi que la version du génome sur laquelle vous avez mappé les données, et le type de fichiers pré-processés que vous fournissez (e.g. "comma-delimited read count for each gene per sample").
La partie PAIRED-END EXPERIMENTS
Enfin, si vous avez des données de séquençage paired-end, il faudra à nouveau renseigner le nom des fichiers FastQ R1 et R2 pour chaque échantillon dans deux colonnes.
Si vous êtes arrivé jusque là, prenez une pause, allez prendre l'air, vous l'aurez mérité !
Les MD5sums
L'autre feuille à remplir concerne le MD5sums. Pour ceux qui ne connaissent pas, le MD5sum est une sorte d'empreinte digitale (oui, comme les doigts) d'un fichier. Il s'agit de la somme de hash de 128 bits d'un fichier, et cette somme est unique (ou presque) à chaque fichier. Le MD5sums est utilisé pour vérifier l'intégrité d'un fichier après une copie ou un transfert afin de s'assurer qu'il n'a pas été corrompu lors du processus. On calcule le MD5sum d'un fichier avant le transfert, puis après. Si les MD5sums avant/après sont identiques, le transfert s'est bien passé, si non, le fichier d'arrivé est corrompu et il faudra recommencer le transfert. C'est une bonne pratique à adopter quand on travaille avec des données de séquençage que l'on déplace d'un disque ou d'un serveur à l'autre.
Ici, nous allons calculer les MD5sums de tous les fichiers que nous allons envoyer : FastQ et données pré-processés. Voici un exemple de script pour GNU/Linux qui permet de générer un fichier texte contenant le nom et les MD5sum de fichiers FastQ :
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
#!/bin/bash # Check if there are any fastq.gz files in the current directory if ls *.fastq.gz 1> /dev/null 2>&1 ; then echo "Calculating MD5 checksums for fastq.gz files…" # Create or overwrite the md5sums.txt file > md5sums.txt # Loop through all .fastq.gz files and calculate their MD5 checksum for file in *.fastq.gz ; do md5=$(md5sum "$file" | awk '{print $1}') echo "$file\t$md5" >> md5sums.txt done echo "MD5 checksums calculated and saved to md5sums.txt" else echo "No fastq.gz files found in the current directory." fi |
Voici le résultat :
1 2 3 4 |
20210615_ATAC_E13.5_XX_rep1_R1.fastq.gz 3449b260997068e45d146ed960eb7416 20210615_ATAC_E13.5_XX_rep1_R2.fastq.gz 68dd0f0f7f5fcc57f407f6508ef29ad2 20210615_ATAC_E13.5_XX_rep2_R1.fastq.gz 1c736527dae680160bdd988372429dbf … |
Il ne vous reste plus qu'à reporter le contenu de ce fichier dans la feuille MD5 Checksums.
Seconde étape : transférer les données par FTP
Une fois que vous pensez avoir tout bien rempli votre feuille de métadonnée, il va falloir vous créer un compte sur le site GEO afin d'obtenir les accès FTP pour transférer vos données.
Je vous passe l'étape de création de compte qui est somme toute assez classique. Une fois connecté à votre compte, cliquez sur "New submission" en bas à droite de votre profile, puis sur le lien "Submit high-throughput sequencing (HTS)", ce qui vous ramène à la page de documentation où il faudra scroller jusqu'à la section "Uploading your submission" :
En cliquant sur "Transfer files", vous aurez alors accès aux informations concernant le processus d’envoi des fichiers par FTP :
Votre dossier personnel a été créé et se trouve dans "uploads/votre@email_[…]". Notez-là, vous en aurez besoin juste après.
En dépliant l'accordéon "Transfert file" de l'étape 2, vous pourrez voir l'adresse et les identifiants pour vous connecter à votre espace FTP.
Transfert via FileZilla
Pour transférer les données, j'utilise le client FileZilla. La procédure de connexion via ce client a une subtilité qui vous est expliquée en rouge sur le site de GEO.
Dans FileZilla, pour pouvoir se connecter à votre espace et transférer les fichiers, cliquez sur l'icône de gestionnaire de site en haut à gauche (icône avec les 3 petits serveurs) :
Une fenêtre s'ouvre, cliquez sur "Nouveau site" en bas à gauche et remplissez les champs avec les informations fournies par GEO :
Puis rendez-vous à l'onglet "Avancé" pour y renseigner le chemin de votre dossier sur le serveur FTP ("uploads/votre@email_[…]"). Validez, et connectez-vous, ça devrait fonctionner.
Pour transférer vos données, GEO vous conseille au préalable de les ranger dans un dossier par type de données. Chaque dossier comprendra les fichiers FastQ et les fichiers pré-processés (dans le même dossier, ne créez pas de sous-dossier) :
Honnêtement, je ne l'ai pas fait pour ne pas faire de copies de fichiers fastQ inutiles. Je me suis contentée de créer les dossiers "RNA-seq" et "ATAC-seq" directement sur le serveur via FileZilla, puis de chercher mes fichiers là où ils étaient rangés pour les uploader dans les bon dossiers.
Je vous préviens, le transfert est long. La vitesse d'upload est bridée côté serveur à 1.2 Mb/s ! Dans mon cas, pour 24 fichiers FastQ, ça a pris au moins 10 heures. Je vous conseille de lancer le transfert un soir et de laisser tourner votre PC toute la nuit pour ne pas perdre trop de temps. Fillezilla étant (relativement) bien conçu, si la connexion saute pendant le transfert, il se reconnecte automatiquement et reprend le transfert là où il s'est arrêté.
Soumission des metadata
Une fois que tous les fichiers auront été envoyés sur le serveur, et pas avant, vous pourrez soumettre la feuille Excel de métadonnées, ce qui va alerter GEO de votre soumission.
Retournez sur la page de documentation, scrollez jusqu'à la section "Uploading your submission", et cliquez sur "Upload metadata" :
Vous accédez à l'interface de soumission qui vous propose d'uploader une feuille de metadata par dossier créé dans votre espace FTP. Pour chaque type de donnée, vous devrez donc sélectionner le dossier correspondant à chaque type de données et envoyer la feuille de métadonnées qui lui correspond.
Vous pouvez également définir une date de publication des données si vous ne souhaitez pas qu'elles soient accessibles tout de suite. Ici, j'ai spécifié le 1er juin 2025. C'est utile lorsque vous êtes encore loin de soumettre votre publication à un journal. Vous pourrez modifier cette date plus tard dans votre espace personnel.
Lorsque vous cliquez sur "Submit", le site va vérifier que votre feuille Excel est bien remplie. Si un champ manque ou est mal rempli, vous aurez un message d'erreur. J'ai eu le cas à cause de l'oublie de la virgule dans les noms des contributeurs par exemple. Si tout est bon, voici le message que vous devriez obtenir :
Dernière étape : l'attente de la validation
Une fois vos métadonnées envoyées, il ne reste plus qu'à attendre que quelqu'un à l'autre bout de la planète vérifie que rien ne manque, que toutes les informations sont bien renseignées, et que chaque fichier est intègre grâce aux MD5sums. Il est annoncé que ce processus peut prendre jusqu'à une semaine. Dans mon cas j'ai été chanceuse, ça n'a pris que 5 heures.
Vous recevrez alors un email vous indiquant si tout c'est bien passé ainsi que les identifiants GEO de vos données :
Conclusion
Que vous passiez par GEO ou ArrayExpress, la soumission des données de séquençage est une étape obligatoire et non négligeable. Vous devez connaître parfaitement les détails sur la façon dont vos données ont été générées. Si vous le pouvez, faites-vous aider par les personnes qui les ont produites pour être sûr de bien remplir les informations demandées.
C'est un processus (relativement) long et pénible, mais ne le négligez pas, parce qu'il n'est pas simple de modifier ces données une fois que le processus a été validé par GEO.
Les données que vous avez soumises peuvent rester en accès restreint jusqu'à la publication finale. Un token d'accès vous est fourni pour que les reviewers de votre papier puissent y accéder le temps du processus de relecture. Une fois votre étude publiée, vous pourrez rendre vos données publiques à la terre entière.
J'espère que cette description détaillée du processus de soumission vous sera utile, et bon courage à vous si vous entamez la démarche !
Merci à Pierre Marijon, Léopold Carron, Azerin et Guillaume Devailly pour la relecture.
Laisser un commentaire