On vous avait dit il y a peu qu'on allait vous parler du Congrès international sur le microbiome humain (International Human Microbiome Congress 2012). Pour quelques raisons, votre humble serviteure a tardé avec son forfait. Mais voici que c'est maintenant chose faite : nous espérons que la frustration sera vite oubliée 😉
Je vous avais déjà présenté le Congrès, donc je ne le referai pas ici. L'objet de ce billet est de discuter quelques points intéressants du point de vue de la bioinformatique (ce n'est pas un scoop vu le blog que vous lisez actuellement). Le premier jour de la conférence a abordé exactement ce genre de problématiques : comment gérer les données, comment les intégrer de façon à en tirer du sens, comment organiser ce qu'on sait déjà et y injecter encore et encore des choses. Pour moi, les deux présentations qui ont le mieux abordé ces questions étaient celles de Li Junhua (BGI Shenzen, Chine) et Mani Arumugam (EMBL, Allemagne). J'y viens de suite.
Mieux connaître le contenu génétique de notre microbiome intestinal
Li Junhua a parlé de l'amélioration du catalogue de référence (“Improvement of microbial gene catalog construction”). Petit rappel : il s'agit d'un répertoire représentant l'ensemble des gènes les plus prédominants (3,3 millions, plus précisément) dans la cohorte de 124 individus dont le microbiome intestinal a été séquencé. Dans le papier décrivant le catalogue, les auteurs mentionnaient que plus de 99% de ces gènes sont bactériens, menant à l'observation que l'ensemble des personnes séquencées possède un total de 1000 à 1500 espèces bactériennes fréquemment rencontrées, ce nombre étant d'au moins 160 pour chaque individu. Ce qui fait de ce catalogue une référence est le fait que ces millions de gènes sont communs à tout le monde dans la cohorte.
Ce que Li Junhua a présenté était la v2.0 du catalogue : 760 individus au total. Vu que les chiffres parlent toujours mieux (et qu'en ces temps pré-électoraux, on est bien gavé de chiffres…) : le catalogue v1.0 était composé de 568 Gb de séquences, l'actuelle v2.0 en contient 4,4 Tb. Évidemment, la procédure informatisée utilisée pour l'analyse doit suivre et a donc été mise à jour en conséquence. Li Junhua a souligné ici une chose fondamentale, à savoir : l'importance de se débarrasser des artefacts bioinformatiques, implementée dans les étapes suivantes :
- filtrage des reads (FastX ou SolexaQA) ;
- nettoyage (SOAPaligner2) ;
- assemblage (SOAPdenovo v1.06). La révision et le contrôle qualité sont faits avec une procédure maison et ont pour but de gérer les petites erreurs telles que des INDELs, mésappariements (mismatch), etc. Aussi, les régions appelées « chimériques » (définies comme les régions non jointes par des reads) sont éliminées à cette étape.
- prédiction de gènes (MetaGeneMark v2.08) ;
- clustering des gènes (CD-HIT). Cette étape est améliorée en comparaison avec ce qui était fait pour le catalogue v1.0 : le clustering est maintenant fait en gardant les seuils de 95% d'identité de séquence et de 90% de chevauchement, mais en utilisant le « complete (direct) linkage » à la place de l' « indirect » avec une distance maximale inférieure à 10% (voir la doc CD-HIT 🙂 ).
Le résultat est un catalogue v2.0 de 8,1 millions de gènes qui contient 99,5% des gènes du catalogue v1.0 mais le truc notable est que 65% de la v2.0 contient des gènes non répertoriés avant. D'un point de vue biologique, on est rassuré : ~86% des gènes de la v2.0 ont été décrits par le passé, le brouillard ne sera donc pas si épais qu'on pourrait le craindre. Et justement, c'est là où ça commence à devenir vraiment passionnant : est-ce que ce nombre énorme de gènes contenus dans nos intestins aide à décrire les individus ?
Les analyses préliminaires que Li Junhua ont tendance à dire que « oui ». Ainsi, d'après les « courbes de raréfaction », comme il les a appelées, on voit clairement que le nombre de gènes croissant ne mène – toujours – pas à une saturation de ce qui peut être identifié. En termes simples : ces 8,1 millions de gènes ne représentent pas la majeure partie de la diversité génétique du microbiome humain.
Comme on pourrait s'y attendre, un nombre élevé de gènes nous permettrait d'avoir accès aux éléments peu fréquents dans les échantillons (i.e., individus). C'est effectivement ce qu'il semble se dessiner à partir de ces résultats indiquant que les gènes communs entre les individus comptent pour du beurre… euh, pour 3,2% du catalogue total, même s'ils représentent 40% des gènes d'une personne. Parallèlement, moins de 10% des échantillons contiennent 76% des gènes non redondants du catalogue. Autrement dit, le métagénome intestinal essentiel (appelé « core metagenome ») est composé de très peu de gènes très abondants et communs aux individus tandis que le panmétagénome (les gènes portés par des plasmides, etc.) est constitué de très nombreux gènes peu fréquents et présents chez peu d'individus de la cohorte. L'étude plus approfondie de ce panmétagénome précisément risque de révéler des marqueurs génétiques pour différentes maladies et constitue un véritable défi d'échantillonage.
L'avalanche de données nous emportera-t-elle ?
Du coup, on parlait bien de quantités de données – et justement, avoir accès de façon plus détaillée aux panmétagénomes se traduit par un très grand nombre d'échantillons – alors, la présentation de Mani Arumugam vient à point. Son titre est assez explicite : « Towards petabase metagenomics : challenges and roadblocks ahead » ("Vers une métagénomique de la pétabase : défis et obstacles"). Évidemment, pour avoir assez de puissance statistique, il faut avoir beaucoup de données et, d'ailleurs il ne s'agit pas seulement de données de séquençage : les métadonnées telles que le régime alimentaire, l'âge, le sexe, etc., sont également importantes pour pouvoir aller dans une direction non seulement descriptive mais aussi explicative et, à terme, prédictive.
Pour en arriver là, par contre, il faut justement gérer et intégrer ces données. Pour l'instant on ne parle que de séquences issues de séquençage de type shotgun, lequel a l'avantage de permettre un accès non seulement au contenu en gènes mais aussi à la variabilité nucléotidique. (Et même si on n'est pas encore totalement prêt pour la métatranscriptomique, la métaprotéomique, etc., ce moment viendra.) À court et moyen terme, néanmoins, ce vers quoi on se dirige sûrement est la pétabase de séquences. Mani a estimé que, vu les prix du séquençage, on arrivera à 1 million de dollars pour séquençer une pétabase en 2016. Et une fois qu'on a notre pétabase, on en fera quoi ?
Cette projection pose très clairement la question de l'intégration des données d'un type donné, avant même d'aller vers la production d'autres types issues des technologies à haut débit. Les pipelines bioinformatiques devraient ainsi être « très matures », pour reprendre la définition de Mani. Il compare donc ce qu'on connaît déjà : pour transformer les données brutes (les reads) en le catalogue de référence v1.0, il a fallu un peu moins de 1000 heures CPU ; pour produire le catalogue v2.0 – 30 000 heures CPU. En extrapolant à partir de là, on arrive à 122 millions d'heures CPU pour analyser 1 Pb de données brutes. Ainsi, le plus puissant super-calculateur civil au Japon (RIKEN) aura besoin de 8 jours pour cette pétabase vs. 30 jours pour son collègue US. Ajouter à cela les histoires de clustering et « complete » vs. « indirect linkage » et on arrive à des durées assez astronomiques (au propre comme au figuré).
Alors, quelles solutions à cela ? On peut imaginer inclure des génomes séquencés et annotés dans le catalogue de référence. Le profilage phylogénétique peut aussi être amélioré et rendu plus précis par l'utilisation des 40 gènes essentiels (au lieu de se focaliser seulement sur le 16S qui résulte au final en une diminution de la résolution). Des projets dans cette direction sont en cours en collaboration avec Alexis Stamatakis (le créateur de RAxML, pour les gens qui se demandent d'où le nom leur est familier) pour générer un arbre phylogénétique du microbiome intestinal. Une pétabase d'ADN équivaut à 330 km : la route est longue, mais la voie est aux bioinformaticiens 🙂
—
Pour aller plus loin :
- Réseaux sociaux pour bactos
- Enterotypes of the human gut microbiome, Arumugam M et al., Nature 2011
- Cd-hit : a fast program for clustering and comparing large sets of protein or nucleotide sequences, Li W, Godzik A, Bioinformatics 2006
Laisser un commentaire