La métagénomique et les défis pour la bioinformatique au goût #IHMC2012

On vous avait dit il y a peu qu'on allait vous par­ler du Congrès inter­na­tio­nal sur le micro­biome humain (Inter­na­tio­nal Human Micro­biome Congress 2012). Pour quelques rai­sons, votre humble ser­vi­teure a tar­dé avec son for­fait. Mais voi­ci que c'est main­te­nant chose faite : nous espé­rons que la frus­tra­tion sera vite oubliée 😉

Je vous avais déjà pré­sen­té le Congrès, donc je ne le refe­rai pas ici. L'objet de ce billet est de dis­cu­ter quelques points inté­res­sants du point de vue de la bio­in­for­ma­tique (ce n'est pas un scoop vu le blog que vous lisez actuel­le­ment). Le pre­mier jour de la confé­rence a abor­dé exac­te­ment ce genre de pro­blé­ma­tiques : com­ment gérer les don­nées, com­ment les inté­grer de façon à en tirer du sens, com­ment orga­ni­ser ce qu'on sait déjà et y injec­ter encore et encore des choses. Pour moi, les deux pré­sen­ta­tions qui ont le mieux abor­dé ces ques­tions étaient celles de Li Jun­hua (BGI Shen­zen, Chine) et Mani Aru­mu­gam (EMBL, Alle­magne). J'y viens de suite.

Mieux connaître le contenu génétique de notre microbiome intestinal

Li Jun­hua a par­lé de l'amélioration du cata­logue de réfé­rence (“Impro­ve­ment of micro­bial gene cata­log construc­tion”). Petit rap­pel : il s'agit d'un réper­toire repré­sen­tant l'ensemble des gènes les plus pré­do­mi­nants (3,3 mil­lions, plus pré­ci­sé­ment) dans la cohorte de 124 indi­vi­dus dont le micro­biome intes­ti­nal a été séquen­cé. Dans le papier décri­vant le cata­logue, les auteurs men­tion­naient que plus de 99% de ces gènes sont bac­té­riens, menant à l'observation que l'ensemble des per­sonnes séquen­cées pos­sède un total de 1000 à 1500 espèces bac­té­riennes fré­quem­ment ren­con­trées, ce nombre étant d'au moins 160 pour chaque indi­vi­du. Ce qui fait de ce cata­logue une réfé­rence est le fait que ces mil­lions de gènes sont com­muns à tout le monde dans la cohorte.

Ce que Li Jun­hua a pré­sen­té était la v2.0 du cata­logue : 760 indi­vi­dus au total. Vu que les chiffres parlent tou­jours mieux (et qu'en ces temps pré-élec­to­raux, on est bien gavé de chiffres…) : le cata­logue v1.0 était com­po­sé de 568 Gb de séquences, l'actuelle v2.0 en contient 4,4 Tb. Évi­dem­ment, la pro­cé­dure infor­ma­ti­sée uti­li­sée pour l'analyse doit suivre et a donc été mise à jour en consé­quence. Li Jun­hua a sou­li­gné ici une chose fon­da­men­tale, à savoir : l'importance de se débar­ras­ser des arte­facts bio­in­for­ma­tiques, imple­men­tée dans les étapes sui­vantes :

Crédit image : dullhunk sur Flickr (CC-by 2.0)
Cré­dit image : dull­hunk sur Fli­ckr (CC-by 2.0)
  • fil­trage des reads (FastX ou Solexa­QA) ;
  • net­toyage (SOAPaligner2) ;
  • assem­blage (SOAP­de­no­vo v1.06). La révi­sion et le contrôle qua­li­té sont faits avec une pro­cé­dure mai­son et ont pour but de gérer les petites erreurs telles que des INDELs, mésap­pa­rie­ments (mis­match), etc. Aus­si, les régions appe­lées « chi­mé­riques » (défi­nies comme les régions non jointes par des reads) sont éli­mi­nées à cette étape.
  • pré­dic­tion de gènes (Meta­Ge­ne­Mark v2.08) ;
  • clus­te­ring des gènes (CD-HIT). Cette étape est amé­lio­rée en com­pa­rai­son avec ce qui était fait pour le cata­logue v1.0 : le clus­te­ring est main­te­nant fait en gar­dant les seuils de 95% d'identité de séquence et de 90% de che­vau­che­ment, mais en uti­li­sant le « com­plete (direct) lin­kage » à la place de l' « indi­rect » avec  une dis­tance maxi­male infé­rieure à 10% (voir la doc CD-HIT 🙂 ).

Le résul­tat est un cata­logue v2.0 de 8,1 mil­lions de gènes qui contient 99,5% des gènes du cata­logue v1.0 mais le truc notable est que 65% de la v2.0 contient des gènes non réper­to­riés avant. D'un point de vue bio­lo­gique, on est ras­su­ré : ~86% des gènes de la v2.0 ont été décrits par le pas­sé, le brouillard ne sera donc pas si épais qu'on pour­rait le craindre. Et jus­te­ment, c'est là où ça com­mence à deve­nir vrai­ment pas­sion­nant : est-ce que ce nombre énorme de gènes conte­nus dans nos intes­tins aide à décrire les indi­vi­dus ?

Les ana­lyses pré­li­mi­naires que Li Jun­hua ont ten­dance à dire que « oui ». Ain­si, d'après les « courbes de raré­fac­tion », comme il les a appe­lées, on voit clai­re­ment que le nombre de gènes crois­sant ne mène – tou­jours – pas à une satu­ra­tion de ce qui peut être iden­ti­fié. En termes simples : ces 8,1 mil­lions de gènes ne repré­sentent pas la majeure par­tie de la diver­si­té géné­tique du micro­biome humain.

Comme on pour­rait s'y attendre, un nombre éle­vé de gènes nous per­met­trait d'avoir accès aux élé­ments peu fré­quents dans les échan­tillons (i.e., indi­vi­dus). C'est effec­ti­ve­ment ce qu'il semble se des­si­ner à par­tir de ces résul­tats indi­quant que les gènes com­muns entre les indi­vi­dus comptent pour du beurre… euh, pour 3,2% du cata­logue total, même s'ils repré­sentent 40% des gènes d'une per­sonne. Paral­lè­le­ment, moins de 10% des échan­tillons contiennent 76% des gènes non redon­dants du cata­logue. Autre­ment dit, le méta­gé­nome intes­ti­nal essen­tiel (appe­lé « core meta­ge­nome ») est com­po­sé de très peu de gènes très abon­dants et com­muns aux indi­vi­dus tan­dis que le pan­mé­ta­gé­nome (les gènes por­tés par des plas­mides, etc.) est consti­tué de très nom­breux gènes peu fré­quents et pré­sents chez peu d'individus de la cohorte. L'étude plus appro­fon­die de ce pan­mé­ta­gé­nome pré­ci­sé­ment risque de révé­ler des mar­queurs géné­tiques pour dif­fé­rentes mala­dies et consti­tue un véri­table défi d'échantillonage.

L'avalanche de données nous emportera-t-elle ?

Du coup, on par­lait bien de quan­ti­tés de don­nées – et jus­te­ment, avoir accès de façon plus détaillée aux pan­mé­ta­gé­nomes se tra­duit par un très grand nombre d'échantillons – alors, la pré­sen­ta­tion de Mani Aru­mu­gam vient à point. Son titre est assez expli­cite : « Towards peta­base meta­ge­no­mics : chal­lenges and road­blocks ahead » ("Vers une méta­gé­no­mique de la péta­base : défis et obs­tacles"). Évi­dem­ment, pour avoir assez de puis­sance sta­tis­tique, il faut avoir beau­coup de don­nées et, d'ailleurs il ne s'agit pas seule­ment de don­nées de séquen­çage : les méta­don­nées telles que le régime ali­men­taire, l'âge, le sexe, etc., sont éga­le­ment impor­tantes pour pou­voir aller dans une direc­tion non seule­ment des­crip­tive mais aus­si expli­ca­tive et, à terme, pré­dic­tive.

Crédit image : twicepix sur Flickr (CC-by-SA 2.0)
Cré­dit image : twi­ce­pix sur Fli­ckr (CC-by-SA 2.0)

Pour en arri­ver là, par contre, il faut jus­te­ment gérer et inté­grer ces don­nées. Pour l'instant on ne parle que de séquences issues de séquen­çage de type shot­gun, lequel a l'avantage de per­mettre un accès non seule­ment au conte­nu en gènes mais aus­si à la varia­bi­li­té nucléo­ti­dique. (Et même si on n'est pas encore tota­le­ment prêt pour la méta­trans­crip­to­mique, la méta­pro­téo­mique, etc., ce moment vien­dra.) À court et moyen terme, néan­moins, ce vers quoi on se dirige sûre­ment est la péta­base de séquences. Mani a esti­mé que, vu les prix du séquen­çage, on arri­ve­ra à 1 mil­lion de dol­lars pour séquen­çer une péta­base en 2016. Et une fois qu'on a notre péta­base, on en fera quoi ?

Cette pro­jec­tion pose très clai­re­ment la ques­tion de l'intégration des don­nées d'un type don­né, avant même d'aller vers la pro­duc­tion d'autres types issues des tech­no­lo­gies à haut débit. Les pipe­lines bio­in­for­ma­tiques devraient ain­si être « très matures », pour reprendre la défi­ni­tion de Mani. Il com­pare donc ce qu'on connaît déjà : pour trans­for­mer les don­nées brutes (les reads) en le cata­logue de réfé­rence v1.0, il a fal­lu un peu moins de 1000 heures CPU ; pour pro­duire le cata­logue v2.0 – 30 000 heures CPU. En extra­po­lant à par­tir de là, on arrive à 122 mil­lions d'heures CPU pour ana­ly­ser 1 Pb de don­nées brutes. Ain­si, le plus puis­sant super-cal­cu­la­teur civil au Japon (RIKEN) aura besoin de 8 jours pour cette péta­base vs. 30 jours pour son col­lègue US. Ajou­ter à cela les his­toires de clus­te­ring et « com­plete » vs. « indi­rect lin­kage » et on arrive à des durées assez astro­no­miques (au propre comme au figu­ré).

Alors, quelles solu­tions à cela ? On peut ima­gi­ner inclure des génomes séquen­cés et anno­tés dans le cata­logue de réfé­rence. Le pro­fi­lage phy­lo­gé­né­tique peut aus­si être amé­lio­ré et ren­du plus pré­cis par l'utilisation des 40 gènes essen­tiels (au lieu de se foca­li­ser seule­ment sur le 16S qui résulte au final en une dimi­nu­tion de la réso­lu­tion). Des pro­jets dans cette direc­tion sont en cours en col­la­bo­ra­tion avec Alexis Sta­ma­ta­kis (le créa­teur de RAxML, pour les gens qui se demandent d'où le nom leur est fami­lier) pour géné­rer un arbre phy­lo­gé­né­tique du micro­biome intes­ti­nal. Une péta­base d'ADN équi­vaut à 330 km : la route est longue, mais la voie est aux bio­in­for­ma­ti­ciens 🙂


Pour aller plus loin :

Images d'ici et



Pour continuer la lecture :


Commentaires

Une réponse à “La métagénomique et les défis pour la bioinformatique au goût #IHMC2012”

  1. Avatar de Norore

    Magni­fique article très ins­truc­tif et inté­res­sant qui donne envie d'en savoir plus et, pour ma part, de se plon­ger à corps per­du dans ce type de recherche !
    Mer­ci pour le compte ren­du !

Laisser un commentaire