Qu'est ce que la métagénomique ?
Depuis quelques années, la métagénomique semble s'installer de plus en plus parmi les sciences du vivant. Bien que plusieurs techniques et modi operandi se cachent derrière le terme "métagénomique", on peut y apposer une définition générale : la métagénomique vise à étudier l'ensemble des génomes issus d'un même milieu ainsi que les interactions entre ces génomes. Par exemple, on peut prélever un échantillon de sol ou d'eau de mer et regarder d'un seul coup tous les micro-organismes vivant dans ce milieu. Or, comme une très grande proportion des micro-organismes n'est pas cultivable en milieu contrôlé (plus de 99,9% dans l'eau de mer¹), la métagénomique va consister à tout séquencer directement, sans passer par une phase de culture ou de différenciation des espèces pré-séquençage.
Actuellement, la métagénomique s'appuie donc très fortement sur les NGS (Next-Generation Sequencing pour Séquençage de nouvelle génération) afin de réaliser du séquençage à très haut débit. Le coût de production des données est ainsi de plus en plus faible, ce qui permet à de plus en plus de biologistes de franchir le pas vers la métagénomique. Mais, si l'utilisation des NGS permet d'obtenir énormément de données à coût modéré, ces nouvelles technologies apportent aussi leur lot de difficultés. En effet, depuis peu de temps, la génération des données n'est plus le point limitant d'une étude métagénomique ; c'est dorénavant l'analyse des données qui est longue et coûteuse ! L'augmentation considérable de la quantité de données pose ainsi de nouveaux challenges aux logiciels existants. Par exemple, calculer une simple similarité de séquence peut devenir très long pour de gros jeux de données. Tout cela pèse sur la faisabilité d'une étude métagénomique.
Pour conclure sur une définition assez large de la métagénomique, il faut préciser qu'il est souvent très difficile, voire impossible, d'avoir en sortie d'une analyse métagénomique la liste précise de tous les génomes (métagénome) présents dans l'échantillon à l'origine. Par contre, on peut avoir des informations pertinentes sur la communauté microbienne qui vit dans le milieu, sur l'activité d'un écosystème à un moment donné… Enfin, cela permet d'étudier le fonctionnement des organismes tels qu'ils sont dans leur environnement et non pas tels qu'ils sont après quelque temps passé dans un laboratoire, isolés des autres organismes.
Principales différences entre la génomique et la métagénomique
Comme nous venons de le voir, il est presque impossible de retrouver précisément tous les génomes contenus dans un métagénome. Dès lors, on comprend que les questions auxquelles on va essayer de répondre en métagénomique ne seront pas les même qu'en génomique.
En général, on essaie de répondre à trois questions fondamentales : Qui est présent dans mon échantillon ? Que font-ils ? Qui fait quoi ? Mais, à l'inverse de la génomique où on tend à associer un gène ou une partie d'un gène à un organisme, en métagénomique on associe un gène, une fonction biologique ou un processus à un habitat. Le paradigme est donc fondamentalement différent !
Une autre différence majeure entre la génomique et la métagénomique réside dans les données. En métagénomique, de multiples espèces sont mélangées dans les données mais chaque espèce n'est pas représentée de la même manière dans l'échantillon. Par exemple, il est tout à fait possible d'avoir deux échantillons extrêmement différents contenant chacun exactement les mêmes espèces ! En effet, il est important de différencier la présence ou l'absence d'une espèce avec sa représentation dans l'habitat. Une espèce peut représenter à elle seule 90% d'un échantillon mais n'être que très faiblement présente dans un second échantillon. On comprend dès lors que les deux échantillons n'auront pas le même comportement biologique. Les espèces très faiblement représentées dans un habitat sont généralement difficiles à étudier dans un unique métagénome, d'où la nécessité actuelle de pouvoir comparer plusieurs métagénomes. De plus, cette comparaison est nécessaire pour comprendre comment les différences génomiques affectent, et sont affectées par, les facteurs physico-chimiques d'un écosystème.
Il faut bien garder en tête qu'une analyse métagénomique d'un milieu complexe ne représente souvent qu'une partie de la communauté microbienne à un moment donné. Rien ne dit qu'en prenant un échantillon le lendemain à 10 cm du premier on obtiendra sensiblement les mêmes résultats. Si on voulait être vraiment exhaustif, produire un jeu de données représentatif de la communauté microbienne d'un unique gramme de sol nécessiterait plus de 6000 cycles de fonctionnement (run) d'un HiSeq2000 pour un coût total d'environ 267 millions de dollars⁴. La métagénomique permet d'avoir un sous-ensemble d'une communauté et nécessite donc des outils spécifiques, différents de ceux utilisés en génomique.
Malgré ces différences fondamentales, de nombreux projets de métagénomique continuent d'utiliser les protocoles standards d'analyses génomiques : séquencer le plus possible (on parle de profondeur de séquençage, chaque morceau d'ADN étant séquencé plusieurs dizaines de fois), assembler les lectures (petits morceaux d'ADN qu'on obtient en sortie d'un séquenceur) en morceaux plus grands puis finalement annoter ces séquences génomiques. Or, dans tout ce processus, les espèces très faiblement représentées dans l'échantillon ont toutes les chances d'être considérées comme des artéfacts et ainsi ignorées ; ceci peut mener à des biais lors de l'analyse des données.
Comme la métagénomique est à la fois une discipline très récente et générant une quantité de données sans précédent dans les sciences du vivant, seuls quelques logiciels parmi les plus connus en génomique sont utilisables en pratique. Mais comme la métagénomique et la génomique ne répondent pas aux mêmes questions, un réel besoin de nouveaux logiciels se fait sentir. Ces logiciels doivent répondre aux questions et aux besoins spécifiques dictés par la métagénomique. Mais il peut aussi être important de bien identifier les questions biologiques qu'on se pose afin de limiter la génération inutile de données, dans un réflexe génomique de séquencer le plus possible pour obtenir de meilleurs résultats.
Pour aller plus loin :
1. Amann RI, Ludwig W & Schleifer KH (1995) Phylogenetic identification and in situ detection of individual microbial cells without cultivation. Microbiol Rev 59 : 143–169.
2. Wooley, JC, Godzik, A, Friedberg, I (2010). A primer on metagenomics. PLoS Comput. Biol., 6, 2:e1000667.
3. Kennedy, J, Flemer, B, Jackson, SA, Lejon, DP, Morrissey, JP, O'Gara, F, Dobson, AD (2010). Marine metagenomics : new tools for the study and exploitation of marine microbial metabolism. Mar Drugs, 8, 3:608–28.
4. Desai, N, Antonopoulos, D, Gilbert, JA, Glass, EM, Meyer, F (2012). From genomics to metagenomics. Curr. Opin. Biotechnol., 23, 1:72–6.
Laisser un commentaire