Un intérêt certain se développe pour la compréhension d'écosystèmes complexes comme les eaux, les sols ou encore les microbiomes (plus de 90% des cellules du corps humain sont en fait les bactéries qui peuplent son tube digestif). Plusieurs difficultés se posent :
- la plupart des organismes présents ne sont pas facilement cultivables et donc individualisables.
- tous les organismes ne sont pas présents en quantité égale et, par extension, d'importance égale dans le fonctionnement de l'écosystème, sans corrélation stricte entre abondance et importance.
- certains de ces écosystèmes sont extrêmement riches et des centaines d'espèces peuvent se cacher dans quelques grammes de terreau ou quelques millilitres d'océan.
Face à une tâche aussi ingrate que passionnante, les chercheurs ont trouvé une solution dans la célèbre phrase associée à la Croisade des Albigeois : « Tuez-les tous, Dieu reconnaîtra les siens », en l'adaptant légèrement :
« Séquencez-les tous, un doctorant fera le tri »
Ainsi naquît la Métagénomique et de grands projets comme le séquençage du rumen des vaches ou du microbiome humain, le projet METASOIL, le Global Ocean Survey et plus récemment le projet TARA.
Il convient de distinguer deux possibilités en métagénomique :
- séquencer un marqueur génétique capable d'identifier les organismes présents à l'échelle du genre voire de l'espèce comme le marqueur V9 (correspondant à l'ADNr 18S pour les eucaryotes, 16S pour les procaryotes)
- abuser des techniques modernes de séquençage très haut débit : extraire la totalité des acides nucléiques de l'échantillon, tout découper, tout séquencer. Pour l'analogie, imaginons une virée à la Bibliothèque Nationale, un découpage intensif de l'ensemble des pages de chacun des livres (dont certains sont ‑au grand bonheur des nombreux fans d'Harry Potter- en plusieurs copies), la réalisation d'un gros tas relativement stable, et pour finir se lancer, avec espoir, témérité et un peu de ruban adhésif, dans la reconstitution de tous ces chefs d’œuvre (si si, même ceux qu'on n'aime pas, comme 50 Shades of Grey ou la saga Twillight).
Fort heureusement, rares sont les chercheurs qui osent se lancer en quête d'une compréhension exhaustive des populations d'un écosystème complexe. Si la quête se révèle relativement réalisable lorsqu'on ne séquence qu'un marqueur universel et qu'il s'agit d'identifier "qui est là", tenter de reconstituer les génomes via une étape d'assemblage se révèle un défi. Bien souvent et c'est ce que nous allons aborder ici, le chercheur lambda ne s'intéressera qu'à détecter l'abondance de son picoeucaryote adoré ou de ses bactéries favorites. Pour cela un outil astucieux et très pratique existe : le Graphique de Recrutement (librement traduit du Recruitment Plot que vous trouverez dans la littérature)
L'idée étant simplement de recruter ‑par alignement- des reads de séquençage du métagénome sur un ou plusieurs génomes de référence. Et de distinguer ces reads par leur pourcentage d'identité avec la séquence cible. Lorsqu'une quantité significative de reads s'alignent sur le génome d'une souche de référence, et ce avec un pourcentage d'identité suffisamment important, on peut émettre l'hypothèse que cet organisme ou une variété d'organismes très proches sont présent dans l'échantillon considéré.
Ingrédients de la recette du jour : Le Graphique de Recrutement
- Quelques dizaines de millions de "reads" d'une taille honnête (pas moins de 100 paires de bases), au mieux une banque Illumina "Pair-End" de 2 x 100 pb chevauchants voire de longs reads 454 ou IonTorrent.
- Quelques génomes de référence, représentatifs de la diversité du groupe dont vous souhaitez détecter la présence
- Un gros, gros ordinateur (ou bien mieux un cluster de calcul)
- Quelques compétences en "lançage de BLAST" et dans un langage de programmation "User Friendly" (type Bash, Python ou Perl) ainsi qu'un peu de R pour faire de beaux graphiques, mais Excel reste utilisable pour les frileux
- Beaucoup d'enthousiasme !
Difficulté : 3 / 5 Rien d'extravagant ici, mais nécessite une certaine souplesse devant une ligne de commande
Méthode en 3 étapes :
1/ Aligner l'ensemble des reads du métagénome sur l'ensemble des génomes "de référence" à l'aide de BLAST, en autorisant des "hits" aussi faibles que 55% d'identité
L'idée étant de trouver les paramètres appropriés :
1 |
blastall -p blastn -i myReads.fasta -d myDatabase -o outfile.tab -m 8 -G 8 -E 6 -r 5 -q -4 -W 8 -e 1 -F "m L" -U T |
Avec ‑W 8 : la taille du "mot", ‑G 8 ‑E 6 ‑r 5 ‑q 4 : les coûts d'ouverture et d'élongation de gap, la récompense pour un match et la pénalité pour un mismatch,
1 |
-e 1 -F "m L" -U T |
: quelques filtres pour alléger les fichiers de sortie, et non moins important ‑m 8 pour une sortie tabulée facile à manipuler. Ces paramètres ne sont qu'une suggestion, il conviendra de les adapter à ses propres données.
2/ Nettoyer les résultats (à l'aide de Bash, Python ou Perl, ou autre…)
Il s'agit de conserver les hits BLAST qui vous semblent pertinents, non pas en termes de pourcentage d'identité, mais en terme de longueur de l'alignement. J'essaye par exemple d'avoir au moins 80% de la séquence de mon read qui soit effectivement alignée. À ce stade, vous voulez savoir si un organisme de référence donné est présent dans le métagénome. Il ne s'agit pas de faire de compétition entre vos organismes de référence, je vous suggère donc de conserver également l'information de reads qui s'alignent sur plusieurs de vos génomes (en l'occurence, considérant que vos génomes sont proches, cela devrait se produire régulièrement). Par contre, n'hésitez pas à ne conserver que le meilleur hit de chaque read pour chacune de vos souches de référence.
Il s'agit ensuite d'extraire trois informations clefs : le génome de référence où le read s'est aligné, le pourcentage d'identité du hit et la localisation de ce hit sur le génome de référence (pas de pitié, faites la moyenne du Stop et du Start).
3/ Construction du Graphique de Recrutement
Il s'agit enfin, pour un organisme de référence donné de générer le graphique suivant : en abscisse la position sur le chromosome de votre organisme (s'il y en a plusieurs, il faudra faire plusieurs graphes ou bien les concaténer), et en ordonnée, pour chacun des reads son pourcentage d'identité. Petit conseil : il n'est pas utile d'afficher 2 millions de points sur un graphiques, sélectionnez tout au plus 100 000 points à afficher.
Résultats :
Graphique de Recrutement pour la Souche A (G.Farrant, Tous droits réservés)
Graphique de Recrutement pour la Souche B (G.Farrant, Tous droits réservés)
Dans ces exemples, j'ai fusionné les profils de recrutement des métagénomes de trois stations de prélèvement sur les génomes de deux souches bactériennes A et B. Cette combinaison de 3 conditions, associées à des couleurs différentes facilite la comparaison des stations. L'histogramme à droite du graphique représente l'abondance de points sur des tranches de pourcentage d'identité.
On observe que quasiment aucun read ne s’aligne sur la souche A avec une identité supérieure à 90% alors que sur la souche B, une quantité significative de reads s’aligne avec plus de 90% d’identité, ce qui permet de conclure que des organismes génétiquement proches de la souche B sont présents dans l’échantillon étudié. Les points recrutés entre 55 et 80% d'identité correspondraient à du recrutement non-spécifique.
On observe également quelques artefacts potentiellement intéressants tels des sites où le signal est très riche, l'intuition amène à penser qu'il s'agit de régions contenant des gènes de ménage largement conservés entre organismes (type ARN ribosomiques) ainsi que des régions "vides", dont une très marquée pour la Souche 2, qui doivent être interprétés (îlots génomiques ?).
Le Graphique de Recrutement est un premier outil d'analyse de la présence d'organismes de référence dans un métagénome. Il permet entre autres de définir un seuil de pourcentage d'identité prompt à discriminer les familles d'organismes. Il permet également de révéler des particularités riches d'interprétations. Pour plus d'infos et du subtilités, je vous suggère la publication du GlobalOceanSurvey (GOS) qui s'octroie la paternité de la méthode.
Je tiens à remercier Malicia, Hautbit, Yoann M., Nico M., Mica et Guillaume Collet pour leurs commentaires avisés.
Laisser un commentaire