Génomique des paysages

14 novembre 2019

-

par

Introduction

fleur bioinformatique ADN jardinier — *Edunia* par Eduardo Kac, une fleur érigée au rang d'oeuvre d'art. L'ADN de cette fleur contient une partie du génome humain de son jardinier.
*Crédit : CC-BY-NC-ND Ars Electronica pour Eduardo Kac*

« Génomique des paysages » cela sonne comme le titre d’une œuvre d’Eduardo Kac. Ce nom un peu post-moderne désigne en fait une discipline scientifique qui a connu une expansion fulgurante au cours de la dernière décennie.

Les enjeux environnementaux et de conversation actuels ont rendus pressante la nécessité de mieux comprendre et décrire les espèces et leurs populations habitantes sur la Terre. Récemment, les progrès des technologies de séquençage ont permis d’affiner cette compréhension au travers de la génomique. Comprendre et décrire les populations d’organismes vivants dans un environnement donné, en exploitant les données de séquençage est le but ultime de la génomique des paysages. Cet article en est une introduction.

Populations : une définition ambiguë

Les individus d’une même espèce, à moins qu’ils ne soient des clones identiques, sont tous légèrement différents les uns des autres. Dans des conditions d'élevages où les parents ainsi que leurs génotypes sont connus, il est possible d'identifier avec précision les relations entre variabilité génétique et phénotype. Cependant, pour les cas (nombreux) où il n'est pas possible d'avoir d'informations sur les liens de parenté entre individus (comme par exemple dans l'étude d'une espèce sauvage ou peu décrite), il est alors nécessaire d'inférer cette structure génétique. C'est l'approche populationnelle.

En effet, une espèce - prenons l’exemple d’une espèce animale - peut être composée de plusieurs populations.

En parlant de populations, deux chercheurs très minutieux, Oscar Gaggiotti & Robin Waples ont recensés très exactement 17 définitions, toutes justes, répondant à ce concept. Les deux auteurs en ont conclus qu’avec autant de définitions pour un même concept, en partant des mêmes observations, différents chercheurs pouvaient arriver à des résultats différents voire contradictoires. Qu’est-ce qu’une population ? Il n’y a pas de réponse correcte, la définition dépend du contexte. Dans le contexte de la génomique des paysages, la population est un groupe d’individus de la même espèce capable d’interagir au moment de la reproduction. Une population se définit donc selon des critères spatiaux, génétiques et temporels. En effet, tous les individus n’auront pas la possibilité de se croiser en raison de l’éloignement géographique, de l’hétérogénéité de l’habitat ou d’autres facteurs.

Hardy et Weinberg ont définis l’état d’équilibre d’une population idéale dans laquelle la diversité génétique tendrait vers une valeur constante. Les conditions nécessaires à un tel équilibre sont :

L’absence de mutations pour ne pas introduire de nouveaux allèles
Panmixie, mot savant signifiant l’égalité des chances pour l’accès à la reproduction
Les générations ne se chevauchent pas
Il n’y a pas de sélection naturelle
Il n’y a pas de transfert de variants génétiques issus d’une autre population

Bien sûr, la population idéale n’existe pas dans la nature, mais la connaissance de l’état d’équilibre théorique de la diversité génétique d’une population permet de déterminer les effets de facteurs extérieurs sur la diversité génétique d’une population. Autrement dit, la manière dont une population n’est pas idéale nous informe sur la structuration de cette population par son habitat.

Des populations menacées dans leur habitat

Dans mon choix d’espèce animale, je prendrais un poisson, par exemple le rouget de roche (Mullus surmuletus). Nous l’avons vu, dans l’état d’Hardy et Weinberg, les populations ne subissent aucune perturbation et s’étendent à l’infini. Dans notre monde, les stocks de poissons déclinent et la taille des individus diminue.

Si l’effectif ou la morphologie peuvent nous donner les tendances sur les caractéristiques d’une espèce à un endroit donné, il est toutefois difficile d’identifier plusieurs populations et les échanges entre ces populations. Le transfert de variants génétiques d’une population à l’autre est le flux de gènes. Si il y a un flux de gènes entre des populations et qu’une population acquiert des caractères adaptatifs alors les autres populations sont susceptibles d’acquérir cette adaptation aussi.

La formation ou disparition de flux de gènes, l’acquisition ou perte de caractères adaptatifs sont des processus liés à l’habitat de l’espèce. Une connaissance de l’habitat, de la distribution géographique des individus est donc nécessaire.
Comprendre et décrire ces processus de flux de gènes et d’adaptation en lien avec la géographie et la nature de l’habitat, c’est donc comprendre la structure des populations d’une espèce et la façon dont l’habitat (le paysage) contribue à cette structure. Comprendre comment l’habitat structure la génétique des populations d’une espèce. C’est prendre des décisions éclairées en termes de politique de conservation.
Cette compréhension est d’autant plus cruciale dans un contexte d’extinction de masse et de politique de conservation des espèces.

De la géographie à la génomique : un peu d’histoire

Les possibilités offertes par les nouveaux modèles de séquenceur ADN combinées à de nouvelles approches statistiques (en particulier bayésienne) exploitant la puissance des clusters de calcul a permis l’émergence d’une science entre génétique des populations et écologie des paysages : la génétique des paysages, qui tend désormais à se nommer génomique des paysages en raison de l’usage systématique de séquençage de génomes complets ou réduits dans les études récentes.

Cette discipline trouve ses origines dans les travaux du botaniste Augustin Pyrame de Candolle (1778-1841) et du géographe naturaliste Alfred Russel Wallace (1823-1913). De Candolle est le premier à observer que la distribution spatiale des individus au sein d’une espèce est déterminée par des causes physiques ou encore des ressources. De façon similaire, pendant un séjour dans l’archipel malaisien, Wallace remarque une « frontière » physique séparant la faune entre l’Australie et la région orientale.

Cette approche permet la cartographie spatiale des fréquences alléliques observées dans une ou plusieurs espèces ou populations. Subséquemment, il devient alors possible d’étudier les corrélations éventuelles entre les caractéristiques du paysage et cette distribution.
Longtemps cette approche a été limitée par le nombre de marqueurs génétiques ou moléculaires disponibles (faunes parasites associés aux individus, composition des fèces, ADN microsatellites…). Il était alors difficile d’obtenir des données génétiques sur plusieurs populations à une échelle spatiale.

Aujourd’hui, avec l’informatique, il est possible à la fois de traiter des cartes géographiques complexes de très nombreux descripteurs environnementaux avec une grande résolution et à la fois de traiter des dizaines de milliers de variants génétiques parmi les populations étudiées.
Avec l’apparition des nouvelles technologies de séquençage haut-débit et les problématiques de plus en plus urgentes de conservation, la génétique des paysages connaît donc un intérêt renouvelé et de plus en plus important.

Loin de moi l’idée de vous présenter l’ensemble des travaux qu’implique une étude de la génomique des paysages, je me contenterais de vous décrire le rôle que la bio-informatique y joue au travers du point de vue d’un bio-informaticien.

Un cas d'étude de génomique des paysage

Notre exemple

Imaginons que nous ayons une espèce de poisson présentant deux phénotypes distincts (les rouges et les bleus) et que nous voulions savoir s'il existe plusieurs populations génétiques de cette espèce et si la distribution des individus au sein d’une population est structurée par des facteurs environnementaux.

Les 4 étapes d'une étude de génomique des paysages : l'échantillonnage ; le séquençage ; la bioinformatique et l'assignation des individus à une population génétique.
Crédit : Pierre-Edouard Guerin pour bioinfo-fr

Les données

Nous devons recueillir deux types de données pour chaque individu :

les descripteurs environnementaux : température, bathymétrie, substrat, production de phytoplancton, courantométrie, distance à la côte… Ces données peuvent être récupérées à partir des coordonnées GPS des individus sur des banques de données spécialisées tel que le Global Marine Environment Datasets par exemple.
Les génotypes sont plus coûteux à obtenir. Il faut échantillonner chaque individu, extraire son ADN et le séquencer. Bien que le coût du séquençage à haut-débit des génomes n’a cessé de diminuer au cours des 15 dernières années, ce coût demeure trop élevé pour des analyses à large échelle impliquant le séquençage de centaines d’individus. C’est pourquoi il faut avoir recours à des séquençages de génomes réduits.

Séquençage ADN

Une méthode de séquençage de génomes réduits est le RAD-seq pour Restriction site Associated Dna SEQuencing. L’ADN de l’individu est extrait, puis digéré par une enzyme de restriction. Une séquence dite adaptateur pour initier le séquençage est ensuite incorporée aux extrémités digérées avec une séquence-étiquette qui permettra d’identifier l’individu. Ainsi lors du séquençage, seules les régions consécutives des sites de restrictions sont séquencées. En fonction de l’enzyme utilisée et de l’espèce étudiée, le nombre de site de restrictions peut varier. Il faut choisir une enzyme qui génère un nombre de fragments ni trop élevé (s' il y a trop de sites à séquencer, la couverture sera faible et il y aura des données manquantes pour chaque individu ce qui empêche la comparaison des génotypes entre individus) ni trop faible (s'il n’y a pas assez de sites, il n’y aura pas assez de marqueurs génétiques et il ne sera pas possible de distinguer des structures génétiques au sein des populations). Si on dispose d’une séquence référence du génome de l’espèce étudiée ou à défaut d’une espèce proche, il est possible de réaliser des simulations de digestion enzymatique du génome pour choisir l’enzyme le plus pertinent (voir le package simRAD disponible sous R).

Traitement des données de séquençage

Un autre aspect de notre travail va consister au traitement de ces données RAD-seq. Il s’agit de fichier FastQ tout à fait classique. La première étape va donc consister à nettoyer ces données en retirant les séquences de mauvaises qualités ou les contaminations (phiX, adaptateurs, clone PCR…). Pour la deuxième étape il s’agira de démultiplexer c’est-à-dire à partir de la lecture des séquence-étiquettes incorporées au séquençage, d’attribuer chaque séquence à un individu.

Génotypage

Ensuite vient l’étape cruciale d’appel des variants. Il s’agit de regrouper l’ensemble des séquences d’un même site enzymatique pour tous les individus afin de déduire à partir des fréquences de chaque type de base à chaque position de la séquence, si l’individu est homozygote à la référence, hétérozygote ou homozygote alternatif. Pour chaque site enzymatique, des variants génétiques sont recherchés parmi les individus et un génotype est attribué à chaque individu.

Il existe deux méthodes populaires pour le traitement de ces données RAD-seq : STACKS et freebayes.

Comme son nom l’indique STACKS crée des empilements de séquences dans le but de rechercher les variations individuelles. STACKS présente l’avantage d’être une méthode rigoureuse et robuste mais exige une bonne couverture moyenne des sites par individu et que les séquences doivent être de tailles identiques (il n’est donc pas possible de trimmer les séquences dont seul la queue 3’ est de mauvaise qualité lors de l’étape de nettoyage). C’est donc une méthode adaptée si vos données sont de bonne qualité.

Freebayes (dDocent) s’appuie sur le concept de locus sur la séquence référence du génome plutôt que d’empilement des séquences et utilise une approche bayésienne pour assigner un génotype sachant les séquences observées sur le locus considéré. Il est donc possible d’utiliser des séquences trimmées et de génotyper un individu même avec une faible couverture là où STACKS n’aurait produit que des données manquantes.

Assignation des individus à une population génétique

Les génotypes des individus peuvent être récupérés sous la forme de fichier VCF. Des logiciels tel que STRUCTURE ou ADMIXTURE permettent avec une approche dite de regroupement hiérarchique de réaliser un test d’assignation à une population pour chaque individu à partir des génotypes. Les fréquences alléliques observées pour chaque locus permettent d’inférer des populations génétiques auxquels les individus sont assignés selon leurs allèles. Chaque itération de cette opération permet de raffiner l’assignation. Le résultat final est une probabilité d’appartenance à une ou plusieurs populations génétiques pour chaque individu.

Analyse des populations par rapport aux descripteurs environnementaux

En combinant ces assignations aux descripteurs environnementaux, nous pouvons alors rechercher des corrélations entre les facteurs environnementaux et la structure génétique de nos populations observées. Par exemple, Les poissons rouges, localisés au niveau de l'étang vivent dans des eaux chaudes, avec une salinité faible tandis que les poissons bleus, localisés au niveau des bords de mer vivent dans des eaux froides avec une salinité forte. Les deux populations ne sont reliées entre elles que par un grau. Les écarts de conditions environnementales et la relative isolation des deux populations peuvent expliquer les différences génétiques observés entre les deux populations (les rouges et les bleus). Il y a donc une structuration de l'espèce par son habitat autrement dit le paysage.

Si vous êtes intéressés par un cas d'étude réel de génomique du paysage dans un environnement marin, alors je vous recommande l'article de Laura Benestan sur le homard d'Amérique au Canada.
Si vous n'aimez pas la mer et que vous avez une préférence pour les plantes, alors je vous recommande plutôt l'article de Jimena Guerrero sur la luzerne tronquée en Méditerranée.

Conclusion

La génomique du paysage est une discipline qui intègre des concepts et des outils pour tester l’effet du paysage sur la dispersion des individus et les flux de gènes. Elle permet d'estimer la capacité adaptative des individus aux changements de leur environnement.
Nous avons vu que la bioinformatique apportait de la puissance à ces méthodes à la croisée entre écologie, statistiques, informatique et génomique.
Ces approches sont utiles à la fois pour les laboratoires de recherche, mais aussi pour les bureaux d’études. Les nombreuses études de génomique des paysages réalisées au cours de cette décennie ont contribué à faire des choix éclairés de politique de conservation de la nature. Permettant ainsi de maintenir les écosystèmes et de prévenir ou de corriger les dégradations qu'ils pourraient subir.

Actuellement en Méditerranée occidentale, le projet RESERVEBENEFIT vise à évaluer la connexion entre les aires marines protégées pour les poissons pêchés. Cette évaluation s'appuie sur une approche de génomique des paysages et vise à terme à optimiser le placement des futures aires marines protégées en Méditerranée dans le but de pérenniser les stocks de poissons. Les fruits de ce travail, collaboration entre pêcheurs et scientifiques dont j'ai l'honneur de réaliser la bioinformatique, sont diffusés sur un compte twitter dédié.

Références

Manel, Stéphanie, et al. "Landscape genetics : combining landscape ecology and population genetics." Trends in ecology & evolution
Guerrero, Jimena, et al. "Soil environment is a key driver of adaptation in Medicago truncatula : new insights from landscape genomics." New Phytologist
Benestan, Laura Marilyn, et al. "Conservation genomics of natural and managed populations : building a conceptual and practical framework." Molecular ecology
Gaggiotti, O. "What is a population ? An empirical evaluation of some genetic methods for identifying the number of gene pools and their degree of connectivity." Molecular Ecology
Rochette, Nicolas C., Angel G. Rivera-Colón, and Julian M. Catchen. "Stacks 2 : Analytical Methods for Paired-end Sequencing Improve RADseq-based Population Genomics." Molecular Ecology
Puritz, Jonathan B., Christopher M. Hollenbeck, and John R. Gold. "dDocent : a RADseq, variant-calling pipeline designed for population genomics of non-model organisms." PeerJ

Merci aux relecteurs : Gwenaëlle, Yoann M. et ZaZo0o.

Partagez cet article

Pierre-Edouard Guerin

Bio-informaticien dans la recherche publique de 2015 à 2020. Je suis au service des sélectionneurs et créateurs de variétés du groupe Florimond Desprez depuis 2021. J'ai rejoint la communauté bioinfo-fr pour partager ma passion et mon métier. Vous pouvez me suivre sur https://guerinpe.com

Pour continuer la lecture :

Commentaires

Laisser un commentaireAnnuler la réponse.

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.