Génomique des paysages

Introduction

fleur bioinformatique ADN jardinier
Edu­nia par Eduar­do Kac, une fleur éri­gée au rang d'oeuvre d'art. L'ADN de cette fleur contient une par­tie du génome humain de son jar­di­nier.
Cré­dit : CC-BY-NC-ND Ars Elec­tro­ni­ca pour Eduar­do Kac

« Géno­mique des pay­sages » cela sonne comme le titre d’une œuvre d’Eduardo Kac. Ce nom un peu post-moderne désigne en fait une dis­ci­pline scien­ti­fique qui a connu une expan­sion ful­gu­rante au cours de la der­nière décen­nie.

Les enjeux envi­ron­ne­men­taux et de conver­sa­tion actuels ont ren­dus pres­sante la néces­si­té de mieux com­prendre et décrire les espèces et leurs popu­la­tions habi­tantes sur la Terre. Récem­ment, les pro­grès des tech­no­lo­gies de séquen­çage ont per­mis d’affiner cette com­pré­hen­sion au tra­vers de la géno­mique. Com­prendre et décrire les popu­la­tions d’organismes vivants dans un envi­ron­ne­ment don­né, en exploi­tant les don­nées de séquen­çage est le but ultime de la géno­mique des pay­sages. Cet article en est une intro­duc­tion.

Populations : une définition ambiguë

Les indi­vi­dus d’une même espèce, à moins qu’ils ne soient des clones iden­tiques, sont tous légè­re­ment dif­fé­rents les uns des autres. Dans des condi­tions d'élevages où les parents ain­si que leurs géno­types sont connus, il est pos­sible d'identifier avec pré­ci­sion les rela­tions entre varia­bi­li­té géné­tique et phé­no­type. Cepen­dant, pour les cas (nom­breux) où il n'est pas pos­sible d'avoir d'informations sur les liens de paren­té entre indi­vi­dus (comme par exemple dans l'étude d'une espèce sau­vage ou peu décrite), il est alors néces­saire d'inférer cette struc­ture géné­tique. C'est l'approche popu­la­tion­nelle.

En effet, une espèce — pre­nons l’exemple d’une espèce ani­male — peut être com­po­sée de plu­sieurs popu­la­tions.

En par­lant de popu­la­tions, deux cher­cheurs très minu­tieux, Oscar Gag­giot­ti & Robin Waples ont recen­sés très exac­te­ment 17 défi­ni­tions, toutes justes, répon­dant à ce concept. Les deux auteurs en ont conclus qu’avec autant de défi­ni­tions pour un même concept, en par­tant des mêmes obser­va­tions, dif­fé­rents cher­cheurs pou­vaient arri­ver à des résul­tats dif­fé­rents voire contra­dic­toires. Qu’est-ce qu’une popu­la­tion ? Il n’y a pas de réponse cor­recte, la défi­ni­tion dépend du contexte. Dans le contexte de la géno­mique des pay­sages, la popu­la­tion est un groupe d’individus de la même espèce capable d’interagir au moment de la repro­duc­tion. Une popu­la­tion se défi­nit donc selon des cri­tères spa­tiaux, géné­tiques et tem­po­rels. En effet, tous les indi­vi­dus n’auront pas la pos­si­bi­li­té de se croi­ser en rai­son de l’éloignement géo­gra­phique, de l’hétérogénéité de l’habitat ou d’autres fac­teurs.

Har­dy et Wein­berg ont défi­nis l’état d’équilibre d’une popu­la­tion idéale dans laquelle la diver­si­té géné­tique ten­drait vers une valeur constante. Les condi­tions néces­saires à un tel équi­libre sont :

  • L’absence de muta­tions pour ne pas intro­duire de nou­veaux allèles
  • Pan­mixie, mot savant signi­fiant l’égalité des chances pour l’accès à la repro­duc­tion
  • Les géné­ra­tions ne se che­vauchent pas
  • Il n’y a pas de sélec­tion natu­relle
  • Il n’y a pas de trans­fert de variants géné­tiques issus d’une autre popu­la­tion

Bien sûr, la popu­la­tion idéale n’existe pas dans la nature, mais la connais­sance de l’état d’équilibre théo­rique de la diver­si­té géné­tique d’une popu­la­tion per­met de déter­mi­ner les effets de fac­teurs exté­rieurs sur la diver­si­té géné­tique d’une popu­la­tion. Autre­ment dit, la manière dont une popu­la­tion n’est pas idéale nous informe sur la struc­tu­ra­tion de cette popu­la­tion par son habi­tat.

Des populations menacées dans leur habitat

rouget de roche
Rou­get de roche (Mul­lus sur­mu­le­tus) sur le site de la citerne à Car­non près de Mont­pel­lier en Médi­te­ran­née.
Cré­dit : Ali­cia Dalon­ge­ville, doc­teur en éco­lo­gie et évo­lu­tion.

Dans mon choix d’espèce ani­male, je pren­drais un pois­son, par exemple le rou­get de roche (Mul­lus sur­mu­le­tus). Nous l’avons vu, dans l’état d’Hardy et Wein­berg, les popu­la­tions ne subissent aucune per­tur­ba­tion et s’étendent à l’infini. Dans notre monde, les stocks de pois­sons déclinent et la taille des indi­vi­dus dimi­nue.

Si l’effectif ou la mor­pho­lo­gie peuvent nous don­ner les ten­dances sur les carac­té­ris­tiques d’une espèce à un endroit don­né, il est tou­te­fois dif­fi­cile d’identifier plu­sieurs popu­la­tions et les échanges entre ces popu­la­tions. Le trans­fert de variants géné­tiques d’une popu­la­tion à l’autre est le flux de gènes. Si il y a un flux de gènes entre des popu­la­tions et qu’une popu­la­tion acquiert des carac­tères adap­ta­tifs alors les autres popu­la­tions sont sus­cep­tibles d’acquérir cette adap­ta­tion aus­si.

La for­ma­tion ou dis­pa­ri­tion de flux de gènes, l’acquisition ou perte de carac­tères adap­ta­tifs sont des pro­ces­sus liés à l’habitat de l’espèce. Une connais­sance de l’habitat, de la dis­tri­bu­tion géo­gra­phique des indi­vi­dus est donc néces­saire.
Com­prendre et décrire ces pro­ces­sus de flux de gènes et d’adaptation en lien avec la géo­gra­phie et la nature de l’habitat, c’est donc com­prendre la struc­ture des popu­la­tions d’une espèce et la façon dont l’habitat (le pay­sage) contri­bue à cette struc­ture. Com­prendre com­ment l’habitat struc­ture la géné­tique des popu­la­tions d’une espèce. C’est prendre des déci­sions éclai­rées en termes de poli­tique de conser­va­tion.
Cette com­pré­hen­sion est d’autant plus cru­ciale dans un contexte d’extinction de masse et de poli­tique de conser­va­tion des espèces.

De la géographie à la génomique : un peu d’histoire

Les pos­si­bi­li­tés offertes par les nou­veaux modèles de séquen­ceur ADN com­bi­nées à de nou­velles approches sta­tis­tiques (en par­ti­cu­lier bayé­sienne) exploi­tant la puis­sance des clus­ters de cal­cul a per­mis l’émergence d’une science entre géné­tique des popu­la­tions et éco­lo­gie des pay­sages : la géné­tique des pay­sages, qui tend désor­mais à se nom­mer géno­mique des pay­sages en rai­son de l’usage sys­té­ma­tique de séquen­çage de génomes com­plets ou réduits dans les études récentes.

Cette dis­ci­pline trouve ses ori­gines dans les tra­vaux du bota­niste Augus­tin Pyrame de Can­dolle (1778–1841) et du géo­graphe natu­ra­liste Alfred Rus­sel Wal­lace (1823–1913). De Can­dolle est le pre­mier à obser­ver que la dis­tri­bu­tion spa­tiale des indi­vi­dus au sein d’une espèce est déter­mi­née par des causes phy­siques ou encore des res­sources. De façon simi­laire, pen­dant un séjour dans l’archipel malai­sien, Wal­lace remarque une « fron­tière » phy­sique sépa­rant la faune entre l’Australie et la région orien­tale.

Cette approche per­met la car­to­gra­phie spa­tiale des fré­quences allé­liques obser­vées dans une ou plu­sieurs espèces ou popu­la­tions. Sub­sé­quem­ment, il devient alors pos­sible d’étudier les cor­ré­la­tions éven­tuelles entre les carac­té­ris­tiques du pay­sage et cette dis­tri­bu­tion.
Long­temps cette approche a été limi­tée par le nombre de mar­queurs géné­tiques ou molé­cu­laires dis­po­nibles (faunes para­sites asso­ciés aux indi­vi­dus, com­po­si­tion des fèces, ADN micro­sa­tel­lites…). Il était alors dif­fi­cile d’obtenir des don­nées géné­tiques sur plu­sieurs popu­la­tions à une échelle spa­tiale.

Aujourd’hui, avec l’informatique, il est pos­sible à la fois de trai­ter des cartes géo­gra­phiques com­plexes de très nom­breux des­crip­teurs envi­ron­ne­men­taux avec une grande réso­lu­tion et à la fois de trai­ter des dizaines de mil­liers de variants géné­tiques par­mi les popu­la­tions étu­diées.
Avec l’apparition des nou­velles tech­no­lo­gies de séquen­çage haut-débit et les pro­blé­ma­tiques de plus en plus urgentes de conser­va­tion, la géné­tique des pay­sages connaît donc un inté­rêt renou­ve­lé et de plus en plus impor­tant.

Loin de moi l’idée de vous pré­sen­ter l’ensemble des tra­vaux qu’implique une étude de la géno­mique des pay­sages, je me conten­te­rais de vous décrire le rôle que la bio-infor­ma­tique y joue au tra­vers du point de vue d’un bio-infor­ma­ti­cien.

Un cas d'étude de génomique des paysage

Notre exemple

Ima­gi­nons que nous ayons une espèce de pois­son pré­sen­tant deux phé­no­types dis­tincts (les rouges et les bleus) et que nous vou­lions savoir s'il existe plu­sieurs popu­la­tions géné­tiques de cette espèce et si la dis­tri­bu­tion des indi­vi­dus au sein d’une popu­la­tion est struc­tu­rée par des fac­teurs envi­ron­ne­men­taux.

génomique des paysage schéma
Les 4 étapes d'une étude de géno­mique des pay­sages : l'échantillonnage ; le séquen­çage ; la bio­in­for­ma­tique et l'assignation des indi­vi­dus à une popu­la­tion géné­tique.
Cré­dit : Pierre-Edouard Gue­rin pour bioin­fo-fr

Les données

Nous devons recueillir deux types de don­nées pour chaque indi­vi­du :

  • les des­crip­teurs envi­ron­ne­men­taux : tem­pé­ra­ture, bathy­mé­trie, sub­strat, pro­duc­tion de phy­to­planc­ton, cou­ran­to­mé­trie, dis­tance à la côte… Ces don­nées peuvent être récu­pé­rées à par­tir des coor­don­nées GPS des indi­vi­dus sur des banques de don­nées spé­cia­li­sées tel que le Glo­bal Marine Envi­ron­ment Data­sets par exemple.
  • Les géno­types sont plus coû­teux à obte­nir. Il faut échan­tillon­ner chaque indi­vi­du, extraire son ADN et le séquen­cer. Bien que le coût du séquen­çage à haut-débit des génomes n’a ces­sé de dimi­nuer au cours des 15 der­nières années, ce coût demeure trop éle­vé pour des ana­lyses à large échelle impli­quant le séquen­çage de cen­taines d’individus. C’est pour­quoi il faut avoir recours à des séquen­çages de génomes réduits.

Séquençage ADN

Une méthode de séquen­çage de génomes réduits est le RAD-seq pour Restric­tion site Asso­cia­ted Dna SEQuen­cing. L’ADN de l’individu est extrait, puis digé­ré par une enzyme de res­tric­tion. Une séquence dite adap­ta­teur pour ini­tier le séquen­çage est ensuite incor­po­rée aux extré­mi­tés digé­rées avec une séquence-éti­quette qui per­met­tra d’identifier l’individu. Ain­si lors du séquen­çage, seules les régions consé­cu­tives des sites de res­tric­tions sont séquen­cées. En fonc­tion de l’enzyme uti­li­sée et de l’espèce étu­diée, le nombre de site de res­tric­tions peut varier. Il faut choi­sir une enzyme qui génère un nombre de frag­ments ni trop éle­vé (s' il y a trop de sites à séquen­cer, la cou­ver­ture sera faible et il y aura des don­nées man­quantes pour chaque indi­vi­du ce qui empêche la com­pa­rai­son des géno­types entre indi­vi­dus) ni trop faible (s'il n’y a pas assez de sites, il n’y aura pas assez de mar­queurs géné­tiques et il ne sera pas pos­sible de dis­tin­guer des struc­tures géné­tiques au sein des popu­la­tions). Si on dis­pose d’une séquence réfé­rence du génome de l’espèce étu­diée ou à défaut d’une espèce proche, il est pos­sible de réa­li­ser des simu­la­tions de diges­tion enzy­ma­tique du génome pour choi­sir l’enzyme le plus per­ti­nent (voir le package sim­RAD dis­po­nible sous R).

Traitement des données de séquençage

Un autre aspect de notre tra­vail va consis­ter au trai­te­ment de ces don­nées RAD-seq. Il s’agit de fichier FastQ tout à fait clas­sique. La pre­mière étape va donc consis­ter à net­toyer ces don­nées en reti­rant les séquences de mau­vaises qua­li­tés ou les conta­mi­na­tions (phiX, adap­ta­teurs, clone PCR…). Pour la deuxième étape il s’agira de démul­ti­plexer c’est-à-dire à par­tir de la lec­ture des séquence-éti­quettes incor­po­rées au séquen­çage, d’attribuer chaque séquence à un indi­vi­du.

Génotypage

Ensuite vient l’étape cru­ciale d’appel des variants. Il s’agit de regrou­per l’ensemble des séquences d’un même site enzy­ma­tique pour tous les indi­vi­dus afin de déduire à par­tir des fré­quences de chaque type de base à chaque posi­tion de la séquence, si l’individu est homo­zy­gote à la réfé­rence, hété­ro­zy­gote ou homo­zy­gote alter­na­tif. Pour chaque site enzy­ma­tique, des variants géné­tiques sont recher­chés par­mi les indi­vi­dus et un géno­type est attri­bué à chaque indi­vi­du.

Il existe deux méthodes popu­laires pour le trai­te­ment de ces don­nées RAD-seq : STACKS et free­bayes.

  • Comme son nom l’indique STACKS crée des empi­le­ments de séquences dans le but de recher­cher les varia­tions indi­vi­duelles. STACKS pré­sente l’avantage d’être une méthode rigou­reuse et robuste mais exige une bonne cou­ver­ture moyenne des sites par indi­vi­du et que les séquences doivent être de tailles iden­tiques (il n’est donc pas pos­sible de trim­mer les séquences dont seul la queue 3’ est de mau­vaise qua­li­té lors de l’étape de net­toyage). C’est donc une méthode adap­tée si vos don­nées sont de bonne qua­li­té.
  • Free­bayes (dDocent) s’appuie sur le concept de locus sur la séquence réfé­rence du génome plu­tôt que d’empilement des séquences et uti­lise une approche bayé­sienne pour assi­gner un géno­type sachant les séquences obser­vées sur le locus consi­dé­ré. Il est donc pos­sible d’utiliser des séquences trim­mées et de géno­ty­per un indi­vi­du même avec une faible cou­ver­ture là où STACKS n’aurait pro­duit que des don­nées man­quantes.

Assignation des individus à une population génétique

Les géno­types des indi­vi­dus peuvent être récu­pé­rés sous la forme de fichier VCF. Des logi­ciels tel que STRUCTURE ou ADMIXTURE per­mettent avec une approche dite de regrou­pe­ment hié­rar­chique de réa­li­ser un test d’assignation à une popu­la­tion pour chaque indi­vi­du à par­tir des géno­types. Les fré­quences allé­liques obser­vées pour chaque locus per­mettent d’inférer des popu­la­tions géné­tiques aux­quels les indi­vi­dus sont assi­gnés selon leurs allèles. Chaque ité­ra­tion de cette opé­ra­tion per­met de raf­fi­ner l’assignation. Le résul­tat final est une pro­ba­bi­li­té d’appartenance à une ou plu­sieurs popu­la­tions géné­tiques pour chaque indi­vi­du.

Analyse des populations par rapport aux descripteurs environnementaux

En com­bi­nant ces assi­gna­tions aux des­crip­teurs envi­ron­ne­men­taux, nous pou­vons alors recher­cher des cor­ré­la­tions entre les fac­teurs envi­ron­ne­men­taux et la struc­ture géné­tique de nos popu­la­tions obser­vées. Par exemple, Les pois­sons rouges, loca­li­sés au niveau de l'étang vivent dans des eaux chaudes, avec une sali­ni­té faible tan­dis que les pois­sons bleus, loca­li­sés au niveau des bords de mer vivent dans des eaux froides avec une sali­ni­té forte. Les deux popu­la­tions ne sont reliées entre elles que par un grau. Les écarts de condi­tions envi­ron­ne­men­tales et la rela­tive iso­la­tion des deux popu­la­tions peuvent expli­quer les dif­fé­rences géné­tiques obser­vés entre les deux popu­la­tions (les rouges et les bleus). Il y a donc une struc­tu­ra­tion de l'espèce par son habi­tat autre­ment dit le pay­sage.

Conclusion

La géno­mique du pay­sage est une dis­ci­pline qui intègre des concepts et des outils pour tes­ter l’effet du pay­sage sur la dis­per­sion des indi­vi­dus et les flux de gènes. Elle per­met d'estimer la capa­ci­té adap­ta­tive des indi­vi­dus aux chan­ge­ments de leur envi­ron­ne­ment.
Nous avons vu que la bio­in­for­ma­tique appor­tait de la puis­sance à ces méthodes à la croi­sée entre éco­lo­gie, sta­tis­tiques, infor­ma­tique et géno­mique.
Ces approches sont utiles à la fois pour les labo­ra­toires de recherche, mais aus­si pour les bureaux d’études. Les nom­breuses études de géno­mique des pay­sages réa­li­sées au cours de cette décen­nie ont contri­bué à faire des choix éclai­rés de poli­tique de conser­va­tion de la nature. Per­met­tant ain­si de main­te­nir les éco­sys­tèmes et de pré­ve­nir ou de cor­ri­ger les dégra­da­tions qu'ils pour­raient subir.

reserve benefit

Actuel­le­ment en Médi­ter­ra­née occi­den­tale, le pro­jet RESERVEBENEFIT vise à éva­luer la connexion entre les aires marines pro­té­gées pour les pois­sons pêchés. Cette éva­lua­tion s'appuie sur une approche de géno­mique des pay­sages et vise à terme à opti­mi­ser le pla­ce­ment des futures aires marines pro­té­gées en Médi­ter­ra­née dans le but de péren­ni­ser les stocks de pois­sons. Les fruits de ce tra­vail, col­la­bo­ra­tion entre pêcheurs et scien­ti­fiques dont j'ai l'honneur de réa­li­ser la bio­in­for­ma­tique, sont dif­fu­sés sur un compte twit­ter dédié.

Références

  • Manel, Sté­pha­nie, et al. "Land­scape gene­tics : com­bi­ning land­scape eco­lo­gy and popu­la­tion gene­tics." Trends in eco­lo­gy & evo­lu­tion
  • Guer­re­ro, Jime­na, et al. "Soil envi­ron­ment is a key dri­ver of adap­ta­tion in Medi­ca­go trun­ca­tu­la : new insights from land­scape geno­mics." New Phy­to­lo­gist
  • Benes­tan, Lau­ra Mari­lyn, et al. "Conser­va­tion geno­mics of natu­ral and mana­ged popu­la­tions : buil­ding a concep­tual and prac­ti­cal fra­me­work." Mole­cu­lar eco­lo­gy
  • Gag­giot­ti, O. "What is a popu­la­tion ? An empi­ri­cal eva­lua­tion of some gene­tic methods for iden­ti­fying the num­ber of gene pools and their degree of connec­ti­vi­ty." Mole­cu­lar Eco­lo­gy
  • Rochette, Nico­las C., Angel G. Rive­ra-Colón, and Julian M. Cat­chen. "Stacks 2 : Ana­ly­ti­cal Methods for Pai­red-end Sequen­cing Improve RAD­seq-based Popu­la­tion Geno­mics." Mole­cu­lar Eco­lo­gy
  • Puritz, Jona­than B., Chris­to­pher M. Hol­len­beck, and John R. Gold. "dDocent : a RAD­seq, variant-cal­ling pipe­line desi­gned for popu­la­tion geno­mics of non-model orga­nisms." PeerJ

Mer­ci aux relec­teurs : Gwe­naëlle, Yoann M. et ZaZo0o.



Pour continuer la lecture :


Commentaires

Laisser un commentaire