Métabarcodes de l'ADN environnemental

L'une des tech­no­lo­gies en géno­mique les plus pro­met­teuses pour l'évaluation de la bio­di­ver­si­té est le méta­bar­code (de l'anglais meta­bar­co­ding) de l'ADN envi­ron­ne­men­tal (ADNe). J'ai tra­vaillé lon­gue­ment sur ces méthodes et déve­lop­pé plu­sieurs work­flows pour trai­ter et ana­ly­ser les don­nées de méta­bar­codes. J'ai notam­ment été en charge du trai­te­ment des don­nées géno­miques récol­tées par l’expédition scien­ti­fique d'exploration marine de Mona­co entre 2018 et 2020.



Grâce au fil­trage de l'ADN pré­sent dans l'eau, Les scien­ti­fiques peuvent mesu­rer la bio­di­ver­si­té sous-marine, ici dans la réserve natu­relle de Cer­bère à Banyuls (Hérault).
CC-BY-NC Ali­cia Dalon­ge­ville, Vir­gi­nie Marques

Un point d'horizon : pourquoi évaluer la biodiversité marine ?

Les envi­ron­ne­ments marins, qu'ils soient sur les côtes ou au large sont tous sévè­re­ment impac­tés par les acti­vi­tés humaines récentes ou tra­di­tion­nelles. Il peut s'agir de régres­sions ou de pertes d'habitats pour la faune, de pol­lu­tions ou de sur­ex­ploi­ta­tion des res­sources mena­çant ain­si la bio­di­ver­si­té marine. Cer­tains effets de l'activité humaine com­pro­mettent alors la dura­bi­li­té des éco­sys­tèmes marins et leurs ser­vices pour l'approvisionnement (pêche­rie et maté­riaux de construc­tion), pour le tou­risme, pour la culture et fina­le­ment pour la régu­la­tion du cli­mat et la séques­tra­tion du car­bone. Afin de pré­ve­nir la dégra­da­tion de ces envi­ron­ne­ments, de nom­breuses ini­tia­tives gou­ver­ne­men­tales ou pri­vées visent à pro­té­ger les éco­sys­tèmes marins. C'est pour­quoi le déve­lop­pe­ment d'outils fiables pour mesu­rer et éva­luer la bio­di­ver­si­té marine est néces­saire. Au cours de la décen­nie 2010, l'état de déve­lop­pe­ment du meta­bar­co­ding a pro­gres­sé et c'est une tech­no­lo­gie appli­quée très lar­ge­ment de nos jours. Les résul­tats de cette méthode sont pro­met­teurs et sa démo­cra­ti­sa­tion pour­rait à terme amé­lio­rer l'évaluation de la bio­di­ver­si­té.

Qu'est ce que le métabarcode

Brève histoire de l'identification moléculaire

A l'origine, les micro­bio­lo­gistes iden­ti­fiaient les bac­té­ries en obser­vant leurs carac­tères mor­pho­lo­giques par exemple au micro­scope. C'est en 1965 que Zucke­kandl et Pau­ling pro­posent d'utiliser les séquences ADN comme mar­queur molé­cu­laire de l'évolution. Cepen­dant les tech­niques de séquen­çage ADN n'apparaissent qu'en 1970 avec la méthode San­ger.

En 1983, Mul­lis et al inventent la réac­tion de poly­mé­ri­sa­tion en chaîne qui per­met d'amplifier le maté­riel ADN in vitro. Cette méthode de bio­lo­gie molé­cu­laire révo­lu­tionne le domaine de la micro­bio­lo­gie car elle per­met de cibler par ampli­fi­ca­tion un mar­queur ADN spé­ci­fique au niveau de gènes ribo­so­maux. Per­met­tant ain­si d'identifier les espèces pré­sentes dans un échan­tillon à par­tir de leurs molé­cules ADN.

Les premiers codes-barres taxonomiques

Au début des années 2000, les éco­lo­gistes s’intéressent à ces méthodes de bio­lo­gie molé­cu­laire d'amplification des mar­queurs molé­cu­laires type ADN. Paul Her­bert est le pre­mier à par­ler de bar­co­ding ADN. Il recom­mande d'utiliser un mar­queur molé­cu­laire stan­dar­di­sé, per­met­tant d'identifier l'ensemble des espèces des ordres du vivant, exac­te­ment comme un code-barres.

Le pre­mier code-barres ADN est un frag­ment de 658 paires de bases du gène mito­chon­drial de la sous-uni­té de la Cyto­chrome Oxy­dase I (COI). Chaque espèce de ver­té­brés est iden­ti­fiable par sa séquence ADN du COI. Pour réper­to­rier de manière sys­té­ma­tique l'ensemble des codes-barres du COI, le consor­tium scien­ti­fique Bar­code of Life est crée en 2004. En 2007, la banque de don­nées mon­diales des codes-barres ADN est publiée. Le Bar­code Of Life Data Sys­tem compte aujourd'hui des mil­lions d'espèces réper­to­riées avec leurs codes-barres ADN issues de mil­liers de pro­jets scien­ti­fiques à tra­vers le monde.

Les mar­queurs chlo­ro­plas­tiques RBCL (Ribu­lose Biphos­phate Car­boxy­Lase ; 553 paires de bases) et MATK (MATu­rase K ; 879 paires de bases) sont dési­gnés comme mar­queurs stan­dards pour les plantes en 2009. En 2012, les fun­gi ont leur propre code-barres stan­dard l'espaceur interne trans­crit (ITS ; 450 paires de bases). Concer­nant les bac­té­ries le mar­queur ribo­so­mique 16S est prin­ci­pa­le­ment uti­li­sé bien qu'il n'existe pas de mar­queurs recon­nus comme stan­dard.

ADN environnemental

Nous savons que tous les orga­nismes vivants perdent et dis­persent des mor­ceaux de peau ou d'écailles dans leur envi­ron­ne­ment. Le maté­riel ADN conte­nu dans et autour des cel­lules consti­tu­tives de ces tis­sus per­sistent alors plu­sieurs jours dans l'environnement. Les cel­lules euca­ryotes pos­sèdent en elle des mito­chon­dries, orga­nite siège de la res­pi­ra­tion cel­lu­laire indis­pen­sable au méta­bo­lisme. Chaque cel­lule compte 300 à 1000 mito­chon­dries. La mito­chon­drie pos­sède son propre ADN dis­tinct de l'ADN nucléaire de la cel­lule. Les copies de gènes mito­chon­driaux sont donc bien plus abon­dant que les gènes nucléaires dans l'environnement. En géné­ral, ce sont ces gènes qui sont sélec­tion­nés en tant que code-barres pour le bar­co­ding.

Du code-barres au métabarcode

Le bar­co­ding est une méthode d'identification des espèces qui uti­lise une séquence ADN pro­ve­nant d'un ou plu­sieurs gènes spé­ci­fiques. Tout comme les codes-barres des super­mar­chés per­mettent d'identifier les pro­duits, cer­taines séquences ADN i.e les codes-barres ADN per­mettent d'identifier les espèces voire les indi­vi­dus. Dif­fé­rentes régions de gènes sont uti­li­sées pour iden­ti­fier les dif­fé­rents groupes d'organismes à l'aide de codes-barres.

Si le bar­co­ding s'applique à une espèce ciblée dans un envi­ron­ne­ment don­né, le méta­bar­code est une méthode qui cible l'ensemble des séquences codes-barres cap­tu­rées dans un envi­ron­ne­ment don­né. Le séquen­çage de l'ensemble des codes-barres dans l'environnement ou méta­bar­code est ren­du pos­sible grâce aux méthodes de séquen­çage haut-débit notam­ment le séquen­ceur illu­mi­na. En effet, grâce au méta­bar­code il devient alors pos­sible de détec­ter la qua­si-tota­li­té des orga­nismes pré­sents dans un échan­tillon issus d’un envi­ron­ne­ment com­plexe.

Materiels et methodes

Les méthodes de séquen­çage haut-débit per­mettent d’obtenir rapi­de­ment des cen­taines de mil­lions de méta­bar­codes à par­tir d’un envi­ron­ne­ment com­plexe. A par­tir de cette infor­ma­tion, il devient pos­sible de mesu­rer la bio­di­ver­si­té dans l'environnement. En effet, la qua­si-tota­li­té des orga­nismes pré­sents dans l'environnement sont détec­tés.

Les étapes d'une étude de méta­bar­codes ADNe
CC-BY-NC Pierre-Edouard Gue­rin
Échan­tillon­nage d'ADNe à Cal­vi en Corse.
CC-BY-NC Emi­lie BOULANGER

Échantillonnage et capture de l'ADN environnemental

Pour com­men­cer des pré­lè­ve­ments en mer sont néces­saires. Ils se font par fil­tra­tion de l'eau grâce à un sys­tème de pompes et de fil­tra­tion. Une des étapes fon­da­men­tales de la pré­pa­ra­tion à la fil­tra­tion est la sté­ri­li­sa­tion et la limi­ta­tion de la conta­mi­na­tion du maté­riel. Le filtre à ADN est relié à une pompe qui fait remon­ter l'eau de mer. Le tran­sect com­mence selon un plan d'échantillonnage pré­éta­bli en lon­geant une côte sur un temps de navi­ga­tion don­né. Afin de conser­ver l'ADN récol­té lors de la fil­tra­tion, le filtre est rem­pli par une solu­tion tam­pon. Les échan­tillons conte­nant l'ADN sont ensuite récep­tion­nés par le labo­ra­toire en condi­tion sté­rile où il pour­ra être ampli­fié puis séquen­cé.

Préparation des librairies et séquençage haut-débit de l'ADNe

L'ADN pré­sent dans l'échantillon est décou­pé aléa­toi­re­ment en frag­ments par soni­ca­tion. Des tailles pré­cises de frag­ments sont ensuite sélec­tion­nées. Des amorces ADN sont ensuite incor­po­rés aux extré­mi­tés 3' et 5' des frag­ments ADN sélec­tion­nés. Ces amorces per­mettent la fixa­tion de la librai­rie (les frag­ments ADN sélec­tion­nés) sur une sur­face solide. Les frag­ments ADN fixés ain­si sont alors ampli­fiés par PCR.
Le séquen­çage est effec­tué à l'aide d'amorces, d'ADN poly­mé­rase et de quatre nucléo­tides de ter­mi­nai­son réver­sibles mar­qués par un fluo­ro­phore. Après l'incorporation d'un nucléo­tide, l'image est cap­tu­rée et l'identité de la pre­mière base est enre­gis­trée par un robot. Les ter­mi­na­teurs et les fluo­ro­phores sont ensuite reti­rés et les étapes d'incorporation, de détec­tion et d'identification sont répé­tées. La lon­gueur moyenne des lec­tures est d'environ 150 paires de bases. Le séquen­çage par syn­thèse ADN est une opé­ra­tion paral­lé­li­sée, ain­si des mil­lions de lec­tures sont géné­rées.

Les prin­ci­pales étapes du séquen­çage ADN haut-débit ( tech­no­lo­gie illu­mi­na). Figure ins­pi­rée de Medi­ni et al. 2008
CC-BY-NC Pierre-Edouard Gue­rin

Il est à noter que des erreurs de répli­ca­tion peuvent sur­ve­nir pen­dant la PCR. Le taux d'erreur du séquen­çage est néan­moins assez faible. Enfin, il est pos­sible de séquen­cer les frag­ments par leurs deux extré­mi­tés pour accroître la pré­ci­sion du séquen­çage. Cette méthode est appe­lée « séquen­çage pai­ré » de l'anglais pai­red-end sequen­cing.

Traitement bio-informatique

La pro­gram­ma­tion pour le trai­te­ment bio-infor­ma­tique se fait grâce à un ges­tion­naire de work­flow. Les avan­tages sont nom­breux : bonnes pra­tiques de déve­lop­pe­ment, paral­lé­li­sa­tion du cal­cul, vir­tua­li­sa­tion, por­ta­bi­li­té accrue sur clus­ter comme sur cloud et repro­duc­ti­bi­li­té scien­ti­fique garan­tie. Pour déve­lop­per vos pro­chains pipe­lines, je vous recom­mande l'excel­lente intro­duc­tion à Next­flow de Maxime Gar­cia. Vous pou­vez aus­si vous essayer à Sna­ke­make pré­sen­té par le même auteur.

Prin­ci­pales étapes du trai­te­ment bio-infor­ma­tique des don­nées de séquen­çage de méta­bar­codes ADNe
CC-BY-NC Pierre-Edouard Gue­rin

Assemblage

Le séquen­çage ADN a pro­duit des lec­tures courtes des séquences ADN. De plus, bien que le taux d'erreur du séquen­çage soit faible, les lec­tures ADN en sor­tie de séquen­çage ne sont pas encore assez fiables pour l'identification des espèces. Les lec­tures com­plé­men­taires d'un même frag­ment ADN sont assem­blées. Ain­si, la séquence com­plète du code-barres est recons­ti­tuée tout en aug­men­tant la fia­bi­li­té de la séquence lue.

Démultiplexage

A la sor­tie du séquen­ceur, les séquences ADN issues des dif­fé­rents échan­tillons sont mélan­gées. Le démul­ti­plexage consiste à réas­si­gner chaque séquence ADN lue à son échan­tillon d'origine. Pour iden­ti­fier l'échantillon d'origine d'une séquence lue, un court frag­ment ADN appe­lé éti­quette a été incor­po­ré en amont du séquen­çage. Il suf­fit d'identifier l'éti­quette sur la séquence pour retrou­ver son échan­tillon d'origine. Si une séquence n'a pas d'éti­quette à ce stade alors elle est reti­rée de l'étude.

Groupement et dé-bruitage

Les séquences iden­tiques sont regrou­pées et comp­tées pour chaque échan­tillon. Cer­taines séquences ne dif­fé­rent que de quelques bases entre elles. En effet, lors de l'amplification des frag­ments ADN qui pré­cède le séquen­çage, des muta­tions sur­viennent aléa­toi­re­ment sur cer­taines copies. En sor­tie de séquen­çage, beau­coup de séquences sont en fait des ver­sions légè­re­ment erro­nées de la séquence ori­gi­nale. Pour éli­mi­ner le bruit de l'amplification, on uti­lise des algo­rithmes pour regrou­per les séquences simi­laires entre elles. L'abondance rela­tive per­met de dis­tin­guer la séquence d'origine du bruit.

Assignation taxonomique

Cette étape requiert une base de don­nées de réfé­rence. C'est-à-dire une liste de séquences de code-barres cor­res­pon­dant à des espèces connues. Si une séquence s’aligne sur une réfé­rence, son assi­gna­tion dans l'arbre du vivant est obte­nue en uti­li­sant la taxo­no­mie du NCBI (Natio­nal Cen­ter for Bio­tech­no­lo­gy Infor­ma­tion). Si une séquence s'aligne sur plu­sieurs réfé­rences l'algorithme du Lowest Com­mon Ances­tor (LCA) est appli­qué. Le LCA recherche le der­nier nœud com­mun de l'arbre phy­lo­gé­né­tique à par­tir duquel divergent les branches de cha­cune des lignées réfé­rences impli­quées. Le LCA per­met donc d’assigner la séquence au der­nier ancêtre com­mun. Fina­le­ment, chaque code-barres de chaque échan­tillon est assi­gné à un taxon. On obtient donc une liste des taxons pré­sents dans les dif­fé­rents échan­tillons envi­ron­ne­men­taux.

Analyses et applications : l'exemple des poissons en milieu marin

Emi­lie Bou­lan­ger et al., ont étu­dié les assem­blages de pois­sons dans 6 aires marines pro­té­gées en Médi­ter­ra­née et dans leurs zones de pêche adja­centes en uti­li­sant l'ADN envi­ron­ne­men­tal (ADNe). L'analyse des don­nées de méta­bar­codes ADNe révèlent qu'il y a moins d'espèces de pois­sons dans les réserves marines que dans les zones de pêche voi­sines. En effet, le gra­dient de la richesse en espèces s'accompagne d'un chan­ge­ment mar­qué de la com­po­si­tion des espèces de pois­sons sous dif­fé­rentes ges­tions. Cette dis­si­mi­la­ri­té est prin­ci­pa­le­ment due à des espèces qui sont sou­vent négli­gées par les enquêtes visuelles clas­siques mais détec­tées par l'ADNe : pois­sons cryp­to-ben­thiques, péla­giques et rares. Ces résul­tats ne nient pas l'importance des réserves dans la pro­tec­tion de la bio­di­ver­si­té mais donnent un nou­veau regard sur la manière dont les groupes d'espèces sous-repré­sen­tés peuvent réagir posi­ti­ve­ment à la pres­sion de la pêche et sur la façon dont les efforts de conser­va­tion peuvent façon­ner les modèles de bio­di­ver­si­té régio­nale.

Pour aller plus loin

Lola Romant de l'UMR MARBEC a réa­li­sé un beau docu­men­taire sur les méta­bar­codes ADNe marins et leurs appli­ca­tions en Médi­te­ran­née.

Références

  • Mole­cules as docu­ments of evo­lu­tio­na­ry his­to­ry Emile Zucker­kandl, Linus Pau­ling Jour­nal of theo­re­ti­cal bio­lo­gy. 1965. DOI : 10.1016/0022–5193(65)90083–4
  • Spe­ci­fic enzy­ma­tic ampli­fi­ca­tion of DNA in vitro : the poly­me­rase chain reac­tion K Mul­lis, F Faloo­na, S Scharf, R Sai­ki, G Horn, H Erlich Cold Spring Harb Symp Quant Biol. 1986. DOI : sqb.1986.051.01.032
  • Bio­lo­gi­cal iden­ti­fi­ca­tions through DNA bar­codes Paul D. N. Hebert, Ali­na Cywins­ka, Shel­ley L. Ball and Jere­my R. deWaard Pro­cee­dings of the Royal Socie­ty B. 07 Februa­ry 2003. DOI : rspb.2002.2218
  • BOLD : The Bar­code of Life Data Sys­tem Sujee­van Rat­na­sin­gham, Paul D. N. Hebert Mole­cu­lar Eco­lo­gy Notes. 24 Janua­ry 2007. DOI : j.1471–8286.2007.01678.x
  • Déve­lop­pe­ments métho­do­lo­giques autour de l’analyse des don­nées de meta­bar­co­ding ADN Celine Mer­cier Géné­tique des plantes. Uni­ver­si­té Gre­noble Alpes, 2015. NNT : 2015GREAV060
  • Dyna­mique de la struc­ture des génomes et de leur bio­géo­gra­phie dans l’océan : ana­lyses com­pa­ra­tives des don­nées méta­gé­no­miques du pro­jet Tara Oceans pour l’étude de la microalgue Bathy­coc­cu­set des com­mu­nau­tés planc­to­niques glo­bales Tho­mas Van­nier Struc­ture et dyna­mique des sys­tèmes vivants. Uni­ver­si­té Paris Saclay, 2017. NNT : 2017SACLE002
  • Néces­si­té, poten­tiel et limi­ta­tions de l’approche en uni­tés taxo­no­miques molé­cu­laires pour ana­ly­ser la bio­di­ver­si­té de l’ADN envi­ron­ne­men­tal des pois­sons Vir­gi­nie Marques Sciences agri­coles. Uni­ver­si­té Mont­pel­lier, 2020. NNT : 020MONTG039
  • Bench­mar­king bio­in­for­ma­tic tools for fast and accu­rate eDNA meta­bar­co­ding spe­cies iden­ti­fi­ca­tion Lae­ti­tia Mathon, Alice Valen­ti­ni, Pierre-Edouard Gue­rin, Eric Nor­man­deau, Cyril Noel, Clé­ment Lion­net, Emi­lie Bou­lan­ger, Wil­fried Thuiller, Louis Ber­nat­chez, David Mouillot, Tony Dejean, Ste­pha­nie Manel Mole­cu­lar Eco­lo­gy Resources. 18 May 2021. DOI 10.1111/1755–0998.13430
  • Envi­ron­men­tal DNA meta­bar­co­ding reveals and unpacks a bio­di­ver­si­ty conser­va­tion para­dox in Medi­ter­ra­nean marine reserves Emi­lie Bou­lan­ger , Nico­las Loi­seau , Alice Valen­ti­ni , Véro­nique Arnal , Pierre Bois­se­ry , Tony Dejean , Julie Deter, Nacim Guel­la­ti , Flo­rian Holon , Jean-Bap­tiste Juhel , Phi­lippe Len­fant , Sté­pha­nie Manel and David Mouillot Pro­cee­dings of the Royal Socie­ty B 28 April 2021 DOI 10.1098/rspb.2021.0112


Mer­ci aux relec­teurs Auré­lien Béliard, Jona­than Kitt et Yoann M. pour la relec­ture ain­si que leurs remarques construc­tives.



Pour continuer la lecture :


Commentaires

Laisser un commentaire