- Le blog participatif de bioinformatique francophone depuis 2012 -

Identification des relations entre la variabilité génétique et le phénotype : cartographie QTL

Les indi­vi­dus d’une même espèce, à moins qu’ils ne soient des clones iden­tiques, sont tous légè­re­ment dif­fé­rents les uns des autres. Cette dif­fé­rence s’exprime à tous les niveaux, de l’apparence (phé­no­type macro­sco­pique), au génome (dif­fé­rents allèles pour le même gène), en pas­sant par les phé­no­types micro­sco­piques (aus­si appe­lés molé­cu­laires — on pen­se­ra ici aux trans­crip­tomes, (phospho)protéomes, ou encore meta­bo­lomes). Depuis les tout débuts de la géné­tique moderne, les géné­ti­ciens du monde entier se sont effor­cés de relier les traits obser­vables aux gènes qui peuvent être à leur ori­gine, dans l’espoir d’en apprendre suf­fi­sam­ment pour pou­voir amé­lio­rer les traits d’interêt et pré­ve­nir ceux à inté­rêt néga­tif. Cer­tains de ces traits obser­vables sont qua­li­ta­tifs, comme, par exemple, la pré­sence ou l’absence d’un désordre du déve­lop­pe­ment. D’autres traits sont quan­ti­ta­tifs : la taille d’un indi­vi­du, sa pres­sion san­guine ou encore le nombre d’ARN mes­sa­gers d’un gène don­né.

Image géné­rée avec meme​ge​ne​ra​tor​.net

Qu'est ce qu'une "cartographie QTL" ?

Nous allons donc par­ler aujourd'hui des traits quan­ti­ta­tifs et de l’influence que les gènes peuvent avoir sur eux. Depuis long­temps les géné­ti­ciens uti­lisent une stra­té­gie appe­lée car­to­gra­phie des locus à traits quan­ti­ta­tifs (« quan­ti­ta­tive trait locus » ‑QTL- map­pings) afin de mettre en évi­dence les régions du génome qui contrôlent le trait étu­dié. Cette stra­té­gie peut être décrite d’une façon très simple : une petite popu­la­tion d’individus d’une même espèce (pou­vant aller des orga­nismes uni­cel­lu­laires comme la levure, aux orga­nismes beau­coup plus com­plexes comme le rat et la sou­ris) est crée à par­tir d’un faible nombre de parents et soi­gneu­se­ment géno­ty­pée. On cherche ensuite les cor­re­la­tions entre les varia­tions du trait que l’on étu­die et la varia­tion allé­lique dans cette même popu­la­tion. Les loci qui cor­rèlent for­te­ment avec le trait sont alors pré­dits comme étant res­pon­sables pour la varia­bi­li­té de ce trait, le génome est en « lec­ture seule » (en d’autres mots, on peut être sûr que le trait ne peut pas cau­ser la varia­tion géné­tique, mais la varia­tion géné­tique peut influen­cer le trait, éta­blis­sant ain­si la rela­tion de cau­sa­li­té).

Je ne vous appren­drai rien de nou­veau en affir­mant que lors des deux der­nières décen­nies, la bio­lo­gie molé­cu­laire a subi une révo­lu­tion majeure grâce à l’introduction de tech­no­lo­gies de séquen­çage et de géno­ty­page à (très) haut débit, de quan­ti­fi­ca­tion de l’ensemble des pro­téines d’un orga­nisme ou encore, de l’ensemble de ses meta­bo­lites. Ces tech­no­lo­gies ont per­mis d'accéder à des mil­liers de nou­veaux traits molé­cu­laires, notam­ment la quan­ti­fi­ca­tion de l’expression de tous les gènes d’un orga­nisme (ARNm). Les approches géné­tiques tra­di­tion­nelles, dont les car­to­gra­phies QTL font par­tie, ont pu être appli­quées à ces nou­veaux traits : les niveaux d’expression de gènes, et on appelle ces car­to­gra­phies « eQTLs » (« e » étant pour « expres­sion ». On trou­ve­ra aus­si, de la même façon des « pQTLs » — où les traits étu­diés sont les concen­tra­tions de pro­téines, ou encore les « mQTLs » qui cherchent à iden­ti­fier l'influence des loci sur les concen­tra­tions des méta­bo­lites). Ain­si, les eQTL sont les loci géné­tiques qui influencent l’expression d’un gène. Dans ce sens, une car­to­gra­phie eQTL pour tous les gènes d’un trans­crip­tome peut don­ner une vision glo­bale sur la régu­la­tion de la trans­crip­tion.

Ici, je vou­drais faire un petit apar­té — les car­to­gra­phies eQTL ne donnent que l’information de type « ce locus influence ou non l’expression de ce gène », rien de plus. Cette influence peut être directe (le locus en ques­tion encore par exemple pour un fac­teur de trans­crip­tion du gène étu­dié) comme indi­recte. Pour obte­nir ce type d’information, des ana­lyses plus pous­sées sont néces­saires !

Par la suite, je ne vais par­ler que des car­to­gra­phies eQTL, mais toutes les méthodes que je vais décrire peuvent aus­si être appli­quées à beau­coup d'autres types de car­to­gra­phies (comme les pQTL, mQTL, gQTL, etc).

Comment réaliser une cartographie QTL ?

Exemple d'une car­to­gra­phie gQTL (le trait quan­ti­ta­tif est la taille des lapins) avec un arbre de déci­sion. Image par l'auteur

Afin d’identifier cor­rec­te­ment les loci (et, par consé­quent les gènes) qui contri­buent à la varia­tion de l’expression génique, une méthode sta­tis­tique appro­priée est requise. Les méthodes tra­di­tion­nelles de car­to­gra­phie QTL sont des tests uni­va­riés qui testent l’association locus-trait un par un, igno­rant tous les autres loci du génome. Cette approche, bien que très simple à mettre en place, échoue­ra si les loci ont un effet com­bi­né sur un trait aus­si com­plexe que l’expression des gènes. Et dans beau­coup, beau­coup de cas, l’expression d’un gène est effec­ti­ve­ment influen­cée par de mul­tiples fac­teurs. Il fal­lait donc trou­ver des méthodes qui per­met­traient de prendre en compte le effets addi­tifs et condi­tion­nels des gènes sur les traits. Ain­si, en 2002, Bro­man et Speed ont défi­ni le pro­blème des QTL comme étant celui d’une sélec­tion d’une variable mul­ti­va­riée, où, idéa­le­ment, tous les loci et leurs com­bi­nai­sons sont sou­mis au dic­tat des don­nées et entrent et sortent du modèle selon ses volon­tés. Cette nou­velle défi­ni­tion per­met d’attaquer ce pro­blème en uti­li­sant des algo­rithmes d’apprentissage automatique.Voici une courte liste des algo­rithmes les plus uti­li­sés pour faire des car­to­gra­phies QTL :

Il s’avère que dans mon labo­ra­toire actuel, beau­coup de tests com­pa­ra­tifs ont été effec­tués pour com­pa­rer tous ces algo­rithmes, et le plus per­for­mant, effi­cace et donne des résul­tats plus signi­fi­ca­tifs du point de vue bio­lo­gique, est celui des forêts d’arbres aléa­toires. C’est donc sans aucun biais, ni influence (#iro­nie), que mon choix s’est por­té sur cet algo­rithme, dont je vais vous décrire le fonc­tion­ne­ment et l’application aux QTL un peu plus en pro­fon­deur.

 

QTLs dans la forêt

Les forêts d’arbres aléa­toires (que je vais appe­ler RF — pour Ran­dom Forest — par la suite, pour faire plus court) sont des col­lec­tions d’arbres de déci­sion. Logique, on a plein d’arbres, on a donc une forêt. Les sta­tis­ti­ciens ont aus­si de l’humour 🙂

Les arbres de déci­sion dans la forêt dif­fèrent les uns des autres de deux façons impor­tantes. Pre­miè­re­ment, chaque arbre est crée à par­tir d’un échan­tillon aléa­toire dif­fé­rent (réa­li­sé avec boots­trap, un échan­tillon­nage aléa­toire avec remise) des don­nées d’origine. Ain­si, cer­taines obser­va­tions seront lais­sées de côté, alors que d’autres seront répli­quées, peut-être même plu­sieurs fois, dans l’échantillon. Les obser­va­tions lais­sées en dehors forment une sorte d’ensemble de test et sont uti­li­sés pour cal­cu­ler une esti­ma­tion non-biai­sée de la clas­si­fi­ca­tion de l’erreur de la régres­sion pour toute la forêt. Cette étape consiste à esti­mer prin­ci­pa­le­ment le nombre de faux posi­tifs et de faux néga­tifs. Deuxiè­me­ment, chaque sépa­ra­tion de la popu­la­tion dans chaque arbre est choi­sie non pas parce que c’est la meilleure par­mi toutes les sépa­ra­tions pos­sibles, mais parce que c’est la meilleure par­mi un sous-ensemble de variables de pré­dic­tion choi­sies aléa­toi­re­ment. A cause de ces deux élé­ments de sto­chas­ti­ci­té — le boos­tra­ping et la sélec­tion de la sépa­ra­tion opti­male à par­tir d’un sous-ensemble aléa­toire de variables pré­dic­tives — chaque arbre de la forêt repré­sente une solu­tion légè­re­ment dif­fé­rente au même pro­blème. Ain­si, la com­bi­nai­son des pré­dic­tions de tous les arbres est plus fiable, et la déci­sion finale de la forêt sera donc la solu­tion pro­po­sée par la majo­ri­té des arbres.

Par­mi les avan­tages pra­tiques des RF, on peut comp­ter :

  • le peu de don­nées néces­saires en entrée (une matrice de géno­types et un vec­teur d’expression des gènes — pour les eQTL — suf­fit)
  • il est dif­fi­cile de sur-pré­dire avec les RF
  • les cor­ré­la­tions entre les variables pré­dic­tives sont gérées sans pro­blème et le mélange de variables pré­dic­tives caté­go­rielles et conti­nues ne pose pas de pro­blème (on peut à la fois ana­ly­ser les dif­fé­rents niveaux d’expression d’un gène et la simple expres­sion/­non-expres­sion d’un autre en même temps).

Mot de la fin (de l'article)

Dans cet article j'ai pré­sen­té une notion assez intui­tive, celle de l'influence du génome sur des traits phé­no­ty­piques. J'ai envie de sou­li­gner que qua­si­ment n'importe quoi peut être un trait, tant qu'on peut le quan­ti­fier et que l'on peut iden­ti­fier des sous-groupes au sein d'une popu­la­tion. Aus­si, même si les car­to­gra­phies QTL sont un domaine d'étude à part entière, ils peuvent aus­si être uti­li­sés comme des outils pour repé­rer des rela­tions entre les gènes, qui, par la suite, peuvent être uti­li­sées à d'autres fins. Et c'est ici que je vou­drais ras­su­rer ceux qui me connaissent comme une férue ama­trice du méta­bo­lisme et des réseaux méta­bo­liques — non, je ne me suis pas mise à la géné­tique sta­tis­tique, je ne fais que l'utiliser pour mieux tra­vailler sur ce que j'aime le plus — la pro­mis­cui­té enzy­ma­tique et les réseaux méta­bo­liques 🙂

Un peu de lecture :

Les forêts aléa­toires et les QTL : A ran­dom forest approach to cap­ture gene­tic effects in the pre­sence of popu­la­tion struc­ture. Ste­phan et al. 2014

Un très bon livre (en anglais) qui per­met d'aller beau­coup plus loin sur les car­to­gra­phies QTL et la géné­tique sta­tis­tique en géné­ral : Sta­tis­ti­cal Gene­tics of Quan­ti­ta­tive Traits : Lin­kage, Maps and QTL, par Ron­gling Wu,Changxing Ma,George Casel­la.

 

Un grand mer­ci pour mes relec­teurs : Del­phine L.Syl­vain P. et NiGo­PoL !

Vous avez aimé ? Dites-le nous !

Moyenne : 0 /​ 5. Nb de votes : 0

Pas encore de vote pour cet article.

Partagez cet article :



Pour continuer la lecture :


Commentaires

Une réponse à “Identification des relations entre la variabilité génétique et le phénotype : cartographie QTL”

  1. Super article, mer­ci pour cette intro­duc­tion.
    Est il pos­sible d'avoir un peu plus d'explications sur la figure 'caro­gra­phie QTL' (celle avec la grande famille de lapins!) ?
    Qu'est ce que le tableau repre­sente exac­te­ment ?
    Mer­ci !

Laisser un commentaire