Les individus d’une même espèce, à moins qu’ils ne soient des clones identiques, sont tous légèrement différents les uns des autres. Cette différence s’exprime à tous les niveaux, de l’apparence (phénotype macroscopique), au génome (différents allèles pour le même gène), en passant par les phénotypes microscopiques (aussi appelés moléculaires — on pensera ici aux transcriptomes, (phospho)protéomes, ou encore metabolomes). Depuis les tout débuts de la génétique moderne, les généticiens du monde entier se sont efforcés de relier les traits observables aux gènes qui peuvent être à leur origine, dans l’espoir d’en apprendre suffisamment pour pouvoir améliorer les traits d’interêt et prévenir ceux à intérêt négatif. Certains de ces traits observables sont qualitatifs, comme, par exemple, la présence ou l’absence d’un désordre du développement. D’autres traits sont quantitatifs : la taille d’un individu, sa pression sanguine ou encore le nombre d’ARN messagers d’un gène donné.
Qu'est ce qu'une "cartographie QTL" ?
Nous allons donc parler aujourd'hui des traits quantitatifs et de l’influence que les gènes peuvent avoir sur eux. Depuis longtemps les généticiens utilisent une stratégie appelée cartographie des locus à traits quantitatifs (« quantitative trait locus » ‑QTL- mappings) afin de mettre en évidence les régions du génome qui contrôlent le trait étudié. Cette stratégie peut être décrite d’une façon très simple : une petite population d’individus d’une même espèce (pouvant aller des organismes unicellulaires comme la levure, aux organismes beaucoup plus complexes comme le rat et la souris) est crée à partir d’un faible nombre de parents et soigneusement génotypée. On cherche ensuite les correlations entre les variations du trait que l’on étudie et la variation allélique dans cette même population. Les loci qui corrèlent fortement avec le trait sont alors prédits comme étant responsables pour la variabilité de ce trait, le génome est en « lecture seule » (en d’autres mots, on peut être sûr que le trait ne peut pas causer la variation génétique, mais la variation génétique peut influencer le trait, établissant ainsi la relation de causalité).
Je ne vous apprendrai rien de nouveau en affirmant que lors des deux dernières décennies, la biologie moléculaire a subi une révolution majeure grâce à l’introduction de technologies de séquençage et de génotypage à (très) haut débit, de quantification de l’ensemble des protéines d’un organisme ou encore, de l’ensemble de ses metabolites. Ces technologies ont permis d'accéder à des milliers de nouveaux traits moléculaires, notamment la quantification de l’expression de tous les gènes d’un organisme (ARNm). Les approches génétiques traditionnelles, dont les cartographies QTL font partie, ont pu être appliquées à ces nouveaux traits : les niveaux d’expression de gènes, et on appelle ces cartographies « eQTLs » (« e » étant pour « expression ». On trouvera aussi, de la même façon des « pQTLs » — où les traits étudiés sont les concentrations de protéines, ou encore les « mQTLs » qui cherchent à identifier l'influence des loci sur les concentrations des métabolites). Ainsi, les eQTL sont les loci génétiques qui influencent l’expression d’un gène. Dans ce sens, une cartographie eQTL pour tous les gènes d’un transcriptome peut donner une vision globale sur la régulation de la transcription.
Ici, je voudrais faire un petit aparté — les cartographies eQTL ne donnent que l’information de type « ce locus influence ou non l’expression de ce gène », rien de plus. Cette influence peut être directe (le locus en question encore par exemple pour un facteur de transcription du gène étudié) comme indirecte. Pour obtenir ce type d’information, des analyses plus poussées sont nécessaires !
Par la suite, je ne vais parler que des cartographies eQTL, mais toutes les méthodes que je vais décrire peuvent aussi être appliquées à beaucoup d'autres types de cartographies (comme les pQTL, mQTL, gQTL, etc).
Comment réaliser une cartographie QTL ?
Afin d’identifier correctement les loci (et, par conséquent les gènes) qui contribuent à la variation de l’expression génique, une méthode statistique appropriée est requise. Les méthodes traditionnelles de cartographie QTL sont des tests univariés qui testent l’association locus-trait un par un, ignorant tous les autres loci du génome. Cette approche, bien que très simple à mettre en place, échouera si les loci ont un effet combiné sur un trait aussi complexe que l’expression des gènes. Et dans beaucoup, beaucoup de cas, l’expression d’un gène est effectivement influencée par de multiples facteurs. Il fallait donc trouver des méthodes qui permettraient de prendre en compte le effets additifs et conditionnels des gènes sur les traits. Ainsi, en 2002, Broman et Speed ont défini le problème des QTL comme étant celui d’une sélection d’une variable multivariée, où, idéalement, tous les loci et leurs combinaisons sont soumis au dictat des données et entrent et sortent du modèle selon ses volontés. Cette nouvelle définition permet d’attaquer ce problème en utilisant des algorithmes d’apprentissage automatique.Voici une courte liste des algorithmes les plus utilisés pour faire des cartographies QTL :
- Forêts d’arbres aléatoires (Random Trees Forests) — Breiman, 2001
- Régression partielle des moindres carrés (Sparse Partial Least Squares) — Chun and Keles, 2009
- Lasso — Tibshirani, 1996
- Réseaux élastiques (Elastic Net) — Zou and Hastie, 2005
- Régression de Haley-Knott — Haley and Knott, 1992
- Composite Interval Mapping — Zeng, 1994
Il s’avère que dans mon laboratoire actuel, beaucoup de tests comparatifs ont été effectués pour comparer tous ces algorithmes, et le plus performant, efficace et donne des résultats plus significatifs du point de vue biologique, est celui des forêts d’arbres aléatoires. C’est donc sans aucun biais, ni influence (#ironie), que mon choix s’est porté sur cet algorithme, dont je vais vous décrire le fonctionnement et l’application aux QTL un peu plus en profondeur.
QTLs dans la forêt
Les forêts d’arbres aléatoires (que je vais appeler RF — pour Random Forest — par la suite, pour faire plus court) sont des collections d’arbres de décision. Logique, on a plein d’arbres, on a donc une forêt. Les statisticiens ont aussi de l’humour 🙂
Les arbres de décision dans la forêt diffèrent les uns des autres de deux façons importantes. Premièrement, chaque arbre est crée à partir d’un échantillon aléatoire différent (réalisé avec bootstrap, un échantillonnage aléatoire avec remise) des données d’origine. Ainsi, certaines observations seront laissées de côté, alors que d’autres seront répliquées, peut-être même plusieurs fois, dans l’échantillon. Les observations laissées en dehors forment une sorte d’ensemble de test et sont utilisés pour calculer une estimation non-biaisée de la classification de l’erreur de la régression pour toute la forêt. Cette étape consiste à estimer principalement le nombre de faux positifs et de faux négatifs. Deuxièmement, chaque séparation de la population dans chaque arbre est choisie non pas parce que c’est la meilleure parmi toutes les séparations possibles, mais parce que c’est la meilleure parmi un sous-ensemble de variables de prédiction choisies aléatoirement. A cause de ces deux éléments de stochasticité — le boostraping et la sélection de la séparation optimale à partir d’un sous-ensemble aléatoire de variables prédictives — chaque arbre de la forêt représente une solution légèrement différente au même problème. Ainsi, la combinaison des prédictions de tous les arbres est plus fiable, et la décision finale de la forêt sera donc la solution proposée par la majorité des arbres.
Parmi les avantages pratiques des RF, on peut compter :
- le peu de données nécessaires en entrée (une matrice de génotypes et un vecteur d’expression des gènes — pour les eQTL — suffit)
- il est difficile de sur-prédire avec les RF
- les corrélations entre les variables prédictives sont gérées sans problème et le mélange de variables prédictives catégorielles et continues ne pose pas de problème (on peut à la fois analyser les différents niveaux d’expression d’un gène et la simple expression/non-expression d’un autre en même temps).
Mot de la fin (de l'article)
Dans cet article j'ai présenté une notion assez intuitive, celle de l'influence du génome sur des traits phénotypiques. J'ai envie de souligner que quasiment n'importe quoi peut être un trait, tant qu'on peut le quantifier et que l'on peut identifier des sous-groupes au sein d'une population. Aussi, même si les cartographies QTL sont un domaine d'étude à part entière, ils peuvent aussi être utilisés comme des outils pour repérer des relations entre les gènes, qui, par la suite, peuvent être utilisées à d'autres fins. Et c'est ici que je voudrais rassurer ceux qui me connaissent comme une férue amatrice du métabolisme et des réseaux métaboliques — non, je ne me suis pas mise à la génétique statistique, je ne fais que l'utiliser pour mieux travailler sur ce que j'aime le plus — la promiscuité enzymatique et les réseaux métaboliques 🙂
Un peu de lecture :
Les forêts aléatoires et les QTL : A random forest approach to capture genetic effects in the presence of population structure. Stephan et al. 2014
Un très bon livre (en anglais) qui permet d'aller beaucoup plus loin sur les cartographies QTL et la génétique statistique en général : Statistical Genetics of Quantitative Traits : Linkage, Maps and QTL, par Rongling Wu,Changxing Ma,George Casella.
Un grand merci pour mes relecteurs : Delphine L., Sylvain P. et NiGoPoL !
Laisser un commentaire