Dans les premiers billets de ce blog, nous avons présenté les alignements multiples de séquences d'une part du point de vue des logiciels et ensuite du calcul de la conservation. Je vous propose aujourd'hui de revenir sur un point important : les matrices de substitution.
Commençons par une définition très simple : une matrice de substitution permet, pour chaque acide aminé, de connaître sa capacité à être substitué par chaque autre acide aminé, y compris lui-même. Cette définition ne nous dit pas comment est déterminée la "capacité à être substitué" d'un acide aminé… c'est d'ailleurs là toute la question qui anime ce domaine de recherche depuis de nombreuses années.
Mais revenons un instant aux sources. La plupart du temps, nous voulons aligner deux séquences (d'ADN ou de protéine) afin de savoir si elles sont homologues, c'est-à-dire si elles ont un ancêtre commun. Nous voulons donc mesurer la distance entre les deux séquences au sens de l'évolution. Évidemment, comme nous n'avons pas pu mesurer les taux de mutations de chaque acide aminé dans chaque espèce, pour chaque famille de protéine au cours des derniers millénaires, nous allons devoir faire avec ce que nous avons sous la main et chercher une bonne approximation.
Une première approximation possible est de calculer une distance d'édition basique avec une mesure d'identité. Dans ce cas, nous favorisons la substitution d'un acide aminé par lui-même. Nous utilisons donc une matrice d'identité dans laquelle la substitution d'un acide aminé par lui-même est à 1 et toutes les autres substitutions sont à 0. Appliquée aux bases nucléiques, cela donne la matrice 4x4 suivante :
Néanmoins, nous savons que certaines substitutions se produisent plus souvent que d'autres. Dans le cas de l'ADN, les substitutions A‑G et T‑C (transition) apparaissent plus souvent que A‑C, A‑T, G‑C et G‑T (transversions). Pour représenter cette information, nous pouvons utiliser une matrice de transition-transversion comme la suivante :
Vous pouvez voir que les identités restent fortement favorisées mais que les transitions ne sont plus au même score que les transversions. Ces scores sont ici arbitraires et on pourrait définir d'autres valeurs avec des différences plus importantes. Remarquez également que ces matrices sont symétriques mais qu'elles pourraient ne pas l'être. Nous pourrions, par exemple, favoriser la substitution A‑G par rapport à G‑A. Mais cela est un autre problème, nous allons nous contenter ici des matrices symétriques.
Pour les acides aminés des protéines, les matrices de substitution sont très nombreuses, 94 ont d'ailleurs été recensées par le site AAindex que je vous conseille de consulter si vous vous intéressez au sujet. Je vais vous parler des deux types les plus connus, les PAM et les BLOSUM. Les deux types de matrice utilisent des scores basés sur la comparaison entre la fréquence observée des substitutions et leur fréquence attendue. La différence entre les deux types de matrices vient du jeu de données sur lequel les fréquences sont observées.
Dans le cas des matrices PAM (Point Accepted Mutation), les fréquences de substitution sont observées dans des alignements de séquences proches phylogénétiquement. Par exemple, PAM20 est une matrice dont les fréquences ont été calculées sur des alignements de séquences qui possèdent 20% de mutations. La matrice PAM1 est la base de toutes les autres matrices PAM. PAM1 estime les taux de substitution des acides aminés avec un taux de mutation attendu de 1%. En supposant que le modèle d'évolution ne change pas et que des mutations répétées suivent le même schéma que celles de la matrice PAM1 (modèle de Markov), toutes les matrices PAM peuvent être dérivées à partir de PAM1. Les matrices PAM fonctionnent bien sur ce pourquoi elles ont été conçues : des séquences phylogénétiquement proches. Pour des séquences qui ont beaucoup divergé, qui sont donc plus éloignées au sens de l'évolution, les matrices PAM fonctionnent moins bien.
Dans les matrices de type BLOSUM (BLOcks of Amino Acid SUbstitution Matrix), les fréquences sont observées sur des alignements de séquences très divergentes. Néanmoins, dans un tel alignement, les séquences sont moins bien alignées et les "trous" (gaps) sont plus fréquents. Afin de ne pas introduire de biais dû à ces trous, les matrices BLOSUM utilisent des blocs bien alignés et surtout sans trous provenant de la base BLOCKS. Dans ces blocs bien alignés, certaines séquences restent très proches. Afin de réduire le biais venant de ces séquences redondantes, elles sont regroupées (clusterisées) si leur identité dépasse un certain seuil. Dans une matrice BLOSUM62, les séquences présentant plus de 62% d'identité ont été regroupées ensemble.
La matrice BLOSUM62 est d'ailleurs l'une des plus utilisées (voire la plus utilisée) et cela malgré les erreurs qu'elle contient. En effet, Styczynski et al. ont montré qu'il y avait eu des erreurs dans le calcul de la matrice BLOSUM62 originale mais que ces erreurs amélioraient les alignements.
Voilà, je m'arrête ici pour cette fois. Si vous cherchez des informations sur les matrices de substitution, vous trouverez un grand nombre de sites web qui en parle ainsi qu'une bibliographie très fournie dans les revues scientifiques.
Références
Dayhoff, M. O.; Schwartz, R. M.; Orcutt, B. C. (1978). "A model of evolutionary change in proteins". Atlas of Protein Sequence and Structure 5 (3): 345–352.
Henikoff, S.; Henikoff, J.G. (1992). "Amino acid substitution matrices from protein blocks". Proceedings of the National Academy of Sciences of the United States of America 89 (22): 10915–9.
Styczynski, M.P.; Jensen, K.L.; Rigoutsos, I.; Stephanopoulos, G. (2008). "BLOSUM62 miscalculations improve search performance". Nat. Biotech. 26 (3): 274–275.
Laisser un commentaire