Les matrices de substitution

Dans les pre­miers billets de ce blog, nous avons pré­sen­té les ali­gne­ments mul­tiples de séquences d'une part du point de vue des logi­ciels et ensuite du cal­cul de la conser­va­tion. Je vous pro­pose aujourd'hui de reve­nir sur un point impor­tant : les matrices de sub­sti­tu­tion.

Empilement de douelles
by Roumpf (CC-by-SA 3.0)

Com­men­çons par une défi­ni­tion très simple : une matrice de sub­sti­tu­tion per­met, pour chaque acide ami­né, de connaître sa capa­ci­té à être sub­sti­tué par chaque autre acide ami­né, y com­pris lui-même. Cette défi­ni­tion ne nous dit pas com­ment est déter­mi­née la "capa­ci­té à être sub­sti­tué" d'un acide ami­né… c'est d'ailleurs là toute la ques­tion qui anime ce domaine de recherche depuis de nom­breuses années.

Mais reve­nons un ins­tant aux sources. La plu­part du temps, nous vou­lons ali­gner deux séquences (d'ADN ou de pro­téine) afin de savoir si elles sont homo­logues, c'est-à-dire si elles ont un ancêtre com­mun. Nous vou­lons donc mesu­rer la dis­tance entre les deux séquences au sens de l'évolution. Évi­dem­ment, comme nous n'avons pas pu mesu­rer les taux de muta­tions de chaque acide ami­né dans chaque espèce, pour chaque famille de pro­téine au cours des der­niers mil­lé­naires, nous allons devoir faire avec ce que nous avons sous la main et cher­cher une bonne approxi­ma­tion.

Une pre­mière approxi­ma­tion pos­sible est de cal­cu­ler une dis­tance d'édition basique avec une mesure d'identité. Dans ce cas, nous favo­ri­sons la sub­sti­tu­tion d'un acide ami­né par lui-même. Nous uti­li­sons donc une matrice d'identité dans laquelle la sub­sti­tu­tion d'un acide ami­né par lui-même est à 1 et toutes les autres sub­sti­tu­tions sont à 0. Appli­quée aux bases nucléiques, cela donne la matrice 4x4 sui­vante :

Matrice d'identité
Matrice d'identité

Néan­moins, nous savons que cer­taines sub­sti­tu­tions se pro­duisent plus sou­vent que d'autres. Dans le cas de l'ADN, les sub­sti­tu­tions A‑G et T‑C (tran­si­tion) appa­raissent plus sou­vent que A‑C, A‑T, G‑C et G‑T (trans­ver­sions). Pour repré­sen­ter cette infor­ma­tion, nous pou­vons uti­li­ser une matrice de tran­si­tion-trans­ver­sion comme la sui­vante :

Matrice de transition-transversion
Matrice de tran­si­tion-trans­ver­sion

Vous pou­vez voir que les iden­ti­tés res­tent for­te­ment favo­ri­sées mais que les tran­si­tions ne sont plus au même score que les trans­ver­sions. Ces scores sont ici arbi­traires et on pour­rait défi­nir d'autres valeurs avec des dif­fé­rences plus impor­tantes. Remar­quez éga­le­ment que ces matrices sont symé­triques mais qu'elles pour­raient ne pas l'être. Nous pour­rions, par exemple, favo­ri­ser la sub­sti­tu­tion A‑G par rap­port à G‑A. Mais cela est un autre pro­blème, nous allons nous conten­ter ici des matrices symé­triques.

Pour les acides ami­nés des pro­téines, les matrices de sub­sti­tu­tion sont très nom­breuses, 94 ont d'ailleurs été recen­sées par le site AAin­dex que je vous conseille de consul­ter si vous vous inté­res­sez au sujet. Je vais vous par­ler des deux types les plus connus, les PAM et les BLOSUM. Les deux types de matrice uti­lisent des scores basés sur la com­pa­rai­son entre la fré­quence obser­vée des sub­sti­tu­tions et leur fré­quence atten­due. La dif­fé­rence entre les deux types de matrices vient du jeu de don­nées sur lequel les fré­quences sont obser­vées.

Dans le cas des matrices PAM (Point Accep­ted Muta­tion), les fré­quences de sub­sti­tu­tion sont obser­vées dans des ali­gne­ments de séquences proches phy­lo­gé­né­ti­que­ment. Par exemple, PAM20 est une matrice dont les fré­quences ont été cal­cu­lées sur des ali­gne­ments de séquences qui pos­sèdent 20% de muta­tions. La matrice PAM1 est la base de toutes les autres matrices PAM. PAM1 estime les taux de sub­sti­tu­tion des acides ami­nés avec un taux de muta­tion atten­du de 1%. En sup­po­sant que le modèle d'évolution ne change pas et que des muta­tions répé­tées suivent le même sché­ma que celles de la matrice PAM1 (modèle de Mar­kov), toutes les matrices PAM peuvent être déri­vées à par­tir de PAM1. Les matrices PAM fonc­tionnent bien sur ce pour­quoi elles ont été conçues : des séquences phy­lo­gé­né­ti­que­ment proches. Pour des séquences qui ont beau­coup diver­gé, qui sont donc plus éloi­gnées au sens de l'évolution, les matrices PAM fonc­tionnent moins bien.

Dans les matrices de type BLOSUM (BLOcks of Ami­no Acid SUbsti­tu­tion Matrix), les fré­quences sont obser­vées sur des ali­gne­ments de séquences très diver­gentes. Néan­moins, dans un tel ali­gne­ment, les séquences sont moins bien ali­gnées et les "trous" (gaps)  sont plus fré­quents. Afin de ne pas intro­duire de biais dû à ces trous, les matrices BLOSUM uti­lisent des blocs bien ali­gnés et sur­tout sans trous pro­ve­nant de la base BLOCKS. Dans ces blocs bien ali­gnés, cer­taines séquences res­tent très proches. Afin de réduire le biais venant de ces séquences redon­dantes, elles sont regrou­pées (clus­te­ri­sées) si leur iden­ti­té dépasse un cer­tain seuil. Dans une matrice BLOSUM62, les séquences pré­sen­tant plus de 62% d'identité ont été regrou­pées ensemble.

La matrice BLOSUM62 est d'ailleurs l'une des plus uti­li­sées (voire la plus uti­li­sée) et cela mal­gré les erreurs qu'elle contient. En effet, Styc­zyns­ki et al. ont mon­tré qu'il y avait eu des erreurs dans le cal­cul de la matrice BLOSUM62 ori­gi­nale mais que ces erreurs amé­lio­raient les ali­gne­ments.

Voi­là, je m'arrête ici pour cette fois. Si vous cher­chez des infor­ma­tions sur les matrices de sub­sti­tu­tion, vous trou­ve­rez un grand nombre de sites web qui en parle ain­si qu'une biblio­gra­phie très four­nie dans les revues scien­ti­fiques.

Références

Day­hoff, M. O.; Schwartz, R. M.; Orcutt, B. C. (1978). "A model of evo­lu­tio­na­ry change in pro­teins". Atlas of Pro­tein Sequence and Struc­ture 5 (3): 345–352.

Heni­koff, S.; Heni­koff, J.G. (1992). "Ami­no acid sub­sti­tu­tion matrices from pro­tein blocks". Pro­cee­dings of the Natio­nal Aca­de­my of Sciences of the Uni­ted States of Ame­ri­ca 89 (22): 10915–9.

Styc­zyns­ki, M.P.; Jen­sen, K.L.; Rigout­sos, I.; Ste­pha­no­pou­los, G. (2008). "BLOSUM62 mis­cal­cu­la­tions improve search per­for­mance". Nat. Bio­tech. 26 (3): 274–275.



Pour continuer la lecture :


Commentaires

4 réponses à “Les matrices de substitution”

  1. Avatar de Guy Perrière
    Guy Perrière

    Juste un mot sur un sujet que je connais bien (je l'enseigne depuis une quin­zaine d'années) : la matrice PAM20 n'est PAS construite à par­tir d'alignements de séquences pos­sé­dant 20% de muta­tions. A la base, il n'y a qu'une matrice PAM1 (pour 1% de sub­sti­tu­tions), qui est la matrice de tran­si­tion du pro­ces­sus mar­ko­vien modé­li­sant l'évolution des séquences. A par­tir de PAM1, on en déduit PAM20 par expo­nen­tia­tion (c'est-à-dire que PAM20 = PAM1^20). Cette matrice de tran­si­tion est ensuite uti­li­sée pour construire la matrice de sub­sti­tu­tion par une opé­ra­tion mathé­ma­tique que vous pour­rez trou­vez dans le papier ori­gi­nal de Day­hoff.

  2. Mer­ci pour cette pré­ci­sion.
    J'ai effec­ti­ve­ment fait un rac­cour­ci un peu sim­pliste 🙂

    Je vais voir pour cor­ri­ger cela de ce pas.

  3. Avatar de xbiologie

    bon­soir
    je vou­drais deman­der par rap­port au gap de la matrice tran­si­tion trans­ver­sion c'est 0

  4. Avatar de cocotte

    Bon­jour,
    Sur quels modèles d'évolutions les matrices de sub­sti­tu­tions peuvent-elles être basées s'il vous plaît ?

Laisser un commentaire