Comparaison de structures : le TM-Score

Pour com­pa­rer des struc­tures 3D de pro­téines, nous avons vu le RMSD dans un pré­cé­dent article. Je vous pro­pose cette semaine de par­ler du TM-Score décrit par Zhang et Skol­nick en 2004.

Alignment of thioredoxins - Emw2012 (CC BY-SA 3.0)
Ali­gn­ment of thio­re­doxins — Emw2012 (CC BY-SA 3.0)

Les bases

Le TM-Score a été déve­lop­pé afin de cal­cu­ler la qua­li­té des struc­tures de pro­téines pré­dites lors de la com­pé­ti­tion CASP5. Le but est donc de com­pa­rer une pré­dic­tion avec un modèle de réfé­rence.

Le RMSD n'est pas suf­fi­sant pour ce genre de com­pa­rai­sons car il ne tient pas compte du nombre de rési­dus ali­gnés, il mesure sim­ple­ment la moyenne des car­rés des dis­tances. Du coup, un RMSD de 1.5 Å sur 50% de rési­dus ali­gnés est-il meilleur qu'un RMSD de 3 Å sur 85% des rési­dus ? Autre­ment dit, vaut-il mieux ali­gner plus de rési­dus mais moins bien, que moins de rési­dus mais mieux ? La réponse est évi­dem­ment : "ça dépend… de ce que je veux faire."

Si les pro­téines sont courtes, j'ai envie que ce soit bien ali­gné sur toute la lon­gueur. Si les pro­téines sont longues, je peux accep­ter un peu plus d'erreurs, voire qu'un bout de la pro­téine (genre une boucle) ne soit pas trop bien ali­gnée.

Le TM-Score pro­pose de tenir compte de la cou­ver­ture (% de rési­dus ali­gnés) direc­te­ment dans le score mais aus­si de nor­ma­li­ser les dis­tances afin de tenir compte de la lon­gueur des pro­téines.

L'équation

TM-Score
TM-Score

Dans cette équa­tion, rien de bien com­pli­qué. Le tar­get, c'est la struc­ture pré­dite, donc Ltar­get, c'est la lon­gueur de la pro­téine pré­dite. Lali­gned est le nombre de rési­dus ali­gnés. di est la dis­tance sépa­rant la paire de rési­dus ali­gnés i. Donc, si je cari­ca­ture un peu, on fait la somme de l'inverse des car­rés des dis­tances et on divise par le nombre de rési­dus dans la struc­ture pré­dite… Très simi­laire au RMSD, non ?

Oui… mais la dis­tance est nor­ma­li­sée par d0(Ltar­get).

d0(Ltarget)
d0(Ltar­get)

Et c'est cette nor­ma­li­sa­tion qui per­met de tenir compte de la lon­gueur des pro­téines. En gros, si la pro­téine est longue, ça monte, si elle est courte, ça des­cend. Ain­si, s'il y a des di plus grands dans une longue pro­téine, ils seront plus accep­tés que dans une pro­téine courte.

Le TM-Score pro­duit une éva­lua­tion com­prise entre 0 et 1 (1 étant l'identité par­faite). Un score supé­rieur à 0.5 cor­res­pond à des pro­téines ayant un replie­ment simi­laire (appar­te­nant à la même classe struc­tu­rale).

Conclusion

J'ai uti­li­sé le TM-Score à de nom­breuses occa­sions sans sou­ci par­ti­cu­lier. Il est effec­ti­ve­ment plus pré­cis quand on veut clas­ser des struc­tures par replie­ment. Lors de la com­pé­ti­tion CASP 10 (2012), le TM-Score ne fait pas par­ti des mesures rap­por­tées dans les résul­tats (ici par exemple). Mais l'équipe de Zhang pro­duit à chaque fois son éva­lua­tion basée sur le TM-Score. Vous pour­rez noter que le clas­se­ments des pré­dic­tions reste très proche de celui basé sur le GDT-TS, un autre score dont je vous par­le­rai la pro­chaine fois.

Références

Y. Zhang, J. Skol­nick, Sco­ring func­tion for auto­ma­ted assess­ment of pro­tein struc­ture tem­plate qua­li­ty, Pro­teins, 2004 57 : 702–710

J. Xu, Y. Zhang, How signi­fi­cant is a pro­tein struc­ture simi­la­ri­ty with TM-score=0.5 ? Bio­in­for­ma­tics, 2010 26, 889–895

Je remer­cie Hed­jour, waque­teu pour leur relec­ture atten­tive.



Pour continuer la lecture :


Commentaires

Laisser un commentaire