Pour comparer des structures 3D de protéines, nous avons vu le RMSD dans un précédent article. Je vous propose cette semaine de parler du TM-Score décrit par Zhang et Skolnick en 2004.
Les bases
Le TM-Score a été développé afin de calculer la qualité des structures de protéines prédites lors de la compétition CASP5. Le but est donc de comparer une prédiction avec un modèle de référence.
Le RMSD n'est pas suffisant pour ce genre de comparaisons car il ne tient pas compte du nombre de résidus alignés, il mesure simplement la moyenne des carrés des distances. Du coup, un RMSD de 1.5 Å sur 50% de résidus alignés est-il meilleur qu'un RMSD de 3 Å sur 85% des résidus ? Autrement dit, vaut-il mieux aligner plus de résidus mais moins bien, que moins de résidus mais mieux ? La réponse est évidemment : "ça dépend… de ce que je veux faire."
Si les protéines sont courtes, j'ai envie que ce soit bien aligné sur toute la longueur. Si les protéines sont longues, je peux accepter un peu plus d'erreurs, voire qu'un bout de la protéine (genre une boucle) ne soit pas trop bien alignée.
Le TM-Score propose de tenir compte de la couverture (% de résidus alignés) directement dans le score mais aussi de normaliser les distances afin de tenir compte de la longueur des protéines.
L'équation
Dans cette équation, rien de bien compliqué. Le target, c'est la structure prédite, donc Ltarget, c'est la longueur de la protéine prédite. Laligned est le nombre de résidus alignés. di est la distance séparant la paire de résidus alignés i. Donc, si je caricature un peu, on fait la somme de l'inverse des carrés des distances et on divise par le nombre de résidus dans la structure prédite… Très similaire au RMSD, non ?
Oui… mais la distance est normalisée par d0(Ltarget).
Et c'est cette normalisation qui permet de tenir compte de la longueur des protéines. En gros, si la protéine est longue, ça monte, si elle est courte, ça descend. Ainsi, s'il y a des di plus grands dans une longue protéine, ils seront plus acceptés que dans une protéine courte.
Le TM-Score produit une évaluation comprise entre 0 et 1 (1 étant l'identité parfaite). Un score supérieur à 0.5 correspond à des protéines ayant un repliement similaire (appartenant à la même classe structurale).
Conclusion
J'ai utilisé le TM-Score à de nombreuses occasions sans souci particulier. Il est effectivement plus précis quand on veut classer des structures par repliement. Lors de la compétition CASP 10 (2012), le TM-Score ne fait pas parti des mesures rapportées dans les résultats (ici par exemple). Mais l'équipe de Zhang produit à chaque fois son évaluation basée sur le TM-Score. Vous pourrez noter que le classements des prédictions reste très proche de celui basé sur le GDT-TS, un autre score dont je vous parlerai la prochaine fois.
Références
Y. Zhang, J. Skolnick, Scoring function for automated assessment of protein structure template quality, Proteins, 2004 57 : 702–710
J. Xu, Y. Zhang, How significant is a protein structure similarity with TM-score=0.5 ? Bioinformatics, 2010 26, 889–895
Je remercie Hedjour, waqueteu pour leur relecture attentive.
Laisser un commentaire