Comparaison de structures : le TM-Score

5 novembre 2014

-

par

Pour comparer des structures 3D de protéines, nous avons vu le RMSD dans un précédent article. Je vous propose cette semaine de parler du TM-Score décrit par Zhang et Skolnick en 2004.

Alignment of thioredoxins - Emw2012 (CC BY-SA 3.0)

Les bases

Le TM-Score a été développé afin de calculer la qualité des structures de protéines prédites lors de la compétition CASP5. Le but est donc de comparer une prédiction avec un modèle de référence.

Le RMSD n'est pas suffisant pour ce genre de comparaisons car il ne tient pas compte du nombre de résidus alignés, il mesure simplement la moyenne des carrés des distances. Du coup, un RMSD de 1.5 Å sur 50% de résidus alignés est-il meilleur qu'un RMSD de 3 Å sur 85% des résidus ? Autrement dit, vaut-il mieux aligner plus de résidus mais moins bien, que moins de résidus mais mieux ? La réponse est évidemment : "ça dépend… de ce que je veux faire."

Si les protéines sont courtes, j'ai envie que ce soit bien aligné sur toute la longueur. Si les protéines sont longues, je peux accepter un peu plus d'erreurs, voire qu'un bout de la protéine (genre une boucle) ne soit pas trop bien alignée.

Le TM-Score propose de tenir compte de la couverture (% de résidus alignés) directement dans le score mais aussi de normaliser les distances afin de tenir compte de la longueur des protéines.

L'équation

Dans cette équation, rien de bien compliqué. Le target, c'est la structure prédite, donc L_target, c'est la longueur de la protéine prédite. L_aligned est le nombre de résidus alignés. d_i est la distance séparant la paire de résidus alignés i. Donc, si je caricature un peu, on fait la somme de l'inverse des carrés des distances et on divise par le nombre de résidus dans la structure prédite… Très similaire au RMSD, non ?

Oui… mais la distance est normalisée par d₀(L_target).

Et c'est cette normalisation qui permet de tenir compte de la longueur des protéines. En gros, si la protéine est longue, ça monte, si elle est courte, ça descend. Ainsi, s'il y a des d_i plus grands dans une longue protéine, ils seront plus acceptés que dans une protéine courte.

Le TM-Score produit une évaluation comprise entre 0 et 1 (1 étant l'identité parfaite). Un score supérieur à 0.5 correspond à des protéines ayant un repliement similaire (appartenant à la même classe structurale).

Conclusion

J'ai utilisé le TM-Score à de nombreuses occasions sans souci particulier. Il est effectivement plus précis quand on veut classer des structures par repliement. Lors de la compétition CASP 10 (2012), le TM-Score ne fait pas parti des mesures rapportées dans les résultats (ici par exemple). Mais l'équipe de Zhang produit à chaque fois son évaluation basée sur le TM-Score. Vous pourrez noter que le classements des prédictions reste très proche de celui basé sur le GDT-TS, un autre score dont je vous parlerai la prochaine fois.

Références

Y. Zhang, J. Skolnick, Scoring function for automated assessment of protein structure template quality, Proteins, 2004 57 : 702-710

J. Xu, Y. Zhang, How significant is a protein structure similarity with TM-score=0.5 ? Bioinformatics, 2010 26, 889-895

Je remercie Hedjour, waqueteu pour leur relecture attentive.

Partagez cet article

Guillaume Collet

Je suis actuellement en post-doc dans l'équipe DYLISS de L'IRISA à Rennes. Je travaille sur la reconstruction automatique de réseaux métaboliques. Plus particulièrement, je m'intéresse aux aspects fouille de connaissance, combinatoire, base de données en graphe. Mais dans un passé pas si lointain, je me suis aussi intéressé aux séquences de protéines, à leur alignement et à la prédiction de leur structures.

Pour continuer la lecture :

Commentaires

Laisser un commentaireAnnuler la réponse.

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.