En 1973, Anfinsen montrait qu'une protéine se replie en une structure unique et stable. Même si des exceptions existent, cette règle s'applique à la plupart des petites protéines globulaires. La structure des protéines est non seulement stable mais aussi plus conservée que la séquence au cours de l'évolution. En effet, des protéines ayant des séquences très divergentes présentent des repliements similaires. Enfin, la structure d'une protéine conditionne souvent sa fonction. Ainsi, lorsqu'une nouvelle structure de protéine est découverte, une première tâche est de la comparer à celles qui sont déjà connues. Je vous propose donc de découvrir des méthodes et mesures permettant de comparer ces structures afin d'en détecter les similarités, aujourd'hui : le RMSD.
Les bases
RMSD signifie Root-Mean-Square Deviation, en français la "déviation de la racine de la moyenne des carrés" ce qui ne veut pas dire grand chose comme ça. En fait, le RMSD n'est pas une mesure spécifique de la bioinformatique, elle est aussi utilisée en météorologie, en économie, en psychologie, etc. Bref dans tous les domaines où l'on a besoin de comparer des ensembles de valeurs.
En effet, le RMSD consiste souvent à comparer des valeurs théoriques avec des valeurs observées pour voir à quel point le modèle théorique représente bien la réalité. Pour cela, chaque valeur Xi théorique est comparée à la valeur Yi observée. On va donc soustraire l'une par l'autre et mettre au carré (Xi — Yi)2, cela nous donne une idée de la distance qui les sépare. Ensuite, nous allons additionner toutes les distances et en faire la moyenne. Enfin, nous prenons la racine carrée de cette moyenne.
Le RMSD en bioinformatique
En bioinformatique, le RMSD est utilisé pour comparer des superpositions de structures de protéines. En effet, une fois deux structures alignées, les scientifiques ont rapidement eu besoin de savoir à quel point l'alignement était "bon." Or pour cela, une mesure simple est de calculer le RMSD en prenant comme valeurs les positions des atomes dans l'espace.
On peut ainsi calculer la distance spatiale entre deux atomes qui sont sensés être superposés. On va passer au carré, calculer la moyenne des distances, appliquer la racine carrée et obtenir une mesure de la qualité de la superposition.
Si le RMSD est utilisé pour évaluer la qualité d'un alignement structural, il peut aussi être au cœur d'un algorithme d'alignement qui va chercher à optimiser le RMSD. Une question se pose alors : le RMSD est-il un bon évaluateur de la qualité d'un alignement structural ?
Les avantages et inconvénients
Le RMSD est l'une des plus anciennes valeurs utilisées pour comparer des structures de protéines. Sa simplicité permet de bien comprendre comment elle fonctionne. Néanmoins, une première critique est celle de l'interprétation. Un RMSD très faible signifie que l'alignement est très bon, un très fort signifie que ce n'est pas bon du tout… mais entre les deux, où mettre la limite ? Comment faire la différence entre deux structures similaires, avec quelques petites zones non-similaires, et deux structures partageant un domaine structural commun mais complètement différentes sur le reste ?
Une autre critique importante est que le RMSD est dépendant de la longueur des protéines. Si on compare des structures de tailles similaires, tout va bien, sinon, le RMSD subi un biais.
Enfin, de nombreuses petites dissimilarités peuvent entraîner un RMSD fort alors que les protéines sont globalement similaires.
Conclusion
Malgré ces critiques, le RMSD est toujours très utilisé. Néanmoins, d'autres mesures et d'autres méthodes d'alignement de structure ont vu le jour ces dernières années. Nous en verrons d'autres au cours de prochains billets.
Merci à Nico M., NiGoPol, Ook4mi et Clem_ pour leur relecture attentive.
Laisser un commentaire