Découverte :
Alignements multiples : Calculer la conservation

Après le premier billet de Yoann introduisant les logiciels principaux permettant de produire des alignements multiples, je suis très heureux de continuer cette série d'articles en vous parlant du calcul de la conservation. Entendons-nous bien, je ne prétends pas vous donner la formule ultime permettant de calculer à coup sûr un score de conservation. De toutes façons, cette formule n'existe sans doute pas.

Je vous propose plutôt de revenir sur la notion de conservation, puis de faire un tour d'horizon des différentes approches utilisées pour la mesurer. Ce billet étant quelque peu technique par endroit, il s'adresse plutôt à des personnes ayant déjà eu à produire des alignements multiples et ayant des notions sur les séquences et leur évolution.

birds_on_far_banks_power_line

Andy Beecroft (CC-BY-SA-2.0)

La conservation

Lorsque nous calculons la conservation dans un alignement multiple, nous partons du principe que les séquences sont homologues (elles ont un ancêtre commun) et parfaitement alignées. Pourquoi faire ces deux suppositions sachant que, dans la plupart des cas, la première est invérifiable et la seconde est fausse ?

Pour répondre à cette question, il faut revenir à la raison qui nous pousse à aligner des séquences : l'évolution.

Au cours du temps, des mutations apparaissent dans les séquences : des substitutions, des insertions et des délétions. Ainsi, des séquences ayant un ancêtre commun peuvent diverger. Le but d'un alignement multiple de séquences est de retrouver, sinon le "chemin", au moins un historique, même approximatif, des mutations qui se sont produites et qui ont mené ces séquences à diverger. C'est pourquoi nous supposons que nos séquences sont homologues, même si, en l'absence de l'ancêtre commun, nous ne pouvons que supposer cette relation d'homologie.

Si les mutations étaient toutes conservées au cours du temps, les séquences divergeraient constamment et il serait impossible de retrouver leur lien de parenté. Heureusement, l'évolution est un processus aléatoire fortement contraint et si certaines parties des séquences divergent, d'autres restent conservées (Voir The logic of Chance: The Nature and Origin of Biological Evolution, Eugene V. Koonin).

Alignement

Exemple d'alignement multiple. Guillaume Collet (CC-by-SA 2.0)

Aligner des séquences homologues revient donc à maximiser la conservation entre des séquences. Vous remarquerez que cette définition entraîne l'apparition de trous ou gaps en anglais (représentés par un "-" dans l'image ci-dessus) puisque les insertions et délétions entraînent des décalages. Je ne reviens pas ici sur les algorithmes d'alignement multiple et sur les fonctions de scores associées. Cela fera sans doute l'objet d'un futur billet. Nous considérons simplement que l'alignement des séquences est le meilleur possible, c'est-à-dire qu'il aligne au mieux les positions conservées.

Nous nous intéressons ici au calcul de la conservation dans un alignement multiple déjà construit et, par voie de conséquence, à sa variabilité. En effet, je vous disais précédemment que l'évolution est un système aléatoire mais contraint. Ainsi, si nous retrouvons des positions (ou colonnes) conservées dont nous connaissons l'importance fonctionnelle ou structurale, alors, nous pouvons supposer que cette conservation est due à ces contraintes fonctionnelles ou structurales. Retrouver de telles positions conservées revient donc à retrouver les positions ayant une importance fonctionnelle ou structurale. De même, certaines positions peuvent être soumises à une forte variabilité comme dans les toxines à "trois doigts" que l'on retrouve dans les venins de serpents. Les extrémités des "doigts" de ces protéines sont très variables et leur permettent d'être actives sur une grande quantité de cibles.

La conservation ou la variabilité d'une position dans un alignement multiple est donc une information cruciale dans l'étude d'une famille de séquences, de ses caractéristiques et de son évolution. Cette information est particulièrement utile en reconstruction phylogénétique, pour la prédiction de fonction ou de structure et également dans le processus d'annotation des séquences.

Mesurer la conservation

Pour écrire ce billet, je suis parti de deux articles : "Scoring Residue Conservation" de William S.J. Valdar (2002) et "A comparative study of conservation and variation scores" de Johansson et Toh (2010). Ces deux articles essaient de faire le bilan des scores utilisés pour calculer la conservation, le premier en discutant des propriétés mesurées par les différents scores, le deuxième en comparant les scores sur un jeu de test.

J'ai été particulièrement intéressé par la démarche de W. Valdar qui essaie de définir un score "idéal". Tout d'abord, ce score "idéal" devrait prendre en entrée une colonne, ou un ensemble de colonnes, et être continu et borné. Il devrait également prendre en compte la fréquence des acides aminés, leur nature chimique, les gaps et la redondance entre les séquences. Enfin, ce score devrait être assez simple à comprendre afin que chacun en saisisse les caractéristiques et surtout les limites.

Je ne vous décrirai pas ici en détail le contenu de ces deux revues mais je survolerai plutôt les différentes propriétés mesurées afin que vous vous rendiez compte de la diversité du domaine et que vous puissiez choisir ce qui correspond à vos besoins.

Prendre en compte la fréquence des acides aminés

L'une des premières mesures de conservation provient d'un article de Wu et Kabat en 1970. Leur mesure consiste à diviser le nombre de types d'acides aminés différents dans une colonne par la fréquence de l'acide aminé le plus fréquent dans la colonne. C'est une mesure simple à appréhender et à calculer qui, de ce fait, fut assez largement utilisée. Néanmoins, cette mesure fut améliorée par la prise en compte de la "fréquence de fond" des acides aminés, c'est-à-dire la fréquence d'apparition des acides aminés en général. Cela permet de mesurer à quel point la distribution des acides aminés d'une colonne diffère de la distribution des acides aminés en général.

Une autre manière de prendre en compte la fréquence des acides aminés dans une colonne est d'utiliser la notion d'entropie. Pour faire simple et citer un ami : "l'entropie, en gros, ça mesure le bordel". Et ce n'est pas faux ! L'entropie de Shannon est une notion venant de la théorie de l'information qui mesure la quantité d'information contenue dans un signal. Certes, mais en thermodynamique, l'inertie est une mesure du désordre et ces deux notions sont très liées.

Prendre en compte la nature des acides aminés

Il me semble intéressant de prendre en compte la nature des acides aminés. En effet, une colonne constituée uniquement de résidus aromatiques, par exemple, semble plus conservée qu'une colonne ayant des résidus variés et de natures opposées. Ainsi, Taylor proposa en 1986, un score basé sur le diagramme de Venn des acides aminés.

Diagramme de Venn des acides aminés (image dans le domaine public)

Diagramme de Venn des acides aminés (image dans le domaine public)

Une autre façon de prendre en compte les caractéristiques stéréochimiques communes est de réduire l'alphabet des acides aminés. Ainsi, plusieurs résidus peuvent être représentés par un seul symbole, comme dans les scores proposés par Mirny et Schakhnovich ou par Smith et Smith.

Prendre en compte la redondance

Dans un alignement multiple, les séquences sont supposées homologues et peuvent donc être très similaires les unes aux autres. Ainsi, si une séquence diffère un peu plus des autres, cette différence, bien qu'intéressante du point de vue de l'évolution, va être écrasée par la redondance des autres séquences. Prendre en compte la redondance entre séquences est important afin de pondérer les variations observées dans l'alignement multiple. C'est pourquoi nous utilisons le terme de poids pour ce type de score.

Prendre en compte le poids d'une séquence revient donc à la comparer aux autres et à voir à quel point elle leurs ressemble. Le poids peut donc être calculé à l'aide d'un score d'identité ou de similarité de séquences ou même comme un score d'entropie par rapport aux autres séquences.

Néanmoins, prendre en compte le poids de chaque séquence ne dépend pas seulement de la façon dont on calcule ce poids mais également de la façon dont on l'intègre au score de conservation afin que le score global reste cohérent.

Utiliser des matrices de substitution

Les matrices de substitutions sont sans doute les outils que nous rencontrons le plus rapidement lorsque nous nous intéressons aux alignements multiples. En effet, lors de la construction de l'alignement, elles permettent de mesurer à quel point un acide aminé peut être aligné à -- substitué par -- un autre. Ainsi, leur utilisation pour mesurer la conservation une fois l'alignement produit semble intéressante, mais W. Valdar nous met en garde contre ce raccourci : mesurer le remplacement d'un acide aminé par un autre et mesurer la conservation dans une colonne ne sont pas tout à fait la même chose.

Néanmoins, les matrices de substitutions, une fois normalisées, ont été utilisées pour mesurer la conservation comme dans le score de Valdar et Thornton. Une matrice BLOSUM normalisée a été utilisée par Sander and Schneider avec le célèbre score dit sum-of-pairs, où l'on fait la somme du score de chaque paire d'acides aminés. Les matrices de substitution permettent ainsi d'utiliser l'information dérivée de l'étude statistique des séquences pour calculer la conservation.

Prendre en compte les gaps

Les gaps proviennent des insertions et délétions d'acides aminés et sont très importants lors de la construction des alignements multiples. De nombreux articles traitent d'ailleurs de ce problème (voir Zachariah et al. ou Goonesekere et al.). Néanmoins, lorsqu'il s'agit de calculer la conservation, ils sont assez peu présents.

Dans les scores à base d'entropie de Shannon, les gaps sont traités comme un symbole à part entière. Dans les scores utilisant la nature des acides aminés, ils sont simplement ignorés. Dans les scores utilisant des matrices de substitution, ils peuvent être intégrés dans la matrice, mais cela dépend. Bref, ce sujet ne semble pas central.

Et pourtant, la question est importante : une colonne contenant beaucoup de gaps, est-ce une colonne avec une forte variabilité ou une colonne sans information ? Pour y avoir réfléchi longtemps, il est assez difficile de répondre à cette question. D'un côté, les gaps peuvent être le signe d'une zone peu conservée dans laquelle des insertions et délétions ont eu lieu sans réelle conséquence. D'un autre coté, ils peuvent aussi être dus à l'introduction d'une ou plusieurs séquences non-homologues ou à une erreur de l'algorithme.

Une façon de considérer les gaps est tout simplement de multiplier le score de conservation de la colonne par l'inverse de la proportion de gaps. Sinon, il faut intégrer les gaps directement dans le score ou bien ignorer totalement les colonnes contenant plus d'un certain pourcentage de gaps.

Conclusion

J'espère ne pas vous avoir noyé sous les informations. Comme vous avez pu le constater, il n'y a pas de score parfait qui prendrait en compte tous les paramètres. Si le sujet vous intéresse, je vous conseille vivement la lecture des deux articles mentionnés au début de ce billet. Vous y retrouverez les articles des auteurs cités et bien d'autres exemples (je n'ai pas cité tous les papiers par manque de place).

Je vous invite également à nous faire part de vos propres réflexions sur le sujet dans les commentaires ou sur mon groupe de discussion Mendeley.

Références des articles

Eugene V. KooninThe logic of Chance: The Nature and Origin of Biological Evolution, FT Press (2011)

William S.J. Valdar, Scoring Residue Conservation, Proteins: Structure, Function, and Genetics, 48:227–241(2002).

Fredrik Johansson and Hiroyuki Toh, A comparative study of conservation and variation scores, BMC Bioinformatics, 11:388 (2010).

S. Henikoff and J.G. HenikoffAmino acid substitution matrices from protein blocks, PNAS, 89(22): 10915–10919 (1992)

Marcus A. Zachariah, Gavin E. Crooks, Stephen R. Holbrook, and Steven E. BrennerA Generalized Affine Gap Model Significantly Improves Protein Sequence Alignment Accuracy, Proteins: Structure, Function, and Bioinformatics 58:329 –338 (2005)

Nalin C. W. Goonesekere and Byungkook LeeFrequency of gaps observed in a structurally aligned protein pair database suggests a simple gap penalty functionNucleic Acids Res. 2004; 32(9): 2838–2843 (2004)

  • À propos de
  • Je suis actuellement en post-doc dans l'équipe DYLISS de L'IRISA à Rennes. Je travaille sur la reconstruction automatique de réseaux métaboliques. Plus particulièrement, je m'intéresse aux aspects fouille de connaissance, combinatoire, base de données en graphe. Mais dans un passé pas si lointain, je me suis aussi intéressé aux séquences de protéines, à leur alignement et à la prédiction de leur structures.

4 commentaires sur “Alignements multiples : Calculer la conservation

  1. Cet article est excessivement intéressant ! J\'ai adoré. Merci à toi !

    • Oui, super intéressant.

    • En effet, article très intéressant qui a le mérite de rester clair tout du long !

      Bravo !

Laisser un commentaire