Alignements multiples : Calculer la conservation

Après le pre­mier billet de Yoann intro­dui­sant les logi­ciels prin­ci­paux per­met­tant de pro­duire des ali­gne­ments mul­tiples, je suis très heu­reux de conti­nuer cette série d'articles en vous par­lant du cal­cul de la conser­va­tion. Enten­dons-nous bien, je ne pré­tends pas vous don­ner la for­mule ultime per­met­tant de cal­cu­ler à coup sûr un score de conser­va­tion. De toutes façons, cette for­mule n'existe sans doute pas.

Je vous pro­pose plu­tôt de reve­nir sur la notion de conser­va­tion, puis de faire un tour d'horizon des dif­fé­rentes approches uti­li­sées pour la mesu­rer. Ce billet étant quelque peu tech­nique par endroit, il s'adresse plu­tôt à des per­sonnes ayant déjà eu à pro­duire des ali­gne­ments mul­tiples et ayant des notions sur les séquences et leur évo­lu­tion.

birds_on_far_banks_power_line
Andy Bee­croft (CC-BY-SA‑2.0)

La conservation

Lorsque nous cal­cu­lons la conser­va­tion dans un ali­gne­ment mul­tiple, nous par­tons du prin­cipe que les séquences sont homo­logues (elles ont un ancêtre com­mun) et par­fai­te­ment ali­gnées. Pour­quoi faire ces deux sup­po­si­tions sachant que, dans la plu­part des cas, la pre­mière est invé­ri­fiable et la seconde est fausse ?

Pour répondre à cette ques­tion, il faut reve­nir à la rai­son qui nous pousse à ali­gner des séquences : l'évolution.

Au cours du temps, des muta­tions appa­raissent dans les séquences : des sub­sti­tu­tions, des inser­tions et des délé­tions. Ain­si, des séquences ayant un ancêtre com­mun peuvent diver­ger. Le but d'un ali­gne­ment mul­tiple de séquences est de retrou­ver, sinon le "che­min", au moins un his­to­rique, même approxi­ma­tif, des muta­tions qui se sont pro­duites et qui ont mené ces séquences à diver­ger. C'est pour­quoi nous sup­po­sons que nos séquences sont homo­logues, même si, en l'absence de l'ancêtre com­mun, nous ne pou­vons que sup­po­ser cette rela­tion d'homologie.

Si les muta­tions étaient toutes conser­vées au cours du temps, les séquences diver­ge­raient constam­ment et il serait impos­sible de retrou­ver leur lien de paren­té. Heu­reu­se­ment, l'évolution est un pro­ces­sus aléa­toire for­te­ment contraint et si cer­taines par­ties des séquences divergent, d'autres res­tent conser­vées (Voir The logic of Chance : The Nature and Ori­gin of Bio­lo­gi­cal Evo­lu­tion, Eugene V. Koo­nin).

Alignement
Exemple d'alignement mul­tiple. Guillaume Col­let (CC-by-SA 2.0)

Ali­gner des séquences homo­logues revient donc à maxi­mi­ser la conser­va­tion entre des séquences. Vous remar­que­rez que cette défi­ni­tion entraîne l'apparition de trous ou gaps en anglais (repré­sen­tés par un "-" dans l'image ci-des­sus) puisque les inser­tions et délé­tions entraînent des déca­lages. Je ne reviens pas ici sur les algo­rithmes d'alignement mul­tiple et sur les fonc­tions de scores asso­ciées. Cela fera sans doute l'objet d'un futur billet. Nous consi­dé­rons sim­ple­ment que l'alignement des séquences est le meilleur pos­sible, c'est-à-dire qu'il aligne au mieux les posi­tions conser­vées.

Nous nous inté­res­sons ici au cal­cul de la conser­va­tion dans un ali­gne­ment mul­tiple déjà construit et, par voie de consé­quence, à sa varia­bi­li­té. En effet, je vous disais pré­cé­dem­ment que l'évolution est un sys­tème aléa­toire mais contraint. Ain­si, si nous retrou­vons des posi­tions (ou colonnes) conser­vées dont nous connais­sons l'importance fonc­tion­nelle ou struc­tu­rale, alors, nous pou­vons sup­po­ser que cette conser­va­tion est due à ces contraintes fonc­tion­nelles ou struc­tu­rales. Retrou­ver de telles posi­tions conser­vées revient donc à retrou­ver les posi­tions ayant une impor­tance fonc­tion­nelle ou struc­tu­rale. De même, cer­taines posi­tions peuvent être sou­mises à une forte varia­bi­li­té comme dans les toxines à "trois doigts" que l'on retrouve dans les venins de ser­pents. Les extré­mi­tés des "doigts" de ces pro­téines sont très variables et leur per­mettent d'être actives sur une grande quan­ti­té de cibles.

La conser­va­tion ou la varia­bi­li­té d'une posi­tion dans un ali­gne­ment mul­tiple est donc une infor­ma­tion cru­ciale dans l'étude d'une famille de séquences, de ses carac­té­ris­tiques et de son évo­lu­tion. Cette infor­ma­tion est par­ti­cu­liè­re­ment utile en recons­truc­tion phy­lo­gé­né­tique, pour la pré­dic­tion de fonc­tion ou de struc­ture et éga­le­ment dans le pro­ces­sus d'annotation des séquences.

Mesurer la conservation

Pour écrire ce billet, je suis par­ti de deux articles : "Sco­ring Resi­due Conser­va­tion" de William S.J. Val­dar (2002) et "A com­pa­ra­tive stu­dy of conser­va­tion and varia­tion scores" de Johans­son et Toh (2010). Ces deux articles essaient de faire le bilan des scores uti­li­sés pour cal­cu­ler la conser­va­tion, le pre­mier en dis­cu­tant des pro­prié­tés mesu­rées par les dif­fé­rents scores, le deuxième en com­pa­rant les scores sur un jeu de test.

J'ai été par­ti­cu­liè­re­ment inté­res­sé par la démarche de W. Val­dar qui essaie de défi­nir un score "idéal". Tout d'abord, ce score "idéal" devrait prendre en entrée une colonne, ou un ensemble de colonnes, et être conti­nu et bor­né. Il devrait éga­le­ment prendre en compte la fré­quence des acides ami­nés, leur nature chi­mique, les gaps et la redon­dance entre les séquences. Enfin, ce score devrait être assez simple à com­prendre afin que cha­cun en sai­sisse les carac­té­ris­tiques et sur­tout les limites.

Je ne vous décri­rai pas ici en détail le conte­nu de ces deux revues mais je sur­vo­le­rai plu­tôt les dif­fé­rentes pro­prié­tés mesu­rées afin que vous vous ren­diez compte de la diver­si­té du domaine et que vous puis­siez choi­sir ce qui cor­res­pond à vos besoins.

Prendre en compte la fréquence des acides aminés

L'une des pre­mières mesures de conser­va­tion pro­vient d'un article de Wu et Kabat en 1970. Leur mesure consiste à divi­ser le nombre de types d'acides ami­nés dif­fé­rents dans une colonne par la fré­quence de l'acide ami­né le plus fré­quent dans la colonne. C'est une mesure simple à appré­hen­der et à cal­cu­ler qui, de ce fait, fut assez lar­ge­ment uti­li­sée. Néan­moins, cette mesure fut amé­lio­rée par la prise en compte de la "fré­quence de fond" des acides ami­nés, c'est-à-dire la fré­quence d'apparition des acides ami­nés en géné­ral. Cela per­met de mesu­rer à quel point la dis­tri­bu­tion des acides ami­nés d'une colonne dif­fère de la dis­tri­bu­tion des acides ami­nés en géné­ral.

Une autre manière de prendre en compte la fré­quence des acides ami­nés dans une colonne est d'utiliser la notion d'entro­pie. Pour faire simple et citer un ami : "l'entropie, en gros, ça mesure le bor­del". Et ce n'est pas faux ! L'entro­pie de Shan­non est une notion venant de la théo­rie de l'information qui mesure la quan­ti­té d'information conte­nue dans un signal. Certes, mais en ther­mo­dy­na­mique, l'inertie est une mesure du désordre et ces deux notions sont très liées.

Prendre en compte la nature des acides aminés

Il me semble inté­res­sant de prendre en compte la nature des acides ami­nés. En effet, une colonne consti­tuée uni­que­ment de rési­dus aro­ma­tiques, par exemple, semble plus conser­vée qu'une colonne ayant des rési­dus variés et de natures oppo­sées. Ain­si, Tay­lor pro­po­sa en 1986, un score basé sur le dia­gramme de Venn des acides ami­nés.

Diagramme de Venn des acides aminés (image dans le domaine public)
Dia­gramme de Venn des acides ami­nés (image dans le domaine public)

Une autre façon de prendre en compte les carac­té­ris­tiques sté­réo­chi­miques com­munes est de réduire l'alpha­bet des acides ami­nés. Ain­si, plu­sieurs rési­dus peuvent être repré­sen­tés par un seul sym­bole, comme dans les scores pro­po­sés par Mir­ny et Scha­kh­no­vich ou par Smith et Smith.

Prendre en compte la redondance

Dans un ali­gne­ment mul­tiple, les séquences sont sup­po­sées homo­logues et peuvent donc être très simi­laires les unes aux autres. Ain­si, si une séquence dif­fère un peu plus des autres, cette dif­fé­rence, bien qu'intéressante du point de vue de l'évolution, va être écra­sée par la redon­dance des autres séquences. Prendre en compte la redon­dance entre séquences est impor­tant afin de pon­dé­rer les varia­tions obser­vées dans l'alignement mul­tiple. C'est pour­quoi nous uti­li­sons le terme de poids pour ce type de score.

Prendre en compte le poids d'une séquence revient donc à la com­pa­rer aux autres et à voir à quel point elle leurs res­semble. Le poids peut donc être cal­cu­lé à l'aide d'un score d'identité ou de simi­la­ri­té de séquences ou même comme un score d'entro­pie par rap­port aux autres séquences.

Néan­moins, prendre en compte le poids de chaque séquence ne dépend pas seule­ment de la façon dont on cal­cule ce poids mais éga­le­ment de la façon dont on l'intègre au score de conser­va­tion afin que le score glo­bal reste cohé­rent.

Utiliser des matrices de substitution

Les matrices de sub­sti­tu­tions sont sans doute les outils que nous ren­con­trons le plus rapi­de­ment lorsque nous nous inté­res­sons aux ali­gne­ments mul­tiples. En effet, lors de la construc­tion de l'alignement, elles per­mettent de mesu­rer à quel point un acide ami­né peut être ali­gné à — sub­sti­tué par — un autre. Ain­si, leur uti­li­sa­tion pour mesu­rer la conser­va­tion une fois l'alignement pro­duit semble inté­res­sante, mais W. Val­dar nous met en garde contre ce rac­cour­ci : mesu­rer le rem­pla­ce­ment d'un acide ami­né par un autre et mesu­rer la conser­va­tion dans une colonne ne sont pas tout à fait la même chose.

Néan­moins, les matrices de sub­sti­tu­tions, une fois nor­ma­li­sées, ont été uti­li­sées pour mesu­rer la conser­va­tion comme dans le score de Val­dar et Thorn­ton. Une matrice BLOSUM nor­ma­li­sée a été uti­li­sée par San­der and Schnei­der avec le célèbre score dit sum-of-pairs, où l'on fait la somme du score de chaque paire d'acides ami­nés. Les matrices de sub­sti­tu­tion per­mettent ain­si d'utiliser l'information déri­vée de l'étude sta­tis­tique des séquences pour cal­cu­ler la conser­va­tion.

Prendre en compte les gaps

Les gaps pro­viennent des inser­tions et délé­tions d'acides ami­nés et sont très impor­tants lors de la construc­tion des ali­gne­ments mul­tiples. De nom­breux articles traitent d'ailleurs de ce pro­blème (voir Zacha­riah et al. ou Goo­ne­se­kere et al.). Néan­moins, lorsqu'il s'agit de cal­cu­ler la conser­va­tion, ils sont assez peu pré­sents.

Dans les scores à base d'entropie de Shan­non, les gaps sont trai­tés comme un sym­bole à part entière. Dans les scores uti­li­sant la nature des acides ami­nés, ils sont sim­ple­ment igno­rés. Dans les scores uti­li­sant des matrices de sub­sti­tu­tion, ils peuvent être inté­grés dans la matrice, mais cela dépend. Bref, ce sujet ne semble pas cen­tral.

Et pour­tant, la ques­tion est impor­tante : une colonne conte­nant beau­coup de gaps, est-ce une colonne avec une forte varia­bi­li­té ou une colonne sans infor­ma­tion ? Pour y avoir réflé­chi long­temps, il est assez dif­fi­cile de répondre à cette ques­tion. D'un côté, les gaps peuvent être le signe d'une zone peu conser­vée dans laquelle des inser­tions et délé­tions ont eu lieu sans réelle consé­quence. D'un autre coté, ils peuvent aus­si être dus à l'introduction d'une ou plu­sieurs séquences non-homo­logues ou à une erreur de l'algorithme.

Une façon de consi­dé­rer les gaps est tout sim­ple­ment de mul­ti­plier le score de conser­va­tion de la colonne par l'inverse de la pro­por­tion de gaps. Sinon, il faut inté­grer les gaps direc­te­ment dans le score ou bien igno­rer tota­le­ment les colonnes conte­nant plus d'un cer­tain pour­cen­tage de gaps.

Conclusion

J'espère ne pas vous avoir noyé sous les infor­ma­tions. Comme vous avez pu le consta­ter, il n'y a pas de score par­fait qui pren­drait en compte tous les para­mètres. Si le sujet vous inté­resse, je vous conseille vive­ment la lec­ture des deux articles men­tion­nés au début de ce billet. Vous y retrou­ve­rez les articles des auteurs cités et bien d'autres exemples (je n'ai pas cité tous les papiers par manque de place).

Je vous invite éga­le­ment à nous faire part de vos propres réflexions sur le sujet dans les com­men­taires ou sur mon groupe de dis­cus­sion Men­de­ley.

Références des articles

Eugene V. Koo­ninThe logic of Chance : The Nature and Ori­gin of Bio­lo­gi­cal Evo­lu­tion, FT Press (2011)

William S.J. Val­dar, Sco­ring Resi­due Conser­va­tion, Pro­teins : Struc­ture, Func­tion, and Gene­tics, 48:227–241(2002).

Fre­drik Johans­son and Hiroyu­ki Toh, A com­pa­ra­tive stu­dy of conser­va­tion and varia­tion scores, BMC Bio­in­for­ma­tics, 11:388 (2010).

S. Heni­koff and J.G. Heni­koffAmi­no acid sub­sti­tu­tion matrices from pro­tein blocks, PNAS, 89(22): 10915–10919 (1992)

Mar­cus A. Zacha­riah, Gavin E. Crooks, Ste­phen R. Hol­brook, and Ste­ven E. Bren­nerA Gene­ra­li­zed Affine Gap Model Signifi­cant­ly Improves Pro­tein Sequence Ali­gn­ment Accu­ra­cy, Pro­teins : Struc­ture, Func­tion, and Bio­in­for­ma­tics 58:329 –338 (2005)

Nalin C. W. Goo­ne­se­kere and Byung­kook LeeFre­quen­cy of gaps obser­ved in a struc­tu­ral­ly ali­gned pro­tein pair data­base sug­gests a simple gap penal­ty func­tionNucleic Acids Res. 2004 ; 32(9): 2838–2843 (2004)



Pour continuer la lecture :


Commentaires

5 réponses à “Alignements multiples : Calculer la conservation”

  1. Avatar de Yoann M.
    Yoann M.

    Cet article est exces­si­ve­ment inté­res­sant ! J'ai ado­ré. Mer­ci à toi !

    1. Oui, super inté­res­sant.

    2. Avatar de Nico M.

      En effet, article très inté­res­sant qui a le mérite de res­ter clair tout du long !

      Bra­vo !

  2. Avatar de Yassmine Yk
    Yassmine Yk

    svp com­ment cal­cu­ler les scores d'entropies ??

Laisser un commentaire