Alignements multiples : quels logiciels choisir ?

Le but de cet article est de faire gagner du temps à vous, bio­in­for­ma­ti­ciens, qui comme moi auront un jour à tra­vailler sur ce large sujet que sont les ali­gne­ments mul­tiples (ou MSA pour Multiple Sequence Aligne­ments).

Dans le cadre de mon tra­vail, j’ai eu à réa­li­ser des ali­gne­ments de séquences sur un nombre de séquences impor­tant et assez longues. Dans un pre­mier temps, j'ai son­gé à appli­quer mes connais­sances acquises durant ma for­ma­tion uni­ver­si­taire (Mas­ter de Bio­in­for­ma­tique de Bor­deaux au pas­sage, un peu de pub ne fera pas de mal à cette excel­lente for­ma­tion fran­çaise).

Mais, après deux ou trois essais, force a été de consta­ter que mes connais­sances sur ce sujet n'étaient pas suf­fi­santes pour de larges échan­tillons et de longues séquences. Il a donc fal­lu repar­tir de zéro, ou presque.

Petite mise en bouche

Afin de vous immer­ger dans le sujet, je vous pro­pose une courte intro­duc­tion aux ali­gne­ments mul­tiples de séquences. Pour les plus curieux d'entre vous, je vous invite à vous rendre sur la page wiki­pé­dia qui est très bien rédi­gée.

On dis­tingue deux types d'alignements : les glo­baux et les locaux. Pour ma part, je ne vous par­le­rai que des glo­baux (du moins dans cet article).

Un MSA se construit grâce à un algo­rithme qui a pour but de maxi­mi­ser le nombre de coïn­ci­dences entre nucléo­tides ou acides ami­nés des dif­fé­rentes séquences. Une matrice de dis­tances entre les paires de séquences est ain­si obte­nue. Celle-ci est alors uti­li­sée pour cal­cu­ler le score mini­mum ou idéal de chaque séquence pré­sente dans le fichier d'entrée, qui est en géné­ral un fichier au for­mat fas­ta, avec cha­cune des autres séquences pré­sentes. L’idée est d’obtenir, en fichier de résul­tat, toutes nos séquences ali­gnées entre elles de la meilleure des façons pos­sibles.

Au pas­sage, cela va bien enten­du de soit qu'essayer d'aligner des séquences étant tota­le­ment dif­fé­rentes entre-elles et n'ayant aucun lien n'aurait pas de sens. En effet, pour ceux n'ayant pas encore com­pris : la rela­tion d’homologie entre les séquences d’un ali­gne­ment mul­tiple est sup­po­sée au départ car on cherche jus­te­ment à retrou­ver l'historique des muta­tions appa­rues au cours de l’évolution. Cela per­met sui­vant le type de séquences que l'on a sélec­tion­né de pré­dire la ou les fonc­tions d'une pro­téine, pré­dire la struc­ture secon­daire (voire ter­tiaire) d'une pro­téine ou/​et encore d'établir une phy­lo­gé­nie.

"Peut-on voir le menu ? Que me conseillez-vous ?"

Ren­trons main­te­nant dans le vif du sujet de l'article : le choix du logi­ciel.

Les logi­ciels m'ayant été pré­sen­tés durant ma for­ma­tion sont ClustalW2 et MEGA, leurs pre­mières ver­sions datant res­pec­ti­ve­ment de 1988 et 1993.

<

p style="text-align : jus­ti­fy;">
Le pre­mier cité est aujourd'hui clai­re­ment dépas­sé et même ses auteurs appellent à ne plus l'utiliser.
Le second est, quand à lui, encore dans la course du fait d'une ver­sion assez fraiche

(mars 2011) et est désor­mais mul­ti­pla­te­forme (uni­que­ment Win­dows jusqu'à la ver­sion 5). Il reste cepen­dant assez limi­té au niveau des MSA, a du mal à gérer des fichiers de plus de quelques cen­taines de séquences. Enfin, la ver­sion 5.0 était assez "buguée", mais je ne m'avancerai pas sur la 5.1 que je n'ai pas eu l'occasion de tes­ter.

Pour ma part, j'ai fait le choix d'assigner le tag "dino­saure de la bio­in­for­ma­tique" à ces deux logi­ciels tout en leur sou­hai­tant une douce retraite et en les remer­ciant pour leurs nom­breux ser­vices ren­dus. Car n'oublions pas que sans eux, la "concur­rence" n'aurait peut être pas été aus­si bonne qu'elle l'est à l'heure actuelle.

<

p style="text-align : justify;">Le choix du logi­ciel de MSA dépend de plu­sieurs cri­tères.
Ceux s'annonçant comme les pre­miers à envi­sa­ger de façon logique et qui seront com­muns à toutes les situa­tions semblent être le nombre de séquences à ali­gner et leur lon­gueur.

En effet, vos contraintes ne seront pas les même pour un fas­ta com­pre­nant une ving­taine de séquences assez courtes que pour un ensemble de mille séquences de mille acides ami­nés cha­cune. L'administrateur de votre clus­ter de cal­cul n'appréciera sur­ement pas que vous fas­siez tour­ner à 100% ses CPU pen­dant plu­sieurs semaines si cela peut se trans­for­mer en plu­sieurs jours. Et vos col­lègues vous seront d'autant plus recon­nais­sants de leur lais­ser un peu de puis­sance de cal­cul (mais si 🙂 ).

Donc, si vous dis­po­sez de plu­sieurs cen­taines de séquences, que vous êtes plus ou moins pres­sé et que l'administrateur de votre clus­ter n'est pas un tendre, je vous conseille d'opter pour un de ces trois logi­ciels qui ont tous leurs petites par­ti­cu­la­ri­tés :

MAFFT

MAFFT pour Multiple Align­ment using Fast Fourier Trans­form pos­sède un des algo­rithmes les plus rapides à ce jour et est donc l'un des plus uti­li­sés. Pour être franc, sa vitesse d'exécution m'a réel­le­ment impres­sion­né lorsque je l'ai uti­li­sé pour la pre­mière fois (et même les fois d'après…). Les ali­gne­ments géné­rés grâce à cet outil sont de bonne qua­li­té. Il vous fau­dra peut-être pas­ser der­rière lui pour cor­ri­ger les petites erreurs qu'il aura pu com­mettre mais cette remarque est appli­cable à tous les autres logi­ciels éga­le­ment. La pre­mière ver­sion de MAFFT est appa­rue en 2002 et sa der­nière ver­sion (6.864) date d'octobre 2011. L'équipe de déve­lop­peurs est donc encore assez active.

Exemple d'utilisation en ligne de commande :

$ mafft /Home/MesFastas/sequences_a_aligner.fasta > /Home/MesAlignements/sequences_alignees.fasta

Donc, comme vous pouvez le constater : très simple à prendre en main et pas besoin de commenter en détails, je pense. Il existe bien entendu tout un tas d'options mais pour les découvrir je vous invite à vous rendre sur leur site mentionné plus haut.

MUSCLE 

MUSCLE est plus lent que MAFFT mais n'a toutefois pas à rougir pour autant. La vitesse d'exécution du logiciel reste parfaitement raisonnable et le classe parmi l'élite des logiciels de MSA. La réelle différence entre MUSCLE et MAFFT vient du fait que MUSCLE a été conçu par un seul homme : Robert Edgar. Ce génie de l'informatique n'en est pas à son coup d'essai et je dois dire que c'est ce qui m'a fait préférer MUSCLE à MAFFT pour mes analyses. Mais il s'agit ici d'un choix à base de convictions personnelles et pas forcément très scientifique, je vous l'accorde.

MUSCLE a vu le jour en 2004 et sa version actuelle date de mai 2010 (v3.8.31). À noter également que Robert Edgar fait parti des personnes affirmant que de trop grands jeux de données à aligner ensemble ne mènent à pas grand chose. Je le rejoins un peu sur cette pensée, mais on pourrait alors se demander comment clusteriser un grand ensemble de séquences en de plus petits groupes plus convenablement alignables entre eux quand il s'agit, par exemple, de gènes encore très peu connus…

Exemple d'utilisation en ligne de commande :

$ muscle -in /Home/MesFastas/sequences_a_aligner.fasta -out /Home/MesAlignements/sequences_alignees.fasta

Tout comme MAFFT, rien de plus simple à comprendre et, également comme son rival, pas mal d'options à découvrir ici pour paramétrer vos futurs MSA.

Clustal Omega (ou ClustalO) :

Alors là, pour ne rien vous cacher, ce logiciel a été pour moi la découverte de l'année 2011 ! Enfin la maison Clustal s'est décidée à proposer un logiciel de MSA digne de ce nom suivant les traces de son digne ancêtre ClustalW2 et rattrapant (voire même dépassant) leurs concurrents.

Les tests que j'ai pus réaliser dessus sont tout bonnement bluffants : rapide d'exécution et erreurs d'alignement en chute nette. Pour moi, c'est LE logiciel à utiliser pour un MSA protéique (il ne gère malheureusement pas encore les séquences nucléotidiques). Il est sorti en octobre dernier et les améliorations ne manqueront pas de venir à la pelle d'ici peu, j'espère. Vous l'aurez compris, j'attends beaucoup de ce nouveau joujou.

Je ne peux malheureusement pas vous présenter un exemple d'utilisation en ligne de commande pour la simple et bonne raison qu'il n'a pas encore été ajouté sur Vital-IT (mon cluster de calcul du travail) et que sa version Mac n'est pas encore au top… (pas de troll dans les commentaires, svp :-) ). Donc, quand j'en ai besoin, je me permets d'utiliser le cluster de l'EBI qui est assez permissif pour un visiteur de l'extérieur.

Enfin, à ceux pour qui mes simples dires ne suffiraient pas à les convaincre (et je peux les comprendre), je les invite à lire la publication de ClustalO où ils pourront retrouver plusieurs tests comparatifs avec chiffres à l’appui (disponible en fin d’article).

Autres logiciels à envisager :

Je vous ai donc présenté mon podium des logiciels de MSA mais il en existe encore beaucoup d'autres que j'ai également essayé pour la plupart et qui n'ont pas réussi à retenir mon attention pour x raisons. Je vais seulement me contenter de vous donner une liste non exhaustive, libre à vous d'aller plus loin avec eux ou pas : DIALIGNProbCons, T-Coffee, GBlocks, Kalign, MaxAlign, TrimAl …

J'ai bien joué avec tout ça mais... et maintenant ?

Un dernier point avant de "rendre l'antenne" : comment visualiser et analyser les alignements que vous avez produits avec un ou plusieurs des logiciels que je vous ai présenté ?

Encore une fois, plusieurs logiciels peuvent être envisagés pour cette tâche, mais je ne vais vous en présenter qu'un seul qui, selon moi, fait tout le travail demandé bien comme il faut. Pas plus de suspens, le gagnant n'est autre que le célèbre Jalview.

Pour ne citer qu'eux, l'EBI et Pfam l'utilisent pour mettre en lumière les résultats des alignements proposés sur leurs web-services. Bref, l'essayer c'est l'adopter, alors à vous de jouer !

Bon, et puisqu'on est entre nous et que ça ne sortira pas de la famille, je me décide même à vous faire partager une de mes dernières trouvailles pour ce qui est de la visualisation des MSA et de leur analyse.

Je vous présente donc JDet.

Il s'agit d'un outil qui, comme Jalview, permet la visualisation des données mais qui se démarque en permettant à l'utilisateur d'appliquer un algorithme de clusterisation sur l'alignement. Ainsi, en appliquant cette méthode vous voyez votre alignement se clusteriser et cela vous permet de gagner un certain temps sur le "datamining" ainsi que sur l'analyse des données.

Je ne l'ai encore pas testé dans sa profondeur mais le peu que j'en ai vu m'a semblé convaincant, donc je me permet de vous en parler. De plus, si quelqu'un l'a déjà utilisé ou a un quelconque retour/avis merci de vous manifester dans les commentaires par exemple.

Bref, qu'on se le dise : à partir de là le travail n'est pas fini. On peut choisir de s'arrêter là c'est sûr, mais je trouve cela dommage... En effet, il peut être intéressant et beaucoup plus facile d'analyser ces résultats de MSA grâce à la génération d'arbres phylogéniques.

Mais ça, c'est une autre histoire...ou plutôt : un autre article ;-)

 

Le mot du guide

En espérant que ça pourra en aider quelques-uns, je vous laisse sur ces mots et vous invite à venir en discuter plus en détails si vous le souhaitez par le biais des commentaires ou encore sur notre canal IRC (#bioinfo-fr).

[Mise à jour après publication] :

Il est vrai que je ne vous ai pas mentionné l'existence de Seaview, un logiciel conçu par le LBBE à Lyon. J'ai eu l'occassion de le tester également. Je l'ai trouvé très bien et n'ayant rien à envier à ses "concurrents". Par ailleurs, il s'est avéré que sur ma machine (un MacBook Pro de 2010) il avait de fâcheuses tendances à planter un peu trop souvent sur les analyses de gros jeux de données. C'est principalement ce qui m'a fait aller voir ailleurs, mais aussi le fait qu'il n'était pas présent sur mon cluster de calcul. De plus, je reste persuadé que sur un GNU/Linux celui-ci doit bien tourner. La marque de la pomme croquée à aussi ses faiblesses... (ou avec la version 64 bits apparemment). Je vous renvoie aux commentaires pour le découvrir un peu plus, et à son site web.

Merci à Julien pour m'avoir rappelé à l'ordre.

Les publications des logiciels nommés dans cet article

ClustalW2 : Larkin MA, Blackshields G, Brown NP, Chenna R, McGettigan PA, McWilliam H, Valentin F, Wallace IM, Wilm A, Lopez R, Thompson JD, Gibson TJ, Higgins DG. (2007). "Clustal W and Clustal X version 2.0." Bioinformatics, 23, 2947-2948.

MEGA : Tamura K, Peterson D, Peterson N, Stecher G, Nei M, and Kumar S (2011) "MEGA5: Molecular Evolutionary Genetics Analysis using Maximum Likelihood, Evolutionary Distance, and Maximum Parsimony Methods." Molecular Biology and Evolution 28: 2731-2739.

MAFFT : Katoh, Misawa, Kuma, Miyata (2002). "MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform. (describes the FFT-NS-1, FFT-NS-2 and FFT-NS-i strategies)Nucleic Acids Res. 30:3059-3066

MUSCLE : Edgar, R.C. (2004) "MUSCLE: a multiple sequence alignment method with reduced time and space complexity" BMC Bioinformatics, (5) 113.

ClustalO : Sievers F, Wilm A, Dineen DG, Gibson TJ, Karplus K, Li W, Lopez R, McWilliam H, Remmert M, Söding J, Thompson JD, Higgins DG (2011). "Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega." Mol Syst Biol 7.

DIALIGN : B. Morgenstern (2004). "DIALIGN: Multiple DNA and Protein Sequence Alignment at BiBiServ." Nucleic Acids Research 32, W33-W36.

ProbCons : Do, C.B., Mahabhashyam, M.S.P., Brudno, M., and Batzoglou, S. (2005). "PROBCONS: Probabilistic Consistency-based Multiple Sequence Alignment." Genome Research 15: 330-340.

T-Coffee : Notredame C, Higgins DG, Heringa J.(2000). "T-Coffee: A novel method for multiple sequence alignments." JMB,302(205-217)

GBlocks : Talavera, G., and Castresana, J. (2007). "Improvement of phylogenies after removing divergent and ambiguously aligned blocks from protein sequence alignments." Systematic Biology 56, 564-577. 

Kalign : Lassmann T., Frings, O. and Erik L.L. Sonnhammer (2009). "Kalign2: high-performance multiple alignment of protein and nucleotide sequences allowing external features."  Nucleic Acids Research, 37:858-865

MaxAlign : Gouveia-Oliveira R, Sackett P W, Pedersen A G (2007). "MaxAlign: maximizing usable data in an alignment." BMC Bioinformatics, 8:312

Trimal : Salvador Capella-Gutierrez; Jose M. Silla-Martinez; Toni Gabaldon (2009). "trimAl: a tool for automated alignment trimming in large-scale phylogenetic analyses." Bioinformatics 25: 1972-1973.

Jalview : Clamp, M., Cuff, J., Searle, S. M. and Barton, G. J. (2004), "The Jalview Java Alignment Editor," Bioinformatics, 20, 426-7

JDet : Thilo Muth, Juan A. Garcia-Martin, Antonio Rausell, David Juan, Alfonso Valencia & Florencio Pazos (2011). "JDet: Interactive calculation and visualization of function-related conservation patterns in multiple sequence alignments and structures." Muth et al. (2012). Bioinformatics 28 (4): 584-586.



Pour continuer la lecture :


Commentaires

14 réponses à “Alignements multiples : quels logiciels choisir ?”

  1. LE cou­teau-suisse du trai­te­ment de séquences :

    SEAVIEW du LBBE à Lyon (http://​pbil​.univ​-lyon1​.fr/​s​o​f​t​w​a​r​e​/​s​e​a​v​i​e​w​.​h​tml)

    Très facile d'accès et com­plè­te­ment gra­tuit, ce logi­ciel per­met entre autre de :
    1- Visua­li­ser vos séquences nucléiques ou pro­téiques, chan­ger la taille de la police, la cou­leur de codage,
    2- Com­plé­men­ter, "Rever­ser", modi­fier les U en T, sup­pri­mer les régions GAP,
    3- Tra­duire une séquence nucléique en pro­téique,
    4- Ali­gner vos séquences ou une sélec­tion de sites à par­tir de CLUSTAL ou MUSCLE
    5- Modi­fier manuel­le­ment l'alignement, sup­pri­mer les régions ali­gnées com­po­sées uni­que­ment de GAPS,
    6- Sélec­tion­ner et défi­nir des groupes de sites conser­vés,
    7- Construire un arbre phy­lo­gé­né­tique à par­tir de nom­breuses méthodes de cal­cul de dis­tance (par­si­mo­nie, dis­tance, maxi­mum de vrai­sem­blance)
    8- Visua­li­ser du den­dro­gramme, modi­fier de l'enracinement, de la dis­po­si­tion des branches dans l'arbre, visua­li­ser les scores de boots­traps ou les dis­tances des branches,
    9- Et bien d'autres fonc­tions que je n'utilise pas…

    Ce logi­ciel accepte la majo­ri­té des for­mats de fichiers de séquences et pos­sède une inter­face à mon sens très intui­tive (pos­si­bi­li­té de faire du copier/​coller, de faire glis­ser des séquences dans la fenêtre, etc.).

    Et si vous vou­lez ensuite tra­vailler votre arbre et y ajou­ter des méta­don­nées, essayer Tree­dyn (www​.tree​dyn​.org/) mais ce n'est plus le sujet du forum 🙂

    1. Avatar de Yoann M.
      Yoann M.

      Bon­jour et mer­ci pour votre mise au point.
      En effet il était pré­vu que je parle de Sea­view, car je l'ai éga­le­ment uti­li­sé, mais pour une rai­son obs­cure il a dis­pa­ru entre mon plan d'article et sa rédac­tion…
      Je vais donc édi­ter l'article pour le rajou­ter. Cela dit, pour le tra­vail qui m'était deman­dé celui-ci ne me conve­nait pas. En effet, de mémoire il plan­tait assez fré­quem­ment sur des longs jeux de séquences…

      1. La ver­sion 64-bit devrait résoudre ce pro­blème.

        1. Avatar de Yoann M.
          Yoann M.

          Ok !
          La mise à jour vous convient-elle ? 🙂

          1. Par­fait 🙂

  2. Article très com­plet. Bra­vo !

  3. Rien sur PRANK, qui domine les com­pa­ra­tifs récents ?

    1. Avatar de Yoann M.
      Yoann M.

      Bon­jour et mer­ci pour votre inté­rêt.
      Je ne l'ai pas cité, car je ne l'ai pas uti­li­sé. A vrai dire je le découvre un peu avec votre com­men­taire et je vais donc m'y inté­res­ser de plus près. Je pense qu'il aura sa place dans un futur article, dans notre pro­chaine rubrique en cours de créa­tion 'Outils bio­in­for­ma­tique'.
      Par ailleurs, peut-être que vous avez des retours/​avis per­son­nels sur PRANK à nous faire par­ta­gé. Si c'est le cas j'en serai très heu­reux. Domine-t-il encore même avec l'arrivée récente de Clus­ta­lO ?

  4. Avatar de Jacques D
    Jacques D

    Bon­jour,
    article ins­truc­tif avec des objec­tifs louables.
    Peut-être serait il inté­res­sant de décou­vrir éga­le­ment Lagan et Mla­gan.
    J'ai uti­li­sé Mla­gan à grande échelle pour ali­gner des dizaine de séquences de plus de 50 000 nucléo­tides. Je trouve qu'il est très rapides et donne des résul­tats convain­quants.

    Michael Brud­no, Chuong Do, Gre­go­ry Cooper, Michael F. Kim, Eugene Davy­dov, Eric D. Green, Arend Sidow and Sera­fim Bat­zo­glou
    LAGAN and Mul­ti-LAGAN : effi­cient tools for large-scale mul­tiple ali­gn­ment of geno­mic DNA, Genome Research 2003 Apr;13(4):721–31.

    http://​lagan​.stan​ford​.edu/​l​a​g​a​n​_​w​e​b​/​i​n​d​e​x​.​s​h​tml

    1. Avatar de Yoann M.
      Yoann M.

      Bon­jour et mer­ci pour vos remarques.
      Je n'ai pas la chance de connaitre ce logi­ciel, je vais donc m'y inté­rés­sé dès que j'aurai un peu de temps libre !
      Mer­ci pour le com­pé­le­ment d'information et pour la docu­men­ta­tion.

  5. Avatar de afef najjai
    afef najjai

    Bra­vo.…

  6. bon­jour,
    Mer­ci pour votre article c'est très inté­res­sant.
    j'ai un fichier de longues séquences et un autre de petites séquences. Je veux faire un ali­gne­ment mul­tiples des petites séquences sur les longues séquences.
    Est-ce que vous pou­vez me sug­gé­rer le bon logi­ciel ?
    Mer­ci pour votre réponse

  7. Bon­jour mer­ci itou pour ces infos.
    J'ai non seule­ment des longues séquences (30kb) mais aus­si en grand nombre (220 000): don­nées covid. Par contre, elles ont une faible diver­gence entre elles, si ce n'est qu'elle ne démarrent et finissent pas tout à fait au même endroit. Un logi­ciel qui ne plan­te­rait pas ? Peut-être avec un algo­rithme séquen­tiel ? Mer­ci

    1. Avatar de Yoann M.
      Yoann M.

      Bon­jour,

      Ça fait un moment que je n'ai pas remis les doigts dans les ali­gne­ments mul­tiples mais à l'époque de l'article les softs qui s'en sor­taient le mieux étaient MUSCLE, MAFFT et Clus­tal Omé­ga…
      Après peut-être qu'une stra­té­gie de clus­té­ri­sa­tion en pre­mier lieu dans votre cas (faire des petits lots par­mi votre set final de 220 000) pour­rait être une pre­mière solu­tion rapide.
      En tout cas, si jamais vous trou­vez un logi­ciel qui per­met de solu­tion­ner votre pro­blème n''hésitez pas à venir nous en faire un retour en com­men­taire, et pour­quoi pas un article à part entière ! Le pro­blème doit inté­res­ser d'autres scien­ti­fiques !
      Bon cou­rage dans vos recherches.

Laisser un commentaire