Le but de cet article est de faire gagner du temps à vous, bioinformaticiens, qui comme moi auront un jour à travailler sur ce large sujet que sont les alignements multiples (ou MSA pour Multiple Sequence Alignements).
Dans le cadre de mon travail, j’ai eu à réaliser des alignements de séquences sur un nombre de séquences important et assez longues. Dans un premier temps, j'ai songé à appliquer mes connaissances acquises durant ma formation universitaire (Master de Bioinformatique de Bordeaux au passage, un peu de pub ne fera pas de mal à cette excellente formation française).
Mais, après deux ou trois essais, force a été de constater que mes connaissances sur ce sujet n'étaient pas suffisantes pour de larges échantillons et de longues séquences. Il a donc fallu repartir de zéro, ou presque.
Petite mise en bouche
Afin de vous immerger dans le sujet, je vous propose une courte introduction aux alignements multiples de séquences. Pour les plus curieux d'entre vous, je vous invite à vous rendre sur la page wikipédia qui est très bien rédigée.
On distingue deux types d'alignements : les globaux et les locaux. Pour ma part, je ne vous parlerai que des globaux (du moins dans cet article).
Un MSA se construit grâce à un algorithme qui a pour but de maximiser le nombre de coïncidences entre nucléotides ou acides aminés des différentes séquences. Une matrice de distances entre les paires de séquences est ainsi obtenue. Celle-ci est alors utilisée pour calculer le score minimum ou idéal de chaque séquence présente dans le fichier d'entrée, qui est en général un fichier au format fasta, avec chacune des autres séquences présentes. L’idée est d’obtenir, en fichier de résultat, toutes nos séquences alignées entre elles de la meilleure des façons possibles.
Au passage, cela va bien entendu de soit qu'essayer d'aligner des séquences étant totalement différentes entre-elles et n'ayant aucun lien n'aurait pas de sens. En effet, pour ceux n'ayant pas encore compris : la relation d’homologie entre les séquences d’un alignement multiple est supposée au départ car on cherche justement à retrouver l'historique des mutations apparues au cours de l’évolution. Cela permet suivant le type de séquences que l'on a sélectionné de prédire la ou les fonctions d'une protéine, prédire la structure secondaire (voire tertiaire) d'une protéine ou/et encore d'établir une phylogénie.
"Peut-on voir le menu ? Que me conseillez-vous ?"
Rentrons maintenant dans le vif du sujet de l'article : le choix du logiciel.
Les logiciels m'ayant été présentés durant ma formation sont ClustalW2 et MEGA, leurs premières versions datant respectivement de 1988 et 1993.
Le premier cité est aujourd'hui clairement dépassé et même ses auteurs appellent à ne plus l'utiliser.
Le second est, quand à lui, encore dans la course du fait d'une version assez fraiche
(mars 2011) et est désormais multiplateforme (uniquement Windows jusqu'à la version 5). Il reste cependant assez limité au niveau des MSA, a du mal à gérer des fichiers de plus de quelques centaines de séquences. Enfin, la version 5.0 était assez "buguée", mais je ne m'avancerai pas sur la 5.1 que je n'ai pas eu l'occasion de tester.
Pour ma part, j'ai fait le choix d'assigner le tag "dinosaure de la bioinformatique" à ces deux logiciels tout en leur souhaitant une douce retraite et en les remerciant pour leurs nombreux services rendus. Car n'oublions pas que sans eux, la "concurrence" n'aurait peut être pas été aussi bonne qu'elle l'est à l'heure actuelle.
Le choix du logiciel de MSA dépend de plusieurs critères.
Ceux s'annonçant comme les premiers à envisager de façon logique et qui seront communs à toutes les situations semblent être le nombre de séquences à aligner et leur longueur.
En effet, vos contraintes ne seront pas les même pour un fasta comprenant une vingtaine de séquences assez courtes que pour un ensemble de mille séquences de mille acides aminés chacune. L'administrateur de votre cluster de calcul n'appréciera surement pas que vous fassiez tourner à 100% ses CPU pendant plusieurs semaines si cela peut se transformer en plusieurs jours. Et vos collègues vous seront d'autant plus reconnaissants de leur laisser un peu de puissance de calcul (mais si 🙂 ).
Donc, si vous disposez de plusieurs centaines de séquences, que vous êtes plus ou moins pressé et que l'administrateur de votre cluster n'est pas un tendre, je vous conseille d'opter pour un de ces trois logiciels qui ont tous leurs petites particularités :
MAFFT pour Multiple Alignment using Fast Fourier Transform possède un des algorithmes les plus rapides à ce jour et est donc l'un des plus utilisés. Pour être franc, sa vitesse d'exécution m'a réellement impressionné lorsque je l'ai utilisé pour la première fois (et même les fois d'après…). Les alignements générés grâce à cet outil sont de bonne qualité. Il vous faudra peut-être passer derrière lui pour corriger les petites erreurs qu'il aura pu commettre mais cette remarque est applicable à tous les autres logiciels également. La première version de MAFFT est apparue en 2002 et sa dernière version (6.864) date d'octobre 2011. L'équipe de développeurs est donc encore assez active.
Exemple d'utilisation en ligne de commande :
1 |
$ mafft /Home/MesFastas/sequences_a_aligner.fasta > /Home/MesAlignements/sequences_alignees.fasta |
Donc, comme vous pouvez le constater : très simple à prendre en main et pas besoin de commenter en détails, je pense. Il existe bien entendu tout un tas d'options mais pour les découvrir je vous invite à vous rendre sur leur site mentionné plus haut.
MUSCLE est plus lent que MAFFT mais n'a toutefois pas à rougir pour autant. La vitesse d'exécution du logiciel reste parfaitement raisonnable et le classe parmi l'élite des logiciels de MSA. La réelle différence entre MUSCLE et MAFFT vient du fait que MUSCLE a été conçu par un seul homme : Robert Edgar. Ce génie de l'informatique n'en est pas à son coup d'essai et je dois dire que c'est ce qui m'a fait préférer MUSCLE à MAFFT pour mes analyses. Mais il s'agit ici d'un choix à base de convictions personnelles et pas forcément très scientifique, je vous l'accorde.
MUSCLE a vu le jour en 2004 et sa version actuelle date de mai 2010 (v3.8.31). À noter également que Robert Edgar fait parti des personnes affirmant que de trop grands jeux de données à aligner ensemble ne mènent à pas grand chose. Je le rejoins un peu sur cette pensée, mais on pourrait alors se demander comment clusteriser un grand ensemble de séquences en de plus petits groupes plus convenablement alignables entre eux quand il s'agit, par exemple, de gènes encore très peu connus…
Exemple d'utilisation en ligne de commande :
1 |
$ muscle -in /Home/MesFastas/sequences_a_aligner.fasta -out /Home/MesAlignements/sequences_alignees.fasta |
Tout comme MAFFT, rien de plus simple à comprendre et, également comme son rival, pas mal d'options à découvrir ici pour paramétrer vos futurs MSA.
Clustal Omega (ou ClustalO) :
Alors là, pour ne rien vous cacher, ce logiciel a été pour moi la découverte de l'année 2011 ! Enfin la maison Clustal s'est décidée à proposer un logiciel de MSA digne de ce nom suivant les traces de son digne ancêtre ClustalW2 et rattrapant (voire même dépassant) leurs concurrents.
Les tests que j'ai pus réaliser dessus sont tout bonnement bluffants : rapide d'exécution et erreurs d'alignement en chute nette. Pour moi, c'est LE logiciel à utiliser pour un MSA protéique (il ne gère malheureusement pas encore les séquences nucléotidiques). Il est sorti en octobre dernier et les améliorations ne manqueront pas de venir à la pelle d'ici peu, j'espère. Vous l'aurez compris, j'attends beaucoup de ce nouveau joujou.
Je ne peux malheureusement pas vous présenter un exemple d'utilisation en ligne de commande pour la simple et bonne raison qu'il n'a pas encore été ajouté sur Vital-IT (mon cluster de calcul du travail) et que sa version Mac n'est pas encore au top… (pas de troll dans les commentaires, svp 🙂 ). Donc, quand j'en ai besoin, je me permets d'utiliser le cluster de l'EBI qui est assez permissif pour un visiteur de l'extérieur.
Enfin, à ceux pour qui mes simples dires ne suffiraient pas à les convaincre (et je peux les comprendre), je les invite à lire la publication de ClustalO où ils pourront retrouver plusieurs tests comparatifs avec chiffres à l’appui (disponible en fin d’article).
Autres logiciels à envisager :
Je vous ai donc présenté mon podium des logiciels de MSA mais il en existe encore beaucoup d'autres que j'ai également essayé pour la plupart et qui n'ont pas réussi à retenir mon attention pour x raisons. Je vais seulement me contenter de vous donner une liste non exhaustive, libre à vous d'aller plus loin avec eux ou pas : DIALIGN, ProbCons, T‑Coffee, GBlocks, Kalign, MaxAlign, TrimAl …
J'ai bien joué avec tout ça mais… et maintenant ?
Un dernier point avant de "rendre l'antenne" : comment visualiser et analyser les alignements que vous avez produits avec un ou plusieurs des logiciels que je vous ai présenté ?
Encore une fois, plusieurs logiciels peuvent être envisagés pour cette tâche, mais je ne vais vous en présenter qu'un seul qui, selon moi, fait tout le travail demandé bien comme il faut. Pas plus de suspens, le gagnant n'est autre que le célèbre Jalview.
Pour ne citer qu'eux, l'EBI et Pfam l'utilisent pour mettre en lumière les résultats des alignements proposés sur leurs web-services. Bref, l'essayer c'est l'adopter, alors à vous de jouer !
Bon, et puisqu'on est entre nous et que ça ne sortira pas de la famille, je me décide même à vous faire partager une de mes dernières trouvailles pour ce qui est de la visualisation des MSA et de leur analyse.
Je vous présente donc JDet.
Il s'agit d'un outil qui, comme Jalview, permet la visualisation des données mais qui se démarque en permettant à l'utilisateur d'appliquer un algorithme de clusterisation sur l'alignement. Ainsi, en appliquant cette méthode vous voyez votre alignement se clusteriser et cela vous permet de gagner un certain temps sur le "datamining" ainsi que sur l'analyse des données.
Je ne l'ai encore pas testé dans sa profondeur mais le peu que j'en ai vu m'a semblé convaincant, donc je me permet de vous en parler. De plus, si quelqu'un l'a déjà utilisé ou a un quelconque retour/avis merci de vous manifester dans les commentaires par exemple.
Bref, qu'on se le dise : à partir de là le travail n'est pas fini. On peut choisir de s'arrêter là c'est sûr, mais je trouve cela dommage… En effet, il peut être intéressant et beaucoup plus facile d'analyser ces résultats de MSA grâce à la génération d'arbres phylogéniques.
Mais ça, c'est une autre histoire…ou plutôt : un autre article 😉
Le mot du guide
En espérant que ça pourra en aider quelques-uns, je vous laisse sur ces mots et vous invite à venir en discuter plus en détails si vous le souhaitez par le biais des commentaires ou encore sur notre canal IRC (#bioinfo-fr).
[Mise à jour après publication] :
Il est vrai que je ne vous ai pas mentionné l'existence de Seaview, un logiciel conçu par le LBBE à Lyon. J'ai eu l'occassion de le tester également. Je l'ai trouvé très bien et n'ayant rien à envier à ses "concurrents". Par ailleurs, il s'est avéré que sur ma machine (un MacBook Pro de 2010) il avait de fâcheuses tendances à planter un peu trop souvent sur les analyses de gros jeux de données. C'est principalement ce qui m'a fait aller voir ailleurs, mais aussi le fait qu'il n'était pas présent sur mon cluster de calcul. De plus, je reste persuadé que sur un GNU/Linux celui-ci doit bien tourner. La marque de la pomme croquée à aussi ses faiblesses… (ou avec la version 64 bits apparemment). Je vous renvoie aux commentaires pour le découvrir un peu plus, et à son site web.
Merci à Julien pour m'avoir rappelé à l'ordre.
Les publications des logiciels nommés dans cet article
ClustalW2 : Larkin MA, Blackshields G, Brown NP, Chenna R, McGettigan PA, McWilliam H, Valentin F, Wallace IM, Wilm A, Lopez R, Thompson JD, Gibson TJ, Higgins DG. (2007). "Clustal W and Clustal X version 2.0." Bioinformatics, 23, 2947–2948.
MEGA : Tamura K, Peterson D, Peterson N, Stecher G, Nei M, and Kumar S (2011) "MEGA5 : Molecular Evolutionary Genetics Analysis using Maximum Likelihood, Evolutionary Distance, and Maximum Parsimony Methods." Molecular Biology and Evolution 28 : 2731–2739.
MAFFT : Katoh, Misawa, Kuma, Miyata (2002). "MAFFT : a novel method for rapid multiple sequence alignment based on fast Fourier transform. (describes the FFT-NS‑1, FFT-NS‑2 and FFT-NS‑i strategies)" Nucleic Acids Res. 30:3059–3066
MUSCLE : Edgar, R.C. (2004) "MUSCLE : a multiple sequence alignment method with reduced time and space complexity" BMC Bioinformatics, (5) 113.
ClustalO : Sievers F, Wilm A, Dineen DG, Gibson TJ, Karplus K, Li W, Lopez R, McWilliam H, Remmert M, Söding J, Thompson JD, Higgins DG (2011). "Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega." Mol Syst Biol 7.
DIALIGN : B. Morgenstern (2004). "DIALIGN : Multiple DNA and Protein Sequence Alignment at BiBiServ." Nucleic Acids Research 32, W33-W36.
ProbCons : Do, C.B., Mahabhashyam, M.S.P., Brudno, M., and Batzoglou, S. (2005). "PROBCONS : Probabilistic Consistency-based Multiple Sequence Alignment." Genome Research 15 : 330–340.
T‑Coffee : Notredame C, Higgins DG, Heringa J.(2000). "T‑Coffee : A novel method for multiple sequence alignments." JMB,302(205–217)
GBlocks : Talavera, G., and Castresana, J. (2007). "Improvement of phylogenies after removing divergent and ambiguously aligned blocks from protein sequence alignments." Systematic Biology 56, 564–577.
Kalign : Lassmann T., Frings, O. and Erik L.L. Sonnhammer (2009). "Kalign2 : high-performance multiple alignment of protein and nucleotide sequences allowing external features." Nucleic Acids Research, 37:858–865
MaxAlign : Gouveia-Oliveira R, Sackett P W, Pedersen A G (2007). "MaxAlign : maximizing usable data in an alignment." BMC Bioinformatics, 8:312
Trimal : Salvador Capella-Gutierrez ; Jose M. Silla-Martinez ; Toni Gabaldon (2009). "trimAl : a tool for automated alignment trimming in large-scale phylogenetic analyses." Bioinformatics 25 : 1972–1973.
Jalview : Clamp, M., Cuff, J., Searle, S. M. and Barton, G. J. (2004), "The Jalview Java Alignment Editor," Bioinformatics, 20, 426–7
JDet : Thilo Muth, Juan A. Garcia-Martin, Antonio Rausell, David Juan, Alfonso Valencia & Florencio Pazos (2011). "JDet : Interactive calculation and visualization of function-related conservation patterns in multiple sequence alignments and structures." Muth et al. (2012). Bioinformatics 28 (4): 584–586.
Laisser un commentaire