- Le blog participatif de bioinformatique francophone depuis 2012 -

Alignements multiples : quels logiciels choisir ?

Le but de cet article est de faire gagner du temps à vous, bio­in­for­ma­ti­ciens, qui comme moi auront un jour à tra­vailler sur ce large sujet que sont les ali­gne­ments mul­tiples (ou MSA pour Multiple Sequence Aligne­ments).

Dans le cadre de mon tra­vail, j’ai eu à réa­li­ser des ali­gne­ments de séquences sur un nombre de séquences impor­tant et assez longues. Dans un pre­mier temps, j'ai son­gé à appli­quer mes connais­sances acquises durant ma for­ma­tion uni­ver­si­taire (Mas­ter de Bio­in­for­ma­tique de Bor­deaux au pas­sage, un peu de pub ne fera pas de mal à cette excel­lente for­ma­tion fran­çaise).

Mais, après deux ou trois essais, force a été de consta­ter que mes connais­sances sur ce sujet n'étaient pas suf­fi­santes pour de larges échan­tillons et de longues séquences. Il a donc fal­lu repar­tir de zéro, ou presque.

Petite mise en bouche

Afin de vous immer­ger dans le sujet, je vous pro­pose une courte intro­duc­tion aux ali­gne­ments mul­tiples de séquences. Pour les plus curieux d'entre vous, je vous invite à vous rendre sur la page wiki­pé­dia qui est très bien rédi­gée.

On dis­tingue deux types d'alignements : les glo­baux et les locaux. Pour ma part, je ne vous par­le­rai que des glo­baux (du moins dans cet article).

Un MSA se construit grâce à un algo­rithme qui a pour but de maxi­mi­ser le nombre de coïn­ci­dences entre nucléo­tides ou acides ami­nés des dif­fé­rentes séquences. Une matrice de dis­tances entre les paires de séquences est ain­si obte­nue. Celle-ci est alors uti­li­sée pour cal­cu­ler le score mini­mum ou idéal de chaque séquence pré­sente dans le fichier d'entrée, qui est en géné­ral un fichier au for­mat fas­ta, avec cha­cune des autres séquences pré­sentes. L’idée est d’obtenir, en fichier de résul­tat, toutes nos séquences ali­gnées entre elles de la meilleure des façons pos­sibles.

Au pas­sage, cela va bien enten­du de soit qu'essayer d'aligner des séquences étant tota­le­ment dif­fé­rentes entre-elles et n'ayant aucun lien n'aurait pas de sens. En effet, pour ceux n'ayant pas encore com­pris : la rela­tion d’homologie entre les séquences d’un ali­gne­ment mul­tiple est sup­po­sée au départ car on cherche jus­te­ment à retrou­ver l'historique des muta­tions appa­rues au cours de l’évolution. Cela per­met sui­vant le type de séquences que l'on a sélec­tion­né de pré­dire la ou les fonc­tions d'une pro­téine, pré­dire la struc­ture secon­daire (voire ter­tiaire) d'une pro­téine ou/​et encore d'établir une phy­lo­gé­nie.

"Peut-on voir le menu ? Que me conseillez-vous ?"

Ren­trons main­te­nant dans le vif du sujet de l'article : le choix du logi­ciel.

Les logi­ciels m'ayant été pré­sen­tés durant ma for­ma­tion sont ClustalW2 et MEGA, leurs pre­mières ver­sions datant res­pec­ti­ve­ment de 1988 et 1993.

Le pre­mier cité est aujourd'hui clai­re­ment dépas­sé et même ses auteurs appellent à ne plus l'utiliser.
Le second est, quand à lui, encore dans la course du fait d'une ver­sion assez fraiche

(mars 2011) et est désor­mais mul­ti­pla­te­forme (uni­que­ment Win­dows jusqu'à la ver­sion 5). Il reste cepen­dant assez limi­té au niveau des MSA, a du mal à gérer des fichiers de plus de quelques cen­taines de séquences. Enfin, la ver­sion 5.0 était assez "buguée", mais je ne m'avancerai pas sur la 5.1 que je n'ai pas eu l'occasion de tes­ter.

Pour ma part, j'ai fait le choix d'assigner le tag "dino­saure de la bio­in­for­ma­tique" à ces deux logi­ciels tout en leur sou­hai­tant une douce retraite et en les remer­ciant pour leurs nom­breux ser­vices ren­dus. Car n'oublions pas que sans eux, la "concur­rence" n'aurait peut être pas été aus­si bonne qu'elle l'est à l'heure actuelle.

Le choix du logi­ciel de MSA dépend de plu­sieurs cri­tères.
Ceux s'annonçant comme les pre­miers à envi­sa­ger de façon logique et qui seront com­muns à toutes les situa­tions semblent être le nombre de séquences à ali­gner et leur lon­gueur.

En effet, vos contraintes ne seront pas les même pour un fas­ta com­pre­nant une ving­taine de séquences assez courtes que pour un ensemble de mille séquences de mille acides ami­nés cha­cune. L'administrateur de votre clus­ter de cal­cul n'appréciera sur­ement pas que vous fas­siez tour­ner à 100% ses CPU pen­dant plu­sieurs semaines si cela peut se trans­for­mer en plu­sieurs jours. Et vos col­lègues vous seront d'autant plus recon­nais­sants de leur lais­ser un peu de puis­sance de cal­cul (mais si 🙂 ).

Donc, si vous dis­po­sez de plu­sieurs cen­taines de séquences, que vous êtes plus ou moins pres­sé et que l'administrateur de votre clus­ter n'est pas un tendre, je vous conseille d'opter pour un de ces trois logi­ciels qui ont tous leurs petites par­ti­cu­la­ri­tés :

MAFFT

MAFFT pour Multiple Align­ment using Fast Fourier Trans­form pos­sède un des algo­rithmes les plus rapides à ce jour et est donc l'un des plus uti­li­sés. Pour être franc, sa vitesse d'exécution m'a réel­le­ment impres­sion­né lorsque je l'ai uti­li­sé pour la pre­mière fois (et même les fois d'après…). Les ali­gne­ments géné­rés grâce à cet outil sont de bonne qua­li­té. Il vous fau­dra peut-être pas­ser der­rière lui pour cor­ri­ger les petites erreurs qu'il aura pu com­mettre mais cette remarque est appli­cable à tous les autres logi­ciels éga­le­ment. La pre­mière ver­sion de MAFFT est appa­rue en 2002 et sa der­nière ver­sion (6.864) date d'octobre 2011. L'équipe de déve­lop­peurs est donc encore assez active.

Exemple d'utilisation en ligne de commande :

Donc, comme vous pou­vez le consta­ter : très simple à prendre en main et pas besoin de com­men­ter en détails, je pense. Il existe bien enten­du tout un tas d'options mais pour les décou­vrir je vous invite à vous rendre sur leur site men­tion­né plus haut.

MUSCLE 

MUSCLE est plus lent que MAFFT mais n'a tou­te­fois pas à rou­gir pour autant. La vitesse d'exécution du logi­ciel reste par­fai­te­ment rai­son­nable et le classe par­mi l'élite des logi­ciels de MSA. La réelle dif­fé­rence entre MUSCLE et MAFFT vient du fait que MUSCLE a été conçu par un seul homme : Robert Edgar. Ce génie de l'informatique n'en est pas à son coup d'essai et je dois dire que c'est ce qui m'a fait pré­fé­rer MUSCLE à MAFFT pour mes ana­lyses. Mais il s'agit ici d'un choix à base de convic­tions per­son­nelles et pas for­cé­ment très scien­ti­fique, je vous l'accorde.

MUSCLE a vu le jour en 2004 et sa ver­sion actuelle date de mai 2010 (v3.8.31). À noter éga­le­ment que Robert Edgar fait par­ti des per­sonnes affir­mant que de trop grands jeux de don­nées à ali­gner ensemble ne mènent à pas grand chose. Je le rejoins un peu sur cette pen­sée, mais on pour­rait alors se deman­der com­ment clus­te­ri­ser un grand ensemble de séquences en de plus petits groupes plus conve­na­ble­ment ali­gnables entre eux quand il s'agit, par exemple, de gènes encore très peu connus…

Exemple d'utilisation en ligne de commande :

Tout comme MAFFT, rien de plus simple à com­prendre et, éga­le­ment comme son rival, pas mal d'options à décou­vrir ici pour para­mé­trer vos futurs MSA.

Clus­tal Ome­ga (ou Clus­ta­lO) :

Alors là, pour ne rien vous cacher, ce logi­ciel a été pour moi la décou­verte de l'année 2011 ! Enfin la mai­son Clus­tal s'est déci­dée à pro­po­ser un logi­ciel de MSA digne de ce nom sui­vant les traces de son digne ancêtre ClustalW2 et rat­tra­pant (voire même dépas­sant) leurs concur­rents.

Les tests que j'ai pus réa­li­ser des­sus sont tout bon­ne­ment bluf­fants : rapide d'exécution et erreurs d'alignement en chute nette. Pour moi, c'est LE logi­ciel à uti­li­ser pour un MSA pro­téique (il ne gère mal­heu­reu­se­ment pas encore les séquences nucléo­ti­diques). Il est sor­ti en octobre der­nier et les amé­lio­ra­tions ne man­que­ront pas de venir à la pelle d'ici peu, j'espère. Vous l'aurez com­pris, j'attends beau­coup de ce nou­veau jou­jou.

Je ne peux mal­heu­reu­se­ment pas vous pré­sen­ter un exemple d'utilisation en ligne de com­mande pour la simple et bonne rai­son qu'il n'a pas encore été ajou­té sur Vital-IT (mon clus­ter de cal­cul du tra­vail) et que sa ver­sion Mac n'est pas encore au top… (pas de troll dans les com­men­taires, svp 🙂 ). Donc, quand j'en ai besoin, je me per­mets d'utiliser le clus­ter de l'EBI qui est assez per­mis­sif pour un visi­teur de l'extérieur.

Enfin, à ceux pour qui mes simples dires ne suf­fi­raient pas à les convaincre (et je peux les com­prendre), je les invite à lire la publi­ca­tion de Clus­ta­lO où ils pour­ront retrou­ver plu­sieurs tests com­pa­ra­tifs avec chiffres à l’appui (dis­po­nible en fin d’article).

Autres logiciels à envisager :

Je vous ai donc pré­sen­té mon podium des logi­ciels de MSA mais il en existe encore beau­coup d'autres que j'ai éga­le­ment essayé pour la plu­part et qui n'ont pas réus­si à rete­nir mon atten­tion pour x rai­sons. Je vais seule­ment me conten­ter de vous don­ner une liste non exhaus­tive, libre à vous d'aller plus loin avec eux ou pas : DIALIGNProb­Cons, T‑Coffee, GBlocks, Kali­gn, MaxA­li­gn, Tri­mAl …

J'ai bien joué avec tout ça mais… et maintenant ?

Un der­nier point avant de "rendre l'antenne" : com­ment visua­li­ser et ana­ly­ser les ali­gne­ments que vous avez pro­duits avec un ou plu­sieurs des logi­ciels que je vous ai pré­sen­té ?

Encore une fois, plu­sieurs logi­ciels peuvent être envi­sa­gés pour cette tâche, mais je ne vais vous en pré­sen­ter qu'un seul qui, selon moi, fait tout le tra­vail deman­dé bien comme il faut. Pas plus de sus­pens, le gagnant n'est autre que le célèbre Jal­view.

Pour ne citer qu'eux, l'EBI et Pfam l'utilisent pour mettre en lumière les résul­tats des ali­gne­ments pro­po­sés sur leurs web-ser­vices. Bref, l'essayer c'est l'adopter, alors à vous de jouer !

Bon, et puisqu'on est entre nous et que ça ne sor­ti­ra pas de la famille, je me décide même à vous faire par­ta­ger une de mes der­nières trou­vailles pour ce qui est de la visua­li­sa­tion des MSA et de leur ana­lyse.

Je vous pré­sente donc JDet.

Il s'agit d'un outil qui, comme Jal­view, per­met la visua­li­sa­tion des don­nées mais qui se démarque en per­met­tant à l'utilisateur d'appliquer un algo­rithme de clus­te­ri­sa­tion sur l'alignement. Ain­si, en appli­quant cette méthode vous voyez votre ali­gne­ment se clus­te­ri­ser et cela vous per­met de gagner un cer­tain temps sur le "data­mi­ning" ain­si que sur l'analyse des don­nées.

Je ne l'ai encore pas tes­té dans sa pro­fon­deur mais le peu que j'en ai vu m'a sem­blé convain­cant, donc je me per­met de vous en par­ler. De plus, si quelqu'un l'a déjà uti­li­sé ou a un quel­conque retour/​avis mer­ci de vous mani­fes­ter dans les com­men­taires par exemple.

Bref, qu'on se le dise : à par­tir de là le tra­vail n'est pas fini. On peut choi­sir de s'arrêter là c'est sûr, mais je trouve cela dom­mage… En effet, il peut être inté­res­sant et beau­coup plus facile d'analyser ces résul­tats de MSA grâce à la géné­ra­tion d'arbres phy­lo­gé­niques.

Mais ça, c'est une autre histoire…ou plu­tôt : un autre article 😉

Le mot du guide

En espé­rant que ça pour­ra en aider quelques-uns, je vous laisse sur ces mots et vous invite à venir en dis­cu­ter plus en détails si vous le sou­hai­tez par le biais des com­men­taires ou encore sur notre canal IRC (#bioin­fo-fr).

[Mise à jour après publi­ca­tion] :

Il est vrai que je ne vous ai pas men­tion­né l'existence de Sea­view, un logi­ciel conçu par le LBBE à Lyon. J'ai eu l'occassion de le tes­ter éga­le­ment. Je l'ai trou­vé très bien et n'ayant rien à envier à ses "concur­rents". Par ailleurs, il s'est avé­ré que sur ma machine (un Mac­Book Pro de 2010) il avait de fâcheuses ten­dances à plan­ter un peu trop sou­vent sur les ana­lyses de gros jeux de don­nées. C'est prin­ci­pa­le­ment ce qui m'a fait aller voir ailleurs, mais aus­si le fait qu'il n'était pas pré­sent sur mon clus­ter de cal­cul. De plus, je reste per­sua­dé que sur un GNU/​Linux celui-ci doit bien tour­ner. La marque de la pomme cro­quée à aus­si ses fai­blesses… (ou avec la ver­sion 64 bits appa­rem­ment). Je vous ren­voie aux com­men­taires pour le décou­vrir un peu plus, et à son site web.

Mer­ci à Julien pour m'avoir rap­pe­lé à l'ordre.

Les publications des logiciels nommés dans cet article

ClustalW2 : Lar­kin MA, Black­shields G, Brown NP, Chen­na R, McGet­ti­gan PA, McWilliam H, Valen­tin F, Wal­lace IM, Wilm A, Lopez R, Thomp­son JD, Gib­son TJ, Hig­gins DG. (2007). "Clus­tal W and Clus­tal X ver­sion 2.0." Bio­in­for­ma­tics, 23, 2947–2948.

MEGA : Tamu­ra K, Peter­son D, Peter­son N, Ste­cher G, Nei M, and Kumar S (2011) "MEGA5 : Mole­cu­lar Evo­lu­tio­na­ry Gene­tics Ana­ly­sis using Maxi­mum Like­li­hood, Evo­lu­tio­na­ry Dis­tance, and Maxi­mum Par­si­mo­ny Methods." Mole­cu­lar Bio­lo­gy and Evo­lu­tion 28 : 2731–2739.

MAFFT : Katoh, Misa­wa, Kuma, Miya­ta (2002). "MAFFT : a novel method for rapid mul­tiple sequence ali­gn­ment based on fast Fou­rier trans­form. (des­cribes the FFT-NS‑1, FFT-NS‑2 and FFT-NS‑i stra­te­gies)Nucleic Acids Res. 30:3059–3066

MUSCLE : Edgar, R.C. (2004) "MUSCLE : a mul­tiple sequence ali­gn­ment method with redu­ced time and space com­plexi­ty" BMC Bio­in­for­ma­tics, (5) 113.

Clus­ta­lO : Sie­vers F, Wilm A, Dineen DG, Gib­son TJ, Kar­plus K, Li W, Lopez R, McWilliam H, Rem­mert M, Söding J, Thomp­son JD, Hig­gins DG (2011). "Fast, sca­lable gene­ra­tion of high-qua­li­ty pro­tein mul­tiple sequence ali­gn­ments using Clus­tal Ome­ga." Mol Syst Biol 7.

DIALIGN : B. Mor­gens­tern (2004). "DIALIGN : Mul­tiple DNA and Pro­tein Sequence Ali­gn­ment at BiBi­Serv." Nucleic Acids Research 32, W33-W36.

Prob­Cons : Do, C.B., Mahabha­shyam, M.S.P., Brud­no, M., and Bat­zo­glou, S. (2005). "PROBCONS : Pro­ba­bi­lis­tic Consis­ten­cy-based Mul­tiple Sequence Ali­gn­ment." Genome Research 15 : 330–340.

T‑Coffee : Notre­dame C, Hig­gins DG, Herin­ga J.(2000). "T‑Coffee : A novel method for mul­tiple sequence ali­gn­ments." JMB,302(205–217)

GBlocks : Tala­ve­ra, G., and Cas­tre­sa­na, J. (2007). "Impro­ve­ment of phy­lo­ge­nies after remo­ving divergent and ambi­guous­ly ali­gned blocks from pro­tein sequence ali­gn­ments." Sys­te­ma­tic Bio­lo­gy 56, 564–577. 

Kali­gn : Lass­mann T., Frings, O. and Erik L.L. Sonn­ham­mer (2009). "Kalign2 : high-per­for­mance mul­tiple ali­gn­ment of pro­tein and nucleo­tide sequences allo­wing exter­nal fea­tures."  Nucleic Acids Research, 37:858–865

MaxA­li­gn : Gou­veia-Oli­vei­ra R, Sackett P W, Peder­sen A G (2007). "MaxA­li­gn : maxi­mi­zing usable data in an ali­gn­ment." BMC Bio­in­for­ma­tics, 8:312

Tri­mal : Sal­va­dor Capel­la-Gutier­rez ; Jose M. Silla-Mar­ti­nez ; Toni Gabal­don (2009). "tri­mAl : a tool for auto­ma­ted ali­gn­ment trim­ming in large-scale phy­lo­ge­ne­tic ana­lyses." Bio­in­for­ma­tics 25 : 1972–1973.

Jal­view : Clamp, M., Cuff, J., Searle, S. M. and Bar­ton, G. J. (2004), "The Jal­view Java Ali­gn­ment Edi­tor," Bio­in­for­ma­tics, 20, 426–7

JDet : Thi­lo Muth, Juan A. Gar­cia-Mar­tin, Anto­nio Rau­sell, David Juan, Alfon­so Valen­cia & Flo­ren­cio Pazos (2011). "JDet : Inter­ac­tive cal­cu­la­tion and visua­li­za­tion of func­tion-rela­ted conser­va­tion pat­terns in mul­tiple sequence ali­gn­ments and struc­tures." Muth et al. (2012). Bio­in­for­ma­tics 28 (4): 584–586.

Vous avez aimé ? Dites-le nous !

Moyenne : 0 /​ 5. Nb de votes : 0

Pas encore de vote pour cet article.

Partagez cet article :




Commentaires

14 réponses à “Alignements multiples : quels logiciels choisir ?”

  1. LE cou­teau-suisse du trai­te­ment de séquences :

    SEAVIEW du LBBE à Lyon (http://​pbil​.univ​-lyon1​.fr/​s​o​f​t​w​a​r​e​/​s​e​a​v​i​e​w​.​h​tml)

    Très facile d'accès et com­plè­te­ment gra­tuit, ce logi­ciel per­met entre autre de :
    1- Visua­li­ser vos séquences nucléiques ou pro­téiques, chan­ger la taille de la police, la cou­leur de codage,
    2- Com­plé­men­ter, "Rever­ser", modi­fier les U en T, sup­pri­mer les régions GAP,
    3- Tra­duire une séquence nucléique en pro­téique,
    4- Ali­gner vos séquences ou une sélec­tion de sites à par­tir de CLUSTAL ou MUSCLE
    5- Modi­fier manuel­le­ment l'alignement, sup­pri­mer les régions ali­gnées com­po­sées uni­que­ment de GAPS,
    6- Sélec­tion­ner et défi­nir des groupes de sites conser­vés,
    7- Construire un arbre phy­lo­gé­né­tique à par­tir de nom­breuses méthodes de cal­cul de dis­tance (par­si­mo­nie, dis­tance, maxi­mum de vrai­sem­blance)
    8- Visua­li­ser du den­dro­gramme, modi­fier de l'enracinement, de la dis­po­si­tion des branches dans l'arbre, visua­li­ser les scores de boots­traps ou les dis­tances des branches,
    9- Et bien d'autres fonc­tions que je n'utilise pas…

    Ce logi­ciel accepte la majo­ri­té des for­mats de fichiers de séquences et pos­sède une inter­face à mon sens très intui­tive (pos­si­bi­li­té de faire du copier/​coller, de faire glis­ser des séquences dans la fenêtre, etc.).

    Et si vous vou­lez ensuite tra­vailler votre arbre et y ajou­ter des méta­don­nées, essayer Tree­dyn (www​.tree​dyn​.org/) mais ce n'est plus le sujet du forum 🙂

    1. Yoann M.
      Yoann M.

      Bon­jour et mer­ci pour votre mise au point.
      En effet il était pré­vu que je parle de Sea­view, car je l'ai éga­le­ment uti­li­sé, mais pour une rai­son obs­cure il a dis­pa­ru entre mon plan d'article et sa rédac­tion…
      Je vais donc édi­ter l'article pour le rajou­ter. Cela dit, pour le tra­vail qui m'était deman­dé celui-ci ne me conve­nait pas. En effet, de mémoire il plan­tait assez fré­quem­ment sur des longs jeux de séquences…

      1. La ver­sion 64-bit devrait résoudre ce pro­blème.

        1. Yoann M.
          Yoann M.

          Ok !
          La mise à jour vous convient-elle ? 🙂

          1. Par­fait 🙂

  2. Article très com­plet. Bra­vo !

  3. Rien sur PRANK, qui domine les com­pa­ra­tifs récents ?

    1. Yoann M.
      Yoann M.

      Bon­jour et mer­ci pour votre inté­rêt.
      Je ne l'ai pas cité, car je ne l'ai pas uti­li­sé. A vrai dire je le découvre un peu avec votre com­men­taire et je vais donc m'y inté­res­ser de plus près. Je pense qu'il aura sa place dans un futur article, dans notre pro­chaine rubrique en cours de créa­tion 'Outils bio­in­for­ma­tique'.
      Par ailleurs, peut-être que vous avez des retours/​avis per­son­nels sur PRANK à nous faire par­ta­gé. Si c'est le cas j'en serai très heu­reux. Domine-t-il encore même avec l'arrivée récente de Clus­ta­lO ?

  4. Avatar de Jacques D
    Jacques D

    Bon­jour,
    article ins­truc­tif avec des objec­tifs louables.
    Peut-être serait il inté­res­sant de décou­vrir éga­le­ment Lagan et Mla­gan.
    J'ai uti­li­sé Mla­gan à grande échelle pour ali­gner des dizaine de séquences de plus de 50 000 nucléo­tides. Je trouve qu'il est très rapides et donne des résul­tats convain­quants.

    Michael Brud­no, Chuong Do, Gre­go­ry Cooper, Michael F. Kim, Eugene Davy­dov, Eric D. Green, Arend Sidow and Sera­fim Bat­zo­glou
    LAGAN and Mul­ti-LAGAN : effi­cient tools for large-scale mul­tiple ali­gn­ment of geno­mic DNA, Genome Research 2003 Apr;13(4):721–31.

    http://​lagan​.stan​ford​.edu/​l​a​g​a​n​_​w​e​b​/​i​n​d​e​x​.​s​h​tml

    1. Yoann M.
      Yoann M.

      Bon­jour et mer­ci pour vos remarques.
      Je n'ai pas la chance de connaitre ce logi­ciel, je vais donc m'y inté­rés­sé dès que j'aurai un peu de temps libre !
      Mer­ci pour le com­pé­le­ment d'information et pour la docu­men­ta­tion.

  5. Avatar de afef najjai
    afef najjai

    Bra­vo.…

  6. bon­jour,
    Mer­ci pour votre article c'est très inté­res­sant.
    j'ai un fichier de longues séquences et un autre de petites séquences. Je veux faire un ali­gne­ment mul­tiples des petites séquences sur les longues séquences.
    Est-ce que vous pou­vez me sug­gé­rer le bon logi­ciel ?
    Mer­ci pour votre réponse

  7. Bon­jour mer­ci itou pour ces infos.
    J'ai non seule­ment des longues séquences (30kb) mais aus­si en grand nombre (220 000): don­nées covid. Par contre, elles ont une faible diver­gence entre elles, si ce n'est qu'elle ne démarrent et finissent pas tout à fait au même endroit. Un logi­ciel qui ne plan­te­rait pas ? Peut-être avec un algo­rithme séquen­tiel ? Mer­ci

    1. Yoann M.
      Yoann M.

      Bon­jour,

      Ça fait un moment que je n'ai pas remis les doigts dans les ali­gne­ments mul­tiples mais à l'époque de l'article les softs qui s'en sor­taient le mieux étaient MUSCLE, MAFFT et Clus­tal Omé­ga…
      Après peut-être qu'une stra­té­gie de clus­té­ri­sa­tion en pre­mier lieu dans votre cas (faire des petits lots par­mi votre set final de 220 000) pour­rait être une pre­mière solu­tion rapide.
      En tout cas, si jamais vous trou­vez un logi­ciel qui per­met de solu­tion­ner votre pro­blème n''hésitez pas à venir nous en faire un retour en com­men­taire, et pour­quoi pas un article à part entière ! Le pro­blème doit inté­res­ser d'autres scien­ti­fiques !
      Bon cou­rage dans vos recherches.

Laisser un commentaire