Les arbres phylogénétiques : construction et interprétation

2 août 2012

par

Après avoir discuté des alignements multiples (MSA), il s'avérait logique de vous présenter l'étape suivante : la construction d'arbres phylogénétiques. Je précise que je ne parlerai ici que de phylogénie moléculaire.

Le but de la phylogénie est de comprendre les relations de parenté, de retracer l’historique évolutif d’un gène, d’une famille de gènes ou d’une espèce. Les arbres phylogénétiques sont une très bonne manière de schématiser et d'appréhender ces relations rapidement. Leur interprétation est également assez aisée du moment que l'on connait leur nomenclature. Avant de vous expliquer celle-ci, je me pencherai donc d'abord sur comment les réaliser.

Arbre phylogénétique : définition / petit rappel

Willi Hennig. Crédit : Wikipédia (CC-by-SA 3.0)

Historiquement, les premières personnes ayant démocratisé la visualisation sous forme d'arbre sont les généalogistes et les naturalistes. De plus, Charles Darwin les réutilisa allègrement en 1859 dans son ouvrage devenu référence De l'origine des espèces. Mais si l'on cherche le précurseur historique, c'est en réalité Willi Hennig, père de la cladistique, qui a réussi à démocratiser les arbres phylogéniques.

Comme en généalogie où les arbres sont utilisés pour visualiser les relations de parenté, les arbres sont un très bon moyen de faire ressortir l'évolution d'une ou plusieurs espèces.

Attention, cela ne veut absolument pas dire que généalogistes et évolutionnistes utilisent les arbres de la même manière : ils se servent juste du même moyen de visualisation. Nous découvrirons plus loin comment interpréter un arbre phylogénique.

Comment générer un arbre phylogénique ?

Avant de générer un arbre phylogénique, il faut savoir ce que l'on cherche à voir/à montrer et se poser les bonnes questions. La première de ces questions est de savoir si la visualisation en arbre est la meilleure pour nos données. En effet, cela ne sert à rien de vouloir construire un arbre si les séquences que l'on a en main sont trop éloignées en terme d'évolution. Mais si la réponse est oui, il faut alors considérer le degré de précision désiré : cherche-t-on à obtenir une phylogénie rigoureuse ou simplement à 'se faire une idée' sur nos données ? En effet, en fonction des besoins, plusieurs méthodes de génération d'arbres employant différents algorithmes existent et peuvent être utilisées.

S'appuyer sur des méthodes connues

Outils. Crédit : zzpza sur Flickr (CC-by 2.0)

Voici un aperçu de ces méthodes. J'aurai pu faire le choix de toutes les détailler mais la taille de l'article aurait été conséquente et tout n'aurait pas forcément été traité. Il faudrait un article sur chaque méthode pour bien saisir les subtilités de chacune d'entre elles. Cela viendra peut-être un jour, mais en attendant je vous laisse vous contenter de cette liste avec un petit résumé pour chaque méthode et un tableau récapitulatif en fin de listing :

- la méthode UPGMA (Unweighted Pair Group Method with Arithmetic Mean) est une méthode dite de distance, c'est-à-dire une méthode basé sur les similarités entre paires de séquences. Elle a vite été délaissée au profit de sa cousine (NJ) qui est plus adaptée aux études phylogéniques moléculaires.

la méthode du Neighbour Joining (Neighbor Joining- NJ) : c'est aussi une méthode de distance, elle a l'avantage d'être vraiment rapide. En général, elle est utilisée pour faire des arbres de plusieurs milliers de séquences.
la méthode du maximum de vraisemblance (Maximum Likelihood- ML) : c'est une méthode dite de caractère(s), elle repose sur un ou plusieurs caractères à étudier. Il s'agit d'une méthode probabiliste qui nécessite un modèle d’évolution. Le choix de ce modèle est crucial pour la qualité de l’arbre obtenu. On dit qu'il convient de l'utiliser à partir du moment où le nombre de caractères analysés est supérieur à la moitié du nombre de séquences analysées, sinon la reconstruction est considérée comme incorrecte. Elle est souvent décrite comme étant la meilleure méthode, c'est-à-dire la plus efficace pour trouver l'arbre le plus proche de la réalité. Son désavantage se situe au niveau des temps de calculs qui sont extrêmement longs (il m'est arrivé d'avoir des jobs tournant sur le cluster pendant plusieurs semaines pour des fichiers contenant plusieurs centaines de séquences).
la méthode du maximum de parcimonie (Maximum Parcimony) : elle est très appréciée car rapide en temps de calcul, mais pas aussi précise que sa cousine (ML). Comme souvent donc, on gagne du temps de calcul mais on perd de la précision.

D'autres méthodes apparaissent régulièrement comme celles basées sur de l'apprentissage artificiel (via un réseau de neurones comme ici ou là par exemple) ou encore de l'inférence bayésienne comme dans le logiciel MrBayes qui est très utilisé. Néanmoins, les méthodes principalement utilisées restent la NJ et la ML.

Quand utiliser ces méthodes ?

Toutes les méthodes énoncées plus haut peuvent (et je dirais même doivent) être complétées par un bootstraping (bootstrap). Il s'agit d'un dérivé des simulations de Monte-Carlo, qui consiste à échantillonner les positions de l'alignement pour relancer la construction phylogénétique de façon itérative puis de comparer les résultats obtenus après 10, 100, 5000 répétitions. Il s'agit ici d'estimer la robustesse d'une phylogénie. Vous pourrez ainsi voir apparaître entre chaque branche de votre arbre une valeur de bootstrap (de 0 à 100%) traduisant le nombre de fois où cette branche a été retrouvée au fil des répétitions et juger ainsi de leur crédibilité. On dit en général qu'une valeur en dessous de 95 n'est pas à prendre en compte. Suivant les cas, on pourra revoir ce seuil (cut-off) à la baisse et bien souvent on se contentera d'un bootstrap d'environ 70 (plus ou moins).

Il faudra donc retenir ceci : vous devrez sélectionner votre méthode en fonction de vos données et de vos besoins. De même, le facteur temps peut rentrer en jeu : peut-être vous demandera-t-on d'être plus rapide que précis dans un premier temps. Vous privilégierez alors la méthode NJ à défaut de la ML qui serait pourtant plus pertinente.

Mon petit conseil dans ce cas là : lancez les deux générations d'arbres avec les deux méthodes différentes en même temps, vous obtiendrez le résultat NJ en premier et pourrez vous débrouiller grossièrement avec. Puis, lorsque le ML sera fini, vous pourrez très bien comparer vos deux arbres (avec le magnifique TreeJuxtaposer par exemple) et avoir un résultat plus proche de la réalité.

Le fichier d'entrée (input)

Pour obtenir un bel arbre final, il est important de s'assurer tout d'abord de la qualité de l'alignement que l'on fourni en entrée. Il est donc primordial de vérifier que votre alignement est bien réalisé. Sans cela, votre arbre n'en sera que de plus mauvaise qualité et vos interprétations le seront donc également.

Vérifiez donc que ce que vous avez aligné (ADN ou acides aminés) est assez similaire et que l'alignement de ces séquences signifie bien quelque chose. En d'autres termes : si vous alignez des séquences codant pour l'insuline chez le chameau avec des séquences liées à la production de venin chez les serpents, ne soyez pas étonnés de ne rien apprendre… 🙂

Encore une fois, j'insiste mais c'est utile, posez-vous les bonnes questions : mon alignement est-il assez bon (j'entends par là qu'il faut que les séquences aient suffisamment de similarité pour qu'on puisse supposer un lien d'homologie entre elles) ? Les espèces/gènes/protéines étudiés sont-ils proches, très proches ou je n'en sais absolument rien ? Un arbre m'apportera-t-il les réponses à mon problème ?

Les formats de fichiers existants (output)

Deux formats de fichiers prédominent dans la génération d'arbres phylogénique : le Nexus et le Newick. Que ce soit autant pour l'un que pour l'autre, les deux types de formats ne sont pas forcément très digestes quand on se plonge dedans. J'ai par ailleurs une petite préférence pour le Newick. Même si au final le choix revient bien souvent au logiciel que l'on utilise pour visualiser l'arbre et à sa capacité à lire l'un ou l'autre.

Le Nexus est organisé en blocs. Chaque bloc commence de la sorte "begin <nom du bloc>;" et fini par "end;". En voici un exemple :

#NEXUS

Begin trees ;

Translate

1 gene_A,

2 gene_B,

3 gene_C,

4 gene_D,

5 gene_E,

6 gene_F,

7 gene_G,

8 gene_H,

9 gene_I,

10 gene_J ;

tree PAUP_1 = [&U] (1,((2,3),((((4,10),(5,8)),(6,9)),7)));

END ;

Et voici ce que donne l'arbre avec iTOL

Le Newick pour sa part ne possède pas cette organisation en blocs et peut être écrit sur une seule et même ligne (parfois donc très longue).

Voici un exemple d'un fichier représentant un arbre au format Newick :

(((seq_A :0.28006,seq_B :0.22089):0.40998,(seq_C :0.32304,

(seq_D :0.58815,((seq_E :0.5807,seq_F :0.23569):0.03586,

seq_G :0.38272):0.06516):0.03492):0.14265):0.63594,(seq_H :0.65866,

seq_I :0.38791):0.32147,seq_J :0.57336);

Et voici ce que donne l'arbre avec iTOL

Vous remarquerez sur ce dernier la présence d'une information en plus : la longueur des branches. Nous verrons comment l'interpréter plus loin.

Les logiciels utilisés pour la création d'arbres phylogéniques

Vous savez maintenant que l'on obtient un arbre à partir d'un alignement qui a du sens, qu'il existe plusieurs méthodes de génération d'arbres et que le format de sortie du fichier (output) n'est pas unique. Bien, maintenant il serait donc temps de s'intéresser à quel programme choisir.

Comme vous pouvez vous en douter, cela dépendra premièrement de la méthode que vous souhaiterez employer mais aussi du format de fichier que vous désirerez en sortie (des convertisseurs existent).

Les logiciels permettant de générer des arbres phylogéniques sont légions (et pour la plupart tous référencés sur cet excellent site). Je ne vais donc pas refaire ce travail d'énumération mais plus vous orienter sur mes préférés pour chaque méthode. Je vous invite bien entendu à discuter de ces choix en commentaire si vous le désirez.

Intéressons-nous donc d'abord aux méthodes dites de distances (généralement la méthode NJ pour la plupart) :

quicktree , rapide et efficace. Il fait parfaitement le boulot. Gère très bien les grandes quantités de séquences. Rien à redire.
MEGA (aussi utilisable en ML), un des pionniers en la matière. Déjà bien décrit à la fin de cet article, je reste sur mes positions et ne vous le conseille que pour des tout petits jeux de données…et encore.
Paup* (aussi utilisable en ML), payant. Je ne l'ai jamais utilisé mais on en entend assez souvent parler.
PHYLIP (aussi utilisable en ML), également un des vieux de la vieille. A fait ses preuves.
BioNJ se combine à Paup ou/et PHYLIP. De bons retours également.

Puis pour les méthodes dites de caractères (ML, Parcimonie) :

RaXML (ou RaXMLGUI pour ceux/celles préférant les clics), mon préféré car il offre un grand nombre d'options possibles et fournit de très bons résultats. Essayez-le !
PHYML, au cas où RaXML ne vous aurait pas entièrement convaincu.
PAML, fait le boulot également.
Porn* pour son nom, j'avoue ne jamais l'avoir essayé 🙂

Au final il se pourrait également que vous fassiez votre choix en fonction des logiciels déjà installés sur votre machine ou votre cluster. Je pense qu'il faut surtout en essayer deux ou trois et comparer les résultats obtenus avec vos jeux de données avant d'en choisir un pour votre workflow habituel.

Comment visualiser son arbre ?

Question... Crédit : Tsahi Levent-Levi sur Flickr (CC-by 2.0) — Question… Crédit : Tsahi Levent-Levi sur Flickr (CC-by 2.0)

Encore une fois, ici, le phylogéniste est confronté à des logiciels par dizaines. Le choix se fera essentiellement sur la capacité de ceux-ci à éditer les arbres affichés (couleurs, longueurs des branches, noms, style d'arbre, etc), sur leur vitesse d’exécution mais aussi sur l'esthétisme final de ceux-ci (un trait noir tout carré et mal fini n'aura aucune chance face à un trait travaillé avec un petit jeu de lumière dessus par exemple). Voici donc une courte présentation de quelques logiciels de visualisation/édition d'arbres :

Dendroscope (petit tutorial bien fait) donne des résultats assez sympas. Il est libre d'accès (vous devez juste demander l'autorisation symbolique de l'utiliser à l'auteur qui vous renverra gentiment une clé). Encore une fois : l'essayer c'est l'adopter. Je ne vous joindrai pas de captures d'écran, tout est sur le site officiel.

- Archaeopteryx, un nom de dinosaure pour un logiciel de visualisation d'arbres évolutifs, quoi de plus normal ? Il ne fait pas partie de mes préférés en raison de son rendu final sur lequel j'aurais pas mal à redire (très années 90) mais se démarque assez sur sa capacité à éditer votre arbre via l'interface. À essayer également.

Treedyn, pour ne rien vous cacher je ne l'ai jamais utilisé. Mais on m'en a dit que du bien. Apparemment on peut presque faire le café avec. J'attends volontiers vos retours si vous connaissez la bête !

-iToL, ici rien besoin d'installer puisque tout se passe sur le serveur de l'EMBL. Un outil merveilleux autorisant pas mal de choses et qui est très facile à prendre en main. Essayez-le vite !

Comment interpréter ce que l'on voit ?

Il faut d'abord savoir ce que l'on cherche…

Ce n'est donc pas vraiment possible de faire un manuel du parfait petit générateur d'arbres phylogéniques de A à Z.

Nous allons donc voir les différentes choses qui peuvent être traitées à partir d'une visualisation d'arbre.

L'analyse à partir des valeurs de bootstrap : si vous avez suivi jusque-là, vous savez que la valeur du bootstrap présente sur votre arbre est importante. En effet, plus celle-ci sera élevée, plus la jonction entre les deux branches étudiées pourra être considérée comme robuste.
L'analyse de la longueur des branches : la longueur des branches horizontales est proportionnelle à la "quantité d'évolution" entre les séquences et leurs ancêtres (unité = nombre de substitutions/site). Sur un arbre phylogénétique, les ancêtres sont représentés par la jonction des branches (2 branches ou plus). Donc, en gros, plus une branche sera longue plus les séquences correspondantes seront éloignées en terme d'évolution par rapport à son ancêtre et entre elles. En général, l'arbre s'assortit d'une échelle de distance mais vous pouvez bien sûr afficher la longueur (comprise entre 0 et 1 la plupart du temps) sur les branches de l'arbre si c'est vraiment un critère important pour votre étude.
Arbre enraciné ou arbre non-enraciné : il faut savoir qu'il est particulièrement difficile d'orienter temporellement les différences parmi les séquences et c'est pour cela que beaucoup de méthodes produisent des arbres non-enracinés. Il existe cela dit plusieurs méthodes pour tenter d'enraciner un arbre phylogénique : on peut choisir d'introduire un groupe (une ou plusieurs séquences) externe à ceux étudiés (on sait alors que la branche reliant ce groupe aux autres peut être considérée comme la racine) ou on peut considérer que toutes les lignées ont évolué de la même manière en même temps et se dire que la racine est le point de l'arbre équidistant de toutes les feuilles. À partir de là, vous pourrez alors choisir la visualisation qui correspondra le mieux à votre étude (phylogramme ou cladogramme de plusieurs sortes possibles).
L'extraction de sous-groupes : parfois, on peut être amené à visualiser des arbres gigantesques. Il peut être intéressant alors de les découper astucieusement en plusieurs parties. Ainsi, vous pourrez peut-être même aller jusqu'à ré-affiner vos alignements en relançant ceux-ci uniquement avec les séquences prises en considération et vous pourrez également affiner votre arbre à partir de vos nouveaux alignements.

J'espère que je ne vous ai pas perdu au fil de ce billet qui je l'espère vous aura permis de comprendre les arbres phylogéniques du début à la fin. Il est évident que je n'ai pas pu tout traiter d'un coup, mais ne vous en faites pas : je reviendrai 🙂

Partagez cet article

Yoann M.

Je suis issu d'une licence de Biologie des Organismes et du Master de Bioinformatique de Bordeaux (Promo 2011). J'ai été bioinformaticien à l'Ecole Polytechnique Fédérale de Lausanne (EPFL) pendant 4 ans. Tout d'abord dans le laboratoire Trono puis dans le laboratoire Duboule, je fus ensuite rattaché à la plateforme de bioinformatique et de biostatistiques de l’EPFL (BBCF) où j'ai développé BioRepo, un LIMS (Laboratory Information Management System) pour les données issues de HTS. J'ai été ensuite en poste en tant que Bioinformaticien/Lead developer au sein de l’Institut de Recherche Technologique BIOASTER à Lyon pendant 9 ans. Je suis aujourd'hui heureux "retraité" de la bioinfo et sur une nouvelle aventure professionnelle en tant que responsable du service Intelligence de la Donnée au Département de l'Ain. Enfin, j'ai l'honneur et la fierté d'être un des co-fondateurs historiques de bioinfo-fr.net et grand supporter des Girondins de Bordeaux (dans la douleur depuis quelques années, mais toujours là !).

Pour continuer la lecture :

Commentaires

30 réponses à “Les arbres phylogénétiques : construction et interprétation”

Hocine Ziam

14 décembre 2012

Excellent résumé, cela ma permis d'avoir une idée claire alors qu'avant je ne distingué plus entre ces tests statistiques. J'aurais aimé lire un petit commentaires sur la signification des valeurs bootstrap, valeur maximum de vraisemblance. Je trouve beaucoup d'auteurs qui utilise dans leurs interprétations ces valeurs alors qu'ils utilisent des arbres de distance génétique ou des Neighbor-joining.

Je vous prie de fournir des éclaircissement sur ces dans la mesure du possible.

Répondre
Yoann M.

14 décembre 2012

Merci Hocine pour votre commentaire.
Je pensais avoir été assez clair pour ce qui est du bootstrap. La technique en elle même est très bien expliquée sur le lien que j'ai proposé dans le paragraphe. Je n'ai pas voulu répété la définition qui me semblait difficilement améliorable. Cependant si vous désirez que je vous explique celle-ci par rapport à un cas concret que vous avez à disposition, j'en serai ravi.
Le bootstrap est très utilisé car très fiable.
Pour ce qui est du maximum de vraisemblance, comme je l'ai dit dans l'article : tout dépend de ce que vous rechercher à montrer.
Par contre, je pense que vous vous trompez (ou alors je ne comprend pas ce que vous dites) : il n'est pas possible d'additionner une méthode dite de Maximum de Vraisemblance (ML) avec une méthode dite de Neighbor-Joining (NJ).
Enfin… oui, dans l'absolu c'est faisable mais ça n'aurait aucun sens.
Comprenez bien qu'ici on parle d'une méthode de caractère (ML) et d'une méthode de distance (NJ). Ces deux méthodes ne sont pas utilisées pour chercher/trouver les mêmes choses.
J'espère vous avoir éclairci dans votre questionnement. N'hésitez pas à aller plus loin dans un autre commentaire si ce n'est pas le cas.
Au plaisir de vous lire !

Répondre
Hocine Ziam

15 décembre 2012

Merci Yoann pour le commentaire. Après avoir lu les informations du site, je comprend bien que chaque méthode utilise des critères différents, donc l'interprétation est fonction des données. Alors j'ai un problème de langage pour l'interprétation. J'ai construit un arbre basé sur ; je vais l'écrire en anglais si vous n'avez pas d'inconvénients ; the average distance using the percentage of identité. ce qui n' a rien a voire avec le NJ. Dans ce cas précis est ce que je peux parlé des valeurs bootstrap (relative aux différentes valeurs de la distance génétique qui s'affiche sur l'arbre)entre les différents groupe. De plus, je ne sais pas est ce que vous êtes prêt à m'aider pour l'interprétation de cette arbre. Si oui je vous prie de me faire parvenir votre mail afin je vous fasse part de document.
Cordialement.

Répondre
Yoann M.

15 décembre 2012

Votre commentaire est assez flou. J'ai l'impression que beaucoup de notions se mélangent malheureusement.
Vous pouvez m'envoyer un mail à admin[at]bioinfo-fr.net avec votre arbre et la manière dont vous l'avez construit.
J'essayerai alors de vous aider à comprendre et interpréter ce dernier.

Répondre
Koffié

11 janvier 2013

Merci pour le cours. Je soushaite savoir quel est l'astuce pour identifier les sous-groupes dans un arbre phylogénétique.

Répondre
1. Yoann M.
  
  15 janvier 2013
  
  Bonjour Koffié,
  
  l'identification de sous-groupes dans un arbre est propre à chaque arbre et à chaque élément étudié. Je ne peux donc pas vous fournir de formule miracle : ça n'existe pas.
  Bon courage dans vos interprétations et merci pour votre commentaire.
  
  Répondre
  1. Vincent Lefort
    
    20 février 2013
    
    A défaut d'avoir une méthode pour identifier des groupes, vous pouvez essayer d'identifier des phylotypes grâce au logiciel du même nom :
    http://www.phylotype.org
    Attention, en plus de l'arbre au format Newick, il faudra vous munir d'un fichier contenant des annotations relatives aux taxa étudiés.
    
    Répondre
    1. Yoann M.
      
      20 février 2013
      
      Bonjour Vincent et merci pour ton commentaire.
      Je ne connaissais pas ton logiciel, mais il me semble qu'il est très récent à en jugé la date de la publication.
      Il faudrait donner un exemple de ce que tu appelles "annotations relatives aux taxa étudiés". Rien que sur le site on ne voit pas qu'il faut ça. Un petit tutoriel manque selon moi.
      Je serai heureux d'essayer phylotype pour des études futures quand tout sera bien expliqué 🙂
      
      Répondre
DIALLO

22 janvier 2013

Slt ! Je suis vraiment très satisfait de parcourir ce site et voir ton brillant résumé en ce qui concerne l’interprétation des arbres phylogénétiques qui m'a toujours coûté de la quinine.
Au fait je suis de la L3 Bio(option Ecologie) mais dans une de nos matières(cladistique)je suis confronté à ces interprétations.
Ton résumé m'a beaucoup servi,je voudrai si le temps te permet de m'approfondir un peu sur l'analyse du boostrap(non pas sur ce qu'on observe au niveau de l'arbre mais au niveau phylogénétique).
Grand merci à toi.

Répondre
1. Yoann M.
  
  22 janvier 2013
  
  Bonjour Diallo,
  Merci pour votre commentaire, je suis heureux de savoir que cet article ait pu vous éclairer.
  Pour l'analyse du bootstrap, je pense en faire un article. Donc dès que j'ai un peu de temps je m'y mettrai. Merci pour ton suivi !
  
  Répondre
Cédric

15 mars 2013

Bonjour,
Merci pour ce tuto qui permet d'avoir une vision plus nette de ce qui se fait en construction d'arbre phylo. J'ai cependant besoin d'un éclaircissement concernant RaXML. Est ce qu'il fait du maximum de parcimonie ? et comment le faire en GUI ?
Merci d'avance.
Cédric

Répondre
1. Yoann M.
  
  15 mars 2013
  
  Bonjour Cédric et merci pour votre commentaire.
  De mémoire RaXML permet bien de faire du maximum de parcimonie mais je ne peux pas vous aider pour la version GUI : je n'utilise que la ligne de commande :/
  Si vous ne trouvez pas votre bonheur avec le GUI voici le manuel de la version "pour barbu" : http://sco.h-its.org/exelixis/oldPage/RAxML-Manual.7.0.4.pdf
  Bonne continuation à vous !
  
  Répondre
lynda

2 septembre 2013

Bonjour,
je voudrais d'abord vous remercier pour votre résumé, y'a plein de trucs que j'ai compris avec vos explications, merci beaucoup.
j'ai une question, quand je fais un bootstrap est ce que c'est sensé que l'arbre soit enraciné ou pas ? en fait avec NJ j'arrive à enracinné l'arbre mais avc bootstrap les espèce s'enmelent (j'ai comme même un 100% sur la branche du outgroup)
merci

Répondre
1. Yoann M.
  
  2 septembre 2013
  
  Bonjour lynda,
  Très heureux que ça puisse t’aider. Pour ce qui est de ta question n’oublie pas une chose : la méthode de bootstrap n’aide pas à dire si la méthode utilisée est bonne, elle te sert juste a appuyer ta démonstration à l’aide de statistiques.
  De plus, la différence entre un arbre non enraciné et un enraciné est que le premier (non-enraciné) sera une représentation intemporelle des relations phylogénétiques, tandis que le second (enraciné) te spécifiera où se situe l’ancêtre commun de tes espèces étudiées.
  J’espère que cela t’aidera un peu plus ! Bonne continuation à toi !
  
  Répondre
  1. lynda
    
    2 septembre 2013
    
    merci pour votre reponse si rapide, en fait j'ai réalisé d'abord l'arbre avec NJ puis j'ai fais le bootstrap pour voir justement la fiabilité des branches obtenus (c'est bien ça n'est-ce pas?) , mais apparemment j'ai pas le même résultats.Alors que avec NJ j'ai mon outgroup et les autres espèces qui ont le même ancêtre (puisque c'est le role même du out group) avc le bootstrap ce dernier s'imbrique au sein même des espèces. voilà je sais pas si c'est un peu clair. merci
    
    Répondre
    1. Yoann M.
      
      2 septembre 2013
      
      Si ton outgroup s'infiltre dans arbre après un bootstrap c'est que la plupart des cas testés ont donné ça comme réponse. Après cela peut te permettre de voir une erreur dans ton/tes hypothèse(s) de départ. Es-tu sure que ton outgroup est très éloigné des autres testés ? Les séquences ne sont-elles pas trop divergentes entre elles ?
      Cela peut venir de plein de chose… Et c'est difficile de te répondre comme ça sans savoir exactement ce que tu cherches à faire et quel jeu de donnée tu as :/
      
      Répondre
      1. lynda
        
        2 septembre 2013
        
        ok!!!merci beaucoup, j'y vois deja un peu plus clair. bonne continuation 🙂
aylan

4 janvier 2015

je vous remercie pour ce résumé qui m'a permis de mieux comprendre pas mal de notions sur la construction d'arbres phylogénétiques et leur analyses ainsi que les méthodes utilisées.
cependant la question que je me pose est la suivante : que doit-on faire après l'obtention de l'arbre (avec application du bootstap,avec utilisation d'une méthode d'inférence adéquate à l'objectif de l'étude biensur)? est ce que on peut passer a l'interprétation directement ou y a til d'autre test a appliquer pour nos résultats ?
merci bq pour ce que vous faites.

Répondre
1. Yoann M.
  
  5 janvier 2015
  
  Bonjour aylan et merci pour votre commentaire.
  En effet vous pouvez vous arreter là afin de passer à l'interprétation. Ou alors vous pouvez peaufiner votre étude en ciblant un ou plusieurs clusters qui apparaitraient grâce à votre arbre et ainsi répéter l'opération sur celui-ci/ceux-ci afin d'avoir quelquechose de peut etre plus précis ciblé uniquement sur les individus présents dans le/les cluster(s) d'intérêts.
  Un très bon début d'année à vous !
  
  Répondre
DIMARTINO

18 novembre 2015

Bonjour !
Je rencontre un gros problème quant aux valeurs de bootstrap. Grâce à vous j'ai très bien compris ce qu'elles signifiaient mais il m'est IMPOSSIBLE après de longues recherches, d'obtenir ces valeurs sur mon arbre. J'ai récupéré mon format Newick et j'ai visualisé mon arbre sur TreeDyn ! Merci par avance de votre précieuse aide.
Cordialement.

Répondre
rima

31 décembre 2017

merci pour cette magnifique clarification, est ce que c'est possible d'avoir le livre "Concepts et méthodes en phylogénie moléculaire

Répondre
Paul

12 septembre 2019

Bonjour, je vais réaliser mon oral de fin de stage du Master 2 de Bioinformatique de Bordeaux demain, j'ai réalisé un stage sur la phylogénie et mis au point un pipeline de construction d'arbre phylogénétique automatisé basé sur des alignements de protéines conservées, nommé Molligeny.

Je voulais juste vous dire que je me suis beaucoup servi de vos résumés sur l'alignement multiple et les arbres phylogénétiques etc… et je viens de voir que vous êtiez dans le même master que moi ! Donc je vous remercie beaucoup pour tout, et vous souhaite bonne continuation 🙂

Répondre
1. Yoann M.
  
  12 septembre 2019
  
  Bonjour Paul,
  
  En effet je suis un ex-bordelais ! Très heureux que cet article t'aie servi malgré ses quelques années maintenant. Je l'avais rédigé dans ce but 🙂
  N'hésite pas à en parler lors de ton oral demain, ça te vaudra surement quelques points en plus 😀 (Marie, si tu nous lis : il est très bien ce petit ! 🙂 )
  
  Et si tu es partant pour un nouvel article qui rafraichirait peut-être un peu celui-là, n'hésite surtout pas !
  
  Répondre
  1. DIEYE
    
    8 juillet 2021
    
    Merci beaucoup c'est vraiment très utile et j'ai beaucoup appris à travers vos explications et je voudrai avoir votre adresse mail si c'est possible
    merci d'avance
    
    Répondre
    1. Yoann M.
      
      8 juillet 2021
      
      Bonjour Dieye,
      
      Heureux de voir que cet article sert toujours ! Vous pouvez communiquer avec moi via le fil de commentaires ici sans problème 🙂
      
      Répondre
Chafia

5 février 2020

Milles Merci !
C'est vraiment bien utile et clairement expliqué.

Très bonne journée & bonne continuation 🙂

Répondre
Sofiane

15 février 2021

Bonjour, petite question ! Quels sont les avantages de fair un arbre phylogénetique en utilisant des données moléculaires plutôt que des caractères dérivés ?

Répondre
1. Yoann M.
  
  4 mars 2021
  
  Bonjour, si je comprends bien votre question je dirais que c'est deux choses différentes : génomique ("données moléculaires") contre phénotypique ("caractères dérivés").
  
  Répondre
ARTHUR KLADOUMBE

16 juin 2021

Bonjour ! Je suis vraiment ému et d'avis de lire cet article. Celà m'a vraiment permis d'aborder les questions en bioinformatique. Ma question est de savoir:1/ quelle sont les matrices de transversion et les matrices de dot-plot utilisées pendant les alignement par paire ? 2/ quels sont les différents modèles d'évolution que l'on peut utiliser pour la construction d'un arbre phylogénétique ?

Répondre
chafouin

15 novembre 2023

Bonjour ! Votre article est réellement captivant et j'aurais bien voulu des réponses à mes questions !

Je voulais savoir quels méthodes utilisés dans le cas ou :

j'ai l'ARN 16S d'une bactérie et je veux la comparer à d'autres bactéries plus ou moins proche
si elles sont du meme genre ou espèce , j'utilise du coup le maximum de vraisemblance ?
et une fois l'arbre élaboré , j'ai du mal à comprendre et à expliquer pourquoi tel ou intel ce retrouve à cette endroit la !

pourriez vous m'aidez ?

je sais que ca n'as pas de lien direct avec votre article mais je tente tout de meme !

Répondre