Je dois l'avouer : ce mois est un cauchemar. Il y avait une tonne de choses passionnantes ! Alors, le choix d'en laisser certains en dehors m'a causé des nuits blanches… Je plaisante. J'en ai choisi donc quelques-unes espérant que le mélange gourmand et croquant fasse de l'ombre aux émissions culinaires de M6 (clin d'oeil aux Guignols). Bonne lecture !
Quelques papiers intéressants sont parus en avril dans Nature Methods. Je voudrais en aborder quelques-uns un peu plus en détails ici. Ils traitent de diverses facettes du séquençage. Ainsi, une brève présentation du "magnetic sequencing" m'a faite rêver :). En gros, au lieu de mesurer l'intensité de fluorescence résultant de l'incorporation d'une base dans une molécule nouvellement synthétisée, Ding et al. mesurent le changement de longueur d'une molécule d'ADN en forme d'épingle à cheveux accrochée à une surface de verre d'un côté et à une bille magnétique de l'autre.
L'avantage d'une telle approche — que je ne détaillerai pas ici, mais que je vous invite vivement à lire dans le papier original — est de transformer le problème complexe qu'est la mesure d'intensité de fluorescence à partir d'une molécule unique en un problème beaucoup plus simple. Aussi, les auteurs comparent quelques méthodes différentes avec lesquelles obtenir la séquence de la molécule à partir des changements de longueur qu'elle subit. Cette approche reste néanmoins à l'étape de "proof of concept" et risque de ne pas tenir face au séquençage type nanopore en termes de longueur des reads produits et de leur quantités. Les possibilités qu'elle ouvre à l'avenir seraient ainsi plutôt du côté de la détection de SNP, entre autres, plutôt qu'au niveau du rendement.
Dans la série "Technology Feature", un article intéressant à l'intention de tout le monde (même s'il prétend ne viser que les biologistes) : l'essentiel à savoir quand on fait de l'assemblage de génomes de novo. Dans une sorte de mélange entre entretiens et retours d'expérience, l'auteure aborde des points essentiels tels que les différences de longueur de reads entre le séquençage Sanger et les méthodes 2.0, la profondeur de séquençage mais surtout : comment juger de la qualité d'un assemblage, pourquoi utiliser des données additionnelles disponibles telles que le transcriptome, l'intérêt de la comparaison d'assemblages alternatifs (c.-à‑d., faits par des outils différents), etc. Mon avis personnel est que ce papier constitue une introduction en la matière très claire et accessible — à donner aux étudiants en Master, par exemple 😉 . Les conseils synthétisés dans l'encadré 1 peuvent constituer un contrôle qualité et un guide utiles pour les gens qui doivent se dépatouiller avec ce problème.
Le mois dernier, je vous avais pointé une Opinion sur les heatmaps. Les mêmes auteurs récidivent donc ce mois-ci, parlant de façon un peu plus globale de l'intégration de données et des différentes approches de visualisation de type graphe. Il est question des heatmaps mais aussi de diagrammes de type noeuds connectés. L'utilisation des uns plutôt que des autres est discutée et des recommandations sont faites pour que les images que l'on publie dans les papiers ne soient pas là juste pour faire joli.
Avant de passer à des choses plus pratiques et triviales, j'insiste pour vous mentionner deux papiers qui me semblent très importants. Le premier est l'éditorial de Nature Methods qui en quelque sorte met en garde contre la rapidité époustouflante à laquelle on saute de techno en techno. L'éditorialiste — malgré le ton un peu trop pathétique à mon goût — rappelle à juste titre que ce n'est pas parce qu'on va avoir des machines qui vont cracher davantage de reads qu'on va forcément améliorer les analyses telles que l'assemblage de génomes. Ainsi, il est crucial de prendre en compte cette complexité croissante des données que nous avons entre les mains et de l'intégrer à notre façon de travailler. Par exemple, on doit faire attention à la qualité des données à partir desquelles un génome est assemblé lorsqu'on planifie des expériences sur une question biologique particulière. La transparence d'analyse, l'approbation de protocoles communs et la création de standards émergent ainsi comme les choses à améliorer incessamment sous peu. Affaire à suivre, donc…
L'autre papier dont je voulais vous parler est lié aux statistiques. Oui, le cliché veut que les biologistes soient des innocents qui se sauvent en courant dès qu'une formule se pointe et que les gens qui "font de l'ordinateur" sont les manitous des chiffres. Comme je l'ai dit, il s'agit de clichés, donc de figures souffrant d'un réductionnisme affligeant et ainsi, fausses :). L'éditorial d'EMBO reports présente un article très bien écrit qui parle de statistiques significatives et du pourquoi des répliques et des répétitions. Il aborde les questions de base — et non pas "basiques" au sens "élémentaires" 😉 — de comment planifier une expérience : combien de fois devrait-on refaire la mesure machine, comment créer de vraies répliques indépendantes pour s'assurer que la variation biologique que l'on observe à la fin soit véritablement due à la source biologique et ne soit pas un artéfact ou une erreur de mesure, comment présenter ces données de façon correcte statistiquement parlant (pour les gens qui l'oublient : les expériences impliquant du séquençage 2.0 requièrent des répliques). Ce papier est à l'intention des biologistes. Nous, en tant que bioinformaticiens, en avons sacrément besoin aussi : il ne suffit pas de savoir pondre scripts sur scripts ou de croire dur comme fer que ce que sort le R cryptique doit bien être vrai, il nous faut le comprendre 🙂 .
Après cette envolée lyrique, revenons sur Terre avec quelques trucs pratiques. En parlant séquençage et stats, je voulais vous signaler ce papier décrivant un outil de Bioconductor qui vise à éliminer les méchants "batch effects". Pour les gens qui ne savent pas ce que c'est : il s'agit de variation introduite dans l'expérience par les personnes qui l'ont faite ou par les jours où elle a été faite, par exemple. Ainsi, si vous avez des données brutes qui se groupent en fonction de la personne qui a fait la manip' et non pas en fonction de la condition testée, vous avez affaire à un batch effect. C'est moche, c'est dur à corriger… et les gens ne les corrigent presque jamais. Il y avait un outil pour éliminer des effets pareils dans le cas de données de microarrays, voici que des gens ont créé un outil semblable pour des données issues d'expériences à grande échelle.
Dans la série outils, je voudrais vous signaler la sortie de Bowtie2 (un des logiciels le plus couramment utilisés pour aligner des reads au génome/transcriptome) et de Mapsembler. Ce dernier est écrit par des gens que certains ici connaissent fort bien (Pierre Peterlongo de l'INRIA, organisateur de JOBIM entre autres) et permet de faire de l'assemblage à partir de données de séquençage 2.0 sur un pc de bureau. Rapidement sur Bowtie2 quand même : il est surtout optimisé pour les reads de type "paired end" et introduit quelques améliorations notables au niveau des alignements à trous. Si nous avons le temps, on le testera pour vous 🙂 .
Alors, pour finir en beauté : parlons fleurs ! Oui, c'est le printemps. Un papier très sympa est sorti dans Bioinformatics présentant une manière astucieuse d'identifier des gènes de métabolisme chez Arabidopsis. Autrement dit, les auteurs posent la question de la caractérisation des relations entre gènes dans des jeux de données multidimensionnelles. Cette question n'est pas seulement technique (elle ne se pose pas seulement en termes de puissance de calcul requis) : il s'agit de pouvoir identifier/inférer des interactions intergéniques en prenant en compte les influences d'un ensemble de gènes avec des fonctions connues. Ce dernier est ainsi pris comme "seed", c.-à‑d. amorce du modèle, qui guide la détection des autres gènes. Avertissement amical : ne pas se plonger dans les stats du papier si votre moral n'est pas au beau fixe, le danger de dépression est réel.
C'est tout pour cette fois… mais je serai de retour en mai 🙂 . D'ici là, n'hésitez pas à vous plonger dans le monde merveilleux de la biblio !
Laisser un commentaire