- Le blog participatif de bioinformatique francophone depuis 2012 -

Revue de presse : Le printemps, les oiseaux et … la biblio

Je dois l'avouer : ce mois est un cau­che­mar. Il y avait une tonne de choses pas­sion­nantes ! Alors, le choix d'en lais­ser cer­tains en dehors m'a cau­sé des nuits blanches… Je plai­sante. J'en ai choi­si donc quelques-unes espé­rant que le mélange gour­mand et cro­quant fasse de l'ombre aux émis­sions culi­naires de M6 (clin d'oeil aux Gui­gnols). Bonne lec­ture !

Quelques papiers inté­res­sants sont parus en avril dans Nature Methods. Je vou­drais en abor­der quelques-uns un peu plus en détails ici. Ils traitent de diverses facettes du séquen­çage. Ain­si, une brève pré­sen­ta­tion du "magne­tic sequen­cing" m'a faite rêver :). En gros, au lieu de mesu­rer l'intensité de fluo­res­cence résul­tant de l'incorporation d'une base dans une molé­cule nou­vel­le­ment syn­thé­ti­sée, Ding et al. mesurent le chan­ge­ment de lon­gueur d'une molé­cule d'ADN en forme d'épingle à che­veux accro­chée à une sur­face de verre d'un côté et à une bille magné­tique de l'autre.

L'avantage d'une telle approche — que je ne détaille­rai pas ici, mais que je vous invite vive­ment à lire dans le papier ori­gi­nal — est de trans­for­mer le pro­blème com­plexe qu'est la mesure d'intensité de fluo­res­cence à par­tir d'une molé­cule unique en un pro­blème beau­coup plus simple. Aus­si, les auteurs com­parent quelques méthodes dif­fé­rentes avec les­quelles obte­nir la séquence de la molé­cule à par­tir des chan­ge­ments de lon­gueur qu'elle subit. Cette approche reste néan­moins à l'étape de "proof of concept" et risque de ne pas tenir face au séquen­çage type nano­pore en termes de lon­gueur des reads pro­duits et de leur quan­ti­tés. Les pos­si­bi­li­tés qu'elle ouvre à l'avenir seraient ain­si plu­tôt du côté de la détec­tion de SNP, entre autres, plu­tôt qu'au niveau du ren­de­ment.

Dans la série "Tech­no­lo­gy Fea­ture", un article inté­res­sant à l'intention de tout le monde (même s'il pré­tend ne viser que les bio­lo­gistes) : l'essentiel à savoir quand on fait de l'assemblage de génomes de novo. Dans une sorte de mélange entre entre­tiens et retours d'expérience, l'auteure aborde des points essen­tiels tels que les dif­fé­rences de lon­gueur de reads entre le séquen­çage San­ger et les méthodes 2.0, la pro­fon­deur de séquen­çage mais sur­tout : com­ment juger de la qua­li­té d'un assem­blage, pour­quoi uti­li­ser des don­nées addi­tion­nelles dis­po­nibles telles que le trans­crip­tome, l'intérêt de la com­pa­rai­son d'assemblages alter­na­tifs (c.-à‑d., faits par des outils dif­fé­rents), etc. Mon avis per­son­nel est que ce papier consti­tue une intro­duc­tion en la matière très claire et acces­sible — à don­ner aux étu­diants en Mas­ter, par exemple 😉 . Les conseils syn­thé­ti­sés dans l'enca­dré 1 peuvent consti­tuer un contrôle qua­li­té et un guide utiles pour les gens qui doivent se dépa­touiller avec ce pro­blème.

Reading time. Crédit : ted_major sur Flickr, CC-by-SA 2.0
Rea­ding time. Cré­dit : ted_​major sur Fli­ckr, CC-by-SA 2.0

Le mois der­nier, je vous avais poin­té une Opi­nion sur les heat­maps. Les mêmes auteurs réci­divent donc ce mois-ci, par­lant de façon un peu plus glo­bale de l'intégration de don­nées et des dif­fé­rentes approches de visua­li­sa­tion de type graphe. Il est ques­tion des heat­maps mais aus­si de dia­grammes de type noeuds connec­tés. L'utilisation des uns plu­tôt que des autres est dis­cu­tée et des recom­man­da­tions sont faites pour que les images que l'on publie dans les papiers ne soient pas là juste pour faire joli.

Avant de pas­ser à des choses plus pra­tiques et tri­viales, j'insiste pour vous men­tion­ner deux papiers qui me semblent très impor­tants. Le pre­mier est l'éditorial de Nature Methods qui en quelque sorte met en garde contre la rapi­di­té épous­tou­flante à laquelle on saute de tech­no en tech­no. L'éditorialiste — mal­gré le ton un peu trop pathé­tique à mon goût — rap­pelle à juste titre que ce n'est pas parce qu'on va avoir des machines qui vont cra­cher davan­tage de reads qu'on va for­cé­ment amé­lio­rer les ana­lyses telles que l'assemblage de génomes. Ain­si, il est cru­cial de prendre en compte cette com­plexi­té crois­sante des don­nées que nous avons entre les mains et de l'intégrer à notre façon de tra­vailler. Par exemple, on doit faire atten­tion à la qua­li­té des don­nées à par­tir des­quelles un génome est assem­blé lorsqu'on pla­ni­fie des expé­riences sur une ques­tion bio­lo­gique par­ti­cu­lière. La trans­pa­rence d'analyse, l'approbation de pro­to­coles com­muns et la créa­tion de stan­dards émergent ain­si comme les choses à amé­lio­rer inces­sam­ment sous peu. Affaire à suivre, donc…

L'autre papier dont je vou­lais vous par­ler est lié aux sta­tis­tiques. Oui, le cli­ché veut que les bio­lo­gistes soient des inno­cents qui se sauvent en cou­rant dès qu'une for­mule se pointe et que les gens qui "font de l'ordinateur" sont les mani­tous des chiffres. Comme je l'ai dit, il s'agit de cli­chés, donc de figures souf­frant d'un réduc­tion­nisme affli­geant et ain­si, fausses :). L'édi­to­rial d'EMBO reports pré­sente un article très bien écrit qui parle de sta­tis­tiques signi­fi­ca­tives et du pour­quoi des répliques et des répé­ti­tions. Il aborde les ques­tions de base — et non pas "basiques" au sens "élé­men­taires" 😉 — de com­ment pla­ni­fier une expé­rience : com­bien de fois devrait-on refaire la mesure machine, com­ment créer de vraies répliques indé­pen­dantes pour s'assurer que la varia­tion bio­lo­gique que l'on observe à la fin soit véri­ta­ble­ment due à la source bio­lo­gique et ne soit pas un arté­fact ou une erreur de mesure, com­ment pré­sen­ter ces don­nées de façon cor­recte sta­tis­ti­que­ment par­lant (pour les gens qui l'oublient : les expé­riences impli­quant du séquen­çage 2.0 requièrent des répliques). Ce papier est à l'intention des bio­lo­gistes. Nous, en tant que bio­in­for­ma­ti­ciens, en avons sacré­ment besoin aus­si : il ne suf­fit pas de savoir pondre scripts sur scripts ou de croire dur comme fer que ce que sort le R cryp­tique doit bien être vrai, il nous faut le com­prendre 🙂 .

Après cette envo­lée lyrique, reve­nons sur Terre avec quelques trucs pra­tiques. En par­lant séquen­çage et stats, je vou­lais vous signa­ler ce papier décri­vant un outil de Bio­con­duc­tor qui vise à éli­mi­ner les méchants "batch effects". Pour les gens qui ne savent pas ce que c'est : il s'agit de varia­tion intro­duite dans l'expérience par les per­sonnes qui l'ont faite ou par les jours où elle a été faite, par exemple. Ain­si, si vous avez des don­nées brutes qui se groupent en fonc­tion de la per­sonne qui a fait la manip' et non pas en fonc­tion de la condi­tion tes­tée, vous avez affaire à un batch effect. C'est moche, c'est dur à cor­ri­ger… et les gens ne les cor­rigent presque jamais. Il y avait un outil pour éli­mi­ner des effets pareils dans le cas de don­nées de microar­rays, voi­ci que des gens ont créé un outil sem­blable pour des don­nées issues d'expériences à grande échelle.

Dans la série outils, je vou­drais vous signa­ler la sor­tie de Bowtie2 (un des logi­ciels le plus cou­ram­ment uti­li­sés pour ali­gner des reads au génome/​transcriptome) et de Map­sem­bler. Ce der­nier est écrit par des gens que cer­tains ici connaissent fort bien (Pierre Peter­lon­go de l'INRIA, orga­ni­sa­teur de JOBIM entre autres) et per­met de faire de l'assemblage à par­tir de don­nées de séquen­çage 2.0 sur un pc de bureau. Rapi­de­ment sur Bowtie2 quand même : il est sur­tout opti­mi­sé pour les reads de type "pai­red end" et intro­duit quelques amé­lio­ra­tions notables au niveau des ali­gne­ments à trous. Si nous avons le temps, on le tes­te­ra pour vous 🙂 .

Alors, pour finir en beau­té : par­lons fleurs ! Oui, c'est le prin­temps. Un papier très sym­pa est sor­ti dans Bio­in­for­ma­tics pré­sen­tant une manière astu­cieuse d'identifier des gènes de méta­bo­lisme chez Ara­bi­dop­sis. Autre­ment dit, les auteurs posent la ques­tion de la carac­té­ri­sa­tion des rela­tions entre gènes dans des jeux de don­nées mul­ti­di­men­sion­nelles. Cette ques­tion n'est pas seule­ment tech­nique (elle ne se pose pas seule­ment en termes de puis­sance de cal­cul requis) : il s'agit de pou­voir identifier/​inférer des inter­ac­tions inter­gé­niques en pre­nant en compte les influences d'un ensemble de gènes avec des fonc­tions connues. Ce der­nier est ain­si pris comme "seed", c.-à‑d. amorce du modèle, qui guide la détec­tion des autres gènes. Aver­tis­se­ment ami­cal : ne pas se plon­ger dans les stats du papier si votre moral n'est pas au beau fixe, le dan­ger de dépres­sion est réel.

C'est tout pour cette fois… mais je serai de retour en mai 🙂 . D'ici là, n'hésitez pas à vous plon­ger dans le monde mer­veilleux de la biblio !




Commentaires

4 réponses à “Revue de presse : Le printemps, les oiseaux et … la biblio”

  1. Yoann M.
    Yoann M.

    Encore un excellent Jour­nal Club ! Plein de bons articles à lire le soir avant de s'endormir 🙂 Mer­ci !

    Vive­ment ceux d'avril !

    1. Mer­ci, Yo 🙂 J'espère tout de même que tu ne t'endormiras pas d'ennui ni ne feras de cau­che­mars !

  2. En effet, bonne revue de presse ! Men­tion spé­ciale pour Map­sem­bler, tes­té et aprou­vé la semaine der­nière.

  3. Mer­ci Mali­cia pour ces poin­teurs inté­res­sants et la des­crip­tion dyna­mique et moti­vante qui donne envie d'aller voir plus loin ! Chouette bou­lot. 🙂

Laisser un commentaire