- Le blog participatif de bioinformatique francophone depuis 2012 -

Bioconductor

Bioconductor

Voi­là le sujet que l'on va abor­der ensemble aujourd'hui. On va voir ce que c'est, à quoi cela sert, com­ment l'installer et bien-sûr l'utiliser.

Qu'est-ce donc ?

Je décri­rais Bio­con­duc­tor comme un pro­jet par­ti­ci­pa­tif. Il est libre d'accès et son déve­lop­pe­ment dépend de ce que la com­mu­nau­té veut bien y appor­ter. L'objectif est simple, offrir aux bio­lo­gistes, un ensemble de pro­grammes pour l'ana­lyse de don­nées, faciles à mettre en place et à uti­li­ser. Le sup­port prin­ci­pal choi­si est le lan­gage R, qui est à la fois un lan­gage de pro­gram­ma­tion et un envi­ron­ne­ment pour l'analyse sta­tis­tique des don­nées (pour en savoir un peu plus : Les lan­gages de pro­gram­ma­tion). Bio­con­duc­tor se pré­sente donc sous forme d'une col­lec­tion de packages R pour l'analyse de don­nées bio­lo­giques (bio­lo­gie molé­cu­laire prin­ci­pa­le­ment). Chaque package est en fait une appli­ca­tion que vous ins­tal­lez et char­gez dans l'environnement R, vous avez ensuite accès aux fonc­tions qu'il contient. Nous ver­rons plus tard com­ment ins­tal­ler et char­ger un package Bio­con­duc­tor.

Pourquoi avoir créé Bioconductor ?

Aujourd'hui la bio-infor­ma­tique com­mence à se faire connaître, cela fait un peu plus de dix ans qu'elle se déve­loppe et que des étu­diants sont spé­ci­fi­que­ment for­més dans ce domaine. Seule­ment voi­là, il n'y a pas encore de bio-infor­ma­ti­ciens dans tous les labo­ra­toires et il y a plein de bonnes rai­sons à cela (Mais on y arri­ve­ra un jour… on y arri­ve­ra). Alors les bio­lo­gistes seuls face à leur don­nées ont déci­dé, en 2001, de créer un pro­jet pour mettre en com­mun les scripts qu'ils uti­li­saient pour faire leurs ana­lyses. Il y a une équipe cen­trale au Fred Hut­chin­son Can­cer Research Cen­ter (FHCRC) et la com­mu­nau­té par­tout autour du monde.

Désor­mais plu­tôt que de gar­der pour eux le joli script R (ou autres), qui avait pris des mois de déve­lop­pe­ment et qui ne ser­vi­rait qu'à deux ou trois pro­jets dans le labo­ra­toire, les bio­lo­gis­tes/­bio-infor­ma­ti­ciens peuvent par­ta­ger leurs tra­vaux pour rendre ser­vice à la science et aux autres labo­ra­toires. En plus du par­tage, il y a la volon­té du pro­jet de pro­cu­rer un outils pour faci­li­ter les ana­lyses de don­nées, mais éga­le­ment assu­rer la repro­duc­ti­bi­li­té de celles-ci.

Qui développe pour ce projet ?

Bio­con­duc­tor est mis à jour tout les six mois, nous somme actuel­le­ment à la ver­sion 2.10. Il y a tou­jours deux ver­sions dis­po­nibles, une stable et une de déve­lop­pe­ment. On ne peut donc pas venir sur le site de Bio­con­duc­tor, y inclure un code instable et pré­tendre avoir par­ti­ci­pé au pro­jet. Il y a des règles à res­pec­ter pour voir son package publié, l'une d'elle, par exemple, est de four­nir une docu­men­ta­tion com­plète pour l'utilisation du logi­ciel. Le com­pi­la­teur vous enver­ra des mes­sages d'erreurs si une fonc­tion n'est pas réfé­ren­cée dans la docu­men­ta­tion ou si une dépen­dance à un autre package n'est pas prise en compte pen­dant l'installation. Si votre package se com­pile sans erreur, il faut ensuite le sou­mettre aux res­pon­sables du pro­jet, qui revien­dront vers vous avec de pos­sibles modi­fi­ca­tions à appli­quer. Dans un sens, cela res­semble au pro­ces­sus de publi­ca­tion dans un jour­nal scien­ti­fique.

Les per­sonnes qui publient des packages dans Bio­con­duc­tor sont donc des bio­lo­gistes ou bio-infor­ma­ti­ciens qui ont une cer­taine exper­tise dans l'analyse de don­nées et qui sou­haitent par­ta­ger une nou­velle méthode ou l'amélioration d'un algo­rithme déjà exis­tant. Le nombre de solu­tions pro­po­sées pour l'analyse des micro-array par exemple est assez incroyable. Tout comme aujourd'hui avec les don­nées de séquen­çage à haut débit, les sta­tis­tiques appli­quées aux micro-array ont évo­lué au fil des années et on peut avoir l'impression que pour chaque méthode, chaque nou­velle nor­ma­li­sa­tion ou cor­rec­tion d'erreur due à la tech­nique, un package a été publié dans Bio­con­duc­tor. Cela témoigne bien-sur d'une com­mu­nau­té très active, mais éga­le­ment que pour sou­te­nir la publi­ca­tion, dans un jour­nal, d'une tech­nique d'analyse il est de bon goût de pro­po­ser un logi­ciel pour l'appliquer. Comme la créa­tion d'un package est somme toute abor­dable, même sans grande connais­sance de l'informatique, beau­coup de scien­ti­fiques se sont tour­nés vers cette solu­tion. De plus cela assure de tou­cher un grand nombre de per­sonnes.

Où le trouver, comment l'installer et l'utiliser ?

Toutes les infor­ma­tions pour ins­tal­ler un package Bio­con­duc­tor sont sur cette page : Ins­tal­ler Bio­con­duc­tor.

Mais pour résu­mer l'installation, il vous faut un ordi­na­teur avec R ins­tal­lé et char­ger bio­cLite dans l'environnement de tra­vail de R. Il s'agit d'un petit script qui vous per­met­tra d'installer faci­le­ment les packages Bio­con­duc­tor.

Dans R :

Il suf­fit ensuite de choi­sir l'application que vous vou­lez ins­tal­ler. Si par exemple vous sou­hai­ter ins­tal­ler le package 'easyR­NA­Seq', il vous suf­fit d'utiliser la com­mande sui­vante :

Dans R :

Un script Bio­con­duc­tor peut uti­li­ser d'autres packages, les dépen­dances seront alors ins­tal­lées auto­ma­ti­que­ment si elles sont absentes de votre sys­tème.

Si vous ne sou­hai­tez pas pas­ser par bio­cLite, parce que vous dési­rez une ancienne ver­sion ou pour n'importe qu'elle autre bonne rai­son, vous pou­vez ins­tal­ler les appli­ca­tions de Bio­con­duc­tor comme n'importe quel autre package R.

Dans R :

Une fois le package ins­tal­lé vous pour­rez le char­ger dans R à chaque nou­velle ses­sion de tra­vail avec la com­mande sui­vante :
Dans R :

Pour obte­nir plus d'information sur le package et sur ses fonc­tions vous pou­ver uti­li­ser les com­mandes sui­vantes :

Vous pou­vez trou­ver la liste de tous les packages dis­po­nibles (554 dans la der­nière ver­sion) sur le site inter­net de Bio­con­duc­tor (Liste des packages), on y retrouve des outils pour la nor­ma­li­sa­tion des don­nées (lim­ma, babar), le cal­cul de la cou­ver­ture d'une expé­rience de séquen­çage (easyR­NA­Seq, htSe­q­Tools), l'annotation de séquences et la consul­ta­tion de banques de don­nées (Anno­ta­tionD­bi, GO.db) et bien plus encore. L'équipe du site pro­pose éga­le­ment quelques exemples de work­flows pour l'analyse de vos don­nées ( Exemples d'analyses ).

———-

J'espère vous avoir convain­cu de l'utilité de Bio­con­duc­tor si vous avez des don­nées à ana­ly­ser, ou au moins de vous avoir don­né envie d'aller jeter un coup d'œil, au cas où l'application miracle que vous cher­chiez se trouve dans la liste. La com­mu­nau­té est vivante, vous pou­vez vous ins­crire à la liste de dif­fu­sion, de plus chaque package a une per­sonne atti­trée pour répondre à vos éven­tuelles ques­tions. Je ne garan­tis pas que tous les déve­lop­peurs soient à votre dis­po­si­tion, mais si vous n'obtenez pas de réponses vous pou­vez tou­jours aller sur ce super forum seqans­wers, j'y ai même déjà vu plu­sieurs déve­lop­peurs répondre à des ques­tions sur leurs packages.




Commentaires

10 réponses à “Bioconductor”

  1. Très bon package R. Un truc que j'aime bien, c'est qu'il est open source (comme dit dans le titre). Nous pou­vons aller voir cer­tains algo­rithmes et étu­dier leur implé­men­ta­tion, au besoin les modi­fier un peu pour les adap­ter. C'est aus­si un bon moyen pour véri­fier qu'un outil est opé­ra­tion­nel, car tes­té par plu­sieurs per­sonnes.

  2. Avatar de Natir

    J'ai une petit inter­ro­ga­tion après ce que j'ai lue sur cette page (point Open source). Bio­con­duc­tor, ne serai pas open source mais car­ré­ment libre (ça ne me pose pas de pro­blèmes, je pré­fère même). Les 3 licences auto­ri­sées (Artis­tic 2.0, GPL2, et BSD) sont des licences libres et non open source.

    Je m’interroge donc sur le fait qu'ils uti­lisent le terme d'open source plu­tôt que libre, cette ques­tion n'a peut-être pas sa place ici (mais plu­tôt sur leurs mai­ling list), mais si quelqu'un qui a connais­sance de ces rai­sons passe ici, peut-il les com­mu­ni­quer, mer­ci.

    1. Ces licences sont des licences open-sources. Tu peux avoir une liste de toute les licences approu­vées par l' "Open Source Ini­tia­tive" ici.

        1. Oui tu as rai­son aus­si. Mais l'une n’exclue pas l'autre… Tu peux connaître la dif­fé­rence entre licence libre et open source là .
          Ce sont deux consor­tiums dif­fé­rent avec des défi­ni­tions dif­fé­rentes, une licence peut satis­faire les deux défi­ni­tions. Dire que la licence Artistic‑2.0 est "libre" et pas "open-source" est faux.

          1. Avatar de Natir

            Je suis au faîte des dif­fé­rences entre le libre et l'open source.

            Je n'ai jamais dit que l'un exclu l'autre je dirais plu­tôt que l'open source et le Libre sont dif­fé­rents et que par­fois on peut être open source sans être libre.

            Ce qui me gène c'est qu'ils ne disent pas qu'ils sont libres alors qu'ils le sont.
            Ils ont peur du mot ?

  3. Qué "un peu plus de 10 ans" ? Eh les jeunes, les matrices de Day­hoff datent de 1965, Swiss­prot de 1986, et le jour­nal CABIOS est deve­nu "Bio­in­for­ma­tics" en 1997.

    1. Avatar de akira

      ^^ Pas d'affolage, je parle pas ici de l'apparition de la bio­in­for­ma­tique ou du besoin d'informatique en bio­lo­gie qui comme tu le fais jus­te­ment remar­quer date de bien plus que 10. Mais à ma connais­sance les for­ma­tions uni­ver­si­taire en bio­in­for­ma­tique et la recon­nais­sance de la bio­in­for­ma­tique comme un domaine à part entière ne date pas de si long­temps que ça.
      Donc oui la bio­in­for­ma­tique date de plus de 10 ans, mais ne peut-on pas dire que ça recon­nai­sance date d'une dizaine d'années (envi­ron) seule­ment ?

      1. Yoann M.
        Yoann M.

        J'allais répondre à peu prêt la même chose.
        C'est vrai que les for­ma­tions ont fleu­ries c'est dix der­nières années et que la bio­in­for­ma­tique semble bien avoir le vent en poupe, mais pour­tant cela ne date pas d'hier 🙂

  4. c'est la dif­fé­rences entre bio­con­duc­teur et le cbio­por­tale ?!

Laisser un commentaire