- Le blog participatif de bioinformatique francophone depuis 2012 -

Que faire de nos données biologiques produites ?

What a mess par .pst (CC BY-NC-SA 2.0)

Qu'on soit affi­lié à un labo­ra­toire de géno­mique, d'imagerie ou encore de pro­téo­mique nous avons tous un point com­mun : nous devons avoir un moyen fiable et dont la péren­ni­té ne laisse pas à dési­rer pour ce qui est de la ges­tion de nos don­nées produites/​recueillies.

Les vieux sages vous diront, à juste titre, qu'il n'existe pas de meilleur moyen pour garan­tir le sto­ckage de nos connais­sances que de les gra­ver sur des blocs de pierres et de les sto­cker dans un bun­ker à 50 mètres de pro­fon­deur. Mais pour ce qui est des types de don­nées pro­duites en bio­in­for­ma­tique, ce n'est mal­heu­reu­se­ment pas réa­li­sable : nous n'aurions pas assez de pierres… (et très vite mal aux mains)

La pre­mière des choses à faire quand on se lance dans un pro­jet de ges­tion de don­nées d'un labo­ra­toire est de faire le point sur les types de don­nées qui sont/​seront pro­duites, leurs quan­ti­tés, leurs évo­lu­tions à venir ain­si que leurs sen­si­bi­li­tés. Ain­si il est tout de suite plus évident de voir vers quoi il fau­dra se tour­ner.

Problème numéro 1 : le choix du système de stockage

À l'heure où l'on vante les avan­tages du "cloud" (pro­non­cé "Claude", tout le monde vous com­pren­dra vous ver­rez) est-ce réel­le­ment LA solu­tion pour nos don­nées de bio­in­for­ma­ti­ciens ?

À mon sens non. Pour­quoi ? Les don­nées pro­duites sont tel­le­ment nom­breuses et volu­mi­neuses que le coût (avec les grilles de tarifs actuelles , en pre­nant Ama­zon comme exemple) serait beau­coup plus impor­tant que l'autre solu­tion : la solu­tion hard­ware mai­son.

Deuxième argu­ment, si on ima­gine que vous tra­vaillez en Suisse, au Luxem­bourg ou encore à Mona­co et que pour votre labo­ra­toire l'argent n'est pas un sou­cis pre­mier : le cloud n'en est qu'à ses débuts, et n'est pas non plus la solu­tion ultime. Vous sou­ve­nez vous de Megau­pload ? Quid des don­nées des uti­li­sa­teurs main­te­nant ? Bien sûr c'est un exemple sor­ti tota­le­ment du contexte je vous l'accorde. En effet, je doute que vous vous amu­siez à sto­cker vos films de vacances et autres musiques sur le ser­vice cloud du bou­lot (quoique…). Mais si par exemple l'entreprise vous four­nis­sant le ser­vice venait à dis­pa­raître ? Que se pas­se­rait-il ? D'un jour à l'autre vous auriez tout per­du. Ça peut paraître assez tiré par les che­veux, mais ça reste tota­le­ment plau­sible. À vous après de vous faire votre propre opi­nion.

Et enfin der­nier argu­ment, et pas le moins per­ti­nent : sur le cloud, vos don­nées sont "vul­né­rables". Nul n'est à l’abri d'un vol de conte­nu, si ces don­nées sont par exemple clas­sées sen­sibles ou "top-secret".

Pour au moins une de ces rai­sons (ou toutes) nous irons donc dans le sens de la solu­tion "hard­ware".

Problème numéro 2 : le coût du hardware

HP EVA 8000 par Simon­Pix (CC BY-NC-SA 2.0)

Bien sou­vent la don­née cri­tique sera l'espace de sto­ckage. Non pas parce que la tech­no­lo­gie ne per­met pas de suivre à ce niveau là, mais plus en rai­son du coût de l'octet. Com­ment ça ? Dans ma grande sur­face pré­fé­rée on me vend un disque dur de 1 To pour la modeste somme de 100 euros tout au plus, ce n'est pas la mer à boire que de déblo­quer un fond de 5000 euros par exemple ! Oui, mais le pro­blème c'est qu'en rai­son­nant comme ça, on rai­sonne mal.

En effet, l'infrastructure néces­saire pour une telle machine n'est pas exac­te­ment la même que celle qu'on pour­ra nous pro­po­ser dans le com­merce grand public. Il ne s'agira pas de bran­cher une cin­quan­taine de disques durs à la volée sur un CPU et de cla­quer des doigts pour que ça marche. Non. À ce niveau là, on par­le­ra plu­tôt de baie de sto­ckage et de réseau de sto­ckage (SAN). Chaque baie pour­ra conte­nir plu­sieurs disques dur et si vous vou­lez avoir plu­sieurs baies il vous fau­dra les relier à un SAN. Votre baie ou votre SAN devra être relié à l'infrastructure infor­ma­tique de votre labo­ra­toire. Si vous par­tez de zéro, pre­miè­re­ment bon cou­rage, et ensuite cet article vous aide­ra à mon­ter votre propre ser­veur avec vos petites mains tout en éco­no­mi­sant de l'argent que vous pour­rez inves­tir dans une baie, voire même plu­sieurs.

Pour vous don­ner une échelle des prix actuels, une baie (sans les disques durs) est acces­sible pour envi­ron 10 000 €. Vous pour­rez vous orien­ter vers un choix dit "low cost" qui à pre­mière vue vous fera éco­no­mi­ser quelques 5000 € (en comp­tant 8 disques de 1To, qui ne sont pas livrés avec la baie citée). Mais vous ris­quez de vite déchan­ter : les faits sont là, en moyenne on perd envi­ron un disque par an. Sur le papier la plu­part ont une durée de vie de 5 ans, mais ce n'est pas tou­jours le cas. Vous arri­ve­rez donc vite aux 10 000 € de l'autre solu­tion, voire plus. Comp­tez éga­le­ment le temps de para­mé­trage de votre sys­tème de sto­ckage avec votre ser­veur mai­son (ou non) qui n'est pas négli­geable. Mais rien d'insurmontable, je vous ras­sure.

Une autre chose à prendre en compte : l'évolution de votre sys­tème de sto­ckage. Il ne faut pas oublier de deman­der aux ven­deurs jusqu'à quel point votre capa­ci­té de sto­ckage est évo­lu­tive. Toutes les baies pro­po­sées ne sont pas for­cé­ment expan­sibles à l'infini, sachez-le.

Vous l'aurez com­pris, ce ne sont pas les disques qui coûtent le plus, mais bel et bien la/​les baie(s). C'est pour cela qu'il est très impor­tant de bien jau­ger ses besoins futurs et actuels avant de se lan­cer dans les achats.

Il vous fau­dra ensuite (ou avant selon les types de baies qui n'acceptent pas tous les types de RAID) choi­sir la méthode de sau­ve­garde que vous dési­rez appli­quer à vos don­nées. Dans le jar­gon on appelle donc ça des "RAID". Je ne vais pas me lan­cer dans une grande expli­ca­tion, mais rete­nez qu'il existe trois types stan­dards de RAID : le RAID0, le RAID1 et le RAID5. Tous ont une pro­prié­té dif­fé­rente en terme de backup de vos don­nées, je vous invite à cli­quer sur les liens pro­po­sés pour les décou­vrir et com­prendre en quoi ces dif­fé­rences ont leurs impor­tances et ne doivent pas être sous-esti­mées.

Problème numéro 3 : comment organiser ses données ?

Alors là, chaque labo­ra­toire aura sa solu­tion, il n'en existe pas d'unique. C'est ça aus­si l'avantage d'un sys­tème mai­son : on peut le per­son­na­li­ser comme bon nous semble. Vous pour­rez ran­ger vos don­nées par type d’expérience ou bien par uti­li­sa­teur ou encore même en pre­nant en compte ces deux cri­tères en même temps. Les options ne manquent pas et je ne vais pas me lan­cer dans une liste exhaus­tive, elle serait bien trop longue. Encore une fois, il fau­dra être très pru­dent à l'imagination de la base de don­nées et pen­ser à ce que ça pour­rait deve­nir dans 5 ans (enfin ça c'est sur le papier, parce qu'en réa­li­té c'est très com­pli­qué de voir le futur). Essayez de vous fer­mer le moins de portes que pos­sible et de lais­ser une pos­si­bi­li­té en bout de chaque table. Qui n'a en effet jamais été contraint de rajou­ter un champ voire une table oublié à la der­nière minute ? Ce n'est jamais plai­sant et c'est pour ça que si on peut évi­ter ce genre de situa­tion… autant se don­ner toutes les cartes en main !

Problème numéro 4 :  quelle technologie choisir ?

Encore une fois, là aus­si le choix est immense. Tout dépen­dra de ce que vous vou­lez au final, de ce qu'on vous accorde, de ce que vous savez/​saurez faire, du temps qu'on vous don­ne­ra pour ce pro­jet, de l'effectif alloué des­sus… Bref pas mal de com­po­santes qui font que l'équation peut varier énor­mé­ment.

A titre d'exemple, pour un ges­tion­naire de don­nées sto­ckées sur un ser­veur et acces­sible de par le web (ou sim­ple­ment en intra­net) mon choix se porte sur une pla­te­forme tel que Tur­bo­gears, Djan­go ou en encore Ruby on Rails pour les non-pytho­niens. L'avantage de ces outils c'est qu'ils vous mâchent une grande par­tie du tra­vail, vous n'aurez géné­ra­le­ment pas trop à mettre les mains dans le cam­bouis si vous en res­tez à une uti­li­sa­tion simple comme eux l'entendent. Il y aura tou­jours les éter­nels insa­tis­faits, et là il fau­dra aller plus en pro­fon­deur et se remon­ter les manches pour coder ce qui selon vous manque à ces usines à gaz.

Problème numéro 5 : comment sécuriser tout ça ?

Cade­nas pas d'amour par Groum

Comme dit en intro­duc­tion, l'inviolabilité sur inter­net n'existe pas. Alors on va quand même évi­ter de tom­ber dans la para­noïa et se dire qu'il peut quand même être utile de pro­té­ger un tant soit peu ce qui va être entre­po­sé dans notre han­gar vir­tuel. Il y a ceux qui ont déjà un sys­tème de sécu­ri­té propre à leur labo­ra­toire (comme Téqui­la par exemple pour l'EPFL) et dans ce cas autant ne pas réin­ven­ter la roue et se ser­vir de ce qui existe déjà. De toute façon, je pense que ça vous sera for­te­ment conseillé, du moins j'ose l’espérer. Et il y a ceux pour qui tout reste à faire.

Pour cette deuxième caté­go­rie de per­sonne, le seul conseil que je vous don­ne­rai peut paraitre un peu sim­pliste, mais tel­le­ment impor­tant : ne sto­ckez pas les mots de passe en clair dans votre base de don­nées. Plu­sieurs méthodes d'encryption sont aujourd'hui connues et uti­li­sables (MD5, SHA1, …) alors pour­quoi s'en pri­ver ? Un petit salage des mots de passe cryp­tés sera des plus hono­rable éga­le­ment. Je ne suis pas expert en sécu­ri­té infor­ma­tique non plus, donc mes petits conseils pour cette sec­tion s’arrêteront là. Si vous connais­sez d'autres méthodes plus sûres et pas trop com­pli­quées à mettre en place, n'hésitez pas à les faire connaitre par le biais des com­men­taires 🙂

Une fois que votre sys­tème dis­pose d'un sys­tème d'authentification, il vous fau­dra pen­ser a qui pour­ra accé­der à quoi. Plu­sieurs cas existent : tout le labo­ra­toire peut voir les don­nées de tout le monde, le chef de labo est le seul (avec l'administrateur) à pou­voir avoir accès à tout ce qu'il y a dans la base de don­née, ou encore le groupe X peut inter­agir avec le groupe Y mais pas avec le groupe Z. L'accès peut-il se faire depuis l'extérieur du labo­ra­toire ? Bref, de bons casses-têtes en pers­pec­tive. Si rien ne vous est impo­sé de ce coté là, mon conseil : keep it simple* (*faites au plus simple) ! Mais cela ne veut pas dire qu'il fau­dra pas­ser cette étape sous silence au moment des réunions, je vous vois venir 😉

Problème numéro 6 : et si tout cela était trop compliqué ?

Et si le temps ne jouait pas en votre faveur ? Et si vous ne vous sen­tez pas de vous lan­cer dans un chan­tier comme ce qui vous a été décrit ?

Pas de panique, des dizaines de solu­tions existent déjà. Des gra­tuites comme des payantes. Il y en a pour tout les goûts. Une simple recherche Google vous appor­te­ra des dizaines d'exemples et c'est à la por­tée de n'importe qui. Mais dites-vous bien que vous ne trou­ve­rez peut-être pas exac­te­ment ce que vous vou­lez.

Il faut savoir faire des choix et en assu­mer les consé­quences. Et vous, quel sera le vôtre ? 🙂

Day 278 — Choose the pill par Harsh Vard­han (CC BY-NC-SA 2.0)

 Je tiens à remer­cier tout par­ti­cu­liè­re­ment Gophys, max, Mica et Norore pour leurs relec­tures, leurs cor­rec­tions et leurs temps.




Commentaires

5 réponses à “Que faire de nos données biologiques produites ?”

  1. Je suis tou­jours satis­fait lorsque je lis vos articles.

    Pour le cloud, bien qu'il existe des incon­vé­nients sur­tout sécu­ri­taires, je pense que la per­sonne qui n'est pas experte en sécu­ri­té infor­ma­tique doit l'utiliser. Paral­lè­le­ment, les entre­prises de cloud font tous ce qui est en leur pou­voir pour limi­ter les vols, parce que c'est leur busi­ness. Il ne pour­rait pas s'aviser de mettre leurs clients en dan­ger.

    En ce qui concerne les mots de passe, il faut évi­ter les trucs du genre "maman" mais plû­tot "mon che­val broute dans le prés" ou un ensemble de chiffres uni­que­ment.

    Enfin, je suis sûr que le hacking est l'un des outils puis­sants de la bio­in­for­ma­tique

    1. Yoann M.

      Salut Nas­ser.
      Ce que tu dis à pro­pos du cloud et des entre­prises spé­cia­li­sées est un peu uto­piste, mais c'est ta vision des choses et je la res­pecte.

      Pour ce qui est des mots de passe, là n'était pas la ques­tion. Rien ne sert d'avoir un mot de passe robuste si celui-ci est sto­cké en clair dans la base de don­nées…

      Et enfin pour ta foi envers le "hacking" (qui reste à défi­nir quand même) car balan­cé comme ça il veut un peu dire tout et n'importe quoi.
      Si tu fais allu­sion à ce genre de choses : http://​past​.is/​k​1zj je veux bien être d'accord avec toi, bien que je par­le­rai plus de prouesse tech­no­lo­gique que de "hacking".
      Si par contre ce n'est pas ça, per­mets moi alors de res­ter un peu per­plexe : on ne vit pas dans un film (Matrix, par exemple pour ne cité que lui) 🙂

      1. Yoann, je suis tout à fait d'accord avec toi mais il faut savoir qu'a l'heure actuelle, tout uti­li­sa­teur des nou­velles tech­no­lo­gies doit connaitre les bases de la sécu­ri­té infor­ma­tique.
        Qu'en est-il alors des acteurs pro­pre­ment dits comme nous ?
        Inter­net est une jungle et je t'assure qu'il y'a beau­coup de gens qui piratent des labo­ra­toires.
        Hacker ne signi­fie pas seule­ment détruire : hacker c'est aus­si construire.
        Je dit à haute voix que nous vivons au cœur de Matrix 🙂
        Je réserve pour celà 2 billets sur mon blog ; Kas­pers­ky a décou­vert le virus red octo­ber alors, faut qu'on soit sur nos gardes !
        a+
        ça sera tou­jours un plai­sir pour moi de dis­cu­ter avec vous,
        hi hi hi hi looooooollllll!!!!!!!!!

  2. Mer­ci pour l'article ! Au pas­sage une petite typo à cor­ri­ger sur pro­blème 4 : quelle tech­no­lo­gie.

    1. Yoann M.

      Oups… Mer­ci 🙂 Je vais de ce pas fouet­ter les relec­teurs 😉

Laisser un commentaire