Questions à… Laurent Mouchard

Avec un peu beau­coup de retard, retrou­vez la retrans­crip­tion de la TOBi orga­ni­sée par JeBiF en mai 2016 avec Laurent Mou­chard, maître de confé­rence à l'Uni­ver­si­té de Rouen et modé­ra­teur de la liste bioin­fo.

<

p style="text-align : cen­ter;">Nous le remer­cions d'être venu nous racon­ter la petite his­toire de la bio­in­for­ma­tique !

.

lm

 


Laurent Mou­chard : Je suis vieux… J'ai donc eu le temps d'accumuler un par­cours un peu par­ti­cu­lier. J'ai com­men­cé par être prof de maths au lycée, et puis cela ne me plai­sant pas, j'ai com­men­cé à faire de l'informatique (DEA + maî­trise). Je n'étais tou­jours pas satis­fait de ce que je fai­sais, et du coup je suis par­ti dans le pri­vé en 1991 pour par­ti­ci­per au déploie­ment d'un truc un peu "fou­fou" : le réseau haut débit… “Inter­net” que ça s'appelait, je ne sais pas si vous connais­sez… Enfin tou­jours est-il que le conseil régio­nal de Haute Nor­man­die, plu­tôt que de don­ner trois francs six sous aux entre­prises de la région, avait déci­dé de construire un gros centre de res­sources infor­ma­tique à Rouen. Pour don­ner l'accès aux entre­prises à cette source, ils se sont dit "on va faire un truc un peu inno­vant qui vient d'émerger, on ne sait pas com­ment ça va mar­cher, ça s'appelle Inter­net". Il faut, pour mieux com­prendre les réac­tions, se repla­cer dans le contexte de l'époque : Google, Ama­zon, Face­book, etc. n'existaient pas. La connexion réseau n'était même pas un truc de geek, mais encore au-delà. Typi­que­ment en 1986 quand j'ai com­men­cé à bos­ser sur inter­net, on avait une liai­son à 512 Kbytes qui allait direc­te­ment se connec­ter à l'INRIA de Roc­quen­court qui dif­fu­sait ensuite l'information dans tout l'ouest de la France. Roc­quen­court était connec­té à Rennes et pas­sait donc par Rouen (une ligne droite bien connue). On avait une connexion toute pour­rie, mais ça exis­tait. Je me suis donc retrou­vé dans le centre infor­ma­tique là avec des gros gros ordi­na­teurs, c'était un sys­tème d'ordinateurs mas­si­ve­ment paral­lèles. Alors là vous vous dites "ouais ça va", sauf qu'en 1992, mas­si­ve­ment paral­lèle ça vou­lait dire 1000 pro­ces­seurs ayant cha­cun pour mémoire, atten­tion… 4 Ko ! C'était gigan­tesque pour l'époque, et je suis très content de l'avoir vécu pour main­te­nant appré­cier ce qu'on a dans un télé­phone por­table.

 

A titre d'exemple : le CRAY X-MP/22 Supercomputer, utilisé entre 1986 et1992 au Laboratoire de Biologie mathématiques du NIH Courtesy of the Office of History, National Institutes of Health
À titre d'exemple : le CRAY X‑MP/​22 Super­com­pu­ter, uti­li­sé entre 1986 et 1992 au Labo­ra­toire de Bio­lo­gie mathé­ma­tiques du NIH
Cour­te­sy of the Office of His­to­ry, Natio­nal Ins­ti­tutes of Health https://​his​to​ry​.nih​.gov/​e​x​h​i​b​i​t​s​/​c​o​m​p​u​t​e​r​s​/​c​o​m​p​u​t​e​r​s​.​h​tml

 


Un jour où je tra­vaillais là-bas, mon patron de l'époque me dit "Tiens y'a ptêt un truc inté­res­sant qui serait à faire, j'ai ren­con­tré des gens à Paris là… à la capi­tale… Ils viennent de Pas­teur, d'Info­bio­gen (struc­ture finan­cée par le Télé­thon et le CEPH) et des gens de Ver­sailles. Et ces gens là ils font des trucs rigo­los qu’ils appellent de la bio­lo­gie molé­cu­laire, et ils ont besoin d'informatique. On pour­rait p’têt faire une truc sym­pa avec eux". Je me rends donc là-bas, ces gens me parlent de trucs que je ne com­prends pas : de gènes, de dogme cen­tral de la bio­lo­gie,… Et ils nous disent qu’il va fal­loir réflé­chir un petit peu à avoir un miroir d’un truc qu’il y a aux États-Unis, qui s’appelle le NCBI, et qui met à dis­po­si­tion des banques de don­nées et des ser­vices. Notam­ment un qui vient tout juste d’être déve­lop­pé et qui répond au nom de BLAST. “Ce serait donc pas mal que nous en France on ait l’équivalent” nous disent-ils…

 

Site de blast en 1997
Le site de BLAST en 1997 pour vous don­ner une idée Basic Local Ali­gn­ment Search Tool (1997, June 15) Natio­nal Cen­ter for Bio­tech­no­lo­gy Infor­ma­tion. Retrie­ved from https://web.archive.org/web/19970615060854/http://www.ncbi.nlm.nih.gov/BLAST/

 

Je me ren­seigne donc à ce sujet. Pour récu­pé­rer les bases de don­nées, il suf­fi­sait de com­man­der les CD, et on les rece­vait par la poste au bout de trois semaines… Parce que je vous rap­pelle qu’avec 512 Kbytes de débit la poste était beau­coup plus rapide, vous pou­viez même aller les cher­cher en avion et reve­nir que ça aurait été encore plus rapide. Donc à l’époque, les mises à jour n’étaient pas jour­na­lières, hein, on tour­nait plus autour de trois mois et on était contents quand d’un seul coup quelque chose arri­vait. En volume ça ne repré­sen­tait pas ce qu’il y a main­te­nant, mais on était quand même déjà dans les mêmes ordres de gran­deur en terme de puis­sance infor­ma­tique : il n’y avait pas beau­coup de séquences mais les ordi­na­teurs n’étaient pas rapides non plus.

 

Sequencing capabilities versus computational power from 1996–2010. http://www.nature.com/nbt/journal/v30/n7/fig_tab/nbt.2241_F1.html From Compressive genomics, Po-Ru Loh, Michael Baym & Bonnie Berger, Nature Biotechnology 30, 627–630 (2012)
Capa­ci­té de séquen­çage com­pa­rée à la puis­sance infor­ma­tique pour la période 1996–2010.
http://​www​.nature​.com/​n​b​t​/​j​o​u​r​n​a​l​/​v​3​0​/​n​7​/​f​i​g​_​t​a​b​/​n​b​t​.​2​2​4​1​_​F​1​.​h​tml
From Com­pres­sive geno­mics, Po-Ru Loh, Michael Baym & Bon­nie Ber­ger, Nature Bio­tech­no­lo­gy 30, 627–630 (2012)

 

On a donc uti­li­sé des groooos clus­ters d’IBM avec cinq nœuds ! Au final on réa­li­sait deux choses : le miroir du NCBI que j’avais déve­lop­pé en 1992, et un sys­tème de cour­rier élec­tro­nique (grande inno­va­tion à la mode à l'époque) qui trai­tait ceux-ci auto­ma­ti­que­ment. Pour ce der­nier sys­tème, les gens avaient un simple for­mat texte un peu figé car XML et JSON n’existaient pas encore. Les gens envoyaient donc leur mes­sage, celui-ci était trai­té, les cal­culs deman­dés étaient lan­cés et on ren­voyait le résul­tat par mail. Pour un blast par exemple il fal­lait comp­ter une petite heure. On voyait donc à ce moment quelque chose s’amorcer. La bio­in­for­ma­tique était à l’état embryon­naire en France, et on a vu appa­raître au bout d’un moment une for­ma­tion dédiée : NEIG (Nou­velle École Infor­ma­tique et Génome). On y retrou­vait une tren­taine de per­sonnes, c’est à dire à peu près toute la com­mu­nau­té bioin­fo de l’époque, femme et enfants com­pris. 

 

En octobre 1992, je me rends à Gre­noble à l'IMAG (Ins­ti­tut de Mathé­ma­tiques Appli­quées de Gre­noble), où je ren­contre un mec qui posait une ques­tion à chaque pré­sen­ta­tion et où l’orateur répon­dait “très bonne ques­tion”. Ce gars est res­pon­sable d'un tas de trucs pour l’INRIA. Il me dit : “c’est génial ce que t’as fait à Rouen, on se connaît pas là mais fau­drait faire quelque chose ensemble”. Pas de pro­blème, je suis le roi du cour­rier élec­tro­nique, dans une semaine je fais une liste avec TOUTES les adresses mail de tous les gens qui font de la bioin­fo en France ! Vous voyez, dead­line hyper facile : une semaine, trente noms à ren­trer, donc j’ai pris un peu de temps quand même : quatre par jour pour pas for­cer le rythme.

 

Organigramme de l'IMAG, vers 1968 Source : http://aconit.inria.fr/omeka/exhibits/show/informatique-grenoble/consolidation/imag CC-BY-NC-ND
Orga­ni­gramme de l'IMAG, vers 1968
Source : http://​aco​nit​.inria​.fr/​o​m​e​k​a​/​e​x​h​i​b​i​t​s​/​s​h​o​w​/​i​n​f​o​r​m​a​t​i​q​u​e​-​g​r​e​n​o​b​l​e​/​c​o​n​s​o​l​i​d​a​t​i​o​n​/​i​mag
CC-BY-NC-ND

 

Ce qu’il faut com­prendre, c’est que les années 80 et plus pré­ci­sé­ment de l’année 82 à 90, la pré­oc­cu­pa­tion dans le monde c’était de pro­duire et de sto­cker les don­nées. Si vous regar­dez l’histoire de Gen­bank, cela s’est déve­lop­pé au milieu des années 80 avec un sys­tème qui per­met­tait de col­lec­ter les don­nées pro­duites en labo­ra­toire. Il y avait un for­mat par­ti­cu­lier de mail pour sou­mettre ses séquences. La quan­ti­té de don­nées aug­men­tant, on se dit au début des années 90 qu’il y a quand même beau­coup de séquences, et que ce serait pas mal de contrô­ler un petit peu si la séquence que je pro­duis dans mon labo­ra­toire cor­res­pond déjà à des trucs qui ont été faits dans le monde. C’est à par­tir de ce moment que les gens ont réflé­chi en terme de FASTA, BLAST, et tout ce qui va avec. Rap­pe­lons-nous quand même qu’à l’époque les séquen­ceurs n’étaient pas les monstres qu’on a aujourd'hui : on fai­sait des migra­tions sur des gels, de la lec­ture des­sus et on était pas tou­jours sûr qu’une base n’en soit pas une autre. Du coup on avait plus de per­mis­si­vi­té autour des erreurs pou­vant être com­mises par l’homme. De nos jours, on regarde les indi­ca­teurs de qua­li­té sor­tant d’un séquen­ceur NGS et on râle quand on voit qu’on a "que" 99% de chances que ce soit exact. À l’époque ce résul­tat était ines­pé­ré ! Et puis on a vu l’arrivée des séquen­ceurs auto­ma­tiques au milieu des années 90.

 

Le premier séquenceur automatique, créé par Lloyd M. Smith Credit: Courtesy of Lloyd M. Smith
Le pre­mier séquen­ceur auto­ma­tique, créé par Lloyd M. Smith
Cre­dit : Cour­te­sy of Lloyd M. Smith

 

Les résul­tats sor­taient sous forme de chro­ma­to­grammes plus dis­cer­nables ren­dant ain­si le tra­vail de pro­duc­tion de séquences faci­li­té. En France à cette période, on se disait que l’essentiel était l’analyse de séquences, point. La méta­gé­no­mique n’existait pas et de toute façon, tech­no­lo­gi­que­ment par­lant, les gens n’étaient inté­res­sés que par leur petite cha­pelle. L’inaccessibilité et l’absence de par­tage des don­nées, au tra­vers du web par exemple, limi­taient de toute façon les pos­si­bi­li­tés d’interactions entre les domaines. Aujourd'hui, si vous vou­lez des don­nées sur autre chose que votre domaine spé­ci­fique, vous pre­nez votre navi­ga­teur pré­fé­ré, vous cher­chez et vous obte­nez ce que vous sou­hai­tez. À l'époque, il fal­lait envoyer un mail à une per­sonne peut-être suf­fi­sam­ment gen­tille pour vous ren­voyer un CD avec les don­nées (par­fois fac­tu­ré), et sinon pas d’autre solu­tion.

 

Milieu 90, le web se démo­cra­tise pro­gres­si­ve­ment, et si vous aviez un site inter­net vous étiez le roi du monde (le sum­mum étant d’avoir un GIF ani­mé sur sa page). Si je vous dis tout ça c’est pour vous dire que l’information avait com­men­cé à deve­nir acces­sible sur le web. Les infra­struc­tures de type FDDI donc la fibre optique, etc. se sont déve­lop­pées dans les régions à par­tir de 92/​93. Il n'y avait pas d’offre à l'époque de FAI pri­vé comme aujourd'hui, les gens télé­pho­naient sur un modem et ils télé­pho­naient à Paris.

 

Pour les nos­tal­giques 😀

 

L'accès aux don­nées était ain­si gra­tuit et la per­sonne ne payait que la com­mu­ni­ca­tion entre chez lui et Paris. À par­tir de ce moment, inter­net s’est immis­cé dans les labos pour aider le par­tage d’informations entre équipes, et donc bases de don­nées (avec par exemple des cross réfé­rences entre NCBI, EBI-EMBL, équi­valent au Japon, Swiss­prot, PDB, …). Et tout a fini par prendre une ampleur que per­sonne n’imaginait car aupa­ra­vant, les gens ne tra­vaillaient que sur leur domaine, leur champ d’expertise, soit en terme d’organismes, soit en terme de com­pé­tences (ana­lyse de séquences, compression/​complexité de séquences, …). Mais pour autant, le nombre de for­ma­tions en France en bio­in­for­ma­tique n’a pas décol­lé pour la simple rai­son que le mar­ché de l'emploi der­rière n’était pas là. Peu de labos com­pre­naient l’apport de cette nou­velle dis­ci­pline, et le médi­cal n’avait pas encore vu l’intérêt de celle-ci (cela vien­dra avec les NGS, les jeux de don­nées dépas­sant la capa­ci­té d’Excel, et le trai­te­ment d’images).

 

excelr
Dareen Evans, https://​www​.lin​ke​din​.com/​p​u​l​s​e​/​j​o​k​e​-​d​a​y​-​y​o​u​-​b​i​o​i​n​f​o​r​m​a​t​i​c​s​-​d​a​r​e​e​n​-​e​v​a​n​s​-​b​i​o​i​n​f​o​r​m​a​t​i​c​s​-​s​p​e​c​i​a​l​ist

 

Les gens sou­hai­tant se for­mer à la bio­in­for­ma­tique devaient donc suivre des écoles thé­ma­tiques natio­nales orga­ni­sées par plu­sieurs per­sonnes de divers domaines en bio­in­for­ma­tique. Le nombre de per­sonnes réduit dans cette nou­velle dis­ci­pline indui­sait une proxi­mi­té entre les gens, et donc une faci­li­té de recherche d’informations. Un autre effet de ce comi­té réduit était une ten­dance à la com­pé­ti­tion rela­ti­ve­ment faible : les gens s’entraidaient sans rete­nue liée au risque de se faire dou­bler. Les bio­lo­gistes à la fin de ces écoles retour­naient alors dans leur labo avec le sen­ti­ment que la bioin­fo c’était quand même un truc bien utile, mais que eux, leur cœur de métier, res­tait la bio tout court quand même. Ils cher­chaient donc à prendre un sta­giaire le plus sou­vent, car prendre une per­sonne qua­li­fiée posait qua­si tou­jours un pro­blème admi­nis­tra­tif : on refu­sait aux dépar­te­ments de bio d’engager quelqu’un consi­dé­ré infor­ma­ti­cien et on les ren­voyait vers le ser­vice infor­ma­tique qui lui était inca­pable d’effectuer le tra­vail deman­dé par les bio­lo­gistes. Les men­ta­li­tés ont depuis heu­reu­se­ment évo­lué. Cepen­dant, le sou­hait de créer des struc­tures pure­ment bioin­fo qui ser­vi­raient les bio­lo­gistes a rapi­de­ment dis­pa­ru avec cette ten­dance des labos (essen­tiel­le­ment en bio) à prendre un bio­in­for­ma­ti­cien pour une tâche extrê­me­ment spé­ci­fique. Les choses ont évo­lué en bioin­fo en France à par­tir de l'arrivée des séquen­ceurs auto­ma­tiques. Il y a eu un effet induit par cela : avant on avait besoin de 10 tech­ni­ciens pour séquen­cer, après seule­ment 3. On a donc dû, du fait de leurs CDI, trou­ver une autre occu­pa­tion aux tech­ni­ciens res­tant qui les valo­rise un peu. Des gens se sont donc dit qu’un bon moyen de déve­lop­per la bioin­fo serait d’engager une recon­ver­sion de ces tech­ni­ciens dans cette voie.

Pro­teins, http://​xkcd​.com/​1​4​30/, CC-BY-NC

 

Dans les années 92/​93, le CEPH et le Géné­thon créent des cartes phy­siques du génome humain, et il se passe alors un truc typi­que­ment fran­çais : on s’assoit sur nos lau­riers, consi­dé­rant que cet accom­plis­se­ment est l'achèvement final, le maxi­mum de ce qui pou­vait être décou­vert compte tenu des bud­gets alloués (il aurait en fait fal­lu que le gou­ver­ne­ment s’investisse sur cet axe pour per­mettre d’être lea­ders et de conti­nuer). Pour le consor­tium génome humain, la brique fran­çaise était effec­ti­ve­ment inté­res­sante mais il fal­lait pour­suivre, ce qui deman­dait beau­coup de moyens. Ils ont donc com­men­cé à avoir beau­coup de séquen­ceurs pour pro­duire beau­coup de don­nées.

 

Daniel Cohen : la carte du génome, Archive INA, http://​www​.ina​.fr/​v​i​d​e​o​/​I​1​1​2​9​8​794

 

Mal­heu­reu­se­ment il y a eu un petit trou à par­tir du milieu des années 90 jusqu’aux années 200X qui a entraî­né un manque de finan­ce­ment, lié à la poli­tique scien­ti­fique et la poli­tique tout court. La pro­duc­tion des don­nées s'est donc faite essen­tiel­le­ment hors de France. Heu­reu­se­ment, fin des années 90, quelqu'un a consta­té cette ten­dance et a fait remar­quer qu’on allait dans le mur. Il fût donc créé en réponse le centre natio­nal de séquen­çage (CNS) afin d’obtenir une aura, une visi­bi­li­té à l’étranger. On a donc eu un nou­vel élan dans le séquen­çage, avec comme ambi­tion le séquen­çage d’organismes aux pro­prié­tés inté­res­santes : des archae­bac­té­ries ultra résis­tantes, une méduse immor­telle… Et puis est arri­vé le flux de don­nées géné­ré par les séquen­ceurs auto­ma­tiques avec en même temps les EST (Expres­sed Sequence Tags), ces petites éti­quettes créées par un gars pen­dant qu’il était au NIH. Ce gars là s’appelait Craig Ven­ter et il s'était fait rou­ler dans la farine car les royal­ties de son inven­tion sont reve­nus au NIH.

Craig Ven­ter en 2007 PLoS Bio­lo­gy Vol. 5, No. 10, e266 doi:10.1371/journal.pbio.0050266, CC-BY

 

Après cet épi­sode, il eu une deuxième idée, TIGR (The Ins­ti­tute for Genome Research) avec dans son équipe une per­sonne ayant fait le génome de la grippe. Mais Craig était plus ambi­tieux et sou­hai­tait faire le génome de la mouche ce à quoi son col­lègue répon­dit “Non mais déconnes pas… la mouche… c’est de la science fic­tion !”. Craig main­tient et rétorque que l’on est sim­ple­ment pas équi­pé pour au niveau intel­lec­tuel. Par contre il y a un mec en Ari­zo­na qui vient de publier sur la pos­si­bi­li­té de faire le génome humain avec les tech­no­lo­gies actuelles. Il sou­hai­tait donc s’associer avec lui et trou­ver un moyen d’avoir les capa­ci­tés tech­niques suf­fi­santes. Et pour cela, il va donc voir de grosses entre­prises de séquen­ceurs auto­ma­tiques qui lui pro­posent une joint ven­ture, une entre­prise, à la condi­tion qu’il puisse lever la moi­tié des fonds néces­saires.

Cepen­dant, ces entre­prises lui disent “nous la mouche, ça nous inté­resse pas, ce qu’on veut c’est l'homme !”. Il répond que c’est gros, peut-être même trop, que la mouche est déjà un gros mor­ceau mais que, soit, il va trou­ver la somme à réunir pour res­pec­ter sa part du mar­ché. L’entreprise asso­ciée achète donc un bâti­ment, met les séquen­ceurs à l'intérieur, et lance l'équipe là-dedans. Et Craig, qui est un gars intel­li­gent et un vrai entre­pre­neur, annonce à l’entreprise par­te­naire, une fois ceci fait… qu’il n’a pas l'argent deman­dé ! Il pro­pose donc d'introduire la socié­té direc­te­ment en bourse et de voir com­ment ça se passe, mais il faut pour ça un échéan­cier propre : 1999, il annonce "je pense que la mouche ça devrait être pos­sible pour 2000, et l’homme fin 2001/​2002".

Cele­ra Geno­mics by Cold Spring Har­bor Labo­ra­to­ry, CC-BY-NC-ND

 

Et là c'est le drame, il se passe un truc bizarre… Bill Clin­ton trouve que sa petite sta­giaire avec une petite robe bleue est plu­tôt ave­nante, et Moni­ca Lewins­ky se dit qu’après tout c’est le pré­sident… Un scan­dale éclate donc [1] alors qu’on se situe à la fin de la man­da­ture du pré­sident en novembre 2000, mais on y revien­dra. Les choses avancent tout dou­ce­ment du côté de Craig et de mon côté j’arrive à Cele­ra (nom don­né à la joint ven­ture) où on me dit : “t'inquiète, tu restes deux ans, pas plus”. Les pro­grès étant encou­ra­geants, l’annonce va deve­nir publique concer­nant le séquen­çage du génome humain, et Clin­ton se dit que c’est bon pour lui ça et que c’est lui qui va devoir faire l’annonce. Évi­dem­ment, ça l’arrange bien de res­ter dans l’histoire pour le sujet du génome humain plu­tôt que pour un scan­dale avec une sta­giaire. Donc Cele­ra se rap­proche de la Mai­son Blanche dont le ser­vice de com­mu­ni­ca­tion nous dit :

  • “On a juste un pro­blème d’agenda, c’est que à par­tir de sep­tembre les médias n’en auront plus rien à faire, puisque de toute façon il ne sera pas dans la course pour sa réélec­tion. Il faut donc que l’annonce se fasse avant sep­tembre, c'est-à-dire pen­dant l’été.“

  • “Bien sûr, il vous le faut pour quand ?”

  • “On a un deuxième pro­blème, c’est que le pré­sident n’a pas encore don­né ses dates de vacances, alors il fau­drait que ce soit avant la fin juin.”

 

On s’est donc retrou­vés avec une dead­line pour juin 2000 alors qu’on avait pré­vu fin 2001… Et avec la contrainte sup­plé­men­taire que l’annonce soit un lun­di parce qu’il fal­lait annon­cer suf­fi­sam­ment à l’avance pour les médias, mais pas trop en avance pour évi­ter des spé­cu­la­tions à Wall Street. On en est donc arri­vés à la date du same­di matin car la bourse est fer­mée.

  • “Ah bien, mais quel est le der­nier lun­di du mois de juin 2000 ?”

  • “Le 26, vous avez jusqu’au 26”.

 

Craig revient donc vers nous et nous dit : “Hum alors les gens… hum… on a trois mois pour séquen­cer le génome humain… Donc en fait faut que vous arrê­tiez de dor­mir, faut que vous man­giez pas beau­coup et… stay focus !”. Mais pen­dant ce temps là, les gens du pro­jet génome humain qui plan­chaient sur le sujet éga­le­ment ne comp­taient pas se faire voler la vedette non plus. Eux avaient comme méthode de séquen­cer tel gène sur tel génome tan­dis que Cele­ra uti­li­sait une nou­velle méthode : le shot­gun. Les ordi­na­teurs qu’on avait à notre dis­po­si­tion à cet effet pour réa­li­ser cela repré­sen­taient 140 mil­lions de dol­lars de maté­riel, c’est-à-dire à l’époque la plus grosse capa­ci­té ordi­na­teur, hors ins­tal­la­tions mili­taires. Mais mal­gré ces moyens, trois mois res­taient trop courts pour réa­li­ser le séquen­çage com­plet, on a donc joint nos forces avec le pro­jet génome humain pour réduire les temps. Au fur et à mesure des séquen­çages, on a obte­nu un taux de cou­ver­ture extra­or­di­naire sur l’homme puisqu’on était à quatre fois, (sachant que quand on a fait la mouche on était à douze fois). Pour vous ça peut faire sou­rire, mais c’était déjà beau­coup pour nous ! C’est à ce moment qu’un mec de l'équipe dit “Et si on pre­nait toutes les don­nées du consor­tium génome humain en uti­li­sant notre génome assem­bleur et on voit ce qu’on obtient. On fait la même sur nos don­nées et on regarde si ça matche”. C’est donc ce qu’on a fait, et on s’est ren­du compte qu’il y avait envi­ron quinze pour­cents des don­nées du consor­tium génome humain qui étaient toutes conta­mi­nées (Esche­ri­chia coli, Baci­lus sub­ti­lis,…). Cela a per­mis à Craig Ven­ter autour d’une piz­za de pro­po­ser au gérant du consor­tium une col­la­bo­ra­tion pour exploi­ter les don­nées conser­vables ensemble (sans laquelle Cele­ra n’aurait pas été dans les temps) en échange d’un tra­vail conjoint et d’une annonce com­mune concer­nant le génome humain. L'annonce est donc faite, c’est une grande vic­toire public/​privé pour la Science, le livre de l’humanité est ouvert devant nous. Et ceci a été pour la bioin­fo en France et mon­diale une deuxième géné­ra­tion.

Dr. Craig Ven­ter, from left, pre­sident of Cele­ra Geno­mics Corp., Pre­sident Clin­ton and Dr. Fran­cis Col­lins, right, head of the Human Genome Pro­ject of the Natio­nal Ins­ti­tutes of Health, talk during a joint tele­con­fe­rence announ­ce­ment in Washing­ton, D.C., on June 26. http://​www​.chi​ca​go​tri​bune​.com/​s​n​s​-​d​n​a​0​6​2​6​0​0​a​n​n​o​u​n​c​e​m​e​n​t​.​j​p​g​-​p​h​o​t​o​.​h​tml Copy­right © 2016, Chi­ca­go Tri­bune

 

À par­tir de ce moment, cela a inté­res­sé les gens qui sont main­te­nant un tiers ou la moi­tié des deman­deurs en bio­in­for­ma­ti­ciens : la méde­cine. Car avant cela, la vue qu’on avait de l’homme était une vue très par­cel­laire : des empreintes ADN, des tests de pater­ni­té… Il y a donc eu un grand bou­le­ver­se­ment, on séquen­çait tout ! Même des zones où les gens accor­daient peu d’importance : l'hétérochromatine, les his­tones… Mais ces par­ties n’avaient aucun inté­rêt com­mer­cial et Craig res­tait rede­vable à l’entreprise qui avait finan­cé Cele­ra.

 

(Digres­sion : j'étais déjà, mal­heu­reu­se­ment peut-être, uni­ver­si­taire à l'époque. J’ai fait un entre­tien pour aller tra­vailler là-bas au mois de juin et l’action était à 4$ l'unité. Je suis arri­vé au mois de février l’année sui­vante et l’action, après divi­sion de chaque part, était à $154 soit $308 pour une action ache­tée en juin der­nier. Moi comme je suis un pauvre con, j’ai choi­si l'Université. On ne m’a pas don­né une action, zéro. Et en tant que tra­vailleur exté­rieur, j'étais le pauvre immi­gré. Au mois de mai, l’action était mon­tée à $257 avant split, soit $514 après. Cela a per­mis à Craig Ven­ter de reti­rer ses billets de ça, et de créer son centre fai­sant ce que Tara océan fait main­te­nant : navi­guer selon un par­cours pen­dant 1 an et pré­le­ver tous les X km un échan­tillon pour le séquen­cer. Il a éga­le­ment fait des études sur la quan­ti­té mini­male de gènes à avoir dans un orga­nisme arti­fi­ciel pour qu'il puisse se repro­duire, pour qu’il puisse vivre, etc.).

Evolution du prix de l'action de Celera Source : finance.yahoo.com Copyright : 2002 Yahoo! Inc.
Évo­lu­tion du prix de l'action de Cele­ra
Source : finance​.yahoo​.com
Copy­right : 2002 Yahoo ! Inc.

 

Quand je suis reve­nu en France, j’ai vu, au fur et à mesure de mon tra­vail là bas, appa­raître de nou­velles puis­sances de cal­cul : des clus­ters de cal­cul sous GNU/​Linux avec de la tolé­rance aux pannes, le retrait à chaud de disque dur… Les gens se sont dit : “c’est bon, avec cette capa­ci­té là on peut lan­cer toutes nos grappes de cal­cul, on est tran­quille pour un moment avant que ça soit sur­pas­sé.”. Et puis y’a un couillon qui a inven­té les NGS…

 

La chute du coût du séquençage, qui a entraîné l'explosion par la suite de la quantité de données à exploiter Technology: The $1,000 genome. Hayden EC., Nature. 2014 Mar 20 ;507(7492):294-5. doi: 10.1038/507294a.
La chute du coût du séquen­çage, qui a entraî­né l'explosion par la suite de la quan­ti­té de don­nées à exploi­ter
Tech­no­lo­gy : The $1,000 genome.
Hay­den EC., Nature. 2014 Mar 20 ;507(7492):294–5. doi : 10.1038/507294a.

 

Quand on les a vu arri­ver avec leurs conne­ries, on s’est dit que ça n'allait pas être aus­si simple que ça, sur­tout car la tech­no­lo­gie a dépas­sé l’intelligence. Les bio­lo­gistes ont été capables de pro­duire des flux de don­nées et des flux de don­nées, et puis ils se sont tour­nés vers les bio­in­for­ma­ti­ciens en disant “bah voi­là ! Vous les avez vos don­nées ! Ça fait dix ans que vous nous faites chier comme quoi y’a pas assez de don­nées. Allez y, jouez.”. C’est à ce moment-là qu’on s’est ren­du compte que les gens n’avaient pas été assez for­més pour produire/​mettre à jour les algo­rithmes pour déve­lop­per des méthodes qui traitent ces don­nées là. Pen­dant long­temps le job des bio­in­for­ma­ti­ciens avait été de faire de l’interfaçage, c'est à dire base de don­nées inter­ro­gée par un client web. Ce n’est que récem­ment qu’on a com­men­cé à faire des requêtes un peu plus orien­tées pour explo­rer des points spé­ci­fiques et donc faire de l’analyse de don­nées digne de ce nom. Et puis les gens se sont dit que les don­nées étaient de plus en plus com­plexes, on a donc vu appa­raître une volon­té de stan­dar­di­sa­tion afin de déve­lop­per des outils com­pa­tibles et agré­geables en pipe­lines. On en est donc arri­vé à un stade aujourd’hui où on cherche vrai­ment à gagner en modu­la­ri­té pour plu­guer et dé-plu­guer n’importe quel outil pour adap­ter la solu­tion au plus près du besoin.

 

Ain­si la com­mu­nau­té bioin­fo évo­lue. Nous étions une cen­taine de bio­in­for­ma­ti­ciens sur la liste bioin­fo en 92/​93, aujourd'hui le nombre est plu­tôt stable et tourne autour de 5000/​5500 membres.

 

 

Mer­ci à Laurent pour cette immer­sion dans l'historique de la bio­in­for­ma­tique  ! On vous retrouve pro­chai­ne­ment pour une nou­velle retrans­crip­tion d'une TOBi 😀

 

JebifLogo

 

Mer­ci aux relec­teurs lroy, Yoann M, et m4rsu pour leur temps !

 

[1] Pour les plus jeunes d'entre nous ou ceux qui auraient oublié : l'affaire Lewins­ky

 



Pour continuer la lecture :


Commentaires

2 réponses à “Questions à… Laurent Mouchard”

  1. C'est super inté­res­sant !

    J'ai déjà essayé de mettre en place un ser­veur mail ; c'est affreu­se­ment com­plexe et désa­gréable. Je me demande à quel point c'est dif­fé­rent de 1992.

    La par­tie sur l'adoption pro­gres­sive de la bio­in­for­ma­tique me rap­pelle cette his­toire :
    http://​www​.opi​nio​mics​.org/​y​o​u​r​e​-​n​o​t​-​a​l​l​o​w​e​d​-​b​i​o​i​n​f​o​r​m​a​t​i​c​s​-​a​n​y​m​o​re/

  2. @ Gwen : j'ai ado­ré cette retrans­crip­tion ! Encore mer­ci !

    @ Laurent : votre expé­rience et votre façon de tour­ner les choses arrivent à nous trans­por­ter dans le pas­sé pour qua­si­ment revivre ces ins­tants avec vous.
    Mer­ci pour ça !
    J'espère un jour ren­con­trer le per­son­nage en chair et en os pour décou­vrir d'autres anec­dotes !
    Sinon, si vous vous ennuyez un de ces 4, les portes du blog vous sont grandes ouvertes ! 🙂

Laisser un commentaire