Avec un peu beaucoup de retard, retrouvez la retranscription de la TOBi organisée par JeBiF en mai 2016 avec Laurent Mouchard, maître de conférence à l'Université de Rouen et modérateur de la liste bioinfo.
Nous le remercions d'être venu nous raconter la petite histoire de la bioinformatique !
.
Laurent Mouchard : Je suis vieux… J'ai donc eu le temps d'accumuler un parcours un peu particulier. J'ai commencé par être prof de maths au lycée, et puis cela ne me plaisant pas, j'ai commencé à faire de l'informatique (DEA + maîtrise). Je n'étais toujours pas satisfait de ce que je faisais, et du coup je suis parti dans le privé en 1991 pour participer au déploiement d'un truc un peu "foufou" : le réseau haut débit… “Internet” que ça s'appelait, je ne sais pas si vous connaissez… Enfin toujours est-il que le conseil régional de Haute Normandie, plutôt que de donner trois francs six sous aux entreprises de la région, avait décidé de construire un gros centre de ressources informatique à Rouen. Pour donner l'accès aux entreprises à cette source, ils se sont dit "on va faire un truc un peu innovant qui vient d'émerger, on ne sait pas comment ça va marcher, ça s'appelle Internet". Il faut, pour mieux comprendre les réactions, se replacer dans le contexte de l'époque : Google, Amazon, Facebook, etc. n'existaient pas. La connexion réseau n'était même pas un truc de geek, mais encore au-delà. Typiquement en 1986 quand j'ai commencé à bosser sur internet, on avait une liaison à 512 Kbytes qui allait directement se connecter à l'INRIA de Rocquencourt qui diffusait ensuite l'information dans tout l'ouest de la France. Rocquencourt était connecté à Rennes et passait donc par Rouen (une ligne droite bien connue). On avait une connexion toute pourrie, mais ça existait. Je me suis donc retrouvé dans le centre informatique là avec des gros gros ordinateurs, c'était un système d'ordinateurs massivement parallèles. Alors là vous vous dites "ouais ça va", sauf qu'en 1992, massivement parallèle ça voulait dire 1000 processeurs ayant chacun pour mémoire, attention… 4 Ko ! C'était gigantesque pour l'époque, et je suis très content de l'avoir vécu pour maintenant apprécier ce qu'on a dans un téléphone portable.
Un jour où je travaillais là-bas, mon patron de l'époque me dit "Tiens y'a ptêt un truc intéressant qui serait à faire, j'ai rencontré des gens à Paris là… à la capitale… Ils viennent de Pasteur, d'Infobiogen (structure financée par le Téléthon et le CEPH) et des gens de Versailles. Et ces gens là ils font des trucs rigolos qu’ils appellent de la biologie moléculaire, et ils ont besoin d'informatique. On pourrait p’têt faire une truc sympa avec eux". Je me rends donc là-bas, ces gens me parlent de trucs que je ne comprends pas : de gènes, de dogme central de la biologie,… Et ils nous disent qu’il va falloir réfléchir un petit peu à avoir un miroir d’un truc qu’il y a aux États-Unis, qui s’appelle le NCBI, et qui met à disposition des banques de données et des services. Notamment un qui vient tout juste d’être développé et qui répond au nom de BLAST. “Ce serait donc pas mal que nous en France on ait l’équivalent” nous disent-ils…
Je me renseigne donc à ce sujet. Pour récupérer les bases de données, il suffisait de commander les CD, et on les recevait par la poste au bout de trois semaines… Parce que je vous rappelle qu’avec 512 Kbytes de débit la poste était beaucoup plus rapide, vous pouviez même aller les chercher en avion et revenir que ça aurait été encore plus rapide. Donc à l’époque, les mises à jour n’étaient pas journalières, hein, on tournait plus autour de trois mois et on était contents quand d’un seul coup quelque chose arrivait. En volume ça ne représentait pas ce qu’il y a maintenant, mais on était quand même déjà dans les mêmes ordres de grandeur en terme de puissance informatique : il n’y avait pas beaucoup de séquences mais les ordinateurs n’étaient pas rapides non plus.
On a donc utilisé des groooos clusters d’IBM avec cinq nœuds ! Au final on réalisait deux choses : le miroir du NCBI que j’avais développé en 1992, et un système de courrier électronique (grande innovation à la mode à l'époque) qui traitait ceux-ci automatiquement. Pour ce dernier système, les gens avaient un simple format texte un peu figé car XML et JSON n’existaient pas encore. Les gens envoyaient donc leur message, celui-ci était traité, les calculs demandés étaient lancés et on renvoyait le résultat par mail. Pour un blast par exemple il fallait compter une petite heure. On voyait donc à ce moment quelque chose s’amorcer. La bioinformatique était à l’état embryonnaire en France, et on a vu apparaître au bout d’un moment une formation dédiée : NEIG (Nouvelle École Informatique et Génome). On y retrouvait une trentaine de personnes, c’est à dire à peu près toute la communauté bioinfo de l’époque, femme et enfants compris.
En octobre 1992, je me rends à Grenoble à l'IMAG (Institut de Mathématiques Appliquées de Grenoble), où je rencontre un mec qui posait une question à chaque présentation et où l’orateur répondait “très bonne question”. Ce gars est responsable d'un tas de trucs pour l’INRIA. Il me dit : “c’est génial ce que t’as fait à Rouen, on se connaît pas là mais faudrait faire quelque chose ensemble”. Pas de problème, je suis le roi du courrier électronique, dans une semaine je fais une liste avec TOUTES les adresses mail de tous les gens qui font de la bioinfo en France ! Vous voyez, deadline hyper facile : une semaine, trente noms à rentrer, donc j’ai pris un peu de temps quand même : quatre par jour pour pas forcer le rythme.
Ce qu’il faut comprendre, c’est que les années 80 et plus précisément de l’année 82 à 90, la préoccupation dans le monde c’était de produire et de stocker les données. Si vous regardez l’histoire de Genbank, cela s’est développé au milieu des années 80 avec un système qui permettait de collecter les données produites en laboratoire. Il y avait un format particulier de mail pour soumettre ses séquences. La quantité de données augmentant, on se dit au début des années 90 qu’il y a quand même beaucoup de séquences, et que ce serait pas mal de contrôler un petit peu si la séquence que je produis dans mon laboratoire correspond déjà à des trucs qui ont été faits dans le monde. C’est à partir de ce moment que les gens ont réfléchi en terme de FASTA, BLAST, et tout ce qui va avec. Rappelons-nous quand même qu’à l’époque les séquenceurs n’étaient pas les monstres qu’on a aujourd'hui : on faisait des migrations sur des gels, de la lecture dessus et on était pas toujours sûr qu’une base n’en soit pas une autre. Du coup on avait plus de permissivité autour des erreurs pouvant être commises par l’homme. De nos jours, on regarde les indicateurs de qualité sortant d’un séquenceur NGS et on râle quand on voit qu’on a "que" 99% de chances que ce soit exact. À l’époque ce résultat était inespéré ! Et puis on a vu l’arrivée des séquenceurs automatiques au milieu des années 90.
Les résultats sortaient sous forme de chromatogrammes plus discernables rendant ainsi le travail de production de séquences facilité. En France à cette période, on se disait que l’essentiel était l’analyse de séquences, point. La métagénomique n’existait pas et de toute façon, technologiquement parlant, les gens n’étaient intéressés que par leur petite chapelle. L’inaccessibilité et l’absence de partage des données, au travers du web par exemple, limitaient de toute façon les possibilités d’interactions entre les domaines. Aujourd'hui, si vous voulez des données sur autre chose que votre domaine spécifique, vous prenez votre navigateur préféré, vous cherchez et vous obtenez ce que vous souhaitez. À l'époque, il fallait envoyer un mail à une personne peut-être suffisamment gentille pour vous renvoyer un CD avec les données (parfois facturé), et sinon pas d’autre solution.
Milieu 90, le web se démocratise progressivement, et si vous aviez un site internet vous étiez le roi du monde (le summum étant d’avoir un GIF animé sur sa page). Si je vous dis tout ça c’est pour vous dire que l’information avait commencé à devenir accessible sur le web. Les infrastructures de type FDDI donc la fibre optique, etc. se sont développées dans les régions à partir de 92/93. Il n'y avait pas d’offre à l'époque de FAI privé comme aujourd'hui, les gens téléphonaient sur un modem et ils téléphonaient à Paris.
Pour les nostalgiques 😀
L'accès aux données était ainsi gratuit et la personne ne payait que la communication entre chez lui et Paris. À partir de ce moment, internet s’est immiscé dans les labos pour aider le partage d’informations entre équipes, et donc bases de données (avec par exemple des cross références entre NCBI, EBI-EMBL, équivalent au Japon, Swissprot, PDB, …). Et tout a fini par prendre une ampleur que personne n’imaginait car auparavant, les gens ne travaillaient que sur leur domaine, leur champ d’expertise, soit en terme d’organismes, soit en terme de compétences (analyse de séquences, compression/complexité de séquences, …). Mais pour autant, le nombre de formations en France en bioinformatique n’a pas décollé pour la simple raison que le marché de l'emploi derrière n’était pas là. Peu de labos comprenaient l’apport de cette nouvelle discipline, et le médical n’avait pas encore vu l’intérêt de celle-ci (cela viendra avec les NGS, les jeux de données dépassant la capacité d’Excel, et le traitement d’images).
Les gens souhaitant se former à la bioinformatique devaient donc suivre des écoles thématiques nationales organisées par plusieurs personnes de divers domaines en bioinformatique. Le nombre de personnes réduit dans cette nouvelle discipline induisait une proximité entre les gens, et donc une facilité de recherche d’informations. Un autre effet de ce comité réduit était une tendance à la compétition relativement faible : les gens s’entraidaient sans retenue liée au risque de se faire doubler. Les biologistes à la fin de ces écoles retournaient alors dans leur labo avec le sentiment que la bioinfo c’était quand même un truc bien utile, mais que eux, leur cœur de métier, restait la bio tout court quand même. Ils cherchaient donc à prendre un stagiaire le plus souvent, car prendre une personne qualifiée posait quasi toujours un problème administratif : on refusait aux départements de bio d’engager quelqu’un considéré informaticien et on les renvoyait vers le service informatique qui lui était incapable d’effectuer le travail demandé par les biologistes. Les mentalités ont depuis heureusement évolué. Cependant, le souhait de créer des structures purement bioinfo qui serviraient les biologistes a rapidement disparu avec cette tendance des labos (essentiellement en bio) à prendre un bioinformaticien pour une tâche extrêmement spécifique. Les choses ont évolué en bioinfo en France à partir de l'arrivée des séquenceurs automatiques. Il y a eu un effet induit par cela : avant on avait besoin de 10 techniciens pour séquencer, après seulement 3. On a donc dû, du fait de leurs CDI, trouver une autre occupation aux techniciens restant qui les valorise un peu. Des gens se sont donc dit qu’un bon moyen de développer la bioinfo serait d’engager une reconversion de ces techniciens dans cette voie.
Dans les années 92/93, le CEPH et le Généthon créent des cartes physiques du génome humain, et il se passe alors un truc typiquement français : on s’assoit sur nos lauriers, considérant que cet accomplissement est l'achèvement final, le maximum de ce qui pouvait être découvert compte tenu des budgets alloués (il aurait en fait fallu que le gouvernement s’investisse sur cet axe pour permettre d’être leaders et de continuer). Pour le consortium génome humain, la brique française était effectivement intéressante mais il fallait poursuivre, ce qui demandait beaucoup de moyens. Ils ont donc commencé à avoir beaucoup de séquenceurs pour produire beaucoup de données.
Malheureusement il y a eu un petit trou à partir du milieu des années 90 jusqu’aux années 200X qui a entraîné un manque de financement, lié à la politique scientifique et la politique tout court. La production des données s'est donc faite essentiellement hors de France. Heureusement, fin des années 90, quelqu'un a constaté cette tendance et a fait remarquer qu’on allait dans le mur. Il fût donc créé en réponse le centre national de séquençage (CNS) afin d’obtenir une aura, une visibilité à l’étranger. On a donc eu un nouvel élan dans le séquençage, avec comme ambition le séquençage d’organismes aux propriétés intéressantes : des archaebactéries ultra résistantes, une méduse immortelle… Et puis est arrivé le flux de données généré par les séquenceurs automatiques avec en même temps les EST (Expressed Sequence Tags), ces petites étiquettes créées par un gars pendant qu’il était au NIH. Ce gars là s’appelait Craig Venter et il s'était fait rouler dans la farine car les royalties de son invention sont revenus au NIH.
Après cet épisode, il eu une deuxième idée, TIGR (The Institute for Genome Research) avec dans son équipe une personne ayant fait le génome de la grippe. Mais Craig était plus ambitieux et souhaitait faire le génome de la mouche ce à quoi son collègue répondit “Non mais déconnes pas… la mouche… c’est de la science fiction !”. Craig maintient et rétorque que l’on est simplement pas équipé pour au niveau intellectuel. Par contre il y a un mec en Arizona qui vient de publier sur la possibilité de faire le génome humain avec les technologies actuelles. Il souhaitait donc s’associer avec lui et trouver un moyen d’avoir les capacités techniques suffisantes. Et pour cela, il va donc voir de grosses entreprises de séquenceurs automatiques qui lui proposent une joint venture, une entreprise, à la condition qu’il puisse lever la moitié des fonds nécessaires.
Cependant, ces entreprises lui disent “nous la mouche, ça nous intéresse pas, ce qu’on veut c’est l'homme !”. Il répond que c’est gros, peut-être même trop, que la mouche est déjà un gros morceau mais que, soit, il va trouver la somme à réunir pour respecter sa part du marché. L’entreprise associée achète donc un bâtiment, met les séquenceurs à l'intérieur, et lance l'équipe là-dedans. Et Craig, qui est un gars intelligent et un vrai entrepreneur, annonce à l’entreprise partenaire, une fois ceci fait… qu’il n’a pas l'argent demandé ! Il propose donc d'introduire la société directement en bourse et de voir comment ça se passe, mais il faut pour ça un échéancier propre : 1999, il annonce "je pense que la mouche ça devrait être possible pour 2000, et l’homme fin 2001/2002".
Et là c'est le drame, il se passe un truc bizarre… Bill Clinton trouve que sa petite stagiaire avec une petite robe bleue est plutôt avenante, et Monica Lewinsky se dit qu’après tout c’est le président… Un scandale éclate donc [1] alors qu’on se situe à la fin de la mandature du président en novembre 2000, mais on y reviendra. Les choses avancent tout doucement du côté de Craig et de mon côté j’arrive à Celera (nom donné à la joint venture) où on me dit : “t'inquiète, tu restes deux ans, pas plus”. Les progrès étant encourageants, l’annonce va devenir publique concernant le séquençage du génome humain, et Clinton se dit que c’est bon pour lui ça et que c’est lui qui va devoir faire l’annonce. Évidemment, ça l’arrange bien de rester dans l’histoire pour le sujet du génome humain plutôt que pour un scandale avec une stagiaire. Donc Celera se rapproche de la Maison Blanche dont le service de communication nous dit :
“On a juste un problème d’agenda, c’est que à partir de septembre les médias n’en auront plus rien à faire, puisque de toute façon il ne sera pas dans la course pour sa réélection. Il faut donc que l’annonce se fasse avant septembre, c'est-à-dire pendant l’été.“
“Bien sûr, il vous le faut pour quand ?”
“On a un deuxième problème, c’est que le président n’a pas encore donné ses dates de vacances, alors il faudrait que ce soit avant la fin juin.”
On s’est donc retrouvés avec une deadline pour juin 2000 alors qu’on avait prévu fin 2001… Et avec la contrainte supplémentaire que l’annonce soit un lundi parce qu’il fallait annoncer suffisamment à l’avance pour les médias, mais pas trop en avance pour éviter des spéculations à Wall Street. On en est donc arrivés à la date du samedi matin car la bourse est fermée.
“Ah bien, mais quel est le dernier lundi du mois de juin 2000 ?”
“Le 26, vous avez jusqu’au 26”.
Craig revient donc vers nous et nous dit : “Hum alors les gens… hum… on a trois mois pour séquencer le génome humain… Donc en fait faut que vous arrêtiez de dormir, faut que vous mangiez pas beaucoup et… stay focus !”. Mais pendant ce temps là, les gens du projet génome humain qui planchaient sur le sujet également ne comptaient pas se faire voler la vedette non plus. Eux avaient comme méthode de séquencer tel gène sur tel génome tandis que Celera utilisait une nouvelle méthode : le shotgun. Les ordinateurs qu’on avait à notre disposition à cet effet pour réaliser cela représentaient 140 millions de dollars de matériel, c’est-à-dire à l’époque la plus grosse capacité ordinateur, hors installations militaires. Mais malgré ces moyens, trois mois restaient trop courts pour réaliser le séquençage complet, on a donc joint nos forces avec le projet génome humain pour réduire les temps. Au fur et à mesure des séquençages, on a obtenu un taux de couverture extraordinaire sur l’homme puisqu’on était à quatre fois, (sachant que quand on a fait la mouche on était à douze fois). Pour vous ça peut faire sourire, mais c’était déjà beaucoup pour nous ! C’est à ce moment qu’un mec de l'équipe dit “Et si on prenait toutes les données du consortium génome humain en utilisant notre génome assembleur et on voit ce qu’on obtient. On fait la même sur nos données et on regarde si ça matche”. C’est donc ce qu’on a fait, et on s’est rendu compte qu’il y avait environ quinze pourcents des données du consortium génome humain qui étaient toutes contaminées (Escherichia coli, Bacilus subtilis,…). Cela a permis à Craig Venter autour d’une pizza de proposer au gérant du consortium une collaboration pour exploiter les données conservables ensemble (sans laquelle Celera n’aurait pas été dans les temps) en échange d’un travail conjoint et d’une annonce commune concernant le génome humain. L'annonce est donc faite, c’est une grande victoire public/privé pour la Science, le livre de l’humanité est ouvert devant nous. Et ceci a été pour la bioinfo en France et mondiale une deuxième génération.
À partir de ce moment, cela a intéressé les gens qui sont maintenant un tiers ou la moitié des demandeurs en bioinformaticiens : la médecine. Car avant cela, la vue qu’on avait de l’homme était une vue très parcellaire : des empreintes ADN, des tests de paternité… Il y a donc eu un grand bouleversement, on séquençait tout ! Même des zones où les gens accordaient peu d’importance : l'hétérochromatine, les histones… Mais ces parties n’avaient aucun intérêt commercial et Craig restait redevable à l’entreprise qui avait financé Celera.
(Digression : j'étais déjà, malheureusement peut-être, universitaire à l'époque. J’ai fait un entretien pour aller travailler là-bas au mois de juin et l’action était à 4$ l'unité. Je suis arrivé au mois de février l’année suivante et l’action, après division de chaque part, était à $154 soit $308 pour une action achetée en juin dernier. Moi comme je suis un pauvre con, j’ai choisi l'Université. On ne m’a pas donné une action, zéro. Et en tant que travailleur extérieur, j'étais le pauvre immigré. Au mois de mai, l’action était montée à $257 avant split, soit $514 après. Cela a permis à Craig Venter de retirer ses billets de ça, et de créer son centre faisant ce que Tara océan fait maintenant : naviguer selon un parcours pendant 1 an et prélever tous les X km un échantillon pour le séquencer. Il a également fait des études sur la quantité minimale de gènes à avoir dans un organisme artificiel pour qu'il puisse se reproduire, pour qu’il puisse vivre, etc.).
Quand je suis revenu en France, j’ai vu, au fur et à mesure de mon travail là bas, apparaître de nouvelles puissances de calcul : des clusters de calcul sous GNU/Linux avec de la tolérance aux pannes, le retrait à chaud de disque dur… Les gens se sont dit : “c’est bon, avec cette capacité là on peut lancer toutes nos grappes de calcul, on est tranquille pour un moment avant que ça soit surpassé.”. Et puis y’a un couillon qui a inventé les NGS…
Quand on les a vu arriver avec leurs conneries, on s’est dit que ça n'allait pas être aussi simple que ça, surtout car la technologie a dépassé l’intelligence. Les biologistes ont été capables de produire des flux de données et des flux de données, et puis ils se sont tournés vers les bioinformaticiens en disant “bah voilà ! Vous les avez vos données ! Ça fait dix ans que vous nous faites chier comme quoi y’a pas assez de données. Allez y, jouez.”. C’est à ce moment-là qu’on s’est rendu compte que les gens n’avaient pas été assez formés pour produire/mettre à jour les algorithmes pour développer des méthodes qui traitent ces données là. Pendant longtemps le job des bioinformaticiens avait été de faire de l’interfaçage, c'est à dire base de données interrogée par un client web. Ce n’est que récemment qu’on a commencé à faire des requêtes un peu plus orientées pour explorer des points spécifiques et donc faire de l’analyse de données digne de ce nom. Et puis les gens se sont dit que les données étaient de plus en plus complexes, on a donc vu apparaître une volonté de standardisation afin de développer des outils compatibles et agrégeables en pipelines. On en est donc arrivé à un stade aujourd’hui où on cherche vraiment à gagner en modularité pour pluguer et dé-pluguer n’importe quel outil pour adapter la solution au plus près du besoin.
Ainsi la communauté bioinfo évolue. Nous étions une centaine de bioinformaticiens sur la liste bioinfo en 92/93, aujourd'hui le nombre est plutôt stable et tourne autour de 5000/5500 membres.
Merci à Laurent pour cette immersion dans l'historique de la bioinformatique ! On vous retrouve prochainement pour une nouvelle retranscription d'une TOBi 😀
Merci aux relecteurs lroy, Yoann M, et m4rsu pour leur temps !
[1] Pour les plus jeunes d'entre nous ou ceux qui auraient oublié : l'affaire Lewinsky
Laisser un commentaire