Bioinformatique : de sa génèse à nos jours, vue par la génétique

Pour de nom­breux bio­in­for­ma­ti­ciens, les ori­gines de la bio­in­for­ma­tique coulent de source. Cela nous a été ensei­gné lors de nos cur­sus ou, pour cer­tains, ça a été une conver­sion nor­male par rap­port à la for­ma­tion d'origine ‑com­prendre un infor­ma­ti­cien qui tra­vaille dans le domaine bio­lo­gique.
Pour d'autres per­sonnes, bio­in­for­ma­ti­ciennes ou non, les ori­gines de la bio­in­for­ma­tique peuvent paraître floues, voire ne pas exis­ter. Et pour­tant, il a bien fal­lu un début à cette dis­ci­pline, tout comme l'univers est sor­ti du néant suite au Big Bang ou l'apparition de la vie selon la théo­rie de la "soupe pri­mor­diale" .

Dans cet article je me pro­pose de vous appor­ter des élé­ments sur la nais­sance de la bio­in­for­ma­tique, du point de vue de la géné­tique, pour­quoi elle est appa­rue et com­ment elle a "évo­lué" jusqu'à nos jours.

Ligne du temps de la bioinformatique
Ligne du temps de la bio­in­for­ma­tique | Ligne du temps créée par cis­tro­nic sur une pla­te­forme gra­tuite de géné­ra­tion de ligne du temps

Le biologiste et ses "Atlas complet de la biologie" ou la Préhistoire de la bioinformatique

Nous avons tous en tête l'image du bio­lo­giste, ce mon­sieur en blouse blanche, sou­rire inquié­tant et scal­pel à la main, prêt à… Bref, nous avons tous en tête l'image du bio­lo­giste affai­ré à sa recherche sur une mala­die ou sur l'anatomie d'un ani­mal.  Cer­tains d’entre nous ont une vague idée de ce qu'est un Wes­tern Blot et de son uti­li­té. D’autres le mai­trisent par­fai­te­ment.

Wes­tern Blot pour esti­mer la taille d'une pro­téine après migra­tion | CC-by SA Magnus Manske, fichier dis­po­nible sur wiki­me­dia

Ima­gi­nez un bio­lo­giste avant l’ère de l’informatique, toutes les don­nées qu'il connaît sont consi­gnées dans des docu­ments écrits sur un sup­port papier. Plus le bio­lo­giste réuni des connais­sances sur son sujet d'étude, et plus cela prend de la place ! Pour vous don­ner une idée, De l'Origine des Espèces, de Charles Dar­win, est un recueil de plus de 700 pages recen­sant les obser­va­tions et les théo­ries de Dar­win sur l'évolution des espèces.

Ima­gi­nons que notre bio­lo­giste sou­haite recen­ser toutes les pro­téines syn­thé­ti­sées par les gre­nouilles. Il lui fau­dra beau­coup de temps et beau­coup de papier. Il a sûre­ment des docu­ments sur les pro­téines de sa gre­nouille mais sont-ils com­plets ? Faut-il qu'il attende le der­nier numé­ro de Nature avant de faire ses Wes­tern Blot ? Et quand bien même il aurait réus­si à extraire sa pro­téine, la séquen­cer, com­ment savoir quel gène l'a codé ? Et ce gène, qui l'a régu­lé ? Et toutes les autres ques­tions d'ordre phy­sio­lo­gique qui se poussent dans la tête de notre pauvre bio­lo­giste ! Il lui faut une solu­tion pour évi­ter de se noyer dans la mon­tagne de revues qui s'amassent dans son bureau.

Un support pour tout contenir ?

La solu­tion est arri­vée d'elle-même pour le sto­ckage des don­nées avec l'essor de l'informatique et son évo­lu­tion crois­sante. A ce stade, il y a deux solu­tions pos­sibles :

  • soit le bio­lo­giste se retrousse les manches et apprend à se ser­vir d'un sys­tème de sto­ckage
  • soit le bio­lo­giste loue les ser­vices d'une per­sonne com­pé­tente dans ce domaine, un infor­ma­ti­cien, qui va apprendre à com­prendre ce que le bio­lo­giste cherche à obte­nir.

Dans les deux cas de figure, nous en sommes aux pre­miers bal­bu­tie­ments de la bio­in­for­ma­tique, mais ça n'est pas encore suf­fi­sant.

Le bio­lo­giste et l'informaticien, à force de dis­cus­sion, com­prennent vite que l'informatique peut appor­ter une aide pro­vi­den­tielle au bio­lo­giste en four­nis­sant des pro­grammes qui vont per­mettre d'analyser les don­nées four­nies, en plus de per­mettre de retrou­ver une infor­ma­tion déjà sto­ckée. C'est le début de l'ère de la bio­in­for­ma­tique.

La prédiction de séquences : une des clés de voûte de la bioinformatique

L'un des axes prin­ci­paux le plus connu du domaine bio­in­for­ma­tique est la pré­dic­tion de séquences. Or, au tout début de la bio­in­for­ma­tique, si l'on se réfère au point pré­cé­dent, l'informatique était uti­li­sé dans un but de sto­ckage et d'interrogation de don­nées. Il a donc fal­lu comp­ter sur les com­pé­tences de l'informaticien pour four­nir un tel outil qui per­met­trait, par la suite, d'aider le bio­lo­giste à déter­mi­ner quel endroit sur sa gre­nouille sera à explo­rer en prio­ri­té. Nos lec­teurs bio­in­for­ma­ti­ciens com­mencent à entre­voir la dif­fi­cul­té, je vais donc poser les bases de la pré­dic­tion de séquence.

Organiser sa stratégie de prédiction

Notre infor­ma­ti­cien, enthou­siaste à l'idée de contri­buer à aider son ami le bio­lo­giste, va vite se rendre compte des dif­fi­cul­tés de la tâche à sur­mon­ter. La pre­mière dif­fi­cul­té que notre infor­ma­ti­cien va avoir à sur­mon­ter est la sai­sie des don­nées séquen­cées par notre bio­lo­giste et ses col­lègues. Pour vous don­ner une idée, le génome du xénope a une taille esti­mée à envi­ron 1,7 mil­liard de paires de bases. Sup­po­sons qu'une par­tie du génome de la gre­nouille a déjà été séquen­cée grâce à la méthode de San­ger, le bio­lo­giste et ses col­lègues aiment vrai­ment cette petite gre­nouille !

L'informaticien a main­te­nant tout un panel de don­nées dont il va avoir besoin pour pré­dire des séquences codantes. Il faut donc que la machine ait les capa­ci­tés de sto­ckage et de mémoire vive néces­saires pour les dif­fé­rents cal­culs et les dif­fé­rentes étapes de pré­dic­tion. Par chance l'avancée tech­no­lo­gique pro­gresse rapi­de­ment dans ces deux domaines.

La seconde tâche va être la plus dif­fi­cile pour l'informaticien… qui n'y connaît encore rien en géné­tique et encore moins en géné­tique de la gre­nouille.

La prédiction d'une séquence d'un gène codant

Dans un pre­mier temps, il faut pou­voir décor­ti­quer la séquence nucléo­ti­dique, trou­ver tout ce qui peut cor­res­pondre à une séquence codante, à com­men­cer par un pro­mo­teur. Il faut donc que notre infor­ma­ti­cien sache quelle est la séquence du pro­mo­teur chez la gre­nouille, voire les séquences si il en existe plu­sieurs.

Pour cela, il va donc devoir faire appel à ses connais­sances en matière de recherche de motif. Une fois qu'il aura repé­ré une séquence cor­res­pon­dante, il ne fau­dra pas pour autant qu'il crie vic­toire trop vite : le pro­mo­teur est en amont du gène mais à une cer­taine dis­tance par rap­port au début du gène. Pour rap­pel, ou pour infor­ma­tion, les ADN poly­mé­rases (pro­téines spé­cia­li­sées dans la syn­thèse de l'ADN) et les ARN poly­mé­rases (pro­téines spé­cia­li­sées dans la syn­thèse de l'ARN) ont besoin du pro­mo­teur pour savoir où se fixer sur l'ADN, or, comme il s'agit de pro­téine, il leur faut de la place pour que leur tête puisse atteindre le début du gène. L'informaticien doit donc tenir compte de la dis­tance néces­saire entre le pro­mo­teur et le début du gène qui figure le site de fixa­tion de la poly­mé­rase.

La der­nière par­tie dont l'informaticien devra éga­le­ment tenir compte, c'est la ter­mi­nai­son du gène. Un gène com­mence tou­jours par un pro­mo­teur et fini tou­jours par un ter­mi­na­teur. Il faut donc que la pré­dic­tion ter­mine la détec­tion si le ter­mi­na­teur est trou­vé, ou qu'elle génère une erreur si elle ne trouve jamais de ter­mi­na­teur.

La prédiction d'une séquence protéique

La pré­dic­tion d'une séquence pro­téique est plus ou moins aisée par rap­port à la pré­dic­tion d'une séquence d'un gène codant.

Une fois que l'informaticien aura trou­vé le début du gène, il ne fau­dra pas qu'il oublie ce que son copain le bio­lo­giste lui a appris sur les gènes des gre­nouilles, qu'ils sont consti­tués d'exons (par­tie codante) et d'introns (par­tie non codante). Je ne vous ferai pas un cours sur cette par­tie qui a déjà été abor­dée avec brio par ZaZo0o dans cet article que je vous invite à lire si ce n'est pas encore fait. Il faut éga­le­ment qu'il tienne compte du fait qu'un codon (consti­tué de 3 nucléo­tides) donne un acide ami­né (élé­ment d'une pro­téine), il faut donc que chaque exon trou­vé ait une lon­gueur stric­te­ment divi­sible par 3.

Une pro­téine com­mence par un codon "start" qui est sou­vent le même en fonc­tion de l'espèce, et fini par un codon "stop" : pour le codon stop il peut y en avoir plu­sieurs. La pré­dic­tion de la séquence pro­téique est faci­li­tée par la table des codons, qui est très uti­li­sée en géné­tique. Il ne reste plus à notre infor­ma­ti­cien qu'à pro­gram­mer une pré­dic­tion à par­tir de ces don­nées.

Table des codons
La table des codons | Source : http://​bioin​fo​.bisr​.res​.in (Tous droits réser­vés)

Il fau­dra tou­te­fois que l'informaticien ne perde pas de vue une chose fon­da­men­tale qu'il a appris sur la géné­tique de la gre­nouille : les pro­téines codées par les gènes de cet ani­mal peuvent être le résul­tat de l'épissage alter­na­tif. Aus­si, pour un gène court et simple, avec 1 à 2 exons, on peut sup­po­ser qu'il n'y aura pas d'épissage alter­na­tif. Au delà de 3 exons, le doute est per­mis.

Le projet Génome Humain ou quand la bioinformatique sort de l'ombre

La petite his­toire que je vous ai racon­té vous a sûre­ment rap­pe­lé une for­mi­dable aven­ture humaine qui a fini à l'aube du XXIème siècle, le pro­jet génome humain. Cette coïn­ci­dence n'est pas tota­le­ment for­tuite.

Au tout début du pro­jet, les séquen­çages étaient longs, très longs. Il a donc fal­lu redou­bler d'effort et d'ingéniosité afin de trou­ver un moyen d’accélérer les résul­tats. Il a été néces­saire de revoir les tech­niques de séquen­çage (lire cet excellent article sur les géné­ra­tions de séquen­çage, par nahoy) qui étaient uti­li­sées à cette époque. Or la méthode employée à ce moment là était la plus sûre et la plus abou­tie, à défaut de pou­voir amé­lio­rer la tech­nique, ce sont les algo­rithmes qui ont pu être révi­sés en pro­fon­deur, et l'avancée de la tech­no­lo­gie aidant, le séquen­çage a pu se finir plus rapi­de­ment que pré­vu.

La bioinformatique d'aujourd'hui…

Si vous étu­diez cette ligne du temps de la bio­in­for­ma­tique [N.D.L.R. : lien péri­mé], vous pour­rez voir que l'histoire de la bio­in­for­ma­tique est inti­me­ment liée à l'histoire de la bio­lo­gie, de la chi­mie, des mathé­ma­tiques et de l'informatique. Mais son his­toire prend réel­le­ment racine dans les années 60–70, avec l'expansion de la recherche bio­lo­gique et de la recherche tech­no­lo­gique.

De nos jours la bio­in­for­ma­tique ne se can­tonne pas uni­que­ment à la tech­nique, elle fait éga­le­ment par­tie d'un champ de recherche à elle seule, bien qu'elle soit à l'interface entre plu­sieurs dis­ci­plines. Un bio­in­for­ma­ti­cien peut ain­si être plus doué en mathé­ma­tiques qu'un autre, tout dépen­dra de sa for­ma­tion et des ses com­pé­tences. Dans les dif­fé­rentes branches de notre dis­ci­pline nous pou­vons ain­si citer la phy­lo­gé­nie, l'imagerie, la géno­mique, la fluxo­mique, la méta­gé­no­mique ou encore la bio­lo­gie des sys­tèmes. Et j'en oublie cer­tai­ne­ment car elles ne sont pas encore pré­sen­tées sur ce blog, ou elles ne me viennent tout sim­ple­ment pas à l'esprit au moment où j'écris ces lignes.

… et celle de demain ?

Pour conclure je dirais que la bio­in­for­ma­tique est une for­mi­dable dis­ci­pline qui per­met d'avoir dif­fé­rentes com­pé­tences au sein d'un même labo­ra­toire, chaque branche est néces­saire à une autre branche. Nous ne savons pas encore quels seront les nou­veaux champs de recherche ou de tech­no­lo­gie qui pour­ront être explo­rés par la bio­in­for­ma­tique, mais nous pou­vons déjà ima­gi­ner, avec l'avancée des nano­tech­no­lo­gies, que la bio­in­for­ma­tique pour­rait trou­ver sa place pour la récolte de don­nées in vivo de façon non inva­sive afin de trou­ver des réponses aux ques­tions que beau­coup se posent, et ce mal­gré nos connais­sances : com­ment fonc­tionne la machi­ne­rie du vivant ? … Ou encore, qu’est-ce que nous cache notre amie la gre­nouille ?

Grenouille espiègle
Le clin d'oeil de la gre­nouille | Auteur : kang­ster (fli­ckr) CC-by-nc-sa

Mer­ci à Guillaume Col­let, Mali­cia, Hau­bit, nal­lias, max et Yoann M pour leur relec­ture et leurs com­men­taires.

Si cet article vous a inté­res­sé, vous pou­vez éga­le­ment être inté­res­sé par l'article sui­vant qui illustre bien ce que nous venons de voir ensemble : http://​www​.isb​-sib​.ch/​i​m​a​g​e​s​/​s​t​o​r​i​e​s​/​N​e​w​s​/​f​i​r​e​a​n​t​f​r​.​pdf



Pour continuer la lecture :


Commentaires

2 réponses à “Bioinformatique : de sa génèse à nos jours, vue par la génétique”

  1. C'est un plai­sir pour moi de consta­ter que mon blog évo­lue dans la même lon­gueur d'onde que le votre. Tout en notant que cet article est magni­fique, je m'en vais vous dire que je pré­pare depuis mer­cre­di un billet sur mon blog qui trai­te­ras de la bio­in­for­ma­tique entre ama­teurs et pro­fes­sion­nels.

    J'ai aus­si rédi­gé le 6 décembre 2012 un article sur le regard que je porte sur la bio­in­for­ma­tique. C'est un article qui parle de ce que vous n'avez pas men­tion­né et vous pou­vez le retrou­vez à http://​nas​prog​.blog​spot​.com/​2​0​1​2​/​1​2​/​l​e​-​r​e​g​a​r​d​-​q​u​e​-​j​e​-​p​o​r​t​e​-​s​u​r​-​l​a​_​6​.​h​tml

    En fin je pense que le hacking serais très béné­fique à notre mer­veilleuse science !

  2. Hel­lo Nol­wenn,

    Super article ! je vois que tu as été beau­coup plus géné­rale que moi. j'ai bien appré­cié la ligne de temps qui resume l'histoire de la science (Bio, chi­mie, math, infor­ma­tique) jusque' au pro­jet encode.

    J'aurai pu lar­ge­ment te citer pour me foca­li­ser uni­que­ment sur l'analyse de sequences sans intro­duire le dogme cen­tral et autres. (ce sera l'objet d'un pro­chain "sui­vez le guide")

    A bien­tôt !

    jso­bel

Laisser un commentaire