Pour de nombreux bioinformaticiens, les origines de la bioinformatique coulent de source. Cela nous a été enseigné lors de nos cursus ou, pour certains, ça a été une conversion normale par rapport à la formation d'origine ‑comprendre un informaticien qui travaille dans le domaine biologique.
Pour d'autres personnes, bioinformaticiennes ou non, les origines de la bioinformatique peuvent paraître floues, voire ne pas exister. Et pourtant, il a bien fallu un début à cette discipline, tout comme l'univers est sorti du néant suite au Big Bang ou l'apparition de la vie selon la théorie de la "soupe primordiale" .
Dans cet article je me propose de vous apporter des éléments sur la naissance de la bioinformatique, du point de vue de la génétique, pourquoi elle est apparue et comment elle a "évolué" jusqu'à nos jours.
Le biologiste et ses "Atlas complet de la biologie" ou la Préhistoire de la bioinformatique
Nous avons tous en tête l'image du biologiste, ce monsieur en blouse blanche, sourire inquiétant et scalpel à la main, prêt à… Bref, nous avons tous en tête l'image du biologiste affairé à sa recherche sur une maladie ou sur l'anatomie d'un animal. Certains d’entre nous ont une vague idée de ce qu'est un Western Blot et de son utilité. D’autres le maitrisent parfaitement.
Imaginez un biologiste avant l’ère de l’informatique, toutes les données qu'il connaît sont consignées dans des documents écrits sur un support papier. Plus le biologiste réuni des connaissances sur son sujet d'étude, et plus cela prend de la place ! Pour vous donner une idée, De l'Origine des Espèces, de Charles Darwin, est un recueil de plus de 700 pages recensant les observations et les théories de Darwin sur l'évolution des espèces.
Imaginons que notre biologiste souhaite recenser toutes les protéines synthétisées par les grenouilles. Il lui faudra beaucoup de temps et beaucoup de papier. Il a sûrement des documents sur les protéines de sa grenouille mais sont-ils complets ? Faut-il qu'il attende le dernier numéro de Nature avant de faire ses Western Blot ? Et quand bien même il aurait réussi à extraire sa protéine, la séquencer, comment savoir quel gène l'a codé ? Et ce gène, qui l'a régulé ? Et toutes les autres questions d'ordre physiologique qui se poussent dans la tête de notre pauvre biologiste ! Il lui faut une solution pour éviter de se noyer dans la montagne de revues qui s'amassent dans son bureau.
Un support pour tout contenir ?
La solution est arrivée d'elle-même pour le stockage des données avec l'essor de l'informatique et son évolution croissante. A ce stade, il y a deux solutions possibles :
- soit le biologiste se retrousse les manches et apprend à se servir d'un système de stockage
- soit le biologiste loue les services d'une personne compétente dans ce domaine, un informaticien, qui va apprendre à comprendre ce que le biologiste cherche à obtenir.
Dans les deux cas de figure, nous en sommes aux premiers balbutiements de la bioinformatique, mais ça n'est pas encore suffisant.
Le biologiste et l'informaticien, à force de discussion, comprennent vite que l'informatique peut apporter une aide providentielle au biologiste en fournissant des programmes qui vont permettre d'analyser les données fournies, en plus de permettre de retrouver une information déjà stockée. C'est le début de l'ère de la bioinformatique.
La prédiction de séquences : une des clés de voûte de la bioinformatique
L'un des axes principaux le plus connu du domaine bioinformatique est la prédiction de séquences. Or, au tout début de la bioinformatique, si l'on se réfère au point précédent, l'informatique était utilisé dans un but de stockage et d'interrogation de données. Il a donc fallu compter sur les compétences de l'informaticien pour fournir un tel outil qui permettrait, par la suite, d'aider le biologiste à déterminer quel endroit sur sa grenouille sera à explorer en priorité. Nos lecteurs bioinformaticiens commencent à entrevoir la difficulté, je vais donc poser les bases de la prédiction de séquence.
Organiser sa stratégie de prédiction
Notre informaticien, enthousiaste à l'idée de contribuer à aider son ami le biologiste, va vite se rendre compte des difficultés de la tâche à surmonter. La première difficulté que notre informaticien va avoir à surmonter est la saisie des données séquencées par notre biologiste et ses collègues. Pour vous donner une idée, le génome du xénope a une taille estimée à environ 1,7 milliard de paires de bases. Supposons qu'une partie du génome de la grenouille a déjà été séquencée grâce à la méthode de Sanger, le biologiste et ses collègues aiment vraiment cette petite grenouille !
L'informaticien a maintenant tout un panel de données dont il va avoir besoin pour prédire des séquences codantes. Il faut donc que la machine ait les capacités de stockage et de mémoire vive nécessaires pour les différents calculs et les différentes étapes de prédiction. Par chance l'avancée technologique progresse rapidement dans ces deux domaines.
La seconde tâche va être la plus difficile pour l'informaticien… qui n'y connaît encore rien en génétique et encore moins en génétique de la grenouille.
La prédiction d'une séquence d'un gène codant
Dans un premier temps, il faut pouvoir décortiquer la séquence nucléotidique, trouver tout ce qui peut correspondre à une séquence codante, à commencer par un promoteur. Il faut donc que notre informaticien sache quelle est la séquence du promoteur chez la grenouille, voire les séquences si il en existe plusieurs.
Pour cela, il va donc devoir faire appel à ses connaissances en matière de recherche de motif. Une fois qu'il aura repéré une séquence correspondante, il ne faudra pas pour autant qu'il crie victoire trop vite : le promoteur est en amont du gène mais à une certaine distance par rapport au début du gène. Pour rappel, ou pour information, les ADN polymérases (protéines spécialisées dans la synthèse de l'ADN) et les ARN polymérases (protéines spécialisées dans la synthèse de l'ARN) ont besoin du promoteur pour savoir où se fixer sur l'ADN, or, comme il s'agit de protéine, il leur faut de la place pour que leur tête puisse atteindre le début du gène. L'informaticien doit donc tenir compte de la distance nécessaire entre le promoteur et le début du gène qui figure le site de fixation de la polymérase.
La dernière partie dont l'informaticien devra également tenir compte, c'est la terminaison du gène. Un gène commence toujours par un promoteur et fini toujours par un terminateur. Il faut donc que la prédiction termine la détection si le terminateur est trouvé, ou qu'elle génère une erreur si elle ne trouve jamais de terminateur.
La prédiction d'une séquence protéique
La prédiction d'une séquence protéique est plus ou moins aisée par rapport à la prédiction d'une séquence d'un gène codant.
Une fois que l'informaticien aura trouvé le début du gène, il ne faudra pas qu'il oublie ce que son copain le biologiste lui a appris sur les gènes des grenouilles, qu'ils sont constitués d'exons (partie codante) et d'introns (partie non codante). Je ne vous ferai pas un cours sur cette partie qui a déjà été abordée avec brio par ZaZo0o dans cet article que je vous invite à lire si ce n'est pas encore fait. Il faut également qu'il tienne compte du fait qu'un codon (constitué de 3 nucléotides) donne un acide aminé (élément d'une protéine), il faut donc que chaque exon trouvé ait une longueur strictement divisible par 3.
Une protéine commence par un codon "start" qui est souvent le même en fonction de l'espèce, et fini par un codon "stop" : pour le codon stop il peut y en avoir plusieurs. La prédiction de la séquence protéique est facilitée par la table des codons, qui est très utilisée en génétique. Il ne reste plus à notre informaticien qu'à programmer une prédiction à partir de ces données.
Il faudra toutefois que l'informaticien ne perde pas de vue une chose fondamentale qu'il a appris sur la génétique de la grenouille : les protéines codées par les gènes de cet animal peuvent être le résultat de l'épissage alternatif. Aussi, pour un gène court et simple, avec 1 à 2 exons, on peut supposer qu'il n'y aura pas d'épissage alternatif. Au delà de 3 exons, le doute est permis.
Le projet Génome Humain ou quand la bioinformatique sort de l'ombre
La petite histoire que je vous ai raconté vous a sûrement rappelé une formidable aventure humaine qui a fini à l'aube du XXIème siècle, le projet génome humain. Cette coïncidence n'est pas totalement fortuite.
Au tout début du projet, les séquençages étaient longs, très longs. Il a donc fallu redoubler d'effort et d'ingéniosité afin de trouver un moyen d’accélérer les résultats. Il a été nécessaire de revoir les techniques de séquençage (lire cet excellent article sur les générations de séquençage, par nahoy) qui étaient utilisées à cette époque. Or la méthode employée à ce moment là était la plus sûre et la plus aboutie, à défaut de pouvoir améliorer la technique, ce sont les algorithmes qui ont pu être révisés en profondeur, et l'avancée de la technologie aidant, le séquençage a pu se finir plus rapidement que prévu.
La bioinformatique d'aujourd'hui…
Si vous étudiez cette ligne du temps de la bioinformatique [N.D.L.R. : lien périmé], vous pourrez voir que l'histoire de la bioinformatique est intimement liée à l'histoire de la biologie, de la chimie, des mathématiques et de l'informatique. Mais son histoire prend réellement racine dans les années 60–70, avec l'expansion de la recherche biologique et de la recherche technologique.
De nos jours la bioinformatique ne se cantonne pas uniquement à la technique, elle fait également partie d'un champ de recherche à elle seule, bien qu'elle soit à l'interface entre plusieurs disciplines. Un bioinformaticien peut ainsi être plus doué en mathématiques qu'un autre, tout dépendra de sa formation et des ses compétences. Dans les différentes branches de notre discipline nous pouvons ainsi citer la phylogénie, l'imagerie, la génomique, la fluxomique, la métagénomique ou encore la biologie des systèmes. Et j'en oublie certainement car elles ne sont pas encore présentées sur ce blog, ou elles ne me viennent tout simplement pas à l'esprit au moment où j'écris ces lignes.
… et celle de demain ?
Pour conclure je dirais que la bioinformatique est une formidable discipline qui permet d'avoir différentes compétences au sein d'un même laboratoire, chaque branche est nécessaire à une autre branche. Nous ne savons pas encore quels seront les nouveaux champs de recherche ou de technologie qui pourront être explorés par la bioinformatique, mais nous pouvons déjà imaginer, avec l'avancée des nanotechnologies, que la bioinformatique pourrait trouver sa place pour la récolte de données in vivo de façon non invasive afin de trouver des réponses aux questions que beaucoup se posent, et ce malgré nos connaissances : comment fonctionne la machinerie du vivant ? … Ou encore, qu’est-ce que nous cache notre amie la grenouille ?
Merci à Guillaume Collet, Malicia, Haubit, nallias, max et Yoann M pour leur relecture et leurs commentaires.
Si cet article vous a intéressé, vous pouvez également être intéressé par l'article suivant qui illustre bien ce que nous venons de voir ensemble : http://www.isb-sib.ch/images/stories/News/fireantfr.pdf
Laisser un commentaire