Il était une fois… l’analyse de séquences d’ADN

L'ADN renferme le secret de la vie|Public Domain CC0
L'ADN ren­ferme le secret de la vie| Public Domain CC0

L'analyse de séquences est une mis­sion cen­trale de la bio­in­for­ma­tique. Quelques mots sur celle de l'ADN, un domaine incon­tour­nable dans lequel les cher­cheurs s’attèlent à com­prendre la fonc­tion des régions régu­la­trices du génome et des gènes grâce aux nou­velles tech­no­lo­gies.

Le credo de la bio

Pubmed_sequence_analysis
Nombre de publi­ca­tions par année à pro­pos de l'analyse de séquences ADN dans Pub­med

En bio­lo­gie, il existe de nom­breuses macro­mo­lé­cules ren­fer­mant un code per­met­tant d’exécuter des pro­ces­sus cel­lu­laires et molé­cu­laires. C’est ce que l’on appelle le dogme cen­tral de la bio­lo­gie molé­cu­laire : un gène est trans­crit en ARN mes­sa­ger puis tra­duit en pro­téines — prin­ci­pales pro­ta­go­nistes des pro­ces­sus bio­lo­giques de la cel­lule. L'ADN et l'ARN sont faits de longues séquences de nucléo­tides ATGC et AUGC et les pro­téines, de chaînes com­po­sées d'acides ami­nés.

L'ADN, star des publications

Au fil du temps, les méthodes de séquen­çage du génome et des ARN mes­sa­gers génèrent de nom­breuses séquences de nucléo­tides, ouvrant la voie à une meilleure clas­si­fi­ca­tion des espèces (Phy­lo­gé­né­tique). Celle de San­ger est la pre­mière. La fonc­tion des gènes et des pro­téines est ain­si déco­dée, du virus bac­té­rio­phage φX174 en 1977 à l’être humain en 2001.

Depuis les années 1980, l'analyse de séquences d'ADN devient la star des publi­ca­tions. En 2012, la base de don­née scien­ti­fiques Pub­med réper­to­rie quelque 18392 nou­velles entrées, à ce sujet.

Depuis les années 1970

Les pre­miers algo­rithmes uti­li­sés pour cette clas­si­fi­ca­tion phy­lo­gé­né­tique sont basés sur des méthodes d’alignement glo­bal de séquences. Dans les années 1970, l’algorithme de Need­le­man-Wunsch fait ses preuves en la matière. Vous pou­vez d'ailleurs depuis peu vous amu­ser à com­prendre son fonc­tion­ne­ment avec cette web-appli­ca­tion réa­li­sée entiè­re­ment en JavaS­cript. En 1981, celui de Smith-Water­man per­met d’étudier effi­ca­ce­ment des ali­gne­ments locaux. En com­pa­rant les séquences des ARN ribo­so­maux et des ARN de trans­fert de Esche­ri­chia coli, il iden­ti­fie des sous-séquences aux fonc­tions spé­ci­fiques.

Cité plus de 20'000 fois

Trou­ver des rela­tions fonc­tion­nelles ou évo­lu­tives entre les séquences, et iden­ti­fier les membres d'une même famille de gènes : c'est ce que per­met l’algorithme BLAST (Basic Local Ali­gn­ment Search Tool), créé en 1990 par  Ste­phen Alt­schul et ses col­lègues. La publi­ca­tion le décri­vant a été citée plus de 20'000 fois, un record, et cet algo­rithme mira­cu­leux est encore uti­li­sé aujourd’hui pour l’analyse de séquences d’ADN, d’ARN et de pro­téines.

Grâce à ces algo­rithmes et leurs suc­ces­seurs, les secrets des ali­gne­ments mul­tiples ont été per­cés. La conser­va­tion entre gènes ortho­logues et para­logues  a pu être quan­ti­fiée et de nom­breuses familles de gènes et des régions régu­la­trices ont été iden­ti­fiées. Les sites de début de la trans­crip­tion, les séquences Kozak,  et les sites d'ori­gine de répli­ca­tion bac­té­riens, entre autres, comptent par­mi les prin­ci­pales décou­vertes de l'analyse de séquences ADN.

Un nouvel essor

Avec les tech­no­lo­gies récentes basées sur le séquen­çage, la recherche sur le génome a pris un nou­vel essor. Les don­nées issues des tech­niques CHiP-seq, RNA-seq et DNase-seq per­mettent par exemple d’étudier, l'une les sites de liai­son de dif­fé­rentes pro­téines à l’ADN, la seconde le niveau d’expression des trans­crits et la troi­sième, l’accessibilité de la chro­ma­tine.

La géno­mique fonc­tion­nelle, nou­veau domaine de la bio­lo­gie molé­cu­laire défi­nie par l’étude quan­ti­ta­tive et qua­li­ta­tive de la struc­ture de la chro­ma­tine à l’échelle du génome, est issue de ces tech­niques. Elle inclut notam­ment l’analyse des inter­ac­tions ADN-pro­téines, ain­si que celle des niveaux d’expression des gènes codant ces der­nières.

CHiP-chip !

CHiP-chip, PBM, HT-SELEX, yeast one-hybrid ou encore SPR ont contri­bué spé­ci­fi­que­ment à l’étude des inter­ac­tions pro­téines-ADN. Ces tech­niques ont per­mis d'établir des séquences consen­sus ou plus pré­ci­sé­ment des  matrice poids-posi­tions (PWM)  décri­vant les sites de liai­son de fac­teurs de trans­crip­tion à l'ADN. Elles sont expli­quées en détail dans une excel­lente review de Gary Stro­mo.

Le logo qui cartonne

La repré­sen­ta­tion en logos des matrices poids-posi­tions de l'Américain Gary Stro­mo (publié en 1982) a ren­du son modèle extrê­me­ment popu­laire et fait de leur auteur l'un des prin­ci­paux théo­ri­ciens des inter­ac­tions ADN-pro­téines. Plu­sieurs bases de don­nées dont Jas­par et Trans­fac sont consa­crées à ces matrices poids-posi­tions. Elles per­mettent de repré­sen­ter les sites de liai­son à l'ADN, l'ARN ain­si que des domaines de pro­téines ayant un rôle par­ti­cu­lier.

LexA_gram_positive_bacteria_sequence_logo
Logo de séquence ADN repré­sen­tant une matrice poids-posi­tions. la taille des lettres cor­res­pond à la conser­va­tion des nucléo­tides à une posi­tion don­née.

 

 

La trans­crip­tion est influen­cée entre autres par la struc­ture tri­di­men­sion­nelle de la chro­ma­tine et l’arrangement spa­tial des chro­mo­somes dans le noyau. Le lien entre struc­ture de la chro­ma­tine et trans­crip­tion des gènes a été prou­vé par des études sur la cap­ture de la confor­ma­tion des chro­mo­somes (3C, 4C, 5C, Hi‑C et CHiA-pet), basées sur les tra­vaux de Dek­ker publiés en 2002.

Étu­dié depuis plus de qua­rante ans, L'ADN ren­ferme le secret de la vie. La com­pré­hen­sion des méca­nismes de régu­la­tion de la trans­crip­tion per­met­tra d’appréhender son essence, tout en offrant de beau jours à la bio­in­for­ma­tique et à l'analyse de séquences.

Références

  1. Need­le­man, Saul B.; and Wunsch, Chris­tian D. (1970). "A gene­ral method appli­cable to the search for simi­la­ri­ties in the ami­no acid sequence of two pro­teins". Jour­nal of Mole­cu­lar Bio­lo­gy 48 (3): 443–53. doi :10.1016/0022–2836(70)90057–4. PMID 5420325.
  2. Smith, Temple F.; and Water­man, Michael S. (1981). "Iden­ti­fi­ca­tion of Com­mon Mole­cu­lar Sub­se­quences". Jour­nal of Mole­cu­lar Bio­lo­gy 147 : 195–197. doi :10.1016/0022–2836(81)90087–5. PMID 7265238.
  3. Alt­schul, Ste­phen ; Gish, War­ren ; Mil­ler, Webb ; Myers, Eugene ; Lip­man, David (1990). "Basic local ali­gn­ment search tool". Jour­nal of Mole­cu­lar Bio­lo­gy 215 (3): 403–410. doi :10.1016/S0022-2836(05)80360–2. PMID 2231712.
  4. Stor­mo, Gary D.; Schnei­der, Tho­mas D.; Gold, Lar­ry ; Ehren­feucht, Andr­zej (1982). "Use of the ‘Per­cep­tron’ algo­rithm to dis­tin­guish trans­la­tio­nal ini­tia­tion sites in E. coli". Nucleic Acids Research 10 (9): 2997–3011. doi :10.1093/nar/10.9.2997
  5. Gary D.Stormo and Yue Zhao (2010) "Deter­mi­ning the spe­ci­fi­ci­ty of protein–DNA inter­ac­tions", Nature Reviews Gene­tics AOP, 28 Sep­tem­ber 2010 ; doi:10.1038/nrg2845
  6. Schnei­der TD, Ste­phens RM (1990). "Sequence Logos : A New Way to Dis­play Consen­sus Sequences". Nucleic Acids Res 18 (20): 6097–6100. doi :10.1093/nar/18.20.6097. PMC 332411. PMID 2172928
  7. Dek­ker J, Rippe K, Dek­ker M, Kle­ck­ner N (2002). "Cap­tu­ring chro­mo­some confor­ma­tion". Science 295 (5558): 1306–1311. doi :10.1126/science.1067799 . PMID 11847345

 

Un grand mer­ci aux relec­teurs Estel , Yoann M., nahoy, et Aline Jac­cot­tet

 



Pour continuer la lecture :


Commentaires

Une réponse à “Il était une fois… l’analyse de séquences d’ADN”

  1. […] L'ADN ren­ferme le secret de la vie| Public Domain CC0 L'analyse de séquences est une mis­sion cen­trale de la bio­in­for­ma­tique.  […]

Laisser un commentaire