Accessibility Tools

- Le blog participatif de bioinformatique francophone depuis 2012 -

Des molécules et des données !

Vu que nous sommes sur un blog de bio-infor­ma­tique, je vous pro­pose aujourd'hui de par­ler chi­mie ! Enfin plu­tôt, ché­mo­in­for­ma­tique* et quelques notions de la façon dont une molé­cule est sto­ckée en ligne en fonc­tion des régle­men­ta­tions chi­miques et cos­mé­tiques.

Je ne suis pas un expert de ce domaine, mais alors vrai­ment pas du tout. Par contre, j'ai com­men­cé à accu­mu­ler quelques notions qui ne sont pas inin­té­res­santes pour un bio­in­for­ma­ti­cien… et ça fait sur­tout un très bel article d'aide-mémoire pour votre humble ser­vi­teur. Voyons main­te­nant ensemble com­ment une molé­cule est notée en ligne.

Liste non exhaustive des identifiants possibles d'une molécule

Pour pou­voir com­men­cer sai­ne­ment cet article, il est néces­saire de com­prendre une chose fon­da­men­tale. Si l'on sou­haite trou­ver une molé­cule dans une base de don­nées, celle-ci peut avoir de nom­breux iden­ti­fiants dif­fé­rents. Tous ces iden­ti­fiants ont été construits pour des bonnes rai­sons, avoir un iden­ti­fiant qui s'applique à une règle­men­ta­tion, pou­vant être dif­fé­rente en fonc­tion des pays ou des usages.

Quand on parle de molé­cule, on parle prin­ci­pa­le­ment de règle­men­ta­tion faites par la chi­mie. Ces règle­men­ta­tions sont la pour éva­luer le dan­ger d'une molé­cule. Voi­ci une liste des iden­ti­fiants inté­res­sants que l'on peut avoir.

Le CAS : Le for­mal­dé­hyde a pour code CAS 50-00-0. Mais un code CAS, qu'est-ce que c'est ? Des molé­cules connues, il y en a beau­coup, vrai­ment beau­coup. Donc, nos copains de la ché­mo-infor­ma­tique ont inven­té une banque de "Che­mi­cal Abs­tract Ser­vice" (CAS) pour enre­gis­trer toutes les molé­cules pos­sibles.

Main­te­nant j'aimerais intro­duire une petite sub­ti­li­té. Pre­nons un exemple d'une chaîne qui contient 14 atomes de car­bone. Si dans la nature on la trouve par­fois pure, on peut aus­si la trou­ver en mélange avec ses alter­na­tives à 12 et 16 car­bones, le mélange résul­tant serait alors poten­tiel­le­ment décla­ré avec un autre CAS.

Exemple de CAS avec plu­sieurs variantes dedans.

EC num­ber : l'Euro­pean Com­mu­ni­ty (EC) num­ber est le numé­ro attri­bué à une molé­cule par l'Europe. Avec, un exemple juste au-des­sus, de ce qu'on retrouve sur le site web.

UN num­ber : l'Uni­ted Nations num­ber (UN num­ber). Ce chiffre là est utile pour savoir quelle est la régle­men­ta­tion en matière de trans­port d'une molé­cule. C'est ce qui per­met notam­ment d'étiqueter les camions s'ils trans­portent des pro­duits dan­ge­reux (pra­tique en cas d'accident, non ?). Là encore, une même molé­cule pour­ra en avoir plu­sieurs en fonc­tion de son contexte et de sa for­mu­la­tion. L'azote liquide, par exemple, ne dis­pose pas des mêmes régle­men­ta­tions en fonc­tion des états dans lequel il est trans­por­té.

ChE­BI ID, Drug­Bank ID, Kegg ID : Quand je vous dis qu'une molé­cule a vrai­ment beau­coup d'identifiants, c'est le cas !

Le ChE­BI ID est l'identifiant d'une mole­cule dans la base four­ni par l'EBI pour faire de la che­mo infor­ma­tique. Che­mi­cal Enti­ties of Bio­lo­gi­cal Inter­est (ChE­BI) sert prin­ci­pa­le­ment sur leur site pour retrou­ver une molé­cule et regar­der dans quel voie elle est impli­qué.

Le Drug­Bank ID en toute logique est là pour Drug­Bank qui est une base qui comme son nom l'indique a pour usage prin­ci­pal un usage phar­ma­ceu­tique. Kegg que cer­tains d'entre vous connaissent bien pour faire des réseaux méta­bo­litques a éga­le­ment des iden­ti­fiants pour les molé­cules avec leurs Kegg ID.

En toute fran­chise de l'avis de votre expert du jour qui s'intéresse à ces ques­tions là depuis deux semaines, il n'est néces­saire de regar­der essen­tiel­le­ment que le CAS qui est fina­le­ment la brique la plus com­mune de voca­bu­laire entre toutes les bases.

L'INCI, une manière de voir la molécule par un autre prisme : celui de la cosmétique

Dans la par­tie pré­cé­dente, nous avons vu tous les codes qu'une molé­cule peut avoir du point de vue de la régle­men­ta­tion chi­mique. Main­te­nant, si vous sui­vez un peu mes articles pré­cé­dents ou que vous savez lire un titre, vous vous main­te­nant dou­tez de quoi nous allons par­ler. Une molé­cule a peut-être une dizaine d'identifiants, pour­quoi ne pas lui en ajou­ter d'autres pour suivre une autre régle­men­ta­tion ?

Un toxi­co­logue éva­lue éga­le­ment les chances d'exposition a un dan­ger. Pour cela il n'évaluera pas une molé­cule mais un ingré­dient. Pour chaque ingré­dient éva­lué, il existe un nom INCI (Inter­na­tio­nal Nomen­cla­ture of Cos­me­tic Ingre­dients). Pour faire simple, le for­mol, c'est du for­mal­dé­hyde ; donc, pour être sûr que tout le monde appelle un ingré­dient de la même manière au regard de la cos­mé­tique, il est néces­saire de lui don­ner un nom offi­ciel, son INCI (For­mal­de­hyde). Ce sont ces termes, stan­dar­di­sés qu'on retrouve comme com­po­si­tion des pro­duits que nous pou­vons ache­ter. Ils ont donc voca­tion à être bien plus lisibles pour le com­mun des mor­tels que des noms chi­miques à ral­longe !

Là, un lec­teur qui n'est pas per­du par ma prose mal­adroite remar­que­ra que je n'ai pas uti­li­sé le terme « molé­cule ». Comme toute com­mu­nau­té, les gens ont défi­ni des termes cha­cun, mais dans les faits… un ingré­dient et une molé­cule sont presque la même chose (de mon point de vue, hein, atten­tion !).

Je vais par­tir d'un exemple simple. L'huile d'olive est un ingré­dient super. Mais celui-ci contient… beau­coup de molé­cules dif­fé­rentes. Mais dis-moi Jamie, est-ce qu'il n'existe pas des numé­ros CAS pour des mélanges de molé­cules ? Bin­go. Donc, un ingrédient/​substance est recon­nu par un code CAS et cha­cun d'entre eux peut être com­po­sé de 1 à N molé­cules. Dans la majo­ri­té des cas, les ingré­dients seront mono-sub­stances et il sera donc facile de faire le lien entre eux, mais, la plu­part du temps, il sera néces­saire de regrou­per toutes ces infor­ma­tions métho­di­que­ment pour être sûr.

Main­te­nant qu'on com­prend ce réfé­ren­tiel, que pou­vons-nous en faire ? La meilleure réponse se trouve dans la régle­men­ta­tion cos­mé­tique qui qua­li­fie tous les ingré­dients auto­ri­sés. De là, un outil for­mi­dable, le CIR (cos­me­tic ingre­dient review), per­met de retrou­ver tous les ingré­dients dont on cherche à faire une éva­lua­tion. De manière géné­rale, tout nom INCI don­ne­ra accès sur inter­net à des infor­ma­tions plus per­ti­nentes pour l'usage cos­mé­tique et donc plus facile à inter­pré­ter pour le com­mun des mor­tels ( oh ce truc là, il pique !). De nom­breuses appli­ca­tions pour les consom­ma­teurs se basent sur les INCI en point d'entrée (donne-moi le nom d'un ingré­dient je te dirai ce qu'il fait).

Quelques exemples de pages ou naviguer pour lire des informations sur ces molécules.

Repar­tons d'un exemple simple qu'une bonne par­tie d'entre vous connaissent : le for­mal­dé­hyde. Pour tous ceux habi­tués aux bases de don­nées de génomes de réfé­rence, c'est pareil, vous arri­vez sur un site de réfé­ren­ce­ment, vous tapez ce numé­ro (ou le nom de la molé­cule), et hop, vous retrou­vez sa fiche per­so.

Un bon exemple de site où faire ce genre d'opération, c'est Pub­Chem. Qu'on tape "for­mal­de­hyde" ou son CAS, voi­là ce qui appa­raît :

La page pub­chem du for­mal­dé­hyde

Que trouve-t-on sur cette page ? Pre­mière chose, un autre iden­ti­fiant : le Pub­Chem CID, qui est la ver­sion Pub­Chem du CAS. La deuxième par­tie, c'est la struc­ture 2D/​3D de la molé­cule. Dans la par­tie "che­mi­cal safe­ty", on retrouve les pic­to­grammes de dan­ger asso­ciés à la molé­cule. Vous savez, les petits logos qu'on trouve assez faci­le­ment au super­mar­ché sur les pro­duits inflam­mables ou autres. Ces triangles/​carrés avec des images qui font peur résument le fait qu'une molé­cule est toxique d'une manière ou d'une autre. C'est grâce à ça que tout le monde sait que le for­mal­dé­hyde est toxique et donc dan­ge­reux pour notre san­té. Si on tape "for­mal­de­hyde" sur ChE­BI ou sur Pub­chem, on trouve rapi­de­ment ceci :

Ces petites des­crip­tions ne sont pas ano­dines, le SMILES est le moyen de noter la molé­cule à la suite. Ces nota­tions sont les for­mats d'entrées types des librai­ries dédiées et per­mettent donc de coder des modèles pour pré­dire le com­por­te­ment de ces molé­cules. Un autre for­mat fort pra­tique pour la mani­pu­la­tion des molé­cules est le for­mat Mol, qui est en fait un for­mat SDF clas­sique uti­li­sé dans de nom­breux sujets 3D.

Mon for­mal­dé­hyde en for­mat Mol/​SDF** !

Main­te­nant conti­nuons notre explo­ra­tion de cette molé­cule sur d'autres sites. Vu mon domaine on va aller à un endroit pré­vi­sible.. allons voir du côté de l'Euro­pean che­mi­cal agen­cy (ECHA). Ce site est une mine d'or, en tapant "for­mal­de­hyde" on arrive vite ici :

306 quoi ?? dos­siers ? C'est quoi un dos­sier REACH ?
Un dos­sier REACH (Regis­tra­tion, Eva­lua­tion, Autho­ri­sa­tion and Res­tric­tion of Che­mi­cals) est un dos­sier de l'Union euro­péenne pour vali­der l'usage d'une molé­cule. Donc en regar­dant cette sou­mis­sion on aura accès a lit­té­ra­le­ment toutes les études autour de la molé­cule pour un usage don­né. Cette base est la a voca­tion consul­ta­tive que pour faire des modèles. Elle va nous aider a nous docu­men­ter sur une molé­cule et la com­prendre rapi­de­ment avec tout ce qui règle­mente son usage. Pour ceux qui se sont inté­res­sé au para­graphe sur les INCI, voi­la un petit exemple de page a sur le for­mal­dé­hyde en se bala­dant sur INCI beau­ty :

Et voi­là com­ment en une recherche en ligne rapide on com­prend que le for­mal­de­hyde n'est plus uti­li­sé en cos­mé­tique depuis long­temps !

Ce genre de page est pra­tique si vous vou­lez juste un coup d'œil rapide. Mais si on cherche le détail pour le réfé­ren­ciel ingré­dient, le mieux reste d'aller sur le por­tail du CIR (cos­me­tic ingre­dient review) ou en quelques clics, hop, on trouve un rap­port PDF sur l'ingrédient en ques­tion avec des jolies publi­ca­tions sur le sujet :

Pourquoi ne pas unifier tout le monde un grand coup ?

Dans ce petit billet, je vous ai fait une petite intro­duc­tion sur pleins d'identifiants de molé­cules. Le but était de com­prendre que ces iden­ti­fiants ont été pen­sé par des com­mu­nau­tés dis­tinctes pour des usages dif­fé­rents. C'est ce long his­to­rique qui amène sou­vent des gens a par­ler de la même chose sans le remar­quer ou par­fois pas du tout. Remettre tout à plat et fusion­ner l'ensemble en l'état me semble une tâche dif­fi­cile tant les deux mondes ont des avan­tages : cibler les gens qu'ils ont pré­vus de cibler ini­tia­le­ment et leurs besoins vs avoir un sys­tème uni­ver­sel qui serait com­plexe et poten­tiel­le­ment ban­cal.

Main­te­nant que nous savons que tous ces iden­ti­fiants existent, nous ver­rons com­ment exploi­ter ces infor­ma­tions dans un pro­chain billet  !

Mer­ci aux relec­teurs de cet article : Super Zazo0o, super Aze­rin et super Evo­lu­scope !

* : En thèse, j'écrivais des articles sur ma thèse, en post doc sur les ensei­gne­ments que je don­nais. Aujourd'hui, j'écris sur mon tra­vail actuel, ça vous sur­prend ? Et vous, vous vous y met­tez quand ? 😀

** : Si tu me cri­tiques car j'ouvre un fichier avec Bloc-notes… Gare à toi lec­teur, je te trou­ve­rais et refor­ma­te­rais ton fedo­ra en une man­dri­va ! Mou­ha­ha­ha.

Vous avez aimé ? Dites-le nous !

Moyenne : 5 /​ 5. Nb de votes : 3

Pas encore de vote pour cet article.

We are sor­ry that this post was not use­ful for you !

Let us improve this post !

Tell us how we can improve this post ?

Partagez cet article




Commentaires

Laisser un commentaire

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.