Vu que nous sommes sur un blog de bio-informatique, je vous propose aujourd'hui de parler chimie ! Enfin plutôt, chémoinformatique* et quelques notions de la façon dont une molécule est stockée en ligne en fonction des réglementations chimiques et cosmétiques.
Je ne suis pas un expert de ce domaine, mais alors vraiment pas du tout. Par contre, j'ai commencé à accumuler quelques notions qui ne sont pas inintéressantes pour un bioinformaticien… et ça fait surtout un très bel article d'aide-mémoire pour votre humble serviteur. Voyons maintenant ensemble comment une molécule est notée en ligne.
Liste non exhaustive des identifiants possibles d'une molécule
Pour pouvoir commencer sainement cet article, il est nécessaire de comprendre une chose fondamentale. Si l'on souhaite trouver une molécule dans une base de données, celle-ci peut avoir de nombreux identifiants différents. Tous ces identifiants ont été construits pour des bonnes raisons, avoir un identifiant qui s'applique à une règlementation, pouvant être différente en fonction des pays ou des usages.
Quand on parle de molécule, on parle principalement de règlementation faites par la chimie. Ces règlementations sont la pour évaluer le danger d'une molécule. Voici une liste des identifiants intéressants que l'on peut avoir.
Le CAS : Le formaldéhyde a pour code CAS 50-00-0. Mais un code CAS, qu'est-ce que c'est ? Des molécules connues, il y en a beaucoup, vraiment beaucoup. Donc, nos copains de la chémo-informatique ont inventé une banque de "Chemical Abstract Service" (CAS) pour enregistrer toutes les molécules possibles.
Maintenant j'aimerais introduire une petite subtilité. Prenons un exemple d'une chaîne qui contient 14 atomes de carbone. Si dans la nature on la trouve parfois pure, on peut aussi la trouver en mélange avec ses alternatives à 12 et 16 carbones, le mélange résultant serait alors potentiellement déclaré avec un autre CAS.

EC number : l'European Community (EC) number est le numéro attribué à une molécule par l'Europe. Avec, un exemple juste au-dessus, de ce qu'on retrouve sur le site web.
UN number : l'United Nations number (UN number). Ce chiffre là est utile pour savoir quelle est la réglementation en matière de transport d'une molécule. C'est ce qui permet notamment d'étiqueter les camions s'ils transportent des produits dangereux (pratique en cas d'accident, non ?). Là encore, une même molécule pourra en avoir plusieurs en fonction de son contexte et de sa formulation. L'azote liquide, par exemple, ne dispose pas des mêmes réglementations en fonction des états dans lequel il est transporté.
ChEBI ID, DrugBank ID, Kegg ID : Quand je vous dis qu'une molécule a vraiment beaucoup d'identifiants, c'est le cas !

Le ChEBI ID est l'identifiant d'une molecule dans la base fourni par l'EBI pour faire de la chemo informatique. Chemical Entities of Biological Interest (ChEBI) sert principalement sur leur site pour retrouver une molécule et regarder dans quel voie elle est impliqué.
Le DrugBank ID en toute logique est là pour DrugBank qui est une base qui comme son nom l'indique a pour usage principal un usage pharmaceutique. Kegg que certains d'entre vous connaissent bien pour faire des réseaux métabolitques a également des identifiants pour les molécules avec leurs Kegg ID.
En toute franchise de l'avis de votre expert du jour qui s'intéresse à ces questions là depuis deux semaines, il n'est nécessaire de regarder essentiellement que le CAS qui est finalement la brique la plus commune de vocabulaire entre toutes les bases.
L'INCI, une manière de voir la molécule par un autre prisme : celui de la cosmétique
Dans la partie précédente, nous avons vu tous les codes qu'une molécule peut avoir du point de vue de la réglementation chimique. Maintenant, si vous suivez un peu mes articles précédents ou que vous savez lire un titre, vous vous maintenant doutez de quoi nous allons parler. Une molécule a peut-être une dizaine d'identifiants, pourquoi ne pas lui en ajouter d'autres pour suivre une autre réglementation ?
Un toxicologue évalue également les chances d'exposition a un danger. Pour cela il n'évaluera pas une molécule mais un ingrédient. Pour chaque ingrédient évalué, il existe un nom INCI (International Nomenclature of Cosmetic Ingredients). Pour faire simple, le formol, c'est du formaldéhyde ; donc, pour être sûr que tout le monde appelle un ingrédient de la même manière au regard de la cosmétique, il est nécessaire de lui donner un nom officiel, son INCI (Formaldehyde). Ce sont ces termes, standardisés qu'on retrouve comme composition des produits que nous pouvons acheter. Ils ont donc vocation à être bien plus lisibles pour le commun des mortels que des noms chimiques à rallonge !
Là, un lecteur qui n'est pas perdu par ma prose maladroite remarquera que je n'ai pas utilisé le terme « molécule ». Comme toute communauté, les gens ont défini des termes chacun, mais dans les faits… un ingrédient et une molécule sont presque la même chose (de mon point de vue, hein, attention !).
Je vais partir d'un exemple simple. L'huile d'olive est un ingrédient super. Mais celui-ci contient… beaucoup de molécules différentes. Mais dis-moi Jamie, est-ce qu'il n'existe pas des numéros CAS pour des mélanges de molécules ? Bingo. Donc, un ingrédient/substance est reconnu par un code CAS et chacun d'entre eux peut être composé de 1 à N molécules. Dans la majorité des cas, les ingrédients seront mono-substances et il sera donc facile de faire le lien entre eux, mais, la plupart du temps, il sera nécessaire de regrouper toutes ces informations méthodiquement pour être sûr.
Maintenant qu'on comprend ce référentiel, que pouvons-nous en faire ? La meilleure réponse se trouve dans la réglementation cosmétique qui qualifie tous les ingrédients autorisés. De là, un outil formidable, le CIR (cosmetic ingredient review), permet de retrouver tous les ingrédients dont on cherche à faire une évaluation. De manière générale, tout nom INCI donnera accès sur internet à des informations plus pertinentes pour l'usage cosmétique et donc plus facile à interpréter pour le commun des mortels ( oh ce truc là, il pique !). De nombreuses applications pour les consommateurs se basent sur les INCI en point d'entrée (donne-moi le nom d'un ingrédient je te dirai ce qu'il fait).
Quelques exemples de pages ou naviguer pour lire des informations sur ces molécules.
Repartons d'un exemple simple qu'une bonne partie d'entre vous connaissent : le formaldéhyde. Pour tous ceux habitués aux bases de données de génomes de référence, c'est pareil, vous arrivez sur un site de référencement, vous tapez ce numéro (ou le nom de la molécule), et hop, vous retrouvez sa fiche perso.
Un bon exemple de site où faire ce genre d'opération, c'est PubChem. Qu'on tape "formaldehyde" ou son CAS, voilà ce qui apparaît :

Que trouve-t-on sur cette page ? Première chose, un autre identifiant : le PubChem CID, qui est la version PubChem du CAS. La deuxième partie, c'est la structure 2D/3D de la molécule. Dans la partie "chemical safety", on retrouve les pictogrammes de danger associés à la molécule. Vous savez, les petits logos qu'on trouve assez facilement au supermarché sur les produits inflammables ou autres. Ces triangles/carrés avec des images qui font peur résument le fait qu'une molécule est toxique d'une manière ou d'une autre. C'est grâce à ça que tout le monde sait que le formaldéhyde est toxique et donc dangereux pour notre santé. Si on tape "formaldehyde" sur ChEBI ou sur Pubchem, on trouve rapidement ceci :

Ces petites descriptions ne sont pas anodines, le SMILES est le moyen de noter la molécule à la suite. Ces notations sont les formats d'entrées types des librairies dédiées et permettent donc de coder des modèles pour prédire le comportement de ces molécules. Un autre format fort pratique pour la manipulation des molécules est le format Mol, qui est en fait un format SDF classique utilisé dans de nombreux sujets 3D.

Maintenant continuons notre exploration de cette molécule sur d'autres sites. Vu mon domaine on va aller à un endroit prévisible.. allons voir du côté de l'European chemical agency (ECHA). Ce site est une mine d'or, en tapant "formaldehyde" on arrive vite ici :

306 quoi ?? dossiers ? C'est quoi un dossier REACH ?
Un dossier REACH (Registration, Evaluation, Authorisation and Restriction of Chemicals) est un dossier de l'Union européenne pour valider l'usage d'une molécule. Donc en regardant cette soumission on aura accès a littéralement toutes les études autour de la molécule pour un usage donné. Cette base est la a vocation consultative que pour faire des modèles. Elle va nous aider a nous documenter sur une molécule et la comprendre rapidement avec tout ce qui règlemente son usage. Pour ceux qui se sont intéressé au paragraphe sur les INCI, voila un petit exemple de page a sur le formaldéhyde en se baladant sur INCI beauty :

Et voilà comment en une recherche en ligne rapide on comprend que le formaldehyde n'est plus utilisé en cosmétique depuis longtemps !
Ce genre de page est pratique si vous voulez juste un coup d'œil rapide. Mais si on cherche le détail pour le référenciel ingrédient, le mieux reste d'aller sur le portail du CIR (cosmetic ingredient review) ou en quelques clics, hop, on trouve un rapport PDF sur l'ingrédient en question avec des jolies publications sur le sujet :

Pourquoi ne pas unifier tout le monde un grand coup ?
Dans ce petit billet, je vous ai fait une petite introduction sur pleins d'identifiants de molécules. Le but était de comprendre que ces identifiants ont été pensé par des communautés distinctes pour des usages différents. C'est ce long historique qui amène souvent des gens a parler de la même chose sans le remarquer ou parfois pas du tout. Remettre tout à plat et fusionner l'ensemble en l'état me semble une tâche difficile tant les deux mondes ont des avantages : cibler les gens qu'ils ont prévus de cibler initialement et leurs besoins vs avoir un système universel qui serait complexe et potentiellement bancal.
Maintenant que nous savons que tous ces identifiants existent, nous verrons comment exploiter ces informations dans un prochain billet !
Merci aux relecteurs de cet article : Super Zazo0o, super Azerin et super Evoluscope !
* : En thèse, j'écrivais des articles sur ma thèse, en post doc sur les enseignements que je donnais. Aujourd'hui, j'écris sur mon travail actuel, ça vous surprend ? Et vous, vous vous y mettez quand ? 😀
** : Si tu me critiques car j'ouvre un fichier avec Bloc-notes… Gare à toi lecteur, je te trouverais et reformaterais ton fedora en une mandriva ! Mouhahaha.
Laisser un commentaire