Une base de données pour les apparier tous,
Une base de données pour les trouver,
Une base de données pour les sélectionner tous,
Et sur son PC les télécharger.
Les anticorps (immunoglobulines) jouent un rôle crucial dans la réponse immunitaire contre les menaces extérieures, telles les infections virales. Une immunoglobuline est composée de deux molécules en interaction appelées chaîne légère et chaîne lourde : la combinaison d’une chaîne légère et d’une chaîne lourde donne une immunoglobuline (voir Figure 1).
Bien que le nombre théorique d'immunoglobulines humaines dépasse le trillion, le nombre total de séquences protéiques (uniques) d'anticorps accessibles dans les bases de données est encore faible.
Pour diverses applications, par exemple pour aider au développement de sérodiagnostics ou de thérapies à base d'anticorps, il est nécessaire de disposer d'autant de séquences d'anticorps non redondantes que possible. Malheureusement, les séquences publiquement accessibles sont dispersées dans différentes bases de données partiellement redondantes ; ceci rend difficile leur compilation en ensembles uniques et standardisés.
Nous avons développé ABSD (AntiBody Sequence Database, https://absd.pasteur.cloud) afin de pallier cela. Cette nouvelle base de données rassemble les données des principales ressources publiques en immunologie (KABAT, IMGT, la PDB, UniProt, GenBank, OAS, etc), créant ainsi la plus grande source publique, standardisée et automatiquement mise à jour de séquences non-redondantes d'anticorps.
Ce site web simple de prise en main et ouvert permet à n’importe qui de générer des listes d'anticorps en fonction de critères sélectionnés et de les télécharger.
Extraction et appariement des données d’origine
Pour chaque base de données, les données ont été extraites sous format de texte brut (voir https://gitlab.pasteur.fr/hub/absd/-/blob/master/parsers/README.md pour les sources). L’extraction des chaînes légères et lourdes à partir de ces fichiers est spécifique à chaque base de données, mais l’idée est toujours la même : pour une espèce donnée, extraire et rassembler des chaînes (légères et lourdes) partageant le même identifiant. Par exemple, pour la PDB et Homo sapiens, les séquences identifiées comme humaine et chaînes légères/lourdes sont regroupées par leur identifiants PDB.
Il arrive parfois qu'un certain niveau de redondance puisse être trouvé entre les séquences regroupées ainsi. Par exemple, pour l’identifiant PDB 5XAJ, la séquence 5XAJ_4 est entièrement incluse dans 5XAJ_5. Dans ces cas, la plus petite séquence est supprimée. Après ces étapes d'extraction et de nettoyage vient l’étape cruciale d’appariement : chaque chaîne légère doit être liée à une chaîne lourde spécifique, et inversement.
Pour cela, plusieurs stratégies ont été développées et agissent successivement si besoin. Par exemple, la plus simple et efficace apparie deux séquences quand l’un des entêtes est totalement inclus dans l’autre (modulo les termes ‘heavy’ et ‘light‘). Par exemple, 2HFG_1|CB3s Fab light chain (kappa)|Homo sapiens (9606) est apparié avec 2HFG_2|CB3s Fab heavy chain|Homo sapiens (9606). Une fois l’appariement effectué, les anticorps vont passer plusieurs étapes de standardisation afin de s’assurer que 1/ ce sont bien des séquences d’anticorps et que 2/ on ne garde que les régions dites « variables » des anticorps. Les débuts et fins des séquences légères et lourdes sont généralement connus, les longueurs minimales et maximales aussi. Ainsi, les séquences d’anticorps « trop » longues, donc comportant des acides aminés des régions dites « constantes », sont tronquées pour ne garder que les régions variables. Finalement, les anticorps ne respectant pas l'une de ces règles sont éliminés.
Fusion des résultats
Finalement, la dernière étape critique est de fusionner les résultats précédent obtenus pour chaque base de données afin d’unifier tout cela.
Les séquences dupliquées sont fusionnées, incluant les séquences différentes mais entièrement contenues l'une dans l'autre. Par exemple, si la séquence légère d'un anticorps A est incluse dans la séquence légère d'un anticorps B, et que les deux séquences lourdes sont identiques ou incluses l'une dans l'autre, seules les séquences légères et lourdes les plus longues sont conservées, formant l'anticorps. Dans le même temps, les en-têtes originaux sont fusionnés, préservant les métadonnées et assurant la traçabilité des sources de données. Par exemple, à la fin de l'en-tête de la séquence légère A, une balise source d'où A a été extraite est ajoutée (par exemple, ";PDB"), suivie d'un séparateur sous la forme de trois barres verticales ('|||'), puis l'en-tête de la séquence légère B est ajouté, suivi de sa propre balise source (par exemple, ";IMGT"). Ceci devient l'en-tête final de la séquence légère pour cet anticorps fusionné.
D'autres étapes de nettoyages sont mises en place pour retirer toutes ambiguïtés ; par exemple, les anticorps identiques entre différentes espèces sont retirés d’ABSD. Cette étape de fusion/nettoyage élimine toute redondance et le nombre d'anticorps passe de 2 059 569 à 774 662 (voir le tableau ci-dessous).
Total extrait | Avec séquences uniques | |||
Base de données | Humain | Souris | Humain | Souris |
AbDb | 1237 | 1170 | 491 | 372 |
AbPDB | 861 | 989 | 333 | 324 |
Cov-AbDab | 10041 | 297 | 8304 | 151 |
CoV-AbDab-PDB | 729 | 85 | 295 | 36 |
EBOLA | 321 | 0 | 294 | 0 |
IMGT | 7904 | 4344 | 1585 | 594 |
KABAT | 465 | 892 | 310 | 513 |
OAS | 1950027 | 28475 | 744648 | 2812 |
PDB | 3632 | 1964 | 1494 | 639 |
PLAbDab | 25144 | 6782 | 14351 | 2939 |
SACS | 3501 | 1935 | 1456 | 630 |
SAbDab | 3578 | 1961 | 1480 | 635 |
Thera-SAbDab | 1170 | 0 | 770 | 0 |
UniProt | 2065 | 0 | 1875 | 0 |
Total | 2010675 | 48894 | 777686 | 9645 |
Non-redondants | 768285 | 6377 |
Comme il n’existe pas forcément d’identifiant unique pour chaque anticorps, un identifiant personnalisé est créé pour chaque entrée. Il est constitué d'un hachage SHA-256 calculé à partir de la concaténation du nom de l'espèce et des séquences de la chaîne lourde et légère, garantissant ainsi l'unicité de chaque anticorps.
Redondance des bases publiques
Bien que chaque séquence dans ABSD soit unique, de nombreuses séquences sont issues de plusieurs sources. La figure 2 illustre que, bien que la plupart des anticorps proviennent d'une seule base de données, environ un cinquième d'entre eux (5 144/27 232) sont présents dans plusieurs sources (pour plus de clarté, les données d'OAS n'ont pas été affichées dans la représentation).
En gardant les informations des sources d’origine dans les entêtes des séquences d'anticorps lors de la fusion, les utilisateurs peuvent accéder directement à toutes les bases de données d'où une entrée a été extraite (voir par exemple le Tiragolumab sur ABSD dont la chaîne lourde est affichée figure 3).
Représentativité d’ABSD
Nous avons estimé à quel point ABSD est représentatif des anticorps qu'on trouve naturellement chez l’humain. Sans trop entrer dans les détails, certaines parties des anticorps (les segments géniques V des chaînes lourdes) sont bien étudiés et clustérisés en 7 sous-groupes chez l’humain (d'IGHV1 à IGHV7). Nous avons donc comparé la répartition dans ces clusters des anticorps humains de tout ABSD (et de sous parties d'ABSD) à une publication de référence. La figure 4 indique qu’ABSD est relativement bien représentatif, au moins chez l’humain, car les proportions de chaque clusters sont assez bien respectées comparé à la publication de référence (par exemple, environ 50% des chaines lourdes sont du type IGHV3). Il ne semble donc pas y avoir de biais majeur introduit par ABSD.
Conclusion
Plusieurs bases de données d'anticorps existent et fusionner et homogénéiser ces données en un ensemble cohérent restait jusqu'à présent un vrai défi. ABSD répond à ce problème tout en veillant à ce que chaque séquence d'anticorps stockée dans la base de données soit unique et standardisée. Cependant, ABSD se concentre uniquement sur les séquences, les bases existantes restent donc très utiles pour d'autres problématique, par exemple liées aux structures.
Ces qualités et la représentativité par rapport au répertoire humain peuvent être critiques pour certaines applications. En particulier, lors de l’entrainement de modèles d'apprentissage, il est essentiel d'utiliser des données d'entrée aussi peu biaisées que possible. ABSD facilite cette étape critique en fournissant des séquences d'anticorps uniques avec des proportions réalistes qui reflètent le répertoire humain. Enfin, ABSD est une base de données dynamique et adaptative, automatiquement mise à jour et conçue pour être très facilement améliorée : rajouter une espèce prend environ une heure et une nouvelle base de données encore moins de temps (entre le début de la rédaction de cet article et sa publication, trois espèces et deux bases ont été ajoutées).
Publication
https://doi.org/10.1093/nargab/lqae171
Contributeurs
- Responsable du projet : Nicolas Maillet
- Développeur web : Simon Malesys
- Supervision scientifique : Bertrand Saunier
- Design UI et UX : Rachel Torchet
- Logos et identité : Richard Bosseau
Merci aux personnes qui ont pris le temps de relire et d'améliorer cet article : Léopold, Guillaume et évidemment ZaZo0o !
Laisser un commentaire