ABSD : base de données d'anticorps non redondants et standardisés

29 janvier 2025

-

par

dans Actualité, Bioinformatique, Découverte

Une base de données pour les apparier tous,
Une base de données pour les trouver,
Une base de données pour les sélectionner tous,
Et sur son PC les télécharger.

Les anticorps (immunoglobulines) jouent un rôle crucial dans la réponse immunitaire contre les menaces extérieures, telles les infections virales. Une immunoglobuline est composée de deux molécules en interaction appelées chaîne légère et chaîne lourde : la combinaison d’une chaîne légère et d’une chaîne lourde donne une immunoglobuline (voir Figure 1).

Représentation d'une immunoglobuline — Figure 1 : représentation d'une immunoglobuline (illustration adaptée de https://commons.wikimedia.org/wiki/File:202204_IgG.svg)

Bien que le nombre théorique d'immunoglobulines humaines dépasse le trillion, le nombre total de séquences protéiques (uniques) d'anticorps accessibles dans les bases de données est encore faible.

Pour diverses applications, par exemple pour aider au développement de sérodiagnostics ou de thérapies à base d'anticorps, il est nécessaire de disposer d'autant de séquences d'anticorps non redondantes que possible. Malheureusement, les séquences publiquement accessibles sont dispersées dans différentes bases de données partiellement redondantes ; ceci rend difficile leur compilation en ensembles uniques et standardisés.

Nous avons développé ABSD (AntiBody Sequence Database, https://absd.pasteur.cloud) afin de pallier cela. Cette nouvelle base de données rassemble les données des principales ressources publiques en immunologie (KABAT, IMGT, la PDB, UniProt, GenBank, OAS, etc), créant ainsi la plus grande source publique, standardisée et automatiquement mise à jour de séquences non-redondantes d'anticorps.

Ce site web simple de prise en main et ouvert permet à n’importe qui de générer des listes d'anticorps en fonction de critères sélectionnés et de les télécharger.

Extraction et appariement des données d’origine

Pour chaque base de données, les données ont été extraites sous format de texte brut (voir https://gitlab.pasteur.fr/hub/absd/-/blob/master/parsers/README.md pour les sources). L’extraction des chaînes légères et lourdes à partir de ces fichiers est spécifique à chaque base de données, mais l’idée est toujours la même : pour une espèce donnée, extraire et rassembler des chaînes (légères et lourdes) partageant le même identifiant. Par exemple, pour la PDB et Homo sapiens, les séquences identifiées comme humaine et chaînes légères/lourdes sont regroupées par leur identifiants PDB.

Il arrive parfois qu'un certain niveau de redondance puisse être trouvé entre les séquences regroupées ainsi. Par exemple, pour l’identifiant PDB 5XAJ, la séquence 5XAJ_4 est entièrement incluse dans 5XAJ_5. Dans ces cas, la plus petite séquence est supprimée. Après ces étapes d'extraction et de nettoyage vient l’étape cruciale d’appariement : chaque chaîne légère doit être liée à une chaîne lourde spécifique, et inversement.

Pour cela, plusieurs stratégies ont été développées et agissent successivement si besoin. Par exemple, la plus simple et efficace apparie deux séquences quand l’un des entêtes est totalement inclus dans l’autre (modulo les termes ‘heavy’ et ‘light‘). Par exemple, 2HFG_1|CB3s Fab light chain (kappa)|Homo sapiens (9606) est apparié avec 2HFG_2|CB3s Fab heavy chain|Homo sapiens (9606). Une fois l’appariement effectué, les anticorps vont passer plusieurs étapes de standardisation afin de s’assurer que 1/ ce sont bien des séquences d’anticorps et que 2/ on ne garde que les régions dites « variables » des anticorps. Les débuts et fins des séquences légères et lourdes sont généralement connus, les longueurs minimales et maximales aussi. Ainsi, les séquences d’anticorps « trop » longues, donc comportant des acides aminés des régions dites « constantes », sont tronquées pour ne garder que les régions variables. Finalement, les anticorps ne respectant pas l'une de ces règles sont éliminés.

Fusion des résultats

Finalement, la dernière étape critique est de fusionner les résultats précédent obtenus pour chaque base de données afin d’unifier tout cela.

Les séquences dupliquées sont fusionnées, incluant les séquences différentes mais entièrement contenues l'une dans l'autre. Par exemple, si la séquence légère d'un anticorps A est incluse dans la séquence légère d'un anticorps B, et que les deux séquences lourdes sont identiques ou incluses l'une dans l'autre, seules les séquences légères et lourdes les plus longues sont conservées, formant l'anticorps. Dans le même temps, les en-têtes originaux sont fusionnés, préservant les métadonnées et assurant la traçabilité des sources de données. Par exemple, à la fin de l'en-tête de la séquence légère A, une balise source d'où A a été extraite est ajoutée (par exemple, ";PDB"), suivie d'un séparateur sous la forme de trois barres verticales ('|||'), puis l'en-tête de la séquence légère B est ajouté, suivi de sa propre balise source (par exemple, ";IMGT"). Ceci devient l'en-tête final de la séquence légère pour cet anticorps fusionné.

D'autres étapes de nettoyages sont mises en place pour retirer toutes ambiguïtés ; par exemple, les anticorps identiques entre différentes espèces sont retirés d’ABSD. Cette étape de fusion/nettoyage élimine toute redondance et le nombre d'anticorps passe de 2 059 569 à 774 662 (voir le tableau ci-dessous).

	Total extrait		Avec séquences uniques
Base de données	Humain	Souris	Humain	Souris
AbDb	1237	1170	491	372
AbPDB	861	989	333	324
Cov-AbDab	10041	297	8304	151
CoV-AbDab-PDB	729	85	295	36
EBOLA	321	0	294	0
IMGT	7904	4344	1585	594
KABAT	465	892	310	513
OAS	1950027	28475	744648	2812
PDB	3632	1964	1494	639
PLAbDab	25144	6782	14351	2939
SACS	3501	1935	1456	630
SAbDab	3578	1961	1480	635
Thera-SAbDab	1170	0	770	0
UniProt	2065	0	1875	0
Total	2010675	48894	777686	9645
Non-redondants			768285	6377

Nombre d’anticorps extraits par base de données publiques au 21/09/2024

Comme il n’existe pas forcément d’identifiant unique pour chaque anticorps, un identifiant personnalisé est créé pour chaque entrée. Il est constitué d'un hachage SHA-256 calculé à partir de la concaténation du nom de l'espèce et des séquences de la chaîne lourde et légère, garantissant ainsi l'unicité de chaque anticorps.

Redondance des bases publiques

Bien que chaque séquence dans ABSD soit unique, de nombreuses séquences sont issues de plusieurs sources. La figure 2 illustre que, bien que la plupart des anticorps proviennent d'une seule base de données, environ un cinquième d'entre eux (5 144/27 232) sont présents dans plusieurs sources (pour plus de clarté, les données d'OAS n'ont pas été affichées dans la représentation).

Figure 2 : Proportions des séquences d'anticorps d'ABSD dans les bases de données d’origine (hors OAS)

En gardant les informations des sources d’origine dans les entêtes des séquences d'anticorps lors de la fusion, les utilisateurs peuvent accéder directement à toutes les bases de données d'où une entrée a été extraite (voir par exemple le Tiragolumab sur ABSD dont la chaîne lourde est affichée figure 3).

Exemple d'ABSD sur le Tiragolumab — Figure 3 : capture d'écran d'ABSD montrant la chaîne lourde du Tiragolumab et ses multiples accès dans différentes bases de données

Représentativité d’ABSD

Nous avons estimé à quel point ABSD est représentatif des anticorps qu'on trouve naturellement chez l’humain. Sans trop entrer dans les détails, certaines parties des anticorps (les segments géniques V des chaînes lourdes) sont bien étudiés et clustérisés en 7 sous-groupes chez l’humain (d'IGHV1 à IGHV7). Nous avons donc comparé la répartition dans ces clusters des anticorps humains de tout ABSD (et de sous parties d'ABSD) à une publication de référence. La figure 4 indique qu’ABSD est relativement bien représentatif, au moins chez l’humain, car les proportions de chaque clusters sont assez bien respectées comparé à la publication de référence (par exemple, environ 50% des chaines lourdes sont du type IGHV3). Il ne semble donc pas y avoir de biais majeur introduit par ABSD.

Figure 4 : Pourcentages d’IGHV dans les séquences d'anticorps humains d'ABSD et ceux provenant de répertoires connus.

Conclusion

Plusieurs bases de données d'anticorps existent et fusionner et homogénéiser ces données en un ensemble cohérent restait jusqu'à présent un vrai défi. ABSD répond à ce problème tout en veillant à ce que chaque séquence d'anticorps stockée dans la base de données soit unique et standardisée. Cependant, ABSD se concentre uniquement sur les séquences, les bases existantes restent donc très utiles pour d'autres problématique, par exemple liées aux structures.

Ces qualités et la représentativité par rapport au répertoire humain peuvent être critiques pour certaines applications. En particulier, lors de l’entrainement de modèles d'apprentissage, il est essentiel d'utiliser des données d'entrée aussi peu biaisées que possible. ABSD facilite cette étape critique en fournissant des séquences d'anticorps uniques avec des proportions réalistes qui reflètent le répertoire humain. Enfin, ABSD est une base de données dynamique et adaptative, automatiquement mise à jour et conçue pour être très facilement améliorée : rajouter une espèce prend environ une heure et une nouvelle base de données encore moins de temps (entre le début de la rédaction de cet article et sa publication, trois espèces et deux bases ont été ajoutées).

Accueil d'ABSD — Figure 5 : accueil d'ABSD. L'interface est normalement suffisamment simple pour se passer de tutoriel.

Publication

https://doi.org/10.1093/nargab/lqae171

Contributeurs

Responsable du projet : Nicolas Maillet
Développeur web : Simon Malesys
Supervision scientifique : Bertrand Saunier
Design UI et UX : Rachel Torchet
Logos et identité : Richard Bosseau

Merci aux personnes qui ont pris le temps de relire et d'améliorer cet article : Léopold, Guillaume et évidemment ZaZo0o !

Partagez cet article

anticorps base de données standardisé

Nico M.

Après un DUT informatique et une licence Mathématiques, Informatique et Statistique, j'ai poursuivi en Master de Modélisation des Systèmes Biologiques, parcours bio-informatiques, à Rennes, puis en thèse à l'IRISA-INRIA de Rennes sur une problématique de création d'algorithmes pour l'étude de métagénomique de novo. J'ai ensuite fait un postdoc à la "Stazione Zoologica Anton Dohrn" de Naples, sur des problématiques mêlant métagénomique, océanographie et Tara Oceans. Je suis maintenant ingénieur de recherche à l'Institut Pasteur (HUB).

Pour continuer la lecture :

Commentaires

Laisser un commentaireAnnuler la réponse.

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.