Accessibility Tools

- Le blog participatif de bioinformatique francophone depuis 2012 -

Une base de données pour les apparier tous,
Une base de données pour les trouver,
Une base de données pour les sélectionner tous,
Et sur son PC les télécharger.

Les anticorps (immunoglobulines) jouent un rôle crucial dans la réponse immunitaire contre les menaces extérieures, telles les infections virales. Une immunoglobuline est composée de deux molécules en interaction appelées chaîne légère et chaîne lourde : la combinaison d’une chaîne légère et d’une chaîne lourde donne une immunoglobuline (voir Figure 1).

Représentation d'une immunoglobuline
Figure 1 : représentation d'une immunoglobuline (illustration adaptée de https://​commons​.wikimedia​.org/​w​i​k​i​/​F​i​l​e​:​2​0​2​2​0​4​_​I​g​G​.​svg)

Bien que le nombre théorique d'immunoglobulines humaines dépasse le trillion, le nombre total de séquences protéiques (uniques) d'anticorps accessibles dans les bases de données est encore faible.

Pour diverses applications, par exemple pour aider au développement de sérodiagnostics ou de thérapies à base d'anticorps, il est nécessaire de disposer d'autant de séquences d'anticorps non redondantes que possible. Malheureusement, les séquences publiquement accessibles sont dispersées dans différentes bases de données partiellement redondantes ; ceci rend difficile leur compilation en ensembles uniques et standardisés.

Nous avons développé ABSD (AntiBody Sequence Database, https://​absd​.pasteur​.cloud) afin de pallier cela. Cette nouvelle base de données rassemble les données des principales ressources publiques en immunologie (KABAT, IMGT, la PDB, UniProt, GenBank, OAS, etc), créant ainsi la plus grande source publique, standardisée et automatiquement mise à jour de séquences non-​redondantes d'anticorps.

Ce site web simple de prise en main et ouvert permet à n’importe qui de générer des listes d'anticorps en fonction de critères sélectionnés et de les télécharger.

Extraction et appariement des données d’origine

Pour chaque base de données, les données ont été extraites sous format de texte brut (voir https://​gitlab​.pasteur​.fr/​h​u​b​/​a​b​s​d​/​-​/​b​l​o​b​/​m​a​s​t​e​r​/​p​a​r​s​e​r​s​/​R​E​A​D​M​E​.md pour les sources). L’extraction des chaînes légères et lourdes à partir de ces fichiers est spécifique à chaque base de données, mais l’idée est toujours la même : pour une espèce donnée, extraire et rassembler des chaînes (légères et lourdes) partageant le même identifiant. Par exemple, pour la PDB et Homo sapiens, les séquences identifiées comme humaine et chaînes légères/​lourdes sont regroupées par leur identifiants PDB.

Il arrive parfois qu'un certain niveau de redondance puisse être trouvé entre les séquences regroupées ainsi. Par exemple, pour l’identifiant PDB 5XAJ, la séquence 5XAJ_​4 est entièrement incluse dans 5XAJ_​5. Dans ces cas, la plus petite séquence est supprimée. Après ces étapes d'extraction et de nettoyage vient l’étape cruciale d’appariement : chaque chaîne légère doit être liée à une chaîne lourde spécifique, et inversement.

Pour cela, plusieurs stratégies ont été développées et agissent successivement si besoin. Par exemple, la plus simple et efficace apparie deux séquences quand l’un des entêtes est totalement inclus dans l’autre (modulo les termes ‘heavy’ et ‘light‘). Par exemple, 2HFG_1|CB3s Fab light chain (kappa)|Homo sapiens (9606) est apparié avec 2HFG_2|CB3s Fab heavy chain|Homo sapiens (9606). Une fois l’appariement effectué, les anticorps vont passer plusieurs étapes de standardisation afin de s’assurer que 1/​ ce sont bien des séquences d’anticorps et que 2/​ on ne garde que les régions dites « variables » des anticorps. Les débuts et fins des séquences légères et lourdes sont généralement connus, les longueurs minimales et maximales aussi. Ainsi, les séquences d’anticorps « trop » longues, donc comportant des acides aminés des régions dites « constantes », sont tronquées pour ne garder que les régions variables. Finalement, les anticorps ne respectant pas l'une de ces règles sont éliminés.

Fusion des résultats

Finalement, la dernière étape critique est de fusionner les résultats précédent obtenus pour chaque base de données afin d’unifier tout cela.

Les séquences dupliquées sont fusionnées, incluant les séquences différentes mais entièrement contenues l'une dans l'autre. Par exemple, si la séquence légère d'un anticorps A est incluse dans la séquence légère d'un anticorps B, et que les deux séquences lourdes sont identiques ou incluses l'une dans l'autre, seules les séquences légères et lourdes les plus longues sont conservées, formant l'anticorps. Dans le même temps, les en-​têtes originaux sont fusionnés, préservant les métadonnées et assurant la traçabilité des sources de données. Par exemple, à la fin de l'en-tête de la séquence légère A, une balise source d'où A a été extraite est ajoutée (par exemple, ";PDB"), suivie d'un séparateur sous la forme de trois barres verticales ('|||'), puis l'en-tête de la séquence légère B est ajouté, suivi de sa propre balise source (par exemple, ";IMGT"). Ceci devient l'en-tête final de la séquence légère pour cet anticorps fusionné.

D'autres étapes de nettoyages sont mises en place pour retirer toutes ambiguïtés ; par exemple, les anticorps identiques entre différentes espèces sont retirés d’ABSD. Cette étape de fusion/​nettoyage élimine toute redondance et le nombre d'anticorps passe de 2 059 569 à 774 662 (voir le tableau ci-​dessous).

Total extraitAvec séquences uniques
Base de donnéesHumainSourisHumainSouris
AbDb12371170491372
AbPDB861989333324
Cov-​AbDab100412978304151
CoV-​AbDab-​PDB7298529536
EBOLA32102940
IMGT790443441585594
KABAT465892310513
OAS1950027284757446482812
PDB363219641494639
PLAbDab251446782143512939
SACS350119351456630
SAbDab357819611480635
Thera-​SAbDab117007700
UniProt2065018750
Total2010675488947776869645
Non-​redondants7682856377
Nombre d’anticorps extraits par base de données publiques au 21/​09/​2024

Comme il n’existe pas forcément d’identifiant unique pour chaque anticorps, un identifiant personnalisé est créé pour chaque entrée. Il est constitué d'un hachage SHA-​256 calculé à partir de la concaténation du nom de l'espèce et des séquences de la chaîne lourde et légère, garantissant ainsi l'unicité de chaque anticorps.

Redondance des bases publiques

Bien que chaque séquence dans ABSD soit unique, de nombreuses séquences sont issues de plusieurs sources. La figure 2 illustre que, bien que la plupart des anticorps proviennent d'une seule base de données, environ un cinquième d'entre eux (5 144/​27 232) sont présents dans plusieurs sources (pour plus de clarté, les données d'OAS n'ont pas été affichées dans la représentation).

Proportions des séquences d'anticorps d'ABSD dans les bases de données d’origine (hors OAS)
Figure 2 : Proportions des séquences d'anticorps d'ABSD dans les bases de données d’origine (hors OAS)

En gardant les informations des sources d’origine dans les entêtes des séquences d'anticorps lors de la fusion, les utilisateurs peuvent accéder directement à toutes les bases de données d'où une entrée a été extraite (voir par exemple le Tiragolumab sur ABSD dont la chaîne lourde est affichée figure 3).

Exemple d'ABSD sur le Tiragolumab
Figure 3 : capture d'écran d'ABSD montrant la chaîne lourde du Tiragolumab et ses multiples accès dans différentes bases de données

Représentativité d’ABSD

Nous avons estimé à quel point ABSD est représentatif des anticorps qu'on trouve naturellement chez l’humain. Sans trop entrer dans les détails, certaines parties des anticorps (les segments géniques V des chaînes lourdes) sont bien étudiés et clustérisés en 7 sous-​groupes chez l’humain (d'IGHV1 à IGHV7). Nous avons donc comparé la répartition dans ces clusters des anticorps humains de tout ABSD (et de sous parties d'ABSD) à une publication de référence. La figure 4 indique qu’ABSD est relativement bien représentatif, au moins chez l’humain, car les proportions de chaque clusters sont assez bien respectées comparé à la publication de référence (par exemple, environ 50% des chaines lourdes sont du type IGHV3). Il ne semble donc pas y avoir de biais majeur introduit par ABSD.

Pourcentages d’IGHV dans les séquences d'anticorps humains d'ABSD et ceux provenant de répertoires connus
Figure 4 : Pourcentages d’IGHV dans les séquences d'anticorps humains d'ABSD et ceux provenant de répertoires connus.

Conclusion

Plusieurs bases de données d'anticorps existent et fusionner et homogénéiser ces données en un ensemble cohérent restait jusqu'à présent un vrai défi. ABSD répond à ce problème tout en veillant à ce que chaque séquence d'anticorps stockée dans la base de données soit unique et standardisée. Cependant, ABSD se concentre uniquement sur les séquences, les bases existantes restent donc très utiles pour d'autres problématique, par exemple liées aux structures.

Ces qualités et la représentativité par rapport au répertoire humain peuvent être critiques pour certaines applications. En particulier, lors de l’entrainement de modèles d'apprentissage, il est essentiel d'utiliser des données d'entrée aussi peu biaisées que possible. ABSD facilite cette étape critique en fournissant des séquences d'anticorps uniques avec des proportions réalistes qui reflètent le répertoire humain. Enfin, ABSD est une base de données dynamique et adaptative, automatiquement mise à jour et conçue pour être très facilement améliorée : rajouter une espèce prend environ une heure et une nouvelle base de données encore moins de temps (entre le début de la rédaction de cet article et sa publication, trois espèces et deux bases ont été ajoutées).

Accueil d'ABSD
Figure 5 : accueil d'ABSD. L'interface est normalement suffisamment simple pour se passer de tutoriel.

Publication

https://​doi​.org/​1​0​.​1​0​9​3​/​n​a​r​g​a​b​/​l​q​a​e​171

Contributeurs

Merci aux personnes qui ont pris le temps de relire et d'améliorer cet article : Léopold, Guillaume et évidemment ZaZo0o !




Commentaires

Laisser un commentaire

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.