Accessibility Tools

- Le blog participatif de bioinformatique francophone depuis 2012 -

ABSD : base de données d'anticorps non redondants et standardisés

Une base de don­nées pour les appa­rier tous,
Une base de don­nées pour les trou­ver,
Une base de don­nées pour les sélec­tion­ner tous,
Et sur son PC les télé­char­ger.

Les anti­corps (immu­no­glo­bu­lines) jouent un rôle cru­cial dans la réponse immu­ni­taire contre les menaces exté­rieures, telles les infec­tions virales. Une immu­no­glo­bu­line est com­po­sée de deux molé­cules en inter­ac­tion appe­lées chaîne légère et chaîne lourde : la com­bi­nai­son d’une chaîne légère et d’une chaîne lourde donne une immu­no­glo­bu­line (voir Figure 1).

Représentation d'une immunoglobuline
Figure 1 : repré­sen­ta­tion d'une immu­no­glo­bu­line (illus­tra­tion adap­tée de https://​com​mons​.wiki​me​dia​.org/​w​i​k​i​/​F​i​l​e​:​2​0​2​2​0​4​_​I​g​G​.​svg)

Bien que le nombre théo­rique d'immunoglobulines humaines dépasse le tril­lion, le nombre total de séquences pro­téiques (uniques) d'anticorps acces­sibles dans les bases de don­nées est encore faible.

Pour diverses appli­ca­tions, par exemple pour aider au déve­lop­pe­ment de séro­diag­nos­tics ou de thé­ra­pies à base d'anticorps, il est néces­saire de dis­po­ser d'autant de séquences d'anticorps non redon­dantes que pos­sible. Mal­heu­reu­se­ment, les séquences publi­que­ment acces­sibles sont dis­per­sées dans dif­fé­rentes bases de don­nées par­tiel­le­ment redon­dantes ; ceci rend dif­fi­cile leur com­pi­la­tion en ensembles uniques et stan­dar­di­sés.

Nous avons déve­lop­pé ABSD (Anti­Bo­dy Sequence Data­base, https://​absd​.pas​teur​.cloud) afin de pal­lier cela. Cette nou­velle base de don­nées ras­semble les don­nées des prin­ci­pales res­sources publiques en immu­no­lo­gie (KABAT, IMGT, la PDB, Uni­Prot, Gen­Bank, OAS, etc), créant ain­si la plus grande source publique, stan­dar­di­sée et auto­ma­ti­que­ment mise à jour de séquences non-redon­dantes d'anticorps.

Ce site web simple de prise en main et ouvert per­met à n’importe qui de géné­rer des listes d'anticorps en fonc­tion de cri­tères sélec­tion­nés et de les télé­char­ger.

Extraction et appariement des données d’origine

Pour chaque base de don­nées, les don­nées ont été extraites sous for­mat de texte brut (voir https://​git​lab​.pas​teur​.fr/​h​u​b​/​a​b​s​d​/​-​/​b​l​o​b​/​m​a​s​t​e​r​/​p​a​r​s​e​r​s​/​R​E​A​D​M​E​.md pour les sources). L’extraction des chaînes légères et lourdes à par­tir de ces fichiers est spé­ci­fique à chaque base de don­nées, mais l’idée est tou­jours la même : pour une espèce don­née, extraire et ras­sem­bler des chaînes (légères et lourdes) par­ta­geant le même iden­ti­fiant. Par exemple, pour la PDB et Homo sapiens, les séquences iden­ti­fiées comme humaine et chaînes légères/​lourdes sont regrou­pées par leur iden­ti­fiants PDB.

Il arrive par­fois qu'un cer­tain niveau de redon­dance puisse être trou­vé entre les séquences regrou­pées ain­si. Par exemple, pour l’identifiant PDB 5XAJ, la séquence 5XAJ_​4 est entiè­re­ment incluse dans 5XAJ_​5. Dans ces cas, la plus petite séquence est sup­pri­mée. Après ces étapes d'extraction et de net­toyage vient l’étape cru­ciale d’appariement : chaque chaîne légère doit être liée à une chaîne lourde spé­ci­fique, et inver­se­ment.

Pour cela, plu­sieurs stra­té­gies ont été déve­lop­pées et agissent suc­ces­si­ve­ment si besoin. Par exemple, la plus simple et effi­cace appa­rie deux séquences quand l’un des entêtes est tota­le­ment inclus dans l’autre (modu­lo les termes ‘hea­vy’ et ‘light‘). Par exemple, 2HFG_1|CB3s Fab light chain (kappa)|Homo sapiens (9606) est appa­rié avec 2HFG_2|CB3s Fab hea­vy chain|Homo sapiens (9606). Une fois l’appariement effec­tué, les anti­corps vont pas­ser plu­sieurs étapes de stan­dar­di­sa­tion afin de s’assurer que 1/​ ce sont bien des séquences d’anticorps et que 2/​ on ne garde que les régions dites « variables » des anti­corps. Les débuts et fins des séquences légères et lourdes sont géné­ra­le­ment connus, les lon­gueurs mini­males et maxi­males aus­si. Ain­si, les séquences d’anticorps « trop » longues, donc com­por­tant des acides ami­nés des régions dites « constantes », sont tron­quées pour ne gar­der que les régions variables. Fina­le­ment, les anti­corps ne res­pec­tant pas l'une de ces règles sont éli­mi­nés.

Fusion des résultats

Fina­le­ment, la der­nière étape cri­tique est de fusion­ner les résul­tats pré­cé­dent obte­nus pour chaque base de don­nées afin d’unifier tout cela.

Les séquences dupli­quées sont fusion­nées, incluant les séquences dif­fé­rentes mais entiè­re­ment conte­nues l'une dans l'autre. Par exemple, si la séquence légère d'un anti­corps A est incluse dans la séquence légère d'un anti­corps B, et que les deux séquences lourdes sont iden­tiques ou incluses l'une dans l'autre, seules les séquences légères et lourdes les plus longues sont conser­vées, for­mant l'anticorps. Dans le même temps, les en-têtes ori­gi­naux sont fusion­nés, pré­ser­vant les méta­don­nées et assu­rant la tra­ça­bi­li­té des sources de don­nées. Par exemple, à la fin de l'en-tête de la séquence légère A, une balise source d'où A a été extraite est ajou­tée (par exemple, ";PDB"), sui­vie d'un sépa­ra­teur sous la forme de trois barres ver­ti­cales ('|||'), puis l'en-tête de la séquence légère B est ajou­té, sui­vi de sa propre balise source (par exemple, ";IMGT"). Ceci devient l'en-tête final de la séquence légère pour cet anti­corps fusion­né.

D'autres étapes de net­toyages sont mises en place pour reti­rer toutes ambi­guï­tés ; par exemple, les anti­corps iden­tiques entre dif­fé­rentes espèces sont reti­rés d’ABSD. Cette étape de fusion/​nettoyage éli­mine toute redon­dance et le nombre d'anticorps passe de 2 059 569 à 774 662 (voir le tableau ci-des­sous).

Total extraitAvec séquences uniques
Base de don­néesHumainSou­risHumainSou­ris
AbDb12371170491372
AbPDB861989333324
Cov-AbDab100412978304151
CoV-AbDab-PDB7298529536
EBOLA32102940
IMGT790443441585594
KABAT465892310513
OAS1950027284757446482812
PDB363219641494639
PLAb­Dab251446782143512939
SACS350119351456630
SAb­Dab357819611480635
The­ra-SAb­Dab117007700
Uni­Prot2065018750
Total2010675488947776869645
Non-redon­dants7682856377
Nombre d’anticorps extraits par base de don­nées publiques au 21/​09/​2024

Comme il n’existe pas for­cé­ment d’identifiant unique pour chaque anti­corps, un iden­ti­fiant per­son­na­li­sé est créé pour chaque entrée. Il est consti­tué d'un hachage SHA-256 cal­cu­lé à par­tir de la conca­té­na­tion du nom de l'espèce et des séquences de la chaîne lourde et légère, garan­tis­sant ain­si l'unicité de chaque anti­corps.

Redondance des bases publiques

Bien que chaque séquence dans ABSD soit unique, de nom­breuses séquences sont issues de plu­sieurs sources. La figure 2 illustre que, bien que la plu­part des anti­corps pro­viennent d'une seule base de don­nées, envi­ron un cin­quième d'entre eux (5 144/​27 232) sont pré­sents dans plu­sieurs sources (pour plus de clar­té, les don­nées d'OAS n'ont pas été affi­chées dans la repré­sen­ta­tion).

Proportions des séquences d'anticorps d'ABSD dans les bases de données d’origine (hors OAS)
Figure 2 : Pro­por­tions des séquences d'anticorps d'ABSD dans les bases de don­nées d’origine (hors OAS)

En gar­dant les infor­ma­tions des sources d’origine dans les entêtes des séquences d'anticorps lors de la fusion, les uti­li­sa­teurs peuvent accé­der direc­te­ment à toutes les bases de don­nées d'où une entrée a été extraite (voir par exemple le Tira­go­lu­mab sur ABSD dont la chaîne lourde est affi­chée figure 3).

Exemple d'ABSD sur le Tiragolumab
Figure 3 : cap­ture d'écran d'ABSD mon­trant la chaîne lourde du Tira­go­lu­mab et ses mul­tiples accès dans dif­fé­rentes bases de don­nées

Représentativité d’ABSD

Nous avons esti­mé à quel point ABSD est repré­sen­ta­tif des anti­corps qu'on trouve natu­rel­le­ment chez l’humain. Sans trop entrer dans les détails, cer­taines par­ties des anti­corps (les seg­ments géniques V des chaînes lourdes) sont bien étu­diés et clus­té­ri­sés en 7 sous-groupes chez l’humain (d'IGHV1 à IGHV7). Nous avons donc com­pa­ré la répar­ti­tion dans ces clus­ters des anti­corps humains de tout ABSD (et de sous par­ties d'ABSD) à une publi­ca­tion de réfé­rence. La figure 4 indique qu’ABSD est rela­ti­ve­ment bien repré­sen­ta­tif, au moins chez l’humain, car les pro­por­tions de chaque clus­ters sont assez bien res­pec­tées com­pa­ré à la publi­ca­tion de réfé­rence (par exemple, envi­ron 50% des chaines lourdes sont du type IGHV3). Il ne semble donc pas y avoir de biais majeur intro­duit par ABSD.

Pourcentages d’IGHV dans les séquences d'anticorps humains d'ABSD et ceux provenant de répertoires connus
Figure 4 : Pour­cen­tages d’IGHV dans les séquences d'anticorps humains d'ABSD et ceux pro­ve­nant de réper­toires connus.

Conclusion

Plu­sieurs bases de don­nées d'anticorps existent et fusion­ner et homo­gé­néi­ser ces don­nées en un ensemble cohé­rent res­tait jusqu'à pré­sent un vrai défi. ABSD répond à ce pro­blème tout en veillant à ce que chaque séquence d'anticorps sto­ckée dans la base de don­nées soit unique et stan­dar­di­sée. Cepen­dant, ABSD se concentre uni­que­ment sur les séquences, les bases exis­tantes res­tent donc très utiles pour d'autres pro­blé­ma­tique, par exemple liées aux struc­tures.

Ces qua­li­tés et la repré­sen­ta­ti­vi­té par rap­port au réper­toire humain peuvent être cri­tiques pour cer­taines appli­ca­tions. En par­ti­cu­lier, lors de l’entrainement de modèles d'apprentissage, il est essen­tiel d'utiliser des don­nées d'entrée aus­si peu biai­sées que pos­sible. ABSD faci­lite cette étape cri­tique en four­nis­sant des séquences d'anticorps uniques avec des pro­por­tions réa­listes qui reflètent le réper­toire humain. Enfin, ABSD est une base de don­nées dyna­mique et adap­ta­tive, auto­ma­ti­que­ment mise à jour et conçue pour être très faci­le­ment amé­lio­rée : rajou­ter une espèce prend envi­ron une heure et une nou­velle base de don­nées encore moins de temps (entre le début de la rédac­tion de cet article et sa publi­ca­tion, trois espèces et deux bases ont été ajou­tées).

Accueil d'ABSD
Figure 5 : accueil d'ABSD. L'interface est nor­ma­le­ment suf­fi­sam­ment simple pour se pas­ser de tuto­riel.

Publication

https://​doi​.org/​1​0​.​1​0​9​3​/​n​a​r​g​a​b​/​l​q​a​e​171

Contributeurs

Mer­ci aux per­sonnes qui ont pris le temps de relire et d'améliorer cet article : Léo­pold, Guillaume et évi­dem­ment ZaZo0o !

Vous avez aimé ? Dites-le nous !

Moyenne : 0 /​ 5. Nb de votes : 0

Pas encore de vote pour cet article.

Partagez cet article




Commentaires

Laisser un commentaire

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.