英國Alchemab Therapeutics股份有限公司的Jinwoo Leem等人提出了來自transformer的抗體特異性雙向編碼器表示(AntiBERTa),這是一個基于57M人BCR序列(42M重鏈和15M輕鏈)預訓練的12層transformer模型。在預訓練之后,研究人員展示了AntiBERTa嵌入捕獲生物相關信息,可推廣到一系列應用。作為一個案例研究,研究人員通過微調AntiBERTa來預測抗體結合位,結果在多個指標上優于當前的公共工具。AntiBERTa是已知最深的蛋白質家族特定語言模型,提供了BCRs的豐富表示。AntiBERTa嵌入為多個下游任務做好了準備,可以提高人們對抗體語言的理解。相關的研究成果以“Deciphering the language of antibodies using self-supervised learning”為題發布在國際著名期刊Patterns上。
圖1. 代表1000個隨機選擇的BCR重鏈。圖片來自Patterns
AntiBERTa是一個12層transformer模型,在42M未配對的重鏈和15M未配對的輕鏈BCR序列上進行了預訓練。像其他基于transformer的蛋白質LMs一樣,AntiBERTa使用自監督的MLM任務進行預訓練。簡單地說,輸入BCR序列中15%的氨基酸被隨機擾動,模型確定了正確的氨基酸取代了這些被屏蔽的位置。這個任務激勵了模型對BCR序列的語境理解。
在預訓練之后,AntiBERTa輸出每個BCR序列的每個殘差的分布式向量表示或嵌入。為了使AntiBERTa嵌入可視化,從一個特征良好的公共數據中隨機選擇1000個BCR重鏈,然后通過統一流形近似和投影(UMAP)在投影前對長度進行平均。盡管只給出BCR序列而沒有其他信息,研究人員發現BCR嵌入根據突變負載和使用的底層BCR V基因片段自然分離(圖1)。值得注意的是,來自原生B細胞和記憶B細胞的BCRs也有很好的劃分,這表明該模型捕獲了重要的功能性信息。
圖2. 191種非冗余治療性抗體的表達。圖片來自Patterns
接著,研究人員使用AntiBERTa和ProtBERT將198個特征良好的治療性抗體的重鏈嵌入其中。AntiBERTa通常能夠根據其來源(即嵌合抗體、人源化抗體、全人源抗體或小鼠抗體)分離治療性抗體,UMAP即是佐證。這些分離也與序列與它們最接近的人類生殖系V基因的一致性一致(圖2A和2B)。ProtBERT能夠實現良好的分離,盡管在UMAP中有一個“分叉”。這些抗體也有已知的抗藥物抗體(ADA)應答評分;ADA中的分離在很大程度上,與人類種系V基因身份的分離相一致(圖2C和2D)。這種嵌入提供了一種潛在的方法來過濾ADA分數高的抗體,并發現更安全的治療方法。
圖3. 一種基于網絡的機器學習(ML)方法來識別免疫治療相關的生物標志物。圖片來自Patterns
AntiBERTa的12個層中的12個注意頭部集中在BCR序列的不同方面(圖3)。自注意力得分被用于計算BCR序列中每個氨基酸的最終語境嵌入。通常,AntiBERTa中的自注意力傾向于指向BCR序列的非種系位置或CDR3位置之間。
研究人員發現,與智人相似,具有高自注意力分數的殘基對可以揭示長期的結構接觸。作為一個案例,研究人員嵌入了aducanumab的重鏈氨基酸序列,aducanumab是一種最近批準的結合β-淀粉樣蛋白的治療性抗體。AntiBERTa最后一層的第6個注意頭部將高度自注意力放在CDR1的Tyr37和CDR3的Arg108之間(圖3)。這些位置后來被證實是晶體結構(PDB: 6CO3)內的接觸點。
圖4. AntiBERTa可以預測形成拋物面的非CDR位置。圖片來自Patterns
AntiBERTa可以預測CDR和非CDR位置的抗體結合部位,如ProABC-2。研究人員測試的C1A-C2抗體(PDB: 7KFX)是一種嚴重急性呼吸綜合征冠狀病毒2 (SARS-CoV-2)結合劑,AntiBERTa檢測到框架中的Tyr66作為抗體結合部位(圖4A和4B)。對于研究人員測試的另一種抗體059-152的輕鏈(PDB: 5XWD), AntiBERTa同樣正確地預測了CDRs之外的抗體結合部位(圖4C和4D)。AntiBERTa的自注意力通過微調發生變化(圖4A和4B),這表明它將自注意力調整為預測互補位的位置。
圖5. AntiBERTa在抗體結合部位預測方面優于公開可用的工具。圖片來自Patterns
研究者的BCR-專用transformer模型在多個指標上優于Parapred、ProABC-2、ProtBERT和Sapiens(圖5)。AntiBERTa具有最高的精度,F1, MCC, AUROC和APR,而Parapred具有最高的召回率。雖然AntiBERTa對CDRs及其錨點的召回率高于整個抗體序列,但仍低于Parapred。這可能是由于Parapred被專門訓練至少有5個抗體結合部位的抗體,而AntiBERTa只需要兩個(一個重鏈和一個輕鏈)。
來自AntiBERTa的嵌入反映了BCR的各種生物學意義方面,如突變計數、V基因來源、B細胞起源和免疫原性,盡管在訓練前沒有這些信息。AntiBERTa理解的一個關鍵驅動因素是它的多頭自注意力機制,它關注BCR序列中結構和功能上的重要殘基。鑒于這些功能,研究人員對抗體結合部位預測模型進行了微調,以演示表示的質量,并發現AntiBERTa在多個指標中表現最佳。
AntiBERTa提供了BCR序列的高質量表示,捕捉了BCR的起源、結構和功能的各個方面。來自AntiBERTa的嵌入還提供了BCRs的表示形式,可以通過遷移學習范式用于各種下游任務。
唯信計算提供抗體設計的一站式服務,也歡迎您自助使用我們的WeMol平臺完成計算。
WeMol是Wecomput開發的面向生物醫學、材料、化學等領域的新一代分子數字智能計算平臺?;诹魇郊軜嬮_發,支持低代碼定制開發和靈活擴展。核心模塊在速度、準確性、效率等方面均超過或媲美主流商業軟件。WeMol集成了化學信息學、計算生物學、量子化學、人工智能等計算模塊以及小分子和大分子的3D可視化模塊,涵蓋了生物制劑設計、小分子設計、量子化學、分子模擬等應用需求。平臺旨在幫助用戶構建一個可積累、可復制、可追溯的計算平臺,并可持續、高效地支持計算驅動的創新。
放個鏈接:wemol.wecomput.com(請使用電腦瀏覽器訪問)
目前Cloud版已正式上線,全功能免費,唯信已開發了數十個計算模塊,形成了對Hit->Lead->PCC的全流程賦能的能力,眾多獨特算法工具(例如構象生成算法AlphaConf,三維形狀匹配算法AlphaShape,抗體人源化設計流程AlphaHu,RNA序列優化算法AlphaRNA等)都可在WeMol Cloud中免費試用,詳細介紹請見往期文章《分子智能計算平臺云端版-WeMol Cloud正式發布》。試用請掃碼聯系我們~
參考文獻
Leem, J., Mitchell, L. S., Farmery, J. H., Barton, J., & Galson, J. D. (2022). Deciphering the language of antibodies using self-supervised learning.?Patterns, 100513.
原文鏈接
https://www.sciencedirect.com/science/article/pii/S2666389922001052#!