在藥物化學研究中,類藥分子庫設計一直以來是一個很重要的問題。早期的研究一般通過片段組合的方法來生成虛擬化合物。近幾年來,基于人工智能的新方法,尤其是深度學習模型,在新分子的?de novo 設計與分析這一問題上展現出了光明的前景。近日,我司參與研發了一種基于循環神經網絡的類天然產物生成器(QBMG)。該生成器生成的分子不僅可以重現訓練集中的天然產物分子性質,還能生成訓練集以外的真實活性天然產物。此外,該模型結合遷移學習后還能生成具有特定骨架類天然產物庫。該方法可以為先導化合物的鑒定和優化提供高質量的虛擬化合物庫。
圖1:類天然產物生成器
?
作者采用了一種基于的門控系統的循環神經網絡。該模型由一個嵌入層,三個門控層,一個全連接層以及softmax激活函數組成。整個算法分為訓練環節和生成環節。其中訓練環節是將每個分子以序列格式(SMILES)表示,并切分成字符,隨后組合成詞典。利用字典映射后將分子詞向量按時間步輸入網絡。通過最大似然估計損失函數,模型將通過已有位置的字符聯合概率,擬合生成下一個位置應有的輸出。在生成環節,模型則按照概率采樣,按照時間步和已有的聯合概率,生成一串分子字符。
?
圖2:?類天然產物生成器的框架及訓練、生成過程
?
同時,作者提出了一種基于化學基元的分子生成方法。通過遷移學習一批具有某個固定基元的分子庫,生成具有該特定基元的新型類天然產物分子,為具有該類基元的天然產物的修飾和改造提供思路。
圖3:?生成的類天然產物分子(藍)與真正的天然產物分子(紅)性質上十分相似,且重合度比現有的類天然產物庫好(綠)
?
作者通過基于八種物化性質的t-sne聚類圖證明了生成的天然產物(藍色)與已知的天然產物(紅色)具有極其相似的性質。其相似程度遠勝于ZINC中的類天然化合物子集(綠色)。此外,作者發現該分子生成器不僅能大量復現出模型未見過但現實存在的天然產物,還能生成具有骨架多樣性的化合物庫。值得一提的是,生成的新型類天然產物庫中,平均有1%的化合物出現在活性化合物數據庫ChEMBL中,進一步證實了該方法在類藥虛擬化合物庫構建上的優越性。
?
最后,作者以香豆素基元為例子,使用遷移學習的方法,生成了13543個新型的具有香豆素基元的虛擬分子庫。通過比對,作者發現該虛擬化合物庫中有391個化合物是已報道過的有活性化合物(這些化合物未曾出現過在訓練集中),證明該類天然產物生成器生成的化合物具有較好的活性潛力。
?
圖4:?通過遷移學習生成的具有香豆素基元的有已報道活性的類天然產物
參考文獻:?
1. Zheng, S.; Yan, X.; Gu, Q.; Yang, Y.; Du, Y.; Lu, Y.; Xu, J., QBMG: quasi-biogenic molecule generator with deep recurrent neural network. J Cheminform 2019,?11?(1), 5.