今天為大家推薦一篇發(fā)表ACS. Cent. Sci.上的文章:Deep Learning for Prediction and Optimization of Fast-Flow Peptide Synthesis,文章的通訊作者是來自麻省理工的Bradley L. Pentelute和Rafael Go?mez-Bombarelli,Pentelute教授專注的方向是蛋白質(zhì)工程與藥物遞送,而Bombarelli教授則是從事計算輔助的合成方法學研究。
固相肽合成(SPPS)是人工合成多肽的重要手段,與基因重組表達相比,SPPS合成的肽不受序列與氨基酸種類的限制,因此使用范圍更廣。然而,SPPS涉及多個步驟的重復反應,對時間和體力的消耗非常大。近年來,流式化學技術的發(fā)展催生了自動合成儀化學平臺的設計與使用,作者的實驗室就設計了一個自動化的快速流式肽合成儀(AFPS),可以實現(xiàn)高效自動的SPPS。但是,合成過程中出現(xiàn)聚集等副反應的問題仍未得到解決。為了提高產(chǎn)率,作者設想通過算法對自動合成進行實時的優(yōu)化。為了實現(xiàn)這一設想,作者需要這種算法可以在合成條件與產(chǎn)率之間建立準確的聯(lián)系,這一目標可以通過深度學習來實現(xiàn)。但是,有效的深度學習需要大量高質(zhì)量且標準化的數(shù)據(jù),這意味著不能簡單地從出版的資料中收集這些數(shù)據(jù),因為它們是不同標準的且不一定可重復。為了獲得統(tǒng)一標準的高度可重復的數(shù)據(jù),作者用AFPS在相同的優(yōu)化參數(shù)下做了大量的脫保護合成步驟,獲得了35427個獨立的UV-Vis檢測數(shù)據(jù)。作者將每個合成反應中的前體序列和引入的氨基酸都用指紋圖譜編碼成類似條形碼的形式,這些條形碼包含氨基酸的側(cè)鏈、酰胺鍵和保護基等所有關鍵亞結構的信息。作者將這些條形碼信息和對應的合成參數(shù)(包括反應溫度、流速、偶聯(lián)試劑等)作為輸入,肽合成中Fmoc去保護的UV-Vis跡線的積分、高度和寬度作為輸出,這些變量是衡量反應是否成功的重要標準。作者在用收集到的數(shù)據(jù)訓練了深度神經(jīng)網(wǎng)絡模型后,用該模型預測的UV-Vis跡線與實驗所得數(shù)據(jù)在誤差允許范圍內(nèi)是相匹配的。

作者使用該模型預測了聚集與序列的關聯(lián)性,聚集是SPPS中發(fā)生的最重要的副反應之一,但是聚集與肽段序列之間的關系尚不明確。發(fā)生聚集的特點是UV-Vis峰變得更平更寬,作者用寬高比對這一特征進行量化定義,并用訓練的模型準確判斷出了GLP-1在添加Ala18后發(fā)生的聚集。為了進一步了解聚集與序列間的關聯(lián),作者用該模型預測了PDB中8000余種蛋白質(zhì)可能的聚集行為,發(fā)現(xiàn)芳基和較大側(cè)鏈的氨基酸最容易導致聚集。作為驗證,作者將選定的對待合成肽進行了單點突變并用模型判斷了所有突變體的發(fā)生聚集的可能性;隨后用實驗合成了其中幾個肽并將產(chǎn)率與模型預測進行了比較,二者是相符的。

最后,作者用該模型的預測結果作為指導去優(yōu)化了AFPS自動合成過程中的參數(shù),從而對于除了Trp之外的所有氨基酸都獲得了一個新的偶聯(lián)配方。實驗證明在優(yōu)化的條件下大多數(shù)氨基酸的偶聯(lián)產(chǎn)率都提高了,但包括Trp在內(nèi)的幾種氨基酸仍有進一步優(yōu)化的空間。綜上,作者利用一個深度學習模型對流式肽合成的產(chǎn)率進行了預測并用該模型指導了合成條件的優(yōu)化。作者希望未來該模型能夠?qū)崿F(xiàn)在合成過程中的實時調(diào)控,即根據(jù)上一步合成的表征信息自動給出下一步合成的最佳優(yōu)化條件。
本文作者:TZY
責任編輯:LYP
原文鏈接:https://pubs.acs.org/doi/abs/10.1021/acscentsci.0c00979
原文引用:DOI:10.1021/acscentsci.0c00979