English | 中文版 | 手機版 企業(yè)登錄 | 個人登錄 | 郵件訂閱
當前位置 > 首頁 > 技術文章 > DeepSearch——基于深度學習的高靈敏串聯(lián)質譜數(shù)據(jù)搜庫分析策略

DeepSearch——基于深度學習的高靈敏串聯(lián)質譜數(shù)據(jù)搜庫分析策略

瀏覽次數(shù):371 發(fā)布日期:2025-1-23  來源:本站 僅供參考,謝絕轉載,否則責任自負
在基于質譜(MS)的蛋白質組學中,肽段鑒定是關鍵挑戰(zhàn)。傳統(tǒng)數(shù)據(jù)庫搜索方法依賴啟發(fā)式評分函數(shù),存在對某些肽段組成的偏差,需引入統(tǒng)計估計提高鑒定率。深度學習雖提升了肽段從頭測序的準確性,但現(xiàn)有方法在處理不同蛋白質組成數(shù)據(jù)集及鑒定可變翻譯后修飾(PTM)方面仍存在不足。

為應對以上問題,Yonghan Yu和李明教授(Bioinformatics Solution Inc.創(chuàng)始人、加拿大皇家學會院士)在Nature Machine Intelligence(IF 18.8)發(fā)表了題為“Towards highly sensitive deep learning-based end-to-end database search for tandem mass spectrometry”的最新研究成果,提出了一種新的串聯(lián)質譜數(shù)據(jù)庫搜索方法—DeepSearch。在對比學習框架下,DeepSearch采用了改進的基于Transformer 的編解碼器架構。與傳統(tǒng)的離子與離子匹配方法不同,DeepSearch 采用數(shù)據(jù)驅動的方法對肽段-譜圖匹配進行評分,顯著降低了評分偏差,并且支持零樣本變量的可變翻譯后修飾(PTM)鑒定。DeepSearch在各種數(shù)據(jù)集上均表現(xiàn)出較高的準確性和穩(wěn)定性,包括不同物種的數(shù)據(jù)集以及富含PTM的數(shù)據(jù)集等。DeepSearch 為串聯(lián)質譜的數(shù)據(jù)庫搜索方法提供了新的思路。

DeepSearch方法
圖1 DeepSearch搜索模型

傳統(tǒng)的譜圖搜索策略一般是將標準參考序列通過計算機模擬酶切(in-silico digestion)后,生成對應的理論譜,然后與實際采集的譜圖進行匹配。因此,對于復雜譜圖來說,就存在一些局限性。

DeepSearch采用改進的基于Transformer的編解碼器架構,從蛋白質數(shù)據(jù)庫的計算機理論酶解開始,DeepSearch將酶解的肽和實驗MS/ MS譜圖編碼到嵌入中。DeepSearch不依賴于離子間匹配的啟發(fā)式評分函數(shù),而是使用相應嵌入之間的余弦相似性來對PSM進行評分,這可以通過單個矩陣乘法有效地計算出來。

為了解決在 PSM 中注釋密切相關的負對的挑戰(zhàn),并減少注釋中采用的搜索引擎的偏差,DeepSearch采用了批量內對比學習框架 。在訓練過程中,DeepSearch 隨機對一批錨定肽段質量的PSM 進行采樣(正對),并將肽段-譜對(不包括采樣的 PSM)用作負對(圖 1c),通過對比學習,使正對之間的余弦相似度更高,而負對之間的余弦相似度更低。并且,DeepSearch 通過Phred分數(shù)對PSMs進行重排序,確保最終的匹配更加準確。在理論譜圖中引入修飾質量偏移(mass shift),生成包含修飾信息的肽段嵌入。通過對比學習,DeepSearch可以直接對具有不同修飾的肽段進行鑒定。


實驗結果

1. PSM 評分偏差較小
擬南芥數(shù)據(jù)集的測試結果顯示,與 MSFragger、MS- GF+和 MaxQuant 比較,DeepSearch 的評分不受肽段長度影響,對缺失片段較多的短肽段評分較低,且在不同缺失片段數(shù)量下長肽段分數(shù)分布無顯著差異。在 1% FDR 控制下,其報告的 PSM 數(shù)量與其他引擎相比具有優(yōu)勢,不受統(tǒng)計模型影響(圖2a)。此外,目標序列匹配分數(shù)(藍色)在所有肽段長度范圍內分布均勻,表明DeepSearch的評分機制對肽段長度變化的穩(wěn)定性。Decoy匹配(紅色)較低且分布較窄,說明decoy匹配分數(shù)的波動較小,質控良好。
圖2 不同搜索引擎對擬南芥數(shù)據(jù)集中不同長度肽段的鑒定

2. 肽段鑒定準確且穩(wěn)健
圖3(a–d)分別展示了擬南芥(A. thaliana)、HEK293細胞、秀麗隱桿線蟲(C. elegans)和大腸桿菌(E. coli)數(shù)據(jù)集在1%假陽性率(FDR)下的PSM數(shù)量。結果顯示DeepSearch在不依賴統(tǒng)計模型的情況下,仍能維持較高的PSM鑒定數(shù)量,說明對于統(tǒng)計估計的依賴性已顯著降低。
圖3 不同物種數(shù)據(jù)集通過FDR 1%質控的PSM數(shù)量

3. 零樣本可變 PTM 分析
傳統(tǒng)搜庫方法通常需要提前對特定翻譯后修飾(如磷酸化)的數(shù)據(jù)進行訓練,限制了未知修飾的分析與發(fā)現(xiàn)。而DeepSearch借助深度學習,結合譜圖與肽段序列之間的普遍規(guī)律,可以實現(xiàn)零樣本的翻譯后修飾訓練。從圖4 HeLa 磷酸化富集數(shù)據(jù)集的測試結果看,DeepSearch在零樣本條件下,PTM分析的表現(xiàn)良好。圖4a分別表示對于非修飾肽段、單位點修飾肽段、雙位點修飾肽段的評分分布,可以看出隨著修飾數(shù)量增加,目標肽段的匹配(藍色)評分分布變寬,decoy匹配的得分分布變化較小,說明雖然修飾的復雜性對target匹配影響較大,但仍能保持較好的decoy質控。與MSFragger和MS-GF+相比,DeepSearch的準確性較高,但修飾肽的鑒定數(shù)量略少一些(圖4b-d),有待進一步優(yōu)化。
圖4 Hela磷酸化富集數(shù)據(jù)集的零樣本PTM表征

結論與展望
DeepSearch 是首個基于深度學習的端到端的串聯(lián)質譜數(shù)據(jù)庫搜索引擎,評分偏差小、準確性和穩(wěn)健性高,能實現(xiàn)零樣本PTM分析,標志著AI技術在蛋白質組學領域的重大應用突破。未來,DeepSearch有望作為獨立引擎或重新評分模塊,整合到現(xiàn)有蛋白質組學分析流程中,推動蛋白質組學尤其是復雜修飾組學的快速發(fā)展。

文獻原文
Yu, Y., Li, M. Towards highly sensitive deep learning-based end-to-end database search for tandem mass spectrometry. Nat Mach Intell (2025). https://doi.org/10.1038/s42256-024-00960-1
 
作為生物信息學的領軍企業(yè),BSI專注于蛋白質組學和生物藥領域,通過機器學習和先進算法提供世界領先的質譜數(shù)據(jù)分析軟件和蛋白質組學服務解決方案,以推進生物學研究和藥物發(fā)現(xiàn)。我們通過基于AI的計算方案,為您提供對蛋白質組學、基因組學和醫(yī)學的卓越洞見。旗下著名的PEAKS®️系列軟件在全世界擁有數(shù)千家學術和工業(yè)用戶,包括:PEAKS®️ Studio,PEAKS®️ Online,PEAKS®️ GlycanFinder, PEAKS®️ AB,DeepImmu®️ 免疫肽組發(fā)現(xiàn)服務和抗體綜合表征服務等。
來源:百蓁生物科技(上海)有限公司
聯(lián)系電話:021-60919881
E-mail:sales-china@bioinfor.com

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點,不代表本站觀點。 請輸入驗證碼: 8795
Copyright(C) 1998-2025 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com