English | 中文版 | 手機版 企業(yè)登錄 | 個人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁 > 技術(shù)文章 > PEAKS在質(zhì)譜數(shù)據(jù)鑒定多肽錯誤發(fā)現(xiàn)率FDR評估的應(yīng)用

PEAKS在質(zhì)譜數(shù)據(jù)鑒定多肽錯誤發(fā)現(xiàn)率FDR評估的應(yīng)用

瀏覽次數(shù):1357 發(fā)布日期:2023-8-4  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負
概覽
從質(zhì)譜數(shù)據(jù)中鑒定多肽通過軟件實現(xiàn)自動化。然而,就像科學(xué)實驗需要使用對照進行一樣,軟件的多肽鑒定結(jié)果也需要經(jīng)過統(tǒng)計驗證以避免假陽性。對于當(dāng)今的肽鑒定,最被廣泛接受的結(jié)果驗證方法是錯誤發(fā)現(xiàn)率(FDR)。這篇文章解釋了什么是FDR;它是如何實際運算的;以及使用FDR控制中的一些常見錯誤。

每個肽鑒定軟件的核心功能都是對肽和MS/MS譜的匹配質(zhì)量的評估。對于數(shù)據(jù)中的每張MS/MS譜圖,軟件都會搜索蛋白質(zhì)數(shù)據(jù)庫,以找到最高肽譜匹配分?jǐn)?shù)的肽。譜圖與得分最高的肽之間的匹配通常稱為肽-譜匹配(peptide-spectrum match,PSM)。
一系列原因可能導(dǎo)致PSM錯誤,其中包括:
01.低質(zhì)量的譜圖;
02.肽不在數(shù)據(jù)庫當(dāng)中
03.打分體系不夠完善。為了控制結(jié)果質(zhì)量,PSM按其得分來排序。通過選擇合適的分?jǐn)?shù)閾值,可以得到滿足高于閾值條件質(zhì)量的PSMs(圖1)。錯誤發(fā)現(xiàn)率FDR指的是錯誤的PSMs和在閾值之上的PSMs總數(shù)的比率。
圖1:軟件使用評分功能來區(qū)分鑒定結(jié)果的真假。FDR是誤報高于用戶指定的分?jǐn)?shù)閾值的部分。

 
通過調(diào)整閾值,結(jié)果的準(zhǔn)確度(FDR) 可以與靈敏度(鑒定到的數(shù)量)進行轉(zhuǎn)化。軟件不同,其評分體系不同,可能具有顯著不同的權(quán)衡效率,如圖 2中的FDR曲線所示。
圖2:不同肽鑒定軟件的性能可以通過其FDR曲線進行比較。在同一FDR閾值下,表現(xiàn)最好的應(yīng)該是能夠鑒定到最多的PSM(數(shù)據(jù)來自圖[1])。



用Target-Decoy方法來估算FDR
在實踐當(dāng)中,很難分辨哪個PSM是錯誤的—否則這些錯誤的PSMs可以被算法刪除以實現(xiàn)零錯誤率。 因此,Target-Decoy方法[1]在實踐中被廣泛用于估算FDR。在這個方法當(dāng)中,軟件會在相同大小的target數(shù)據(jù)庫和decoy數(shù)據(jù)庫進行搜索。 如果Decoy庫建的是足夠準(zhǔn)確的,那么軟件鑒定出的錯誤應(yīng)當(dāng)在目標(biāo)庫和誘餌庫當(dāng)中均勻分布。由于所有的decoy中得到的鑒定都應(yīng)當(dāng)是錯誤的,F(xiàn)DR 可以通過 FDR = (# Decoy hit) / (# target hit)來估計。
圖3:使用正確構(gòu)建的decoy庫,錯誤匹配將均勻分布在target和decoy上。因此,decoy hit數(shù)量可用于估計FDR。

Target-Decoy方法使用的常見誤區(qū)
如果使用得當(dāng),Target-Decoy方法在統(tǒng)計學(xué)上是估算FDR的合理方法。不過,這種方法的誤用很常見,并且會導(dǎo)致對結(jié)果質(zhì)量的過高評估。在這里,我們簡要總結(jié)一些常見的錯誤。需要強調(diào)的是,前面講到的“相同大小”和“均勻分布”是正確使用Target-Decoy方法的前提條件。我們即將看到,大多數(shù)Target-Decoy方法的使用錯誤都是由于違反了這些先決條件。


01錯誤1
使用方法Target-Decoy來驗證搜索軟件中的多輪搜索方法。
為了加快搜索速度,多輪搜索算法通常在第一輪從大型數(shù)據(jù)庫中選擇一個蛋白質(zhì)的候選列表,然后在第二輪的蛋白質(zhì)候選列表(而不是整個數(shù)據(jù)庫)中鑒定到更多的PSM。然而,這種方法使用Target-Decoy法將無效:在第一輪中選擇的目標(biāo)蛋白多于Decoy蛋白數(shù)目;因此,在第二輪中,target和decoy的大小不同(圖4)。
圖4:第一輪中保留了更多的target蛋白。因此,在target蛋白庫中將鑒定到更多的隨機錯誤。所以說,Decoy hit次數(shù)不能再被用于估算錯誤匹配數(shù)。

02錯誤 2
使用Target-Decoy方法時,通過蛋白鑒定信息,來反饋給搜索軟件中的肽譜匹配進行獎勵性加分。
一個蛋白的PSM越多,代表這個蛋白的置信度就越高。因此,許多軟件工具會給來自高置信度蛋白的肽加分。盡管這樣做可以提高搜索的靈敏度,卻讓Target-Decoy方法變得不準(zhǔn)確:會出現(xiàn)更多具有高分的Target蛋白的匹配;因此,因高分帶來的錯誤的target蛋白匹配將會比decoy錯配獲得的蛋白更多。錯誤匹配將不會均勻分布。

03錯誤 3
通過應(yīng)用Target-Decoy方法時,用重新訓(xùn)練出的模型來進行對結(jié)果的重排。
這種結(jié)果重排的策略最近被越來越廣泛的使用,因為它可以提高搜索的靈敏度。然而,這也會令Target-Decoy方法變得不準(zhǔn)確:一個較為粗放的重新學(xué)習(xí)算法會用到過多的參數(shù),使得數(shù)據(jù)出現(xiàn)過度擬合并消除decoy hit(但并不是target庫中的錯配)。因此,這種策略僅適用于當(dāng)重新訓(xùn)練算法的設(shè)計考慮了過擬合問題,并且數(shù)據(jù)集非常大的情況。

Decoy-Fusion方法有一個簡單的改進可以避免前兩個常見錯誤——PEAKS DB的論文[1]提出了一種decoy- fusion的方法。decoy- fusion方法不是將target和decoy數(shù)據(jù)庫連接在一起,而是將同一蛋白質(zhì)的target序列和decoy序列連接在一起,作為“fusion”序列(圖5)。這個簡單的更改會產(chǎn)生一些有意義的不同。對于兩輪搜索問題,第二輪的target和decoy長度仍然相同。對于蛋白質(zhì)獎勵性得分問題,相同數(shù)量的給分將同樣的應(yīng)用于同一融合序列的target和 decoy部分。 因此,“相同大小”和“均勻分布”的先決條件被重新創(chuàng)建;FDR值能夠被重新準(zhǔn)確的估算。PEAKS軟件的內(nèi)置結(jié)果驗證正是使用的這種decoy- fusion方法。

圖5:decoy- fusion方法將target和decoy序列“融合”在一起。因此,即便使用兩輪搜索算法,target序列和decoy序列也保證具有相同的長度。


參考文獻
  • Zhang J, Xin L, Shan B, Chen W, Xie M, Yuen D, Zhang W, Zhang Z, Lajoie G.A., Ma B, PEAKS DB: De Novo Sequencing Assisted Database Search for Sensitive and Accurate Peptide Identification. Mol. Cell. Proteomics. 11, M111.010587 (2012).  
  • Xin, L., Qiao, R., Chen, X. et al. A streamlined platform for analyzing tera-scale DDA and DIA mass spectrometry data enables highly sensitive immunopeptidomics. Nat Commun 13, 3108 (2022). doi:10.1038/s41467-022-30867-7


(點擊圖片即可查看活動詳情)

如果您想深入了解更多關(guān)于PEAKS 軟件更多內(nèi)容,歡迎掃描下方二維碼關(guān)注我們!
來源:百蓁生物科技(上海)有限公司
聯(lián)系電話:021-60919881
E-mail:sales-china@bioinfor.com

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點,不代表本站觀點。 請輸入驗證碼: 8795
Copyright(C) 1998-2025 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com