侯鑫行 周丕宇 宮鵬云 付嘉樂 劉 超** 王海鵬**
(1)山東理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,淄博 255000;2)北京航空航天大學(xué)醫(yī)學(xué)科學(xué)與工程學(xué)院&生物與醫(yī)學(xué)工程學(xué)院,北京 100191;3)清華大學(xué)生命科學(xué)學(xué)院,北京 100084)
基于液相色譜-串聯(lián)質(zhì)譜技術(shù)的鳥槍法蛋白質(zhì)組學(xué)已成為對生物體內(nèi)蛋白質(zhì)進(jìn)行全面分析的一個(gè)主流方法[1-2],在疾病發(fā)病機(jī)制研究、生物標(biāo)志物篩選和藥靶發(fā)現(xiàn)等領(lǐng)域有著廣泛的應(yīng)用[3-7]。目前,鳥槍法蛋白質(zhì)組學(xué)已實(shí)現(xiàn)對大規(guī)模生物樣品上萬個(gè)蛋白質(zhì)的高通量分析[7-12],但依然還未實(shí)現(xiàn)蛋白質(zhì)全覆蓋的目標(biāo)[13]。傳統(tǒng)鳥槍法蛋白質(zhì)組學(xué)通常采用數(shù)據(jù)依賴采集(data dependent acquisition,DDA)方法采集質(zhì)譜數(shù)據(jù),而近年提出的數(shù)據(jù)非依賴采集(data independent acquisition,DⅠA)方法由于其高通量、高重現(xiàn)性和高靈敏度的優(yōu)點(diǎn),逐漸得到更廣泛的應(yīng)用。
DDA 方法在每次循環(huán)采集過程中依次選擇一級譜圖中強(qiáng)度最高的多個(gè)母離子,對母離子質(zhì)荷比選擇較窄的隔離窗口(如±1.2 u)進(jìn)行碎裂并生成二級譜圖(圖1a)。DDA方法依賴母離子強(qiáng)度的二級譜圖獲取方式導(dǎo)致其難以獲取低豐度肽段的二級譜圖,并且由于色譜條件和動態(tài)排除機(jī)制造成了母離子選擇的高隨機(jī)性,使得相同肽段在兩次實(shí)驗(yàn)被重復(fù)采集二級譜圖的概率較低。
隨著質(zhì)譜技術(shù)的不斷發(fā)展,為了實(shí)現(xiàn)對蛋白質(zhì)樣品的高通量、高靈敏和高重現(xiàn)性分析,研究人員提出了DⅠA 方法[14]。DⅠA 方法不依賴于母離子強(qiáng)度,而是根據(jù)母離子質(zhì)荷比范圍無偏地設(shè)置隔離窗口,并將窗口內(nèi)所有母離子共碎裂,得到包含多個(gè)母離子共碎裂信息的混合二級譜圖(圖1b)。相較于DDA 方法,DⅠA 方法可以采集到包括低豐度肽段在內(nèi)隔離窗口中所有母離子的碎片離子信息,理論上可實(shí)現(xiàn)對肽段的全面采集,獲取樣品內(nèi)全部蛋白質(zhì)的完整圖譜。此外,DⅠA方法采集了碎片離子在色譜時(shí)間上的連續(xù)信息,可以重構(gòu)碎片離子的色譜曲線,該色譜曲線較DDA 方法中重構(gòu)母離子色譜曲線有更高的信噪比和更低的檢測限,能夠?qū)崿F(xiàn)更精確的定量。
DⅠA數(shù)據(jù)雖然具有對樣品所有肽段進(jìn)行鑒定和定量的潛能,但是高度復(fù)雜的混合二級譜圖對肽段和蛋白質(zhì)的準(zhǔn)確鑒定提出了挑戰(zhàn)。由于DⅠA產(chǎn)生的二級譜圖包含著隔離窗口所有母離子的碎裂信息,母離子和碎片離子之間的對應(yīng)關(guān)系被打破,難以直接使用傳統(tǒng)DDA 搜索引擎實(shí)現(xiàn)肽段鑒定。此外,隔離窗口內(nèi)多個(gè)母離子之間存在相同質(zhì)荷比的碎片離子,造成碎片離子干擾為二級譜圖解析造成困難。自DⅠA 方法提出以來,正確解析DⅠA 數(shù)據(jù)的二級譜圖成為了分析DⅠA數(shù)據(jù)的關(guān)鍵難點(diǎn)。
近年來,質(zhì)譜采集技術(shù)和不同鑒定策略的發(fā)展為解析DⅠA數(shù)據(jù)的二級譜圖提供了有效途徑。隨著質(zhì)譜儀器在質(zhì)量精度、速度和分辨率上的提高,多種旨在降低分析復(fù)雜度的DⅠA采集策略被提出。目前的DⅠA數(shù)據(jù)采集方法主要可以分為全窗口碎裂方法(Shotgun-CⅠD[15]、MSE[16]、AⅠF[17])、隔離窗口 序 列 碎 裂 方 法(原 始DⅠA[14]、PAcⅠFⅠC[18]、SWATH[19]、 WiSⅠM-DⅠA[20]、 BoxCar[21]、MSX[22]、可變母離子隔離窗口DⅠA[23]、RTWinDⅠA[24])和增加數(shù)據(jù)維度的4D-DⅠA 方法(DⅠA-PASEF[25]、ScanningSWATH[26])。
針對DⅠA數(shù)據(jù)的特點(diǎn),基于不同策略的數(shù)據(jù)分析方法被提出。DⅠA數(shù)據(jù)分析主要包括數(shù)據(jù)解析獲取肽段鑒定結(jié)果(即實(shí)現(xiàn)肽段和譜圖匹配,簡稱肽譜匹配,peptide-spectrum matches)和對鑒定結(jié)果進(jìn)行可信度評估兩個(gè)部分。目前,DⅠA數(shù)據(jù)解析方法主要包括譜庫搜索方法(mProphet[27]、OpenSWATH[28]、 Spectronaut[29]、 DⅠANA[30]、SWATHProphet[31]、 EncyclopeDⅠA[32]、 DⅠANN[33]、DDⅠA[34]、MaxDⅠA[35]、DreamDⅠA[36])、蛋白質(zhì)序列庫直接搜索方法(DⅠAmeter[37]、FTARM[38]、PECAN[39])和偽二級譜圖鑒定方法(DeMux[40]、 DⅠA-Umpire[41]、 Group-DⅠA[42]、Specter[43]、CorrDec[44])以及從頭測序方法(DeepNovo-DⅠA[45])。在得到肽段鑒定結(jié)果后,使用重排序算法將鑒定結(jié)果按可信度從高到低進(jìn)行排序,而后利用目標(biāo)-誘餌庫方法(target decoy approach,TDA)[46]估計(jì)假發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR)[47],實(shí)現(xiàn)對鑒定結(jié)果的可信度評估。
本文對近年來發(fā)展出的DⅠA數(shù)據(jù)分析策略進(jìn)行綜述。首先介紹主要的DⅠA數(shù)據(jù)采集方法,接著介紹主要的DⅠA 數(shù)據(jù)解析方法,然后介紹DⅠA 數(shù)據(jù)中的鑒定結(jié)果重排序算法和假發(fā)現(xiàn)率估計(jì)方法,最后對現(xiàn)有蛋白質(zhì)組學(xué)中的DⅠA分析策略進(jìn)行總結(jié)并對未來發(fā)展進(jìn)行展望。
Fig.1 Comparison of DDA and DIA methods圖1 DDA和DIA方法對比
DⅠA數(shù)據(jù)采集方法對一級譜圖的母離子質(zhì)荷比范圍進(jìn)行劃分,得到隔離窗口并對隔離窗口內(nèi)所有母離子共碎裂采集二級譜圖。目前已經(jīng)發(fā)展了多種DⅠA 采集方法(表1),根據(jù)隔離窗口劃分?jǐn)?shù)目、大小的不同及是否對肽段采集額外的維度,主要分為3類,包括全窗口碎裂方法、隔離窗口序列碎裂方法和增加數(shù)據(jù)維度的四維DⅠA 數(shù)據(jù)采集方法(4D-DⅠA)(圖2)。
Table 1 Commonly used data-independent acquisition methods表1 常用的數(shù)據(jù)非依賴采集方法
Fig.2 The workflow of mass spectrometry data acquisition and three different DIA methods圖2 質(zhì)譜數(shù)據(jù)采集流程和3種不同的DIA方法
全窗口碎裂方法指每一次循環(huán)采集過程中對一級譜圖指定較大的質(zhì)荷比范圍(一般大于等于400 u)的母離子共同碎裂,進(jìn)行一次二級譜圖采集,得到的二級譜圖包含了所有母離子的碎片離子信息(圖2b)。該方法大大提高了質(zhì)譜儀器的占空比(即質(zhì)譜儀從離子源采集離子的時(shí)間比例)。本節(jié)介紹常用的母離子全窗口碎裂方法。
2003年P(guān)urvine 等[15]提出Shotgun-CⅠD 方法,在ESⅠ-TOF-MS質(zhì)譜儀上分別使用低能量和高能量進(jìn)行采樣,生成兩次CⅠD數(shù)據(jù)。在低能量條件下采集的二級譜圖只包含母離子信息,在高能量條件下采集的二級譜圖記錄了所有肽段的碎片離子信息。作者通過實(shí)驗(yàn)證明,Shotgun-CⅠD 采集的數(shù)據(jù)可以通過母離子和碎片離子的色譜曲線來輔助進(jìn)行肽段鑒定。2006年P(guān)lumb 等[16]提出了MSE方法,MSE在QTOF 質(zhì)譜儀上交替進(jìn)行低能量和高能量的轉(zhuǎn)換,自動掃描獲得母離子、碎片離子信息,獲得含碎片離子、母離子和中性損失信息的二級譜圖。MSE方法采集的數(shù)據(jù)主要用于藥物和大分子代謝物的研究。2010年Geiger 等[17]提出在Orbitrap Exactive 儀器上進(jìn)行母離子全碎裂(all-ion fragmentation,AⅠF)的方法。該方法交替進(jìn)行母離子和AⅠF掃描,母離子和AⅠF掃描各采集1 s,分別采集得到高分辨率的一級和二級譜圖。AⅠF掃描分別使用24、30和36 eV的階梯式碎裂能量,提高了母離子碎裂效率。
全窗口碎裂方法如Shotgun-CⅠD、MSE和AⅠF等高效地采集了較大的指定母離子質(zhì)荷比范圍內(nèi)的碎片離子信息,有效提高了數(shù)據(jù)覆蓋率和儀器占空比。但是,其生成的二級譜圖包含了所有母離子的共碎裂信息,碎片離子干擾幾率的增加也對肽段的鑒定造成了困難。因此,母離子全窗口碎裂方法不適用于對復(fù)雜樣品的大規(guī)模分析。
隔離窗口序列碎裂方法將一級譜圖指定母離子質(zhì)荷比范圍劃分成多個(gè)隔離窗口,依次對每個(gè)隔離窗口內(nèi)的所有母離子碎裂,每次循環(huán)采集生成多張二級譜圖。相較于母離子全窗口碎裂方法,該方法分別在多個(gè)隔離窗口中采集母離子碎裂信息,降低了二級譜圖的復(fù)雜度。該方法主要可分為4種不同的實(shí)現(xiàn)策略,分別為固定大隔離窗口序列碎裂策略、固定小隔離窗口序列碎裂策略、可變隔離窗口序列碎裂策略、優(yōu)化母離子采集的隔離窗口序列碎裂策略。
1.2.1 固定大隔離窗口序列碎裂策略
固定大隔離窗口序列碎裂策略使用較大隔離窗口(一般大于等于10 u)對母離子質(zhì)荷比范圍進(jìn)行均勻劃分,得到一個(gè)隔離窗口序列并依次對其進(jìn)行碎裂(圖2c(1))。該方法每次循環(huán)得到多張二級譜圖,所有的二級譜圖都有相同的隔離窗口大小。本小節(jié)接下來介紹幾種常見的采集方法。
2004年Venable 等[14]正式提出了DⅠA 名詞概念,使用10 u大小的隔離窗口依次遍歷母離子質(zhì)荷比400~1 400 的范圍,實(shí)現(xiàn)對母離子的全面覆蓋(為了不產(chǎn)生混淆,本文用原始DⅠA表示該方法)。作者使用SEQUEST軟件并通過擴(kuò)大候選母離子質(zhì)荷比范圍進(jìn)行搜索,并利用修改的RelEx軟件重構(gòu)碎片離子色譜曲線。
2012年Gillet 等[19]提出了步進(jìn)式大窗口方法SWATH,采用26 u 大?。?5 u+1 u 重疊部分)的隔離窗口對母離子質(zhì)荷比400~1 200 進(jìn)行循環(huán)采集,每次循環(huán)共采集到1張一級譜圖和32張二級譜圖。在數(shù)據(jù)解析過程中,Gillet 等提出了類似于SRM 方法的靶向數(shù)據(jù)提取策略, 并通過mProphet[27]軟件進(jìn)行肽段鑒定。
2019年Amodei 等[48]提出了一種大比例重疊窗口DⅠA 方法(overlapping windows DⅠA),并結(jié)合譜圖拆分算法來提高母離子的選擇性。重疊窗口DⅠA方法采用窗寬20 u重疊10 u的隔離窗口,交替在質(zhì)荷比范圍500~900 和490~890 內(nèi)依次進(jìn)行隔離窗口掃描。作者利用最小二乘法算法對質(zhì)荷比范圍500~900、490~890 的重疊二級譜圖進(jìn)行譜圖拆分并去除干擾碎片離子,最終得到10 u大小隔離窗口的二級譜圖。
1.2.2 固定小隔離窗口序列碎裂策略
DⅠA數(shù)據(jù)解析的有效性與肽段的分離效率直接相關(guān),Heaven等[49]通過實(shí)驗(yàn)證明了DⅠA數(shù)據(jù)解析的靈敏度與隔離窗口大小為負(fù)相關(guān),一系列通過減小隔離窗口的策略也被提出(圖2c(2))。受限于當(dāng)前質(zhì)譜儀器的采集效率,難以直接減小隔離窗口的大小,目前該策略主要有兩種實(shí)現(xiàn)方式,分別為通過相同樣品的多次數(shù)據(jù)采集實(shí)現(xiàn)小隔離窗口劃分和利用算法拆分大隔離窗口。
第一種策略利用質(zhì)量區(qū)段分離(gas phase fractionation,GPF)技術(shù),將母離子按質(zhì)荷比劃分為多個(gè)區(qū)間,通過對相同樣品多次進(jìn)樣,實(shí)現(xiàn)對不同母離子質(zhì)荷比區(qū)間的采集,在不影響循環(huán)時(shí)間的同時(shí)降低了隔離窗口的大小。2009年P(guān)anchaud等[18]提出了PAcⅠFⅠC 方法,將母離子質(zhì)荷比范圍400~1 400劃分為67次實(shí)驗(yàn)采集,每次實(shí)驗(yàn)用10張2.5 u重合1 u大小的隔離窗口實(shí)現(xiàn)15 u質(zhì)荷比范圍的覆蓋。2021年郭天南團(tuán)隊(duì)[50]提出多次采樣均勻劃分隔離窗口的方法PulseDⅠA,PulseDⅠA 將傳統(tǒng)DⅠA方法中每個(gè)隔離窗口均勻劃分并分配到多次氣相分離采樣中,每次實(shí)驗(yàn)對劃分的小隔離窗口進(jìn)行采集,提高了數(shù)據(jù)靈敏度和數(shù)據(jù)重現(xiàn)性。小隔離窗口結(jié)合多次實(shí)驗(yàn)采集策略,有效降低了二級譜圖的復(fù)雜度,但是增加了質(zhì)譜采集時(shí)間,對實(shí)驗(yàn)儀器的穩(wěn)定性也有較高要求。
第二種策略利用譜圖拆分算法對采集到的大隔離窗口二級譜圖進(jìn)行拆分,最終得到多個(gè)小隔離窗口的二級譜圖。2013年Egertson 等[22]提出了多路窗口混合方法MSX。MSX方法對母離子質(zhì)荷比區(qū)間500~900 依次劃分成100個(gè)4 u 小隔離窗口,每次隨機(jī)選取5個(gè)小隔離窗口合并碎裂生成二級譜圖,直到遍歷完所有隔離窗口。MSX 方法將采集的二級譜圖視為100個(gè)4 u 小隔離窗口二級譜圖疊加得到,通過非負(fù)最小二乘法求解得到每個(gè)小隔離窗口對應(yīng)的二級譜圖,并能夠直接利用較成熟的DDA數(shù)據(jù)庫搜索軟件進(jìn)行數(shù)據(jù)解析。
1.2.3 可變隔離窗口序列碎裂策略
上述DⅠA數(shù)據(jù)在母離子質(zhì)量范圍上是均勻采集的,但是由于母離子在不同質(zhì)量的含量是不均勻的,DⅠA數(shù)據(jù)在含量高的區(qū)域采集到的二級譜圖會有更高的碎片離子干擾概率,容易造成二級譜圖之間的信息不均等,降低了質(zhì)譜儀采集效率,同時(shí)也對肽段鑒定造成影響??勺兏綦x窗口序列碎裂策略利用質(zhì)譜數(shù)據(jù)的色譜特征和母離子分布情況等特點(diǎn)修改隔離窗口的設(shè)置(圖2c(3)),進(jìn)一步減輕了二級譜圖的復(fù)雜性。設(shè)置可變隔離窗口序列有基于算法的自動設(shè)置和基于經(jīng)驗(yàn)的手動設(shè)置。
2015年Zhang 等[23]提出了以數(shù)據(jù)為中心(data-centric)的可變母離子隔離窗口DⅠA 方法(variable precursor isolation window DⅠA),該方法分別實(shí)現(xiàn)了根據(jù)母離子分布情況(PⅠP)或總離子流強(qiáng)度(TⅠC)劃分母離子隔離窗口范圍的兩種采集方式,通過指定隔離窗口數(shù)目、質(zhì)荷比和保留時(shí)間范圍,自動實(shí)現(xiàn)隔離窗口的劃分。
2019年Li等[24]提出了隨保留時(shí)間改變隔離窗口選擇的方法RTwinDⅠA。利用較大質(zhì)量肽段在反相色譜中通常較晚洗脫的事實(shí),RTwinDⅠA 在較大色譜洗脫時(shí)間范圍選擇更大的母離子質(zhì)荷比范圍,并使用5 u 的小隔離窗口依次進(jìn)行采集。作者評估了一系列DDA 搜索軟件對RTwinDⅠA 數(shù)據(jù)的解析能力,結(jié)果表明pFind具有直接分析小窗口DⅠA數(shù)據(jù)的潛力。事實(shí)上,目前大多DⅠA數(shù)據(jù)采集方法如SWATH,都會根據(jù)經(jīng)驗(yàn)預(yù)設(shè)不同大小的隔離窗口進(jìn)行數(shù)據(jù)采集。
2020年Guan 等[34]提出了DDⅠA (data dependent-independent acquisition)方法,DDⅠA 結(jié)合了DDA 方法和DⅠA 方法,在每次循環(huán)采集過程中,前0.6 s 用于一級譜圖和DDA 模式二級譜圖的采集,后3.0 s 采集多張DⅠA 模式二級譜圖。該方法利用DDA 掃描中鑒定的肽段為DⅠA 掃描的解析提供了先驗(yàn)信息,無需進(jìn)行額外的DDA 數(shù)據(jù)采集或摻入iRT標(biāo)準(zhǔn)肽段。
1.2.4 優(yōu)化母離子采集的隔離窗口序列碎裂策略
上述方法都是對二級譜圖的采集進(jìn)行優(yōu)化,事實(shí)上,受限于峰容量限制、母離子干擾和低豐度肽段的離子抑制等影響,一級譜圖的母離子信號容易出現(xiàn)干擾或缺失的情況,會對肽段鑒定打分和基于母離子的定量造成影響。為此,一些方法在隔離窗口序列碎裂的基礎(chǔ)上優(yōu)化了母離子的采集。
2014年Thermo 團(tuán)隊(duì)[51]提出了WiSⅠM-DⅠA 方法,均勻劃分母離子質(zhì)荷比區(qū)間并獨(dú)立進(jìn)行一級和二級譜圖采集[51]。該方法將母離子質(zhì)荷比范圍400~1 000 均勻劃分成3個(gè)區(qū)間,對每個(gè)區(qū)間的母離子采集一級譜圖,并用12 u大小的隔離窗口依次采集二級譜圖。獨(dú)立采集一級譜圖的方法提高了母離子的靈敏度和選擇性。WiSⅠM-DⅠA 通過二級譜圖進(jìn)行肽段鑒定,依靠一級譜圖母離子定量。
2020年Xuan 等[52]提出了基于高分辨率一級譜圖定量的采集方法HRMS1-DⅠA。HRMS1-DⅠA在母離子質(zhì)荷比范圍400~1 200 的循環(huán)采集過程中間插入了2張完整母離子質(zhì)荷比范圍的高分辨率一級譜圖(圖2c(4)),能夠檢測到更多的母離子信號并重構(gòu)色譜曲線。在數(shù)據(jù)分析中,HRMS1-DⅠA 采用了二級譜圖定性、一級譜圖定量的策略。
除了直接優(yōu)化母離子采集,還有一些結(jié)合BoxCar 方法和母離子采集的方法被提出。2021年Mehta 等[53]結(jié)合BoxCar 提出了BoxCarDⅠA 方法,并利用高精度的母離子信息進(jìn)行肽段鑒定打分和定量。同年Salovska 等[54]結(jié)合BoxCar 和MSX 提出了BoxCarmax 方法,結(jié)合了BoxCar 的母離子高靈敏度和MSX的母離子高選擇性優(yōu)點(diǎn)。
多種隔離窗口序列碎裂方法有效地降低了采集到二級譜圖的復(fù)雜度,有助于實(shí)現(xiàn)對DⅠA數(shù)據(jù)的深層解析。不過,采集到的二級譜圖仍是一系列未知數(shù)目母離子的碎片離子信息,難以直接進(jìn)行肽段鑒定。
上述采集方法得到的二級譜圖,破壞了母離子和碎片離子的對應(yīng)關(guān)系,為后續(xù)的肽段鑒定造成困難。隨著質(zhì)譜儀器的發(fā)展,可以通過獲取新的維度信息來重新獲得母離子和碎片離子的對應(yīng)關(guān)系。由此引入了離子淌度采集技術(shù)和最新的滑動四級桿(sliding quadrupole)技術(shù),采集到額外維度的信息作為傳統(tǒng)的只包含質(zhì)荷比、強(qiáng)度和保留時(shí)間的3DDⅠA 的補(bǔ)充,發(fā)展成為4D-DⅠA 數(shù)據(jù)采集方法。本小節(jié)分別介紹基于離子淌度采集技術(shù)的DⅠAPASEF 方法和采用最新滑動四極桿技術(shù)的Scanning SWATH方法。
2019年Meier 等[25]提出了平行累積連續(xù)碎裂(parallel accumulation serial fragmentation,PASEF)的采集方法DⅠA-PASEF,利用離子淌度質(zhì)譜儀測量肽段的離子淌度信息來提高母離子選擇性。該方法利用捕獲離子淌度(trapped ion mobility spectrometry,TⅠMS)技術(shù)實(shí)現(xiàn)離子并行累積,并同步選擇四級桿質(zhì)荷比范圍和TⅠMS設(shè)備遷移率范圍的母離子,在釋放指定淌度的母離子同時(shí)使用四級桿進(jìn)行監(jiān)測(圖2d(1)),極大地提高二級譜圖采集效率[55]。DⅠA-PASEF 方法額外采集到的離子淌度信息極大提高了母離子的選擇性,有助于后續(xù)肽段鑒定,并通過限制離子淌度范圍提取到更精準(zhǔn)的碎片離子色譜曲線,進(jìn)一步提高定量精度。作者通過建立含離子淌度的譜庫進(jìn)行靶向數(shù)據(jù)提取分析DⅠA-PASEF 采集到的數(shù)據(jù)。在完整蛋白質(zhì)組消化產(chǎn)物的單次分析中,DⅠA-PASEF 較傳統(tǒng)DⅠA 采集多鑒定到了22%的肽段母離子數(shù)目。
2021年Markus Ralser團(tuán)隊(duì)[26]提出了利用最新滑動四極桿技術(shù)的超高速采集方法Scanning SWATH。Scanning SWATH利用四極桿的連續(xù)掃描功能,在不損失選擇性的前提下?lián)碛懈斓难h(huán)時(shí)間(采集速度接近2 000張/s),結(jié)合高流速色譜能夠?qū)崿F(xiàn)5 min甚至0.5 min的高速質(zhì)譜采集。該方法將四級桿維度的母離子質(zhì)荷比范圍按2 u大小區(qū)間進(jìn)行劃分,所有重疊于區(qū)間范圍內(nèi)的碎片離子強(qiáng)度被加和到對應(yīng)區(qū)間中(圖2d(2))。隨著滑動窗口逐漸通過母離子質(zhì)荷比,對應(yīng)碎片離子信號先出現(xiàn)后消失,累計(jì)到區(qū)間中的強(qiáng)度為三角形狀的剖面,最高信號為母離子質(zhì)荷比對應(yīng)的區(qū)間。通過比較碎片離子在Q1 四級桿維度上的強(qiáng)度變化,能夠分配母離子質(zhì)荷比來提高母離子選擇性。
4D-DⅠA方法如 DⅠA-PASEF 和 Scanning SWATH,通過記錄了額外的離子淌度和四級桿維度母離子信息,在一定程度上重構(gòu)了二級譜圖中母離子和碎片離子的關(guān)系,進(jìn)一步提高了數(shù)據(jù)解析能力。
綜上所述,DⅠA數(shù)據(jù)采集方法如全窗口碎裂方法、隔離窗口序列碎裂方法和4D-DⅠA方法都有效實(shí)現(xiàn)了蛋白質(zhì)樣品的高通量采集,主要區(qū)別在于采集到二級譜圖的復(fù)雜程度,目前最常用的數(shù)據(jù)采集方法是SWATH 或可變窗口SWATH 以及DⅠAPASEF 方法。全窗口碎裂方法采集到的二級譜圖包含了全窗口范圍內(nèi)的母離子,譜圖解析的復(fù)雜度較大。隔離窗口序列碎裂方法通過多種采集策略減少了二級譜圖的母離子數(shù)目和隔離窗口大小,有效降低了譜圖解析的復(fù)雜度。隨著質(zhì)譜儀器的發(fā)展,DⅠA 采集二級譜圖隔離窗口大小有可能接近于DDA二級譜圖隔離窗口大小,實(shí)現(xiàn)DⅠA和DDA解析流程的融合。4D-DⅠA 方法通過額外采集的數(shù)據(jù)維度獲取母離子和碎片離子的對應(yīng)關(guān)系,提高了母離子的選擇性,大大降低了譜圖解析的復(fù)雜度。4D-DⅠA 方法也是未來DⅠA 數(shù)據(jù)采集的重要發(fā)展方向。
DⅠA數(shù)據(jù)解析是指對DⅠA方法采集到的質(zhì)譜數(shù)據(jù)進(jìn)行肽段鑒定,得到肽譜匹配。由于肽段在DⅠA數(shù)據(jù)中連續(xù)采集了多張二級譜圖,本文的肽譜匹配特指一條肽段和單張或多張連續(xù)二級譜圖的匹配情況。傳統(tǒng)DDA 搜索軟件難以直接解析DⅠA 數(shù)據(jù)的二級譜圖,因此需要專門針對DⅠA 數(shù)據(jù)的搜索算法。本節(jié)首先解釋傳統(tǒng)DDA 搜索方法解析DⅠA 數(shù)據(jù)二級譜圖的難點(diǎn),包括母離子質(zhì)荷比難以確定和碎片離子難以區(qū)分兩大難點(diǎn)。然后介紹目前常用的DⅠA數(shù)據(jù)解析方法,根據(jù)不同的搜索策略可分為譜庫搜索方法、蛋白質(zhì)序列庫直接搜索方法、偽二級譜圖鑒定方法和從頭測序4種方法(圖3)。
DⅠA二級譜圖數(shù)據(jù)解析方法通過匹配二級譜圖的肽段碎片離子信息,實(shí)現(xiàn)肽段的鑒定。如何解析混合二級譜圖是實(shí)現(xiàn)DⅠA 數(shù)據(jù)解析的關(guān)鍵技術(shù)難點(diǎn)。由于DⅠA 方法對隔離窗口范圍內(nèi)的所有母離子進(jìn)行碎裂,母離子和碎片離子的對應(yīng)關(guān)系被打破(圖4),對DⅠA二級譜圖的解析造成困難。
母離子質(zhì)荷比的確定是DⅠA 二級譜圖數(shù)據(jù)解析的一大挑戰(zhàn)。傳統(tǒng)DDA 軟件的二級譜圖解析算法通過選擇較小母離子質(zhì)量誤差范圍內(nèi)的候選肽段縮小搜索空間,其搜索空間和母離子碎裂的隔離窗口大小呈正相關(guān),母離子質(zhì)荷比是否確定影響了搜索效率和鑒定靈敏度。對于DⅠA 二級譜圖,由于所包含的肽段母離子的質(zhì)荷比無法確定,DDA 軟件無法通過母離子質(zhì)量獲取候選肽段,同時(shí)較大的隔離窗口無法有效縮小搜索空間,增加的候選肽段數(shù)目提高了搜索所需的時(shí)間,也導(dǎo)致了更高的鑒定假陽性率。
DⅠA二級譜圖數(shù)據(jù)解析的另一挑戰(zhàn)是難以區(qū)分多個(gè)肽段共碎裂生成的碎片離子。在二級譜圖解析過程中,針對二級譜圖實(shí)際包含的不同肽段數(shù)目,一般采用不同的搜索策略和打分公式,如傳統(tǒng)DDA軟件通常將二級譜圖視為單個(gè)肽段碎裂生成,通過設(shè)計(jì)有效的單肽打分函數(shù)進(jìn)行肽譜匹配。而來自于DⅠA 二級譜圖的多個(gè)肽段的碎片離子和相同質(zhì)荷比的干擾離子,對單個(gè)肽段的匹配打分造成了干擾,影響其鑒定精度。理論上,多個(gè)肽段的組合隨著共碎裂肽段數(shù)目呈指數(shù)級別增加,其搜索空間大大增加。
Fig.3 The work flow of DIA data analysis圖3 DIA數(shù)據(jù)解析流程
Fig.4 Difficulties in identifying DIA MS/MS spectra圖4 鑒定DIA二級譜圖的難點(diǎn)
通過上述兩點(diǎn)可知,傳統(tǒng)的DDA 搜索軟件難以實(shí)現(xiàn)對DⅠA 數(shù)據(jù)大規(guī)模的可靠解析。因此,需要針對DⅠA 的數(shù)據(jù)解析方法。為了解決從混合二級譜圖中解析得到多個(gè)肽段的問題,發(fā)展出了4種不同的搜索方法:第一種方法是通過已知肽段鑒定結(jié)果的譜庫去匹配DⅠA 二級譜圖實(shí)現(xiàn)肽段鑒定;第二種方法是基于蛋白質(zhì)序列庫對肽段理論二級譜圖和實(shí)際二級譜圖進(jìn)行匹配;第三種方法是對DⅠA二級譜圖解卷積拆分成偽二級譜圖,再結(jié)合DDA搜索軟件進(jìn)行搜索;第四種方法是不利用已知序列庫和譜庫信息,直接對DⅠA 二級譜圖進(jìn)行從頭測序。接下來分別介紹這4種方法。
譜庫搜索方法利用已知肽段鑒定信息的譜庫,和實(shí)際二級譜圖進(jìn)行匹配以實(shí)現(xiàn)肽段鑒定,是目前最常用的DⅠA 數(shù)據(jù)解析方法(表2)。譜庫搜索方法的概念最早由Yates 等[56]提出,后經(jīng)Lam等[57-59]實(shí)現(xiàn)了完整的譜庫構(gòu)建和搜索流程用于DDA 數(shù)據(jù)分析和SRM、PRM 數(shù)據(jù)的靶向分析,2012年該方法被Aebersold 團(tuán)隊(duì)[19]引入到SWATH數(shù)據(jù)中進(jìn)行靶向分析,并逐漸廣泛用于各種DⅠA數(shù)據(jù)的分析。
譜庫搜索方法的流程主要包括兩部分,分別為譜庫構(gòu)建和數(shù)據(jù)提取。首先根據(jù)DDA 數(shù)據(jù)的鑒定結(jié)果或深度學(xué)習(xí)預(yù)測結(jié)果生成譜庫,然后對譜庫中每個(gè)肽段進(jìn)行數(shù)據(jù)提取,提取母離子、碎片離子色譜曲線或二級譜圖匹配等特征進(jìn)行肽段打分,最終得到肽譜匹配(圖3a)。
2.2.1 譜庫構(gòu)建
譜庫是一系列二級譜圖及對應(yīng)肽段鑒定結(jié)果的集合,包括每個(gè)肽段的母離子和碎片離子的質(zhì)荷比、電荷和強(qiáng)度以及保留時(shí)間信息。目前的譜庫構(gòu)建方法可分為DDA 數(shù)據(jù)鑒定結(jié)果建庫和深度學(xué)習(xí)預(yù)測建庫。此外,還有一些工作對譜庫構(gòu)建進(jìn)行了優(yōu)化。
DDA數(shù)據(jù)鑒定結(jié)果建庫方法利用DDA數(shù)據(jù)鑒定到肽段的二級譜圖和保留時(shí)間等信息生成譜庫。DDA 鑒定結(jié)果直接影響了譜庫的規(guī)模和質(zhì)量。常用的DDA搜索軟件有pFind、 MSFragger 和SEQUEST 以及MaxQuant 等。使用與DⅠA 實(shí)驗(yàn)相同條件的DDA 數(shù)據(jù)能提高鑒定的準(zhǔn)確度,但是其結(jié)果局限于DDA 軟件的鑒定結(jié)果,同時(shí)失去低豐度肽段檢測的優(yōu)勢。而且,采集DDA 數(shù)據(jù)生成譜庫的方法有較高制作成本,而使用已有的大規(guī)模譜庫也會因?yàn)閷?shí)驗(yàn)環(huán)境、儀器和樣品之間的差異降低譜庫搜索的質(zhì)量[60],提高鑒定數(shù)目的同時(shí)降低了鑒定準(zhǔn)確度[61-62]。
近年來深度學(xué)習(xí)在蛋白質(zhì)組學(xué)中有著廣泛的應(yīng)用[63-65],為了擺脫建庫時(shí)對DDA實(shí)驗(yàn)譜圖的依賴,提出了深度學(xué)習(xí)預(yù)測譜庫方法。2017年Zhou等[66]首次提出了基于深度學(xué)習(xí)的譜圖預(yù)測工具pDeep,利用雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)對肽段理論二級譜圖進(jìn)行預(yù)測。2019年Gessulat 等[67]提出了譜庫預(yù)測算法Prosit,使用雙向門控循環(huán)單元(Bi-GRU)網(wǎng)絡(luò)模型并結(jié)合注意力機(jī)制對理論二級譜圖和保留時(shí)間進(jìn)行預(yù)測。2020年喬亮團(tuán)隊(duì)[68]進(jìn)一步提出DeepDⅠA 算法,結(jié)合CNN 和LSTM 來預(yù)測譜庫,并使用單獨(dú)的深度網(wǎng)絡(luò)模型來預(yù)測肽段的可檢測性。作者還發(fā)現(xiàn),相較于物種變化,實(shí)驗(yàn)儀器的變化對預(yù)測準(zhǔn)確性影響更大。深度學(xué)習(xí)預(yù)測譜庫方法能夠生成整個(gè)蛋白質(zhì)序列庫的完整譜庫,極大地提高了鑒定深度,同時(shí)為準(zhǔn)確鑒定低豐度肽段提供了可能。
DDA 數(shù)據(jù)鑒定或深度學(xué)習(xí)預(yù)測得到的譜圖,通常需要使用專門軟件如EasyPQP、SpectraST[58]和Skyline[69]等生成譜庫。譜庫的生成質(zhì)量直接影響了后續(xù)鑒定結(jié)果的靈敏度和準(zhǔn)確度,為此也提出了一些優(yōu)化譜庫結(jié)果的軟件。Midha 等[70]提出了譜庫質(zhì)量控制軟件DⅠALib-QC,通過62個(gè)一致性參數(shù)來評估譜庫的完備性和準(zhǔn)確性,進(jìn)一步提供優(yōu)化選項(xiàng)。Zhu 等[71]提出了譜庫構(gòu)建自動化流程,該流程支持pFind的鑒定結(jié)果,通過基于Docker的服務(wù)器替代本地運(yùn)行并結(jié)合SpectraST構(gòu)建譜庫。
2.2.2 基于碎片離子特征提取的方法
基于碎片離子特征提取的方法獲取譜庫中每個(gè)肽段的保留時(shí)間和前n個(gè)強(qiáng)度的碎片離子,以肽段為中心去DⅠA 數(shù)據(jù)中進(jìn)行靶向信息提取,通常根據(jù)保留時(shí)間指定一段時(shí)間范圍,并根據(jù)母離子和碎片離子質(zhì)荷比提取色譜曲線等特征進(jìn)行匹配打分,實(shí)現(xiàn)肽譜匹配。該方法對每個(gè)肽段判斷數(shù)據(jù)中能否檢測到該肽段,而不是直接考慮二級譜圖對應(yīng)的肽段[72],無需考慮二級譜圖中來自其他肽段的碎片離子,在縮小搜索空間的同時(shí)提高了肽段鑒定靈敏度。
Table 2 Commonly used software tools for spectral library search method表2 常用譜庫搜索方法軟件相關(guān)信息
2011年Reiter 等[27]開發(fā)了自動處理和評估SRM 數(shù)據(jù)的軟件mProphet,后被Gillet 等[19]用于SWATH 數(shù)據(jù)解析。mProphet 對每個(gè)肽段通過靶向數(shù)據(jù)提取得到多組候選譜峰組(肽段母離子、碎片離子在質(zhì)譜數(shù)據(jù)中的譜峰信號),并對譜峰組計(jì)算色譜曲線共洗脫和相似度、理論和實(shí)際碎片離子強(qiáng)度相關(guān)性和輕重標(biāo)記肽段相關(guān)性等多個(gè)打分,用于后續(xù)重排序并根據(jù)判別分?jǐn)?shù)計(jì)算最優(yōu)譜峰組。mProphet在分析中引入誘餌庫策略,通過對目標(biāo)庫肽段反轉(zhuǎn)或質(zhì)量偏移生成誘餌庫,合并搜索并進(jìn)行可信度評估。
2014年Rost等[28]發(fā)表了第一款全自動流程的DⅠA 譜庫搜索軟件OpenSWATH,鑒定流程分為數(shù)據(jù)轉(zhuǎn)換、保留時(shí)間校正、色譜曲線提取、譜峰組打分、統(tǒng)計(jì)分析5個(gè)部分。OpenSWATH 引入索引保留時(shí)間(indexed retention time,iRT)進(jìn)行保留時(shí)間校正,對每個(gè)標(biāo)準(zhǔn)肽段搜索其在質(zhì)譜數(shù)據(jù)所有保留時(shí)間范圍內(nèi)的最佳譜峰組,將最佳峰組的保留時(shí)間與相應(yīng)iRT值進(jìn)行擬合,通過擬合函數(shù)對剩余譜庫的保留時(shí)間進(jìn)行校正。然后OpenSWATH對提取到的譜峰組進(jìn)行打分,考慮色譜曲線、譜庫與實(shí)際譜圖相關(guān)性和色譜曲線峰值處的肽譜匹配打分等多項(xiàng)特征。 由于OpenSWATH 便捷的特點(diǎn),QuantPipe[72]和 DⅠAProteomics[73]移植了OpenSWATH 并結(jié)合質(zhì)控算法PyProphet[30]實(shí)現(xiàn)了完整的鑒定流程, GproDⅠA 也通過調(diào)用OpenSWATH 來幫助實(shí)現(xiàn)糖肽的鑒定[74]。MacCoss團(tuán)隊(duì)[75]提出的Skyline近期版本也支持了對DⅠA數(shù)據(jù)的譜庫搜索, 通過色譜曲線檢測算法CRAWDAD[76]識別譜峰范圍,進(jìn)行肽段鑒定。
2015年Johan Teleman 等[30]提出了DⅠANA 算法,對譜庫中每個(gè)肽段計(jì)算母離子、碎片離子之間的馬爾科夫比值概率和Pearson 相關(guān)系數(shù),并作為特征使用PyProphet進(jìn)行重排序。DⅠANA通過比較譜庫中譜峰和DⅠA 譜圖提取譜峰強(qiáng)度的一致性來識別干擾碎片離子,并根據(jù)譜庫母離子、碎片離子強(qiáng)度比值一致性對其色譜曲線的面積進(jìn)行校正。同年Keller等[31]提出了SWATHProphet,其鑒定流程主要包括保留時(shí)間校正和譜峰組打分。SWATHProphet 提出了兩種方法篩選干擾碎片離子,第一種方法通過計(jì)算相近保留時(shí)間內(nèi)肽段的共碎裂情況來識別譜庫中其他肽段的干擾碎片離子,第二種方法根據(jù)譜庫中碎片離子相對強(qiáng)度計(jì)算肽段各碎片離子色譜曲線的相關(guān)性來篩選譜庫外的肽段或噪聲的干擾離子。
2018年MacCoss等[32]發(fā)表的EncyclopeDⅠA軟件提出了構(gòu)建色譜庫進(jìn)行靶向分析的方法。EncyclopeDⅠA 通過DDA 搜索軟件或者Walnut(對PECAN[39]進(jìn)行重寫的方法)搜索多次GPF采樣的DⅠA數(shù)據(jù),對得到的鑒定結(jié)果生成較譜庫多了碎片離子色譜信息的色譜庫。EncyclopeDⅠA 使用X!Tandem 的加權(quán)點(diǎn)積公式對肽段保留時(shí)間點(diǎn)上的譜圖和色譜庫進(jìn)行打分,計(jì)算保留時(shí)間上最高分對應(yīng)的時(shí)間點(diǎn)的譜圖匹配打分、碎片離子準(zhǔn)確度打分和母離子準(zhǔn)確度打分等15個(gè)輔助匹配特征進(jìn)行最終肽段鑒定。新版本EncyclopeDⅠA 也支持了使用Prosit算法直接預(yù)測生成譜庫。
2019年Vadim Demichev 等[33]提出了DⅠA-NN軟件,通過深度神經(jīng)網(wǎng)絡(luò)進(jìn)行肽段鑒定,實(shí)現(xiàn)對DⅠA數(shù)據(jù)的高通量蛋白質(zhì)覆蓋。DⅠA-NN支持DDA建庫和Prosit 算法預(yù)測建庫。DⅠA-NN 對每個(gè)肽段結(jié)果靶向獲取譜峰組,對每個(gè)譜峰組,依據(jù)前6個(gè)最高強(qiáng)度碎片離子的色譜曲線相似度,找到代表肽段整體色譜曲線變化情況的最優(yōu)碎片離子,并據(jù)其計(jì)算得到73 維特征分別用于最優(yōu)譜峰組的選擇和肽段最終打分。新版的DⅠA-NN(1.8 版本)通過修改打分細(xì)節(jié)和添加新的特征,還支持了對DⅠAPASEF[77]和Scanning SWATH[26]數(shù)據(jù)的分析。
2020年Guan等[34]提出了DDⅠA,其分析流程包括DDA 鑒定、校準(zhǔn)保留時(shí)間曲線、訓(xùn)練DⅠA 提取分類器和DⅠA 數(shù)據(jù)提取4個(gè)部分。首先,使用MSGF+軟件對DDA掃描采集的二級譜圖進(jìn)行肽段鑒定,利用肽段鑒定結(jié)果進(jìn)行保留時(shí)間的校準(zhǔn)和DⅠA 提取分類器的訓(xùn)練,并使用Skyline 實(shí)現(xiàn)DⅠA掃描的肽段鑒定。利用肽段在DDA 和DⅠA 掃描中具有相同保留時(shí)間的原理,對DDA 掃描鑒定到的保留時(shí)間和深度學(xué)習(xí)預(yù)測的保留時(shí)間進(jìn)行校正,獲得校準(zhǔn)曲線并對譜庫所有結(jié)果的保留時(shí)間完成校正,實(shí)現(xiàn)后續(xù)譜庫搜索。
2021年P(guān)avel Sinitcyn 等[35]提出了MaxDⅠA 軟件,MaxDⅠA 軟件支持DDA 建庫(MaxQuant 搜索)和深度學(xué)習(xí)預(yù)測譜庫(基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的DeepMass:Prism算法[78])兩種方法,通過多次迭代搜索優(yōu)化肽段鑒定結(jié)果。MaxDⅠA首先按照預(yù)設(shè)置的母離子、碎片離子質(zhì)量誤差去譜庫記錄的一定保留時(shí)間范圍內(nèi)進(jìn)行搜索,根據(jù)搜索結(jié)果建立線性保留時(shí)間校正函數(shù)和母離子、碎片離子校正函數(shù),限制其搜索空間并進(jìn)行迭代搜索。MaxDⅠA實(shí)現(xiàn)了深度蛋白質(zhì)組覆蓋,并通過將MaxDⅠA與兩項(xiàng)新技術(shù)(BoxCar采集和TⅠMS技術(shù))相結(jié)合,實(shí)現(xiàn)了對蛋白質(zhì)組的深度與精確定量。
2021年韓家淮和俞容山團(tuán)隊(duì)[36]提出了基于深度學(xué)習(xí)的鑒定軟件DreamDⅠA。不同于其他DⅠA軟件使用啟發(fā)性特征,DreamDⅠA 使用預(yù)訓(xùn)練LSTM模型對多種離子的色譜曲線提取高維特征,實(shí)現(xiàn)肽段鑒定。DreamDⅠA首先隨機(jī)選取部分譜庫結(jié)果進(jìn)行保留時(shí)間歸一化,通過LSTM模型對肽段結(jié)果進(jìn)行全局保留時(shí)間范圍的遍歷打分,確定最佳保留時(shí)間并和譜庫的保留時(shí)間進(jìn)行擬合,從而預(yù)測剩余肽段的保留時(shí)間。然后,DreamDⅠA對所有結(jié)果提取基于譜庫碎片離子、母離子、未碎裂母離子和對應(yīng)的同位素峰等共170個(gè)多種離子類別的色譜曲線矩陣,結(jié)合LSTM模型和全連接網(wǎng)絡(luò)進(jìn)行打分,得到最優(yōu)匹配結(jié)果。
2.2.3 基于二級譜圖匹配的方法
基于二級譜圖匹配的方法將二級譜圖視為多個(gè)肽段共碎裂生成的混合譜圖,以譜圖為中心進(jìn)行譜庫搜索。2015年Wang 等[79]提出了MSPLⅠT-DⅠA,根據(jù)二級譜圖的母離子質(zhì)量誤差篩選候選譜庫,對每個(gè)譜庫結(jié)果獲取各譜峰在二級譜圖中質(zhì)量誤差(50 ppm)范圍內(nèi)的最高譜峰,并計(jì)算和二級譜圖的余弦相似度打分。為了避免多個(gè)干擾碎片離子造成錯(cuò)誤匹配,MSPLⅠT-DⅠA 對相似度大于0.7 的譜庫只保留一個(gè)打分最高的結(jié)果,對匹配的碎片離子提取色譜曲線進(jìn)行相似度打分。MSPLⅠT-DⅠA還支持對譜庫進(jìn)行保留時(shí)間校正來提高鑒定率。2018年P(guān)eckner 等[43]提出了Specter 軟件,該方法假設(shè)二級譜圖由母離子共碎裂的碎片離子線性疊加生成,根據(jù)譜庫中記錄的碎片離子相對強(qiáng)度信息,利用非負(fù)最小二乘法將二級譜圖拆分成譜庫中多個(gè)肽段的線性組合,得到肽段結(jié)果對應(yīng)的加權(quán)系數(shù)。MSPLⅠT-DⅠA利用拆分后的碎片離子進(jìn)行定量,在一定程度上去除了碎片離子干擾。
綜上所述,譜庫搜索方法特別是以肽段為中心的靶向數(shù)據(jù)提取方法沒有直接對DⅠA混合二級譜圖進(jìn)行解析,而是根據(jù)譜庫的保留時(shí)間和碎片離子相對強(qiáng)度信息進(jìn)行靶向數(shù)據(jù)提取,避免了二級譜圖共洗脫肽段之間的干擾情況,提高了鑒定靈敏度,同時(shí)有更好的定量精度。譜庫搜索方法較蛋白質(zhì)序列庫搜索方法具有更高的靈敏度[80]和數(shù)據(jù)重現(xiàn)性[81],對應(yīng)的搜索速度也更快,部分原因是譜庫的搜索空間較蛋白質(zhì)序列庫的搜索空間更小。理論上,常用譜庫的肽段數(shù)目少于蛋白質(zhì)序列庫理論酶切后的肽段數(shù)目,極限條件下使用深度學(xué)習(xí)預(yù)測蛋白質(zhì)序列庫得到譜庫的規(guī)模和蛋白質(zhì)序列庫相當(dāng)。
譜庫搜索方法也存在一些不足和優(yōu)化方向。首先,該方法對譜庫的完備性和正確性有較高要求。一方面,重復(fù)采集DDA 數(shù)據(jù)的譜庫生成方法具有高靈敏度,但其肽譜匹配數(shù)目也受限于DDA 鑒定結(jié)果,難以將低豐度肽段鑒定出來并放到譜庫。另一方面,基于深度學(xué)習(xí)的預(yù)測建庫方法雖然增加了譜庫中的肽譜匹配數(shù)目,但也增加了隨機(jī)匹配概率,同時(shí)在不同儀器和物種上的靈敏度仍需進(jìn)一步提高。其次,該方法目前沒有考慮開放式搜索[82],直接對母離子隔離窗口內(nèi)的二級譜圖進(jìn)行匹配,無法實(shí)現(xiàn)對意外修飾肽段的鑒定。結(jié)合譜庫信息和開放式搜索技術(shù),能夠在提高DⅠA數(shù)據(jù)解析率的同時(shí)對蛋白質(zhì)樣品的生物意義進(jìn)行更深刻地挖掘,利用譜庫進(jìn)行DⅠA數(shù)據(jù)的開放式搜索是實(shí)現(xiàn)譜圖深度解析的一個(gè)發(fā)展方向。
蛋白質(zhì)序列庫直接搜索方法無需事先構(gòu)建譜庫或拆分混合二級譜圖,和傳統(tǒng)DDA 搜索類似,首先將序列庫內(nèi)蛋白質(zhì)理論酶切生成肽段,而后直接對肽段理論二級譜圖和DⅠA實(shí)驗(yàn)二級譜圖進(jìn)行匹配(圖3b)。根據(jù)搜索策略的不同,該方法可分為以譜圖為中心策略和以肽段為中心策略。表3列舉了該方法常用的軟件及相關(guān)信息。
2.3.1 以譜圖為中心的搜索策略
以譜圖為中心的搜索策略對DⅠA二級譜圖直接解析,即利用傳統(tǒng)DDA 軟件的肽譜匹配打分計(jì)算二級譜圖對應(yīng)的多個(gè)肽段。
在早期,人們嘗試?yán)脗鹘y(tǒng)的DDA 搜索策略直接解析DⅠA數(shù)據(jù)。Venable等[14]在原始DⅠA數(shù)據(jù)中使用SEQUEST 軟件[83]對10 u 大小隔離窗口的二級譜圖進(jìn)行單肽鑒定。Li 等[24]在RTwinDⅠA 數(shù)據(jù)中使用pFind 對5 u 大小隔離窗口的二級譜圖進(jìn)行搜索。隨著儀器采集效率的提高,使用DDA 軟件直接鑒定小窗口DⅠA數(shù)據(jù)逐漸變成可能。
DDA 軟件通常需要指定母離子質(zhì)荷比,擴(kuò)大候選母離子范圍搜索DⅠA數(shù)據(jù)的方法容易導(dǎo)致更多假陽性結(jié)果,為此,一些方法通過指定二級譜圖的母離子質(zhì)荷比進(jìn)行譜圖解析。2006年Venable等[84]在計(jì)算二級譜圖對應(yīng)母離子質(zhì)荷比的方法中提到該方法能用于DⅠA數(shù)據(jù)解析。Aebersold團(tuán)隊(duì)[85]提出的ProbⅠDtree 用于解決DDA 數(shù)據(jù)的混合譜圖鑒定問題,通過迭代剪枝去除二級譜圖已匹配的譜峰實(shí)現(xiàn)肽段鑒定,具有解析DⅠA數(shù)據(jù)的潛力。
一級譜圖上母離子信號干擾和較大隔離窗口范圍阻礙了以譜圖為中心的搜索方法,為此提出了直接對二級譜圖進(jìn)行肽段鑒定的方法。2021年Lu等[37]提出了DⅠAmeter軟件,利用二分圖進(jìn)行肽譜匹配和候選肽段的過濾。DⅠAmeter 將二級譜圖集合和模擬酶切肽段集合視作二分圖中兩個(gè)互不相交的子集,將肽譜匹配表示為兩個(gè)節(jié)點(diǎn)的邊。首先,DⅠAmeter使用XCorr打分函數(shù)對每張二級譜圖和隔離窗口內(nèi)1~5電荷的母離子打分并初步篩選得到候選母離子,然后對每條邊計(jì)算包括修正XCorr 打分[86]、母離子強(qiáng)度、碎片離子匹配打分、預(yù)測保留時(shí)間差值以及母離子和碎片離子色譜曲線相關(guān)性共5個(gè)特征,對特征線性組合打分用于進(jìn)一步母離子篩選,通過不斷對二分圖進(jìn)行邊的插入和刪除實(shí)現(xiàn)肽段的鑒定。
該策略提供了直接鑒定低豐度肽段和未知修飾肽段的可能,但是來自不同肽段的碎片離子和大量干擾碎片離子會對肽譜匹配打分造成影響,一定程度上降低了鑒定結(jié)果的可信度。如何更精確地確定肽段質(zhì)荷比,設(shè)計(jì)更有效的結(jié)合保留時(shí)間維度信息和單張譜圖匹配信息的打分是提高鑒定靈敏度的優(yōu)化方向。
Table 3 Commonly used software tools for protein database search method表3 常用蛋白質(zhì)序列庫直接搜索方法軟件相關(guān)信息
2.3.2 以肽段為中心的搜索策略
另一種以肽段為中心的搜索策略,不是為每張二級譜圖分配一個(gè)或多個(gè)最優(yōu)的肽段,而是將肽段和多個(gè)二級譜圖做點(diǎn)積運(yùn)算并結(jié)合啟發(fā)式搜索進(jìn)行打分,報(bào)告每個(gè)肽段對應(yīng)的最佳匹配結(jié)果。該策略避免了對二級譜圖的多個(gè)母離子進(jìn)行拆分[87]。
2012年Weisbrod等[38]提出了針對大窗口數(shù)據(jù)的解析算法FT-ARM。FT-ARM 用于100 u 的大隔離窗口數(shù)據(jù),考慮肽段2+和3+電荷的母離子并通過SSRCalc算法預(yù)測肽段保留時(shí)間。對保留時(shí)間范圍的二級譜圖序列,依次計(jì)算理論譜圖和實(shí)際譜圖的點(diǎn)積得到肽段在保留時(shí)間范圍上的打分列表,并將打分除以譜圖上碎片離子個(gè)數(shù)來提高信噪比。FT-ARM不依賴一級譜圖的母離子信息,能夠鑒定到一級譜圖中沒有信號強(qiáng)度的肽段。
2016年MacCoss 團(tuán)隊(duì)[39]根據(jù)FT-ARM 的思想提出PECAN,通過引入背景數(shù)據(jù)庫幫助進(jìn)行肽段鑒定。對每條感興趣肽段,PECAN 使用背景數(shù)據(jù)庫的碎片離子頻率倒數(shù)作為碎片離子譜峰權(quán)重,生成肽段的理論譜圖。然后,PECAN 對理論譜圖向量和提取的碎片離子色譜曲線矩陣進(jìn)行打分,通過減去誘餌背景數(shù)據(jù)庫的平均打分去除干擾,得到打分向量并報(bào)告最優(yōu)的打分和保留時(shí)間。此外,PECAN 還可以直接通過小隔離窗口DⅠA 數(shù)據(jù)生成譜庫,用于后續(xù)大窗口數(shù)據(jù)的分析。
以肽段為中心的搜索策略利用了碎片離子在二級譜圖上連續(xù)的特點(diǎn),對肽段在色譜保留時(shí)間上的連續(xù)多個(gè)打分進(jìn)行匹配,提高了鑒定靈敏度。但該策略對每張二級譜圖和肽段打分的方式增加了計(jì)算復(fù)雜度,同時(shí)點(diǎn)積打分沒有考慮相對離子強(qiáng)度和碎片離子干擾問題,其鑒定靈敏度不如譜庫搜索方法。
偽二級譜圖方法不直接解析DⅠA 原始二級譜圖,而是利用譜圖拆分算法將二級譜圖進(jìn)行拆分得到多張包含單個(gè)肽段碎片離子的偽二級譜圖,再結(jié)合傳統(tǒng)DDA軟件搜索偽二級譜圖(表4)。該方法通過對二級譜圖進(jìn)行預(yù)處理,重建母離子和碎片離子的對應(yīng)關(guān)系,降低了譜圖復(fù)雜度和譜圖解析難度(圖3c)。本節(jié)介紹常用的偽二級譜圖鑒定軟件。
2009年Bern等[40]提出了基于碎片離子色譜矩陣聚類的DeMux 軟件。DeMux 首先對各隔離窗口采集的1 440 張二級譜圖集合向量化得到1 440×1 200(質(zhì)荷比范圍0~1 200)的碎片離子色譜矩陣,并按保留時(shí)間劃分得到多個(gè)100×1 200的小矩陣。然后對小矩陣按列強(qiáng)度排序,根據(jù)相似度按列聚類得到多個(gè)肽段對應(yīng)的碎片離子色譜曲線簇c,對每個(gè)肽段對應(yīng)的特征c按列求和得到色譜曲線Elute(c)以及按行篩選各列碎片離子生成偽二級譜Synth(c)。最后,使用Byonic 對偽二級譜圖進(jìn)行肽段鑒定,使用得到的色譜曲線分別計(jì)算強(qiáng)度。
2015年Tsou 等[41]提出基于母離子-碎片離子共洗脫進(jìn)行二級譜圖拆分的方法DⅠA-Umpire。DⅠA-Umpire 獲取一級譜圖上母離子、二級譜圖上未碎裂母離子和碎片離子的色譜曲線,根據(jù)皮爾遜相關(guān)系數(shù)和保留時(shí)間差值計(jì)算母離子-碎片離子的匹配情況。對匹配到的母離子和碎片離子峰簇,輸出互補(bǔ)碎片離子和滿足一定相關(guān)系數(shù)、保留時(shí)間差值的碎片離子,最終生成偽二級譜圖。DⅠAUmpire 可以使用X! Tandem[88]、Comet[89]和MSGF+[90]搜索軟件對偽二級譜圖進(jìn)行序列庫搜索。
同年韓家淮團(tuán)隊(duì)[42]提出了Group-DⅠA 軟件,利用肽段在多個(gè)數(shù)據(jù)中色譜曲線的一致性來確定母離子-碎片離子對。Group-DⅠA 首先利用保留時(shí)間校正算法ChromAlign[91]對齊多個(gè)數(shù)據(jù)的肽段保留時(shí)間,通過肽段的母離子-碎片離子在多個(gè)數(shù)據(jù)中的相對強(qiáng)度分布一致性的假設(shè),合并肽段在多個(gè)數(shù)據(jù)中的母離子和碎片離子色譜曲線,比較其在所有數(shù)據(jù)之間的相關(guān)性并篩除不屬于該肽段的碎片離子。Group-DⅠA 通過傳統(tǒng)DDA 序列庫搜索軟件如Mascot 實(shí)現(xiàn)肽段鑒定,在多數(shù)據(jù)分析中相較DⅠAUmpire 鑒定到更多的肽段數(shù)目和更多的低豐度肽段。
Table 4 Commonly used software tools for pseudo-MS/MS spectra identification method表4 常用偽二級譜圖鑒定方法軟件相關(guān)信息
2020年Tada等[44]提出了利用反卷積方法的代謝組DⅠA 分析工具CorrDec,基于母離子和碎片離子之間的譜峰強(qiáng)度在多個(gè)數(shù)據(jù)之間一致性的假設(shè)拆分二級譜圖。CorrDec 以二級譜圖為單位對多個(gè)數(shù)據(jù)的相應(yīng)二級譜圖去卷積,通過相似度計(jì)算實(shí)現(xiàn)對二級譜圖譜峰的母離子分配,得到所有碎片離子對每個(gè)母離子的相似度打分,然后利用打分標(biāo)準(zhǔn)去除噪聲和干擾碎片離子,生成偽二級譜圖。該方法目前已被整合到代謝組分析平臺MS-DⅠAL[92]。
偽二級譜圖方法主要利用色譜曲線一致性來生成偽二級譜圖,并利用DDA 軟件進(jìn)行搜索,能夠?qū)ⅠA數(shù)據(jù)進(jìn)行深層解析如開放式搜索。不過該方法也有局限性,如DⅠA-Umpire 無法拆分沒有母離子信號的肽段。而且,受限于二級譜圖的離子干擾、離子抑制情況和譜圖拆分算法,偽二級譜圖方法拆分得到的二級譜圖數(shù)目偏少,導(dǎo)致其鑒定數(shù)目較譜庫搜索方法較少。未來,結(jié)合深度學(xué)習(xí)算法識別母離子、碎片離子色譜曲線的高維表征,并利用4D-DⅠA 數(shù)據(jù)提供的更高的母離子選擇性,能夠進(jìn)一步提高二級譜圖拆分能力。
上述3種方法利用譜庫或蛋白質(zhì)序列庫對DⅠA數(shù)據(jù)進(jìn)行解析,其報(bào)告的肽段結(jié)果局限在所用的數(shù)據(jù)庫中。從頭測序方法不對肽段序列做任何限制,直接依靠二級譜圖推斷肽段序列。DⅠA數(shù)據(jù)包含碎片離子在保留時(shí)間維度上的信息,可以通過對多張連續(xù)二級譜圖的匹配進(jìn)行肽段鑒定。目前,DⅠA數(shù)據(jù)從頭測序使用的方法主要是深度學(xué)習(xí)預(yù)測方法。
2019年Tran 等[45]發(fā)表了DeepNovo-DⅠA 方法,通過DⅠA-Umpire 利用色譜曲線一致性檢測母離子和碎片離子特征,從DⅠA 數(shù)據(jù)中提取肽段保留時(shí)間范圍內(nèi)的多張偽二級譜圖,再利用卷積網(wǎng)絡(luò)和LSTM模型捕捉三維數(shù)據(jù)之間的相關(guān)性并考慮肽段序列模式,實(shí)現(xiàn)從頭測序(圖3d)。值得注意的是,DeepNovo-DⅠA 通過打分閾值過濾測序結(jié)果,沒有對結(jié)果進(jìn)行可信度評估。
DeepNovo-DⅠA 具有鑒定到未知物種肽序列的優(yōu)點(diǎn),但是因其需要進(jìn)行譜圖拆分,損失了肽段在原始二級譜圖中的部分譜峰,同時(shí)沒有可信度評估,鑒定結(jié)果靈敏度和精確度不如譜庫搜索方法。未來,直接對DⅠA 原始二級譜圖使用深度學(xué)習(xí)實(shí)現(xiàn)從頭測序,并考慮對結(jié)果進(jìn)行可靠性評估,將加速推動DⅠA從頭測序方法的實(shí)用化。
不管是DDA 數(shù)據(jù)分析還是DⅠA 數(shù)據(jù)分析,由于搜索軟件在肽譜匹配過程中可能出現(xiàn)錯(cuò)誤匹配(又稱隨機(jī)匹配),同時(shí)缺少對肽譜匹配的可信度評估,所以不能直接將軟件報(bào)告的所有結(jié)果用于后續(xù)蛋白質(zhì)推斷和定量分析,需要根據(jù)可信度水平對肽段鑒定結(jié)果進(jìn)行重排序,并對報(bào)告的肽譜匹配集合進(jìn)行假發(fā)現(xiàn)率估計(jì)。DⅠA肽段鑒定結(jié)果重排序與假發(fā)現(xiàn)率估計(jì)的原理與DDA 基本相同,只是在具體的實(shí)現(xiàn)細(xì)節(jié)上有所不同。
由于各DⅠA 數(shù)據(jù)解析方法的搜索策略和打分方式不同,各方法所用的DⅠA 重排序算法也有所不同,本節(jié)對各DⅠA 數(shù)據(jù)解析方法使用的DⅠA 重排序算法進(jìn)行介紹。
3.1.1 從頭測序方法的重排序
現(xiàn)有的從頭測序方法由于沒有已知的蛋白質(zhì)數(shù)據(jù)庫或譜庫,沒有構(gòu)建誘餌結(jié)果,直接使用經(jīng)驗(yàn)打分閾值過濾出正確結(jié)果,無法對鑒定結(jié)果進(jìn)行可信度評估和重排序。
3.1.2 偽二級譜圖鑒定方法的重排序
偽二級譜圖鑒定方法的重排序算法一般由搜索過程中使用的DDA 軟件實(shí)現(xiàn)。Percolator 是DDA軟件最廣泛使用的重排序算法[93]。該算法將重排序看成一個(gè)二分類問題,即區(qū)分正確肽譜匹配(正例)和錯(cuò)誤肽譜匹配(負(fù)例)。正負(fù)例的選擇通過構(gòu)建誘餌庫實(shí)現(xiàn),通常使用誘餌庫的匹配結(jié)果作為負(fù)例。該算法對每個(gè)肽譜匹配計(jì)算20維特征向量,然后進(jìn)行多次迭代學(xué)習(xí),每次迭代過程選擇對應(yīng)目標(biāo)庫的高可信肽譜匹配作為正例,選擇對應(yīng)誘餌庫的肽譜匹配作為負(fù)例,訓(xùn)練支持向量機(jī)(support vector machines,SVM)模型。通過訓(xùn)練好的模型對所有肽譜匹配進(jìn)行重打分,得分高的為正例,得分低的為負(fù)例。
3.1.3 蛋白質(zhì)序列庫直接搜索方法的重排序
蛋白質(zhì)序列庫直接搜索方法的重排序算法與其使用的搜索策略相關(guān)。以譜圖為中心的搜索策略使用DDA 軟件實(shí)現(xiàn)肽譜匹配,對應(yīng)的重排序算法也通過DDA 搜索軟件內(nèi)置的重排序算法實(shí)現(xiàn),選取的特征主要根據(jù)單張二級譜圖匹配信息計(jì)算得到,如肽譜匹配打分、母離子質(zhì)量誤差、碎片離子質(zhì)量誤差等,最后結(jié)合機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)重排序。以肽段為中心的搜索策略將肽段和保留時(shí)間范圍內(nèi)的多張二級譜圖進(jìn)行匹配,對應(yīng)的重排序算法不只考慮單張譜圖,而是考慮一條肽段對應(yīng)的相近保留時(shí)間范圍內(nèi)的所有譜圖的匹配,即以肽段為單位進(jìn)行重排序。如PECAN 對匹配結(jié)果中目標(biāo)庫和誘餌庫的所有肽段提取特征,提取的特征既包括母離子同位素峰簇相似度、母離子質(zhì)量誤差等單張二級譜圖的打分,也包括肽段保留時(shí)間范圍內(nèi)的肽譜匹配打分平均值、碎片離子質(zhì)量誤差等,而后使用Percolator算法進(jìn)行重排序。
3.1.4 譜庫搜索方法的重排序
譜庫搜索方法在構(gòu)建譜庫的過程中通常會引入錯(cuò)誤的結(jié)果,如DDA 軟件報(bào)告的、公開譜庫中存在的、深度學(xué)習(xí)預(yù)測的各種錯(cuò)誤結(jié)果。不同大小的譜庫中含有錯(cuò)誤數(shù)目不同,一般來說更大的譜庫所含錯(cuò)誤數(shù)目更多,因此需要更嚴(yán)格的可信度評估。目前常用的重排序算法有mProphet、PyProphet、Percolator,此外還有 DⅠA-NN、 MaxDⅠA 和DreamDⅠA等軟件內(nèi)置的重排序算法。
mProphet 對目標(biāo)庫和誘餌庫匹配結(jié)果計(jì)算多維特征,使用基于線性判別分析(LDA)的半監(jiān)督學(xué)習(xí)方法進(jìn)行二分類訓(xùn)練,得到各個(gè)子特征的權(quán)重并對每個(gè)譜峰組線性計(jì)算得到判別打分。PyProphet 在mProphet 的基礎(chǔ)上進(jìn)行了重寫并在半監(jiān)督學(xué)習(xí)和FDR 估計(jì)方面進(jìn)行了改進(jìn),有更多可選擇的機(jī)器學(xué)習(xí)模型(如SVM、SGD 和XGBoost以及LDA)。在交叉驗(yàn)證方面,PyProphet使用所有數(shù)據(jù)集用于訓(xùn)練,替換了隨機(jī)選取一半數(shù)據(jù)集分別用于訓(xùn)練和驗(yàn)證的方法。
EncyclopeDⅠA 利用Percolator 實(shí)現(xiàn)了重排序算法。對每個(gè)肽段結(jié)果在打分最高點(diǎn)計(jì)算二級譜圖總體匹配打分、母離子和碎片離子準(zhǔn)確度打分以及保留時(shí)間準(zhǔn)確性打分共15個(gè)輔助匹配特征,通過半監(jiān)督SVM 模型Percolator 進(jìn)行重排序。Percolator 3將目標(biāo)庫和誘餌庫結(jié)果隨機(jī)分成3個(gè)子集,為每個(gè)分類器選擇兩份進(jìn)行訓(xùn)練,剩余1份用于驗(yàn)證。通過交叉驗(yàn)證總共訓(xùn)練3個(gè)SVM 分類器,并用分類器的平均值作為最終打分。Percolator 3通過下采樣和交叉驗(yàn)證,減輕了過擬合的影響,同時(shí)提高了在大數(shù)據(jù)集上的運(yùn)行速度。
DⅠA-NN首次通過神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)了DⅠA重排序。該方法對肽段結(jié)果依據(jù)最優(yōu)碎片離子分別計(jì)算基于母離子、碎片離子及其同位素離子的共洗脫曲線以及譜峰組其余譜峰的相似度等共73 維打分特征。DⅠA-NN搭建了5層隱藏層并使用Tanh函數(shù)作為激活函數(shù),輸出層使用Softmax函數(shù)輸出分類概率和交叉熵?fù)p失函數(shù),通過輸入歸一化的73 維特征進(jìn)行學(xué)習(xí)。整個(gè)模型由73×25×20×15×10×5×1的神經(jīng)網(wǎng)絡(luò)組成,共有273.75 萬個(gè)神經(jīng)元。DⅠANN 使用來自目標(biāo)庫和誘餌庫的所有鑒定結(jié)果作為訓(xùn)練集進(jìn)行有監(jiān)督學(xué)習(xí),通過多個(gè)不同初始化參數(shù)的網(wǎng)絡(luò)實(shí)現(xiàn)集成學(xué)習(xí)。
DDⅠA的重排序算法利用DDA掃描中的鑒定結(jié)果來劃分訓(xùn)練集,將DDA 掃描鑒定到的肽段作為參考序列,去DⅠA數(shù)據(jù)中進(jìn)行正負(fù)例數(shù)據(jù)提取并訓(xùn)練分類器,用于譜庫中剩余肽段的分類。對校準(zhǔn)后的譜庫結(jié)果進(jìn)行靶向數(shù)據(jù)提取,并使用分類器判斷得到最終肽段鑒定結(jié)果。
MaxDⅠA軟件使用XGBoost機(jī)器學(xué)習(xí)算法進(jìn)行重排序。對于每個(gè)肽段結(jié)果,MaxDⅠA提取了匹配結(jié)果的碎片離子相關(guān)性、保留時(shí)間誤差、是否存在母離子同位素峰簇和基于碎片離子信息計(jì)算的打分、碎片離子質(zhì)量誤差、是否存在碎片離子同位素峰簇等60 維特征,輸入到XGBoost 模型中進(jìn)行訓(xùn)練。為了消除模型過度擬合的風(fēng)險(xiǎn),作者使用5折交叉驗(yàn)證來訓(xùn)練XGBoost模型。
DreamDⅠA 軟件使用LSTM 模型將肽段在DⅠA數(shù)據(jù)中各類型的色譜曲線轉(zhuǎn)為16 維高維特征,并結(jié)合保留時(shí)間差值、譜庫和實(shí)際碎片離子強(qiáng)度相關(guān)性以及肽段的長度、電荷和質(zhì)荷比等啟發(fā)式特征構(gòu)建非線性判別模型。在半監(jiān)督學(xué)習(xí)過程中,DreamDⅠA 采用了PU-Learning 的思想[94],選擇所有誘餌庫結(jié)果作為負(fù)例,根據(jù)目標(biāo)庫結(jié)果的打分閾值篩選正例,使用XGBoost機(jī)器學(xué)習(xí)模型進(jìn)行一次訓(xùn)練。
DⅠA重排序在特征選擇和訓(xùn)練方法上仍存在進(jìn)一步優(yōu)化空間,并且算法本身的可信度也需要進(jìn)行有效評估。目前的DⅠA重排序算法都是基于傳統(tǒng)啟發(fā)式特征或經(jīng)過表示學(xué)習(xí)得到的特征,使用線性或非線性機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練和重打分。未來使用深度學(xué)習(xí)直接基于DⅠA原始數(shù)據(jù)進(jìn)行建模是重排序的重要優(yōu)化方向。此外,誘餌庫構(gòu)建、正負(fù)例選擇和模型訓(xùn)練的差異可能會對后續(xù)分析產(chǎn)生影響,比如模型過擬合。因此,重排序算法本身的可信度仍然需要進(jìn)一步的評估。目前還未有系統(tǒng)評估DⅠA數(shù)據(jù)重排序算法可信度的方法。
肽段匹配結(jié)果重排序后,需要?jiǎng)澏ㄒ粋€(gè)閾值,將滿足閾值條件的結(jié)果集合報(bào)告給用戶,并對該集合的可信度進(jìn)行量化評估。目前廣泛使用的可信度評價(jià)指標(biāo)是FDR,本節(jié)先介紹FDR 的定義,然后總結(jié)常見的FDR 的計(jì)算過程,最后對FDR 在DⅠA方法中現(xiàn)存的問題進(jìn)行討論。
FDR 在蛋白質(zhì)組學(xué)中表示為隨機(jī)匹配結(jié)果占所有匹配結(jié)果比例的期望, 即FDR(x) =E[Nv(x)/Nr(x)](x為打分閾值,Nv(x)為打分大于等于x的錯(cuò)誤匹配結(jié)果數(shù)目,Nr(x)為打分大于等于x的匹配結(jié)果數(shù)目)。
由于無法確認(rèn)肽譜匹配集合中的錯(cuò)誤匹配結(jié)果,不能直接計(jì)算得到錯(cuò)誤匹配結(jié)果數(shù)目Nv(x)。Gygi等[46]假設(shè)來自誘餌庫的肽譜匹配數(shù)目和來自目標(biāo)庫的錯(cuò)誤匹配數(shù)目是近似相等的,通過構(gòu)建合理的誘餌庫來估計(jì)Nv(x)。為了估計(jì)FDR,利用誘餌庫匹配結(jié)果估計(jì)目標(biāo)庫的錯(cuò)誤的打分分布或數(shù)目,分別提出了基于誘餌庫匹配結(jié)果打分分布估計(jì)FDR 的方法和基于誘餌庫匹配結(jié)果數(shù)目估計(jì)FDR的方法。mProphet、PyProphet 等軟件通過誘餌庫匹配結(jié)果打分分布估計(jì)FDR,并使用譜庫中包含的在特定樣本中無法檢測到肽段的比例π0[62]來控制FDR 的變化,π0值較大表明需要對數(shù)據(jù)進(jìn)行更嚴(yán)格的質(zhì)量控制。mProphet、PyProphet 使用對應(yīng)誘餌庫結(jié)果的打分分布擬合錯(cuò)誤結(jié)果的打分分布,然后基于該分布對目標(biāo)庫結(jié)果計(jì)算P值,并通過BH算法估計(jì)FDR。mProphet和PyProphet計(jì)算q值時(shí)在原有BH算法基礎(chǔ)上乘以系數(shù)π0,來控制不同錯(cuò)誤率數(shù)據(jù)集的FDR 大小,具有較大π0的數(shù)據(jù)會相應(yīng)得到更嚴(yán)格的FDR控制。DⅠA-NN等軟件使用誘餌庫匹配結(jié)果數(shù)目估計(jì)FDR,即使用對應(yīng)誘餌庫匹配的結(jié)果數(shù)目來估計(jì)錯(cuò)誤匹配的結(jié)果數(shù)目Nv(x),此時(shí)FDR 的計(jì)算公式就變?yōu)镕DR(x) ≈Nd(x)/Nr(x)(x為打分閾值,Nd(x)為來自誘餌庫的打分大于等于x的匹配結(jié)果數(shù)目,Nr(x)為來自目標(biāo)庫的打分大于等于x的匹配結(jié)果數(shù)目)。
FDR 作為DDA 方法常用的可信度評估指標(biāo),在DⅠA 方法中的有效性仍缺少系統(tǒng)評估。FDR 的準(zhǔn)確性與誘餌庫的構(gòu)建方式相關(guān),目前DⅠA 構(gòu)建誘餌庫的方式和DDA 類似,根據(jù)目標(biāo)庫的肽段序列進(jìn)行修改。常用的誘餌庫構(gòu)建方式有序列隨機(jī)打亂(shuffle)、序列反轉(zhuǎn)(reverse)、序列偽反轉(zhuǎn)(pseudo-reverse)、質(zhì)量偏移(shift)、德·布魯因圖構(gòu)建(de Bruijn)等[28,33,95]。由于DⅠA 方法與DDA 方法在數(shù)據(jù)和解析方法上存在的差異,相同的目標(biāo)-誘餌庫集合經(jīng)過肽段匹配可能得到不同的FDR,DDA 數(shù)據(jù)的誘餌庫構(gòu)建結(jié)論難以直接用于DⅠA數(shù)據(jù)中。此外,不同DⅠA軟件所用的誘餌庫構(gòu)建方法并不一致,導(dǎo)致各軟件實(shí)際的誘餌庫結(jié)果打分分布搜索空間的差異,一定程度上增加了軟件之間的不可比性。綜上,針對DⅠA 數(shù)據(jù)分析,還沒有FDR 估計(jì)準(zhǔn)確性的相關(guān)研究,且仍然需要探索公認(rèn)合理的誘餌庫構(gòu)建方法。
DⅠA作為近年來新興的一種數(shù)據(jù)采集技術(shù),由于其高通量、高靈敏度、高重現(xiàn)性的特點(diǎn),被廣泛用于蛋白質(zhì)組學(xué)的大規(guī)模分析[8,96-97],在磷酸化蛋白質(zhì)組學(xué)[98]和糖蛋白質(zhì)組學(xué)[74,99]等領(lǐng)域也有著廣泛的應(yīng)用。目前分析DⅠA 數(shù)據(jù)的主要挑戰(zhàn)是實(shí)現(xiàn)對含有多個(gè)母離子共碎裂信息的混合二級譜圖進(jìn)行有效可靠的解析。針對這一挑戰(zhàn),研究人員提出了多種優(yōu)化的DⅠA 采集方法和高效的數(shù)據(jù)分析策略。近年來發(fā)展的DⅠA 采集方法在增加蛋白質(zhì)覆蓋深度的同時(shí)降低了譜圖復(fù)雜度?;诓煌阉鞑呗缘腄ⅠA 數(shù)據(jù)解析方法對數(shù)據(jù)實(shí)現(xiàn)了深度解析。對于數(shù)據(jù)解析得到的肽譜匹配,對其進(jìn)行重排序和假發(fā)現(xiàn)率估計(jì),最終獲取高可信的肽譜匹配集合。DⅠA數(shù)據(jù)定量分析通過重構(gòu)碎片離子色譜曲線計(jì)算肽段強(qiáng)度(圖5),較DDA定量具有更好的定量精度。此外,DⅠA 數(shù)據(jù)具有定性定量一致性的特點(diǎn),通過對碎片離子色譜曲線進(jìn)行肽段打分,能夠?qū)?shù)據(jù)之間對齊(match between runs)的結(jié)果進(jìn)行可信度評估。DⅠA定量具有深度覆蓋、可重現(xiàn)性和定量精確性等優(yōu)點(diǎn),使用DⅠA 對大規(guī)模生物樣品進(jìn)行定量是實(shí)現(xiàn)蛋白質(zhì)深度覆蓋的發(fā)展趨勢。
Fig.5 The XIC of fragment ion was reconstructed from DIA data圖5 DIA數(shù)據(jù)重構(gòu)碎片離子色譜曲線
DⅠA方法雖然在近年來獲得了快速的發(fā)展,且在深度覆蓋方面較DDA 有更好的表現(xiàn),但是在深度解析、精準(zhǔn)鑒定和精準(zhǔn)定量3個(gè)方面仍存在不足和進(jìn)步空間。在深度解析方面,DⅠA數(shù)據(jù)理論上采集了樣品內(nèi)所有肽段的碎片離子信息,能夠通過譜圖解析實(shí)現(xiàn)蛋白質(zhì)完整肽段的鑒定。但是,對二級譜圖實(shí)現(xiàn)深度解析需要考慮意外酶切情況和對低豐度肽段、多種類型修飾和意外修飾等非常規(guī)肽段的鑒定,同時(shí)也要考慮DⅠA 數(shù)據(jù)存在的肽段共碎裂造成的離子干擾等情況。如果直接通過擴(kuò)大搜索空間搜索潛在候選肽段不僅會增加搜索的時(shí)間,也可能會影響鑒定結(jié)果可靠性。因此,如何在考慮包含更多潛在肽段搜索空間的同時(shí),設(shè)計(jì)更有效的譜圖解析算法提高非常規(guī)肽段的鑒定數(shù)目,同時(shí)能保證搜索時(shí)間在合理范圍內(nèi),是DⅠA數(shù)據(jù)實(shí)現(xiàn)深度解析目前面臨的一個(gè)主要挑戰(zhàn)。
在精準(zhǔn)鑒定方面,雖然利用TDA 方法計(jì)算FDR 的策略為DⅠA 數(shù)據(jù)分析結(jié)果的質(zhì)量控制提供了可能,但是該策略在DⅠA數(shù)據(jù)的有效性目前還沒有定論。首先,不同的誘餌庫構(gòu)建方法會對結(jié)果造成影響,如何使用和設(shè)計(jì)能更好評估結(jié)果假發(fā)現(xiàn)率的誘餌庫仍需進(jìn)一步系統(tǒng)評估。其次,肽段在DⅠA數(shù)據(jù)中是以保留時(shí)間上連續(xù)的二級譜圖序列形式呈現(xiàn)的,在實(shí)際匹配過程中可能會出現(xiàn)不同肽段匹配到大量相同譜峰的競爭情況,而傳統(tǒng)FDR 評估方法很少考慮到不同肽段鑒定結(jié)果之間的競爭情況,如何針對此類情況設(shè)計(jì)合適的質(zhì)量控制方法是未來需要研究的課題之一。最后,由于DⅠA數(shù)據(jù)采集了不同梯度的肽段,對所有結(jié)果統(tǒng)一進(jìn)行質(zhì)量控制可能是不合適的。如低豐度肽段在數(shù)據(jù)中可能受到離子干擾、離子抑制和噪聲干擾等情況,可能會造成匹配打分不高而被視作錯(cuò)誤結(jié)果排除。如何針對不同類型的肽段鑒定結(jié)果和其匹配情況設(shè)計(jì)分層次的質(zhì)量控制是未來需要研究的課題之一。
在精準(zhǔn)定量方面,DⅠA數(shù)據(jù)分析在定量缺失值和定量精度方面取得了較好的表現(xiàn),但是仍有進(jìn)一步提升空間。一方面,在通過數(shù)據(jù)之間對齊降低定量缺失值時(shí),可以考慮母離子和碎片離子色譜曲線來優(yōu)化肽段信號的匹配,同時(shí)利用該信息進(jìn)一步評估定量結(jié)果的正確性。另一方面,可以利用母離子和碎片離子色譜曲線的全面信息進(jìn)一步提高定量精度,更好地結(jié)合母離子和碎片離子各自的定量優(yōu)勢,并進(jìn)一步利用該信息去除離子干擾情況,實(shí)現(xiàn)精準(zhǔn)定量。
隨著質(zhì)譜采集的優(yōu)化和數(shù)據(jù)分析的發(fā)展,DⅠA采集技術(shù)在進(jìn)一步解決上述介紹的不足后,能夠?yàn)榈鞍踪|(zhì)組學(xué)的高通量、全覆蓋分析提供進(jìn)一步的支持,特別是在大隊(duì)列數(shù)據(jù)分析中均能獲取完整蛋白質(zhì)圖譜并解釋其潛在生命規(guī)律,推動蛋白質(zhì)組學(xué)領(lǐng)域的發(fā)展。利用DⅠA采集技術(shù),可以建立包含所有肽段和蛋白質(zhì)信息的數(shù)字化標(biāo)本庫,實(shí)現(xiàn)數(shù)以千計(jì)、萬計(jì)的樣品的蛋白質(zhì)組學(xué)深度解析以及橫向比較,并結(jié)合先進(jìn)的人工智能技術(shù),進(jìn)一步進(jìn)行深度數(shù)據(jù)挖掘,發(fā)現(xiàn)更有效的疾病標(biāo)志物,探索更深層次的分子細(xì)胞作用機(jī)制,為生命科學(xué)及人類健康研究做出重大貢獻(xiàn)。