何明敏,舒坤賢,白明澤,許睿
重慶郵電大學 生物信息學院 大數(shù)據(jù)生物智能重慶市重點實驗室,重慶 400065
蛋白質(zhì)組學是研究生物系統(tǒng)中的所有蛋白質(zhì)的科學,肽組學是研究生物體內(nèi)源性低分子量蛋白質(zhì)或多肽及其變化規(guī)律的科學?;诘鞍踪|(zhì)組學和多肽組學的質(zhì)譜分析技術(shù)在研究蛋白質(zhì)或者多肽中逐漸成熟?,F(xiàn)代質(zhì)譜儀的飛速發(fā)展使得每天能產(chǎn)生數(shù)以百萬計量的串聯(lián)質(zhì)譜數(shù)據(jù),再加上軟件算法和計算能力的發(fā)展,高通量蛋白質(zhì)組學研究得以實現(xiàn)。實際上,存儲注釋或者未注釋的質(zhì)譜以及相應(yīng)多肽及其翻譯后修飾(Post-translational modifications,PTMs)信息的數(shù)據(jù)量在成倍增長。比如蛋白質(zhì)組學相關(guān)數(shù)據(jù)庫GPMDB[1]、Uniport(http://uniprot.org)、PRIDE[2]以及一些特殊內(nèi)源性多肽數(shù)據(jù)庫 Neuropeptide(http://neuropeptides.nl/)和SwePep(www.swepep.org)[3]等。
在蛋白質(zhì)組學的鑒定中,一個比較大的挑戰(zhàn)是多肽的翻譯后修飾鑒定[4]。PTMs廣泛存在于真核細胞生物中,對生物體的信號傳導以及生命活動至關(guān)重要,但是 PTMs鑒定往往比未修飾多肽鑒定更加困難。
本文首先介紹了質(zhì)譜網(wǎng)絡(luò)的發(fā)展歷程,以及基于譜圖聚類思想的質(zhì)譜網(wǎng)絡(luò)的建立,然后詳細討論了利用質(zhì)譜網(wǎng)絡(luò)如何進行非預設(shè)的翻譯后修飾鑒定;最后結(jié)合質(zhì)譜網(wǎng)絡(luò)方法鑒定內(nèi)源肽的實際應(yīng)用,討論了質(zhì)譜網(wǎng)絡(luò)方法所面臨的挑戰(zhàn)和發(fā)展方向。
現(xiàn)有的質(zhì)譜鑒定方法主要采用3種方式來實現(xiàn),分別是傳統(tǒng)的序列數(shù)據(jù)庫搜索法、譜圖庫搜索法和從頭測序法(de novosequencing)。
使用傳統(tǒng)的序列搜庫方法成功鑒定出的質(zhì)譜和相關(guān)肽段的數(shù)據(jù)量在飛速增長,這種主流方法是已使用近20年的經(jīng)典方法:采用胰蛋白酶消化所提取的蛋白質(zhì)得到肽段,然后通過串聯(lián)質(zhì)譜法產(chǎn)生肽的串聯(lián)質(zhì)譜[10],接著將譜圖與蛋白質(zhì)序列數(shù)據(jù)庫進行匹配計算,以判斷該質(zhì)譜是否由某肽段所產(chǎn)生,最終獲得肽和蛋白質(zhì)的鑒定。雖然這個過程看起來很簡單,容易實現(xiàn),但在實驗中鑒定蛋白質(zhì)或者多肽時,因為化學噪聲、修飾、肽段離子的不完全破碎、污染等問題,使得鑒定過程仍然是一項非常復雜的任務(wù)。此外,因為蛋白質(zhì)數(shù)據(jù)庫的不完整性,可能不存在對應(yīng)于實驗譜的理論譜數(shù)據(jù),這些研究困境導致很難產(chǎn)生滿意的研究結(jié)果。
目前主流的開源蛋白質(zhì)序列數(shù)據(jù)庫搜索工具見表1。用于序列數(shù)據(jù)庫搜索的軟件工具除了表1中提到的,還包括非開源搜索引擎SEQUEST[11]、MASCOT[12]、P-Mod[13]、Interrogator[14]、TwinPeaks[15]、SeMoP[16]和 PTMap[17]等。
表1 開源蛋白質(zhì)序列數(shù)據(jù)庫搜索工具一覽表Table 1 Protein sequence search tool list
質(zhì)譜譜圖庫搜索方法是另一種多肽鑒定方法,其鑒定流程如圖1所示。從譜圖庫中提取高質(zhì)量鑒定結(jié)果,利用譜圖搜索工具建立一致性譜圖庫,從譜圖庫中選擇一致性譜圖作為候選譜圖,然后將實驗獲得的質(zhì)譜譜圖與候選譜圖進行匹配以完成對實驗譜的鑒定。這種譜圖庫搜索方法的基本理論假設(shè)是特定有機分子在質(zhì)譜儀中會以穩(wěn)定的方式碎裂,并且同一分子會有相同或相似的碎裂形式,即能得到相似的譜圖。譜圖庫搜索方法實際上是實驗譜與實驗譜之間的匹配。譜圖庫搜索可以充分利用所有質(zhì)譜特征,包括實際峰值強度、片段的中性損失以及各種不常見甚至未表征的片段,根據(jù)這些特征來確定最佳的匹配。提升圖譜比對相似性打分算法的精確性,且將搜庫空間限制在已鑒定肽段產(chǎn)生的譜圖,極大地縮小了搜索空間,使得選庫更加靈活,搜庫更有選擇性,從而顯著減少耗時。最后,通過已有的鑒定結(jié)果構(gòu)建一致性圖譜庫,不需要額外的時間和功耗就可以整合不同方法鑒定的肽段信息。與序列搜索相比,譜圖庫搜索方法大大縮小了搜索空間。目前主流的存儲實驗質(zhì)譜的譜圖庫如表 2所示。
圖1 譜圖庫搜索流程Fig.1 Spectra library searching process.
這兩種搜庫方法各有優(yōu)點。在譜圖庫搜索中,將先前實驗中觀察和鑒定的肽段存儲在譜圖庫中并認定其為候選物,而在序列庫搜索中,所有推定的肽序列和翻譯后修飾位點的所有信息都可能被收集在候選肽庫中,而實際上因為搜索空間太大、錯誤率太大等各種原因,序列庫搜索中考慮的這些可能出現(xiàn)的肽離子,其中大多數(shù)在實踐中未曾被發(fā)現(xiàn)過。因此,理論上質(zhì)譜庫搜索的搜索空間可以減小幾個數(shù)量級,搜索的速度相應(yīng)也可以提升幾個數(shù)量級。譜圖庫搜索方法需要有很多先驗的譜圖數(shù)據(jù),如果更換實驗儀器就需要使用新的先驗譜圖庫,對實驗儀器的依賴性很強。所以這種方法常用于鑒定特殊產(chǎn)物。如果已知的數(shù)據(jù)是已經(jīng)確定的某種實驗儀器產(chǎn)生,那么選擇這種方法進行譜圖庫搜索鑒定未知聚類簇中的質(zhì)譜是十分可行的。
目前主流的開源蛋白質(zhì)譜圖庫搜索工具如表3所示。譜圖庫搜索的方式是對于已有準確鑒定結(jié)果的質(zhì)譜數(shù)據(jù)作為先驗數(shù)據(jù),對待鑒定的質(zhì)譜進行整體相關(guān)性比較。使用整譜比較的方法在噪音數(shù)據(jù)的過濾方面沒有進行有效的處理,鑒定方法的靈活性差,鑒定準確率低且鑒定速度慢。通常,只有最多30%的MS/MS(串聯(lián)質(zhì)譜) 以高置信度被識別[18]。
表2 蛋白質(zhì)組學譜圖庫列表Table 2 Proteomics spectra database list
前兩種方法都依賴于既有知識,第3種方法,即基于從頭測序(De novosequencing)[19]則不需要。這種方法被認為是在包含所有可能肽的搜索空間進行肽搜索。從頭測序法將數(shù)據(jù)庫中的含有可能修飾的氨基酸序列構(gòu)建序列標簽,然后根據(jù)全肽序列與觀察到的序列質(zhì)譜譜圖之間的剩余質(zhì)量差來推斷潛在的修飾。從頭測序常被用于研究來自未知蛋白質(zhì)的質(zhì)譜圖。由于測序準確性的困難,完全自動化的從頭測序分析仍然是一個難以實現(xiàn)的目標,單個離子阱串聯(lián)質(zhì)譜的傳統(tǒng)算法在預測鑒定時,鑒定結(jié)果中每4個氨基酸中仍然可能存在一個不正確的氨基酸(即公布的從頭測序算法的準確率只有75%)[20]。使用目前已有的高分辨質(zhì)譜進行從頭測序,準確率提高到了84%[21],使用機器學習方法的準確率可以達到88%[22]。經(jīng)典的基于鳥槍法的蛋白質(zhì)從頭測序的方法,從串聯(lián)質(zhì)譜組裝成氨基酸序列時需要經(jīng)歷3個步驟:1) 使用質(zhì)譜圖比對尋找到來自重疊肽的質(zhì)譜圖對;2) 組裝比對對齊的譜圖;3) 確定每組組合譜圖的一致性氨基酸序列?;趶念^測序方法的軟 件 有 Lutefisk[23]、 PEAKS[24]、 PepNovo[25]、UStag[26]、MODa[27]和 pNovo[28]等。
質(zhì)譜網(wǎng)絡(luò)方法屬于譜圖庫方法的延伸。該方法不僅能夠解釋來自重疊多肽之間的譜圖比對(Aligned),還能對有修飾多肽和無修飾多肽之間的譜圖進行比對。在鳥槍法蛋白質(zhì)測序中,質(zhì)譜網(wǎng)絡(luò)實現(xiàn)了有史以來報道的離子阱數(shù)據(jù)中的最長序列和準確率最高的從頭測序序列[29],另外,質(zhì)譜網(wǎng)絡(luò)將相同多肽的多個修飾變體和未修飾變體的譜圖組合分析,直接從實驗數(shù)據(jù)中發(fā)現(xiàn)修飾和高度修飾的多肽。實現(xiàn)該算法的開源代碼可以從peptide.ucsd.edu 下載[30]。
質(zhì)譜網(wǎng)絡(luò)的發(fā)展可追溯到質(zhì)譜庫的發(fā)展,最早關(guān)于譜圖庫搜索的研究思想在1988年被Yates等提出[34]。利用質(zhì)譜圖庫可以進行待鑒定實驗質(zhì)譜與質(zhì)譜的匹配比較,從而幫助實現(xiàn)多肽的鑒定。
在鑒定多肽時,其中很重要的 PTMs的鑒定會明顯增加鑒定的難度。如前所述,基于質(zhì)譜的蛋白質(zhì)/多肽鑒定主要有3種方式,這3種方式中鑒定PTMs的方法各有不同。
在數(shù)據(jù)庫搜索中,將每個串聯(lián)質(zhì)譜已知多肽序列的給定數(shù)據(jù)庫進行比較,并選擇顯著的匹配用于蛋白質(zhì)鑒定。對于 PTMs的鑒定,如果不限定修飾類型,在鑒定多肽時將大大降低搜索速度和鑒定準確度。因此,使用該方法時建議每個肽只允許一個非預設(shè)修飾,即必須事先指定修飾類型[35]。
譜圖庫搜索方法鑒定PTMs時,將已經(jīng)被鑒定出來的質(zhì)譜作為參考譜圖庫,以開放式搜索模式搜索鑒定非預設(shè)的 PTMs。pMatch[32]就是這樣一個用于開放式譜圖庫搜索的工具。譜圖庫方法鑒定PTMs時,實際依賴庫中的先驗PTMs鑒定,對于庫中未出現(xiàn)的PTMs無法發(fā)現(xiàn)。
表3 開源蛋白質(zhì)譜圖庫搜索工具Table 3 Protein spectrum search tool list
多個研究小組已經(jīng)公開了使用質(zhì)譜圖比對作為鑒定非預設(shè)的翻譯后修飾的方法。該想法被Bandeira等提出的質(zhì)譜網(wǎng)絡(luò)[36]的概念很好地實現(xiàn)。質(zhì)譜網(wǎng)絡(luò)[37]基于重疊肽之間、有修飾和未修飾之間的質(zhì)譜比對,不依賴于數(shù)據(jù)庫中的先驗PTMs就能鑒定出PTMs。
在非限制性翻譯后修飾(Unrestrictive PTMs)鑒定方法中,質(zhì)譜網(wǎng)絡(luò)方法主要使用質(zhì)譜圖對來鑒定未修飾的肽。質(zhì)譜網(wǎng)絡(luò)方法基于圖譜匹配策略,能夠鑒定非限制翻譯后修飾,不需通過搜索譜圖庫來獲得肽段或者譜圖匹配的信息,而是直接從實驗譜圖中搜索修飾肽段與非修飾肽段的圖譜對以獲得修飾信息[38]。
質(zhì)譜網(wǎng)絡(luò)方法鑒定蛋白質(zhì)/多肽的第一步是建立質(zhì)譜網(wǎng)絡(luò)庫。質(zhì)譜網(wǎng)絡(luò)庫的建立流程如圖 2所示,實驗獲得的串聯(lián)質(zhì)譜數(shù)據(jù)通過譜圖質(zhì)荷比、峰的強度之間的相似性進行聚類[39],獲得不同的簇,由簇與簇的一致性譜圖之間的關(guān)聯(lián)性建立質(zhì)譜網(wǎng)絡(luò),最后整理所有質(zhì)譜網(wǎng)絡(luò),整合數(shù)據(jù)集,利用數(shù)據(jù)庫搜索方法建立質(zhì)譜網(wǎng)絡(luò)庫。
1.3.1 質(zhì)譜網(wǎng)絡(luò)的建立
酶切后的蛋白質(zhì)樣品通常含有多個重疊的多肽。建立質(zhì)譜網(wǎng)絡(luò)的第一步是建立質(zhì)譜圖對,然后從多個質(zhì)譜圖對中找尋質(zhì)譜星,最后利用各個質(zhì)譜星和質(zhì)譜圖對構(gòu)建質(zhì)譜網(wǎng)絡(luò)。
首先定義肽對,肽對的定義有兩種方式,一是相同肽不同的修飾或者突變,二是肽P1是肽P2的前綴或后綴,則肽 P1和肽 P2組成肽對[40]。如果兩個質(zhì)譜圖對應(yīng)的肽配對,則可以看作這兩張譜圖能夠形成質(zhì)譜圖對。質(zhì)譜圖對通常來源于重疊的肽或者同一條肽修飾和未修飾的變體。
質(zhì)譜圖對的產(chǎn)生,打開了一種新的計算途徑。一對質(zhì)譜圖對允許分離b(前綴質(zhì)量) 和y(后綴質(zhì)量) 離子質(zhì)量梯,大大地減少噪聲峰的數(shù)量,以及將修飾的鑒定從已鑒定譜圖傳播到未鑒定譜圖,從而將非預設(shè)的PTMs檢測出來。
入射到質(zhì)譜圖對中譜圖S1的一組譜圖稱為質(zhì)譜星(Spectral star)。即使對于單個質(zhì)譜圖對(S1,S2),質(zhì)譜S1和S2的b離子(y離子) 已經(jīng)具有高的信噪比和豐富的前綴和后綴。質(zhì)譜星允許進一步豐富譜圖的前綴和后綴。由質(zhì)譜圖對(S1,S2)、(S1,S3)……(S1,Sn)組成的質(zhì)譜星通過考慮S1和S2產(chǎn)生的 2(n-1) 個 b離子和 y離子的比較(2≤i≤n))來增加信噪比。使用聚類方法將所有這些譜圖組合成質(zhì)譜星S*。從質(zhì)譜圖對(Si,Sj) 和質(zhì)譜星(Si*) 得到的高質(zhì)量的譜圖使得這些譜圖的解釋更加簡單明確。 由于這些譜圖具有前綴梯度和后綴梯度以及極易分離的少量噪聲峰值,所以這些譜圖的從頭重建(De-novo) 產(chǎn)生的正確標簽包含十分可靠的長序列。平均來說,一致性譜圖的從頭測序能正確地識別長度為n的肽中 72%的結(jié)果,這已經(jīng)是非常高的識別率,因為第一個(例如,b1) 和最后一個(例如,bn-1) b離子很少存在于 MS/MS質(zhì)譜圖中,所以幾乎不可能在樣品中解釋超過80%的切割肽。在實驗中,除了最佳的從頭重建之外,還能夠產(chǎn)生次優(yōu)重建以及長肽的標記物[25]。
圖2 質(zhì)譜網(wǎng)絡(luò)庫建立流程Fig.2 Process of establishing the spectral network library.
使用特異性酶進行酶切的蛋白質(zhì)樣品通常含有覆蓋蛋白質(zhì)序列相同區(qū)域的多個重疊肽,例如前綴肽(Prefix peptides)(例如PEPTI/PEPTIDES)、后綴肽(Suffix peptides)(例如TIDES/PEPTIDES)或部分重疊的肽(例如 PEPTIDES/TIDESHIGH)。如果肽序列是預先已知的,可直接應(yīng)用標準序列比對算法確定它們的重疊部分。類似地,質(zhì)譜圖比對被定義為來自重疊肽的譜圖之間的對應(yīng)峰的對準。相較于序列比對,在質(zhì)譜網(wǎng)絡(luò)中,質(zhì)譜圖比對不用預先知道肽序列,可充分利用重疊肽部分氨基酸的重合,在b 離子和y離子的質(zhì)量中編碼的序列信息足以檢測成對的來自重疊肽的串聯(lián)質(zhì)譜。事實上,質(zhì)譜圖比對具有較高的可靠性,能夠在高通量蛋白質(zhì)組學實驗中從數(shù)百萬可能的質(zhì)譜圖對中辨別高分值的真實質(zhì)譜圖對。此外,由于每張譜圖可以與幾個其他譜圖比對,所以檢測到的質(zhì)譜圖對的集合定義了質(zhì)譜網(wǎng)絡(luò):其中每個節(jié)點對應(yīng)于不同的質(zhì)譜圖,如果發(fā)現(xiàn)相應(yīng)的質(zhì)譜圖被顯著地比對上,則通過邊緣連接節(jié)點。值得注意的是,由于大多數(shù)質(zhì)譜圖通常來自非鄰接蛋白質(zhì)區(qū)域,這種方法產(chǎn)生的不是單個質(zhì)譜網(wǎng)絡(luò),而是來自重疊肽的每組質(zhì)譜圖形成的多個質(zhì)譜網(wǎng)絡(luò)。
首先,質(zhì)譜網(wǎng)絡(luò)基于質(zhì)譜圖比對而不是與蛋白質(zhì)序列匹配。第二,質(zhì)譜網(wǎng)絡(luò)在考慮其可能的鑒定之前,能找到來自相關(guān)肽的質(zhì)譜圖。第三,質(zhì)譜網(wǎng)絡(luò)可從相關(guān)肽的質(zhì)譜集合確定一致性標識質(zhì)譜,而不用每次分別嘗試識別一個質(zhì)譜圖。質(zhì)譜網(wǎng)絡(luò)庫允許在沒有任何數(shù)據(jù)引用的情況下檢測修飾,即不依賴于數(shù)據(jù)庫。這是與譜圖庫搜索方法最大的區(qū)別。此外,與標簽技術(shù)[41]相比,質(zhì)譜網(wǎng)絡(luò)方法不是以受控制的方式引入修飾,而是利用樣本中自然存在的多種修飾用于解碼未知的修飾。質(zhì)譜網(wǎng)絡(luò)方法彌補了數(shù)據(jù)庫搜索方法的限制,它在賦予肽的修飾注釋信息時更具有選擇性。
1.3.2 質(zhì)譜網(wǎng)絡(luò)庫的優(yōu)勢
前文提到質(zhì)譜網(wǎng)絡(luò)由來自重疊肽的匹配譜圖構(gòu)建。Bandeira等發(fā)現(xiàn)僅由同一條多肽產(chǎn)生的不同的翻譯后修飾質(zhì)譜圖對就能表現(xiàn)出相似的碎片離子化模式[40]。使用質(zhì)譜網(wǎng)絡(luò)分析串聯(lián)質(zhì)譜圖主要有 3個方面與主流數(shù)據(jù)庫搜索方法不同。
質(zhì)譜網(wǎng)絡(luò)將來自相同肽的修飾或者未修飾的多個變體(Variants) 的譜圖分組在一起,質(zhì)譜網(wǎng)絡(luò)有助于可靠地鑒定高度修飾的多肽。盡管數(shù)據(jù)庫搜索僅限于理論譜圖和實驗譜圖之間的離子質(zhì)量匹配,但質(zhì)譜網(wǎng)絡(luò)進一步利用了離子在相應(yīng)質(zhì)量和相似峰強度下的相關(guān)信息。一般而言,如果另外觀察到與中間修飾狀態(tài)的肽產(chǎn)生的譜圖高度相似,則更容易鑒定出高度修飾(多重修飾) 的肽。因此,質(zhì)譜圖比對不僅可以發(fā)現(xiàn)非預設(shè)的修飾,而且還為鑒定高度修飾的肽提供了參考方法。
目前,重要的體內(nèi)修飾研究主要有磷酸化、甲基化、糖基化、泛素化等。當首次分析可能含有修飾肽的樣品時,人們并不知道哪些殘基或肽將被修飾。數(shù)據(jù)庫搜索鑒定多肽時,如果不限定修飾類型,則需要考慮所有可能的位點之間的質(zhì)量差異(修飾質(zhì)量)。
質(zhì)譜網(wǎng)絡(luò)中通過質(zhì)譜圖比對發(fā)現(xiàn)PTMs的基本思想?yún)⒖糩37]圖3所示,對多肽的修飾表現(xiàn)為譜圖峰的質(zhì)量差,當把這個質(zhì)量差考慮進質(zhì)譜峰的匹配時,兩張譜圖可以很好地比對上。這種方法要求比對的譜峰之間顯著匹配[37],但不限制要考慮的修飾類型,可以用來發(fā)現(xiàn)全新的或非預設(shè)的修飾。
圖3 肽TETMA的修飾和未修飾變體之間的質(zhì)譜圖比對Fig.3 Spectral alignment between modified and unmodified variants of the peptide TETMA.
非限制性翻譯后修飾搜索不事先指定修飾類型,可快速發(fā)現(xiàn)潛在的修飾類型和修飾位點,或者發(fā)現(xiàn)新的修飾類型(非預設(shè)的修飾發(fā)現(xiàn))。質(zhì)譜網(wǎng)絡(luò)方法中,利用樣本中發(fā)生在肽自身的修飾,不需要事先指定修飾類型。并且可用于檢測僅發(fā)生在少量肽上的修飾,這些修飾往往不太可能被PTMs矩陣檢測方法檢測到[42]。
使用譜圖庫搜索方法鑒定非限制性PTMs常用的軟件有:Inspect[43]、pMatch[44]、SpectraST;而使用傳統(tǒng)的序列數(shù)據(jù)庫搜索方法鑒定限制性PTMs時所用的搜索引擎有:SEQUEST[11]、pFind[45]、Mascot、PEAKS[46]、X!Tandem、MaxQuant[47],其中幾項主流軟件 Comet、Mascot、Sequest、SpectraST、Tandem 整合在 TPP(Trans Proteomic Pipeline)[48]中。
利用質(zhì)譜網(wǎng)絡(luò)可用于檢測非預設(shè)的翻譯后修飾,搜索中不需要事先指定修飾類型,即可快速發(fā)現(xiàn)預料之外的修飾類型和修飾位點,甚至可能發(fā)現(xiàn)新的修飾類型。InsPect[43]為常用的非限制性翻譯后修飾搜索引擎。
使用數(shù)據(jù)庫搜索鑒定含有多重修飾的肽時,如果所有肽的可能修飾的數(shù)量組合出現(xiàn),將是一個巨大的計算挑戰(zhàn)問題。計算速度慢僅是一方面的問題,隨著肽數(shù)量的增加,給定質(zhì)譜圖的假陽性識別的風險也快速增加。然而,含有兩個或多個修飾的肽通常還含有僅具有一個或沒有修飾的相同肽的變體,在這種情況下,質(zhì)譜圖比對能將來自相同肽的多個修飾變體的相關(guān)質(zhì)譜分組為小質(zhì)譜網(wǎng)絡(luò),從而增加它們的置信度。
通過將來自相同肽的多個變體的質(zhì)譜分組在一起,說明質(zhì)譜網(wǎng)絡(luò)有助于修飾肽的可靠鑒定。雖然數(shù)據(jù)庫搜索方法局限于理論和觀測質(zhì)譜之間的匹配離子質(zhì)量,但質(zhì)譜網(wǎng)絡(luò)進一步利用了相似峰強度對應(yīng)質(zhì)量的共同碎片離子來鑒定。如果從中間修飾狀態(tài)能夠觀測到高度相似的質(zhì)譜,則更容易鑒定高度修飾的肽。因此,質(zhì)譜圖比對不僅可以發(fā)現(xiàn)非預設(shè)的信息,而且還提供了用于鑒定高置信度修飾的肽的替代途徑。
質(zhì)譜網(wǎng)絡(luò)算法之前主要被應(yīng)用于單個實驗數(shù)據(jù)集的鑒定中,如使用IKK β(IKK蛋白β亞基)數(shù)據(jù)集[43],建立質(zhì)譜圖對,對重疊肽的鑒定[49],也曾成功鑒定出之前未曾鑒定到的 PTMs。但是迄今為止質(zhì)譜網(wǎng)絡(luò)還未被應(yīng)用到大規(guī)模的質(zhì)譜庫里進行“大數(shù)據(jù)”的挖掘應(yīng)用。PRIDE Cluster是基于MS-Cluster算法,對PRIDE Archive保存的大量質(zhì)譜數(shù)據(jù)進行聚類分析后建立的質(zhì)譜歸檔庫[50],它成功將正確鑒定之外的質(zhì)譜數(shù)據(jù)分成了3類:a) 錯誤鑒定的質(zhì)譜;b) 正確被鑒定但是卻低于閾值的質(zhì)譜;c) 未鑒定的質(zhì)譜數(shù)據(jù)。對占據(jù)總量一半以上的c類數(shù)據(jù),研究基于聚類時所獲得的相似性數(shù)據(jù)成功鑒定出了160條肽段,但是大部分仍是酶切片段。我們推測,在c類數(shù)據(jù)中還有大量的非酶切肽段等待質(zhì)譜網(wǎng)絡(luò)方法來鑒定。
質(zhì)譜網(wǎng)絡(luò)庫是基于譜圖庫概念基礎(chǔ)上建立起來的,它不僅存儲已鑒定的質(zhì)譜(即質(zhì)譜圖庫),還存儲未鑒定的質(zhì)譜,以及保留了關(guān)于在各物種和各條件下常見的肽段質(zhì)譜的信息。因此,質(zhì)譜庫不僅提供了傳統(tǒng)的基于譜圖庫和質(zhì)譜相似性的搜索能力,還提供了對分析數(shù)據(jù)的新方法的支持。
用質(zhì)譜網(wǎng)絡(luò)方法來分析串聯(lián)質(zhì)譜數(shù)據(jù)與傳統(tǒng)分析方法有3個地方不同:1) 質(zhì)譜網(wǎng)絡(luò)將已鑒定的實驗質(zhì)譜與其他未鑒定的實驗質(zhì)譜相匹配,而不是與蛋白質(zhì)序列產(chǎn)生的理論質(zhì)譜進行匹配;2)在考慮質(zhì)譜可能獲得的鑒定之前,質(zhì)譜網(wǎng)絡(luò)就能發(fā)現(xiàn)它與相關(guān)肽段的關(guān)系;3) 質(zhì)譜網(wǎng)絡(luò)以一組來自相關(guān)聯(lián)的肽段的質(zhì)譜為單位,鑒定出一致性序列,而不是獨立地鑒定單個質(zhì)譜。盡管質(zhì)譜網(wǎng)絡(luò)的算法還在發(fā)展初期,但它們已經(jīng)能給出目前最長和最精確的De-novo序列,揭示了一個新的、能發(fā)現(xiàn)預計之外的翻譯后修飾和高度修飾肽的路徑,也使含有未知氨基酸殘基的“環(huán)狀非核糖體肽”的自動測序成為可能,同時定義了一個新的適用于串聯(lián)質(zhì)譜分析的、能將生物系統(tǒng)產(chǎn)出的所有分子結(jié)果進行映射的方法。
為滿足于多個實驗數(shù)據(jù)集的應(yīng)用,質(zhì)譜網(wǎng)絡(luò)庫方法所面臨的挑戰(zhàn)主要來源于數(shù)據(jù)庫的完整性和譜圖匹配算法的優(yōu)化兩個方面。
蛋白質(zhì)的修飾信息是基因組和轉(zhuǎn)錄組都無法獲得的新的數(shù)據(jù),在生物體功能調(diào)控等方面具有極其重要的作用,它在質(zhì)譜數(shù)據(jù)中體現(xiàn)為某個氨基酸質(zhì)量的改變[51]。在首次分析可能含有修飾肽的樣品時,往往不知道哪些殘基或肽被修飾,而質(zhì)譜圖比對方法考慮了每個可能的質(zhì)譜圖對以及匹配質(zhì)譜之間的每個可能位置的質(zhì)量差,同時要求匹配的譜峰之間具有顯著條件,而不考慮修飾的限制。這種方法可以用于發(fā)現(xiàn)新的或非預設(shè)的修飾。在實際應(yīng)用中,Bandeira等[40]使用該方法研究一個 93歲患者的白內(nèi)障晶狀體蛋白質(zhì)的一組質(zhì)譜圖時,質(zhì)譜網(wǎng)絡(luò)不僅能夠發(fā)現(xiàn)數(shù)據(jù)庫搜索方法鑒定出的修飾,還另外發(fā)現(xiàn)了幾個新的修飾。
內(nèi)源肽是機體內(nèi)存在的天然的生物活性肽,主要包括體內(nèi)一些重要內(nèi)分泌腺分泌的肽類激素(如促生長激素釋放激素、脾臟中的脾臟活性肽、胰腺分泌的胰島素等)、由血液或組織中的蛋白質(zhì)經(jīng)專一的蛋白水解酶作用而產(chǎn)生的組織激肽(如緩激肽、胰激肽)、作為神經(jīng)遞質(zhì)或神經(jīng)活動調(diào)節(jié)因子的神經(jīng)多肽以及由昆蟲、微生物、植物等生物體產(chǎn)生的抗菌肽。某些神經(jīng)肽是有價值的治療靶標[52],某些內(nèi)源性抗原肽還是免疫治療策略的關(guān)鍵。深入研究內(nèi)源肽的 PTMs以及與其相互作用的蛋白質(zhì)將有助于探索疾病的發(fā)生、發(fā)展、轉(zhuǎn)移機制等[53]。
目前主要是基于質(zhì)譜分析方法 內(nèi)鑒定 源肽[54-55],這種基于儀器識別質(zhì)譜的方法長期以來試圖通過改進儀器和實驗方法來降低實驗噪聲,但由于內(nèi)源肽的特殊性質(zhì),實驗提取時不適合消化酶切,尚有大量長肽或短肽以及 PTMs未被鑒定出來。質(zhì)譜網(wǎng)絡(luò)方法可以在內(nèi)源肽的鑒定中發(fā)揮重要作用。
同時,蛋白質(zhì)組學數(shù)據(jù)的累積為質(zhì)譜網(wǎng)絡(luò)方法在大數(shù)據(jù)分析中提供了廣闊的舞臺。PRIDE Cluster采用聚類分析了 PRIDE數(shù)據(jù)庫中的全部公開數(shù)據(jù),給出了大量含有豐富信息的未鑒定質(zhì)譜圖數(shù)據(jù)[56],這里面可能包含有大量的PTMs信息,有待我們用類似于質(zhì)譜網(wǎng)絡(luò)這樣的新方法來進行大數(shù)據(jù)挖掘。
在質(zhì)譜網(wǎng)絡(luò)方法實驗過程中,我們利用PRIDE Cluster中未鑒定的高質(zhì)量質(zhì)譜數(shù)據(jù)集,通過譜圖庫搜索,以及使用PeptideProphet[57]進行質(zhì)量控制,最終從PRIDE Cluster中獲得了很多新的之前未被鑒定的神經(jīng)肽,該研究成果已經(jīng)被錄用。同時,針對這些未鑒定的肽段,我們使用Spectral Networks工具對該數(shù)據(jù)集進行分析,找到了38條PTMs的信息。實驗表明,基于質(zhì)譜網(wǎng)絡(luò)的方法進行譜圖庫搜索,有利于鑒定未知多肽和翻譯后修飾信息。已經(jīng)報道過的方法中未從譜圖層面來實施整個鑒定流程,而是利用數(shù)據(jù)庫搜索方法來鑒定未知肽段,所以使得類似于 PRIDE Cluster這樣的數(shù)據(jù)中存在大量的高質(zhì)量未鑒定質(zhì)譜有待于我們研究挖掘。
本文主要討論在蛋白質(zhì)組學中,基于質(zhì)譜圖比對,建立質(zhì)譜網(wǎng)絡(luò)在鑒定多肽翻譯后修飾中的發(fā)展。來自重疊肽或同一肽的修飾變體的譜圖提供了大量相關(guān)的序列信息,可以使用基于質(zhì)譜網(wǎng)絡(luò)的新一代算法來鑒定。與標準修飾鑒定方法不同,具有來自相同肽的修飾或未修飾變體的譜圖允許直接發(fā)現(xiàn)樣品中的修飾,而不必事先猜測要搜索的修飾列表。來自多種修飾變體的譜圖可以組合成質(zhì)譜網(wǎng)絡(luò),并且相關(guān)的離子質(zhì)量和強度可被用于增加鑒定高度修飾的肽的可信度。從蛋白質(zhì)測序的角度來看,通過非特異性蛋白酶切實現(xiàn)的廣泛的序列覆蓋可能將來自重疊肽的譜圖組裝成長的蛋白質(zhì)重疊群。此外,通過利用組合譜中的相關(guān)序列信息,鳥槍蛋白測序方法能夠提供有史以來報道過的關(guān)于離子阱串聯(lián)質(zhì)譜的最高測序準確度。
在復雜生物系統(tǒng)中,蛋白質(zhì)的精確定量對生物學的許多研究非常重要[58]。而質(zhì)譜庫已被廣泛應(yīng)用于準確研究各種蛋白質(zhì)定量分析,在定量已知蛋白質(zhì)的應(yīng)用研究中尤為突出。這種“定向”方法在研究定向蛋白質(zhì)組學的過程中允許研究者以多重方式測定數(shù)百種蛋白質(zhì),該方法在臨床和生命科學研究中已被越來越多地使用[59]。
未來我們可以使用未鑒定數(shù)據(jù)和已鑒定數(shù)據(jù)來建立質(zhì)譜網(wǎng)絡(luò)庫,再通過搜庫的方法進行質(zhì)譜的鑒定。這種基于質(zhì)譜網(wǎng)絡(luò)庫的方法通過建立質(zhì)譜圖對,創(chuàng)建一致性譜等方式可用于鑒定未知質(zhì)譜的翻譯后修飾信息,為質(zhì)譜圖的解析提供了一種新的思路和發(fā)展方向。
針對其他內(nèi)源性多肽修飾(乙?;?、甲基化等)的分析,目前仍需要發(fā)展新的方法和技術(shù),面對質(zhì)譜網(wǎng)絡(luò)新方法和機器學習、人工智能等技術(shù)大量涌現(xiàn)的局面,如數(shù)據(jù)庫搜索方法的改進如何將新方法和新技術(shù)標準化并應(yīng)用也是蛋白質(zhì)組學鑒定發(fā)展面臨的問題。