• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      色譜保留時間在蛋白質(zhì)組研究中的應用

      2010-10-21 03:47:24高友鶴
      色譜 2010年2期
      關鍵詞:多肽質(zhì)譜定量

      邵 晨, 高友鶴

      (中國醫(yī)學科學院基礎醫(yī)學研究所,中國協(xié)和醫(yī)科大學基礎醫(yī)學院,生理和病理生理學系,北京100005)

      色譜保留時間在蛋白質(zhì)組研究中的應用

      邵 晨*, 高友鶴

      (中國醫(yī)學科學院基礎醫(yī)學研究所,中國協(xié)和醫(yī)科大學基礎醫(yī)學院,生理和病理生理學系,北京100005)

      液相色譜與串聯(lián)質(zhì)譜聯(lián)用(LC-MS/MS)技術是蛋白質(zhì)組學研究中的常見方法。保留時間作為獨立于質(zhì)譜信息的參數(shù)已經(jīng)被用于蛋白質(zhì)的鑒定和定量工作中。在多肽鑒定領域,多肽的色譜保留時間預測與常規(guī)的二級串聯(lián)質(zhì)譜數(shù)據(jù)庫搜索算法結合可以提高鑒定的可信度。鑒定的靈敏度也可以通過匹配多次LC-MS實驗中具有相同精確質(zhì)量數(shù)和保留時間的峰而提高。另一方面,由于色譜條件的微小改變即會引起保留時間的變化,因此對多次實驗結果進行保留時間比對是進行非標記定量的不可或缺的步驟。另外,聯(lián)合保留時間偏移和質(zhì)量數(shù)信息還可以進行蛋白質(zhì)翻譯后修飾(post-translational modification,PTM)的鑒定。

      液相色譜-串聯(lián)質(zhì)譜;保留時間預測;保留時間比對;多肽鑒定;非標記定量;翻譯后修飾;蛋白質(zhì)組學

      Abstract:Liquid Chromatography coup led with tandem mass spectrometry(LC-MS/MS)has been one of the most popular approaches inproteome analysis.As an independent parameter to mass spectrometry information,peptide retention time has been utilized to facilitate protein identification and quantification.In the field of pep tide identification,the prediction of the retention time combined with routine tandem mass spectrometry database searching methods could help improve the confidence of identification.The sensitivity of identification could also be improved by matching peaks with both the accurate mass and retention time in multiple aligned LC-MS runs.Meanwhile,because small changes of liquid Chromatography conditions lead to variability in retention times unavoidably,retention time alignm ent is crucial to label free quantification.Additionally,post-translational modifications(PTM)could be identified by com bining retention time shifts and mass deviation information.

      Key words:liquid Chromatography-tandem mass spectrometry(LC-MS/MS);retention time prediction;retention time alignment;peptideidentification;label-free quantification;posttranslational modification(PTM);proteomics

      在蛋白質(zhì)組的研究中,液相色譜串聯(lián)一級質(zhì)譜(liquid Chromatography coupled with mass spectrom etry,LC-MS)或二級質(zhì)譜(liquid Chromatography coup led with tandem mass spectrometry,LC-MS/MS)是進行蛋白質(zhì)鑒定和定量分析的常見策略。其主要實驗流程為:首先將蛋白質(zhì)混合物經(jīng)酶切變?yōu)槎嚯幕旌衔?然后通過一維或二維色譜分離多肽混合物,再用質(zhì)譜儀鑒定其序列及進行定量分析。用一維色譜分離多肽混合物時,通常是利用反相液相色譜(reversed-phase liquid Chromatography,RPLC)根據(jù)多肽的疏水性進行分離,或者根據(jù)多肽的電荷特性在RPLC之前再加上強陽離子交換(strong cation exchange,SCX)色譜進行二維分離。在蛋白質(zhì)組的鑒定和定量分析中,有相當一部分利用了保留時間的信息。本文將對保留時間的預測算法和比對算法及其在蛋白質(zhì)組研究中的應用進行綜述。

      我們將首先介紹兩項主要技術——保留時間的預測和保留時間的比對——的最新研究進展。隨后,將介紹以這兩項技術為基礎的一系列蛋白質(zhì)組數(shù)據(jù)分析算法,包括多肽序列鑒定、翻譯后修飾(post-translational m odification,PTM)鑒定和非標記定量。

      1 保留時間的預測

      以往大多數(shù)的蛋白質(zhì)組鑒定工作都是由質(zhì)譜的數(shù)據(jù)出發(fā),比如利用肽段母離子質(zhì)荷比(mass-tocharge ratio,m/z)和MS/MS譜圖中的碎片離子信息等。但是由于多肽混合物的復雜性和噪聲信號的影響,鑒定中存在著假陽性和假陰性。多肽的保留時間在近幾年被應用到質(zhì)譜的鑒定中。理想狀況下,當色譜分離條件(溫度、pH值、流動相組成和固定相)固定時,多肽的保留時間也應保持不變。由于大部分的多肽都不具有實驗獲得的保留時間信息,所以預測保留時間成為一個很好的替代方法。進行保留時間預測的理論根據(jù)是多肽在色譜中的行為與其序列、結構和物理化學性質(zhì)相關。這里將介紹主要的保留時間預測方法。由于這些預測方法的效果大多是用預測與實際測定的保留時間的相關關系來表示,而相關系數(shù)的大小強烈地依賴于進行驗證的數(shù)據(jù),因此很難通過文獻報道比較這些方法的預測效果的好壞。

      1.1 根據(jù)多肽的序列預測保留時間

      最簡單的保留時間預測方法是估計每一個氨基酸殘基對保留時間的貢獻值(系數(shù)),再根據(jù)多肽的氨基酸組成將它們的保留時間系數(shù)加和在一起。這種方法是建立在多肽的保留時間主要是由其氨基酸組成所決定這一假設的基礎上的。一種估計氨基酸保留時間貢獻的方法[1]是合成特定序列的多肽Ac-G ly-X-X-(Leu)3-(Lys)2-am ide(X為任意20個氨基酸之一),通過測定這些多肽在RPLC的保留時間,從而計算出每一個氨基酸的保留時間(疏水性)系數(shù)。在隨后的研究中,同一個研究組又引入了一個校正因子,以消除肽段長度對保留時間的影響[2]。除了合成多肽外,很多研究組都利用線性回歸模型[3-6],從測定到的已知序列多肽的保留時間中計算每個氨基酸殘基的保留時間系數(shù)。

      近幾年,這種通過加和每個氨基酸的保留時間系數(shù)計算多肽保留時間的方法又有了新的改進。Petritis等[7]用更加智能化的人工神經(jīng)網(wǎng)絡算法重新計算了氨基酸的保留時間參數(shù)。他們計算的新參數(shù)與Guo研究組[1,8]的結果有一定的相似性,不同的是,他們認為亮氨酸對保留時間的影響最大,這又與B row ne等[3]的結論相同。Krokhin等[9]發(fā)現(xiàn),除了氨基酸組成和肽鏈的長度外,多肽N末端的氨基酸殘基對保留時間也有很大的影響,因此在他們的預測公式中加入了關于肽段長度和多肽N末端3個殘基的校正因子。Kaw akam i等[10]則研究了翻譯后修飾對保留時間的影響。他們發(fā)現(xiàn)同樣是磷酸化修飾,但磷酸化的絲氨酸延遲的保留時間最短,磷酸化的蘇氨酸的延遲時間有少許增加,而磷酸化的酪氨酸則會產(chǎn)生較長時間的延遲。這一發(fā)現(xiàn)提示保留時間可以應用于鑒定多肽的翻譯后修飾及其位點。

      1.2 根據(jù)多肽的物理化學性質(zhì)預測保留時間

      Petritis等[11]在2006年對他們以前的工作進行了改進,仍然應用人工神經(jīng)網(wǎng)絡算法,但考慮了多肽的物理化學性質(zhì)信息,其中包括了多肽的長度、序列、氨基酸疏水性、疏水性矩、預測的二級結構以及相鄰的氨基酸組合出現(xiàn)的頻率。新方法預測的準確率得到了顯著的提高,預測與實驗的保留時間平均誤差為1.5%。由于考慮了多肽序列信息,算法還可以成功地對蛋白質(zhì)異構體進行區(qū)分。

      另一種通過物理化學性質(zhì)預測多肽保留時間的模型被稱作定量結構-保留相關關系(quantitative structure retention relationship,QSRR)[12,13]。這個模型表示為:

      其中:tR為多肽在梯度洗脫下的保留時間;b0為一常數(shù);SumAA是全部氨基酸殘基的保留時間系數(shù)之和;VDWVol指多肽的范氏體積;clog P則是對數(shù)化的正辛醇-水分配系數(shù);b1,b2,b3為上述3個參數(shù)的權重,可利用線性回歸模型得到。

      Asenjo研究組[14-17]一直致力于通過研究多肽表面的氨基酸和色譜柱的疏水性相互作用來預測保留時間。這種方法需要已知多肽結構和建立復雜的數(shù)學模型做出相應的預測,而且預測花費的時間較長,并且通量較低。2005年他們研究了一種方法可以只基于氨基酸序列進行預測[14,15]。該方法首先通過多肽的每個氨基酸殘基最大可達到的表面積及其暴露在表面的可能性來估計多肽的表面積,再根據(jù)其相對分子質(zhì)量、物理化學性質(zhì)、二級結構等特征,利用機器學習算法預測多肽的保留時間。

      2 保留時間的比對

      在蛋白質(zhì)組特別是臨床蛋白質(zhì)組的研究中,往往需要通過比較很多例的樣品來發(fā)現(xiàn)潛在的疾病標志物或有特定含義的差異蛋白質(zhì),發(fā)現(xiàn)方法主要有標記定量和非標記定量。標記定量的方法由于標記試劑種類的限制,只能對數(shù)量有限的樣品進行定量。而非標記定量方法對每例樣品先分別進行LC-MS分析,再將得到的結果先進行保留時間比對再定量分析。由于不需要事先進行樣品混合,非標記定量可以進行成百上千例樣品的定量,這就克服了標記定量只能比較有限樣品數(shù)的缺點[18]。把不同次實驗產(chǎn)生的LC-MS譜圖進行保留時間比對是進行非標記定量的重要步驟。LC-MS譜圖比對不但可以消除實驗間的色譜分離分析誤差,而且使不同時間、不同實驗室產(chǎn)生的LC-MS結果進行同時比較成為可能。

      進行LC-MS譜圖比對的另一個應用是在蛋白質(zhì)鑒定方面。由于LC-MS/MS實驗中,一級質(zhì)譜掃描到的多肽質(zhì)譜峰只有少部分會被選擇進行二級質(zhì)譜鑒定得到序列信息,因而在單次的蛋白質(zhì)組實驗中,大量的多肽(或者蛋白質(zhì))都不能得到鑒定。如果假設具有相同質(zhì)量數(shù)和保留時間特征的質(zhì)譜峰所代表的是同一個多肽,通過把同樣或相似樣品的多次LC-MS譜圖比對在一起,只要這個多肽在其中的一次LC-MS/MS中鑒定出來,就可以把其他的實驗中具有同樣特征的質(zhì)譜峰也鑒定為這個多肽,這就大大提高了鑒定的多肽和蛋白質(zhì)的覆蓋率和靈敏度[19]。

      2.1 保留時間偏差的來源

      在色譜分離過程中,相當一部分誤差是由色譜柱本身產(chǎn)生的,主要包括色譜柱老化、填充不均勻以及柱內(nèi)殘留的污染物的影響等[20]。即使實驗條件控制得很好,這些誤差也很難避免。另外,即使是同樣的實驗條件和樣品,更換色譜柱也會造成色譜圖的差別。另一方面,一些色譜實驗條件(如溫度、洗脫梯度等)很難控制也是產(chǎn)生保留時間偏差的主要原因。最后,儀器產(chǎn)生的誤差(如死體積和流速的變化、基線漂移等)也會造成很大的影響。因此,在分析不同次的LC-MS數(shù)據(jù)時,進行保留時間比對是不可或缺的步驟。

      2.2 保留時間比對的算法

      保留時間比對的算法大致可分為兩種:一種是全譜比對算法,即對整個未處理的LC圖譜進行全局比對,而幾乎不考慮質(zhì)譜的信息;另一種方法則只比對從總LC-MS譜圖中提取出的可能代表多肽的質(zhì)譜峰,需要將峰的m/z列入計算。由于在比對時只保留了有意義的質(zhì)譜峰,第二種方法需要計算的數(shù)據(jù)量較小,但比對的結果非常依賴于多肽峰的檢測算法??偟膩碇v,前一種方法能夠處理低m/z分辨率的數(shù)據(jù),但計算量較大,不適宜進行過多的LCMS數(shù)據(jù)的同時比較;而后一種方法往往需要精確的質(zhì)量數(shù)來判斷不同實驗間代表同一多肽的質(zhì)譜峰,對質(zhì)譜儀的要求較高。

      2.2.1 LC全譜比對算法

      全譜比對算法主要比對不同次LC-MS的總離子流(total ion current,TIC)色譜圖,一次實驗的TIC譜圖可以視為一條在不同的時間點具有不同的總離子流量的曲線。這種曲線在數(shù)學上稱為連續(xù)時間序列。這樣,進行兩次實驗間比對的任務就可以歸納為這樣一個數(shù)學問題:尋找一個轉(zhuǎn)換函數(shù),使兩條曲線之間的距離最小。根據(jù)對曲線間距離大小的不同定義,可以用多種動態(tài)規(guī)劃算法,如動態(tài)時間規(guī)整(dynam ic time w arp ing,D TW)[21]、相關優(yōu)化偏移(correlation op tim ized w arp ing,COW)[22]、參數(shù)時間規(guī)整(param etric time w arp ing,PTW)[23]等來求解轉(zhuǎn)換函數(shù)。

      除了完全基于TIC譜圖的方法以外,也有一些算法利用了質(zhì)譜的信息,即先將總的TIC譜圖分成在不同的m/z區(qū)間內(nèi)的子譜圖,再進行比對打分。這樣可以對復雜度更高的樣品進行較好的比對。Listgarten等[24]在使用隱馬氏模型進行比對時,發(fā)現(xiàn)把每個保留時間點的總離子流量分入4個m/z區(qū)間時,既可以提高比對的精確度,也不會帶來過大的計算負擔。

      2.2.2 多肽特征峰比對算法

      對TIC譜圖進行比對只適合樣品的復雜度比較低的情況。當混合物的復雜度較高時,不同的多肽可能在同一時間流出,其色譜峰重疊在一起,在TIC譜圖中不能區(qū)分。在蛋白質(zhì)組的研究中,實際關心的只是代表多肽的質(zhì)譜信號。多肽特征峰比對算法首先檢測LC-MS譜圖中可能是多肽的質(zhì)譜峰(可通過具有較高的信噪比,或經(jīng)由MS/MS鑒定得到序列等特征來判斷),稱為特征峰(feature),再將可能代表同一多肽的質(zhì)譜峰匹配起來,比對的目標是使同一多肽的保留時間在歷次實驗間的誤差最小。利用MS/MS的鑒定結果進行特征峰判定最為可靠,但是MS/MS數(shù)據(jù)不易獲得。由于MS/MS掃描速率較慢,在全部可能是多肽的質(zhì)譜峰中,僅有少部分具有MS/MS鑒定結果。M ueller等[25]報道95%的質(zhì)譜峰用MS/MS鑒定都可被判定為特征峰,但在他們提取的全部特征峰中僅有10%進行了MS/MS鑒定。

      在M ueller小組的方法中,落在相近的m/z和保留時間范圍內(nèi)的特征峰被分為一組,采用局部加權回歸散點平滑法估計兩次實驗間同一組特征峰保留時間的變化。與M ueller等比對全部特征峰的方法相反,Petritis等[7]只選擇了6個在多次實驗中經(jīng)常被MS/MS鑒定出序列的多肽作為比對的依據(jù)。他們采用遺傳算法計算每次實驗的線性保留時間轉(zhuǎn)換函數(shù),同時對多次實驗的結果進行比對,最后將保留時間歸一化到0~1的區(qū)間里。

      Fischer等[26]采取了折中的辦法,首先用嶺回歸算法根據(jù)高可信度的MS/MS數(shù)據(jù)對兩次實驗數(shù)據(jù)進行第一次比對,計算得到一個多項式作為保留時間轉(zhuǎn)換函數(shù)。在初始比對的結果上,找到相關度最高的未經(jīng)MS/MS鑒定的特征峰,然后根據(jù)它們的保留時間偏差對多項式進行修正,如此經(jīng)過數(shù)輪迭代,可獲得最佳的比對效果。2007年,該小組在原來的算法上做了進一步改進[27],利用多元典型相關分析替代嶺回歸,解決了原來的算法不具有對稱性的問題(對稱是指將LC-MS譜圖A比對到譜圖B上和將譜圖B比對到譜圖A上獲得的結果相同)。

      2.2.3 選擇恰當?shù)谋葘λ惴?/p>

      最簡單的保留時間比對是僅僅通過線性回歸來校正不同次實驗間的保留時間變化,這種方法雖然比較粗糙,但計算速度最快,健壯性較好。一般情況下,當色譜條件完全相同時,實驗間的誤差用線性變換來校正即可。然而,大多數(shù)的實驗都存在著非線性的保留時間誤差。計算非線性的保留時間轉(zhuǎn)換函數(shù)不僅可以應對洗脫梯度不同的情況,而且比對更為精確。Podw ojski等[28]比較了線性回歸方法和兩種非線性轉(zhuǎn)換函數(shù),肯定了在對比對的精度要求較高時使用非線性轉(zhuǎn)換函數(shù)的必要性。但是非線性算法不僅對計算機的要求較高,轉(zhuǎn)換函數(shù)過于復雜時還存在著過擬合的風險,因此需要謹慎地選擇。Vandenbogaert等[20]建議首先選擇任意一個可以進行非線性比對的軟件,用它的比對結果來判斷數(shù)據(jù)是否具有非線性的保留時間誤差,再選擇恰當?shù)耐燃?線性或非線性)的算法進行比對。

      不同的比對算法對LC-MS數(shù)據(jù)本身也有不同的要求。TIC譜圖比對需要的計算量最大,當需要比對的實驗次數(shù)過多或混合物的復雜度較高時,不適宜使用這種算法。特征峰比對算法首先要進行特征提取的步驟,加入這一步驟也帶來了額外的誤差,尤其是低分辨率質(zhì)譜儀產(chǎn)生的數(shù)據(jù),在進行特征峰提取時將產(chǎn)生較大的誤差,對比對的結果有很大的影響。

      除了數(shù)據(jù)本身的特征以外,還應根據(jù)比對的目的來選擇比對算法。如果是通過比較蛋白質(zhì)組發(fā)現(xiàn)疾病標志物的工作,可以只對保留時間進行較粗略的全局校正以方便定量;而如果是通過保留時間和精確質(zhì)量數(shù)鑒定多肽序列的工作,則對比對的精度要求很高??偠灾?在選擇保留時間比對算法時,應根據(jù)數(shù)據(jù)的特征和實際應用的需要,選擇最適合而不是最精密復雜的算法,在比對精度、算法健壯性和計算時間之間獲得最佳的平衡。

      3 利用保留時間進行多肽鑒定

      3.1 利用精確質(zhì)量數(shù)和保留時間根據(jù)一級質(zhì)譜數(shù)據(jù)鑒定多肽

      隨著質(zhì)譜技術的發(fā)展和質(zhì)譜儀精度的提高,一些研究試圖僅利用酶切多肽的精確質(zhì)量數(shù)和色譜的保留時間鑒定多肽的序列,即只進行LC-MS實驗,而不需要再做二級質(zhì)譜分析。這種方法通常是針對某一特定的組織,通過收集多次LC-MS/MS實驗的鑒定結果,建立起這一特定組織的多肽質(zhì)量和保留時間標簽(accurate mass and time tag,AM T tag)數(shù)據(jù)庫。在隨后對該組織的實驗中,只進行LCMS,而不用二級質(zhì)譜分析,就可以通過搜索之前建立的數(shù)據(jù)庫來鑒定多肽序列。這種鑒定方法可以大幅度地節(jié)約進行二級質(zhì)譜的時間。由于并不是一級質(zhì)譜的每一個峰都被選擇進行二級質(zhì)譜分析,而且只有質(zhì)量好的二級質(zhì)譜譜圖中的多肽會得到正確鑒定,LC-MS/MS的鑒定方法產(chǎn)生了大量的假陰性,且靈敏度不夠。只利用LC-MS鑒定的方法可以很好地解決這個問題。應用該方法,低豐度的多肽和高豐度的多肽有同等的機會被鑒定出來。

      美國西北太平洋國家實驗室在2003年發(fā)表文章[29]稱將這種方法應用于鑒定耐輻射奇球菌的蛋白質(zhì)組,使用的儀器是毛細管色譜串聯(lián)飛行時間質(zhì)譜(質(zhì)量精確度<10×10-6(10ppm))。首先,他們根據(jù)以前關于耐輻射奇球菌的液相色譜-串聯(lián)傅里葉變換離子回旋共振質(zhì)譜和LC-MS/MS實驗的結果建立起包含多肽序列、精確質(zhì)量數(shù)和保留時間標簽的數(shù)據(jù)庫。在這個數(shù)據(jù)庫中,多肽的保留時間被標準化到一個[0,1]區(qū)間里。接下來,對新的LCMS實驗譜圖中的每一個質(zhì)譜峰,如果可以在AM T tag數(shù)據(jù)庫中找到唯一的一個序列,使得它們的質(zhì)量數(shù)和保留時間的誤差不大于10×10-6和0.05單位時間,那么這個序列就與這個質(zhì)譜峰匹配。他們報道這種新的鑒定方式具有很高的靈敏度,但是并未考慮該方法的假陽性率。在之后的幾年中,他們對這個算法作了一些改進[30,31],如用多肽色譜峰的頂點代替其在質(zhì)譜中被檢測的時間,并應用到多個不同的生物系統(tǒng)[32]和定量蛋白質(zhì)組的分析[33]中。該研究組于2007年開發(fā)出的VIPER軟件[34]可以自動地進行LC-MS譜圖中特征峰的檢測和比對,從AM T tag數(shù)據(jù)庫中找到匹配的記錄,從而鑒定多肽序列和進行定量分析。

      另一類方法比AM T tag數(shù)據(jù)庫更具有一般性。這類方法不需要事先收集多肽序列和保留時間信息來建立數(shù)據(jù)庫,而是只通過LC-MS比對,直接尋找多次實驗中精確質(zhì)量數(shù)和保留時間都十分接近的多肽特征峰,如果這些特征峰中有一部分已經(jīng)通過MS/MS鑒定出了序列,其他的峰也就隨之獲得了鑒定。PEPPeR[35]及SuperH irn[25]等都屬于這一類型的算法。

      3.2 利用保留時間信息進行M S/M S鑒定

      在以往的研究中,數(shù)據(jù)庫搜索算法是從MS/MS譜圖鑒定多肽的主要方法。該算法的核心思想是將實驗譜圖和數(shù)據(jù)庫中多肽的理論MS/MS譜圖進行比對,并對其匹配程度打分。但這種算法并不完美,其鑒定結果同時存在著假陽性和假陰性的情況。保留時間作為一維新的參數(shù),可以幫助提高MS/MS鑒定的準確性和靈敏度。

      一種方法是將保留時間參數(shù)和其他評價譜圖質(zhì)量的參數(shù)混合成一個新的參數(shù),這個新參數(shù)作為唯一的參數(shù),用來決策鑒定是否正確。Strittm atter等[36]提出了一個新的打分函數(shù),是5個參數(shù)的加權和,這5個參數(shù)分別是預測與實驗保留時間誤差、質(zhì)量誤差和SEQU EST軟件產(chǎn)生的3個評價匹配質(zhì)量參數(shù)。參數(shù)的權重通過將一組由已知蛋白質(zhì)組成的混合物的MS/MS數(shù)據(jù)作為訓練集進行學習而獲得。應用新的打分函數(shù),對該混合物的鑒定靈敏度增加了6.5%~9%(分別應用果蠅、大鼠和人類的全蛋白質(zhì)組數(shù)據(jù)作為反相數(shù)據(jù)庫檢索)。另外,在鑒定人類血漿蛋白質(zhì)組時,靈敏度增加了16%。

      與此相反,另一些研究則把保留時間和譜圖匹配的打分參數(shù)分開使用。Kaw akam i等[10]把實驗和預測的保留時間偏差當作一個預篩選參數(shù),只有保留時間誤差在一定的容忍范圍內(nèi)時才能進行隨后的多肽匹配步驟。

      在Shen等[37]的方法中,當譜圖的匹配質(zhì)量略低于較嚴格的標準,但高于一個較寬松的標準時,如果預測與實際保留時間的差別很小,同樣認定這個MS/MS鑒定是正確的。Pfeifer等[38]也采用了類似的思想,他們用保留時間誤差作為過濾條件,從匹配的錯誤概率大于1%但小于5%的MS/MS譜圖中篩選出高可信度的多肽鑒定。在不增加假陽性率的前提下,使鑒定的多肽數(shù)目增加了19%。

      除了預測的保留時間以外,經(jīng)驗保留時間也被應用于MS/MS鑒定。作者所在課題組[39]在2009年曾通過收集對同一樣品重復實驗得到的高可信度的MS/MS鑒定和保留時間數(shù)據(jù),建立了經(jīng)驗保留時間數(shù)據(jù)庫,從匹配程度較差的MS/MS譜圖中篩選高可信度鑒定。雖然經(jīng)驗數(shù)據(jù)庫因只收集了高可信度的經(jīng)MS/MS鑒定的多肽而使其包含的多肽數(shù)量有限,但避免了由于保留時間預測錯誤造成的誤差,與預測的方法形成互補。

      4 利用保留時間鑒定蛋白質(zhì)翻譯后修飾

      蛋白質(zhì)的翻譯后修飾是蛋白質(zhì)組研究的重要課題。UN IMOD網(wǎng)站(http://www.un im od.org/)收錄的PTM已達數(shù)百種之多。傳統(tǒng)的檢測蛋白質(zhì)PTM的方法是對樣品進行LC-MS/MS分析,然后采用數(shù)據(jù)庫搜索算法來鑒定一種或幾種已知的PTM的位點??紤]到同一個氨基酸殘基具有被修飾和未被修飾兩種質(zhì)量數(shù)不同的狀態(tài),而特定的PTM通常在幾個特殊的氨基酸殘基上出現(xiàn),鑒定PTM會造成數(shù)據(jù)庫檢索空間的數(shù)倍乃至數(shù)十倍的增加,在檢索時間增加的同時,錯誤匹配機率隨之上升。應用數(shù)據(jù)庫檢索算法不可能實現(xiàn)同時檢索所有蛋白質(zhì)的PTM的任務。

      在蛋白質(zhì)組樣品中,同一個多肽的翻譯后修飾和未被修飾的形式往往同時存在?;谶@一現(xiàn)象,一些研究組通過對修飾和未修飾兩種形式的多肽的母離子m/z、碎片離子和保留時間的相關關系進行PTM的鑒定。

      Savitski等[40]發(fā)明的M odifiCom b算法利用高質(zhì)量精度的傅里葉變換質(zhì)譜數(shù)據(jù),可以不受限制地同時鑒定所有存在的PTM,即使是未知的PTM也能夠檢索到其質(zhì)量數(shù)。該算法主要利用MS/MS提供的多肽碎片離子信息。他們首先將用MASCO T軟件從MS/MS譜圖中鑒定到的高可信度的未被修飾的多肽序列作為研究的基礎,若有另一張MS/MS譜圖與基準多肽的MS/MS譜圖中有多個(通常定義為4個)碎片離子的m/z相同,或者都相差某個固定的值,則認為這個多肽很可能是基準多肽被修飾之后的形式,它們的質(zhì)量差可以用來鑒定PTM的類型。他們發(fā)現(xiàn),同一PTM出現(xiàn)在不同的氨基酸殘基上會引起不同大小的保留時間偏移,因此應用保留時間可以區(qū)分PTM的發(fā)生位點。

      D asari等[41]根據(jù)質(zhì)量差和保留時間偏移的原理,在低分辨率的質(zhì)譜儀上鑒定了去酰胺化的多肽(天冬酰胺變?yōu)樘於彼?或谷氨酰胺變?yōu)楣劝彼?。由于質(zhì)量數(shù)相差只有0.984,傳統(tǒng)的數(shù)據(jù)庫檢索算法不能準確地從低分辨率質(zhì)譜產(chǎn)生的數(shù)據(jù)中檢索到這一修飾。研究者通過人工合成的多肽,發(fā)現(xiàn)修飾和未修飾的多肽在強陽離子交換色譜中的保留時間一致,而在反相色譜分離時去酰胺化的多肽晚3m in流出。利用保留時間差對MS/MS的鑒定結果進行進一步的判定,可以獲得93%的PTM鑒定準確率,而通過人工視譜對MS/MS鑒定結果進行判定的準確率只有不足42%。

      中國科學院計算技術研究所Fu等[42]于2009年發(fā)表論文,提出了一個高效的檢索樣品中高豐度蛋白質(zhì)的PTM的方法。和M odifiCom b一樣,該算法可以同時檢索所有可能存在的PTM。算法只計算多肽的母離子m/z和保留時間偏差,而不考慮MS/MS的信息,因此計算速度更快。首先計算所有譜圖兩兩間的質(zhì)量差,出現(xiàn)頻率很高且質(zhì)量差在0~100之間則作為可能的候選PTM進入下一步的計算。由于修飾和未修飾的多肽只有一個修飾基團的差別,其物理化學性質(zhì)比較接近,它們之間的保留時間差理論上是一個固定且較小的數(shù)值。基于這個假設,可以利用二元(分別是質(zhì)量差和保留時間差)混合高斯模型來區(qū)分由PTM產(chǎn)生的或隨機產(chǎn)生的質(zhì)量差。在應用于分析糖蛋白質(zhì)組的數(shù)據(jù)時,該算法能夠比常規(guī)的數(shù)據(jù)檢索方法多解釋10%的譜圖。

      現(xiàn)有的研究已經(jīng)表明,保留時間信息可以幫助研究者更加準確、高效地進行多肽的翻譯后修飾的鑒定。但是很少有研究涉及每種PTM給多肽的色譜行為帶來的確切影響[10,43],只假設PTM會產(chǎn)生保留時間的較小的恒定的偏移,對保留時間信息的利用還不夠充分。如果可以精確地為每種PTM預測可能產(chǎn)生的保留時間偏差,將能夠大大提高PTM鑒定的準確度。

      5 保留時間比對在定量蛋白質(zhì)組研究中的應用

      準確可靠的定量蛋白質(zhì)組學研究方法是深入理解不同狀態(tài)生命的變化、為疾病診斷尋找生物學標記的必要工具。LC-MS比對算法的發(fā)展使得多次實驗間的非標記定量成為可能,從而加快了生物標志物發(fā)現(xiàn)的腳步。

      其中一種定量方法是首先從LC-MS譜圖中提取多肽的色譜峰,再通過比較這些色譜峰的峰高或峰面積進行定量。一個完整的定量算法一般包括以下幾個步驟:(1)MS譜圖的預處理;(2)信號的平滑與噪聲的去除;(3)特征峰的鑒定并計算其峰高和峰面積;(4)保留時間;(5)誤差評估;(6)特征峰分類,尋找生物標記物。Radulovic等[44]開發(fā)的軟件平臺可以進行以上所有步驟的自動化處理。M etA lign軟件[45]是另外一個軟件,它最多可以對1 000次實驗數(shù)據(jù)進行比對。

      提取多肽色譜峰進行定量的方法有一個先天的不足,就是在提取色譜峰的過程中引入了額外的誤差,尤其是在處理低分辨率的數(shù)據(jù)時,誤差更為明顯。為了避免這一問題,Prakash等[46]直接分析未經(jīng)過預處理的二維LC-MS圖像(分別以時間和m/z為兩軸,信號強度顯示為點的顏色深淺的信號圖)。該算法首先根據(jù)名為CHAMS的D TW比對算法對原始的LC-MS圖像進行比對。這個比對算法的特點是將峰強度列入考慮范圍,特征峰的提取步驟則放在比對之后。他們報道這種方法比先提取特征峰再比對的方法具有更高的特異性和靈敏度。

      前面已經(jīng)對LC-MS比對算法進行了詳細的介紹,此處不再贅述非標記定量方法中與保留時間無關的其他技術環(huán)節(jié)。關于非標記定量方法的介紹可見W ong等[47]和Am erica等[48]的綜述。

      6 結論

      本文介紹了多肽的保留時間信息在蛋白質(zhì)組數(shù)據(jù)分析的多個領域中的應用情況。通過AM T tag數(shù)據(jù)庫或比對MS和MS/MS譜圖提高蛋白質(zhì)鑒定靈敏度的方法已經(jīng)得到了一定程度的應用。利用保留時間也可以鑒定蛋白質(zhì)的翻譯后修飾。另外,在進行非標記定量時,保留時間比對是必不可少的核心步驟。

      遺憾的是,利用保留時間進行MS/MS鑒定的研究仍處于算法的發(fā)明和驗證階段,實際應用很少。該方法的問題在于,鑒定的準確度強烈地依賴于保留時間預測方法的準確度,而由于預測算法都是通過對有限大小的已知數(shù)據(jù)集進行學習得到,其可推廣性很難得到保證。另外,由于對多肽的色譜行為的了解還不夠深入,利用保留時間進行PTM鑒定也處于初級階段,因此保留時間目前只作為鑒定的輔助信息。盡管存在著一些問題,現(xiàn)有的研究已經(jīng)證明了保留時間作為獨立于質(zhì)譜數(shù)據(jù)的參數(shù),可以提高蛋白質(zhì)鑒定和定量的準確度及效率。隨著實驗數(shù)據(jù)的積累和對多肽色譜行為更深入的研究,保留時間將在今后的蛋白質(zhì)組研究中發(fā)揮更重要的作用。

      [1] Guo D,M ant C T,Taneja A K,et al.J Chromatogr,1986,359:499

      [2] Mant C T,Burke T W L,B lack J A,et al.J Chromatogr,1988,458:193

      [3] Browne C A,Bennett H P J,Solom on S.Anal B iochem,1982,124:201

      [4] Meek J L.Proc Natl Acad SciUSA,1980,77:1632

      [5] Meek J L,Rossetti Z L.J Chromatogr,1981,211:15

      [6] Sakamoto Y,Kaw akam i N,Sasagawa T.J Chromatogr,1988,442:69

      [7] Petritis K,Kangas L J,Ferguson P L,et al.Anal Chem,2003,75(5):1039

      [8] Guo D,M ant C T,Taneja A K,et al.J Chromatogr,1986,359:518

      [9] Krokhin O V,Craig R,Spicer V,et al.mol Cell Proteomics,2004,3(9):908

      [10] Kawakami T,Tateishi K,Yam ano Y,et al.Proteomics,2005,5(4):856

      [11] Petritis K,Kangas L J,Yan B,et al.Anal Chem,2006,78(14):5026

      [12] Baczek T,W iczling P,M arszallM,et al.J Proteome Res,2005,4(2):555

      [13] Kaliszan R,Baczek T,Cim ochow ska A,et al.Proteomics,2005,5(2):409

      [14] Salgado J C,Rapaport I,Asenjo J A.J Chromatogr A,2005,1098:44

      [15] Salgado J C,Rapaport I,Asenjo J A.J Chromatogr A,2005,1075:133

      [16] Salgado J C,Rapaport I,Asenjo J A.J Chromatogr A,2006,1107:120

      [17] Salgado J C,Rapaport I,Asenjo J A.J Chromatogr A,2006,1107:110

      [18] Old W M,Meyer-Arendt K,Aveline-Wolf L,et al.mol Cell Proteomics,2005,4(10):1487

      [19] Li X J,Yi E C,Kemp C J,et al.Mol Cell Proteomics,2005,4(9):1328

      [20] VandenbogaertM,Li-Thiao-Te S,Kaltenbach H M,et al.Proteomics,2008,8(4):650

      [21] Bylund D,Danielsson R,Malmquist G,et al.J Chromatogr A,2002,961(2):237

      [22] Christin C,Sm ilde A K,Hoefsloot H C,et al.Anal Chem,2008,80(18):7012

      [23] Eilers P H.Anal Chem,2004,76(2):404

      [24] Listgarten J,Neal R M,Roweis S T,et al.Bioinformatics,2007,23(2):e198

      [25] M ueller L N,Rinner O,Schmidt A,et al.Proteomics,2007,7(19):3470

      [26] Fischer B,Grossm ann J,Roth V,et al.B ioinformatics,2006,22(14):e132

      [27] Fischer B,Roth V,Buhmann J M.BMC B ioinformatics,2007,8(Supp l10):S4

      [28] Podwojski K,Fritsch A,Cham rad D C,et al.Bioinformatics,2009,25(6):758

      [29] Strittmatter E F,Ferguson PL,Tang K,et al.J Am Soc mass Spectrom,2003,14(9):980

      [30] Zimm er J S,M onroe M E,Q ian W J,et al.mass Spectrom Rev,2006,25(3):450

      [31] Kiebel G R,Auberry K J,Jaitly N,et al.Proteom ics,2006,6(6):1783

      [32] Adkins J N,Monroe M E,Auberry K J,et al.Proteom ics,2005,5(13):3454

      [33] M anes N P,Estep R D,Mottaz H M,et al.J Proteom e Res,2008,7(3):960

      [34] M onroe ME,Tolic N,Jaitly N,et al.B ioinform atics,2007,23(15):2021

      [35] Jaffe J D,M ani D R,Lep tos K C,et al.Mol Cell Proteom ics,2006,5(10):1927

      [36] Strittm atter E F,Kangas L J,Petritis K,et al.J Proteom e Res,2004,3(4):760

      [37] Shen Y,Kim J,Strittm atter E F,et al.Proteom ics,2005,5(15):4034

      [38] Pfeifer N,Leinenbach A,Huber C G,et al.J Proteom e Res,2009,8(8):4109

      [39] Sun W,Zhang L,Yang R,et al.Rap id Comm un Mass Spectrom,2009,23(1):109

      [40] Savitski M M,N ielsen M L,Zubarev R A.mol Cell Proteom ics,2006,5(5):935

      [41] Dasari S,W ilm arth P A,Rustvold D L,et al.J Proteom e Res,2007,6(9):3819

      [42] Fu Y,J ia W,Lu Z,et al.BMC B ioinform atics,2009,10(Supp l1):S50

      [43] Kim J,Petritis K,Shen Y,et al.J Chromatogr A,2007,1172(1):9

      [44] Radulovic D,Jelveh S,Ryu S,et al.mol Cell Proteom ics,2004,3(10):984

      [45] Lomm en A.Anal Chem,2009,81(8):3079

      [46] Prakash A,M allick P,Whiteaker J,et al.mol Cell Proteom ics,2006,5(3):423

      [47] W ong J W,Sullivan M J,Cagney G.B rief B ioinform,2008,9(2):156

      [48] Am erica A H,Cordew ener J H.Proteom ics,2008,8(4):731

      Application of peptide retention time in proteome research

      SHAO Chen*,GAO Youhe
      (Department of Physiology and Pathophysiology,Institute of Basic Medical Sciences,Chinese Academy of Medical Sciences,School of Basic Medicine,Peking Union Medical College,Beijing 100005,China)

      O658

      A

      1000-8713(2010)02-0128-07

      *通訊聯(lián)系人:邵 晨,助理研究員,主要研究方向為蛋白質(zhì)組學和生物信息學.Tel:(010)65296407,E-m ail:scshaochen@126.com.

      中國醫(yī)學科學院基礎醫(yī)學研究所院(所)長基金項目(No.2009PY05)、國家自然科學基金杰出青年基金項目(No.30725009)、國家自然科學基金項目(No.30870502)、北京市自然科學基金項目(No.5072037)和高等學校博士學科點專項科研基金項目(No.20070023021).

      2009-12-24

      DO I:10.3724/SP.J.1123.2010.00128

      猜你喜歡
      多肽質(zhì)譜定量
      氣相色譜質(zhì)譜聯(lián)用儀在農(nóng)殘檢測中的應用及維護
      顯微定量法鑒別林下山參和園參
      當歸和歐當歸的定性與定量鑒別
      中成藥(2018年12期)2018-12-29 12:25:44
      高多肽含量苦瓜新品種“多肽3號”的選育
      10 種中藥制劑中柴胡的定量測定
      中成藥(2017年6期)2017-06-13 07:30:35
      抗HPV18 E6多肽單克隆抗體的制備及鑒定
      吹掃捕集-氣相色譜質(zhì)譜聯(lián)用測定水中18種揮發(fā)性有機物
      慢性HBV感染不同狀態(tài)下HBsAg定量的臨床意義
      胎盤多肽超劑量應用致嚴重不良事件1例
      徐寒梅:創(chuàng)新多肽藥物研究與開發(fā)
      琼结县| 福清市| 深水埗区| 德令哈市| 太仆寺旗| 隆林| 岳普湖县| 屯门区| 黎平县| 吉木萨尔县| 肇州县| 池州市| 远安县| 西乌珠穆沁旗| 焦作市| 全南县| 荣成市| 滕州市| 泰安市| 乌拉特中旗| 孙吴县| 历史| 吉隆县| 监利县| 宿州市| 大同县| 青岛市| 金沙县| 宜兰县| 青川县| 恭城| 贵南县| 峨边| 新绛县| 哈尔滨市| 伊通| 大同市| 额尔古纳市| 呼伦贝尔市| 瑞金市| 定安县|