李龍,張紀陽,,史秀建,孫漢昌,謝紅衛(wèi),歐陽辰星
(1. 國防科學技術大學 機電工程與自動化學院,湖南 長沙,410073;2. 北京蛋白質組研究中心 蛋白質組學國家重點實驗室,北京,102206;3. 中南大學 商學院,湖南 長沙,410083)
基于局部回歸的色譜保留時間對齊可逆算法
李龍1,張紀陽1,2,史秀建1,孫漢昌1,謝紅衛(wèi)1,歐陽辰星3
(1. 國防科學技術大學 機電工程與自動化學院,湖南 長沙,410073;2. 北京蛋白質組研究中心 蛋白質組學國家重點實驗室,北京,102206;3. 中南大學 商學院,湖南 長沙,410083)
提出并實現(xiàn)一種基于局部回歸的對齊算法,選擇鑒定結果最多的一次實驗作為參考,實現(xiàn)色譜保留時間的可逆對齊,將n次實驗的對齊建模次數(shù)從n(n?1)/2次減少為n?1次。該算法還實現(xiàn)不同實驗間色譜保留時間的非線性對齊,并且能夠克服少量從色譜柱中多次流出肽段的影響。研究結果表明:該方法計算時間復雜度遠比現(xiàn)有算法的低,對齊精度也能夠滿足后續(xù)計算的需要。
液質聯(lián)用串聯(lián)質譜;定量蛋白質組學;色譜保留時間對齊;局部回歸;可逆算法
基于液相色譜?串聯(lián)質譜(LC-MS/MS)的無標記(label free)定量是蛋白質定量分析的核心技術之一[1?2],特別是基于高精度質譜儀(例如熱電公司的LTQ-FT[3]和LTQ-Orbitrap[4])的分析平臺在大規(guī)模生物標志物發(fā)現(xiàn)中已經(jīng)廣泛應用[5?9]。LC-MS/MS實驗可以同時鑒定、定量肽段,但是由于受分析能力的限制,只能根據(jù)“動態(tài)排除”策略,選擇部分母離子進行MS/MS分析,所以,肽段的鑒定結果具有很大的隨機性[10]。有研究表明,2次重復實驗(技術重復,每次重復又稱為一次LC-run)之間重疊鑒定的肽段只有60%~70%[11];所以,對同一樣本重復分析成為克服隨機采樣效應的重要方法。MS圖譜中的信號重復性遠優(yōu)于MS/MS分析的重復性,超過 95%的離子流色譜峰(Extracted ion chromatograms, XIC)在重復實驗中都會出現(xiàn)[12];因此,在數(shù)據(jù)分析中利用色譜保留時間對齊實現(xiàn)重復實驗和不同樣品的 LC-MS分析中的信號對應,可以克服 MS/MS分析的隨機效應,充分利用實驗數(shù)據(jù)。色譜保留時間對齊(Retention time alignment)一般是利用2次實驗間共同鑒定的肽段來建立色譜保留時間對齊模型,然后,利用該模型預測那些在實驗中未鑒定肽段的色譜保留時間[13]。考慮影響色譜分析重復性的復雜因素,一般采用非線性模型建立2次實驗間色譜保留時間的關系。常用的模型有3次樣條、局部回歸、小波基、相關函數(shù)、偏移向量等[14]。在處理多次重復實驗的數(shù)據(jù)時,一般采用兩兩對齊或者尋找參考LC-run的方法[15]。兩兩對齊一般要計算量大,而參考 LC-run方法需要找到一個能夠包含所有信號的LC-run,對于隨機性較大的MS/MS分析來說,十分困難。由于很多非線性模型都不是可逆的,為了實現(xiàn)2次實驗間的色譜保留時間對齊,需要建立2個模型,增加了計算量和計算復雜程度。在此,本文作者基于局部回歸方法實現(xiàn)一個可逆的色譜保留時間對齊模型。利用該模型,提出一種使用參考LC-run的色譜保留時間對齊策略,解決了任何一次實驗都只能鑒定部分肽段、不適合作為參考LC-run的問題,提高了計算速度。
在基于無標記定量的生物標志物發(fā)現(xiàn)過程中,利用質譜對目標樣本和對照樣本分別進行分析,找出不同質譜信號的差異以及其代表的蛋白質,實現(xiàn)相對定量[16]。目前,基于高性能質譜平臺的無標記定量分析主要有 2種典型的實驗策略:LC-MS策略和LC-MS/MS策略[17]。其中 LC-MS策略直接分析蛋白質混合物酶切(一般使用胰酶)得到的肽段混合物,得到以整體肽段離子的質荷比(Mass to charge ratio,m/z)和信號強度為基本元素的一級質譜圖(MS圖譜),然后,在數(shù)據(jù)分析中直接解析MS圖譜中的同位素峰,構建肽段的離子流色譜峰,進行肽段定量(肽段序列未知)。這種方法不直接利用質譜鑒定肽段,而是利用MS圖譜中的信號來表征肽段。與之不同的是:LC-MS/MS策略進行一般的鳥槍法實驗(Shotgun),肽段在進行MS分析后,還要選擇母離子(Precursor ions)進行惰性氣體誘導碰撞碎裂(Collision-induced dissociation, CID),得到包含肽段序列信息的MS/MS圖譜。在數(shù)據(jù)處理中,首先利用 MS/MS圖譜鑒定肽段序列,然后利用MS圖譜中的母離子信號實現(xiàn)肽段的定量。這種方法的最大優(yōu)勢在于可以同時實現(xiàn)肽段的鑒定和定量,2種策略的最大差異是是否進行MS/MS分析。無論是哪種策略,都需要將不同實驗得到的質譜信號進行對比,色譜保留時間是實現(xiàn)信號對齊的重要參數(shù)[11]。本文作者針對LC-MS/MS策略進行研究,其實驗和數(shù)據(jù)分析流程可以用圖1來概括[13]??梢钥闯觯涸跀?shù)據(jù)分析中,色譜保留時間的對齊是重要的一步。
圖1 典型無標記定量的實驗和數(shù)據(jù)分析流程Fig.1 Typical workflow of experiment and data processing for label free quantification in proteomics
本文所使用的數(shù)據(jù)來自文獻[18],酵母(Saccharomyces cerevisiae, Type Ⅱ, Sigma)經(jīng)過樣品處理后,利用配備有Agilent 1100(Agilent Technologies,Palo Alto, CA)高效液相色譜(HPLC)的LTQ/FT質譜儀(Thermo Electron, San Jose, CA)進行10次重復實驗。在質譜分析中,采用了LC-MS/MS策略,1次MS分析之后緊跟著進行10次MS/MS分析,采用30 s動態(tài)排除和自動增益控制(Auto gain control, AGC)。得到的數(shù)據(jù)使用SEQUEST搜庫(Bioworks 3.2版本),使用誘騙數(shù)據(jù)庫搜索(Decoy searching)策略來對搜庫結果進行假陽性率(False discovery rate, FDR)控制,使用1%FDR的標準過濾搜庫結果。得到的搜庫結果去冗余,然后,提取肽段色譜保留時間并對齊。另外,為了驗證重復實驗間色譜保留時間的非線性關系,還利用一個上樣量(loading amount)不同的2次重復實驗數(shù)據(jù),實驗方法與參考文獻[18]中的相同。
色譜保留時間對齊采用局部回歸方法(Local regression),10次重復實驗之間對齊采用下列步驟:
(1) 首先利用肽段鑒定結果提供的質荷比、序列和MS/MS圖譜掃描號(Scan number)在單個LC-run得到的原始數(shù)據(jù)(raw文件)中提取離子流色譜峰,得到肽段的色譜保留時間。
(2) 找出原始數(shù)據(jù)文件最大的那次 LC-run(預期包含信息最多)作為參考,其他9次實驗的色譜保留時間均采用局部回歸方法向參考實驗對齊,同時記錄局部回歸的模型參數(shù)。
(3) 參考實驗中的所有肽段(對齊和鑒定)向其他9次實驗進行色譜保留時間對齊。這一步可以利用已經(jīng)建立的局部回歸可逆模型,不需再建模。
(4) 輸出色譜保留時間對齊結果,并且進行其他定量分析。
從上面的步驟可以看出:采用局部回歸方法進行可逆的保留時間對齊,關鍵要保證模型是可逆的,這樣只需要建立和記錄9個模型,進行18次對齊計算,就可以實現(xiàn)10次實驗之間的對齊。而兩兩對齊的不可逆模型則需要建立=45個模型,進行45次對齊計算。一般來說,對于n次重復實驗,若采用兩兩對齊方法,則需要建立=n(n? 1)/2個模型,而若采用可逆對齊方法,則只需要建立n?1個模型,可以看出本文使用的模型將會大大減少計算量,重復實驗次數(shù)越多,效果越明顯。另外,本文采用的LOWESS模型是局部線性模型,也是局部回歸中最簡單的一種,算法自身的計算量也得到了控制[19]。為了排除異常值數(shù)據(jù)點的影響,在計算局部最小二乘回歸時,采用魯棒(Robust)方法[19],整個算法如下所示,算法的收斂性等性能分析見文獻[19]。
算法1:魯棒局部回歸算法。
步驟1:輸入。
(1) 參考實驗和其他任意一次實驗的共同鑒定肽段的色譜保留時間TR向量,x=rTR和y=xTR;
(2) 局部回歸窗口大小span,參考數(shù)據(jù)點向量數(shù)目ref_num,最大迭代次數(shù)iter;
步驟2:初始化變量。
步驟3:開始局部回歸Local regression。
(1) 計算窗口范圍:
(2) 提取窗口范圍內(nèi)的數(shù)據(jù)點,并且統(tǒng)計數(shù)據(jù)點數(shù)目sub_num;
(3) 若num小于 4,sub_min=sub_min?binW,sub_max=sub_max+binW,則返回步驟 3中(2),否則進行下一步,得到的數(shù)據(jù)點集合稱為S;
(4) 假設得到的局部數(shù)據(jù)點為sub_x,sub_y,求每個數(shù)據(jù)點的權重:
(5) 進行加權最小二乘回歸(WLS):
步驟4:迭代進行Robust回歸。
(1) 計算殘差:
(2) 對殘差進行歸一化處理:
其中:median表示求取中值。
(3) 計算權重因子:
若Rweight[j]=1,則Rweight[j]=0,進行變換:Rweight[j]=1?Rweight[j]*Rweight[j],其中j∈S;
(4) 更新權重:W_new[j]=Weight[j]*Rweight[j],其中j∈S;
(5) 記錄回歸參數(shù),bold=b,重新進行WLS:
其中:WX=W_new·sub_x,WY=W_new·sub_y;
(6) 迭代次數(shù)+1,若超過預設迭代次數(shù)iter,則退出循環(huán),否則計算差值:e=|b?bold|;若e<ε(例如1×10?6),則退出循環(huán),否則跳轉到步驟4中(1)。
得到局部線性模型參數(shù),結束計算。
在實現(xiàn)色譜保留時間對齊之后,還要利用對齊得到的色譜保留時間,提取未鑒定肽段的離子流色譜峰;所以,盡量減小色譜保留時間的誤差,縮小搜索范圍,提高色譜保留時間參數(shù)區(qū)分不同肽段的能力,可以減少假陽性結果。為了驗證局部回歸方法的建模效果,使用2個最大的數(shù)據(jù)文件,分析局部回歸方法的色譜保留時間對齊的殘差,結果如圖2所示。從圖2可以看出:殘差符合正態(tài)分布,均值為0,標準差為0.112(時間單位為min),相對于一般的離子流色譜峰的范圍(2 min左右),誤差區(qū)間比較小??紤]到數(shù)據(jù)點集中存在噪聲數(shù)據(jù)點,殘差分布并不能嚴格通過正態(tài)性檢驗(例如 Jarque-Bera檢驗),這也正是在局部回歸中引入魯棒迭代回歸排除異常值點的原因。
圖2 局部回歸殘差分布Fig.2 Residual distribution of local regression
局部可逆回歸的最大優(yōu)勢在于可以大大節(jié)省計算時間。對于 10次重復的實驗數(shù)據(jù),利用 C++語言編寫的算法來測試運算時間,發(fā)現(xiàn)在HP 6520s計算機上(Intel T5870 2.0G雙核 CPU,2Gb內(nèi)存),僅僅需要10.07 s,而采用3次樣條平滑方法則需要184.94 s[16],大約是局部回歸方法的 18倍。即使采用局部回歸算法,若不利用可逆特性,則大約需要22 s,是本文提出算法的2倍。經(jīng)過測試,那些基于LC-MS策略(把LC-MS/MS數(shù)據(jù)當作 LC-MS數(shù)據(jù)分析,包括MSInspect[12],MSAlign[20]和 XCMS[21])的對齊算法則需要更長的運算時間??梢钥闯觯嚎赡婢植炕貧w方法可以大大減少運算時間,在更大數(shù)據(jù)集上的作用會更加明顯。
設計嚴密的技術重復實驗之間色譜保留時間的非線性關系并不是很明顯,這一點可以從圖 3(a)中看到(其中,TR為色譜保留時間)。但是,在生物標志物發(fā)現(xiàn)的實際應用中,往往需要對比不同樣品。由于色譜分離中不同組分之間的交互作用,色譜保留時間之間的非線性對應關系就會比較明顯[22]。圖3(b)所示是LC分析時間為60 min時,不同上樣量情況下色譜保留時間的對齊關系,可以發(fā)現(xiàn)有明顯的非線性效應。所以,采用局部回歸方法來描述這種非線性關系也是必須的。
另外,在LC時間為60 min的數(shù)據(jù)分析中,發(fā)現(xiàn)最后10 min分析時間中存在一些異常數(shù)據(jù)點,在上樣量為3.0 μg/μL的分析中,其色譜保留時間都大于50 min;而在上樣量為0.3 μg/μL的分析中,這些肽段的色譜保留時間小于50 min,遠遠偏離了2次實驗間色譜保留時間的基本線性關系,如圖 4(a)所示。分析實驗過程發(fā)現(xiàn):最后10 min為色譜柱沖洗時間,若樣品上樣量比較大,則還會有一些在以前已經(jīng)鑒定的肽段被洗脫和鑒定,就出現(xiàn)了雙離子流色譜峰;而在上樣量比較小時,沖洗過程中很難再鑒定這些已經(jīng)洗脫過的肽段,殘留已經(jīng)不能達到質譜儀的檢測靈敏度門限。所以,本文實現(xiàn)的局部回歸方法考慮了這一問題,沖洗時間的色譜保留時間對齊采用洗脫時間段最后1個局部線性模型代替,而不利用實驗數(shù)據(jù)建模,這樣就避免了這個問題。圖4(b)給出了相關結果。
圖3 不同實驗條件下色譜保留時間對齊的非線性效應Fig.3 Nonlinear effect of TR alignment in different experiment conditions
(1) 基于局部回歸方法實現(xiàn)了一個可逆的色譜保留時間對齊模型,給出了算法流程,并且實現(xiàn)了該算法。
(2) 利用色譜保留時間對齊的可逆模型,提出了一種使用參考LC-run的色譜保留時間對齊策略,對齊模型只需要建立n個(n為重復實驗次數(shù)),對齊計算只需要進行2n次,就能夠實現(xiàn)LC-MS/MS策略中的色譜保留時間對齊,解決了任何一次實驗都只能鑒定出部分肽段、不適合作為參考LC-run的問題,并且提高了計算速度。
(3) 利用10次技術重復的LTQ/FT數(shù)據(jù),發(fā)現(xiàn)對齊精度能夠滿足現(xiàn)階段離子流色譜峰提取的需要。利用不同上樣量的實驗數(shù)據(jù),分析和驗證了色譜保留時間對齊的非線性問題。
[1] Wang M, You J, Bemis K G, et al. Label-free mass spectrometry-based protein quantification technologies in proteomic analysis[J]. Briefings in Functional Genomics, 2008,7(5): 329?339.
[2] 薛曉芳, 吳松鋒, 朱云平, 等. 蛋白質組學研究中的無標記定量方法[J]. 中國生物化學與分子生物學報, 2006, 22(6):442?449.
XUE Xiao-fang, WU Song-feng, ZHU Yun-ping, et al.Label-free protein quantification methods in proteomics research[J]. Chinese Journal of Biochemistry and Molecular Biology, 2006, 22(6): 442?449.
[3] Olsen J V, De Godoy L M, Li G Q, et al. Parts per million mass accuracy on an orbitrap mass spectrometer via lock mass injection into a C-trap[J]. Molecular & Cellular Proteomics.2005, 4(12): 2010?2021.
[4] Hu Q, Noll R J, Li H, et al. The orbitrap: A new mass spectrometer[J]. Journal of Mass Spectrometry, 2005, 40(4):430?443.
[5] PENG Xin-qing, WANG Fei, GENG Xin, et al. Current advances in tumor proteomics and candidate biomarkers for hepatic cancer[J]. Expert Review of Proteomics, 2009, 6(5):551?561.
[6] Hanash S M, Pitteri S J, Faca V M. Mining the plasma proteome for cancer biomarkers[J]. Nature, 2008, 452(7178): 571?579.
[7] Sawyers C L. The cancer biomarker problem[J]. Nature, 2008,452(7178): 548?552.
[8] McIntosh M, McIntosh M, Fitzgibbon M. Biomarker validation by targeted mass spectrometry[J]. Nature Biotechnology, 2009,27(7): 622?623.
[9] 厲欣, 徐松云, 張宇, 等. 基于保留時間和質荷比匹配的液相色譜?質譜聯(lián)用技術用于非標記肽段的差異分析[J]. 分析化學, 2008, 36(7): 867?873.
LI Xin, XU Song-yun, ZHANG Yu, et al. Retention time mass-charge ratio pairs for label-free differential analysis of peptides[J]. Chinese Journal of Analytical Chemistry, 2008,36(7):867?873.
[10] Domon B, Aebersold R. Challenges and opportunities in proteomic data analysis[J]. Molecular & Cellular Proteomics,2006, 5(10): 1921?1926.
[11] Tabb D L, Vega-Montoto L, Rudnick P A, et al. Repeatability and reproducibility in proteomic identifications by liquid chromatography-tandem mass spectrometry[J]. Journal of Proteome Research, 2010, 9(2): 761?776.
[12] Bellew M, Coram M, Fitzgibbon M, et al. A suite of algorithms for the comprehensive analysis of complex protein mixtures using high-resolution LC-MS[J]. Bioinformatics, 2006, 22(15):1902?1909.
[13] Park S K, Venable J D, Xu T, et al. A quantitative analysis software tool for mass spectrometry-based proteomics[J]. Nature Methods, 2008, 5(4): 319?322..
[14] Podwojski K, Fritsch A, Chamrad D C, et al. Retention time alignment algorithms for LC/MS data must consider non-linear shifts[J]. Bioinformatics, 2009, 25(6): 758?764.
[15] Prince J T, Marcotte E M. Chromatographic alignment of ESI-LC-MS proteomics data sets by ordered bijective interpolated warping[J]. Analytical Chemistry, 2006,78(17):6140?6152.
[16] Mueller L N, Brusniak M Y, Mani D R, et al. An assessment of software solutions for the analysis of mass spectrometry based quantitative proteomics data[J]. Journal of Proteome Research,2008, 7(1): 51?61.
[17] Schmidt A, Gehlenborg N, Bodenmiller B, et al. An integrated,directed mass spectrometric approach for in-depth characterization of complex peptide mixtures[J]. Molecular &Cellular Proteomics, 2008, 7(11): 2138?2150.
[18] LIU Ke-hui, ZHANG Ji-yang, WANG Jing-lan, et al.Relationship between sample loading amount and peptides identification and its effects on quantitative proteomics[J].Analytical Chemistry, 2009, 81(4): 1307?1314.
[19] Cleveland W S. Robust locally weighted regression and smoothing scatterplots[J]. Journal of the American Statistical Association, 1979, 74(368): 829?836.
[20] Alterovitz G, Ramoni M F. Systems bioinformatics: an engineering case-based approach[M]. Norwood: Artech House,2007: 112?116.
[21] Benton H P, Wong D M, Trauger S A, et al. XCMS2: processing tandem mass spectrometry data for metabolite identification and structural characterization[J]. Analytical Chemistry, 2008, 80(16):6382?6389.
[22] 林炳昌. 色譜模型理論導引[M]. 北京: 科學出版社, 2004:63?75.
LIN Bing-chang. An introduction of chromatography models[M].Beijing: Science Press, 2004: 63?75.
(編輯 楊幼平)
Reversible retention time alignment algorithm based on local regression
LI Long1, ZHANG Ji-yang1,2, SHI Xiu-jian1, SUN Han-chang1, XIE Hong-wei1, OUYANG Chen-xing3
(1. College of Mechatronic Engineering and Automation, National University of Defense Technology,Changsha 410073, China;2. State Key Laboratory of Proteomics, Beijing Proteome Research Center, Beijing 102206, China;3. School of Business, Central South University, Changsha 410083, China)
A nonlinear and reversible algorithm based on local regression was proposed and implemented, which could reduce the alignment model formn(n?1)/2 ton?1 for anrepeated experiment design. The nonlinear effect of retention time alignment could be modeled by this method, and the negative effect of the peptides with multiple chromatographic peaks could also be overcome. The results show that the time complexity of this algorithm was reduced and the accuracy of it can satisfy the requirement of the following date processing steps.
liquid chromatography-tandem mass spectrometry; quantitative proteomics; retention time alignment; local regression; reversible algorithm
TP391;Q-332
A
1672?7207(2011)01?0100?06
2010?01?10;
2010?09?10
國家自然科學基金資助項目(30621063)
謝紅衛(wèi)(1965?),男,湖北洪湖人,教授,博士生導師,從事武器裝備試驗與鑒定技術、復雜系統(tǒng)可靠性分析、人因可靠性分析、生物信息等研究;電話:0731-84576311;E-mail: xhwei65@nudt.edu.cn