• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      代謝組學數(shù)據(jù)預處理譜峰對齊方法的研究現(xiàn)狀*

      2015-01-27 12:28:51蔡富文劉美娜
      中國衛(wèi)生統(tǒng)計 2015年5期
      關(guān)鍵詞:譜峰代謝物組學

      蔡富文 羅 瀟 謝 彪 劉美娜

      哈爾濱醫(yī)科大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計學教研室(150081)

      代謝組學數(shù)據(jù)預處理譜峰對齊方法的研究現(xiàn)狀*

      蔡富文 羅 瀟 謝 彪 劉美娜△

      哈爾濱醫(yī)科大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計學教研室(150081)

      代謝組學(metabolomics/metabonomics)是繼基因組學、轉(zhuǎn)錄組學和蛋白質(zhì)組學之后新近發(fā)展起來的一門學科,是目前組學研究領(lǐng)域的熱點之一。其概念最早是由英國學者Nicholson等[1]在1999年基于核磁共振(nuclear magnetic resonance,NMR)分析的基礎(chǔ)上提出的,通過對生物體液、組織和細胞提取物隨時間變化的代謝物運用核磁共振、色譜、質(zhì)譜等分析技術(shù)進行檢測[2-3],結(jié)合有效的模式識別方法進行定性和定量分析,將獲得的代謝圖譜數(shù)據(jù)借助化學計量工具和模式識別軟件轉(zhuǎn)換成相應(yīng)的信息,并將這些代謝產(chǎn)物信息與病理生理過程中的生物學事件關(guān)聯(lián)起來,了解機體生命活動的代謝過程。隨著研究的不斷深入,代謝組學技術(shù)已經(jīng)應(yīng)用于多種疾病的診斷、治療、預后[4-6]。

      在實驗檢測過程中,由于多種因素的影響,代謝組學原始色譜圖容易出現(xiàn)譜峰漂移和一些系統(tǒng)偏倚,因此需要對原始色譜數(shù)據(jù)進行相應(yīng)預處理,便于后續(xù)的統(tǒng)計分析。代謝組數(shù)據(jù)預處理方法眾多,本文主要介紹譜峰對齊算法。

      代謝組學數(shù)據(jù)預處理

      色譜、質(zhì)譜(MS)和核磁共振(NMR)等高通量、高靈敏度、高分辨率的儀器是代謝組學常用的技術(shù)檢測手段[7],但是由于儀器設(shè)備的性能、樣本預處理中溶劑濃度和PH值、實驗溫度等因素的影響,原始色譜圖會產(chǎn)生一些譜峰漂移,并且原始色譜圖由于數(shù)據(jù)量大、數(shù)據(jù)點相關(guān)性高、基線畸變等因素的影響而不能直接拿來做多元數(shù)據(jù)統(tǒng)計分析。因此,通常需要對原始色譜數(shù)據(jù)進行預處理。代謝組數(shù)據(jù)預處理包括分段積分(binning)(主要針對NMR數(shù)據(jù)),歸一化(normalization),標度化(scaling),濾噪(filtering)和色譜峰對齊(alignment)等方法[8]。

      譜峰對齊的重要性

      從原子微觀角度分析,局部逆磁貢獻、局部順磁貢獻、分子內(nèi)鄰近基團各向異性效應(yīng)、環(huán)境效應(yīng)、電場效應(yīng)、溶劑或介質(zhì)效應(yīng)等因素都會影響代謝物的化學位移而產(chǎn)生譜峰漂移,如含有相似官能團的不同代謝物出現(xiàn)相似的保留時間。從實驗宏觀角度分析,樣本組成成分、溶劑pH值、溶液中離子濃度、實驗溫度、磁場穩(wěn)定性等因素會導致譜圖上不同樣本之間同一代謝物的化學位移不一致,產(chǎn)生譜峰漂移。譜峰漂移使實際代謝譜圖變得復雜,導致變量與代謝物之間的對應(yīng)關(guān)系變得混亂,給代謝物歸屬、定量和模式識別帶來困難,影響后續(xù)的生物標志物辨識,因此譜峰對齊成為代謝組學數(shù)據(jù)預處理過程中的一個關(guān)鍵步驟[9]。

      譜峰對齊算法介紹

      譜峰對齊算法主要分為三類。第一代算法,即輪廓對齊,只根據(jù)保留時間來進行對齊,如相關(guān)優(yōu)化解纏法(correlation optimized warping,COW)[10-12]。輪廓對齊方法僅利用保留時間進行譜峰對齊,而具有相似化學官能團的化合物會出現(xiàn)相似的保留時間,損失掉化合物的相關(guān)信息會導致結(jié)果出現(xiàn)較高的假陽性率。第二代算法,是將樣本的原始數(shù)據(jù)轉(zhuǎn)變成化合物的峰值列表,每一個化合物都由它的保留時間、質(zhì)譜和相關(guān)特征信息來進行描述。同時利用保留時間和化合物碎片離子的質(zhì)譜信息進行譜峰對齊,能降低對齊算法的假陽性率,如光譜排序算法(mass spectrometry peak sorting algorithm,MSort)[13]、距離和頻譜相關(guān)優(yōu)化對齊(distance and spectrum correlation optimization alignment,DISCO)[14]和多尺度譜峰對齊算法(multiscale peak alignment,mSPA)[15]等。第三代算法,是基于模型的譜峰對齊算法,能處理同質(zhì)數(shù)據(jù)和異質(zhì)數(shù)據(jù),不需要進行任何形式的數(shù)據(jù)轉(zhuǎn)換,如基于經(jīng)驗貝葉斯模型(empirical Bayes model,EBM)[16-18]的譜峰對齊算法等。

      1.COW(correlation optimized warping,COW)

      (1)將長度為LP的待對齊色譜圖分割成長度為m的N個部分:

      N=Lp/m

      (2)每一個部分通過卷積來進行縮小或延伸:

      COW算法是將色譜圖分割成各個部分,進行分段對齊,每一個部分都被縮小或者延伸來與參考譜進行最佳擬合,利用動態(tài)規(guī)劃方法尋找全局最優(yōu)的譜圖分割,利用相關(guān)系數(shù)最大法計算各段的漂移量。由于動態(tài)規(guī)劃的執(zhí)行、相關(guān)系數(shù)的計算都較費時,因此COW算法的計算較復雜。Nielsen等人的研究指出COW適用于各種類型的色譜數(shù)據(jù),在進行譜峰對齊過程中利用的是全色譜數(shù)據(jù)信息,是一種較精確的對齊算法,不需要任何形式的特征提取,對噪聲和時間基線變異不敏感。

      2.MSort(massspectrometrypeaksorting,MSort)

      MSort算法使用固定大小的用戶自定義保留時間窗口,但窗口大小影響著處理軟件的可靠性和有效性。具有相同化學官能團的不同代謝物會出現(xiàn)相似的保留時間,在進行譜峰對齊時容易出現(xiàn)較高的假陽性率,而MSort算法使用保留時間和碎片離子的質(zhì)譜信息能降低譜峰對齊算法的假陽性率,但此算法不能對來自不同實驗條件的代謝組數(shù)據(jù)(異質(zhì)數(shù)據(jù))進行譜峰對齊,例如不同溫度梯度下得到的代謝組數(shù)據(jù)。Cheolhwan等人使用標準代謝產(chǎn)物的混合物、人類血清與標準代謝產(chǎn)物的混合物這兩種樣本數(shù)據(jù)來對此算法進行研究,結(jié)果表明MSort算法在這兩種類型的樣本數(shù)據(jù)中譜峰排序精確性都較高。

      3.DISCO(distanceandspectrumcorrelationoptimization,DISCO)

      (1)峰條目的峰值合并

      其中Api為第i個待合并的峰條目的峰面積,k為待合并的峰條目的個數(shù),RTpi為第i個待合并的峰條目的保留時間。

      (2)尋找標志峰

      對色譜中譜峰的保留時間進行Z值轉(zhuǎn)換,然后計算譜峰保留時間之間的歐幾里得距離,選取距離最小的譜峰再計算其質(zhì)譜之間的相關(guān)系數(shù),根據(jù)得到的相關(guān)系數(shù)值來選取標志峰。

      對色譜中的保留時間進行如下的Z值轉(zhuǎn)換:

      其中RT1z是經(jīng)Z值轉(zhuǎn)換后的一維保留時間,RT1是原始的一維保留時間,RT1μ是原始峰值列表中一維保留時間的均值,RT1σ是原始峰值列表中一維保留時間的標準差。二維保留時間轉(zhuǎn)換公式中的字母符號與一維保留時間相同。

      譜峰之間相關(guān)系數(shù)計算公式如下:

      R(pc,p1)=

      其中Ic和Il是兩個碎片離子譜中有相同荷質(zhì)比(m/z)的碎片離子峰強度。

      DISCO算法是對代謝產(chǎn)物的峰條目進行識別,將同一個代謝產(chǎn)物的多個峰條目合并成一個峰條目放入峰值列表中。在對代謝物的保留時間進行Z值轉(zhuǎn)換之后,通過計算所有樣本中保留時間和質(zhì)譜碎片離子的Pearson相關(guān)系數(shù)來選擇標志峰。利用局部線性擬合方法來對非線性保留時間扭曲進行校正,最后通過保留時間地圖搜索方法來對所有樣本中代謝物的譜峰進行對齊。DISCO算法是MSort算法的改良版本,同MSort算法相似,同時利用保留時間和碎片離子的質(zhì)譜信息進行對齊,降低了對齊算法的假陽性率。它可以對標志峰進行保留時間的自動切割,不需要對切割的長度和最大翹曲值進行設(shè)置,避免了參數(shù)選擇不恰當和樣本不一致性對結(jié)果的影響。在Z值轉(zhuǎn)換中,使用歐幾里得距離來進行標志峰的尋找,可以處理由不同實驗條件所造成的保留時間漂移。此算法使用局部線性擬合方法對保留時間進行校正,可以處理由實驗錯誤引起的非線性翹曲的保留時間漂移。Wang等人利用來自不同實驗條件下的樣本進行譜峰對齊來評估此算法的性能,研究指出DISCO所選擇的標志峰其覆蓋面所占比例更高,保證了對保留時間漂移進行校正和譜峰對齊的可靠性。DISCO算法可以有效地運用于進一步的數(shù)據(jù)分析之中,如模式識別和統(tǒng)計顯著性檢驗。

      4.mSPA(multiscale peak alignment,mSPA)

      (1)小波函數(shù):

      其中a是尺度參數(shù),b是平移參數(shù),ψ(t)是母波函數(shù)。

      (2)波轉(zhuǎn)換公式:

      其中s(t)是信號,C是波系數(shù)的二維矩陣。

      mSPA算法利用譜峰檢測與合并,將譜圖劃分為多重峰(譜峰團簇)的組合,利用信息熵以譜峰團簇為單元對譜圖進行逐步細分,迭代實現(xiàn)多尺度譜峰對齊。mSPA算法的計算復雜度低,但對齊效果取決于譜峰團簇的劃分,算法的自適應(yīng)不夠。并且mSPA算法只適用于代謝物保留時間漂移較小的同質(zhì)數(shù)據(jù),因此將代謝物的保留時間轉(zhuǎn)換為保留時間指數(shù)即標準化保留時間用于代謝物的譜峰對齊,其性能不是很好。Zhang等人的研究使用模擬數(shù)據(jù)和真實的色譜數(shù)據(jù)將mSPA與另外兩種譜峰對齊方法RAFF和COW進行比較,結(jié)果表明mSPA能較好地保持峰形的完整性,對于保留時間的非線性漂移處理性能較好,并且在峰對齊過程中有著較快運行速度。

      5.EBM(empiricalBayesmodel,EBM)

      EBM是一個分層統(tǒng)計模型,主要分為四層:

      (1)參考譜中的化合物j出現(xiàn)在目標譜中的邊緣概率:

      P(Yj=1)=ρ,j=1,2,…,N

      其中N為參考譜中譜峰的個數(shù)。

      (2)根據(jù)給出的Yj信息,可以估計代謝產(chǎn)物j與目標譜中化合物匹配的條件概率。根據(jù)Yj的值,存在兩種情形下的條件概率P[Zj=1|Yj=0]和P[Zj=1|Yj=1]。

      (3)參考譜中化合物j出現(xiàn)在目標譜中,并且與目標譜中化合物匹配的條件下的概率:

      P(Wjl=1|Yj=1,Zj=1)=τ,0<τ<1

      (4)利用混合模型來描述混合相似性得分的分布,模型如下:

      f(Sj|Wj)=ΠfT(Sjl;?T)WjlfF(Sjl;?F)(1-Wjl)

      其中,f是混合密度;fT和fF分別表示正確匹配和錯誤匹配得分的分布;?T和?F是相關(guān)參數(shù)。

      基于EBM的譜峰對齊方法主要包括峰匹配和保留時間調(diào)整這兩個部分。通過構(gòu)建EBM分層統(tǒng)計模型,以后驗概率的形式來進行峰匹配,并計算峰匹配的置信度,選取具有較高匹配置信度的譜峰對,產(chǎn)生有代表性的標志峰,利用這些峰的保留時間制作網(wǎng)格,根據(jù)待對齊譜峰的保留時間是否位于網(wǎng)格內(nèi)來對保留時間進行相應(yīng)調(diào)整?;贓BM的譜峰對齊算法是在結(jié)合其他方法優(yōu)點的基礎(chǔ)上,一種基于分層統(tǒng)計模型的算法,適用于同質(zhì)數(shù)據(jù)和異質(zhì)數(shù)據(jù),在數(shù)據(jù)處理過程中不需要進行任何形式的數(shù)據(jù)轉(zhuǎn)換,能較好地處理實驗組間和組內(nèi)的變異。Jeong等人使用標準代謝物混合物的實驗數(shù)據(jù)證實基于EBM的譜峰對齊算法比非模型算法DISCO、mSPA的性能好。mSPA只能處理同質(zhì)數(shù)據(jù),EBM和DISCO都適用于同質(zhì)數(shù)據(jù)和異質(zhì)數(shù)據(jù),但是EBM在進行譜峰匹配時不需要對保留時間進行任何形式的數(shù)據(jù)轉(zhuǎn)換,而DISCO則需要對保留時間進行Z值轉(zhuǎn)換。

      小 結(jié)

      代謝組學的實驗結(jié)果通常存在著實驗間的變異和實驗內(nèi)的變異,實驗間變異比實驗內(nèi)變異的量級要高,特別是保留時間,主要取決于實驗性能的設(shè)置。代謝組學數(shù)據(jù)的預處理,尤其是峰對齊,是一項十分耗費時間的工作,是代謝組學數(shù)據(jù)預處理的一個難點。

      近年來,代謝組學研究者提出了多種譜峰對齊算法[19],譜峰對齊自動算法也日趨完善,但這些算法中假設(shè)的模型都不能捕獲真實的信息,任何一個峰對齊預處理步驟都會導致信息的丟失和模型的偏倚。在對齊過程中需要考慮引起信號畸變程度及對齊的精細程度問題。有一些算法的復雜性和自定義參數(shù)的優(yōu)化使得運行的時間較長,需要考慮計算速度和對計算機內(nèi)存的需求。對于輸入?yún)?shù)的問題,涉及到數(shù)據(jù)處理能否自動化及對操作人員的專業(yè)和經(jīng)驗要求。另外,有的算法需要進行成對的比較和選擇參考樣本,同樣使得算法比較耗費時間。目前所提出來的這些方法都缺少實證比較,沒有統(tǒng)一的標準來衡量哪一種算法的性能更好,研究者在算法的選擇方面依然存在著一定的困難。

      通過研究,本文對譜峰對齊方法選擇提出以下建議:

      1.在代謝組學的數(shù)據(jù)研究中,當獲得需要預處理的色譜數(shù)據(jù)為全色譜信息,并且沒有進行峰檢測、特征提取時可以考慮COW算法。該算法適用單一色譜數(shù)據(jù),如標準氣相色譜法-火焰離子檢測的二維數(shù)據(jù)或高效液相色譜中單波長紫外檢測數(shù)據(jù);多種色譜數(shù)據(jù),如高效液相色譜聯(lián)合二級陣列管的三維數(shù)據(jù)或氣相色譜-傅里葉轉(zhuǎn)換紅外光譜數(shù)據(jù)。COW算法結(jié)果精確,但計算復雜、費時。

      2.在實驗中由于各種實驗因素和代謝物中官能團的影響,不同代謝物可能會出現(xiàn)相同的保留時間,因此僅利用保留時間進行色譜峰對齊會出現(xiàn)較高的假陽性率。Msort算法和DISCO算法同時利用保留時間和碎片離子的質(zhì)譜信息進行峰對齊,可以降低峰對齊算法的假陽性率。當數(shù)據(jù)具有異質(zhì)性,不宜選用Msort算法;DISCO算法對非模擬的真實生物樣本數(shù)據(jù),處理效果較好。另外,如果需要進行進一步的數(shù)據(jù)分析,宜選用DISCO算法,其峰對齊結(jié)果可以有效地運用于模式識別和統(tǒng)計顯著性檢驗中。

      3.當數(shù)據(jù)是在相同實驗配置下獲得的同質(zhì)數(shù)據(jù),且代謝物保留時間漂移較小時,可以選擇計算復雜度較低的mSPA算法。但此算法對齊效果取決于譜峰團簇的劃分,自適應(yīng)能力不強。當數(shù)據(jù)是在不同實驗配置下獲得的異質(zhì)數(shù)據(jù)時,最好選擇基于分層統(tǒng)計模型的EBM算法。該算法不需要進行任何形式的數(shù)據(jù)轉(zhuǎn)換,能較好地處理實驗組間和組內(nèi)的變異。

      [1]Nicholson JK,Lindon JC,Holmes E.Metabonomics:understanding the metabolic responses of living systems to pathophysiological stimuli via multivariate statistical analysis of biological NMR spectroscopic data.Xenobiotica,1999,29(11):1181-1189.

      [2]Bollard ME,Stanley EG,Lindon JC,et al.NMR-based metabonomic approaches for evaluating physiological influences on biofluid composition.NMR Biomed,2005,18(3):143-162.

      [3]Moolenaar SH,Engelke UFH,Wevers RA.Proton nuclear magnetic resonance spectroscopy of body fluids in the field of inborn errors of metabolism.Ann Clin Biochem,2003,40(1):16-24.

      [4]Brindle JT,Antti H,Holmes E,et al.Rapid and noninvasive diagnosis of the presence and severity of coronary heart disease using 1H-NMR-based metabonomics.Nature Med,2002,8(12):1439-1444.

      [5]隆琦,陳楠.代謝組學在疾病中的應(yīng)用進展.醫(yī)學綜述,2010,16(9):100-1302.

      [6]Zhao XJ,Fritsche J,Wang JS,et al.Metabonomic fingerprints of fasting plasma and spot urine reveal human pre-diabetic metabolic traits.Metabolomics,2010,6(3):362-374.

      [7]趙維薇,許文濤,王龑,等.代謝組學研究技術(shù)及其應(yīng)用.生物技術(shù)通報,2011(12):57-64.

      [8]亓云鵬,胡杰偉,柴逸峰,等.代謝組學數(shù)據(jù)處理研究的進展.計算機與應(yīng)用化學,2008,25(9):1139-1142.

      [9]黃赫,鄧伶莉,周玲,等.一種新的核磁共振譜峰對齊算法.光電技術(shù)應(yīng)用,2013,28(2):51-54.

      [10]Nielsen NPV,Carstensen JM,Smedsgaard J.Aligning of single and multiple wavelength chromatographic profiles for chemometric data analysis using correlation optimized warping.Journal of Chromatography A,1998,805:17-35.

      [11]Tomasi G,F van den Berg,Andersson C.Correlation optimized warping and dynamic time warping as preprocessing methods for chromatographic data.Journal of Chemometrics,2004,18(5):231-241.

      [12]Christin C,Smilde AK,Hoefsloot HCJ,et al.Optimized time alignment algorithm for LC-MS data:correlation optimized warping using component detection algorithm-selected mass chromatograms.Anal Chem,2008,80(18):7012-7021.

      [13]Cheolhwan Oh,Huang XD,Regnier FE,et al.Comprehensive two-dimensional gas chromatography/time-of-flight mass spectrometry peak sorting algorithm.Journal of Chromatography A,2008,1179(2):205-215.

      [14]Wang B,Fang A,Heim J,et al.DISCO:distance and spectrum correlation optimization alignment for two-dimensional gas chromatogramphy time-of-flight mass spectrometry-based metabolomics.Anal Chem,2010,82(12):5069-5081.

      [15]Zhang ZM,Liang YZ,Lu HM,et al.Multiscale peak alignment for chromatographic datasets.Journal of Chromatography A,2012,1223:93-106.

      [16]Jeong J,Zhang X,Shi X,et al.An efficient post-hoc integration methods improving peak alignment of metabolomics data from GCxGC/TOF-MS.BMC Bioinformatics,2013,14(1):123.

      [17]Jeong J,Shi X,Zhang X,et al.Model-based peak alignment of metabolomic profiling from comprehensive two-dimensional gas chromatography mass spectrometry.BMC Bioinformatics,2012,13:27.

      [18]Jeong J,Shi X,Zhang X,et al.An empirical Bayes model using a competition score for metabolite identification in gas chromatography mass spectrometry.BMC Bioinformatics,2011,12:392.

      [19]Smith R,Ventura D,Prince JT.LC-MS alignment in theory and practice:a comprehensive algorithmic review.Briefings in Bioinformatics,2013.

      (責任編輯:郭海強)

      黑龍江省自然科學基金項目(ZD201314)

      △通信作者:劉美娜,Email:liumeina369@163.com

      猜你喜歡
      譜峰代謝物組學
      連續(xù)波體制引信多譜峰特性目標檢測方法
      阿爾茨海默病血清代謝物的核磁共振氫譜技術(shù)分析
      X射線光電子能譜復雜譜圖的非線性最小二乘法分析案例
      基于無基底扣除的數(shù)據(jù)趨勢累積譜峰檢測算法
      色譜(2021年6期)2021-05-06 02:18:56
      巖性密度測井儀工作原理與典型故障分析
      科技資訊(2020年12期)2020-06-03 04:44:20
      口腔代謝組學研究
      基于UHPLC-Q-TOF/MS的歸身和歸尾補血機制的代謝組學初步研究
      柱前衍生化結(jié)合LC-MSn分析人尿中茶堿及其代謝物
      代謝組學在多囊卵巢綜合征中的應(yīng)用
      HPLC-MS/MS法分析乙酰甲喹在海參中的主要代謝物
      余姚市| 兴城市| 玉树县| 托克托县| 沙雅县| 邵东县| 桂林市| 特克斯县| 崇左市| 灵武市| 子洲县| 江口县| 东辽县| 鹤庆县| 濉溪县| 吴忠市| 汉阴县| 祁门县| 永仁县| 建平县| 屏东市| 沙坪坝区| 西乌珠穆沁旗| 沛县| 盐亭县| 南江县| 清徐县| 沙河市| 图们市| 吉木乃县| 三原县| 彩票| 历史| 东光县| 盘山县| 苏州市| 佳木斯市| 安多县| 洪雅县| 平度市| 涟水县|