劉新卓,鄧伶莉,2*,王婉蘭,沈桂平,許晶晶,董繼揚(yáng)
(1.廈門(mén)大學(xué) 物理科學(xué)與技術(shù)學(xué)院,福建省等離子體與磁共振研究重點(diǎn)實(shí)驗(yàn)室,福建廈門(mén)361005;2.東華理工大學(xué)信息工程學(xué)院,江西南昌330013)
?
核磁共振波譜信號(hào)分析中的尺度縮放新算法
劉新卓1,鄧伶莉1,2*,王婉蘭1,沈桂平1,許晶晶1,董繼揚(yáng)1
(1.廈門(mén)大學(xué) 物理科學(xué)與技術(shù)學(xué)院,福建省等離子體與磁共振研究重點(diǎn)實(shí)驗(yàn)室,福建廈門(mén)361005;2.東華理工大學(xué)信息工程學(xué)院,江西南昌330013)
摘要:尺度縮放(scaling)是代謝組學(xué)數(shù)據(jù)處理中的一個(gè)重要環(huán)節(jié),其主要目的是增強(qiáng)后續(xù)多元統(tǒng)計(jì)模型的分析能力.但目前常用的尺度縮放方法大多將尺度縮放當(dāng)成一個(gè)獨(dú)立的數(shù)據(jù)處理步驟,而未考慮多元統(tǒng)計(jì)模型的需要,使得后續(xù)的多元統(tǒng)計(jì)模型難以達(dá)到最優(yōu)的分析能力.因此,提出一種模型自適應(yīng)的數(shù)據(jù)尺度縮放算法,該算法將模型性能的代價(jià)函數(shù)寫(xiě)成變量縮放系數(shù)的一個(gè)函數(shù),通過(guò)最大化代價(jià)函數(shù)來(lái)尋找最優(yōu)的變量縮放系數(shù).并且利用真實(shí)的核磁共振波譜數(shù)據(jù)對(duì)新方法進(jìn)行評(píng)估,與單位方差法(unit variance,UV)、帕萊托法(Pareto)和變量穩(wěn)定性法(variable stability,VAST)3種常用的尺度縮放方法進(jìn)行比較.結(jié)果表明,新方法能夠保留譜數(shù)據(jù)的結(jié)構(gòu)信息,有效增強(qiáng)重要變量,抑制噪聲和無(wú)關(guān)變量,提高模型的解釋能力和預(yù)測(cè)能力.
關(guān)鍵詞:尺度縮放;磁共振;波譜信號(hào);多元統(tǒng)計(jì)分析
代謝組學(xué)方法是20世紀(jì)90年代末期發(fā)展起來(lái)的一門(mén)新興科學(xué),它借助于高通量、高靈敏度與高精確度的現(xiàn)代分析技術(shù),分析細(xì)胞、組織和生物體液中內(nèi)源性代謝物的整體組成,并通過(guò)代謝物復(fù)雜的、動(dòng)態(tài)的變化,辨識(shí)和解析被研究對(duì)象的生理病理狀態(tài)[1].在疾病早期診斷[2-3]、藥物靶點(diǎn)分析[4]、環(huán)境毒理分析[5]等領(lǐng)域得到了廣泛的關(guān)注.
核磁共振(nuclear magnetic resonance,NMR)波譜技術(shù)由于其非侵入性、無(wú)偏向性和可重現(xiàn)性等優(yōu)點(diǎn),已成為代謝組學(xué)研究中獲取生物樣品代謝物信息的重要手段之一[6-9].然而,在生物樣品的NMR代謝波譜信號(hào)數(shù)據(jù)中,由于代謝物濃度的差別、氫核數(shù)目不同等原因,代謝物的信號(hào)強(qiáng)度往往相差很大.比如,正常人體尿液中肌酐(creatinine)和乳酸(lactate)的濃度相差近20倍,即使?jié)舛认嗤?種代謝物,由于其分子結(jié)構(gòu)的差異、氫核數(shù)目的不同,對(duì)應(yīng)共振峰的強(qiáng)度也會(huì)有很大差異.當(dāng)利用主成分分析(principal component analysis,PCA)[10]、偏最小二乘分析(partial least square,PLS)[11]和正交偏最小二乘分析(orthogonal PLS,OPLS)[12]這類(lèi)基于方差的多變量統(tǒng)計(jì)方法直接對(duì)這些數(shù)據(jù)分析時(shí),弱信號(hào)的作用容易被強(qiáng)信號(hào)作用覆蓋,而難于被發(fā)現(xiàn)[13].而實(shí)際上,強(qiáng)信號(hào)的變化可能只是由于尺度大造成的,不一定具有明顯的生物學(xué)意義,因此為了消除數(shù)據(jù)尺度差異過(guò)大帶來(lái)的不良影響,需要對(duì)數(shù)據(jù)尺度進(jìn)行縮放處理[14].
在基于NMR的代謝組學(xué)中,常用的尺度縮放(scaling)方法主要有單位方差法(unit variance,UV)[15]、帕萊托法(Pareto)[16]和變量穩(wěn)定性法(variable stability,VAST)[17].其中,UV方法處理后,各變量將具有相同的標(biāo)準(zhǔn)差.UV方法對(duì)噪聲比較敏感,不利于特征信號(hào)的識(shí)別;Pareto方法是介于不做尺度縮放處理與UV方法之間的一種方法,在降低大信號(hào)的過(guò)重影響的同時(shí)一定程度上保持了原始數(shù)據(jù)的結(jié)構(gòu),相對(duì)于UV方法,得到的結(jié)果與原始數(shù)據(jù)更為相近;VAST方法的縮放“尺度”采用各組變量平均穩(wěn)定性,由于噪聲點(diǎn)的穩(wěn)定性一般比較差,因此該方法可以有效降低噪聲點(diǎn)的權(quán)重,改善UV方法的處理效果.尺度縮放的目的是為了改善多元統(tǒng)計(jì)分析效果,提高多元統(tǒng)計(jì)分析模型的可解釋性.但是現(xiàn)有的這些尺度縮放方法只是從數(shù)據(jù)本身出發(fā),并未考慮對(duì)后續(xù)多元統(tǒng)計(jì)分析的影響,因此,其多元統(tǒng)計(jì)分析(如PCA或PLS)的結(jié)果往往并不理想.
本研究提出一種模型自適應(yīng)的尺度縮放方法(model adaptive scaling,MAS),即針對(duì)所采用的多元統(tǒng)計(jì)分析建模方法,給出適合該多元統(tǒng)計(jì)模型的最優(yōu)尺度縮放方法.使用其對(duì)NMR檢測(cè)的代謝指紋譜信號(hào)進(jìn)行尺度縮放處理,能改善后續(xù)多元統(tǒng)計(jì)分析效果.
1理論與方法
設(shè)數(shù)據(jù)集中包含m個(gè)觀(guān)測(cè)樣本,每個(gè)樣本有n個(gè)變量,則該數(shù)據(jù)集可用矩陣表示為X=(xij)m×n.尺度縮放方法可以用如下一般通式表示:
(1)
其中sj為矩陣X第j列(即第j個(gè)變量)的縮放系數(shù).
UV方法采用各變量(列)的標(biāo)準(zhǔn)差作為縮放的“尺度”進(jìn)行歸一化,因此,數(shù)據(jù)經(jīng)UV方法處理后各變量的標(biāo)準(zhǔn)差均為1.但由于信號(hào)采集過(guò)程中,噪聲污染是不可避免的,而噪聲的標(biāo)準(zhǔn)差通常較小,因此UV方法縮放后噪聲相對(duì)于代謝物信號(hào)將被放大,不利于后續(xù)生物標(biāo)志物的識(shí)別.Pareto方法將變量的標(biāo)準(zhǔn)差的開(kāi)方作為“尺度”進(jìn)行縮放,在一定程度上保留了原始數(shù)據(jù)的結(jié)構(gòu)信息,同時(shí)也降低了大信號(hào)的過(guò)重影響,較UV方法的處理效果有所改善.VAST方法在UV方法的基礎(chǔ)上,利用各變量在不同類(lèi)別樣本中的平均穩(wěn)定性,進(jìn)一步微調(diào)變量的縮放“尺度”,由于噪聲信號(hào)的穩(wěn)定性一般比代謝物信號(hào)的穩(wěn)定性差,因此,VAST方法可以有效地降低噪聲信號(hào)的權(quán)重,改善UV方法的處理效果.但VAST方法采用各組樣本的平均穩(wěn)定性,而某些代謝物雖然很穩(wěn)定,但對(duì)于分組并無(wú)顯著意義[13].例如:人體血液中肌酸(creatine)濃度相對(duì)穩(wěn)定,但通常肌酸與大多疾病沒(méi)有存在明顯的關(guān)聯(lián).
尺度縮放是數(shù)據(jù)預(yù)處理的一個(gè)步驟,其目的是增強(qiáng)后續(xù)多元統(tǒng)計(jì)模型的分析能力.為了使后續(xù)的多元統(tǒng)計(jì)分析模型具有最優(yōu)的分析能力,往往需要采用不同的數(shù)據(jù)預(yù)處理方法.然而,常用的UV、Pareto和VAST等方法均未考慮后續(xù)的多元統(tǒng)計(jì)模型的需要.針對(duì)這一問(wèn)題,本研究提出了MAS方法.
設(shè)數(shù)據(jù)矩陣為X,樣本響應(yīng)矢量為Y,按如下步驟更新縮放系數(shù)s:
1) 初始化.分別對(duì)X和Y做中心化處理,并將設(shè)置s初始化值.
2) 模型建立.利用式(2)計(jì)算縮放后數(shù)據(jù)矩陣Xm;建立Xm的多元統(tǒng)計(jì)分析模型(如PCA或PLS),得到模型的負(fù)載矢量u.
Xm=X·diag(s).
(2)
3) 系數(shù)更新.更新縮放系數(shù)s,使得Xm在u上投影與響應(yīng)Y線(xiàn)性相關(guān)性最大,即:
(3)
利用梯度下降法更新系數(shù)s:
(4)
其中相關(guān)系數(shù)r可以用Xmu和Y的協(xié)方差和標(biāo)準(zhǔn)差表示為
則有
(5)
4) 停止條件.重復(fù)2)至3),直至s收斂,即Δs<ε.
上述算法中的負(fù)載u是由后續(xù)數(shù)據(jù)分析所選擇的多元統(tǒng)計(jì)分析模型(如PCA或PLS)計(jì)算得到,選擇不同的統(tǒng)計(jì)模型即可得到不同的u,稱(chēng)上述算法為MAS方法.縮放系數(shù)s反映變量的重要性,該算法是通過(guò)不斷調(diào)整s來(lái)獲得最終的收斂結(jié)果.考慮到s初始化可能對(duì)結(jié)果有一定的影響,本研究將s初始化為全1矢量.
2代謝指紋譜數(shù)據(jù)
為了驗(yàn)證MAS方法的有效性,采用該方法對(duì)實(shí)驗(yàn)獲取的代謝指紋譜數(shù)據(jù)進(jìn)行尺度縮放處理.實(shí)驗(yàn)數(shù)據(jù)來(lái)自一個(gè)關(guān)于素食人群代謝響應(yīng)的研究,數(shù)據(jù)集由41個(gè)普通飲食男性志愿者(普食)和42個(gè)奶素食男性志愿者(素食)的尿液1H-NMR譜組成,素食志愿者均保持了5年的素食飲食習(xí)慣.關(guān)于樣本收集的具體資料可參考文獻(xiàn)[18].
尿液樣本的1H-NMR譜數(shù)據(jù)均在Varian 500 MHz(Palo Alto,CA,USA)核磁共振譜儀上獲得.數(shù)據(jù)預(yù)處理采用MetaboMiner V1.0軟件[19]對(duì)譜圖進(jìn)行相位校正、基線(xiàn)校正和手動(dòng)譜峰對(duì)齊等.取化學(xué)位移δ0.5~9.0區(qū)間的譜數(shù)據(jù),并截除δ4.6~6.0(殘余水峰和尿素峰)、δ0.6~0.8(DSS峰)、δ1.6~1.8(DSS峰)3個(gè)區(qū)域(DSS是2,2-二甲基2-硅戊烷-5-磺酸鈉的簡(jiǎn)稱(chēng)),采用等間隔積分方法[20]將譜數(shù)據(jù)積分成1 348個(gè)數(shù)據(jù)點(diǎn),然后利用組內(nèi)聚合歸一化(GAN)方法[21]對(duì)數(shù)據(jù)集進(jìn)行歸一化,用于降低尿液樣品濃度差異對(duì)信號(hào)整體強(qiáng)度的影響,增強(qiáng)樣本間的可比性.此外,發(fā)現(xiàn)普通組中有2個(gè)樣本的葡萄糖信號(hào)遠(yuǎn)遠(yuǎn)大于其他樣本,且在PCA得分圖中這2個(gè)樣本落入95%置信區(qū)間之外.推測(cè)這2個(gè)志愿者可能患有疾病,故將這2個(gè)樣本剔除,最終得到一個(gè)81×1 348的數(shù)據(jù)矩陣X.
3實(shí)驗(yàn)與分析
3.1譜圖結(jié)構(gòu)分析
采用基于PCA模型的自適應(yīng)尺度縮放方法(PCA-MAS)對(duì)數(shù)據(jù)矩陣X進(jìn)行處理.為了比較分析,分別采用UV、Pareto和VAST方法對(duì)數(shù)據(jù)矩陣X進(jìn)行尺度縮放,尺度縮放前后的堆積譜如圖1所示,圖中用不同顏色來(lái)區(qū)分不同樣品的NMR譜.
圖1(a)為原始數(shù)據(jù)的堆積譜,其中基線(xiàn)附近的小幅度變量主要由噪聲數(shù)據(jù)點(diǎn)和一些濃度較低的代謝物共振峰組成,而幅度較大的變量則是高濃度代謝物的共振峰.在圖1(a)中標(biāo)記了2個(gè)肉眼能辨識(shí)的高強(qiáng)度共振峰A和B,用于觀(guān)察不同尺度縮放方法對(duì)信號(hào)的影響.
圖1(b)是UV方法縮放后的堆積譜,可見(jiàn)原始譜圖中的基線(xiàn)的幅度被錯(cuò)誤地放大了.代謝物的分子結(jié)構(gòu)信息(即同一代謝物的不同共振峰之間的比例關(guān)系)被嚴(yán)重破壞,這可能使得后續(xù)的統(tǒng)計(jì)分析結(jié)果難于解釋.此外,A和B峰完全淹沒(méi)在周?chē)肼曅盘?hào)中,很難辨識(shí).說(shuō)明UV方法對(duì)噪聲很敏感,不適用于低信噪比(SNR)的數(shù)據(jù).
(a)原始數(shù)據(jù);(b)UV;(c)Pareto;(d)VAST;(e)PCA-MAS.圖1 尺度縮放后的堆積譜Fig.1Stacked spectrum processed by different scaling methods
圖1(c)是Pareto方法縮放后的堆積譜,可以看出相對(duì)于UV方法的縮放結(jié)果,Pareto方法縮放對(duì)噪聲變量有明顯的抑制作用.2個(gè)標(biāo)記譜峰與其鄰近變量的對(duì)比度基本上得到了保持,但對(duì)標(biāo)記強(qiáng)度較弱的信號(hào)峰A,其放大效果相對(duì)于被標(biāo)記的較強(qiáng)的信號(hào)峰B并不明顯.VAST方法是在UV方法的基礎(chǔ)上對(duì)變量的權(quán)重進(jìn)一步調(diào)整,由圖1(d)中 2個(gè)被標(biāo)記峰的縮放效果來(lái)看,雖然VAST與UV方法一樣對(duì)譜圖結(jié)構(gòu)信息破壞嚴(yán)重,但還是能明顯地識(shí)別出部分穩(wěn)定性好的信號(hào)峰.
圖1(e)是PCA-MAS縮放后的堆積譜,可以看出PCA-MAS對(duì)噪聲信號(hào)的抑制效果是4種縮放方法中最好的,縮放后譜圖中的譜峰信息得到了有效保留,肉眼很容易識(shí)別出.此外,對(duì)比2個(gè)被標(biāo)記信號(hào)峰,較弱的信號(hào)峰A強(qiáng)度得到有效增強(qiáng),同時(shí)較強(qiáng)的信號(hào)峰B得到了有效抑制.較強(qiáng)的信號(hào)峰和較弱的信號(hào)峰在縮放處理后,可比性較Pareto方法(圖1(c))處理更好.
3.2統(tǒng)計(jì)建模分析
為了進(jìn)一步對(duì)比尺度縮放效果,對(duì)各尺度縮放方法處理后的數(shù)據(jù)矩陣分別做PCA,對(duì)應(yīng)的PCA得分圖如圖2所示.
(a)原始數(shù)據(jù);(b)UV;(c)Pareto;(d)VAST;(e)PCA-MAS. 橫、縱坐標(biāo)上的百分?jǐn)?shù)為主成分貢獻(xiàn)率.圖2 數(shù)據(jù)尺度縮放后的PCA得分圖Fig.2PCA score plots of datasets scaled by different methods
圖2(a)~(c)中,原始數(shù)據(jù)、UV方法縮放和Pareto方法縮放后,素食和普食2組樣本在PCA模型的前兩個(gè)主成分上均無(wú)法區(qū)分開(kāi);VAST方法縮放后,2組樣本在PCA第二主成分上能較好區(qū)分開(kāi),見(jiàn)圖2(d);PCA-MAS方法縮放后,2組樣本在PCA的第一主成分上可以明顯的分開(kāi),而且較VAST方法具有較好的組內(nèi)聚集性.這是由于素食和普食人群的差異變量(代謝物)的強(qiáng)度大多比較弱,對(duì)于原始數(shù)據(jù)這些弱的信號(hào)作用被強(qiáng)信號(hào)所掩蓋,故PCA很難提取到;UV方法雖然能將所有變量縮放到同一個(gè)尺度(即具有相同的標(biāo)準(zhǔn)差),但是與此同時(shí)噪聲信號(hào)也被放大,進(jìn)而影響PCA對(duì)差異信息的提??;Pareto方法是權(quán)衡UV方法與不做縮放處理得到的一種折中方法,但弱的差異信號(hào)放大效果仍不夠理想;VAST方法主要增強(qiáng)變異系數(shù)較小的變量,但變異系數(shù)小不代表這些變量對(duì)區(qū)分2組樣本的貢獻(xiàn)就大,因此VAST方法縮放后差異變量(即對(duì)區(qū)分2組樣本的貢獻(xiàn)較大的變量)所占的方差比例不一定最大,從而不能被PCA第一主成分所表征;而PCA-MAS方法對(duì)差異變量的增強(qiáng)作用比較好,對(duì)噪聲或無(wú)關(guān)變量的抑制作用較強(qiáng),因此,差異變量所占的方差比例較大,容易被PCA的第一主成分所表示.
3.3模型性能分析
結(jié)合蒙特卡羅交叉驗(yàn)證(Monte Carlo cross-validation,MCCV)[22]與受試者工作特性曲線(xiàn)下面積(area under a receiver operating characteristic curve,AUC)[23],分別采用內(nèi)部驗(yàn)證和外部驗(yàn)證方法對(duì)不同尺度縮放方法處理后的數(shù)據(jù)對(duì)應(yīng)的模型的性能進(jìn)行定量評(píng)估.
內(nèi)部驗(yàn)證:利用數(shù)據(jù)矩陣X計(jì)算縮放系數(shù),尺度縮放處理后數(shù)據(jù)矩陣為Xm,從Xm中隨機(jī)挑選80%樣本作為訓(xùn)練集建模,剩下20%樣本作為測(cè)試集;對(duì)訓(xùn)練集作PCA,提取第一個(gè)主成分建立PCA模型;利用AUC衡量測(cè)試集在模型中的可分性(即模型區(qū)分2組樣本的能力).隨機(jī)重復(fù)40次實(shí)驗(yàn),取平均值及其標(biāo)準(zhǔn)差,記作Qint.
外部驗(yàn)證:對(duì)于數(shù)據(jù)矩陣X,每次隨機(jī)挑選80%樣本作為訓(xùn)練集建模,剩下20%樣本作為測(cè)試集;計(jì)算訓(xùn)練樣本的尺度縮放系數(shù)矢量s,對(duì)尺度縮放處理后的訓(xùn)練樣本作PCA,提取第一個(gè)主成分建立PCA模型;利用縮放系數(shù)矢量s對(duì)測(cè)試樣本進(jìn)行尺度縮放處理,利用AUC衡量測(cè)試集在PCA模型中的可分性.隨機(jī)重復(fù)40次實(shí)驗(yàn),取平均值及其標(biāo)準(zhǔn)差,記作Qext.采用尺度縮放方法后各模型的預(yù)測(cè)能力如表1所示.可以看出,利用UV、Pareto和VAST方法處理后,模型預(yù)測(cè)能力基本相同,較原始數(shù)據(jù)(不做處理)的結(jié)果并沒(méi)有明顯提高;采用PCA-MAS方法處理后,模型無(wú)論是內(nèi)部驗(yàn)證還是外部驗(yàn)證的預(yù)測(cè)能力(Qint=94%;Qext=81%),均遠(yuǎn)高于其他3種方法以及原始數(shù)據(jù)對(duì)應(yīng)模型的預(yù)測(cè)性能.該結(jié)果進(jìn)一步證明了PCA-MAS方法能夠避免噪聲以及無(wú)關(guān)代謝物對(duì)模型的干擾,突出特征代謝物信號(hào)對(duì)模型的響應(yīng).
表1 不同尺度縮放方法比較結(jié)果Tab.1 Effect of different scaling methods
4結(jié)論
MAS能夠針對(duì)所選取的多元統(tǒng)計(jì)分析模型,計(jì)算得到最優(yōu)的尺度縮放系數(shù)來(lái)對(duì)數(shù)據(jù)進(jìn)行尺度縮放處理,使得多元統(tǒng)計(jì)分析模型能準(zhǔn)確提取特征信息.相對(duì)于以往基于數(shù)據(jù)的尺度縮放方法,該方法不僅能夠有效保持譜數(shù)據(jù)的結(jié)構(gòu)信息,抑制噪聲以及強(qiáng)的非特征代謝物信號(hào)強(qiáng)度,同時(shí)能有針對(duì)性地提高重要代謝物信號(hào)的強(qiáng)度.另外,該方法對(duì)所采用的多元統(tǒng)計(jì)分析模型具有很好的適用性,使用靈活,處理結(jié)果有效.
參考文獻(xiàn):
[1]NICHOLSON J K,LINDON J C,HOLMES E.′Metabonomics′:understanding the metabolic responses of living systems to pathophysiological stimuli via multivariate statistical analysis of biological NMR spectroscopic data[J].Xenobiotica,1999,29(11):1181-1189.
[2]GOWDA G A N,ZHANG S C,GU H W,et al.Metabolomics-based methods for early disease diagnostics[J].Expert Review of Molecular Diagnostics,2008,8(5):617-633.
[3]RITCHIE S A,AHIAHONU P W,JAYASINGHE D,et al.Reduced levels of hydroxylated,polyunsaturated ultra long-chain fatty acids in the serum of colorectal cancer patients:implications for early screening and detection[J].BMC Medicine,2010,8(1):13.
[4]CLAYTON T A,LINDON J C,CLOAREC O,et al.Pharmaco-metabonomic phenotyping and personalized drug treatment[J].Nature,2006,440(7087):1073-1077.
[5]BUNDY J G,SPURGEON D J,SVENDSEN C,et al.Environmental metabonomics:applying combination biomarker analysis in earthworms at a metal contaminated site[J].Ecotoxicology,2004,13(8):797-806.
[6]GRIFFIN J L,WILLIAMS H J,SANG E,et al.Metabolic profiling of genetic disorders:A multitissue1H nuclear magnetic resonance spectroscopic and pattern recognition study into dystrophic tissue[J].Analytical Biochemistry,2001,293(1):16-21.
[7]OWUSU-SARFO K,ASIAGO V M,DENG L,et al.NMR-based metabolite profiling of pancreatic cancer[J].Current Metabolomics,2014,2(3):204-212.
[8]JIMENEZ B,MIRNEZAMI R,KINROSS J,et al.1H HR-MAS NMR spectroscopy of tumor-induced local metabolic "field-effects" enables colorectal cancer staging and prognostication[J].Journal of Proteome Research,2013,12(2):959-968.
[9]危陽(yáng)洋,王彩虹,李偉,等.甲亢患者血清和尿液的核磁共振代謝組學(xué)研究[J].高等學(xué)?;瘜W(xué)學(xué)報(bào),2010,31(2):279-284.
[10]WOLD S,ESBENSEN K,GELADI P.Principal component analysis[J].Chemometrics and Intelligent Laboratory Systems,1987,2(1/2/3):37-52.
[11]BARKER M,RAYENS W.Partial least squares for discrimination[J].Journal of Chemometrics,2003,17(3):166-173.
[12]BYLESJO M,RANTALAINEN M,CLOAREC O,et al.OPLS discriminant analysis:combining the strengths of PLS-DA and SIMCA classification[J].Journal of Chemometrics,2006,20(8/9/10):341-351.
[13]董繼揚(yáng),李偉,鄧伶莉,等.核磁共振代謝組學(xué)數(shù)據(jù)的尺度歸一化新方法[J].高等學(xué)?;瘜W(xué)學(xué)報(bào),2011,32(2):268-274.
[14]溫錦波,楊叔禹,肖嫻,等.基于核磁共振的代謝組學(xué)數(shù)據(jù)預(yù)處理[J].廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,46(6):783-787.
[15]VAN DEN BERG R A,HOEFSLOOT H C J,WESTERHUIS J A,et al.Centering,scaling,and transformations:improving the biological information content of metabolomics data[J].Bmc Genomics,2006,7(4):1-15.
[16]ODUNSI K,WOLLMAN R,AMBROSONE C,et al.Detection of epithelial ovarian cancer using1H-NMR-based metabonomics[J].International Journal of Cancer,2005,113(5):782-788.
[17]KEUN H C,EBBELS T M D,ANTTI H,et al.Improved analysis of multivariate data by variable stability scaling:application to NMR-based metabolic profiling[J].Analytica Chimica Acta,2003,490(1/2):265-276.
[18]XU J J,YANG S Y,CAI S H,et al.Identification of biochemical changes in lactovegetarian urine using1H NMR spectroscopy and pattern recognition[J].Analytical and Bioanalytical Chemistry,2010,396(4):1451-1463.
[19]董繼揚(yáng),周玲,鄧伶莉.代謝組學(xué)數(shù)據(jù)挖掘軟件(簡(jiǎn)稱(chēng):MetaboMiner V1.0):2013SR060215[Z].2013-06-21.
[20]DIETERLE F,ROSS A,G?TZ SCHLOTTERBECK A,et al.Probabilistic quotient normalization as robust method to account for dilution of complex biological mixtures.Application in1H NMR metabonomics[J].Ana-lytical Chemistry,2006,78(13):4281-4290.
[21]DONG J,CHENG K K,XU J,et al.Group aggregating normalization method for the preprocessing of NMR-based metabolomic data[J].Chemometrics and Intelligent Laboratory Systems,2011,108(2):123-132.
[22]XU Q S,LIANG Y Z.Monte Carlo cross validation[J].Chemometrics and Intelligent Laboratory Systems,2001,56(1):1-11.
[23]GREINER M,PFEIFFER D,SMITH R D.Principles and practical application of the receiver-operating cha-racteristic analysis for diagnostic tests[J].Preventive Veterinary Medicine,2000,45(1/2):23-41.
doi:10.6043/j.issn.0438-0479.201601006
收稿日期:2016-01-06錄用日期:2016-03-08
基金項(xiàng)目:國(guó)家自然科學(xué)基金(81371639,31372546);福建省自然科學(xué)基金(2015Y0032);廈門(mén)大學(xué)校長(zhǎng)基金(20720150018);東華理工大學(xué)科研基金(DHBK2015308)
*通信作者:denglingli1987@sina.com
中圖分類(lèi)號(hào):O 658
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):0438-0479(2016)04-0564-06
A New Variable-scaling Method for NMR Spectral Data Analyses
LIU Xinzhuo1,DENG Lingli1,2*,WANG Wanlan1,SHEN Guiping1,XU Jingjing1,DONG Jiyang1
(1.Fujian Provincial Key Laboratory of Plasma and Magnetic Resonance,College of Physical Science and Technology,Xiamen University,Xiamen 361005,China;2.School of Information Engineering,East China University of Technology,Nanchang 330013,China)
Abstract:Variable scaling,which aims to improve the performance of subsequently multivariate model,is a crucial procedure in metabolomic data analysis.However,most of the existing variable-scaling methods were carried out independently rather than taken into consideration the subsequently statistical model.Therefore,it is difficult for the optimal statistical model to be achieved.This paper proposes a model-adaptive-scaling method(MAS) for metabolic profiling analyses.The proposed method updates scaling coefficients of variables by upgrading the preselected statistical model.A real-world nuclear-magnetic-resonance-based(NMR-based) metabolic profiling set was used to evaluate the proposed method and to compare with other three commonly-used scaling methods,i.e.,unit variance(UV) scaling,Pareto scaling,and variable stability(VAST) scaling.Experimental results show that the proposed method outperforms other scaling methods in preserving the molecular information of spectra,enhancing important variables,and promoting the predicative ability of the preselected multivariate model.
Key words:scaling;magnetic resonance;spectral signal;multivariate statistical analysis
引文格式:劉新卓,鄧伶莉,王婉蘭,等.核磁共振波譜信號(hào)分析中的尺度縮放新算法[J].廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,55(4):564-569.
Citation:LIU X Z,DENG L L,WANG W L,et al.A new variable-scaling method for NMR spectral data analyses[J].Journal of Xiamen University(Natural Science),2016,55(4):564-569.(in Chinese)