哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室 (150086) 孫 萌 張 濤 李 康
采用核主成分分析法(kernel p rincipal component anal
ysis,KPCA)。近幾年,核主成分分析法受到越來越多的重視,本文在簡要介紹 KPCA原理的基礎(chǔ)上,通過對模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)的運(yùn)算考核其可視化效果,并且對 PCA和 KPCA兩種方法進(jìn)行了比較。
核主成分分析法是將核函數(shù)與主成分分析法結(jié)合,通過事先確定的非線性映射函數(shù)φ,將輸入向量 Xk(k=1,2,…,m)映射到特征空間 H:φ(Xk)中,然后在該特征空間 H中對數(shù)據(jù)進(jìn)行主成分分析〔1,2〕。通常情況下,我們并不了解變量間真正的關(guān)系,采用不當(dāng)?shù)姆蔷€性函數(shù),反而使結(jié)果不理想,并可能引起維數(shù)災(zāi)難。核函數(shù)則可以避免上述問題,它把非線性變換后的高維空間的內(nèi)積運(yùn)算轉(zhuǎn)換為原始空間中的核函數(shù)計(jì)算,不需要明確給出φ的具體形式,而是通過計(jì)算核函數(shù)K(Xi,Xj)的值來計(jì)算內(nèi)積。核主成分分析方法不是基于變換后的特征空間的協(xié)方差矩陣來計(jì)算特征向量,而是先求出輸入向量的核矩陣,在此核矩陣的基礎(chǔ)上算得其特征向量和特征值,從而避免了直接在變換后的高維空間求特征向量的運(yùn)算,大大減小了計(jì)算量。
KPCA法進(jìn)行數(shù)據(jù)可視化分析的基本計(jì)算步驟簡述如下:
(1)選定核函數(shù),并以此來計(jì)算輸入向量的核矩陣K;
(2)將 K矩陣中心化;
(3)按公式λiαi=Kαi計(jì)算矩陣 K的特征向量αi和特征值λi;
(4)為了確保原樣本的非線性相關(guān)系數(shù)矩陣的特征向量為單位向量,還需將相應(yīng)的αi通過進(jìn)行規(guī)范化;
針對具體數(shù)據(jù),核函數(shù)的選擇是一個(gè)重要的問題,采用不同的核函數(shù),可以構(gòu)造原始變量不同類型的關(guān)系。任何一個(gè)函數(shù)只要滿足M ercer條件,就可以作為核函數(shù),常用核函數(shù)有多項(xiàng)式核函數(shù)、徑向基核函數(shù)(RBF)、平方核函數(shù)和 Sigm oid核函數(shù)〔1,2〕。其中徑向基核函數(shù) (RBF)被認(rèn)為是一個(gè)較為穩(wěn)健的核函數(shù)。計(jì)算軟件可以使用M atlab7.6.0核主成分分析工具包等程序。
模擬試驗(yàn)
模擬試驗(yàn)的目的是,在類間可分的情況下,考察核主成分聚類分析的可視化效果,并在相同條件下對PCA和 KPCA兩種方法的可視化效果進(jìn)行比較。
1.模擬實(shí)驗(yàn) 1
由圖 1(a)和圖 1(b)可見,當(dāng)對分類有作用的差異變量間存在非線性關(guān)系時(shí),KPCA的聚類可視化結(jié)果明顯優(yōu)于 PCA的結(jié)果。KPCA的分析結(jié)果不僅能夠準(zhǔn)確地反映兩組的分類情況,而且組間的樣品點(diǎn)相距較遠(yuǎn),而 PCA兩類的樣品卻混在一起無法分辨。
圖 1 PCA和徑向基 KPCA的兩種可視化方法比較
2.模擬實(shí)驗(yàn) 2
在模擬實(shí)驗(yàn) 1的基礎(chǔ)上,分別混入 m′=50,200,500,1000個(gè)與分類無關(guān)的正態(tài)變量作為干擾變量,PCA和 KPCA分析結(jié)果如圖 2。結(jié)果顯示,加入 50、200和 500個(gè)對分類不起作用的無差異變量時(shí),KPCA仍具有顯著的分類可視化效果,但隨著無差異變量數(shù)目的增加 (如 m′=1000),其聚類效果會明顯變差。
圖 2 加入不同數(shù)目正態(tài)干擾變量時(shí)徑向基 KPCA的可視化結(jié)果比較 (σ=8)
為進(jìn)一步研究核主成分分析法對高維數(shù)據(jù)的可視化效果,現(xiàn)選取一個(gè)真實(shí)的實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)分為對照組、服用營養(yǎng)素兩組,每組各 10只小鼠,對其尿液的代謝組分用超高效液相色譜 -質(zhì)譜聯(lián)用儀進(jìn)行檢測,其中具有 886個(gè)代謝組分。在保持所有代謝組數(shù)據(jù)未進(jìn)行變量篩選情況下,采用徑向基函數(shù)作為核主成分分析法的核函數(shù),比較 KPCA與 PCA的效果,結(jié)果見圖3。結(jié)果顯示,PCA的分析結(jié)果不夠理想,但徑向基KPCA分析結(jié)果則較好地表示出了兩組的分類情況,說明其中可能含有具有生物學(xué)意義的代謝組成分。
與主成分分析法不同,核主成分分析法能夠解決變量間的非線性相關(guān)問題,其適用性更廣。用核主成分進(jìn)行聚類分析時(shí),需要設(shè)置的參數(shù)很少,改變這些參數(shù)可以得到更好的效果,本文用模擬試驗(yàn)和實(shí)例說明了使用核主成分進(jìn)行可視化分析的有效性。由于設(shè)定不同核函數(shù)的參數(shù)會產(chǎn)生不同的可視化效果,因此實(shí)際應(yīng)用中需要確定最合適的核函數(shù)和參數(shù)。如果在作核主成分分析前,有針對性地對變量進(jìn)行篩選,能夠獲得更好的可視化效果。
圖 3 營養(yǎng)代謝組實(shí)驗(yàn)數(shù)據(jù) PCA和 KPCA(RBF)的可視化結(jié)果比較
1.Sch?lkopf B,Burges C,Sm ola A.A dvances in kernel methods:support vector learning.Cam bridge:The M IT Press,1999.
2.Sch?lkopf B,Smola A,Müller KR.Nonlinear component analysis as a kernel eigenvalue p roblem.Neural Computation,1998,10(5):1299-1319.