吳 菲,陳迪榮
?
基于函數(shù)主成分的函數(shù)型數(shù)據(jù)分類研究
吳 菲,陳迪榮*
(武漢紡織大學(xué) 數(shù)學(xué)與計算機(jī)學(xué)院,湖北 武漢 430200)
不同屬性特征可以反映出數(shù)據(jù)不同的內(nèi)在信息,越多的差異性特征對機(jī)器識別就更有利,但是越多的特征數(shù)目引起數(shù)據(jù)更高復(fù)雜度。針對函數(shù)型數(shù)據(jù)最主要的函數(shù)性和導(dǎo)數(shù)性這兩大特征,本文提出對函數(shù)型數(shù)據(jù)函數(shù)特征、一階導(dǎo)數(shù)特征和二階導(dǎo)數(shù)特征的組合集成方法,然后引入函數(shù)型主成分分析的方法解決數(shù)據(jù)的復(fù)雜性問題,最后通過函數(shù)型主成分距離度量方式,采用k近鄰(knn)分類以達(dá)到分類的效果。實(shí)驗分析表明了函數(shù)型主成分分析方法與混合多特征組合距離的結(jié)合,在函數(shù)型數(shù)據(jù)分類中的有效性。
函數(shù)型數(shù)據(jù);函數(shù)型主成分分析;特征組合;距離度量;knn
通過數(shù)據(jù)分析進(jìn)行學(xué)習(xí)是機(jī)器學(xué)習(xí)的重要方式,因此,數(shù)據(jù)的組織和分析方法對機(jī)器學(xué)習(xí)有重要的影響。隨著“互聯(lián)網(wǎng)+”模式的興起,“大數(shù)據(jù)時代”已經(jīng)來臨,互聯(lián)網(wǎng)將世界緊密的聯(lián)系在一起,使得收集的樣本數(shù)據(jù)更加密集和連續(xù),甚至呈現(xiàn)出某種函數(shù)型規(guī)律。在數(shù)據(jù)空間中呈現(xiàn)了某種非常復(fù)雜函數(shù)關(guān)系的數(shù)據(jù),稱為函數(shù)型數(shù)據(jù)( 簡稱 FDA)。函數(shù)型數(shù)據(jù)最初由加拿大統(tǒng)計學(xué)家 Ramsay于1982年發(fā)表的論文《When the Data are Functions》[1]引入。1991年,Ramsay與Dalzell結(jié)合統(tǒng)計學(xué)、拓?fù)鋵W(xué)和泛函分析的思想,在論文《Some Tools for Functional Data Analysis》中正式提出了函數(shù)型數(shù)據(jù)分析(Funtional data analysis,FDA)的概念和分析處理的方法[2]。2005年,Ramsay和Silverman撰寫了《Functional Data Analysis,F(xiàn)DA》[3]一書,針對函數(shù)型數(shù)據(jù)改進(jìn)了傳統(tǒng)統(tǒng)計分析方法,提出對應(yīng)的函數(shù)線性回歸分析(FLR)、函數(shù)型主成分分析(FPCA)、函數(shù)型相關(guān)分析(FCCA)等方法。此后,函數(shù)型數(shù)據(jù)分析開始受到更廣泛的關(guān)注并掀起了在各鄰域的研究熱潮,應(yīng)用成果涉及醫(yī)學(xué)診斷[4, 5]、金融工程[6, 7]、電子商務(wù)[8, 9]等領(lǐng)域。
函數(shù)型數(shù)據(jù)分析思想就是將觀測數(shù)據(jù)擬合成光滑曲線進(jìn)行處理,相較于傳統(tǒng)的數(shù)據(jù)分析,觀測數(shù)據(jù)被賦予了動態(tài)屬性,以便挖掘出更多函數(shù)型數(shù)據(jù)內(nèi)在規(guī)律和隱藏特征。實(shí)際上,光滑性一般指估計曲線的一階或更高階導(dǎo)數(shù),是函數(shù)型數(shù)據(jù)分析框架中最為顯著的重要特征之一。較之靜態(tài)的情況,借鑒多元統(tǒng)計提出的FPCA[10-15]不僅很好地解決了高數(shù)據(jù)密度情況下的降維問題,還能顯示出結(jié)果隨時間而改變的動態(tài)特征。
分類識別中,每一種特征都是數(shù)據(jù)內(nèi)在屬性的反映,不同屬性特征的分類識別結(jié)果不同,而且結(jié)果之間互補(bǔ)性很強(qiáng)[16]。因此,本文對具有函數(shù)特征的離散觀測數(shù)據(jù),首先利用B樣條基函數(shù)的非參數(shù)平滑技術(shù)[17, 18]擬合成函數(shù)表示;再進(jìn)一步集成函數(shù)曲線特征及其導(dǎo)數(shù)特征進(jìn)行進(jìn)行函數(shù)型主成分分析;最后,對分析出的綜合特征采用最簡單的k近鄰值(Knn)[19]分類方法進(jìn)行分類識別。
受函數(shù)型數(shù)據(jù)的異常值[21]樣例間特征未對齊等因素的影響,函數(shù)主成分對函數(shù)型數(shù)據(jù)的表示能力退化,使函數(shù)型數(shù)據(jù)的模式識別能力變?nèi)?。函?shù)型數(shù)據(jù)主成分分析前,若類內(nèi)函數(shù)樣例未進(jìn)行特征對齊或各個函數(shù)樣例的值域差異較大時,可以先對函數(shù)型數(shù)據(jù)進(jìn)行縱向標(biāo)準(zhǔn)化變換,然后對變換后的數(shù)據(jù)進(jìn)行函數(shù)主成分分析。
上式稱為縱向標(biāo)準(zhǔn)化變換。值得注意的是,上述變換并不改變函數(shù)型數(shù)據(jù)的整體趨勢,且該變換使得每個函數(shù)型數(shù)據(jù)的值域均為區(qū)間[0,1]。
或者寫成:
圖1 本文研究方法的簡要流程圖
為了驗證本文方法在函數(shù)型數(shù)據(jù)分類中的有效性,本文在兩個數(shù)據(jù)集上進(jìn)行了實(shí)驗,其中Tecator數(shù)據(jù)集來源于UCI數(shù)據(jù)庫中的標(biāo)準(zhǔn)數(shù)據(jù)集[23],另外青光眼數(shù)據(jù)集由北京同仁醫(yī)院眼科學(xué)協(xié)會提供。
Tecator數(shù)據(jù)集主要是對碎肉樣品的脂肪含量進(jìn)行研究(數(shù)據(jù)來源:http://lib.stat.cmu.edu/datasets/ tecator)。每個樣本對(x_i, y_i)中,x_i是第i個樣品的吸光率(波長范圍是850~1050nm),y _i是脂肪含量。把脂肪含量超過20%的標(biāo)為負(fù)類(Bad),把脂肪含量低于20%的標(biāo)為正類(Good)。該數(shù)據(jù)集由215個碎肉樣品構(gòu)成,每個碎肉樣品包括100個不同波長的近紅外光的吸收度值,其中,正類樣本138個,負(fù)類樣本77個。根據(jù)訓(xùn)練樣本構(gòu)造算法,使得利用測試樣本的吸光率x,可以預(yù)測其脂肪含量是否超過20%。
圖2 Tecator數(shù)據(jù)集光譜吸收度的函數(shù)曲線
圖3 Tecator數(shù)據(jù)集光譜吸收度的一階導(dǎo)數(shù)
圖4 Tecator數(shù)據(jù)集光譜吸收度的二階導(dǎo)數(shù)
圖5 Tecator數(shù)據(jù)集的樣本協(xié)方差曲面
表1 Tecator數(shù)據(jù)集函數(shù)主成分組合距離分類識別率
觀察樣本協(xié)方差曲面(圖5),對角線表面的高度變化很大,特別是[925,950]這段波長范圍內(nèi),各點(diǎn)的方差較大。兩類數(shù)據(jù)的函數(shù)曲線圖(圖2)以及導(dǎo)數(shù)曲線圖(圖3、圖4)也都體現(xiàn)這一點(diǎn),特別是二階導(dǎo)數(shù)曲線,它基本與整個協(xié)方差曲面的特征保持整體上較高的一致性。此次實(shí)驗,當(dāng)函數(shù)主成分?jǐn)?shù)為1,一階導(dǎo)數(shù)主成分?jǐn)?shù)為0,二階導(dǎo)數(shù)主成分?jǐn)?shù)為2時,驗證集的平均識別率最高(0.9766234)。測試集數(shù)據(jù)實(shí)驗結(jié)果如表1所示,其中(q0:函數(shù)的主成分?jǐn)?shù),q1:一階導(dǎo)數(shù)主成分?jǐn)?shù),q2:二階導(dǎo)數(shù)主成分?jǐn)?shù))。
實(shí)驗結(jié)果顯示,此次試驗通過交叉驗證獲得的最優(yōu)參數(shù)在測試集上也表現(xiàn)出很好的效果,平均識別率高達(dá)0.9956926,基本接近于1了,比其他組合結(jié)果和單一結(jié)果都要優(yōu)。與協(xié)方差曲面(圖5)表現(xiàn)結(jié)果一樣,二階導(dǎo)數(shù)更能反映出數(shù)據(jù)的差異特征,單一二階導(dǎo)數(shù)的情況比其他單一情況好很多,只比最優(yōu)組合結(jié)果差一點(diǎn)點(diǎn);單一一階導(dǎo)數(shù)距離識別效果比單一函數(shù)距離識別率高一點(diǎn),但是這兩個單一距離的識別效果與其他相比還是不夠的。文獻(xiàn)[25]中利用穩(wěn)健主成分分析方法與支持向量機(jī)分類器對Tecator數(shù)據(jù)脂肪含量進(jìn)行分類的準(zhǔn)確率最優(yōu)結(jié)果為0.9818,本文的組合結(jié)果的分類精度仍具有一定優(yōu)勢。
青光眼是一種以視神經(jīng)乳頭(Opticnerve head,ONH)結(jié)構(gòu)改變?yōu)樘卣鞯倪M(jìn)展性視神經(jīng)病變,世界衛(wèi)生組織將其列為全球第二大致盲眼病。目前,計算機(jī)輔助診斷是青光眼診斷研究的重點(diǎn)。2002年,國際知名青光眼專家W.Einreb[24]及其合作者提出了應(yīng)用機(jī)器學(xué)習(xí)輔助青光眼診斷的方法。他們應(yīng)用主成分分析(PCA)方法對視野檢測結(jié)果進(jìn)行數(shù)據(jù)降維,進(jìn)而應(yīng)用支持向量機(jī)(SVM)等機(jī)器學(xué)習(xí)算法做青光眼數(shù)據(jù)分類問題,取得比傳統(tǒng)統(tǒng)計方法更優(yōu)的預(yù)測性能。這一成果引起人們對機(jī)器學(xué)習(xí)用于青光眼診斷的重視。
對我們提出算法進(jìn)行測試的眼底照OCT圖像數(shù)據(jù),來源于北京同仁醫(yī)院眼科學(xué)協(xié)會這些樣本包含了346例眼底照組成的數(shù)據(jù)集,每個樣例有360個特征數(shù)據(jù),其中正常眼258個樣例,青光眼88例。本實(shí)驗利用函數(shù)型數(shù)據(jù)方法,將360維的杯盤半徑比向量擬合為杯盤比曲線函數(shù),利用曲線函數(shù)的一階導(dǎo)數(shù)距離作為距離度量,并分別畫出了前50個正常眼和青光眼的函數(shù)曲線,一階導(dǎo)數(shù)曲線和二階導(dǎo)數(shù)曲線分別如圖6、圖7、圖8所示:
圖6 青光眼數(shù)據(jù)的函數(shù)曲線
圖8 青光眼數(shù)據(jù)的二階導(dǎo)數(shù)曲線
青光眼數(shù)據(jù)實(shí)驗方式與Tecator數(shù)據(jù)集的實(shí)驗方式一樣,也是將樣本隨機(jī)分成10份,分別取1份作為測試集和驗證集,剩下的8份作為訓(xùn)練集,利用驗證集通過交叉驗證的方法獲取最佳的平均識別率對應(yīng)參數(shù)取值,再將此參數(shù)應(yīng)用到測試集中,以10次平均識別率作為最終的識別率。青光眼數(shù)據(jù)驗證集的平均識別率最高為0.9766234,此時函數(shù)主成分?jǐn)?shù)為4,一階導(dǎo)數(shù)主成分為數(shù)1,二階導(dǎo)數(shù)主成分?jǐn)?shù)為0。測試集數(shù)據(jù)實(shí)驗結(jié)果如表2所示:
表2 青光眼數(shù)據(jù)集函數(shù)主成分組合距離分類識別率
實(shí)驗結(jié)果可以看到,此次青光眼試驗通過交叉驗證獲得的最優(yōu)參數(shù)在測試集上也取得了較為理想的結(jié)果,平均識別率高達(dá)0.9596639,比其他組合情況和單一情況都要優(yōu)。從青光眼單一特征距離分類效果來看,函數(shù)距離效果最好,一階導(dǎo)數(shù)次之,二階導(dǎo)數(shù)最差,這個跟上面光譜數(shù)據(jù)的數(shù)據(jù)屬性相反,并不是越高階導(dǎo)數(shù),特征越明顯。從圖6-圖8的曲線圖展現(xiàn)了二階導(dǎo)數(shù)曲線的弱差異性,兩類樣本的二階導(dǎo)數(shù)曲線基本相差無幾。青光眼的原始函數(shù)特征在這三個屬性特征中占主導(dǎo)地位。2015年文獻(xiàn)[26]通過神經(jīng)網(wǎng)絡(luò)的分割方法對117名青光眼患者和123名正常眼患者進(jìn)行分類實(shí)驗,由于分割方式造成分類結(jié)果的不一樣,文獻(xiàn)中Specificity最高為95.12%時對應(yīng)的Sensitivity為58.12%;當(dāng)Sensitivity最高為77.78%時對應(yīng)的Specificity為80.49%;雖然該文章通過Sensitivity和Sensitivity分別計算青光眼和正常眼的分類準(zhǔn)確率,但總體而言,本文的綜合準(zhǔn)確率還是更加穩(wěn)定。
本文主要介紹了函數(shù)型主成分分析方法在函數(shù)型數(shù)據(jù)分類中的作用,并在以往距離度量的基礎(chǔ)上提出了組合多種特征的函數(shù)型主成分距離度量方法,巧妙地利用不同特征的主成分個數(shù)的選取差異性來體現(xiàn)不同特征的權(quán)重意義,避免加入新的權(quán)重參數(shù),增加實(shí)驗的復(fù)雜性。即使通過最簡單的knn分類器,也能達(dá)到一個較為理想的效果,總體來說是驗證了此方法的有效性。一般來說,函數(shù)特征或者導(dǎo)數(shù)特征都是數(shù)據(jù)本身的信息表現(xiàn),都有其存在的價值,只是針對不同數(shù)據(jù)實(shí)例,最主要差異性特征屬性會不一樣,甚至有時候某個主導(dǎo)特征非常明顯,單一結(jié)果會比組合結(jié)果好也是有可能的。并不是所有特征屬性都是正向加強(qiáng)的作用,有時候組合疊加后也會出現(xiàn)負(fù)向抑制作用,這需要對具體問題進(jìn)行具體分析。
作者對北京化工大學(xué)徐永利副教授表示衷心感謝,他為本文提出了不少建設(shè)性建議,并提供了青光眼數(shù)據(jù)。
[1] Ramsay,J O.When the data are functions[J].Psychometrika,1982,47:379-396.
[2] Ramsay,J O,Delzall,C J.Some tools for functional data analysis (with discussion)[J].Journal pf the Roval Statistical Socieyv,B,1991,53:539-572.
[3] Ramsay J O,Silverman B W. Functional data analysis(Second ed.)[M]. New York:Springer. 2005.
[4] Hu Y,He X M,Tao J,et al.Modeling and prediction of children’s growth data via functional principal component analysis[J].Science in China Series:Mathematics,2009,52(6):1342-1350.
[5] 王劼,黃可飛,王惠文.一種函數(shù)型數(shù)據(jù)的聚類分析方法[J].?dāng)?shù)理統(tǒng)計與管理,2009,28(5):839-844.
[6] Müller H G,Sen R,Stadtmüller U.Functional data analysis forvolatility[J].Journal of the Econometrics,2011,(165 ):233-245.
[7] 郭均鵬,孫欽堂,李汶華.Shibor市場中各期限利率波動模式分析—基于 FPCA方法[J].系統(tǒng)工程,2012,30(12):84-88.
[8] Jank W,Shmueli G,Zhang S.A flexible model for estimating pricedynamics in on-line auctions[J].Journal of the Royal StatisticalSociety:Series C, 2007,59(5):781-804.
[9] Zhang S,Wjank,etal.Real-Time Forecasting of Online Auctions via Functional K-Nearest Neighbors[J].InternationalJournal of Forecasting,2010,(26):666-638
[10]王潔丹,朱建平,付榮.函數(shù)型死亡率預(yù)測模型[J].統(tǒng)計研究,2013,30(9):87-93.
[11]Jiang C,Wang J L.Covariate adjusted functional principal components analysis for longitudinal data[J].The Annals of Statistics,2010,38:1194-1226.
[12]Sun Y,Genton M G.Functional Boxplots[J].Journal of Computational and Graphical Statistics,2011,20:316-334.
[13]Boente G,Salibian-Barrera M.S-estimators for funcitonal principal component analysis[J].Journal of the American Statistical Association,2014 110(51):1100-1111.
[14]Chiou J M,Li P L.Functional clustering and identifying substructures of longgitudinal data[J].Journal of the Royal Statistical Scoiety:Series B,2007,69:679-699.
[15]Hall P, Müller H G,Wang J L.Properties of principal component methods for functional and longitudinal data analysis [J].Annals of Statistics,2012,34(3): 1493-1517.
[16]Ho T K,Hull J J,Sirhari S N.Decision Combination in Multiple Classfier Systems[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1994,16(1):66-75.
[17]Eubank R L.Nonparametric Regression and Spline Smoothing(2 ed)[M].New York: MarcelDekker,Inc,1999.
[18]Fan J,Gijbels I.Local Polynomial Modelling and its Applications[M].New York:CRC Press,1996.
[19]Nenad T,Krisztian Ba.Hubness-aware kNN classification of high-dimensional data in presence of label noise[J].Neurocomputing, 2015,157:172.
[20]Jacques J,Preda C.Functional data clustering: a survey[J].Ad-vances in Data Analysis and Classification,2014,8(3):1-24.
[21]Shang H L.A survey of functional principal component analysis[J].AStA Advances in Statistical Analysis,2014,98(2):121-142.
[22]Castro,PE,Lawton WH,Sylvestre EA.Principal modes of variation for processes with continuous sample curves[J].Technometrics,1997,28,329-337.
[23]UCI machine learning repository[EB/OL].http://archive.Ics.Uci.edu/ml/datasets/ Hill-valley,2014-03-17.
[24]Chan K,Lee T W,Sample P A,etal.Comparison of machine learning and traditionalclassifiers in glaucoma diagnosis [J].IEEE transactions on bio-medical engineering,2002,49(9):936-97474.
[25]孟銀鳳,梁吉業(yè).函數(shù)型數(shù)據(jù)分類中的穩(wěn)健主成分分析[J].小型微型計算機(jī)系統(tǒng),2016,37(7):1499-1503.
[26]Larrosa J M,Polo V,F(xiàn)erreras A,et al. Neural Network Analysis of Different Segmentation Strategies of Nerve Fiber Layer Assessment for Glaucoma Diagnosis[J].Journal of Glaucoma,2014,24(9).
Functional Data Classification based on Function Principal Component
WU Fei, CHEN Di-rong
(College of Mathematics and Computer,Wuhan Textile University, Wuhan Hubei 430200, China)
Different attribute characteristics reflect different intrinsic information of data. The more different features, the more favorable for machine recognition. On the other hand, more feature numbers cause the higher complexity of data. According to the two main features of functional data, that is functional and derivative property. This paper proposes a combined method of functional data with function, first and second derivative property.And then it introduces functional principal component analysis(FPCA) to treatthe complexity of the data. Finally k-nearest neighbor (knn) is used to achieve the classification by functional principal component distance metric. The experiment shows the effectiveness of combination of functional principal component analysis(FPCA) withmixed Multi-distance Metricsto functional data classification.
functional data; functional principal component analysis; mixed multi-distance metrics; k-nearest neighbor(knn)
陳迪榮(1961-),男,教授,博士生導(dǎo)師,研究方向:機(jī)器學(xué)習(xí).
國家自然科學(xué)基金資助項目(11571267).
TP391
A
2095-414X(2019)02-0048-09