郭金玲
(山西大學商務學院,山西太原 030031)
一種基于圓形分布的支撐向量機核選擇方法
郭金玲
(山西大學商務學院,山西太原 030031)
針對目前支撐向量機核函數(shù)的選擇沒有統(tǒng)一規(guī)則的現(xiàn)狀,提出了一種結(jié)合數(shù)據(jù)分布特征進行支撐向量機核選擇的方法。首先,采用多維尺度分析方法對高維數(shù)據(jù)集合理降維,提出判斷數(shù)據(jù)集是否呈圓形分布的算法,在得到數(shù)據(jù)集分布特征的基礎上進行核選擇,達到結(jié)合數(shù)據(jù)分布特征合理選擇支撐向量機核函數(shù)的目的。實驗結(jié)果表明:呈圓形分布的數(shù)據(jù)集采用極坐標核進行分類,識別率達到100%,訓練時間短,優(yōu)于采用神經(jīng)網(wǎng)絡、決策樹、高斯核及多項式核的分類效果。該方法提高了支撐向量機的泛化能力。
支撐向量機;核選擇;圓形分布;極坐標
支撐向量機(SVM)是一種基于統(tǒng)計學習理論的學習方法[1],主要被用來解決數(shù)據(jù)的回歸與分類問題。在使用SVM進行回歸或分類時常用的核函數(shù)有高斯核、多項式核構造SVM最重要的一個問題是SVM核的正確選擇,因此,目前SVM的一個重要研究內(nèi)容就是如何有效進行核函數(shù)的選擇。
在采用SVM處理數(shù)據(jù)分類問題時,基于數(shù)據(jù)依賴的SVM核函數(shù)選擇方法[5-8]主要是在SVM訓練之前對核及參數(shù)進行優(yōu)化處理。如文獻[7-8]提出的極小化R2/△2的核選擇方法、兩步迭代法等?;跀?shù)據(jù)獨立的SVM核函數(shù)選擇方法[9-10]主要利用有關問題的先驗信息進行SVM核函數(shù)選擇,代表性的方法有留一交叉校驗法[9]等。數(shù)據(jù)依賴的方法具有通用性,但泛化能力差。數(shù)據(jù)獨立的方法計算代價太大,一般只作為參考。
在現(xiàn)有的方法中,很少利用到數(shù)據(jù)集中包含的幾何分布信息,本文提出一種結(jié)合數(shù)據(jù)集幾何分布特征進行核選擇的方法,通過數(shù)值實驗,驗證了該方法可以降低計算代價,分類效果較好,直觀性較強。
設實驗數(shù)據(jù)集包含兩類樣本,分別是A類樣本和B類樣本?;趫A形分布的SVM核選擇方法具體過程如下:
步驟1:實際問題中大多都是高維數(shù)據(jù)集,可首先對數(shù)據(jù)集進行降維處理。多維尺度分析方法(MDS)[11]是把原來多個變量劃為少數(shù)幾個綜合指標的降維處理方法,是較好的一種線性降維方法,首先采用該方法對高維數(shù)據(jù)集進行降維,處理成二維數(shù)據(jù)集。
步驟2:設A類樣本的重心為O,A類樣本各點到O的距離計為數(shù)組dA,B類樣本各點到O的距離計為數(shù)組dB。兩個數(shù)組中的最大值分別記為dAmax和dBmax;最小值分別記為dAmin和dBmin。判斷dAmax<dBmin或dBmax<dAmin是否成立,如果成立,可以判定該數(shù)據(jù)集呈圓形分布。
步驟3:結(jié)合樣本集的分布選擇相應的核函數(shù),樣本集呈圓形分布,相應的SVM選擇極坐標核;反之,選擇常用的高斯核或多項式核。
2.1 數(shù)值實驗
為驗證基于圓形分布的SVM核選擇方法是否有效,分別采用4組數(shù)據(jù)在Matlab環(huán)境中進行數(shù)值實驗,并對實驗結(jié)果進行了分析。
其中,第1組實驗數(shù)據(jù)為人工構造的圓形數(shù)據(jù)集D1。數(shù)據(jù)集D1包含兩類樣本,A類樣本滿足條件x2+y2≤1,用圓圈表示;B類樣本滿足條件x2+y2>1,用‘*’表示,隨機生成100個樣本,其分布如圖1所示。
第2組數(shù)據(jù)集D2采用了鳶尾植物數(shù)據(jù)集Iris.data,該數(shù)據(jù)集包括70個訓練樣本,30個測試樣本,每個樣本有5個屬性。由于數(shù)據(jù)集D2為高維數(shù)據(jù)集,首先使用MDS方法對D2進行降維,降維后得到的數(shù)據(jù)集E1的分布情況如圖2所示。
圖1 數(shù)據(jù)集D1的分布情況
圖2 數(shù)據(jù)集D2的分布情況
第3組真實數(shù)據(jù)集D3是一個呈雙正弦線分布的二維數(shù)據(jù)集,分類要求是把x-y坐標平面上兩條不同正弦線上的點正確的分開,由于正弦分布是呈周期變化的,所以實驗中取了4個周期的點。數(shù)據(jù)分布如圖3所示,圓圈和“*”分別代表不同的正弦線,每類120個采樣點,每個樣本點有兩個屬性。
第4組數(shù)據(jù)集D4是一個隨機生成的基本呈均勻分布的二維數(shù)據(jù)集,樣本數(shù)為50,其分布如圖4所示。
圖3 4個周期的雙正弦線
圖4 數(shù)據(jù)集D4的分布情況
采用文中提出的算法對數(shù)據(jù)集D1、D2、D3、D4進行檢測,可得出結(jié)論:D1、D2、D3呈圓形分布,D4不呈圓形分布。分別采用神經(jīng)網(wǎng)絡方法(NN)[12]、決策樹方法[13]、極坐標核SVM、高斯核SVM、多項式核SVM對4組數(shù)據(jù)集進行了分類實驗,分別進行了12次數(shù)值實驗,取平均結(jié)果作為最后結(jié)果。
采用不同方法對D1、D2、D3、D4進行分類的結(jié)果具體見表1。
表1 采用不同方法的分類結(jié)果比較
2.2 實驗結(jié)果分析
從實驗結(jié)果可以看出:呈圓形分布的數(shù)據(jù)集D1、D2、D3,采用極坐標核進行分類實驗的效果優(yōu)于其他幾種方法,分類效果最好。
由文獻[4]可知:運用極坐標核進行分類實驗,原始數(shù)據(jù)經(jīng)過映射φ到達特征空間:
分析該函數(shù)可以計算出:只要數(shù)據(jù)集滿足圓形分布,經(jīng)過該映射φ在特征空間可以被一條直線有效地分割開。因此,呈圓形分布的數(shù)據(jù)集采用極坐標核進行分類實驗,識別率可達到100%,分類效果好。
本文提出一種結(jié)合數(shù)據(jù)分布特征進行核選擇的方法,實驗結(jié)果證明了該方法的有效性和正確性。本文僅討論了呈圓形分布的數(shù)據(jù)集如何有效地選擇核函數(shù),而數(shù)據(jù)集的分布是多樣化、復雜化的,數(shù)據(jù)集呈其他形狀分布時,SVM核函數(shù)的正確選取值還需進一步探討和研究。
[1] Vapnik V.The Nature of Statitiscal Learning Theory[M].New York:Spring Verlag Press,1995.
[2] Wang W J,Xu Z B,Lu W Z.Determination of the Spread Parameter in the Gaussian Kernel for Classification and Regression[J].Neurocomputing,2003,55(3):643-663.
[3] 孫建濤,郭崇慧,陸玉昌,等.多項式核支持向量機文本分類器泛化性能分析[J].計算機研究與發(fā)展,2004,41(8):1321-1326.
[4] 張莉,周偉達,焦李成.一類新的支撐矢量機核[J].軟件學報,2002,13(4):713-718.
[5] Wang X M,Chung F L,Wang S T.Theoretical Analysis for Solution of Support Vector Data Description[J].Neural Networks,2011,24(4):360-369.
[6] Gao SH,Tsang IW H,Chia L T,et al.Local Features are not Lonely Laplacian Sparse Coding For Image Classification[J].CVPR,2010,18(6):126-138.
[7] 周偉達,張莉,焦李成.一種改進的推廣能力度量標準[J].計算機學報,2003,26(5):598-604.
[8] Wu S,Amari S.Conformal Transformation of Kernel Functions:A Data-dependentWay to Im prove Support Vector Machine Classifiers[J].Neural Processing Letters,2002,15:59-67.
[9] Chapelle O,Vapnik V.Model Selection for Support Vector Machines[C]//Smola A,Leen T,Mullereds K.Advances in Neural Information Processing Systems 12.Cambridge,MA:MIT Press,2001.
[10] Choi Y S.Least Squares One-class Support Vector Machine[J].Pattern Recognition Letters,2009,30(13):1236-1240.
[11] Cox T,Cox M.Multidimensional Scaling[M].London:Chapman&Hall,1994.
[12] W idyanto M R,Nobuhara H,Kawamoto K,et al.Improving Recognition and Generalization Capability of Back-propagation NN[J].Applied Soft Computing,2005,6(1):72-84.
[13] Brydon M,Gemino A.Classification Trees and Decision Analytic Feedforward Control:A Case Study from the Video Game Industry[J].Data Ming and Know ledge Discovery,2008,17(2):317-342.
TP301
A
1672-6871(2014)03-0055-03
國家自然科學基金項目(61273291);山西省高等學校科技研究開發(fā)項目(20121131);山西大學商務學院基金項目(2012014)
郭金玲(1982-),女,山西長治人,講師,碩士,主要從事機器學習與數(shù)據(jù)挖掘方面的研究.
2013-09-01