米麗萍,邢清華
(1.山西青年職業(yè)學(xué)院計(jì)算機(jī)系,山西太原030032;2.空軍工程大學(xué)防空反導(dǎo)學(xué)院,陜西西安710051)
為了解決傳統(tǒng)支持向量機(jī)[1](support vector machine,SVM)在不確定分類問(wèn)題中不能輸出后驗(yàn)概率的缺陷[2,3],Wahba和Platt最先將后驗(yàn)概率運(yùn)用于SVM方法中,來(lái)擴(kuò)展傳統(tǒng)SVM的能力[4,5]。常用貝葉斯框架理論或直接擬合后驗(yàn)概率而不計(jì)算類概率密度等方法來(lái)確定后驗(yàn)概率,這些都是在傳統(tǒng)SVM中引入后驗(yàn)概率的有益嘗試[6,7]。本文提出一種基于相對(duì)交叉熵的后驗(yàn)概率SVM建模方法,給出了分類問(wèn)題中交叉熵與相對(duì)交叉熵的確定方法,以相對(duì)交叉熵最小化作為優(yōu)化模型的目標(biāo)函數(shù),建立相應(yīng)的優(yōu)化模型,并對(duì)優(yōu)化模型求解,以獲得最優(yōu)的概率SVM模型參數(shù)。該方法中,每個(gè)支持向量機(jī)給出的分類結(jié)果采用后驗(yàn)概率的方式確定樣本的類別,使樣本分類可以得到定性和定量的解釋和評(píng)價(jià)。
傳統(tǒng)SVM的標(biāo)準(zhǔn)輸出為[8]
其中:f(x)=(w*×x)+b*,w*與b*分別為最優(yōu)分類面的權(quán)系數(shù)向量和分類的域值。
任意樣本點(diǎn)x與分類面之間的距離可以表示為:rx=
由此得到
對(duì)于SVM的分類,如圖1所示,從超平面的幾何角度分析,樣本在兩類分類問(wèn)題中屬于其中哪一類的程度更大是通過(guò)樣本與最優(yōu)分類面間的距離確定的,而f(x)是rx與rsv的比率,于是樣本的后驗(yàn)概率可以依據(jù)SVM的標(biāo)準(zhǔn)輸出f(x)來(lái)度量,因此,后驗(yàn)概率模型可以看成是f(x)的函數(shù)。
圖1 最優(yōu)分類面相對(duì)位置
概率輸出函數(shù)需要滿足兩個(gè)條件,一是函數(shù)的取值范圍必須是[0,1]區(qū)間;二是必須為單調(diào)函數(shù)。通過(guò)對(duì)能夠作為概率輸出函數(shù)的幾種單調(diào)函數(shù)的分析發(fā)現(xiàn),含有參數(shù)A和B的sigmoid函數(shù)對(duì)SVM的輸出概率建模具有更大地靈活性,實(shí)際應(yīng)用時(shí)也能夠呈現(xiàn)出很好的分類精度,因此后驗(yàn)概率模型可以采用含A、B兩個(gè)參數(shù)的sigmoid函數(shù)來(lái)確定。
對(duì)于兩類分類問(wèn)題,如果采用含參數(shù)A、B的sigmoid函數(shù),其SVM的概率輸出可以表示為如下形式
其中:sigmoid函數(shù)的形態(tài)用參數(shù)A和B控制;SVM中樣本x的標(biāo)準(zhǔn)輸出值用f(x)表示?;诖?,如果利用傳統(tǒng)SVM概率建模的話,樣本x的類別可以根據(jù)式子(3)確定,而樣本隸屬于所在類的程度大小由后驗(yàn)概率的大小來(lái)體現(xiàn),對(duì)于傳統(tǒng)SVM方法,可以通過(guò)式(1)中y=1或y=-1來(lái)確定樣本x的類別。
可以通過(guò)SVM的標(biāo)準(zhǔn)輸出f(x)來(lái)建立sigmoid函數(shù)的后驗(yàn)概率模型,那么接下來(lái)如何確定概率模型中的A和B這兩個(gè)參數(shù)呢?這里提出采用最小化相對(duì)交叉熵方法來(lái)確定概率模型(3)的參數(shù)。
設(shè)隨機(jī)變量x服從某一未知分布p(x),且該未知分布p(x)可由一已知分布(如某種參數(shù)模型)q(x)表示。q(x)與p(x)間的交叉熵(cross entropy)定義為
只有當(dāng)參數(shù)模型q(x)等于p(x)時(shí),交叉熵才可以取得最小值。
針對(duì)兩類分類問(wèn)題,假設(shè)y=p(c1|x),1-y=p(c2|x),即若x屬于c1時(shí)應(yīng)該得到t=1的輸出,若x屬于c2時(shí)應(yīng)得到t=0的輸出,于是
可見(jiàn)p(t|x)服從Bernoulli分布,若訓(xùn)練樣本(xi,ti)(i=1,2,…,n)是獨(dú)立選取的,則其似然函數(shù)可寫為即
該式取負(fù)對(duì)數(shù)后有
可以證明這就是y(x)與目標(biāo)t的分布間的交叉熵
如果把yi=ti代入式(7),可得E1的最小值為
對(duì)于兩類問(wèn)題中ti取1或0的情況,Emin=0,對(duì)于ti?。?,1)間連續(xù)值的情況,Emin≠0,因此我們可以從式(7)減去式(8),得到一種誤差函數(shù)形式為
該誤差函數(shù)實(shí)質(zhì)上是實(shí)際輸出yi與應(yīng)有輸出ti的相對(duì)熵,我們把它叫做相對(duì)交叉熵,誤差越小,E1與Emin越接近,同時(shí)y(x)與目標(biāo)t越接近。
有了上面的準(zhǔn)備工作,我們?cè)O(shè)訓(xùn)練樣本集(xi,yi)(i=1,2,…,n)為SVM的訓(xùn)練樣本,將另一組樣本(fi,yi)(fi=f(xi))(i=1,2,…,n)作為訓(xùn)練樣本,以求取參數(shù)A、B,f(xi)表示SVM的標(biāo)準(zhǔn)輸出值,yi∈{-1,1}。
在原始數(shù)據(jù)集中加入噪聲,可以避免對(duì)Sigmoid函數(shù)采用小數(shù)據(jù)集擬合時(shí)出現(xiàn)的過(guò)擬合現(xiàn)象,也就是說(shuō)在重構(gòu)的訓(xùn)練樣本集中,f(xi)為正樣本的SVM輸出值,正樣本對(duì)應(yīng)的目標(biāo)值為ti=1-ε+,而負(fù)樣本對(duì)應(yīng)的目標(biāo)值為ti=ε-,采用Bayes后驗(yàn)概率估計(jì)和可以得到一組重新定義的訓(xùn)練樣本(fi,ti)(i=1,2,…,n),其中ti為加入噪聲后,f(xi)對(duì)應(yīng)的目標(biāo)值。具體表達(dá)如下
為確定模型pi,需求出表達(dá)式pi中的參數(shù)A和B的值,使pi與ti的值盡可能地接近,建立pi與ti的相對(duì)交叉熵函數(shù)為
最小化相對(duì)交叉熵,可以求得sigmoid函數(shù)中的參數(shù)A、B。若用向量Z=(A,B)T來(lái)表示求解出的A和B兩個(gè)參數(shù),則可以得到下面的公式
利用逆向線性搜索特點(diǎn)的牛頓迭代方法,對(duì)上式求解參數(shù)A和B。
對(duì)參數(shù)A和B的求解。采用迭代求解算法,其基本思想如下:
第一:求F(Z)的梯度▽F(Z)和F(Z)的Hessian矩陣G(Z),其表達(dá)式如下
給定初始點(diǎn)Z0,參數(shù)σ≥0,以使得H(Z0)+σI是正定的。
第二:我們將上述問(wèn)題的求解轉(zhuǎn)換為下式的迭代求解式
若F(Zk)=0,則求解結(jié)束;
否則αk依次從序列1,…中取值,滿足F(Zk+αkδk)≤F(Zk)+0.0001·αk(F(Zk)Tδk)的序列中的第一個(gè)元素作為αk。設(shè)Zk+1=Zk+αkδk,繼續(xù)迭代。
這樣,通過(guò)迭代求解,即可得到A、B的值,從而根據(jù)式(3)計(jì)算出樣本x屬于某類的后驗(yàn)概率。
為了檢驗(yàn)后驗(yàn)概率SVM模型的合理性,采用heart_scale、ionosphere_scale、liver-disorders_scale和ijcnn1數(shù)據(jù),進(jìn)行概率支持向量機(jī)的實(shí)驗(yàn),heart_scale樣本總數(shù)為300個(gè),其中正樣本140,負(fù)樣本160個(gè),數(shù)據(jù)特征維數(shù)是13;ionosphere_scale樣本個(gè)數(shù)為360個(gè),其中正樣本數(shù)是220個(gè),負(fù)樣本數(shù)140個(gè),數(shù)據(jù)特征維數(shù)是34;liver-disorders_scale樣本總數(shù)為350,其中正樣本155個(gè),負(fù)樣本195個(gè),數(shù)據(jù)特征維數(shù)是6;ijcnn1實(shí)驗(yàn)將訓(xùn)練樣本與測(cè)試樣本相分離,訓(xùn)練樣本35022個(gè),測(cè)試樣本91803個(gè),數(shù)據(jù)特征維數(shù)為22。表1列出了利用相對(duì)交叉熵最小化的概率建模方法和利用標(biāo)準(zhǔn)支持向量機(jī)方法進(jìn)行數(shù)據(jù)分類的結(jié)果。
由表1可以看出,采用后驗(yàn)概率SVM的分類效果顯然比傳統(tǒng)SVM的分類效果好。
上面給出的是一個(gè)兩類分類問(wèn)題的后驗(yàn)概率建模方法,實(shí)際的分類問(wèn)題更多的是多類分類問(wèn)題,對(duì)于多類分類的問(wèn)題,文獻(xiàn)[9-11]等采用了計(jì)算比較復(fù)雜的集成學(xué)習(xí)方法,本文采用“一對(duì)一”的分類方法,先構(gòu)造M(M-1)/2個(gè)兩類后驗(yàn)概率SVM分類器,再綜合利用M(M-1)/2個(gè)兩類后驗(yàn)概率分類器計(jì)算后驗(yàn)概率,最后利用得到的后驗(yàn)概率來(lái)確定在每個(gè)分類中樣本的最終后驗(yàn)概率。其示意圖如圖2所示。
表1 利用不同方法進(jìn)行樣本分類的分類正確率
圖2 多個(gè)分類器組合求解最終后驗(yàn)概率
測(cè)試樣本x屬于第Ci類的最終后驗(yàn)概率計(jì)算如下
以空中目標(biāo)分類為例,依據(jù)分類原則[12]給出目標(biāo)特征向量分布參數(shù)見(jiàn)表2。
為了測(cè)試模型,這里針對(duì)每類目標(biāo)生成50個(gè)訓(xùn)練樣本和6個(gè)測(cè)試樣本,針對(duì)5類目標(biāo)共生成訓(xùn)練樣本250個(gè)(簡(jiǎn)稱為樣本A),測(cè)試樣本30個(gè)(簡(jiǎn)稱為樣本B)。
表2 樣本A的特征向量分布
目標(biāo)類別代號(hào)與目標(biāo)類別名稱對(duì)照具體見(jiàn)表3所示。
表3 目標(biāo)類別的代號(hào)名稱對(duì)應(yīng)表
下面給出樣本B中每個(gè)測(cè)試樣本所屬類別的后驗(yàn)概率計(jì)算過(guò)程:
首先:將樣本A中的訓(xùn)練樣本進(jìn)行歸一化處理,并以此為基礎(chǔ),利用徑向基核函數(shù)對(duì)上節(jié)中的支持向量機(jī)進(jìn)行訓(xùn)練,得到10個(gè)兩類后驗(yàn)概率支持向量機(jī)中每個(gè)分類器模型中參數(shù)A、B的值。具體值的列表略。
然后:將樣本B歸一化后得到的樣本作為測(cè)試樣本集對(duì)訓(xùn)練得到的模型進(jìn)行測(cè)試,并利用上節(jié)(13)式的多類分類器模型計(jì)算后驗(yàn)概率值,得到如表4所示的后驗(yàn)概率及目標(biāo)的所屬類別。
從表4數(shù)據(jù)可以看出,對(duì)于測(cè)試樣本B,后驗(yàn)概率SVM模型對(duì)它的識(shí)別率是96.7%,然而采用文獻(xiàn)[13]方法,對(duì)其識(shí)別率只有76.7%。
在目標(biāo)分類問(wèn)題中,分類結(jié)果經(jīng)常需以后驗(yàn)概率的形式輸出,而傳統(tǒng)SVM方法不能滿足這一要求,本文從交叉熵的角度,采用相對(duì)交叉熵最小化的方法,建立后驗(yàn)概率SVM模型,給出了具有逆向線性搜索特點(diǎn)的牛頓迭代方法求解后驗(yàn)概率SVM模型參數(shù)的方法。該方法不但使SVM的分類正確率得到了改善,而且能給出樣本所屬類別的量度。在此基礎(chǔ)上設(shè)計(jì)了基于后驗(yàn)概率SVM的多類分類器,并應(yīng)用于空中目標(biāo)分類,實(shí)驗(yàn)結(jié)果表明,后驗(yàn)概率支持向量機(jī)可以有效提高分類正確率。
表4 多類別分類中目標(biāo)的后驗(yàn)概率值及其所屬類別
3 0.00413558 0.0133134 0.981796 0.000421501 0.000333325 3 4 0.00353095 0.127527 0.0225832 0.845818 0.000541004 4 5 0.010623 0.0106912 0.0152331 0.00272993 0.960723 5 1 0.969591 0.00559093 0.0166665 0.00381363 0.00433755 1 2 0.00293516 0.672011 0.323081 0.000696744 0.001276 2 3 0.00381991 0.000753352 0.991478 0.000686705 0.0032617 3 4 0.00781341 0.0803295 0.0369331 0.814962 0.0599624 4 5 0.00598957 0.00591069 0.0103939 0.00213264 0.975573 5 1 0.973356 0.00452927 0.013324 0.00311687 0.00567392 1 2 0.00934335 0.948051 0.0187119 0.0111845 0.0127093 2 3 0.00333391 0.0793888 0.576721 0.337717 0.00283915 3 4 0.00436924 0.0789715 0.0161308 0.898253 0.00227517 4 5 0.0196133 0.00909373 0.0163751 0.00255307 0.952365 5 1 0.970823 0.00606837 0.00600331 0.00235171 0.0147534 1 2 0.00737461 0.973206 0.00794391 0.00182058 0.0096545 2 3 0.0105619 0.00568334 0.956984 0.0025174 0.0242538 3 4 0.00586149 0.0698278 0.0212333 0.887497 0.0155806 4 5 0.00757814 0.00965415 0.0225287 0.00381244 0.956427 5 1 0.951522 0.0173767 0.00536047 0.00562711 0.0201137 1 2 0.00207347 0.992592 0.00217638 0.00278346 0.000375063 2 3 0.00319638 0.067679 0.928009 0.000638311 0.000477201 3 4 0.00624763 0.0458183 0.0694339 0.80692 0.0715799 4 5 0.00554806 0.0277235 0.0450976 0.168463 0.753168 5 1 0.940864 0.0268203 0.00742096 0.00461744 0.020277 1 4 0.00470158 0.23067 0.27119 0.49006 0.00337813 2 3 0.00337171 0.026324 0.963727 0.00557892 0.000998284 3 4 0.00382561 0.093183 0.0157115 0.886434 0.000845728 4 5 0.00379318 0.0128395 0.0420917 0.0145445 0.926731 5
[1]WEN Chuanjun,ZHAN Yongzhao,CHEN Changjun.Maximal-margin minimal-volume hypersphere support vector machine[J].Control and Decision,2010,25(1):79-83(in Chinese).[文傳軍,詹永照,陳長(zhǎng)軍.最大間隔最小體積球形支持向量機(jī)[J].控制與決策,2010,25(1):79-83.]
[2]SHEN Juhong,HUANG Yongdong.Fuzzy support vector machine based on possibility measure[J].Journal of Natural Science of Heilongjiang University,2012,29(2):204-206(in Chinese).[沈菊紅,黃永東.一種可能性測(cè)度的模糊支持向量機(jī)[J].黑龍江大學(xué)自然科學(xué)學(xué)報(bào),2012,29(2):204-206.]
[3]SU Zhan,XIU Lixia.Review on support vector machine based on bayes theorem[J].Computer Applications and Software,2010,27(5):179-181(in Chinese).[蘇展,徐麗霞.基于貝葉斯理論的支持向量機(jī)綜述[J].計(jì)算機(jī)應(yīng)用與軟件,2010,27(5):179-181.]
[4]ZHANG Xiang,XIAO Xiaoling,XU Guangyou.Weighted posterior probability output for support vector machines[J].Journal of Tsinghua University(Natural Science),2007,47(10):1689-1691(in Chinese).[張翔,肖小玲,徐光祐.支持向量機(jī)方法中加權(quán)后驗(yàn)概率建模方法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,47(10):1689-1691.]
[5]LI Yongli,LIU Yanheng,XIAO Jiantao,et al.Incremental learning algorithm based on support vector machine[J].Journal of Jilin University(Science Edition),2010,48(3):464-467(in Chinese).[李永麗,劉衍珩,肖見(jiàn)濤,等.基于支持向量機(jī)的增量學(xué)習(xí)算法[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版),2010,48(3):464-467.]
[6]HU Wenliang,WANG Huiwen.Prediction modeling based on Bayes support vector machine[J].Journal of Beijing University of Aeronautics and Astronautics,2010,36(4):486-489(in Chinese).[呼文亮,王惠文.基于貝葉斯準(zhǔn)則的支持向量機(jī)預(yù)測(cè)模型[J].北京航空航天大學(xué)學(xué)報(bào),2010,36(4):486-489.]
[7]ZHAO Chunjie,WANG Shuxun.Research of support vector machine in the primal[J].Journal of Shanxi University of Technology(Natural Science Edition),2010,26(2):58-64(in Chinese).[趙春婕,王樹(shù)勛.支持向量機(jī)原始問(wèn)題研究綜述[J].陜西理工學(xué)院學(xué)報(bào)(自然科學(xué)版),2010,26(2):58-64.]
[8]YANG Zhiming,LIU Guangli.Principle and application of uncertainty support vector machines[M].Beijing:Science Press,2007:32-51(in Chinese).[楊志明,劉廣利.不確定性支持向量機(jī)原理及應(yīng)用[M].北京:科學(xué)出版社,2007:32-51.]
[9]ZHANG Shuning,WANG Fuli,YOU Fuqiang,et al.Robust least squares support vector machine based on robust learning algorithm and its application[J].Control and Decision,2010,25(8):1169-1172(in Chinese).[張淑寧,王福利,尤富強(qiáng),等.基于魯棒學(xué)習(xí)的最小二乘支持向量機(jī)及其應(yīng)用[J].控制與決策,2010,25(8):1169-1172.]
[10]Mao Shasha,Jiao Licheng,Xiong Lin,et al.Greedy optimization classifiers ensemble based on diversity[J].Pattern Recognition,2011,44(6):1245-1261.
[11]Li Ye,Cai Yunze,Yin Rupo,et al.Support vector machine ensemble based on evidence theory for multi-class classification[J].Journal of Computer Research and Development,2008,45(4):571-578(in Chinese).[李燁,蔡云澤,尹汝潑,等.基于證據(jù)理論的多類分類支持向量機(jī)集成[J].計(jì)算機(jī)研究與發(fā)展,2008,45(4):571-578.]
[12]Indrajit Saha,Ujjwal Maulik,Sanghamitra Bandyopadhyay,et al.SVMeFC:SVM ensemble fuzzy clustering for satellite image segmentation[J].IEEE Geoscience and Remote Sensing Letters,2012,9(1):52-55.
[13]XING Qinghua,LIU Fuxian,WANG Lei,et al.On air targets recognition based on probability support vector machines[C]//Proceedings of the 30th Chinese Control Conference,2011:3239-3242(in Chinese).[邢清華,劉付顯,王磊,等.基于概率支持向量機(jī)的空中目標(biāo)識(shí)別研究[C]//中國(guó)自動(dòng)化學(xué)會(huì)控制理論專業(yè)委員會(huì)D卷(中國(guó)會(huì)議),2011:3239-3242.]