空軍工程大學(xué) 導(dǎo)彈學(xué)院,陜西 三原 713800
空軍工程大學(xué) 導(dǎo)彈學(xué)院,陜西 三原 713800
數(shù)據(jù)信息融合是當(dāng)前信息處理領(lǐng)域的必然手段,怎樣從不確定的信息中提取準(zhǔn)確的信息是融合決策的關(guān)鍵。DS證據(jù)理論具有很強(qiáng)的處理不確定信息的能力。近年來成為信息融合的重要手段。然而,如何構(gòu)造DS證據(jù)理論中的基本概率賦值函數(shù)(BPA),是融合中必須解決的一個(gè)重要課題,也是不易確定的問題。
許多研究者都嘗試?yán)脤W(xué)習(xí)算法來獲得BPA。如王毛路等利用神經(jīng)網(wǎng)絡(luò)方法通過對(duì)樣本的學(xué)習(xí),把各類條件概率作為待融合的證據(jù)[1-2],Lingmei Ai等針對(duì)醫(yī)學(xué)診斷中三種不同顫動(dòng)病理的分類問題,通過人工神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果來構(gòu)造BPA[3]??紤]到神經(jīng)網(wǎng)絡(luò)在測(cè)試樣本與訓(xùn)練樣本的相差加大的情況下,可能導(dǎo)致結(jié)果完全錯(cuò)誤。周皓等將支持向量機(jī)與證據(jù)理論在信息融合中結(jié)合,利用SVM的學(xué)習(xí)功能通過Platt的概率模型來確定BPA[4]。同時(shí),結(jié)合SVM與DS證據(jù)理論的方法也在實(shí)際中得到廣泛應(yīng)用。張金澤等將SVM與證據(jù)理論集成方法應(yīng)用于故障診斷檢測(cè)[5];姜萬錄等利用“一對(duì)一”多類SVM分配了BPA,引入基于矩陣分析的融合算法,解決了證據(jù)理論存在的計(jì)算瓶頸問題[6]。
而在實(shí)踐中,各分類器對(duì)不同類別目標(biāo)的識(shí)別能力通常是不同的,因此,應(yīng)估計(jì)到分類器對(duì)各個(gè)目標(biāo)類別的識(shí)別可靠性。所以本文采用混淆矩陣來估計(jì)分類器局部識(shí)別可信度,提出了一種結(jié)合SVM與DS證據(jù)理論的決策融合方法:根據(jù)基分類器對(duì)輸入數(shù)據(jù)分類的實(shí)際分類情況,包括分類標(biāo)簽、后驗(yàn)概率和混淆矩陣等信息來構(gòu)造基本概率賦值函數(shù),實(shí)現(xiàn)了SVM與DS證據(jù)理論的有效結(jié)合;同時(shí)給出了一種結(jié)合SVM與DS證據(jù)理論的多傳感器信息融合模型。
證據(jù)理論由Dempster提出,后由Shafer進(jìn)行了完善,故又稱Dempster-Shafer理論,簡(jiǎn)稱DS理論[7]。
在證據(jù)理論中,一個(gè)樣本空間稱為一個(gè)辨識(shí)框架,常用Θ表示,它是關(guān)于命題的彼此獨(dú)立的可能答案或假設(shè)的一個(gè)有限集合,Θ是完備的且其中的元素互不相容。Θ的冪集記為2Θ。證據(jù)理論的基本問題就是在已知辨識(shí)框架Θ的條件下判明Θ中的一個(gè)先驗(yàn)的未定元素屬于Θ中某一個(gè)子集的程度。
定義1設(shè)Θ為辨識(shí)框架,Θ的冪集構(gòu)成了命題集合,如果集函數(shù)m:2Θ→[ ] 0,1 滿足:
定義1包含兩重含義,條件(1)表明對(duì)于空集(空命題)不產(chǎn)生任何信度,條件(2)反映了雖然決策者可以給一個(gè)命題賦于任意大小的信度值,但是要求決策者賦給所有命題的信度之和等于1,即總信度為l。
A >0,則稱A為焦點(diǎn)元素,簡(jiǎn)稱焦元。
Bel(A)表示對(duì)A的總信任度。由定義可知,Bel(Φ )=0,Bel()=1。
定義3設(shè)Θ為辨識(shí)框架,集函數(shù)m:2Θ→[ ] 0,1為上的BPA,當(dāng)其滿足:
則稱函數(shù)Pls:2Θ→[0,1]為似然函數(shù)(或似真函數(shù))[3]。Pls(A)表示不否定A的程度,包含了所有與A相容的那些集合的基本可信度。
似真函數(shù)與信度函數(shù)有如下關(guān)系:
似真函數(shù)Pls(A)可以解釋為主體在給定證據(jù)下A的最大可能信任程度,Pls是一種比Bel更寬松的估計(jì),對(duì)于任意的 A,顯然有 Pls(A)≥Bel(A)。區(qū)間[B el(A),Pls(A )]表示對(duì)命題A的不確定性區(qū)間,也稱為A的信任區(qū)間。信度函數(shù)Bel(A)和似真函數(shù)Pls(A)分別又稱為A的下限概率和上限概率,因此信任區(qū)間也就是A的概率變化范圍。
需要指出的是,基本可信度m(A)、信度函數(shù)Bel(A)和似真函數(shù)Pls(A)都是彼此唯一確定的,它們是同一證據(jù)的不同表示。
SVM是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理基礎(chǔ)上的學(xué)習(xí)機(jī)。標(biāo)準(zhǔn)SVM輸出的是測(cè)試樣本的類別標(biāo)簽,這就意味著在進(jìn)行多個(gè)SVM基分類器信息融合時(shí)主要采用投票法。而基于數(shù)據(jù)的信息融合需要給出SVM的后驗(yàn)概率輸出,融合前需要先把SVM輸出映射為后驗(yàn)概率輸出,即軟輸出。
模式識(shí)別領(lǐng)域中的混淆矩陣描繪了樣本數(shù)據(jù)的真實(shí)類別屬性與識(shí)別結(jié)果類型之間的關(guān)系,是評(píng)價(jià)分類器性能的一種常用方法。本文將混淆矩陣提供的識(shí)別率作為衡量各分類器識(shí)別能力的先驗(yàn)信息,對(duì)分類器的局部可信度進(jìn)行描述,在構(gòu)造分類器的BPA時(shí)進(jìn)行加權(quán)融合。
基于以上分析,本文結(jié)合SVM與DS證據(jù)理論進(jìn)行融合決策的基本思想為:首先根據(jù)SVM的硬判決輸出得到其對(duì)應(yīng)的軟輸出;其次利用混淆矩陣得到分類器針對(duì)不同目標(biāo)類別的局部識(shí)別可信度估計(jì)(簡(jiǎn)稱局部可信度);最后根據(jù)SVM的軟輸出和分類器識(shí)別可信度估計(jì)進(jìn)行基本可信度分配,而后進(jìn)行DS融合,完成決策融合。
3.1 SVM的后驗(yàn)概率輸出
對(duì)于兩類SVM的后驗(yàn)概率輸出,目前普遍接受并采用的方法是Platt提出的以Sigmod函數(shù)作為連接函數(shù)把SVM的輸出 f(x)映射到[0,1]的模型[8]:
其中,f為標(biāo)準(zhǔn)的SVM輸出結(jié)果,P(y =1|f)表示在輸出值 f的條件下分類正確的概率,A和B是參數(shù)值,可通過求解參數(shù)集的最小負(fù)對(duì)數(shù)似然值來求得:
其中Pi表示 p(yi=1|xi)。
N+是 yi=1的樣本數(shù)量,N-是 yi=-1的樣本數(shù)量。
對(duì)于多類分類問題,可以結(jié)合ECOC編碼等方法[9-10]獲得SVM分類的后驗(yàn)概率輸出。
3.2 基于混淆矩陣的可信度估計(jì)
假設(shè)有一個(gè)k類模式的分類任務(wù),待識(shí)別數(shù)據(jù)集X中共有 N個(gè)樣本,每類模式中分別含有 Ni個(gè)樣本(i=1,2,…,k)。對(duì)數(shù)據(jù)集X進(jìn)行分類后的混淆矩陣C可以表示為:
其中cij表示ωi類模式被分類器判斷成ωj類模式的數(shù)據(jù)占第ωi類模式樣本總數(shù)的百分比?;煜仃囍性氐男邢聵?biāo)對(duì)應(yīng)目標(biāo)的真實(shí)屬性,列下標(biāo)對(duì)應(yīng)分類器產(chǎn)生的識(shí)別屬性。對(duì)角線元素表示各模式能夠被分類器正確識(shí)別的百分比,而非對(duì)角線元素則表示發(fā)生錯(cuò)誤判斷的百分比。
通過混淆矩陣,可以獲得分類器的正確識(shí)別率和錯(cuò)誤識(shí)別率:
各模式正確識(shí)別率:
平均正確識(shí)別率:
混淆矩陣行向量ci(i=1,2,…,k)代表了模式ωi的對(duì)象在進(jìn)行分類時(shí)對(duì)各模式的傾向性[11]。針對(duì)當(dāng)前識(shí)別問題,從輸出推斷輸入,則由混淆矩陣可知,當(dāng)分類器L輸出類別ωj時(shí),當(dāng)前樣本x的真實(shí)類別是ωi的概率[12]為:
將 PCl(ωi|ωj)記作 PCl(ωi)。則 PCl(ωi)可以看作當(dāng)前目標(biāo) x屬于ωi類的一種支持度,即對(duì)分類器局部可信度的一種度量。
由此,將PCl(ωi)定義為分類器關(guān)于類別i的局部可信度,當(dāng)分類器對(duì)待識(shí)別樣本x輸出一個(gè)真實(shí)類別的判決結(jié)果ωi時(shí),這個(gè)判決結(jié)果的可靠性因子就是PCl(ωi)。在這一思想的指導(dǎo)下,由分類器輸出當(dāng)前樣本x的后驗(yàn)概率就能夠根據(jù)不同類別上的可靠程度進(jìn)行處理。具體來說,當(dāng)分類器 Lj對(duì)待識(shí)別目標(biāo)給出SVM硬判決 f(x)時(shí),將該f(x)通過后驗(yàn)概率公式轉(zhuǎn)化稱后驗(yàn)概率輸出;將根據(jù)混淆矩陣獲得的該分類器i個(gè)類別的局部可信度加權(quán)融合到后驗(yàn)概率輸出中去。這一過程可以用數(shù)學(xué)形式表示如下:
其中,mj(ωi)為分類器 Lj給出的 x屬于ωi類的基本概率賦值,Pi為SVM輸出的屬于ωi類的后驗(yàn)概率,PC(ωi)為由混淆矩陣提供的局部可信度信息。
對(duì)每個(gè)分類器Lj經(jīng)式(9)加權(quán)融合后的得到的BPA可由Dempster組合規(guī)則進(jìn)行融合并得到最終的融合識(shí)別結(jié)果。
3.3 結(jié)合SVM與DS證據(jù)理論的多傳感器信息融合模型
本節(jié)將SVM與DS證據(jù)理論用于信息融合。假設(shè)該系統(tǒng)中有Lj個(gè)傳感器。首先,各局部傳感器根據(jù)各自獲得的信息分別進(jìn)行預(yù)處理,對(duì)分類器 j進(jìn)行SVM訓(xùn)練確定各SVM的參數(shù),應(yīng)用時(shí),對(duì)于傳感器Lj的觀測(cè)經(jīng)SVMj得到Pj和 PCj(ωi),再利用式(9)得到各自的BPAj,從而進(jìn)行DS融合,最后給出決策融合結(jié)果。
3.4 算法復(fù)雜度分析
本節(jié)對(duì)前文提出的信息融合算法進(jìn)行復(fù)雜度分析。首先,假設(shè)支持向量機(jī)的學(xué)習(xí)算法的計(jì)算復(fù)雜度為O(la),其中,a對(duì)于不同的算法一般取為1<a<3[13]。本文算法在規(guī)模為l的樣本集上訓(xùn)練 p個(gè)基分類器,因此,它的計(jì)算復(fù)雜度大約為 p·O(la)。可見,本文提出的學(xué)習(xí)融合分類算法并未增加傳統(tǒng)SVM的計(jì)算復(fù)雜度,著力關(guān)心解決SVM與DS的融合問題,以求獲得更好的融合分類決策。
圖1 結(jié)合SVM與DS證據(jù)理論的多傳感器信息融合模型圖
4.1 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)所用的第一類數(shù)據(jù)為人工數(shù)據(jù):產(chǎn)生500個(gè)以(0,0)、(2,2)為中心點(diǎn),1、2為方差的兩類二維正態(tài)數(shù)據(jù),分別加以0均值高斯噪聲生成正類和負(fù)類數(shù)據(jù),如圖2所示。從圖中可以看出,該數(shù)據(jù)集的可分性較好。
圖2 正負(fù)類數(shù)據(jù)分布圖
實(shí)驗(yàn)所用的第二類數(shù)據(jù)來自UCI標(biāo)準(zhǔn)數(shù)據(jù)集如表1。
表1 實(shí)驗(yàn)數(shù)據(jù)特征
4.2 實(shí)驗(yàn)設(shè)計(jì)
為了驗(yàn)證本文方法的有效性。實(shí)驗(yàn)將模擬對(duì)來自5個(gè)傳感器的目標(biāo)數(shù)據(jù)分類。在本文信息融合過程中,采用5個(gè)基SVM分類器 Li(i=1,2,…,5),均采用高斯核函數(shù):σ2=1,C=10??紤]到實(shí)際中各傳感器性能的不同,對(duì)測(cè)試數(shù)據(jù)分別加以不同的噪聲,均值均為0,方差分別為1,1.2,1.5,1.8,2。利用本文方法對(duì)基SVM分類器的輸出進(jìn)行DS融合,將其結(jié)果與獨(dú)立的SVM分類結(jié)果進(jìn)行比較,兩個(gè)獨(dú)立的SVM的高斯核參數(shù)分別為 σ2=10,C=50和σ2=5,C=10。
在估計(jì)分類錯(cuò)誤率時(shí)采用十重交叉驗(yàn)證來進(jìn)行,并利用雙邊估計(jì)t檢驗(yàn)法來計(jì)算置信水平為0.95的分類錯(cuò)誤率置信區(qū)間作為最終結(jié)果,計(jì)算公式如下:
μ,σ分別表示十重交叉驗(yàn)證的均值和標(biāo)準(zhǔn)差,t0.025(9)= 2.262 2。實(shí)驗(yàn)中所用基分類器均來自PRToo(lhttp://www. prtools.org)工具箱,實(shí)驗(yàn)機(jī)器配置為1 GB內(nèi)存,2.30 GHz CPU,算法基于Matlab7.0(R2010a)實(shí)現(xiàn)。
4.3 實(shí)驗(yàn)結(jié)果和分析
4.3.1 人工數(shù)據(jù)集
(1)實(shí)驗(yàn)得到5個(gè)基分類器的后驗(yàn)概率參數(shù)A、B如表2。
表2 5個(gè)基分類器后驗(yàn)概率參數(shù)
(2)5個(gè)基分類器得到的正負(fù)類模式的混淆矩陣:
(3)本文方法與獨(dú)立分類器分類誤差(均值±方差)(%)比較如表3。
表3 分類誤差比較 (%)
4.3.2 UCI數(shù)據(jù)集
表4為基于UCI數(shù)據(jù)集,本文方法與不同獨(dú)立分類器分類結(jié)果比較。
表4 分類誤差比較(均值±方差)(%)
表5為不同數(shù)據(jù)集在十折交叉訓(xùn)練之后的時(shí)間復(fù)雜度。
表5 時(shí)間復(fù)雜度 ms
通過實(shí)驗(yàn)可以得出以下結(jié)論:
(1)使用本文方法進(jìn)行融合分類的分類性能優(yōu)于使用單個(gè)分類器的分類器性能,證明了信息融合的優(yōu)勢(shì)。本文提出的信息融合方法綜合考慮和利用了SVM的所有輸出信息,將跟識(shí)別問題有關(guān)的信息都進(jìn)行了融合,所以其分類精度大于獨(dú)立分類器。
(2)本文提出的方法簡(jiǎn)單、實(shí)用、有效。提供傳感器局部信息的混淆矩陣和后驗(yàn)概率很容易從分類結(jié)果中得到,對(duì)實(shí)際數(shù)據(jù)的適用性很強(qiáng),其信息融合達(dá)到了預(yù)期的結(jié)果。且在小樣本情況下,時(shí)間復(fù)雜度不是很高。
(3)因?yàn)闇y(cè)試樣本的確定性,精度提高不是很明顯,混淆矩陣提供的分類器局部可信度信息并未發(fā)揮很大的作用。考慮到實(shí)際情況的復(fù)雜性和信息的不確定性,這種結(jié)合后驗(yàn)概率和混淆矩陣的DS信息融合將更加真實(shí)和準(zhǔn)確。
本文提出了一種結(jié)合SVM與DS證據(jù)理論的信息融合改進(jìn)方法。該方法根據(jù)SVM分類的實(shí)際結(jié)果,從中獲取分類標(biāo)簽、后驗(yàn)概率和混淆矩陣等信息來構(gòu)造待融合的證據(jù)。根據(jù)數(shù)據(jù)集本身特點(diǎn)及分類器性能構(gòu)造BPA使獲得的基本概率賦值函數(shù)更加可靠和符合實(shí)際,從而很好地解決了證據(jù)理論應(yīng)用中的主要問題。從實(shí)驗(yàn)結(jié)果可以看出結(jié)合兩種方法的信息融合的分類器的識(shí)別誤差降低,達(dá)到了信息融合的目的。如何在提高融合分類正確率的前提下優(yōu)化SVM與DS證據(jù)理論結(jié)合的算法復(fù)雜性是下一步的研究方向。
[1]王毛路,李少洪,毛士藝.證據(jù)理論和神經(jīng)網(wǎng)絡(luò)結(jié)合的目標(biāo)識(shí)別方法[J].北京航空航天大學(xué)學(xué)報(bào),2002,28(5):536-539.
[2]楊露菁,郝威.多傳感器目標(biāo)識(shí)別的神經(jīng)網(wǎng)絡(luò)與證據(jù)理論結(jié)合方法[J].探測(cè)與控制學(xué)報(bào),2006,28(1):40-43.
[3]Ai Lingmei,Wang Jue,Wang Xuelian.Multi-features fusion diagnosis of tremor based on artificial neural network and D-S evidence theory[J].Signal Processing,2008,88:2927-2935.
[4]周皓,李少洪.支持向量機(jī)與證據(jù)理論在信息融合中的結(jié)合[J].傳感技術(shù)學(xué)報(bào),2008,21(9):1566-1570.
[5]張金澤,單甘霖.SVM與證據(jù)理論集成的信息融合故障診斷技術(shù)研究[J].電光與控制,2007,14(4):187-190.
[6]姜萬錄,吳勝強(qiáng).基于SVM和證據(jù)理論的多數(shù)據(jù)融合故障診斷方法[J].儀器儀表學(xué)報(bào),2010,31(8):1738-1743.
[7]Shafer G A.Mathematical theory of evidence[M].Princeton:Princeton University Press,1976.
[8]PlattJ.Probabilistic outputs forsupportvectormachines and comparison to regularized likelihood method[M]//Advance in large margin classifier.[S.l.]:MIT Press,2000:61-74.
[9]Zhou Jindeng,Wang Xiaodan,Song Heng.Research on the unbiased probability estimation oferror-correcting output coding[J].Pattern Recognition,2011,44:1552-1565.
[10]Wu T F,Lin C J,Weng R C.Probability estimates for multi-class classification by pair wise coupling[J].Journal of Machine Learning Research,2004,5:975-1005.
[11]張靜.基于混淆矩陣和Fisher準(zhǔn)則構(gòu)造層次化分類器[J].軟件學(xué)報(bào),2005,16(9):1560-1567.
[12]賈宇平.基于信任函數(shù)理論的融合目標(biāo)識(shí)別研究[D].長(zhǎng)沙:國防科學(xué)技術(shù)大學(xué)研究生院,2009.
[13]王磊.支持向量機(jī)學(xué)習(xí)算法的若干問題研究[D].成都:電子科技大學(xué),2007.
結(jié)合SVM與DS證據(jù)理論的信息融合分類方法
雷 蕾,王曉丹
LEI Lei,WANG Xiaodan
Missile Institute,Air Force Engineering University,Sanyuan,Shaanxi 713800,China
Based on the difficulty of obtaining the Basic Probability Assignment(BPA)of DS evidence theory in the practical application,an improved method of information fusion combing SVM and DS evidence theory is proposed.It uses the specific classification situation based on SVM and classifiers’reliabilities from confusion matrix to construct the basic probability assignment,which achieves the combination of SVM and the evidence theory in the information fusion.The method also presents a multi-sensor information fusion model.In the process of decision and fusion,it takes the sensors’local reliabilities into consideration and regards them as weights to integrate into BPA.The time complexity is also analyzed.The simulation results based on UCI data set and synthetic data set show that the fusion error rate can be decreased through the method proposed in this paper and the fusion reliabilities are increased.
information fusion;Support Vector Machine(SVM);evidence theory;confusion matrix
針對(duì)多傳感器數(shù)據(jù)融合分類中,DS證據(jù)理論基本概率賦值難以解決的問題,提出了一種結(jié)合SVM與DS證據(jù)理論的信息融合改進(jìn)方法。根據(jù)SVM對(duì)輸入數(shù)據(jù)分類的實(shí)際情況和基于混淆矩陣得到的分類器局部識(shí)別可信度來構(gòu)造基本概率賦值函數(shù),實(shí)現(xiàn)了兩者的有效結(jié)合,建立了SVM與DS證據(jù)相結(jié)合的多傳感器信息融合模型。在決策融合過程中,重視和考慮了分類器局部識(shí)別可信度信息,并對(duì)算法進(jìn)行了復(fù)雜度分析?;赨CI數(shù)據(jù)集和人工數(shù)據(jù)集的仿真結(jié)果表明該方法能夠有效地降低融合識(shí)別的誤差率,提高識(shí)別的可信度。
信息融合;支持向量機(jī);證據(jù)理論;混淆矩陣
A
TP391
10.3778/j.issn.1002-8331.1110-0377
LEI Lei,WANG Xiaodan.Approach of information fusion and classification by SVM and DS evidence theory.Computer Engineering and Applications,2013,49(11):114-117.
國家自然科學(xué)基金(No.60975026)。
雷蕾(1988—),女,碩士研究生,從事模式識(shí)別和智能信息處理等研究;王曉丹(1966—),女,教授,博士生導(dǎo)師,從事智能信息處理和機(jī)器學(xué)習(xí)等研究。
2011-10-19
2011-12-07
1002-8331(2013)11-0114-04
CNKI出版日期:2012-03-21 http://www.cnki.net/kcms/detail/11.2127.TP.20120321.1734.019.html