李文藝,劉 春,李 彪
(1.宿州學院機械與電子工程學院,安徽 宿州 234000;2.河南大學計算機與信息工程學院,河南 開封 475000)
證據理論是一種不確定推理方法[1-2],獲取有效的mass函數是該理論應用于實際的關鍵所在。一旦獲取了該函數,接下的工作就是利用Dempster公式對多個mass函數進行合成運算,再根據合成的結果進行判決。從目前來看,已有的獲取mass函數的方法可以分為兩類:一類是利用專家的經驗來構造mass函數;另一類是根據已知的信息根據一定的條件自動生成函數。前一類方法容易獲取mass函數,但是由于每個專家的偏好不同、經驗不同,給出的mass函數有很大的主觀性。不同的專家可能會給出相反的證據,此時利用Dempster公式進行合成時可能出現錯誤的結果。而后一類方法,比如模糊方法,熵函數方法,粗糙集方法等[3-12],采用自動生成的方法可以不受個人主觀因素的影響,比較客觀的獲取mass函數, 在一定程度上解決了mass函數的獲取。
針對mass函數的獲取方法,本文給出了一種基于直方圖的mass函數的構造方法。該方法首先獲取樣本特征的直方圖,再用特征的直方圖構造出mass函數。其基本思想是不同的樣本特征的直方圖可能會有重疊部分,則在直方圖重疊部分樣本提供的信息具有一定的不確定性,重疊的程度大說明不確定性就大,重疊程度小說明確定性就較大,在直方圖不重疊部分,樣本提供的信息具有較大的確定性,所以可以利用直方圖重疊程度來確定mass函數的確定程度。該方法的優(yōu)點是在樣本較少,或者較大時都可以得到有效的mass函數。通過對鳶尾屬植物進行分類實驗,顯示本文所提出的方法正確分類率達到96.64%,這說明了本文方法的有效性。
設非空集合Θ是一個完備集合,應包含問題的所有可能,稱為Θ識別框架。2Θ為Θ的冪集,函數m為2Θ到[0,1]的映射,即m:2Θ→[0,1],則映射m稱為基本概率分配函數,又稱mass函數。若A∈2Θ,m應滿足以下條件
其中?為空集,若m(A)>0,則稱A為證據的焦元。
假設m1,m2為識別框架Θ下的兩個證據的mass函數,可以利用Dempster合成公式對證據進行合成,Dempster公式如下
本節(jié)將詳細介紹基于直方圖的mass函數構造方法的基本思想和基本過程。
假如有A,B,C三類樣本,每一類樣本都有k個特征可供利用,分別記為x1,…,xk。假設A,B,C三類樣本的特征x1分布區(qū)間分別是[c,d],[a,e],[b,f](如圖1所示)。在區(qū)間[a,b]與[e,f]中樣本不存在重疊,現有一待識別對象為s,根據s的k特征確定s的歸屬。若x1∈[a,b],由x1構造的mass函數應該對s∈B有很大的支持度;若x1∈[e,f],由x1構造的mass函數應該對s∈C有很大的支持度。區(qū)間[b,c]與區(qū)間[d,e]中B,C樣本的特征存在重疊,若x1∈[b,c]或x1∈[d,e],由x1構成的mass函數應同時支持s∈C,s∈B;此時mass函數值對B,C的支持程度與x1附近B,C兩種樣本的數量緊密相關。若x1附近C類樣本數比B類樣本數多,x1形成的mass函數對s∈C的支持程度大于s∈B支持程度,反之亦然。如果x1∈[c,d],mass函數應該A、B、C三類都有所支持,具體對A、B、C的支持程度同樣取決于x1附近樣本數目的三類樣本數目。x1附近那類樣本數量多,特征x1生成的mass函數應該對此類有較大的支持程度。為了避免某些特征構成的mass函數,“一票否決”現象,設定mass函數對框架Θ函數值不為0。
圖1 樣本分布區(qū)間
假設有N個可能的識別結果,辨識框架記為Θ={A1,A2,A3,…,AN}。設框架中每個元素的M個特征分別記為Θ={A1,A2,A3,…,AN} ;下面僅以特征x1為例說明由樣本特征構造mass函數的具體步驟。
步驟5 特征x1構成的mass函數記為m1,m1(Ai)表示x1支持Ai的程度?,F有一個未知對象a,若a的特征x1∈Δj此時特征x1構成的mass為
對余下的M-1個特征按照以上步驟可以分別生成m2,m3,…,mM。容易驗證對于由x1產生的mass函數之和為1,這完全滿足mass函數的條件。α應是一個較小的數值,通常α∈(0,0.3]。利用Dempster合成公式對多個特征進行融合,可以完成多特征融合的分類器設計。
鳶尾屬植物樣本的數據集中共有三類植物分別是Iris-Setsoa, Iris-Versicolor, Iris-Virgninca;每類樣本50個,共有150個樣本。每個樣本包含四個特征,分別是含萼片長度,萼片寬度,花瓣長度,花瓣寬度[13]。本文利用該樣本數據進行仿真實驗來驗證所提方法的可行性。
具體的仿真實驗過程如下:對樣本數據進行預處理,去除“野點”后余下149個樣本。樣本的特征范圍(單位cm)以及每個特征直方圖的區(qū)間個數如表1所示。首先利用本文方法構造出每個特征對應的mass函數;然后采用Dempster公式融合不同鳶尾屬植物的四個特征;再根據融合結果完成對三種鳶尾屬植物的分類工作,判決規(guī)則采用最大化mass函數值的原則。
對樣本數據采用“留一法”進行測試,采用不同的方法進行實驗,結果如表2所示。對待識別對象的萼片長度、萼片寬度、花瓣長度、花瓣寬度分別加上不同方差的干擾信號(干擾信號的平均值等于該類樣本特征的平均值),使用本文方法進行分類的結果如表3所示。
表1 樣本數據
表2 不同方法的實驗結果
表3 不同干擾情況下的實驗結果
分別采用BP神經網絡、支持向量機、聚類分析以及本文方法進行了分類實驗,結果如表2所示。由表2可見采用本文方法的正確識別率為96.64%,明顯高于支持向量機、神經網絡與聚類分析方法。在被識別對象的特征受到干擾時,實驗結果如表3所示。由表3可看出在干擾較小時,本文方法保持了原有的識別率;在干擾增大時,本文方法仍能獲得較為理想的實驗效果;在干擾信號較大時識別率為85.23%,此時識別率仍然優(yōu)于表2中的神經網絡與聚類分析方法。
在樣本較少時可以把直方圖的組距設計的大些,并利用mass函數構造過程中的步驟4與步驟5,這樣在小樣本的情況下同樣可以生成可用的mass函數。此時不會出現神經網絡中的欠學習的問題;其次使用本文方法時不用糾結于神經網絡中神經元個數的選擇,同時也避免了神經網絡結構的選擇。在樣本數量很大時直方圖的組距可以設計的小一些,此時每一個子區(qū)間內樣本的頻率更接近特征分布密度函數在該區(qū)間內的平均值,這會使結果更準確而不會出現神經網絡中的過學習問題。利用本文方法進行多特征融合時,由于單個特征的mass函數精度對于最終融合結果影響不明顯,所以在待識別對象的特征存在干擾時仍能取得較好的識別率。
針對證據理論的使用中mass函數的構造問題,提出了一種利用直方圖思想構造mass函數的方法,該方法可以利用樣本的特征構造出需要的mass函數,利用Dempster規(guī)則合成多個特征的mass函數值,即可實現多特征融合的模式識別方法。把該方法用于鳶尾屬植物的分類實驗中,在沒有干擾的情況下,分類正確率達到96.64%。在被識別樣本特征受到干擾時,使用本文方法仍然可以獲得較為理想的識別效果。文中的實驗說明了該方法可以很好的構造出所需要的mass函數。由于在實際的模式識別中通常都需要利用對象的多個特征進行識別,只要有少量的樣本就可以使用本文方法構造出樣本中每類特征對應的mass函數。在進行多傳感器融合時,若有多個傳感器的輸出數據作為樣本,利用本文方法可以構造出每個傳感器的mass函數,可實現多傳感器的信息融合。
參考文獻:
[1]DEMPSTER A P. Upper and lower probabilities induced by a multi-valued mapping [J]. Annuals of Mathematics Statistics, 1967, 38(4): 325-339.
[2]SHAFER G. A mathematical theory of evidence [M]. Princeton: Princeton University Press,1976.
[3]康兵義,李婭,鄧勇,等. 基于區(qū)間數的基本概率指派生成方法及應用[J].電子學報, 2012, 40(6):1092-1096.
[4]王俊林,張劍云. 基于統計證據的Mass函數和D-S證據理論的多傳感器目標識別[J].傳感技術學報, 2006, 19(3): 862-864.
[5]江四厚,王漢功,陽能軍. 基于熵的Mass函數算法及在液壓泵故障診斷中的應用[J]. 機床與液壓, 2007, 35(12):185-187.
[6]DENG Y, SHI W K, ZHU Z F, et al. Combining belief functions based on distance of evidence [J]. Decision Support Systems, 2004, 38(3): 489-493.
[7]DENG Y, JIANG W, XU X, et al. Determining BPA under uncertainty environments and its application in data fusion [J]. Journal of Electronics(China), 2009, 26(1): 13-17.
[8]肖建于,童敏明,朱昌杰,等.基于廣義三角模糊數的基本概率賦值構造方法[J]. 儀器儀表學報,2012, 33(2): 429-434.
[9]孔金生,李文藝. 基于模糊集合的mass函數構造方法[J]. 計算機工程與應用, 2008, 44(20): 152-154.
[10]韓峰,楊萬海,袁曉光. 基于模糊集合的證據理論信息融合方法[J]. 控制與決策, 2010, 25(3):449-452.
[11]蔣雯,張安,楊奇. 一種基本概率指派的模糊生成及其在數據融合中的應用[J]. 傳感技術學報, 2008, 21(10): 1717-1720.
[12]劉雷健,揚靜宇. 基于融合信息的物體識別[J]. 模式識別與人工智能, 1993, 6(1): 27-33.
[13]IrisData Set. Famous database for pattern recognition from Fisher [OL]. [2011-3-20]http://archive.ics.uci.edu/ml/datasets/Iris