徐運(yùn)海,李道遠(yuǎn),黃昌金,王慶友
(廣州匯智通信技術(shù)有限公司,廣東 廣州 510630)
信息化技術(shù)的日新月異,使實(shí)時(shí)感知、獲取、存儲(chǔ)和分析大量多維度現(xiàn)實(shí)數(shù)據(jù)和虛擬數(shù)據(jù)成為可能,也為研究熱點(diǎn)的意圖研判工作提供了強(qiáng)有力的數(shù)據(jù)基礎(chǔ)[1],可以給新型互聯(lián)網(wǎng)犯罪、智能社區(qū)安防、互聯(lián)網(wǎng)推薦系統(tǒng)等領(lǐng)域提供技術(shù)應(yīng)用支撐,帶動(dòng)基于已知專家模型和經(jīng)驗(yàn)知識(shí)的社會(huì)服務(wù)二次升級。傳統(tǒng)的意圖研判方法需知道大量的正、負(fù)樣本,由于行業(yè)局限性,僅能獲取較多的正樣本,負(fù)樣本難以獲取,導(dǎo)致無法進(jìn)行對等數(shù)據(jù)樣本的平衡訓(xùn)練,無法進(jìn)行有效的研判訓(xùn)練工作。為了為了更好地實(shí)現(xiàn)意圖研判,將研判結(jié)果簡化為“正?!?、“異?!?,研判工作轉(zhuǎn)化為一類劃分問題。簡化的劃分問題能夠充分發(fā)揮大量正常樣本的作用,解決由于異常樣本采集難導(dǎo)致的研判困難問題。因此,本文采用一類劃分方法開展意圖研判工作。
支持向量數(shù)據(jù)描述(support vector data dscription,SVDD)[2]作為機(jī)器學(xué)習(xí)領(lǐng)域被驗(yàn)證的高效可靠的一類劃分方法,首先,通過非線性映射將原始數(shù)據(jù)映射到高維的內(nèi)積空間或特征空間;然后,構(gòu)造有限空間的高維最小結(jié)構(gòu)體(最優(yōu)結(jié)構(gòu)體);最后,將測試樣本同樣映射到相同維度,按照樣本掉落空間位置情況確定歸屬性。在SVDD的應(yīng)用研究中,通常是將一個(gè)樣本類視為異常樣本類,而所有其他的樣本類被視為目標(biāo)數(shù)據(jù)集(或目標(biāo)集)。
SVDD能夠區(qū)分目標(biāo)樣本和非目標(biāo)樣本,通常應(yīng)用于異常檢測和故障檢測等領(lǐng)域。能夠面向非線性、非高斯等特殊的數(shù)據(jù)形態(tài),通過非線性變換將訓(xùn)練數(shù)據(jù)映射到高維,基于空間閾值的判別實(shí)現(xiàn)知識(shí)描述和數(shù)據(jù)分類,具有較高的準(zhǔn)確性。然而,當(dāng)數(shù)據(jù)集內(nèi)容、維度都具備高度復(fù)雜性的時(shí),潛在的邊界不規(guī)則性、時(shí)變性、特殊性使得傳統(tǒng)的SVDD方法難以進(jìn)行有效的研判工作,因此,迫切需要進(jìn)一步研究具有特征分析能力、微小邊界識(shí)別區(qū)分能力的研判分析方法,提高意圖研判工作的精度及有效性,助力行業(yè)領(lǐng)域的良性發(fā)展。
SVDD是文獻(xiàn)[3]提出的一種一類劃分方法,在高維中訓(xùn)練生成數(shù)據(jù)集的最小結(jié)構(gòu)體。假定訓(xùn)練數(shù)據(jù)集X={x1,x2,…,xn},基于非線性函數(shù)φ(·)生成滿足以下約束結(jié)構(gòu)體:
(1)
其中,
(2)
式中:a和R分別為結(jié)構(gòu)體的球心和半徑;懲罰因子ε和松弛因子ξi為強(qiáng)化模型魯棒性的重要參數(shù)(調(diào)節(jié)模型內(nèi)外奇異點(diǎn)的數(shù)量),ξi≥0;ρ為SVDD模型的置信區(qū)間,ρ=0.01表示允許有百分之一的訓(xùn)練數(shù)據(jù)為奇異點(diǎn)。
L(R,a,ξi,α,β)=
(3)
式(3)關(guān)于R、a和ξi的偏導(dǎo)為
(4)
根據(jù)式(4)的結(jié)果轉(zhuǎn)化為對偶形式:
(5)
其中,K(x,x)=φ(x),φ(x)為核函數(shù),常用的高斯核函數(shù)[4]為
(6)
式中:σ為高斯核函數(shù)的核寬參數(shù)。
通過求解式(5),計(jì)算結(jié)構(gòu)體的平均邊緣作為分類控制限,且每個(gè)數(shù)據(jù)點(diǎn)xo對應(yīng)的結(jié)構(gòu)體邊緣Ro(1≤o≤n)和球心a為
(7)
構(gòu)建SVDD模型可得結(jié)構(gòu)體半徑集合R=[R1,R2,…,Rn],判別邊界需要計(jì)算用于異常研判,SVDD領(lǐng)域內(nèi)可行的劃分邊界計(jì)算方法為[5]
1)平均邊界[6]
(8)
2)最大邊界[7]
Rmax=maxR
(9)
3)調(diào)整值邊界[8]
(10)
通過計(jì)算xtest其到結(jié)構(gòu)邊緣的距離進(jìn)行類別判斷
(11)
數(shù)據(jù)分類通常是為了區(qū)分具有較大差異的正常數(shù)據(jù),而意圖研判通常是為了區(qū)分差異較小的意圖。傳統(tǒng)SVDD的決策邊界存在算法并沒有考慮結(jié)構(gòu)體的崎嶇性,無法對意圖研判進(jìn)行有效判別的問題,如圖1所示。
圖1 SVDD判別結(jié)果的對比
基于特征結(jié)構(gòu)變化SVDD的意圖異常研判方法,主要由意圖數(shù)據(jù)采集及預(yù)處理模塊、基于特征結(jié)構(gòu)變化SVDD的意圖異常研判模型組成。其中,前者根據(jù)意圖知識(shí)網(wǎng)絡(luò)提供可供訓(xùn)練模型的結(jié)構(gòu)化數(shù)據(jù),后者構(gòu)建意圖異常研判模型實(shí)現(xiàn)意圖的研判工作。
在意圖異常研判工作中,正常行為的數(shù)據(jù)遠(yuǎn)遠(yuǎn)超過異常的意圖行為,假設(shè)意圖xi被定性為正常,意圖yi被定性為未知,由于意圖涉及多重行為,經(jīng)過知識(shí)轉(zhuǎn)化網(wǎng)絡(luò)后,輸出以結(jié)構(gòu)化數(shù)據(jù)形式表征的數(shù)據(jù),將正常意圖的結(jié)構(gòu)化數(shù)據(jù)集表示為X={x1,x2,…,xn},將未知意圖的結(jié)構(gòu)化數(shù)據(jù)集表示為Y={y1,y2,…,yn}。
意圖網(wǎng)絡(luò)往往具有高度的復(fù)雜性,其訓(xùn)練的判別結(jié)構(gòu)體往往具有高度不規(guī)則性,傳統(tǒng)基于SVDD均值結(jié)構(gòu)體邊界無法進(jìn)行有效的判別規(guī)則調(diào)整,制約了意圖異常研判的準(zhǔn)確性的提高。因此,本文給出基于特征結(jié)構(gòu)變化的SVDD方法進(jìn)行有效的意圖異常研判。
2.2.1SVDD結(jié)構(gòu)變化
s.t.αz+αq=ζ,0≤αz,αq≤ε
(12)
為了簡化式(12),設(shè)
(13)
根據(jù)式(13),將式(12)簡化為
L=const-ζ2K(xz,xz)+2ζαqK(xz,xz)-
2[ζK(xz,xz)-ζK(xz,xq)+νz-νq]αq+const
(14)
式(14)中
ζK(xz,xz)-ζK(xz,xq)+νz-νq=
(15)
因此,式(14)簡化為
(16)
對αq求偏導(dǎo)可得
(17)
由式(17)可得,進(jìn)行測試數(shù)據(jù)xq和xz的關(guān)系計(jì)算,可以多次循環(huán)迭代更新所有拉個(gè)朗日乘子。
2.2.2基于特征結(jié)構(gòu)變化SVDD方法
在傳統(tǒng)的SVDD算法中,由式(7)可知,拉格朗日乘子的變化,會(huì)導(dǎo)致結(jié)構(gòu)體邊界發(fā)生改變。假設(shè)當(dāng)前存在兩個(gè)正常意圖xz、xq,xz相比于測試數(shù)據(jù)xq更靠近結(jié)構(gòu)體中心,可得
(18)
根據(jù)式(5),式(18)可轉(zhuǎn)化為
(19)
當(dāng)xz≠xq,當(dāng)根據(jù)式(19)可得
K(xz,xz)=K(xq,xq)=1
2K(xz,xq)-K(xz,xz)-K(xq,xq)<0
(20)
根據(jù)式(19)~式(20),結(jié)合拉格朗日乘子更新規(guī)則可簡化為
(21)
因此,離結(jié)構(gòu)體中心越近的數(shù)據(jù)點(diǎn)具有較小的乘子。
2.2.3意圖異常研判模型
基于特征結(jié)構(gòu)變化SVDD方法的結(jié)論可得:基于正常意圖的數(shù)據(jù)集X={x1,x2,…,xn}訓(xùn)練得出的結(jié)構(gòu)體HX,及基于摻雜某個(gè)異常意圖數(shù)據(jù)的數(shù)據(jù)集Xtrain={x1,x2,…,xn,yi}訓(xùn)練而得的結(jié)構(gòu)體HXtrian,會(huì)具有較大的差異,因此,可以對結(jié)構(gòu)體變化進(jìn)行量化,作為意圖異常研判模型的判別條件。
(22)
根據(jù)摻雜某個(gè)意圖數(shù)據(jù)的數(shù)據(jù)集,獲得結(jié)構(gòu)體的關(guān)鍵架構(gòu),可以從結(jié)構(gòu)體的變化程度,判斷該意圖是否為正常意圖。
基于前文的理論基礎(chǔ),本章給出基于特征結(jié)構(gòu)變化SVDD的意圖異常研判實(shí)現(xiàn)流程,主要分為以下兩個(gè)步驟:1)結(jié)構(gòu)體重要架構(gòu)的獲得;2)待研判意圖的檢測判斷。
(23)
采用具有廣泛認(rèn)可度的UCI測試數(shù)據(jù)庫進(jìn)行方法驗(yàn)證,選擇3個(gè)標(biāo)準(zhǔn)測試數(shù)據(jù)集進(jìn)行方法有效性驗(yàn)證,標(biāo)準(zhǔn)數(shù)據(jù)庫情況如表1所示。
表1 測試數(shù)據(jù)集情況
考慮到為提高測試準(zhǔn)確性,在一批次測試訓(xùn)練階段,選擇70%數(shù)據(jù)作為訓(xùn)練集,其余30%作為測試集,測試算法均采用交叉驗(yàn)證方法設(shè)定參數(shù)值。分類結(jié)果如表2所示。
表2 分類結(jié)果
從表2可得,本文方法在機(jī)器學(xué)習(xí)標(biāo)準(zhǔn)數(shù)據(jù)集上,具有較好的精度表現(xiàn),針對較小的數(shù)據(jù)崎嶇情況,SVDD傳統(tǒng)的三種研判邊界很難進(jìn)行有效判別,而本文方法通過以特征結(jié)構(gòu)變化為最小判別單元,能夠很好地分析發(fā)掘不同差異。
本研究從SVDD方法入手,通過量化高維結(jié)構(gòu)體重要架構(gòu),根據(jù)正常、異常意圖對架構(gòu)的影響程度,判斷模型訓(xùn)練數(shù)據(jù)集中是否存在異常意圖,有效地提高了意圖研判的準(zhǔn)確性。后續(xù)可進(jìn)一步對支持向量其他方法進(jìn)行原理更新與研究。