薛 瑩,金景峰
(1. 陜西警官職業(yè)學(xué)院,陜西 西安 710021;2. 陸軍裝備部裝備項(xiàng)目管理中心,北京 100072)
異常讀數(shù)是與同一數(shù)據(jù)集中絕大多數(shù)讀數(shù)偏離的數(shù)據(jù),通常與常規(guī)數(shù)據(jù)表現(xiàn)出不同的屬性[1],可由執(zhí)行錯(cuò)誤、度量誤差、數(shù)據(jù)變異等眾多原因造成。異常讀數(shù)檢測(cè)是在大量數(shù)據(jù)中提取極少部分?jǐn)?shù)據(jù)的操作,但這部分?jǐn)?shù)據(jù)能夠提供極高價(jià)值,其中包含的信息在網(wǎng)絡(luò)入侵檢測(cè)[2]、疾病診斷、災(zāi)害預(yù)測(cè)、金融欺詐等多種領(lǐng)域中均具有重要作用[3],在新事物、新規(guī)律的分析與掌握中也是不容忽視的存在。目前國(guó)內(nèi)外業(yè)界學(xué)者在異常讀數(shù)檢測(cè)中投入極大的關(guān)注,對(duì)異常讀數(shù)檢測(cè)深入研究十分必要。
張倩倩[4]等人引入孤立度模塊和放大因子優(yōu)化傳統(tǒng)AP聚類算法,采用優(yōu)化后的APO算法,放大異常讀數(shù)與正常數(shù)據(jù)之間的差別,完成數(shù)據(jù)離群點(diǎn)檢測(cè)。張忠平[5]等人結(jié)合熵權(quán)距離和自然鄰居估計(jì)網(wǎng)絡(luò)讀數(shù)的高斯核密度,采用相對(duì)距離檢測(cè)讀數(shù)偏離鄰域的程度,加入相對(duì)熵權(quán)密度離群因子檢測(cè)網(wǎng)絡(luò)異常讀數(shù)。邱華[6]等人采用極限學(xué)習(xí)機(jī)訓(xùn)練網(wǎng)絡(luò)數(shù)據(jù),獲取局部離群因子閾值,應(yīng)用該閾值聚類處理數(shù)據(jù),完成網(wǎng)絡(luò)異常讀數(shù)檢測(cè)。以上方法沒有在檢測(cè)異常讀數(shù)前對(duì)大規(guī)模數(shù)據(jù)加以處理,導(dǎo)致存在準(zhǔn)確率和檢測(cè)率低、誤判率高、檢測(cè)時(shí)間長(zhǎng)的問題。
為了解決上述方法中存在的問題,提出基于日志信息的大規(guī)模網(wǎng)絡(luò)異常讀數(shù)檢測(cè)方法。
由于網(wǎng)絡(luò)日志信息大規(guī)模、高維度、強(qiáng)時(shí)間關(guān)聯(lián)、非結(jié)構(gòu)化等特性,使其在直接用于網(wǎng)絡(luò)異常讀數(shù)檢測(cè)時(shí)存在一定困難,預(yù)處理網(wǎng)絡(luò)日志信息能夠降低后續(xù)檢測(cè)難度。
由于網(wǎng)絡(luò)日志信息并非統(tǒng)一格式,若單獨(dú)分析全部格式,會(huì)導(dǎo)致工作量大幅度提升,造成大量時(shí)間和資源的浪費(fèi),因此引入抽象算法合并不同格式日志信息并提取其中統(tǒng)一的網(wǎng)絡(luò)事件,從而提高日志信息的可靠性,減少冗余信息造成的工作量。提取網(wǎng)絡(luò)事件需要建立包括對(duì)象和時(shí)間的提取目標(biāo)并采用該目標(biāo)搜尋相關(guān)日志信息,抽象化網(wǎng)絡(luò)事件。
1)建立事件提取源Q搜尋準(zhǔn)則:對(duì)于日志信息集合中的任意信息,若該信息同時(shí)具有不同記錄時(shí)間、源位置和目標(biāo)位置[7],則認(rèn)為該信息的結(jié)構(gòu)為一個(gè)Q。依據(jù)搜尋準(zhǔn)則,若成功實(shí)現(xiàn)Q的提取,則執(zhí)行步驟2),反之算法結(jié)束;
(1)
其中,t、src和des分別表示Ui和Q對(duì)應(yīng)的時(shí)間、源位置和目標(biāo)位置指標(biāo)。
3)通過δi和λi計(jì)算時(shí)間t對(duì)應(yīng)的安全系數(shù)SQ如下所示
(2)
(3)
5)根據(jù)步驟1)到4),得到新事件,由參數(shù)SQ和Lr構(gòu)成;
6)采用全部構(gòu)成新事件集合{}。
通過以上方法,將日志信息統(tǒng)一為規(guī)范的事件。
由于算法的局限性,對(duì)網(wǎng)絡(luò)事件提取后,仍有冗余數(shù)據(jù)存在,因此還需對(duì)事件融合處理[8]。設(shè)定融合距離,若事件a與事件b之間的距離小于融合距離,則融合事件a與事件b為新事件。事件融合具體流程如下所示:
1)設(shè)置計(jì)數(shù)器a=0、b=1和融合距離φ;
2){}中共包含m個(gè)新事件,若m>b,則計(jì)算a與b之間距離φ,反之結(jié)束計(jì)算;
3)若φ<φ,則執(zhí)行步驟4),若φ≥φ,則執(zhí)行步驟5);
5)a+1,b+1,返回步驟1)。
通過以上方法融合日志信息中較為相似的網(wǎng)絡(luò)事件,減輕后續(xù)計(jì)算負(fù)擔(dān)。
在日志信息中存在“維數(shù)災(zāi)難”的問題,解決該問題的必要途徑就是降維[9],從而提高樣本密度,降低信息損失。引入核主成分分析算法對(duì)提取融合后的日志信息降維處理[10],用gk表示屬性空間m個(gè)數(shù)據(jù)中的第k個(gè)數(shù)據(jù),Ψ(gk)和Ψ(gj)分別表示gk和gj在高維空間中映射的像,計(jì)算中心化后數(shù)據(jù)協(xié)方差矩陣[11]
(4)
用τ和ξ分別表示H的特征值和特征向量,ck表示gk的數(shù)據(jù)中心,τ和ξ存在如下關(guān)系
τH=ξH
(5)
將另一像Ψ(gi),i∈[1,m]與式(5)作內(nèi)積,得到
(6)
用ε表示gk和gj的核,Φ表示核矩陣,計(jì)算方式如下所示
(7)
常用核函數(shù)主要為高斯核函數(shù)ε(gk,gj)1和多項(xiàng)式核函數(shù)ε(gk,gj)2[12],對(duì)應(yīng)表達(dá)式如下所示
(8)
式中,σ為高斯核帶寬,σ>0,r為[1,m]中的整數(shù)。根據(jù)以上計(jì)算,得到日志信息數(shù)據(jù)在低維空間中的投影,完成數(shù)據(jù)降維。
為了檢測(cè)日志信息的大規(guī)模網(wǎng)絡(luò)異常讀數(shù),提出結(jié)合時(shí)空關(guān)聯(lián)性的分階段計(jì)算與過濾異常讀數(shù)檢測(cè)算法。
(9)
(10)
通過式(10)可以獲取讀數(shù)相異程度,設(shè)定閾值k,選取式(10)計(jì)算結(jié)果中前k個(gè)讀數(shù)建立候選異常讀數(shù)集W,具體流程如下所示:
1)在第一個(gè)時(shí)間區(qū)間T1內(nèi),利用式(9)分別求解ω、gmin和gmax,通過式(10)計(jì)算γ(·)并保存前k個(gè)(k (11) 利用式(11)和式(10)分別計(jì)算增量和距離,若候選異常讀數(shù)集中距離最小值小于γ(·),則采用新讀數(shù)替換原候選異常讀數(shù)。 存儲(chǔ)讀數(shù)并發(fā)送至空間鄰居,重復(fù)步驟2),直至完成全部時(shí)間區(qū)間內(nèi)的讀數(shù)計(jì)算。 (12) 式中,σ取值越大,則γ(·)所占比例越高,γ′占比越低,μ的主要作用是檢測(cè)候選異常讀數(shù)點(diǎn)集中某點(diǎn)是否為真正異常讀數(shù),通常σ∈[0,0.5)。 在M個(gè)讀數(shù)集中,采用μ最大的k個(gè)讀數(shù)構(gòu)成局部異常讀數(shù)點(diǎn)集。 網(wǎng)絡(luò)節(jié)點(diǎn)通過網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)傳遞k個(gè)局部異常讀數(shù)點(diǎn)至sink節(jié)點(diǎn),傳遞采用多跳通信方式,sink節(jié)點(diǎn)將全部收到局部異常讀數(shù)μ排序,其中最大的k個(gè)讀數(shù)即為全局異常讀數(shù)。 通過以上計(jì)算,完成基于日志信息的大規(guī)模網(wǎng)絡(luò)異常讀數(shù)檢測(cè)。 為了驗(yàn)證基于日志信息的大規(guī)模網(wǎng)絡(luò)異常讀數(shù)檢測(cè)方法整體有效性,需要對(duì)其加以測(cè)試。 采用4個(gè)不同日志信息集作為實(shí)驗(yàn)數(shù)據(jù)對(duì)比所提方法、文獻(xiàn)[4]方法和文獻(xiàn)[5]方法的大規(guī)模網(wǎng)絡(luò)異常讀數(shù)檢測(cè)效果,日志信息數(shù)據(jù)特征如表1所示: 表1 日志信息數(shù)據(jù)特征 對(duì)日志信息集1、日志信息集2、日志信息集3和日志信息集4展開實(shí)驗(yàn),以準(zhǔn)確率、檢測(cè)率、誤報(bào)率和檢測(cè)時(shí)間為指標(biāo)統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果對(duì)比3種方法的有效性。 用NTP表示異常讀數(shù)被正確判定為異常的數(shù)量,NTN表示非異常讀數(shù)被正確判定為非異常的數(shù)量,NFP表示非異常讀數(shù)被錯(cuò)誤判定為異常的數(shù)量,NFN表示異常讀數(shù)被錯(cuò)誤判定為非異常的數(shù)量,準(zhǔn)確率ACC、檢測(cè)率DR、誤報(bào)率FAR的計(jì)算公式如下所示 (13) 統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果并加以計(jì)算,得到準(zhǔn)確率、檢測(cè)率和誤報(bào)率實(shí)驗(yàn)結(jié)果如圖1、圖2和圖3所示。 由圖1可以看出,所提方法在4個(gè)日志信息集的實(shí)驗(yàn)中,準(zhǔn)確率均高于文獻(xiàn)[4]方法和文獻(xiàn)[5]方法,在日志信息集1中準(zhǔn)確率最高,達(dá)到93%以上,在日志信息集2中為4次實(shí)驗(yàn)最低,但仍保持在88%以上,而文獻(xiàn)[4]方法和文獻(xiàn)[5]方法的準(zhǔn)確率大部分在70%到85%之間,僅有文獻(xiàn)[4]方法在日志信息集1中的檢測(cè)結(jié)果高于90%,可見文獻(xiàn)[4]方法和文獻(xiàn)[5]方法對(duì)異常讀數(shù)檢測(cè)的準(zhǔn)確率均低于所提方法,因?yàn)樗岱椒ㄔ跈z測(cè)網(wǎng)絡(luò)異常讀數(shù)前對(duì)大量日志信息提取、融合并降維處理,降低后續(xù)異常讀數(shù)檢測(cè)的復(fù)雜度,提高檢測(cè)準(zhǔn)確率。 圖1 準(zhǔn)確率實(shí)驗(yàn)結(jié)果 圖2 檢測(cè)率實(shí)驗(yàn)結(jié)果 由圖2可以看出,對(duì)于檢測(cè)率而言,所提方法的檢測(cè)率均高于88%,最高達(dá)到97%左右,文獻(xiàn)[4]方法最高為84%左右,最低未達(dá)到60%,文獻(xiàn)[5]方法最高為85%左右,最低在65%左右,兩者檢測(cè)率均低于所提方法,說明所提方法對(duì)異常讀數(shù)檢測(cè)具有更高的廣泛性,能夠適用于多類型日志信息。 分析圖3可知,所提方法具有明顯低于文獻(xiàn)[4]方法和文獻(xiàn)[5]方法的誤報(bào)率,即所提方法對(duì)異常讀數(shù)的判定更為準(zhǔn)確,有效性更高,有助于提取更準(zhǔn)確的異常讀數(shù)用于后續(xù)數(shù)據(jù)分析,更適合應(yīng)用于實(shí)際的網(wǎng)絡(luò)異常讀數(shù)檢測(cè)之中。 圖3 誤報(bào)率實(shí)驗(yàn)結(jié)果 統(tǒng)計(jì)三種方法在4個(gè)日志信息集中檢測(cè)異常讀數(shù)所用時(shí)間,實(shí)驗(yàn)結(jié)果如圖4所示。由圖4可以看出,所提方法在4個(gè)日志信息集中的檢測(cè)時(shí)間均少于文獻(xiàn)[4]方法和文獻(xiàn)[5]方法,即所提方法在相同條件下具有更高的效率,完成同樣工作能夠節(jié)省更多的時(shí)間,可以有效避免時(shí)間和精力的浪費(fèi)。 圖4 檢測(cè)時(shí)間實(shí)驗(yàn)結(jié)果 在傳統(tǒng)數(shù)據(jù)預(yù)處理中,通常會(huì)在處理時(shí)舍棄異常讀數(shù),或?qū)惓Wx數(shù)作為噪聲對(duì)其去噪處理,或?qū)⑵淦交幚恚档推鋵?duì)數(shù)據(jù)集的影響,但異常讀數(shù)并非無意義數(shù)據(jù),其中蘊(yùn)含著重要的信息,異常讀數(shù)檢測(cè)在數(shù)據(jù)挖掘中占據(jù)重要位置。為了解決目前準(zhǔn)確率和檢測(cè)率低、誤判率高、檢測(cè)時(shí)間長(zhǎng)的問題,提出基于日志信息的大規(guī)模網(wǎng)絡(luò)異常讀數(shù)檢測(cè)方法,預(yù)處理原始日志信息,獲取更利于計(jì)算的低冗余低維度數(shù)據(jù),結(jié)合時(shí)空關(guān)聯(lián)性分段檢測(cè)大規(guī)模網(wǎng)絡(luò)異常讀數(shù)。該方法能夠有效地提高準(zhǔn)確率和檢測(cè)率、降低誤報(bào)率、節(jié)省檢測(cè)時(shí)間,有助于更好的挖掘網(wǎng)絡(luò)異常讀數(shù)用于研究之中。4 實(shí)驗(yàn)與結(jié)果
4.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)
4.2 實(shí)驗(yàn)結(jié)果分析
5 結(jié)束語(yǔ)