關(guān)鍵詞:知識圖譜;網(wǎng)絡(luò)安全信息;數(shù)據(jù)增強(qiáng);采集與分析
0 引言
隨著互聯(lián)網(wǎng)信息技術(shù)的迅速發(fā)展,人們獲取信息的方式逐漸從書本走向智能化,但隨之而來的網(wǎng)絡(luò)安全問題也日益頻繁。因此,對更高層次的網(wǎng)絡(luò)安全數(shù)據(jù)進(jìn)行采集與分析具有重要的實(shí)踐和理論價值[1]。知識圖譜技術(shù)是一種通過圖結(jié)構(gòu)對客觀世界的實(shí)體、實(shí)體關(guān)系和屬性進(jìn)行描述的語義網(wǎng)絡(luò),已被廣泛應(yīng)用于醫(yī)療、能源和金融等數(shù)據(jù)采集領(lǐng)域[2]。例如,吳小剛等人[3]基于知識圖譜設(shè)計了一種新的電網(wǎng)智能調(diào)度輔助決策系統(tǒng),對電網(wǎng)智能調(diào)度的時間與頻率進(jìn)行了優(yōu)化。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)能夠在較短時間內(nèi)實(shí)現(xiàn)電網(wǎng)的智能調(diào)度,提高了電網(wǎng)的調(diào)度頻率。韓一搏等人[4]為了提升煤礦綜采設(shè)備的實(shí)體識別精度,提出了一種基于聯(lián)合編碼的煤礦綜采設(shè)備知識圖譜構(gòu)建方法。實(shí)驗(yàn)結(jié)果顯示,該方法對綜采設(shè)備實(shí)體的識別準(zhǔn)確率較現(xiàn)有方法提高了1.26%以上。周冰原等人[5]通過知識圖譜技術(shù)對針灸治療失語癥領(lǐng)域進(jìn)行了可視化 分 析 ,并 采 用 CiteSpace 6.1. R 2 及 VOSviewer V1.6.16軟件對中國知網(wǎng)、萬方數(shù)據(jù)知識服務(wù)平臺和維普期刊全文數(shù)據(jù)庫中的相關(guān)文獻(xiàn)進(jìn)行了數(shù)據(jù)整理。實(shí)驗(yàn)結(jié)果表明,知識圖譜網(wǎng)絡(luò)可視化分析得出的頻次排名前五位的失語癥類型為運(yùn)動性失語、癔癥性失語、經(jīng)皮質(zhì)運(yùn)動性失語、命名性失語和感覺性失語。然而,目前尚未將知識圖譜技術(shù)應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域的研究。鑒于此,本文針對網(wǎng)絡(luò)安全的實(shí)體抽取與關(guān)系分類,引入了基于深度學(xué)習(xí)的知識圖譜補(bǔ)全技術(shù)與數(shù)據(jù)增強(qiáng)方法,并利用預(yù)訓(xùn)練模型對數(shù)據(jù)增強(qiáng)方法進(jìn)行了改進(jìn),提出了一種新型的基于知識圖譜和數(shù)據(jù)增強(qiáng)的網(wǎng)絡(luò)安全信息采集與分析的方法。
1 知識圖譜技術(shù)的構(gòu)建
在網(wǎng)絡(luò)安全信息的采集過程中,通常會遇到多樣化的阻礙,而知識圖譜能夠利用大數(shù)據(jù)對異常信息進(jìn)行追蹤溯源,從而應(yīng)對復(fù)雜多變的網(wǎng)絡(luò)攻擊,針對性地減緩攻擊,幫助管理者實(shí)時感知網(wǎng)絡(luò)安全態(tài)勢。同時,知識圖譜技術(shù)通常需要多個環(huán)環(huán)相扣的流程與步驟來共同構(gòu)建,主要包括知識抽取、知識融合和知識加工等三個步驟[6]。知識抽取負(fù)責(zé)網(wǎng)絡(luò)數(shù)據(jù)的實(shí)體抽取、關(guān)系抽取與屬性抽取;知識融合負(fù)責(zé)網(wǎng)絡(luò)數(shù)據(jù)的實(shí)體消歧與實(shí)體對齊;知識加工則負(fù)責(zé)網(wǎng)絡(luò)數(shù)據(jù)的圖譜構(gòu)建、知識更新與質(zhì)量評估。通過對網(wǎng)絡(luò)結(jié)構(gòu)化數(shù)據(jù)的深度處理,知識圖譜技術(shù)能夠形成結(jié)構(gòu)化的知識體系和高質(zhì)量的知識集合,從而實(shí)現(xiàn)知識的統(tǒng)一管理,契合網(wǎng)絡(luò)安全信息抽取的需求。網(wǎng)絡(luò)安全信息的實(shí)體抽取模塊結(jié)構(gòu)圖如圖1所示。
由圖1可知,該網(wǎng)絡(luò)安全信息實(shí)體抽取模塊主要包含變壓器雙向編碼器詞嵌入層、雙向長短期記憶網(wǎng)絡(luò)特征提取層、注意力機(jī)制層和條件隨機(jī)場層這4個部分。首先,將網(wǎng)絡(luò)安全信息輸入至變壓器雙向編碼器詞嵌入層中,經(jīng)過數(shù)據(jù)預(yù)處理,將網(wǎng)絡(luò)安全信息處理為含有目標(biāo)特征的向量信息。其次,將該向量信息數(shù)據(jù)輸入至雙向長短期記憶網(wǎng)絡(luò)特征提取層中,以捕捉所需的目標(biāo)特征信息。最后,通過注意力機(jī)制層與條件隨機(jī)場層,輸出實(shí)體標(biāo)簽。然而,知識圖譜的不完整性限制了其進(jìn)一步開發(fā)和應(yīng)用,知識圖譜補(bǔ)全技術(shù)是一種可以預(yù)測知識圖譜中缺失的實(shí)體和關(guān)系,以保證知識圖譜完整性的優(yōu)秀技術(shù)[7]。傳統(tǒng)的知識圖譜補(bǔ)全方法主要分為三類:基于翻譯距離的方法、基于張量分解的方法和基于深度學(xué)習(xí)的方法[8]。考慮到網(wǎng)絡(luò)安全信息數(shù)據(jù)的復(fù)雜性,以及為了提高實(shí)體抽取的分類性能,研究在網(wǎng)絡(luò)安全信息的實(shí)體抽取模塊中引入了基于深度學(xué)習(xí)的知識圖譜補(bǔ)全技術(shù)。
2 基于知識圖譜和數(shù)據(jù)增強(qiáng)的網(wǎng)絡(luò)安全信息采集與分析的方法
網(wǎng)絡(luò)安全數(shù)據(jù)樣本的標(biāo)記需要利用專家的專業(yè)知識進(jìn)行,這不僅復(fù)雜且耗時巨大[9]。數(shù)據(jù)增強(qiáng)方法是一種擴(kuò)充訓(xùn)練數(shù)據(jù)的方法,通過對訓(xùn)練集進(jìn)行變換來增加訓(xùn)練集的數(shù)量,能夠有效提高模型的泛化能力[10]。因此,為了更加簡便地對網(wǎng)絡(luò)安全數(shù)據(jù)進(jìn)行標(biāo)記,研究還引入了數(shù)據(jù)增強(qiáng)方法來補(bǔ)充訓(xùn)練數(shù)據(jù),并通過對訓(xùn)練集知識的實(shí)體替換來擴(kuò)充訓(xùn)練集的數(shù)量。實(shí)體字典的數(shù)學(xué)表達(dá)式如式(1) 所示。
式(1) 中,Z 代表實(shí)體字典,Counter 代表算法,X 與L 分別代表訓(xùn)練集與實(shí)體類型。增強(qiáng)句子數(shù)學(xué)表達(dá)式如式(2) 所示。
式(2) 中,J 代表增強(qiáng)句子,Augmentation 代表算法,其余代數(shù)含義與式(1) 一致。為了獲得更具表達(dá)能力的實(shí)體內(nèi)容特征,研究還引入了預(yù)訓(xùn)練模型對數(shù)據(jù)增強(qiáng)方法進(jìn)行改進(jìn),提出了一種基于預(yù)訓(xùn)練的編碼器數(shù)據(jù)增強(qiáng)方法。預(yù)訓(xùn)練模型的結(jié)構(gòu)如圖2所示。
由圖2可知,在研究所提出的預(yù)訓(xùn)練模型中,以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN) 作為核心網(wǎng)絡(luò)。首先,通過word2vec獲得實(shí)體內(nèi)容的詞向量。其次,將獲得的詞向量作為原始數(shù)據(jù)輸入至模型中,經(jīng)過拼接、池化、激活、卷積與線性處理操作,最終輸出可用的嵌入表示。線性處理的表達(dá)式如式(3) 所示。
式(3) 中,wemb 代表詞向量嵌入,a 與b 代表權(quán)重。最終,研究將知識圖譜補(bǔ)全技術(shù)與改進(jìn)后的數(shù)據(jù)增強(qiáng)方法相結(jié)合,提出了一種新型的基于知識圖譜增強(qiáng)的網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)化采集與知識融合方法。研究所提方法的結(jié)構(gòu)設(shè)計圖如圖3所示。
由圖3可知,研究所提出的基于知識圖譜增強(qiáng)的網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)化采集與知識融合方法主要由三個部分組成:網(wǎng)絡(luò)安全信息實(shí)體抽取模塊、網(wǎng)絡(luò)安全信息實(shí)體分類模塊和網(wǎng)絡(luò)安全信息實(shí)體匹配模塊。首先,將網(wǎng)絡(luò)安全數(shù)據(jù)輸入至實(shí)體抽取模塊,以進(jìn)行目標(biāo)數(shù)據(jù)的采集。其次,將采集的數(shù)據(jù)輸入至實(shí)體匹配模塊,利用正則表達(dá)式對采集到的數(shù)據(jù)進(jìn)行匹配。最后,對匹配的數(shù)據(jù)進(jìn)行實(shí)體分類,從而成功實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的采集與分析。
3 網(wǎng)絡(luò)安全信息采集與分析方法的性能測試
3.1 實(shí)體抽取性能測試
實(shí)體抽取是構(gòu)建網(wǎng)絡(luò)安全信息采集與分析方法的關(guān)鍵環(huán)節(jié)。因此,研究選取了CyberMonitor開源倉庫和Trendmicro安全公司的網(wǎng)絡(luò)安全數(shù)據(jù)作為測試環(huán)境。通過數(shù)據(jù)預(yù)處理與文章分句處理后,利用In? ception工具進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)的實(shí)體標(biāo)注和句子篩選。按照6∶2∶2的比例將句子數(shù)量劃分為訓(xùn)練集、驗(yàn)證集和測試集。操作系統(tǒng)版本選擇Ubuntu 7.5.0,GPU選擇GeForce GTX 1080 Ti,使用Pytorch框架進(jìn)行設(shè)計實(shí)現(xiàn)。不同方法的實(shí)體抽取性能對比結(jié)果如表1所示。
由表1可知,研究所提出的新型基于知識圖譜增強(qiáng)的網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)化采集與知識融合方法的召回率、準(zhǔn)確率與F1值分別為90.12%、97.16%和93.65%,均高于隱馬爾可夫、條件隨機(jī)場、BiLSTM、BiLSTM+條件隨機(jī)場以及BiLSTM+條件隨機(jī)場+隱馬爾可夫方法。與隱馬爾可夫方法相比,研究所提方法的召回率、準(zhǔn)確率與F1值分別提升了13.89%、18.82%和17.76%。上述數(shù)據(jù)表明,研究方法在網(wǎng)絡(luò)安全數(shù)據(jù)實(shí)體抽取方面表現(xiàn)出色。
3.2 實(shí)體關(guān)系分類性能測試
實(shí)體關(guān)系是實(shí)體之間聯(lián)系的橋梁,對研究提出的網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)化采集與知識融合方法進(jìn)行實(shí)體關(guān)系分類性能的測試,能夠驗(yàn)證網(wǎng)絡(luò)安全情報知識圖譜關(guān)系分類的有效性。因此,研究針對不同的數(shù)據(jù)增強(qiáng)比例,對網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)化采集與知識融合方法進(jìn)行了分類性能測試。測試結(jié)果如圖4所示。
由圖4可知,在數(shù)據(jù)增強(qiáng)比例從0%提升至50% 的過程中,研究所提方法的實(shí)體關(guān)系分類的F1值、準(zhǔn)確率與召回率均在緩慢提升。當(dāng)數(shù)據(jù)增強(qiáng)比例達(dá)到50%時,本研kyxPjBdluD7tj+A1iBy6RTeuFLT+AfbWUrh7LcrzYuk=究方法的分類效果達(dá)到最優(yōu),其F1值、準(zhǔn)確率與召回率分別為88.37%、99.27% 和90.58%。與沒有數(shù)據(jù)增強(qiáng)的方法相比,本研究方法的F1值、準(zhǔn)確率與召回率分別提升了6.07%、9.26%和1.46%。上述數(shù)據(jù)表明,研究提出的基于知識圖譜增強(qiáng)的網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)化采集與知識融合方法在分類方面具有高效性。
3.3 多指標(biāo)性能測試
研究最后以漏報率、誤識率和誤警率為指標(biāo),對常用的網(wǎng)絡(luò)安全信息采集與分析方法進(jìn)行多指標(biāo)測試。這些方法包括結(jié)合聯(lián)邦學(xué)習(xí)驅(qū)動的網(wǎng)絡(luò)安全方法(Federated Learning for Network Security, FLNS) 、變分自編碼器網(wǎng)絡(luò)異常檢測方法(Variational Autoen? coder for Network Anomaly Detection, VAE-NAD) 和結(jié)合深度學(xué)習(xí)的動態(tài)適應(yīng)網(wǎng)絡(luò)安全檢測方法(Deep LPeolaircnyi nSgy-stbeamse, dD LD-yDnAaNmSicP SA) 。da測pti試ve 結(jié)N果et如wo表rk 2S所ec示ur。
由表2可知,在三類指標(biāo)的檢測中,F(xiàn)LNS感知檢測方法的性能表現(xiàn)欠佳,其次為VAE-NAD方法、DLDANSPSDLDANSPS以及研究提出的基于知識圖譜增強(qiáng)的網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)化采集與知識融合方法。其中,F(xiàn)LNS感知檢測方法的漏報率最低為13.21%,誤識率最低為9.57%,誤警率最低為8.22%。而本研究提出的新型基于知識圖譜增強(qiáng)的網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)化采集與知識融合方法,漏報率最低為6.39%,誤識率最低為2.24%,誤警率最低為3.28%。由此可知,研究所提的基于知識圖譜和數(shù)據(jù)增強(qiáng)的網(wǎng)絡(luò)安全信息采集與分析方法具有相對較優(yōu)的實(shí)用性能,更適合于目前階段的網(wǎng)絡(luò)安全感知工作。
4 結(jié)論
針對現(xiàn)階段網(wǎng)絡(luò)安全信息分析存在的困難與挑戰(zhàn),本研究引入了知識圖譜技術(shù),并將其與數(shù)據(jù)增強(qiáng)方法相結(jié)合,提出了一種新型的基于知識圖譜和數(shù)據(jù)增強(qiáng)的網(wǎng)絡(luò)安全信息采集與分析方法。不同方法的實(shí)體抽取性能測試結(jié)果表明,研究所提方法的召回率、準(zhǔn)確率與F1值分別為90.12%、97.16%和93.65%,均高于隱馬爾可夫、條件隨機(jī)場、BiLSTM、BiLSTM+條件隨機(jī)場以及BiLSTM+條件隨機(jī)場+隱馬爾可夫方法。不同數(shù)據(jù)增強(qiáng)比例實(shí)體關(guān)系分類性能的測試結(jié)果表明,當(dāng)數(shù)據(jù)增強(qiáng)比例達(dá)到50%時,本研究方法的分類效果達(dá)到最優(yōu),其F1值、準(zhǔn)確率與召回率分別為88.37%、99.27%和90.58%。與沒有數(shù)據(jù)增強(qiáng)的方法相比,研究方法的F1值、準(zhǔn)確率與召回率分別提升了6.07%、9.26%和1.46%。上述實(shí)驗(yàn)數(shù)據(jù)充分證明了本研究方法在網(wǎng)絡(luò)安全領(lǐng)域中良好的分類能力,為后續(xù)網(wǎng)絡(luò)安全數(shù)據(jù)的采集與分析提供了一些新的研究方向。然而,研究探討的數(shù)據(jù)主要來源于CyberMonitor 開源倉庫和Trendmicro安全公司,并不全面,后續(xù)可以采集更為全面的數(shù)據(jù)進(jìn)行探究,以確保研究的精準(zhǔn)性與大范圍適用性。