何保榮
(河南牧業(yè)經(jīng)濟學(xué)院 軟件學(xué)院,鄭州 450046)
計算機、互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展促使各種類型的數(shù)據(jù)也在不斷增長,大數(shù)據(jù)時代正在到來.數(shù)據(jù)已經(jīng)從初始階段的簡單處理變?yōu)橐环N基礎(chǔ)性資源[1],如何能夠更好地管理這些數(shù)據(jù)已經(jīng)成為當(dāng)前關(guān)注的熱點話題.在對上述數(shù)據(jù)進行管理的過程中,如果數(shù)據(jù)受到入侵,將造成巨大的損失,信息系統(tǒng)的入侵信息檢索已經(jīng)成為人們關(guān)注的焦點.百度、谷歌等檢索瀏覽器的發(fā)展使得搜索工具門檻降低[2],而非專業(yè)的工作人員在進行信息搜索時存在安全意識不足問題,難以避免惡意入侵帶來的干擾[3],所以,需要研究一種新的入侵信息檢索方法,保證人們?nèi)粘K阉骱蛻?yīng)用數(shù)據(jù)過程中的數(shù)據(jù)安全.
目前,國內(nèi)外已有學(xué)者進行了相關(guān)研究,例如文獻[4]提出一種基于反饋算法的監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索方法,引用反饋算法計算入侵數(shù)據(jù)復(fù)雜度,并按照最小經(jīng)驗損失進行排序,獲取入侵數(shù)據(jù)特征,實現(xiàn)網(wǎng)絡(luò)入侵數(shù)據(jù)檢索,但該方法的檢索精度較低;文獻[5]提出一種基于云環(huán)境下的監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索方法,該方法通過構(gòu)建安全索引,完成入侵數(shù)據(jù)搜索功能,實現(xiàn)監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索,但該方法的檢索耗時較高.針對上述方法存在的問題,提出了一種基于大數(shù)據(jù)的監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索方法.
入侵特征選擇是指選擇一個有效的屬性子集,用來描述一個較大的含有多余以及不相關(guān)屬性數(shù)據(jù)的有效數(shù)據(jù)集模式,并且規(guī)定在有效的時間內(nèi),可以在設(shè)定的范圍內(nèi)找到最小的、描述能力最強的入侵特征子集,使選擇的每一個子集不是多余或者是不相關(guān)的[6].
遺傳算法是一種以自然選擇理論為基礎(chǔ),將生物進化過程中適者生存規(guī)則以及群體內(nèi)部染色體的隨機信息交換機制相結(jié)合的高效尋優(yōu)搜索方法,并且搜索范圍較廣,具有較強的魯棒性[7].本章節(jié)利用遺傳算法對入侵特征進行尋優(yōu).
在進行入侵信息檢索過程中,將任意一個入侵特征選擇的問題設(shè)定為二值問題,引用二進制一維編碼,不同染色體對應(yīng)相應(yīng)的入侵特征集.假設(shè)M為入侵特征總數(shù),則染色體是一個長度分別為a、b的0、1字串,不同的字串對應(yīng)不同的入侵特征.
B(x)為個體x中包括的特征對應(yīng)攻擊信息,假設(shè)該取值大于設(shè)定閾值εi的特征占比為eN(x),且有效入侵特征集為L′,則判斷個體中含有的優(yōu)良基因越多,對應(yīng)入侵特征被選中的可能性也就越大,適應(yīng)度函數(shù)S(x)可表示為
(1)
每個個體中特征所含有的信息量為H(x),假設(shè)該值大于設(shè)定閾值εi的特征占比為p(εi),則將其作為選擇概率.
載入入侵信息特征集,設(shè)定初始參數(shù)r的表達式為
(2)
建立初始種群中染色體節(jié)點c的表達式為
(3)
選取適應(yīng)度函數(shù)值最大的前n個個體組成集合G,并利用遺傳算法對入侵特征集進行優(yōu)化,獲取最優(yōu)入侵特征子集為
(4)
本文采用遺傳算法對特征集進行優(yōu)化選擇,選取最優(yōu)入侵特征子集構(gòu)建入侵信息消除模型,將信息集中無效的、多余的信息進行刪除[8].具體過程如下:
設(shè)定特征值v中含有攻擊信息數(shù)量為vi,vi出現(xiàn)的概率為p(vi),則有
(5)
式中:T為特征v的信息熵;I為數(shù)據(jù)源.
針對于特征v、u,則有
(6)
式中:p(vi,uj)為取值的聯(lián)合概率;p(uj)為取值uj出現(xiàn)概率.
判斷一個新的特征變量是否有必要進入模型或某個特征變量是否可以從模型中刪除,需要利用偏F檢驗的方法,根據(jù)其顯著性進行判斷,根據(jù)判別的結(jié)果能夠獲取入侵特征集[9].假設(shè)有m個自變量x1,x2,…,xm,βi表示變量系數(shù),引用m的冗余信息消除模型表示為
(7)
入侵檢測屬于分類問題,將網(wǎng)絡(luò)中的正常數(shù)據(jù)流與異常數(shù)據(jù)流區(qū)分開來,將用戶操作與黑客操作區(qū)分開來.入侵檢測技術(shù)可以分為兩類,分別是特征檢測以及異常檢測,特征檢測主要用于網(wǎng)絡(luò)中已存在入侵信息的情況,而異常檢測則是主要分析當(dāng)前網(wǎng)絡(luò)信息,一旦網(wǎng)絡(luò)信息出現(xiàn)異常,即將其當(dāng)做入侵信號進行處理,將該活動判別為“入侵行為”.信息集合主要是數(shù)據(jù)集合體,是一種公共知識結(jié)構(gòu),可以對知識結(jié)構(gòu)缺陷進行彌補.匹配與選擇的主要作用是比較信息集合與需求集合,按照相應(yīng)選擇標準找到符合要求的信息[10].
入侵檢測系統(tǒng)在處理海量數(shù)據(jù)時實時性以及靈敏度較差,針對此問題,本文采用默認推理邏輯予以解決.對于證據(jù)不充分的入侵數(shù)據(jù),結(jié)合默認推理邏輯的入侵檢測技術(shù)可以對入侵行為進行準確判斷,使檢測速度以及精確度都得到較大提高.該檢測方法既可以實時了解網(wǎng)絡(luò)系統(tǒng)的變更,還可以制定網(wǎng)絡(luò)安全策略,更重要的一點是管理以及配置簡單,可以使非專業(yè)人員較為容易獲得安全的網(wǎng)絡(luò)資源.入侵檢測的規(guī)模要根據(jù)網(wǎng)絡(luò)威脅、系統(tǒng)構(gòu)造以及安全需求的改變而改變,入侵系統(tǒng)在發(fā)現(xiàn)入侵后,要及時做出響應(yīng),包括切斷網(wǎng)絡(luò)連接、記錄事件以及報警等.
引用LDA模型作為基礎(chǔ)構(gòu)建入侵信息檢索框架,基于檢測框架以及LDA模型共同構(gòu)建入侵信息檢索模型.
召回率也叫查全率,是檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率.入侵信息檢索框架是由N個文檔構(gòu)成,其中文檔一共含有K個話題.引用LDA模型建立不同話題與不同文檔間的關(guān)系,則話題與文檔的連線代表該文檔屬于相應(yīng)話題的概率.在用戶輸入關(guān)鍵字進行查詢的時候,需要在話題集合中選擇帶有關(guān)鍵字的話題,并對選取的話題查找包含相應(yīng)文件的概率.通過文檔與入侵信息之間的概率關(guān)系對返回的文檔進行排序,具體過程如下:
在構(gòu)建LDA模型中,所引用的話題組合主要來自于Dirichlet相關(guān)知識,這些知識在所有的文檔中是一樣的.設(shè)定參數(shù)f為概率分布,z為話題數(shù)量,N為文檔數(shù)量,則多項式分布可表示為
(8)
文檔d選擇多項式分布概率為
(9)
將文檔中所有的單詞標記為w,在引用語言模型進行信息檢索時,通過各個文檔模型計算查詢項Q的概率為
(10)
式中:D為不同類型的文檔數(shù);q為查詢分項;p(q,D)為文檔中含有查詢項的概率.如果查詢項是獨立的個體,則有
(11)
式中:p(w|D)為入侵信息檢索評價信息;pML(w|D)為入侵信息w在文檔中的最大似然估計;μ為先驗知識;Nd為個體信息量.
在上述基礎(chǔ)上,對文檔進行建模.與傳統(tǒng)的檢索模型相比,本文提出了一種新型的文檔建模模型,利用該模型與初始文檔、LDA模型進行線性組合.此外,算法的復(fù)雜性是設(shè)計信息檢索模型必須考慮的重點.在進行掃描或者迭代過程中,所提方法的運行時間與文檔的個數(shù)呈正比.為了減少算法的運行時間,將式(11)簡化為
(12)
然后對入侵信息進行檢索,可描述為
(13)
為了驗證所提基于大數(shù)據(jù)的監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索方法的綜合有效性,采用實驗進行分析.實驗電腦配置環(huán)境為:處理器Inter(R)Core(TM)2Duo2.8GHzPC,內(nèi)存2 Gbit,操作系統(tǒng)為Windows7,編程語言為C#,采用數(shù)據(jù)庫SQL Server2000中的入侵信息.信息總量6 000個,其中包含5 000個正常數(shù)據(jù)和1 000個入侵異常數(shù)據(jù),共劃分為6組樣本數(shù)據(jù),每組樣本含有1 000個數(shù)據(jù).具體參數(shù)設(shè)置如表1所示.
表1 參數(shù)設(shè)置Tab.1 Parameter setting
根據(jù)參數(shù)設(shè)置,將檢索精度η作為實驗指標,設(shè)定J表示檢索出的入侵數(shù)據(jù)量;Z表示總?cè)肭謹?shù)據(jù)量,則檢索精度η的計算公式為
(14)
在混合入侵信息數(shù)量一定的情況下,將本文方法與基于反饋算法的監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索方法、基于云環(huán)境下的監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索方法的檢索精度進行對比分析,對比結(jié)果如圖1所示.
圖1 檢索精度對比Fig.1 Comparison of retrieval precision
由圖1可知,隨著檢索信息量的不斷增加,不同方法的檢索精度也在不斷發(fā)生變化.在進行大規(guī)模入侵數(shù)據(jù)檢索時,所提基于大數(shù)據(jù)的監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索方法的檢索精度隨著檢索信息量的增加而增加,最高的檢索精度接近94%;由于冗余信息的干擾,基于反饋算法的監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索方法與基于云環(huán)境下的監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索方法雖整體呈現(xiàn)上升趨勢,但這兩種方法的最大檢索精度不超過40%.通過實驗數(shù)據(jù)對比可知,所提基于大數(shù)據(jù)的監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索方法的檢索精度較高,很大程度提升了入侵信息檢索性能.
為了驗證本文方法的有效性,本文針對三種算法的的召回率進行對比分析,對比結(jié)果如圖2所示.
圖2 召回率對比Fig.2 Comparison of recall rates
由圖2可知,在2~4 s中,本文方法的召回率較基于反饋算法的監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索方法高,但是在4 s之后,本文方法的召回率呈現(xiàn)下降趨勢,而其他兩種方法的召回率均呈現(xiàn)上升趨勢,上升幅度較大.本文方法的召回率平均值約為24%,遠低于其他兩種方法,表明本文方法的檢索性能較好.
為進一步驗證本文方法的優(yōu)越性,分別對比了3種檢索方法的耗時,對比結(jié)果如表2所示.在表2中,AF代表所提基于大數(shù)據(jù)的監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索方法,BF代表基于反饋算法的監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索方法,CF代表基于云環(huán)境下的監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索方法,t代表檢索耗時.
表2 檢索耗時對比Tab.2 Comparison of retrieval time
分析表2可知,不同檢索方法的檢索耗時存在較大差距,所提基于大數(shù)據(jù)的監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索方法的耗時較低,且隨著信息量的增加,檢索耗時變化較小.而其他兩種入侵信息檢索方法的耗時隨著信息數(shù)量的增加而增加,最大耗時與所提方法的耗時相差了4 s以上.所提基于大數(shù)據(jù)的監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索方法的檢索耗時較短,能夠快速檢索監(jiān)控網(wǎng)絡(luò)下的入侵信息.
針對傳統(tǒng)網(wǎng)絡(luò)混合入侵信息檢索方法存在的一系列問題,本文提出了一種基于大數(shù)據(jù)的監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索方法.首先利用特征集尋優(yōu)選擇,消除冗余信息,提取大數(shù)據(jù)中入侵信息的特征,然后將LDA模型與聯(lián)合模型結(jié)合,利用最優(yōu)引用組合模型實現(xiàn)入侵數(shù)據(jù)的檢索.利用該模型與其他兩種模型實驗結(jié)果對比表明,所提方法檢索精度較高,檢索耗時短,能夠提高檢索效率,可以更加準確地進行入侵數(shù)據(jù)檢索.