魏瑤+李紅信
摘 要:極限學習機(ELM)有著分類精度高、速度快等特性,被廣泛的應(yīng)用和研究。本文提出了一種用于多分類問題的模糊單隱層神經(jīng)網(wǎng)絡(luò)算法FELM,同時考慮分類器的模糊性和誤報率之間的關(guān)系。通過在入侵檢測數(shù)據(jù)集NSL-KDD上的實驗證明:本文提出的方法有著較好的有效性和穩(wěn)定性。
關(guān)鍵詞:極限學習機;多類分類;網(wǎng)絡(luò)入侵檢測;模糊性
中圖分類號:TP393 文獻標識碼:A 文章編號:1671-2064(2017)09-0036-01
1 引言
隨著網(wǎng)絡(luò)技術(shù)的日益發(fā)展,人們開始依賴于網(wǎng)絡(luò)進行工作、生活。安全就成為計算機系統(tǒng)面臨的重要問題,為保證計算機和網(wǎng)絡(luò)通信的安全,對入侵檢測技術(shù)的研究和發(fā)展成為人們工作的重點[1]。機器學習算法在入侵檢測領(lǐng)域得到了廣泛的應(yīng)用,被應(yīng)用的基本分類算法包括支持向量機、神經(jīng)網(wǎng)絡(luò)BP、決策樹、極限學習機等等[2-4],這些算法都有著各自的優(yōu)勢,并能保證一定的分類效果,但在算法的數(shù)據(jù)處理速度方面,現(xiàn)有的建模方法都有待改進。
在本文中,我們所提出的入侵檢測模型是一個多類分類器,它將網(wǎng)絡(luò)事件分區(qū)分為正?;蚬羰录蠳ormal、DoS、Probe、U2R和R2L五種。在本文的試驗中,這個新FELM分類器模型被應(yīng)用到經(jīng)典的NSL-KDD入侵檢測數(shù)據(jù)集上,并得到比傳統(tǒng)分類算法好的分類效果。我們的主要貢獻有:
(1)使用了ELM算法的思想,在保持一定可接受范圍內(nèi)的分類精度下,加快了學習算法的的預(yù)測速度,并將其用于入侵檢測問題中,有效的提高了分類的精度和速度。
(2)通過模糊分治策略改進了極限學習機的學習方式,實現(xiàn)一種新穎的多分類算法FELM,打破了原本ELM算法的限制,可用于處理多類分類問題,并應(yīng)用到入侵檢測系統(tǒng)中。
文章的其他部分內(nèi)容如下:第二部分對模糊極限學習機算法進行簡要介紹,第三部分在NSL-KDD數(shù)據(jù)集上的實驗結(jié)果,第四部分總結(jié)和展望。
2 模糊極限學習機FELM
模糊理論很早被提出,它描述了一種不能被準確定義的事情的存在方式,不能歸于大多數(shù)定義的集合點。我們現(xiàn)在將模糊向量的模糊性與分類的預(yù)測輸出聯(lián)系起來,會發(fā)現(xiàn)大多數(shù)的分類器有著類似于模糊向量的輸出,向量的每個元素代表了測試樣本屬于某一類的成員隸屬度。這一類型的分類器包括:神經(jīng)網(wǎng)絡(luò),支持向量機,決策樹等等。本文中的極限學習機屬于神經(jīng)網(wǎng)絡(luò)算法的一種,是一種單隱層神經(jīng)網(wǎng)絡(luò)訓練的結(jié)構(gòu),可以用來產(chǎn)生樣本的模糊值的輸出。
給定一個訓練集,通過分類器能得到相應(yīng)的預(yù)測概率值的輸出,得到的成員度矩陣U是由多個樣本的模糊度向量組成的,這些向量中每個元素的值在[0,1]范圍內(nèi),代表著樣本對每一類的隸屬度。針對于一個樣本的模糊性描述,可以通過計算模糊向量的平均值來得到。這個模型是依賴與訓練樣本的分布,稍復雜的模型在一定程度上會提高分類器的性能。
在本文的算法中,我們選用極限學習機ELM作為基礎(chǔ)的分類器,極限學習機是一種三層的前饋神經(jīng)網(wǎng)絡(luò),輸入層和隱藏層之間的權(quán)值矩陣R隨機選擇,隱藏層和輸出層之間的權(quán)值矩陣S是由轉(zhuǎn)置矩陣確定的。本分類器的學習目標是確定R和S的值,然而R是隨機選擇的,因此分類器的主要目標僅僅是如何確定輸出權(quán)值S。
所提出算法的實現(xiàn)主要包括七個步驟:(1)隨機劃分訓練樣本為類標數(shù)據(jù)和無類標數(shù)據(jù),它們的比例保持9:1;(2)基于類標數(shù)據(jù)訓練ELM模型;(3)對于無類標數(shù)據(jù)的每個樣本,通過分類器的預(yù)測,我們獲得一個模糊向量;(4)計算每個輸出的模糊值;(5)根據(jù)模糊值的大小對樣本進行排序,分為低中高三類;(6)選擇模糊值高和模糊值低的樣本組加入到類標數(shù)據(jù)組,進行新的模型訓練,得到最終的分類器;(7)最后用測試集對模型進行有效性驗證,并得到每一類的精確度。
3 實驗分析
本文所用的NSL-KDD數(shù)據(jù)集是KDD Cup 99 數(shù)據(jù)集的修訂版,它消除了KDD99數(shù)據(jù)集中的多數(shù)冗余信息。這個數(shù)據(jù)集有41維的特征,每一個數(shù)據(jù)樣本可以被標記為正常類或者是攻擊類(包括Dos,Probe,U2R,R2L四種類型)。首先對原始數(shù)據(jù)進行了一些預(yù)處理:數(shù)值編碼和標準化的方法,將屬性數(shù)據(jù)標準化到[0,1]范圍內(nèi),分別用1-5表示五種類別,這些預(yù)處理措施會提高數(shù)據(jù)的一致性、分類準確性。本文通過使用指示變量技術(shù),將數(shù)據(jù)集的維數(shù)從41維增加到51維。當某個特征的種類不是很多的情況下,這種處理方式有著較高的穩(wěn)定性。
對原始數(shù)據(jù)集預(yù)處理之后,為了驗證新算法的性能,我們從NSLtrain訓練數(shù)據(jù)集中抽取出三個子數(shù)據(jù)集(10%,20%,50%),根據(jù)每一類的比例進行抽取,并用同一個測試集NSLtest進行實驗。這樣可以保證我們所運行的實驗都使用完整的數(shù)據(jù)集。
為了顯示本文算法的性能,對每個數(shù)據(jù)集,從每類的精度,整體精度方面進行了實驗,F(xiàn)ELM算法的實驗結(jié)果如表1所示,在表中我們可以看出,提出的新方法有著一定的分類能力,可以達到一定的精度要求。
4 總結(jié)和展望
本文提出了一種新的多分類模型FELM,并將其應(yīng)用在網(wǎng)絡(luò)入侵檢測中。通過在NSL-KDD的三個數(shù)據(jù)集進行實驗,通過對準確率指標的分析,可知基于改進的多分類FELM模型在進行網(wǎng)絡(luò)入侵檢測中應(yīng)用效果較好,而且該方法在處理大批量數(shù)據(jù)分類時具有較低的時間復雜度。
在將來的研究工作中,一是要考慮加入特征選擇的方法,通過降低維度可以使網(wǎng)絡(luò)入侵檢測模型達到較好的精度。二是考慮如何提高少數(shù)類的分類精度,通過提高少數(shù)類的識別率可以使入侵檢測模型具有更好地有效性和穩(wěn)定性。
參考文獻
[1]OJALA, J. Personal contentin online sports communities: motivations to capture and share personal exercise data [J].International Journal of Social and Humanistic Computing.2013,2(2):68-85.
[2]KIM, G. et al. A novel hybrid intrusion detection method integrating anomaly detection with misuse detection[J]. Expert Systems with Applications.2014,41(4):1690-1700.
[3]EESA, A. S. et al. A novel feature-selection approach based on the cuttlefish optimization algorithm for intrusion detection systems[J]. Expert Systems with Applications.2015,42(5):2670-2679.
[4]FOSSACECA, J. M. et al. MARK-ELM: Application of a novel Multiple Kernel Learning framework for improving the robustness of Network Intrusion Detection[J]. Expert Systems with Applications. 2015,42(8):4062-4080.