• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      改進(jìn)的聚類算法在入侵檢測系統(tǒng)中的應(yīng)用*

      2019-03-14 03:37:02邢瑞康李成海
      火力與指揮控制 2019年2期
      關(guān)鍵詞:中心點(diǎn)聚類距離

      邢瑞康,李成海

      (空軍工程大學(xué)防空反導(dǎo)學(xué)院,西安 710051)

      0 引言

      在網(wǎng)絡(luò)信息技術(shù)高速發(fā)展的時(shí)代,計(jì)算機(jī)網(wǎng)絡(luò)正以難以想象的速度向全世界各個(gè)角落滲透,使其成為當(dāng)今人類社會(huì)運(yùn)轉(zhuǎn)必不可少的一部分。隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和網(wǎng)絡(luò)工具的廣泛應(yīng)用,網(wǎng)絡(luò)空間蘊(yùn)藏的巨大力量,以及網(wǎng)絡(luò)資源的戰(zhàn)略性意義正逐漸被世人發(fā)現(xiàn)、認(rèn)可并著手發(fā)掘,世界各國在軍事領(lǐng)域也隨著網(wǎng)絡(luò)的變革而不斷發(fā)生變化。一個(gè)全新的軍事競爭平臺——網(wǎng)電空間成為現(xiàn)代軍事化戰(zhàn)爭的又一主戰(zhàn)場。然而,隨著網(wǎng)絡(luò)范圍的日益擴(kuò)大,由于安全機(jī)制的不盡完善,網(wǎng)絡(luò)空間所要面對的威脅也不斷增多,網(wǎng)絡(luò)安全就成為一個(gè)十分重要的問題。因此,如何有效抵御各種入侵和攻擊的行為成為重要課題。入侵檢測(Intrusion Detection)主要建立在侵犯行為與系統(tǒng)行為不同的這一假設(shè)基礎(chǔ)上,是一種動(dòng)態(tài)的網(wǎng)絡(luò)安全技術(shù),它通過分析網(wǎng)絡(luò)流量以及系統(tǒng)審計(jì)記錄數(shù)據(jù)等,實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)系統(tǒng)中是否存在與安全策略不相吻合的“入侵”行為,并且對可能危害到系統(tǒng)機(jī)密性、完整性和可用性的行為進(jìn)行響應(yīng)和攔截[1]。入侵檢測技術(shù)作為網(wǎng)絡(luò)與信息安全系統(tǒng)的關(guān)鍵技術(shù),已經(jīng)成為網(wǎng)絡(luò)與信息安全體系中十分重要的部分。

      聚類分析廣泛地應(yīng)用在統(tǒng)計(jì)學(xué)、決策支持、機(jī)器學(xué)習(xí)、模式識別、圖像處理、空間數(shù)據(jù)庫技術(shù)以及電子商務(wù)等相關(guān)領(lǐng)域,是一種十分高效的數(shù)據(jù)分析方法和一項(xiàng)重要的數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘能從大量的審計(jì)數(shù)據(jù)中挖掘出正常和異常的行為模式,使得人工分析和編碼的工作量大大減少,入侵檢測系統(tǒng)的檢測效率也因此得到提高。因而,也被廣泛地應(yīng)用在入侵檢測系統(tǒng)。

      聚類算法的優(yōu)劣往往直接會(huì)影響到聚類過程的最終效果。k-中心點(diǎn)算法作為其中的代表性算法之一,具有不易被極端的數(shù)據(jù)影響,適應(yīng)性廣泛,特別是針對“噪聲”點(diǎn)、孤立點(diǎn)不敏感并且在檢測當(dāng)中應(yīng)用廣泛的特點(diǎn),而且對數(shù)據(jù)屬性的類型沒有局限性,具有比較強(qiáng)的魯棒性等。但是,該算法也存在許多缺陷。主要表現(xiàn)在:在對于處理規(guī)模較大的數(shù)據(jù)集時(shí),K-中心點(diǎn)算法在聚類過程中的高耗時(shí)性。

      因此,針對傳統(tǒng)聚類算法的不足,本文結(jié)合算法和有效性指標(biāo)提出了一種基于“密度”信息改進(jìn)的算法。并將優(yōu)化算法應(yīng)用于入侵檢測系統(tǒng)中。用實(shí)驗(yàn)驗(yàn)證了以這種方法來進(jìn)行數(shù)據(jù)的聚類,顯著地提高了數(shù)據(jù)尤其是大數(shù)據(jù)集聚類的效果。結(jié)果顯示,改進(jìn)的算法應(yīng)用在入侵檢測系統(tǒng)中提高了檢測率并降低了誤檢率。

      1 入侵檢測

      1.1 入侵檢測的原理

      現(xiàn)有的入侵檢測系統(tǒng)主要采用以下方法來實(shí)現(xiàn)系統(tǒng)的檢測機(jī)制,包括:代理、行為分析、概率統(tǒng)計(jì)、模式匹配、生物免疫系統(tǒng)、神經(jīng)網(wǎng)絡(luò)、專家系統(tǒng)、數(shù)據(jù)挖掘、遺傳算法等。這些方法優(yōu)劣不同,所應(yīng)用的情形亦不同。它們不同程度地提高了處理的效率和有效性,能夠滿足一定的需求。

      1.2 入侵檢測的系統(tǒng)構(gòu)成

      一個(gè)完整的入侵檢測系統(tǒng)通常包括以下基本組件,如圖1所示:

      圖1 入侵檢測系統(tǒng)的基本構(gòu)成

      1.3 入侵檢測存在的不足

      對于網(wǎng)絡(luò)的各種攻擊入侵,如果系統(tǒng)能夠迅速高效地檢測出來,就可以使得系統(tǒng)免于遭受各種不必要的資源以及網(wǎng)絡(luò)空間的浪費(fèi),目前的IDS還有著諸多不足。主要包括:誤報(bào)/漏報(bào)率較高,產(chǎn)品適應(yīng)能力差,檢測性能不足,同時(shí)檢測實(shí)時(shí)性較差,缺少主動(dòng)防御功能等等[3]。

      2 聚類分析算法研究

      設(shè)數(shù)據(jù)集合是由n個(gè)樣本所組成的集合X={x1,x2,…,xn},其中任一元素 xi,可表示為 m 維實(shí)數(shù)空間的向量,xi={xi1,xi2,…,xim}。任意兩個(gè)樣本 xi和xm之間的距離采用歐幾里得距離,計(jì)算公式如下:

      2.1 K-中心算法基本思想

      k-中心點(diǎn)算法的處理過程主要是:首先,隨機(jī)地從樣本集中選取k個(gè)樣本點(diǎn)作為劃分k的個(gè)簇的代表點(diǎn),即初始中心點(diǎn),隨即將其他剩余對象根據(jù)該點(diǎn)與代表點(diǎn)對象的遠(yuǎn)近分配到最近的中心點(diǎn)所代表的簇群中;然后,多次用非中心點(diǎn)來替換中心點(diǎn),以此來不斷改進(jìn)聚類的效果,聚類的效果用“代價(jià)”函數(shù)進(jìn)行估算。

      K-中心點(diǎn)算法以這樣的方式來計(jì)算代價(jià)S:

      假設(shè)中心點(diǎn)xi1,然后用非中心點(diǎn)xh來替換中心點(diǎn)xi1,則產(chǎn)生下面4種情況。

      1)如果點(diǎn)xj代表屬于xi1所表示簇的任意一點(diǎn),對于另一個(gè)中心點(diǎn)xi2,若,此時(shí),xj重新歸入xi2所代表的簇中,則其所產(chǎn)生的代價(jià)為:;

      2)如果點(diǎn)xj代表屬于xi1所表示簇的任意一點(diǎn),對于另一個(gè)中心點(diǎn)xi2,若,此時(shí),xj重新歸入xh所代表的簇中,則其所產(chǎn)生的代價(jià)為:;

      3)如果點(diǎn)xj不屬于xi1所表示的簇,而屬于xi2所代表的簇中任意一點(diǎn),若,此時(shí),xj所屬簇不變,則其所產(chǎn)生的代價(jià)為:sji1h=0;

      4)如果點(diǎn)xj不屬于xi1所表示的簇,而屬于xi2所代表的簇中任意一點(diǎn),若,此時(shí),xj重新歸入xh所代表的簇中,則其所產(chǎn)生的代價(jià)為:。

      上述4種情況如圖2所示:

      圖2 k-中心點(diǎn)算法計(jì)算代價(jià)示意圖

      2.2 k-中心點(diǎn)算法描述

      輸入:包含n個(gè)對象的數(shù)據(jù)集,需要得到劃分簇的簇?cái)?shù)k;

      輸出:全部對象與中心點(diǎn)的距離總和最小的k個(gè)簇。

      流程:

      Step1:隨機(jī)選擇k個(gè)對象作為初始的簇中心;

      Step2:重復(fù)以下步驟直到中心點(diǎn)不會(huì)再發(fā)生改變;

      Step2.1:計(jì)算每一對象距離其最近的簇的中心點(diǎn),并將其劃分到該中心點(diǎn)所代表的簇中;

      Step2.2:隨機(jī)選取非中心點(diǎn)Orandom;

      Step2.3:用Orandom代替Oj,計(jì)算形成新簇的總代價(jià)S;

      Step2.4:如果 S<0,用 Orandom代替 Oj,形成新集的k個(gè)中心點(diǎn)的集合;

      Step3:輸出k個(gè)簇。

      3 改進(jìn)k-中心點(diǎn)聚類算法的入侵檢測模型

      3.1 改進(jìn)算法的基本思想

      3.2 改進(jìn)的k-中心點(diǎn)算法描述

      輸入:包含n個(gè)對象的數(shù)據(jù)集,需要得到劃分簇的簇?cái)?shù)k;

      輸出:全部對象與中心點(diǎn)的距離總和最小的k個(gè)簇;

      流程:

      Step1:計(jì)算每一個(gè)樣本點(diǎn)的樣本空間內(nèi)所有點(diǎn)與該點(diǎn)的距離的和;

      Step2:取樣本點(diǎn)中計(jì)算所得的最大距離和與最小距離和的均值作為高密度樣本的閾值;

      Step3:取所有距離和小于該閾值的點(diǎn)組成高密度樣本集合M;

      Step4:對于所有樣本點(diǎn) xi,計(jì)算距離比 Vi:

      選擇使Vi最小的點(diǎn)x1作為第1個(gè)簇中心點(diǎn);

      Step5:從M中找出與x1距離相差最大的樣本x2作為選取的第2個(gè)聚類中心;

      Step6:從M中找出與x1和x2距離和相差最大的樣本點(diǎn)x3作為第3個(gè)初始聚類中心;

      Step7:從M中找與x1,…,xk-1距離和相差最大的樣本xk作為最后一個(gè)初始聚類中心;

      Step8:重復(fù)以下步驟直到中心點(diǎn)不會(huì)再發(fā)生改變;

      Step8.1:將剩余的n-k個(gè)樣本點(diǎn)按照距離遠(yuǎn)近分別分配到與它距離最小的中心點(diǎn)所代表的簇中;

      Step8.2:隨機(jī)選取非中心點(diǎn);

      Step8.3:計(jì)算用非中心點(diǎn)代替中心點(diǎn),形成新簇群的總代價(jià)S;

      Step8.4:如果 S<0,用該點(diǎn)代替中心點(diǎn),形成新的k個(gè)中心點(diǎn)集合;

      Step9:輸出k個(gè)簇。

      3.3 改進(jìn)的k-中心點(diǎn)算法的入侵檢測模型

      入侵檢測系統(tǒng)分為訓(xùn)練部分和異常行為檢測部分[4]。模型如圖3所示:

      圖3 基于聚類算法的入侵檢測模型

      4 仿真研究

      4.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)源

      為了驗(yàn)證聚類算法的有效性以及入侵檢測模型的特點(diǎn),本文分別采取兩種數(shù)據(jù)進(jìn)行驗(yàn)證。UCI數(shù)據(jù)庫是國際上通用的專門進(jìn)行數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)算法測試的數(shù)據(jù)庫。對本實(shí)驗(yàn)進(jìn)行評估所選取的Iris數(shù)據(jù)集合是UCI數(shù)據(jù)庫中最常用于測試驗(yàn)證聚類算法優(yōu)劣性的數(shù)據(jù)集。

      為了測試新建立的入侵檢測算法性能,采用KDD CUP 99數(shù)據(jù)集。采用訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的10%數(shù)據(jù)集并對結(jié)果作出相應(yīng)的分析。

      入侵檢測的性能指標(biāo)用檢測率(Detection Rate,DR)和誤報(bào)率(False Positive Rate,F(xiàn)PR)進(jìn)行描述:

      檢測率=正確檢測出的入侵樣本數(shù)/入侵樣本總數(shù)。

      誤報(bào)率=將正常行為檢測為入侵的樣本數(shù)/正常行為樣本總數(shù)。

      4.2 實(shí)驗(yàn)結(jié)果與分析

      為了測試基于密度信息來確定初始簇中心點(diǎn)算法的聚類性能,首先,將初始聚類的目標(biāo)數(shù)目設(shè)置為3,即k=3,且在聚類時(shí)不考慮類別屬性存在的影響(類別信息主要用來對聚類結(jié)果進(jìn)行評估)。

      對于原始的k-中心點(diǎn)聚類算法,實(shí)驗(yàn)時(shí)需要對其進(jìn)行多次測試以得到實(shí)驗(yàn)的平均值作為結(jié)果(本次進(jìn)行了10次實(shí)驗(yàn)操作),而本文提出的改進(jìn)算法所采用的是基于“密度”的方式來處理初始中心點(diǎn),對于處理同一數(shù)據(jù)集,其產(chǎn)生的初始中心點(diǎn)是唯一確定的,所以只需要進(jìn)行一次實(shí)驗(yàn)即可。

      原始的K-中心點(diǎn)聚類算法10次實(shí)驗(yàn)后的聚類結(jié)果如表1所示。兩種算法迭代的次數(shù)以及聚類結(jié)果中錯(cuò)誤樣本比的實(shí)驗(yàn)對比結(jié)果由表2所示。

      表1 傳統(tǒng)k-中心點(diǎn)聚類算法結(jié)果統(tǒng)計(jì)

      表2 多種算法聚類結(jié)果比較

      由表1可以得到,傳統(tǒng)k-中心點(diǎn)聚類算法會(huì)因?yàn)檫x取不同的初始中心點(diǎn),而經(jīng)過不同次數(shù)的迭代后才趨于收斂。如果存在隨機(jī)選擇的初始中心點(diǎn)有兩個(gè)或者多個(gè)位于同一簇中的情況時(shí),則算法需要多次迭代才能結(jié)束。甚至,在有些情況下,結(jié)束時(shí)所得到的結(jié)果僅僅是局部最優(yōu)解,同時(shí)目標(biāo)函數(shù)的值也會(huì)隨著迭代次數(shù)的增加而逐漸變大,在第6次運(yùn)行中,傳統(tǒng)算法經(jīng)過了較長的13次迭代才最終結(jié)束運(yùn)算,而且得到了12.00%的錯(cuò)誤率,簇中心的位置符合真實(shí)的分布情況。而第8次運(yùn)算,算法甚至經(jīng)過了14次迭代,運(yùn)算才得以結(jié)束,同時(shí)得到較高的錯(cuò)誤率,高達(dá)42.66%,算法顯然陷入了局部最優(yōu)解。

      從表2可以看出,本文所提出的基于密度信息進(jìn)行的改進(jìn)算法不僅大大減少了迭代的次數(shù),保證了算法運(yùn)行的穩(wěn)定性,而且避免了算法陷入局部最優(yōu)解的可能。通過實(shí)驗(yàn)可以看到,改進(jìn)的算法僅僅經(jīng)過2次迭代就達(dá)到收斂,得到的錯(cuò)誤率更低,遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)k-中心點(diǎn)聚類算法平均的迭代次數(shù)和錯(cuò)誤率,而且得到的簇中心也更加符合集合的真實(shí)分布情況。

      表3 入侵檢測模型結(jié)果比較

      由表3實(shí)驗(yàn)數(shù)據(jù)顯示,基于改進(jìn)的K-中心點(diǎn)聚類算法的入侵檢測系統(tǒng)經(jīng)驗(yàn)證不僅是有效可行的,而且檢測率也得以提高,誤報(bào)率有所降低。

      5 結(jié)論

      入侵檢測技術(shù)是計(jì)算機(jī)網(wǎng)絡(luò)安全的重要保障,本文提出了一種基于“密度”信息改進(jìn)的K-中心點(diǎn)算法,設(shè)計(jì)了入侵檢測系統(tǒng)。采用基于密度的方式抽取樣本集來確定初始中心點(diǎn),充分考慮到訓(xùn)練集的分布情況,該算法通過將訓(xùn)練數(shù)據(jù)集轉(zhuǎn)換為標(biāo)準(zhǔn)的單位特征度量空間;然后利用密度信息對數(shù)據(jù)進(jìn)行初步劃分,并以此找到聚類中心,這樣得到的初始聚類中心相對準(zhǔn)確,算法穩(wěn)定性和時(shí)效性提高,同時(shí)有效降低了錯(cuò)誤率。對改進(jìn)的K-中心點(diǎn)算法的入侵檢測模型進(jìn)行檢測,提高了入侵檢測系統(tǒng)的性能。結(jié)果表明本文設(shè)計(jì)的檢測模型能夠有效抵抗異常攻擊,可行性和有效性高,與傳統(tǒng)的入侵檢測系統(tǒng)相比具備一定的實(shí)用價(jià)值。

      猜你喜歡
      中心點(diǎn)聚類距離
      Scratch 3.9更新了什么?
      如何設(shè)置造型中心點(diǎn)?
      電腦報(bào)(2019年4期)2019-09-10 07:22:44
      算距離
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      每次失敗都會(huì)距離成功更近一步
      山東青年(2016年3期)2016-02-28 14:25:55
      漢字藝術(shù)結(jié)構(gòu)解析(二)中心點(diǎn)處筆畫應(yīng)緊奏
      基于改進(jìn)的遺傳算法的模糊聚類算法
      尋找視覺中心點(diǎn)
      大眾攝影(2015年9期)2015-09-06 17:05:41
      愛的距離
      母子健康(2015年1期)2015-02-28 11:21:33
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      社旗县| 根河市| 石门县| 毕节市| 华池县| 江达县| 岳池县| 九台市| 东平县| 鸡东县| 兴业县| 安新县| 长海县| 鄂州市| 旬阳县| 黄平县| 鄂尔多斯市| 瓮安县| 清流县| 扬中市| 绍兴县| 山东省| 东海县| 什邡市| 天门市| 雅江县| 大宁县| 灵璧县| 罗定市| 邻水| 政和县| 沂源县| 驻马店市| 灌南县| 丁青县| 台前县| 肥城市| 兴和县| 博客| 田阳县| 砀山县|