• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于信息熵和K均值的船舶網(wǎng)絡(luò)入侵檢測(cè)方法

      2019-11-14 08:17肖鵬博閔紹榮羅威
      軟件 2019年9期
      關(guān)鍵詞:信息熵均值聚類(lèi)

      肖鵬博 閔紹榮 羅威

      摘 ?要: 船舶網(wǎng)絡(luò)是維護(hù)船舶正常功能的重要結(jié)構(gòu),當(dāng)船舶網(wǎng)絡(luò)被入侵時(shí),網(wǎng)絡(luò)流量會(huì)呈現(xiàn)異常狀態(tài),嚴(yán)重影響船舶功能。而當(dāng)前的船舶網(wǎng)絡(luò)入侵檢測(cè)方法不能兼顧檢測(cè)速度和準(zhǔn)確度,無(wú)法滿足入侵檢測(cè)要求。為了克服目前船舶網(wǎng)絡(luò)入侵檢測(cè)方法存在的不足,以改善船舶入侵檢測(cè)方法的性能,提出基于信息熵和K均值算法的船舶網(wǎng)絡(luò)入侵檢測(cè)方法,通過(guò)信息熵理論找到最優(yōu)特征子集,然后利用K均值算法實(shí)現(xiàn)入侵檢測(cè),并與普通K均值算法進(jìn)行對(duì)比測(cè)試。結(jié)果表明:本文方法可以有效檢測(cè)出船舶網(wǎng)絡(luò)入侵狀況,并且在保證準(zhǔn)確性的同時(shí)極大的縮短了檢測(cè)時(shí)間,是一種高效的入侵檢測(cè)方法。

      關(guān)鍵詞?船舶網(wǎng)絡(luò);入侵檢測(cè);信息熵;聚類(lèi)算法

      中圖分類(lèi)號(hào): TP309????文獻(xiàn)標(biāo)識(shí)碼?A????DOI:10.3969/j.issn.1003-6970.2019.09.008

      本文著錄格式:肖鵬博,閔紹榮,羅威. 基于信息熵和K均值的船舶網(wǎng)絡(luò)入侵檢測(cè)方法[J]. 軟件,2019,40(9):36-39

      Research on Ship Network Intrusion Detection Based on Information Entropy and K-means Algorithm

      XIAO Peng-bo, MIN Shao-rong, LUO Wei

      China Ship Development and Design Center, Wuhan 430064)

      Abstract: Ship network is an important structure to maintain the normal function of ships. When the ship network??is intruded, the network flow will be abnormal, which will seriously affect the ship function. However, the current methods of ship network intrusion detection can not give consideration to both detection speed and accuracy, and can not meet the requirements of intrusion detection. In order to overcome the current ship the deficiency existing in network intrusion detection methods, to improve the performance of ship's intrusion detection method, based on information entropy and shipping network intrusion detection method of k-means algorithm, through the information entropy theory to find the optimal data subset, then using k-means algorithm to detect network intrusion, and compared with ordinary k-means algorithm. The results show that this method can effectively detect the ship network intrusion, and not only ensure the accuracy but also greatly shorten the detection time, It is an efficient intrusion detection method.

      Key words: Ship network; Intrusion detection; Information entropy; Clustering algorithm

      0??引言

      現(xiàn)代船舶網(wǎng)絡(luò)是為船舶內(nèi)部多個(gè)功能子系統(tǒng)之間建立連接,并為終端用戶提供信息交互、安全監(jiān)控、資源共享等信息服務(wù)的多媒體通信網(wǎng)絡(luò)。船舶網(wǎng)絡(luò)的特點(diǎn)主要表現(xiàn)在通信模式繁多、終端節(jié)點(diǎn)類(lèi)型豐富、各類(lèi)業(yè)務(wù)QoS需求差異較大[1]。當(dāng)船舶網(wǎng)絡(luò)出現(xiàn)入侵異常時(shí),網(wǎng)絡(luò)流量會(huì)出現(xiàn)異常,嚴(yán)重影響網(wǎng)絡(luò)性能,進(jìn)而影響船舶正常功能。對(duì)入侵異常的檢測(cè)對(duì)于維護(hù)船舶網(wǎng)絡(luò)正常狀態(tài)十分重要,因此設(shè)計(jì)性能優(yōu)異的船舶網(wǎng)絡(luò)入侵異常檢測(cè)方法具有十分重要的意義。

      船舶網(wǎng)絡(luò)入侵檢測(cè)實(shí)際上是對(duì)船舶網(wǎng)絡(luò)的流量數(shù)據(jù)報(bào)文進(jìn)行分類(lèi),當(dāng)前船舶網(wǎng)絡(luò)入侵檢測(cè)主要有四大類(lèi)[2-5]:基于特征庫(kù)的檢測(cè)、基于統(tǒng)計(jì)的檢測(cè)、基于信息論的檢測(cè)和基于數(shù)據(jù)挖掘技術(shù)的檢測(cè)?;谔卣鞯臋z測(cè)需要預(yù)先建立入侵異常數(shù)據(jù)庫(kù),不能檢測(cè)出未知的異常;基于統(tǒng)計(jì)的檢測(cè)通過(guò)歷史正常網(wǎng)絡(luò)數(shù)據(jù)來(lái)檢測(cè)異常,然而一旦歷史數(shù)據(jù)過(guò)期,檢測(cè)結(jié)果會(huì)有很大偏差;使用信息論[6-7]為原理的檢測(cè)方法通過(guò)觀測(cè)網(wǎng)絡(luò)流量數(shù)據(jù)的信息熵變化來(lái)判斷入侵異常,但其不能保證檢測(cè)精度;基于數(shù)據(jù)挖掘[8]的檢測(cè)方法隨著機(jī)器學(xué)習(xí),大數(shù)據(jù)處理技術(shù)的進(jìn)步也越來(lái)越多的被用在了船舶網(wǎng)絡(luò)入侵檢測(cè)中,并且達(dá)到了較好的效果。

      本文提出一種船舶網(wǎng)絡(luò)入侵檢測(cè)方法,以信息熵相關(guān)理論結(jié)合K均值算法[9-10]實(shí)現(xiàn)。K均值聚類(lèi)算法是無(wú)需監(jiān)督的算法,其通過(guò)將類(lèi)似屬性數(shù)據(jù)聚類(lèi)成簇來(lái)進(jìn)行數(shù)據(jù)的分類(lèi),為了解決船舶網(wǎng)絡(luò)數(shù)據(jù)流中特征屬性維度過(guò)高對(duì)聚類(lèi)檢測(cè)準(zhǔn)確率和及時(shí)性的負(fù)面影響,提出基于信息熵的特征維度縮減流程,通過(guò)縮減特征維度提高K均值算法的效率。

      1??基于信息熵的特征篩選

      信息熵的概念來(lái)源于信息論,用信息熵的概念來(lái)表示所含信息量的大小,從而描述系統(tǒng)信息的無(wú)序度。數(shù)據(jù)集的信息熵越大,其包含的信息量就越大。在多維特征數(shù)據(jù)集中,條件熵表示某一維特征對(duì)整體信息不確定性的影響,信息增益表示某一維特征為系統(tǒng)信息帶來(lái)的信息量的大小。

      計(jì)算出多維特征數(shù)據(jù)集中每一維特征的信息增益,比較大小之后可以得到該維特征對(duì)數(shù)據(jù)集的信息重要程度。信息熵的各個(gè)概念定義如下:

      信息熵值計(jì)算公式:

      (1)

      其中Y是特征數(shù)據(jù)集合,n為特征中不同數(shù)值個(gè)數(shù),即Y={},表示某個(gè)數(shù)值在集合中出現(xiàn)的概率。

      條件熵計(jì)算公式:

      (2)

      其中p(y|x)表示在已知X發(fā)生的條件下Y的數(shù)值概率,條件熵表示在X發(fā)生條件下的Y的信息復(fù)雜程度。

      在細(xì)分條件之后,數(shù)據(jù)集的信息復(fù)雜度勢(shì)必會(huì)降低,這個(gè)差值表明了該條件對(duì)系統(tǒng)的重要程度,即信息增益:

      (3)

      2??K均值聚類(lèi)算法

      K均值算法是一種非監(jiān)督算法,無(wú)需提前訓(xùn)練數(shù)據(jù)集,其基本思想是將數(shù)據(jù)劃分進(jìn)指定數(shù)目的簇中,并且使最終迭代結(jié)果中的每個(gè)樣本點(diǎn)到其所在簇的歐式距離最小。其實(shí)現(xiàn)步驟如下:

      步驟1輸入數(shù)據(jù)集S,聚類(lèi)中心個(gè)數(shù)k,隨機(jī)從數(shù)據(jù)集中選取k個(gè)點(diǎn)作為簇的中心;

      步驟2計(jì)算其他點(diǎn)到每個(gè)中心的歐式距離,把數(shù)據(jù)點(diǎn)劃分到距離最近的中心形成點(diǎn)簇。

      (4)

      其中:,分別表示第i,j條數(shù)據(jù)的第k個(gè)維度數(shù)值,表示第i,j條數(shù)據(jù)間的歐式距離;

      步驟3根據(jù)歐式距離公式,計(jì)算每個(gè)點(diǎn)簇中所有點(diǎn)的均值,,將作為新的點(diǎn)簇中心;

      步驟4若新的點(diǎn)簇中心與上次一致,則停止迭代,否則轉(zhuǎn)到步驟2。在實(shí)際實(shí)驗(yàn)中,設(shè)立停止條件避免迭代次數(shù)過(guò)多:

      (5)

      其中:是由用戶設(shè)定的一個(gè)較小閾值,是點(diǎn)簇中心組成的矩陣。滿足迭代停止條件則結(jié)束算法,否則轉(zhuǎn)到步驟2。

      K均值算法原理簡(jiǎn)單,其時(shí)間復(fù)雜度為,其中n是數(shù)據(jù)項(xiàng)的個(gè)數(shù),k是聚類(lèi)中心個(gè)數(shù),t是結(jié)束迭代的總共迭代次數(shù)。在算法計(jì)算過(guò)程中,歐式距離的計(jì)算需要計(jì)算每一個(gè)特征維度的數(shù)據(jù),數(shù)據(jù)源的特征屬性越多,算法的計(jì)算量越大。本文為了縮減K均值算法的計(jì)算量,同時(shí)保證算法準(zhǔn)確性,結(jié)合信息熵理論實(shí)現(xiàn)特征的降維篩選,從數(shù)據(jù)集中選取最優(yōu)特征子集作為K均值算法的輸入數(shù)據(jù)。

      3??K均值++算法

      K均值算法中,初始的k個(gè)聚類(lèi)簇中心是隨機(jī)選取的,若隨機(jī)選取的聚類(lèi)中心距離很近,可能導(dǎo)致算法迭代結(jié)果局部最優(yōu)而無(wú)法得到全局最優(yōu)解。對(duì)于比較直觀的數(shù)據(jù)集,可以由人工指定初始的k個(gè)簇中心點(diǎn),而對(duì)于特征屬性多、數(shù)據(jù)量大的網(wǎng)絡(luò)數(shù)據(jù)集來(lái)說(shuō),人工觀測(cè)出合適的初始聚類(lèi)中心是不可能的。因此,可以采用K均值++算法。步驟如下:

      步驟1從數(shù)據(jù)集中隨機(jī)選取一個(gè)數(shù)據(jù)點(diǎn)作為第一個(gè)聚類(lèi)簇中心;

      步驟2計(jì)算每一個(gè)數(shù)據(jù)點(diǎn)與當(dāng)前已選取的聚類(lèi)簇中心之間的最短歐式距離,用表示,其中x表示第x個(gè)數(shù)據(jù)點(diǎn)。將每個(gè)數(shù)據(jù)點(diǎn)被選為下一個(gè)聚類(lèi)簇中心的概率用公式表示:

      (6)

      最后,將所有數(shù)據(jù)點(diǎn)的概率劃分成概率區(qū)間,隨機(jī)生成一個(gè)0-1之間的隨機(jī)數(shù),這個(gè)隨機(jī)數(shù)屬于哪個(gè)區(qū)間,那么就取該區(qū)間序號(hào)對(duì)應(yīng)的數(shù)據(jù)點(diǎn)為下一個(gè)聚類(lèi)簇中心。

      步驟3重復(fù)步驟2直到選擇出k個(gè)聚類(lèi)簇中心;

      之后的步驟和經(jīng)典K均值算法中的第2步到第4步相同。

      利用K均值++算法,可以讓初始的k個(gè)聚類(lèi)簇中心盡可能的均勻分布,由于初始聚類(lèi)簇中心分布合理,可以大大減小K均值算法的迭代次數(shù),縮短算法時(shí)間,并且能大幅度提高聚類(lèi)結(jié)果的準(zhǔn)確性,解決了經(jīng)典K均值算法出現(xiàn)局部收斂導(dǎo)致結(jié)果準(zhǔn)確性差的問(wèn)題。

      4??實(shí)驗(yàn)與結(jié)果

      4.1實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

      本文的實(shí)驗(yàn)過(guò)程在Windows操作系統(tǒng)環(huán)境下實(shí)現(xiàn),CPU為英特爾酷睿i7-7700HQ,內(nèi)存為32GB。實(shí)驗(yàn)使用python 3編寫(xiě)算法代碼。采用1999年數(shù)據(jù)和知識(shí)挖掘比賽數(shù)據(jù)(KDD Cup99)作為本文的實(shí)驗(yàn)數(shù)據(jù)集,該數(shù)據(jù)集是公認(rèn)的網(wǎng)絡(luò)異常檢測(cè)實(shí)驗(yàn)數(shù)據(jù)集。其包含約50萬(wàn)條數(shù)據(jù)記錄,每條數(shù)據(jù)記錄由41個(gè)特征屬性數(shù)據(jù)組成,數(shù)據(jù)集組成比例見(jiàn)表1。

      4.2數(shù)據(jù)預(yù)處理

      KDD99數(shù)據(jù)集是模擬真實(shí)網(wǎng)絡(luò)環(huán)境收集到的數(shù)據(jù)集,其有數(shù)據(jù)量大,特征屬性多的特點(diǎn)。在對(duì)數(shù)據(jù)集進(jìn)行處理之前,有必要進(jìn)行數(shù)據(jù)預(yù)處理工作:

      (1)數(shù)據(jù)集中存在很多攻擊類(lèi)型的子類(lèi)型,將這些子類(lèi)型劃分進(jìn)它們的父類(lèi)中。

      (2)數(shù)據(jù)集中存在非數(shù)值特征屬性,無(wú)法應(yīng)用歐式距離進(jìn)行計(jì)算,因此需要將這些非數(shù)值特征轉(zhuǎn)化成數(shù)值特征,使數(shù)據(jù)數(shù)值化從而參與計(jì)算。

      (3)數(shù)據(jù)集中存在多維特征,并且每一維特征都采用歐式距離進(jìn)行距離計(jì)算。但是在數(shù)據(jù)集中每個(gè)維度的數(shù)值存在巨大的差異,這種差異對(duì)距離計(jì)算的影響是十分大的,因此有必要對(duì)每個(gè)維度的數(shù)據(jù)進(jìn)行數(shù)據(jù)歸一化的處理。

      (7)

      其中:X表示某一維屬性中要進(jìn)行歸一化的數(shù)值,分別代表該維數(shù)據(jù)的最小和最大值。為了使歸一化得到的數(shù)據(jù)可觀性和精確度更高,將結(jié)果數(shù)據(jù)放大十倍處理。

      猜你喜歡
      信息熵均值聚類(lèi)
      基于信息熵可信度的測(cè)試點(diǎn)選擇方法研究
      基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
      基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
      基于高斯混合聚類(lèi)的陣列干涉SAR三維成像
      一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
      均值不等式失效時(shí)的解決方法
      均值與方差在生活中的應(yīng)用
      基于信息熵的IITFN多屬性決策方法
      關(guān)于均值有界變差函數(shù)的重要不等式
      一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
      兴隆县| 庆元县| 雷州市| 凌云县| 中牟县| 德化县| 铁岭市| 普兰县| 白沙| 阿克苏市| 松桃| 武川县| 宁国市| 淮北市| 肥东县| 乡宁县| 青阳县| 铜鼓县| 女性| 新竹县| 泰来县| 洪湖市| 泰州市| 贵州省| 邮箱| 鞍山市| 肇东市| 扎鲁特旗| 恩施市| 南川市| 南丰县| 丰镇市| 丹棱县| 三原县| 凤台县| 迁西县| 大埔县| 武定县| 舟山市| 吉木萨尔县| 大埔区|