• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于隨機(jī)森林的HTTP異常檢測(cè)

      2017-04-08 13:00:44唐宇迪
      電腦知識(shí)與技術(shù) 2017年5期
      關(guān)鍵詞:隨機(jī)森林

      唐宇迪

      摘要:在互聯(lián)網(wǎng)日益強(qiáng)大的今天,網(wǎng)絡(luò)安全問(wèn)題已經(jīng)尤為重要,如何能夠精準(zhǔn)找到網(wǎng)絡(luò)中的攻擊行為具有重要的價(jià)值。基于該目標(biāo),該文提出了基于HTTP流量數(shù)據(jù)的異常檢測(cè)模型,以隨機(jī)森林為核心算法,圍繞該算法提出了一種HTTP流量數(shù)據(jù)生成策略以及檢測(cè)方法。

      關(guān)鍵詞:隨機(jī)森林;HTTP異常檢測(cè);數(shù)據(jù)生成

      中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)05-0031-03

      1 HTTP異常數(shù)據(jù)生成策略

      對(duì)于HTTP流量數(shù)據(jù)的異常行為檢測(cè),一個(gè)難點(diǎn)就在于如何定義正負(fù)樣本也就是正常的HTTP行為和異常的HTTP行為。現(xiàn)階段,普遍的做法是通過(guò)網(wǎng)絡(luò)異常檢測(cè)軟件來(lái)對(duì)每個(gè)有風(fēng)險(xiǎn)的IP點(diǎn)進(jìn)行檢測(cè),這種做法一方面并不能得出準(zhǔn)確的結(jié)果另一方面也很難發(fā)現(xiàn)新的異常IP點(diǎn)。基于這點(diǎn),本文提出了一種是用數(shù)據(jù)生成策略并基于聚類(lèi)結(jié)果的隨機(jī)森林檢測(cè)模型[1]。

      1.1 問(wèn)題提出

      對(duì)于HTTP流量數(shù)據(jù)可以通過(guò)聚類(lèi)算法得出一些離群點(diǎn),對(duì)于這些離群點(diǎn)使用集成的方式可以得出不同類(lèi)型的IP點(diǎn),例如將離群點(diǎn)當(dāng)做具有潛在異常行為的IP點(diǎn),將非離群點(diǎn)當(dāng)做正常的IP點(diǎn),將部分聚類(lèi)算法認(rèn)為是離群點(diǎn)的當(dāng)做疑似點(diǎn)。通過(guò)聚類(lèi)算法雖然可以出來(lái)部分具有異常行為的IP點(diǎn),但是從整體的量上來(lái)說(shuō),離群點(diǎn)只占了整個(gè)HTTP流量數(shù)據(jù)中很少的一部分。原始數(shù)據(jù)中可能還存在著大量具有異常行為的IP點(diǎn)[2]。

      對(duì)于原始的HTTP日志數(shù)據(jù)來(lái)說(shuō),進(jìn)行異常行為檢測(cè)的難點(diǎn)在于問(wèn)題的本身是一個(gè)無(wú)監(jiān)督的問(wèn)題,沒(méi)有給定的標(biāo)簽來(lái)指定什么樣的IP點(diǎn)是正常的,什么是異常的。這使得很難對(duì)提取的特征數(shù)據(jù)進(jìn)行分類(lèi)的算法,基于這點(diǎn)不得不選擇無(wú)監(jiān)督的聚類(lèi)算法。通過(guò)聚類(lèi)算法得出了一些離群點(diǎn),然后通過(guò)集成的方法將離群點(diǎn)分成3類(lèi),即異常點(diǎn),疑似點(diǎn),正常點(diǎn)。有了這些的基礎(chǔ),對(duì)與異常行為檢測(cè)這個(gè)正負(fù)樣本分類(lèi)問(wèn)題,將原本無(wú)監(jiān)督的樣本集分成了3個(gè)類(lèi)別,即有較大可能是負(fù)樣本的異常點(diǎn)集合,有可能是負(fù)樣本的疑似點(diǎn)集合,正樣本則對(duì)應(yīng)著正常點(diǎn)集合。基于這種劃分規(guī)則,便可將原本的無(wú)監(jiān)督的問(wèn)題轉(zhuǎn)換成一個(gè)半監(jiān)督問(wèn)題[3]。

      對(duì)于分類(lèi)算法來(lái)說(shuō),一個(gè)重點(diǎn)就在于正負(fù)樣本的選擇,通過(guò)分析得知正樣本的數(shù)量很豐富,但是相對(duì)來(lái)說(shuō)負(fù)樣本的數(shù)量卻遠(yuǎn)遠(yuǎn)不夠,由于聚類(lèi)算法得出的異常點(diǎn)和疑似點(diǎn)數(shù)量都比較少,所以要進(jìn)行分類(lèi)算法首先需要對(duì)數(shù)據(jù)樣本就行增強(qiáng)。如何選擇一種合適的數(shù)據(jù)增強(qiáng)策略改善這種不均衡的數(shù)據(jù)分布成為分類(lèi)準(zhǔn)確性的關(guān)鍵所在。

      分類(lèi)算法第二個(gè)重點(diǎn)在于如何選擇合適的分類(lèi)器,目前已經(jīng)有很多種經(jīng)典分類(lèi)算法,由于數(shù)據(jù)本身的無(wú)監(jiān)督性,以及由聚類(lèi)分析的不同特征的重要程度具有明顯差別,這里需要綜合考慮這些因素選擇最合適的分類(lèi)器[2]。

      1.2 數(shù)據(jù)均衡問(wèn)題解決

      數(shù)據(jù)樣本是否均衡對(duì)最終的分類(lèi)結(jié)果可能會(huì)產(chǎn)生很大的影響,對(duì)于服務(wù)器端IP點(diǎn)來(lái)說(shuō)得到的異常點(diǎn)一共有20個(gè),疑似點(diǎn)有724個(gè),正常點(diǎn)有279025個(gè)。這是一個(gè)極不均衡的樣本分布。假設(shè)把異常點(diǎn)和疑似點(diǎn)都算作負(fù)樣本,那也僅僅只有760個(gè)樣本點(diǎn),這遠(yuǎn)遠(yuǎn)不夠的。為了解決數(shù)據(jù)均衡問(wèn)題,基于異常點(diǎn)和疑似點(diǎn)我對(duì)負(fù)樣本進(jìn)行了隨機(jī)的生成,策略如下:

      對(duì)于異常點(diǎn),通過(guò)聚類(lèi)集成方法的分析已經(jīng)證明了它們的異常行為的可靠性,所以要充分利用這些異常IP點(diǎn)的特征數(shù)據(jù)進(jìn)行更多負(fù)樣本的生成。由于每一個(gè)異常IP點(diǎn)的特征數(shù)據(jù)都具有7個(gè)特征,它們具有的異常行為,可能是這7個(gè)特征中一個(gè)或者某幾個(gè)發(fā)生了明顯的數(shù)值上的變換,基于這點(diǎn),在生成新的異常特征數(shù)據(jù)時(shí),對(duì)每一個(gè)異常點(diǎn)的7個(gè)特征都需要進(jìn)行不同的變換,由異常點(diǎn)的特征數(shù)據(jù)發(fā)現(xiàn),不同的異常IP點(diǎn)之間在7個(gè)特征上數(shù)據(jù)變化幅度較大,尤其表現(xiàn)在和連接數(shù)量相關(guān)的特征上,而與URI和COOKIE相關(guān)的特征的變化雖然趨于平緩,但整體仍具有浮動(dòng)現(xiàn)象。基于這點(diǎn)以及異常行為潛在的多變性。我選擇對(duì)特征數(shù)據(jù)進(jìn)行隨機(jī)的變換,將每一個(gè)異常IP點(diǎn)的每一個(gè)特征的取值隨機(jī)映射到原始值的0.8-1.2倍之間,選擇這個(gè)區(qū)間是因?yàn)椋瑸榱吮WC生成的數(shù)據(jù)盡可能地具有異常行為所以只選擇了較小的變換范圍,目的是保留住這些異常行為的數(shù)據(jù)特征,對(duì)于不同的映射區(qū)間下節(jié)會(huì)有詳細(xì)的分析。并且保證7個(gè)特征都是隨機(jī)進(jìn)行特征數(shù)據(jù)的生成在這個(gè)區(qū)間上。例如異常點(diǎn)106.39.178.1的原始數(shù)據(jù)如下:

      由于這些異常點(diǎn)有著極大的可能伴隨著異常行為,而可利用的異常點(diǎn)的數(shù)量又非常少,所以這里我選擇對(duì)每一個(gè)異常點(diǎn)都按照這樣的規(guī)則隨機(jī)生成了100個(gè)負(fù)樣本。

      對(duì)于疑似點(diǎn),雖然這些點(diǎn)伴隨著的異常行為的可能性沒(méi)有異常點(diǎn)那么高,但是它們都是由聚類(lèi)算法得出的離群點(diǎn)組成的。由離群點(diǎn)的特性可以得知,這些疑似點(diǎn)相比于正常點(diǎn)仍在某些特征上具有潛在的異常行為,并且疑似點(diǎn)的數(shù)量相比于異常點(diǎn)要多得多,這一方面可以很大程度豐富負(fù)樣本的多樣性不至于像異常點(diǎn)生成的負(fù)樣本的數(shù)據(jù)特征行為都很相似另一方面可以生成更多的負(fù)樣本。但是由于通過(guò)在聚類(lèi)的分析得出的結(jié)果可知,這些疑似點(diǎn)存在異常行為的可能性要低于異常點(diǎn)。所以綜合考慮這些因素,在這里我對(duì)724個(gè)疑似點(diǎn)中的每一個(gè)樣本點(diǎn)按照同異常點(diǎn)生成的相同策略都隨機(jī)生成10個(gè)負(fù)樣本。

      對(duì)于正常點(diǎn),由于正樣本數(shù)量已經(jīng)足夠,不需要對(duì)正樣本進(jìn)行生成,通過(guò)上述生成策略已經(jīng)生成了10840個(gè)負(fù)樣本,為了使正負(fù)樣本更均衡,對(duì)正樣本進(jìn)行了隨機(jī)選取,取10840個(gè)正樣本作為分類(lèi)算法的輸入。

      通過(guò)這樣的生成策略,使得正負(fù)樣本的個(gè)數(shù)更均衡,而且保證了數(shù)據(jù)的量,變換后正負(fù)樣本分別有10840個(gè)特征數(shù)據(jù)。

      2 基于HTTP異常檢測(cè)的隨機(jī)森林模型

      對(duì)于分類(lèi)算法來(lái)說(shuō)有很多的分類(lèi)器可供選擇,在這里我選擇隨機(jī)森林模型的原因在于隨機(jī)森林是一個(gè)用隨機(jī)方式建立的,包含多個(gè)決策樹(shù)的分類(lèi)器。由于HTTP數(shù)據(jù)本身的無(wú)監(jiān)督性以及在進(jìn)行特征選擇時(shí)無(wú)法對(duì)特征進(jìn)行準(zhǔn)確的評(píng)估只能從聚類(lèi)分析其對(duì)異常行為影響的重要性。這也存在著潛在的問(wèn)題就是有的特征可能對(duì)其異常行為產(chǎn)生負(fù)面的影響即不利于分類(lèi)算法,但是由于網(wǎng)絡(luò)異常行為的多樣性和數(shù)據(jù)本身的無(wú)監(jiān)督性,很難去準(zhǔn)確分辨哪些特征的價(jià)值更高哪些可能具有負(fù)面影響。由于使用了數(shù)據(jù)增強(qiáng)策略,很多特征數(shù)據(jù)可能表現(xiàn)出較大的相似性,尤其是由異常點(diǎn)生成的數(shù)據(jù)樣本。基于以上存在的問(wèn)題選擇隨機(jī)森林模型的原因如下[4]:

      1)隨機(jī)森林模型在構(gòu)造時(shí)在每個(gè)節(jié)點(diǎn)上,隨機(jī)選取所有特征的一個(gè)子集,用來(lái)計(jì)算最佳分割方式?;谶@點(diǎn)可以更全面的利用特征數(shù)據(jù),使得即便某個(gè)特征可能存在負(fù)面的影響也不至于對(duì)分類(lèi)結(jié)果產(chǎn)生較大的負(fù)面影響。

      2)訓(xùn)練每棵樹(shù)時(shí),從全部訓(xùn)練樣本(樣本數(shù)為N)中選取一個(gè)可能有重復(fù)的大小同樣為N的數(shù)據(jù)集進(jìn)行訓(xùn)練(即bootstrap取樣)。通過(guò)這樣選擇樣本的方式可以有效避免生成數(shù)據(jù)具有較大相似性的問(wèn)題。

      首先對(duì)生成的特征數(shù)據(jù)同樣進(jìn)行歸一化處理,為了驗(yàn)證隨機(jī)森林模型的可靠性,我對(duì)幾種經(jīng)典的分類(lèi)器如支持向量機(jī),K近鄰,決策樹(shù),Adaboosting,隨機(jī)森林5種分類(lèi)算法在生成的數(shù)據(jù)集上選擇了同樣的訓(xùn)練集和測(cè)試集,分別進(jìn)行了默認(rèn)參數(shù)的測(cè)試,即默認(rèn)的參數(shù)都是基于樣本數(shù)量的大小給予的沒(méi)有進(jìn)行任何的優(yōu)化調(diào)節(jié)。從圖中可以看出來(lái)隨機(jī)森林的模型的效果要優(yōu)于其他分類(lèi)器的結(jié)果。這里的準(zhǔn)確率的定義為:在生成的數(shù)據(jù)上進(jìn)行的5倍交叉驗(yàn)證的準(zhǔn)確率。

      對(duì)于隨機(jī)森林模型來(lái)說(shuō),對(duì)最終結(jié)果影響最大的就是建立樹(shù)的個(gè)數(shù),當(dāng)把樹(shù)的個(gè)數(shù)逐漸增多的時(shí)候自驗(yàn)證的準(zhǔn)確率也會(huì)發(fā)生小范圍提升,如上圖所示當(dāng)樹(shù)的個(gè)數(shù)為10個(gè)時(shí)準(zhǔn)確率為0.94,當(dāng)樹(shù)的個(gè)數(shù)為100個(gè)的時(shí)候自驗(yàn)證的準(zhǔn)確率能平均得到0.98,再增加樹(shù)的個(gè)數(shù),準(zhǔn)確率基本保持不變。

      另一個(gè)重要的影響因素就是輸入的特征數(shù)據(jù),由于在進(jìn)行負(fù)樣本生成的時(shí)候選擇了隨機(jī)生成的區(qū)間值,下面綜合分析一下該方案的優(yōu)缺點(diǎn)。進(jìn)行數(shù)據(jù)生成的原因在于對(duì)于本是無(wú)監(jiān)督的HTTP日志數(shù)據(jù)很難使用分類(lèi)算法進(jìn)行快速的異常行為檢測(cè),但是根據(jù)聚類(lèi)算法論證可以找到極小一部分的負(fù)樣本,對(duì)于這部分負(fù)樣本在生成更多的數(shù)據(jù)的時(shí)候可能有不同的策略,選擇不同的變化幅度區(qū)間。對(duì)于特征數(shù)據(jù)來(lái)說(shuō),不同的特征變換的范圍有著很大的差別,比如連接數(shù)量可能出現(xiàn)上千倍的變換即便在同是異常的IP點(diǎn)之間,而對(duì)于URI和COOKIE參數(shù)來(lái)說(shuō)變換范圍相對(duì)就小得多,這也符合實(shí)際的現(xiàn)象,考慮到這點(diǎn),在下面的分析中,始終保持和URI,COOKIE相關(guān)的特征的變換范圍區(qū)間在0.8到1.2之間不變,而只改變和連接數(shù)量相關(guān)的特征。這樣做的意義在于如果選擇的生成區(qū)間在比較小的范圍內(nèi)就會(huì)使得大量數(shù)據(jù)具有相似性,這樣做雖然在訓(xùn)練集中可以得到較高的準(zhǔn)確率,但是很有可能出現(xiàn)過(guò)擬合的現(xiàn)象使得在實(shí)際應(yīng)用的效果欠佳。如果對(duì)生成的樣本區(qū)間進(jìn)行放大,一方面可以使得數(shù)據(jù)之間的相似性大量降低也可以找出更多的潛在的異常行為,但是這樣就需要以犧牲一些準(zhǔn)確率為代價(jià)。下圖為對(duì)負(fù)樣本生成區(qū)間進(jìn)行放大后的準(zhǔn)確率結(jié)果圖:

      從上圖可以看出不同數(shù)據(jù)生成區(qū)間對(duì)最終隨機(jī)森林模型的自驗(yàn)證準(zhǔn)確率有著很大的影響,當(dāng)數(shù)據(jù)生成區(qū)間在一個(gè)比較小的區(qū)間的時(shí)候,比如0.8到1.2時(shí)自驗(yàn)證的準(zhǔn)確率偏高,因?yàn)樵谶@個(gè)區(qū)間上生成的樣本都和異常點(diǎn)具有很強(qiáng)的相似性,由于異常點(diǎn)和正常點(diǎn)之間的數(shù)值差異本身就比較大,所以此時(shí)分類(lèi)的準(zhǔn)確率偏高。但是這樣帶來(lái)的問(wèn)題是,只有異常情況很明顯下才能被分類(lèi)成具有異常行為的IP點(diǎn)。為了能找到更多的異常行為的IP點(diǎn),可以稍微放大一下數(shù)據(jù)生成的區(qū)間,比如從0.8到0.5再到0.1,可以看出對(duì)特征數(shù)據(jù)的上限只增大到了1.5倍就不再繼續(xù)增大了,這是因?yàn)?,?duì)于負(fù)樣本來(lái)說(shuō),它們的特征數(shù)值的上限已經(jīng)足夠大了相比正常的IP點(diǎn)來(lái)說(shuō),但是它們的下限卻要比正常點(diǎn)的上限還要高很多,所以在保證上限不變的情況下,適當(dāng)增大下限的取值,可以讓隨機(jī)森林模型找到更多的潛在的具有異常行為的IP點(diǎn)。

      3 特征重要性衡量

      基于已經(jīng)生成的隨機(jī)森林模型,一方面可以對(duì)新的特征數(shù)據(jù)進(jìn)行是否具有異常行為的分類(lèi)任務(wù),另一方面也可以通過(guò)該模型度量每一個(gè)特征的重要程度。計(jì)算某一特征X流程如下:

      1)對(duì)每一顆決策樹(shù),選擇相應(yīng)的袋外數(shù)據(jù),因?yàn)槲覀冊(cè)诮⒚恳活w決策樹(shù)時(shí)都是隨機(jī)的進(jìn)行有放回的選取也就是重復(fù)抽樣,所以最終大概仍有三分之一的樣本點(diǎn)沒(méi)有被抽取到對(duì)于每一顆決策樹(shù)來(lái)說(shuō)。用這部分?jǐn)?shù)據(jù)計(jì)算模型的錯(cuò)誤率,記作為errOOB1.

      2)隨機(jī)對(duì)袋外數(shù)據(jù)所有樣本的X特征加入噪聲干擾,一般來(lái)說(shuō)簡(jiǎn)單的做法就是隨機(jī)改變樣本數(shù)據(jù)在X特征處的值,經(jīng)過(guò)這樣的變換后,再次計(jì)算模型的錯(cuò)誤率,記作為errOOB2.

      3)假設(shè)隨機(jī)森林中有N顆數(shù),則特征X的重要性的計(jì)算公式為:

      之所以用這樣的式子來(lái)表示特征的重要性,原因在于如果對(duì)樣本數(shù)據(jù)的X特征進(jìn)行隨機(jī)改變后,袋外數(shù)據(jù)的準(zhǔn)確率大幅下降,也就是意味著errOOB2會(huì)出現(xiàn)大幅上升的現(xiàn)象,那么就說(shuō)明這個(gè)特征對(duì)最終的分類(lèi)結(jié)果產(chǎn)生了比較大的影響,所以該特征的重要性也就比較大。對(duì)生成的數(shù)據(jù)進(jìn)行特征重要性的衡量,結(jié)果如下圖所示:

      從圖中可以看出,不同的特征具有的重要程度具有很大幅度的變化在隨機(jī)森林模型中,其中單位小時(shí)最大請(qǐng)求個(gè)數(shù)這個(gè)特征具有最大的重要程度,而和uri,cookie相關(guān)的特征重要程度相對(duì)較小。這些特征重要程度上也可以得知,一般的網(wǎng)絡(luò)異常行為主要集中體現(xiàn)在請(qǐng)求的量上,與該指標(biāo)相關(guān)的量會(huì)對(duì)最終一個(gè)IP點(diǎn)是否具有異常行為有著更大的權(quán)重。

      參考文獻(xiàn):

      [1] Shi, Lin.Abnormal organization of white matter network inpatients with no dementia after ischemic stroke[C]. PloS one, 2013: 8, 12.

      [2] Soltani, Somayehl. A survey on real world botnets and detection mechanisms[J]. International Journal of Information & Network Security, 2014, 3(2).

      [3] Narudin, Fairuz Amalina. Evaluation of machine learning classifiers for mobile malware detection[J]. Soft Computing,2016: 1, 20.

      [4] Qian Quan, TianhongWang, Rui Zhang.Relative Network Entropy based Clustering Algorithm for Intrusion Detection[J]. Network Security, 2013, 15(1):16-22.

      猜你喜歡
      隨機(jī)森林
      隨機(jī)森林算法在生物信息學(xué)中的應(yīng)用研究
      隨機(jī)森林算法在中藥指紋圖譜中的應(yīng)用:以不同品牌夏桑菊顆粒指紋圖譜分析為例
      基于隨機(jī)森林的登革熱時(shí)空擴(kuò)散影響因子等級(jí)體系挖掘
      個(gè)人信用評(píng)分模型比較數(shù)據(jù)挖掘分析
      隨機(jī)森林在棉蚜蟲(chóng)害等級(jí)預(yù)測(cè)中的應(yīng)用
      基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類(lèi)算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
      基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
      基于奇異熵和隨機(jī)森林的人臉識(shí)別
      軟件(2016年2期)2016-04-08 02:06:21
      基于隨機(jī)森林算法的B2B客戶分級(jí)系統(tǒng)的設(shè)計(jì)
      汕尾市| 万全县| 黄浦区| 湘潭县| 长沙市| 陆川县| 商都县| 建平县| 朝阳县| 文水县| 阳高县| 虹口区| 遂平县| 隆回县| 广州市| 新化县| 宣城市| 库尔勒市| 承德县| 岐山县| 诏安县| 莱州市| 江西省| 九台市| 鄂温| 武鸣县| 白朗县| 秭归县| 金乡县| 平阴县| 汤原县| 莎车县| 商丘市| 龙泉市| 苗栗县| 遂昌县| 峡江县| 林周县| 沈阳市| 襄城县| 辽中县|