• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于被動(dòng)DNS流量的Fast-Flux域名檢測(cè)方法

      2021-09-26 05:08:56劉紀(jì)偉
      關(guān)鍵詞:域名IP地址決策樹(shù)

      張 玉,劉紀(jì)偉

      (國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心河北分中心,河北石家莊 050000)

      近年來(lái),隨著網(wǎng)絡(luò)犯罪技術(shù)的不斷發(fā)展,僵尸網(wǎng)絡(luò)(Botnet)已經(jīng)成為互聯(lián)網(wǎng)上最突出的威脅來(lái)源之一。根據(jù)國(guó)家互聯(lián)網(wǎng)應(yīng)急中心(CNCERT)發(fā)布的《2019年中國(guó)互聯(lián)網(wǎng)網(wǎng)絡(luò)安全報(bào)告》,CNCERT抽樣監(jiān)測(cè)結(jié)果顯示,2019年,我國(guó)境內(nèi)存在的木馬或僵尸程序控制服務(wù)器IP地址的數(shù)量為14 320個(gè),我國(guó)境內(nèi)共有近600萬(wàn)臺(tái)IP地址的主機(jī)被植入木馬或僵尸程序[1]。黑客攻擊者利用僵尸網(wǎng)絡(luò)實(shí)施各類(lèi)惡意活動(dòng),比如傳播惡意軟件(如勒索軟件、木馬等)、發(fā)送垃圾郵件、進(jìn)行分布式DDOS攻擊等。僵尸主機(jī)通過(guò)發(fā)送DNS數(shù)據(jù)包與攻擊者控制的服務(wù)器建立通信,并從服務(wù)器接收指令進(jìn)行網(wǎng)絡(luò)惡意活動(dòng)。為了逃避檢測(cè),很多大型僵尸網(wǎng)絡(luò)使用一種稱(chēng)為Fast-Flux服務(wù)網(wǎng)絡(luò)(FFSN)的技術(shù)應(yīng)用來(lái)逃避技術(shù)手段對(duì)惡意域名的檢測(cè)。FFSN一般是由大量被控制的計(jì)算機(jī)組成,通過(guò)不斷變化域名服務(wù)器的解析結(jié)果,以大量被控制計(jì)算機(jī)的IP作為域名服務(wù)IP[2],從而避免IP檢測(cè)等技術(shù)導(dǎo)致的服務(wù)不可用。Fast-Flux服務(wù)網(wǎng)絡(luò)核心目的是為一個(gè)Fast-Flux域名分配多個(gè)(多達(dá)幾百甚至上千個(gè))IP地址,通過(guò)快速更換Fast-Flux域名所對(duì)應(yīng)IP地址來(lái)達(dá)到防止被追蹤的目的,進(jìn)而隱藏最終惡意服務(wù)器的真實(shí)定位。

      Fast-Flux技術(shù)是僵尸網(wǎng)絡(luò)常用的一種DNS防追蹤技術(shù),主要分為兩類(lèi):Single-Flux技術(shù)和Double-Flux技術(shù)。Single-Flux技術(shù)是只有一層變化的Fast-flux,模式相對(duì)簡(jiǎn)單,底層域名服務(wù)器通過(guò)不斷變換域名對(duì)應(yīng)的IP地址列表,返回頻繁變化的被控制計(jì)算機(jī)的IP地址,由于這種模式只有一層,相對(duì)容易暴露。相對(duì)于Single-Flux技術(shù),Double-Flux是一種更加復(fù)雜的Fast-Flux技術(shù),它多了一個(gè)附加層,通過(guò)更改權(quán)威名稱(chēng)服務(wù)器(Authoritative Name Server)記錄來(lái)增加誤導(dǎo),這在惡意軟件網(wǎng)絡(luò)中提供了額外的冗余層和可生存性,檢測(cè)起來(lái)更加困難。

      內(nèi)容分發(fā)網(wǎng)絡(luò)(Content Delivery Network,CDN)和循環(huán) DNS(Round Robin Domain Name System,RRDNS)是Web服務(wù)器用來(lái)實(shí)現(xiàn)高可用性和負(fù)載平衡的兩種主流技術(shù),CDN和 RRDNS訪(fǎng)問(wèn)DNS流量的特征行為與FFSN技術(shù)的特征行為非常相似。CDN是由分布在不同地理位置的邊緣節(jié)點(diǎn)服務(wù)器群組成的一種分布式網(wǎng)絡(luò),當(dāng)客戶(hù)端對(duì)采用CND技術(shù)的域名發(fā)起訪(fǎng)問(wèn)時(shí),域名服務(wù)器會(huì)通過(guò)為客戶(hù)端提供附近服務(wù)器的IP地址集來(lái)實(shí)現(xiàn)。在RRDNS中,通過(guò)將Web服務(wù)器的主機(jī)名映射到多個(gè)IP地址,這種映射以循環(huán)方式不斷變化,使某個(gè)域名的權(quán)威域名服務(wù)器將工作負(fù)載分配到多個(gè)冗余Web服務(wù)器上,客戶(hù)端每一次發(fā)出DNS查詢(xún)請(qǐng)求,都可以獲取不同順序的給定主機(jī)名的IP地址列表。在實(shí)際網(wǎng)絡(luò)中,訪(fǎng)問(wèn)采用CND和RRDNS這些合法技術(shù)的域名也會(huì)存在DNS服務(wù)器向客戶(hù)返回多個(gè)IP地址,而且TTL值也很低。因此,如何有效區(qū)分FFSN和其他兩種技術(shù),減少誤報(bào)率,成為一個(gè)亟待解決的問(wèn)題。

      1 相關(guān)研究

      Fast-Flux的概念是在2007年由Gadi提出的,2008年 7月,德國(guó)蜜網(wǎng)項(xiàng)目組(The Honeynet Project)對(duì)Fast-Flux技術(shù)展開(kāi)了完整和詳細(xì)的研究[2],系統(tǒng)介紹了 Fast-Flux工作原理、分類(lèi)、特點(diǎn)等,之后針對(duì)Fast-Flux域名的檢測(cè)方法的研究持續(xù)開(kāi)展起來(lái)。綜合分析大量文獻(xiàn),已有針對(duì)Fast-Flux的檢測(cè)方法的研究主要分為以下2種:

      (1)主動(dòng)域名數(shù)據(jù)獲取

      主動(dòng)域名數(shù)據(jù)獲取是通過(guò)采集者向域名服務(wù)器發(fā)送DNS請(qǐng)求并記錄相應(yīng)的DNS響應(yīng)記錄來(lái)實(shí)現(xiàn),記錄內(nèi)容包括比如被解析IP地址、TTL值、NS記錄等。基于主動(dòng)域名數(shù)據(jù)獲取的策略已被廣泛探索。Holz等[3]對(duì)FFSN網(wǎng)絡(luò)開(kāi)展了試驗(yàn)性研究,總結(jié)了FFSN和CND的差異并提出了Fast-Flux域名的檢測(cè)方法。Passerini等[4]分析提取了FFSN的9個(gè)特征將其用于FFSN檢測(cè),特征包括域名注冊(cè)時(shí)間、注冊(cè)商、A記錄、TTL值等。國(guó)內(nèi)最早開(kāi)展FFSN相關(guān)研究是在2009年汪洋[5]構(gòu)建了A記錄數(shù)、IP分散度等4個(gè)特征作為檢測(cè)向量,提出了一個(gè)Fast-Flux域名檢測(cè)機(jī)制。褚燕琴等[6]從多個(gè)維度對(duì)Fast-Flux惡意域名的行為特征進(jìn)行了全面分析,并進(jìn)一步開(kāi)展了特征辨識(shí)度的分析和研究。主動(dòng)獲取方式簡(jiǎn)單靈活,但是獲取的數(shù)據(jù)被局限,有很大的偏向性。這種方法簡(jiǎn)化了FFSN檢測(cè),但需要解析可能與惡意活動(dòng)關(guān)聯(lián)的域名,而且會(huì)耗用大量的內(nèi)存,無(wú)法做到在線(xiàn)快速實(shí)時(shí)檢測(cè),在面向企業(yè)網(wǎng)絡(luò)監(jiān)控的實(shí)施中存在相應(yīng)的缺陷[7]。

      (2)被動(dòng)域名數(shù)據(jù)獲取

      被動(dòng)域名獲取方式主要是通過(guò)在DNS域名服務(wù)器部署相應(yīng)的數(shù)據(jù)獲取設(shè)備或者軟件來(lái)得到包含DNS請(qǐng)求或應(yīng)答記錄的日志文件。被動(dòng)獲取的方式獲取的數(shù)據(jù)一般范圍較廣,隨機(jī)性強(qiáng),具有更加豐富的特征和統(tǒng)計(jì)特性,在惡意行為的檢測(cè)中被普遍使用。被動(dòng)檢測(cè)方法既可以減輕網(wǎng)絡(luò)設(shè)備的負(fù)擔(dān),又可以準(zhǔn)確地實(shí)施檢測(cè),已經(jīng)成為目前的熱門(mén)檢測(cè)方法。Bilge等[8]提出了基于被動(dòng)DNS的惡意域名分析與檢測(cè)系統(tǒng)EXPOSURE,實(shí)現(xiàn)了對(duì)惡意活動(dòng)中的惡意域名進(jìn)行檢測(cè)。Perdisci等[9]對(duì)DNS流量進(jìn)行了大規(guī)模的被動(dòng)分析,他們從DNS流量中提取一些相關(guān)的特征,并通過(guò)C4.5決策樹(shù)分類(lèi)器對(duì)域名進(jìn)行分類(lèi)。周昌令等[10]從域名的時(shí)間性、增長(zhǎng)性、多樣性、相關(guān)性等方面共提取了18個(gè)特征,構(gòu)建了一種基于隨機(jī)森林算法的Fast-Flux域名識(shí)別模型。Lombardo等[11]提出一種分析企業(yè)網(wǎng)絡(luò)DNS流量的檢測(cè)方法,基于靜態(tài)指標(biāo)和歷史指標(biāo)來(lái)對(duì)數(shù)據(jù)進(jìn)行評(píng)估,檢測(cè)惡意流量。牛偉納等[12]結(jié)合卷積和循環(huán)神經(jīng)網(wǎng)絡(luò),提出了一種基于流量時(shí)空特征的速變域名僵尸網(wǎng)絡(luò)的檢測(cè)方法,這種方式省略了特征提取過(guò)程,但是算法復(fù)雜度較高。 Al-Duwairi等[13]提出了一種帶有RBF內(nèi)核的SVM算法,并使用3種類(lèi)型的人工神經(jīng)網(wǎng)絡(luò)對(duì)PASSVM進(jìn)行評(píng)估。

      2 特征選取

      為了將 FFSN網(wǎng)絡(luò)與 CDN以及 RRDNS等(FFSN網(wǎng)絡(luò)檢測(cè)的主要挑戰(zhàn))合法網(wǎng)絡(luò)區(qū)別開(kāi)來(lái),根據(jù)FFSN特點(diǎn)[10],本文提出了以下8個(gè)關(guān)鍵特征。雖然,通常情況下FFSN的TTL值一般都很小,但是并不認(rèn)為T(mén)TL值是一個(gè)好的特征參數(shù),這是因?yàn)楹戏ǖ挠蛎ㄈ缤ㄟ^(guò)CDN技術(shù)托管的域名)在適應(yīng)網(wǎng)絡(luò)擁塞或服務(wù)器中斷的速度方面與FFSN有類(lèi)似的要求,它的TTL值有時(shí)也會(huì)很小。

      (1)域名解析IP的累計(jì)數(shù)量NIP

      由于單個(gè)節(jié)點(diǎn)的可靠性較低,相比CDN,F(xiàn)ast-Flux技術(shù)通常使用大量IP地址。在DNS查詢(xún)中返回A記錄(IP地址)累計(jì)數(shù)量是衡量Fast-Flux攻擊流動(dòng)性的一個(gè)簡(jiǎn)單指標(biāo)。在大多數(shù)Fast-Flux攻擊中,域名服務(wù)器將返回5個(gè)或者更多的IP地址。然而,合法的域名通常不需要返回許多IP地址。在每次Fast-Flux攻擊中,與惡意流量域名關(guān)聯(lián)的不同的IP地址數(shù)量都在增加。經(jīng)過(guò)很長(zhǎng)一段時(shí)間后,域名解析IP的值NIP可以達(dá)到數(shù)百或數(shù)千。但普通合法網(wǎng)絡(luò)的NIP累積值不會(huì)持續(xù)增加。顯然,NIP是一個(gè)用來(lái)確定流量是否合法的非常有用的度量標(biāo)準(zhǔn)。

      (2)最大回答長(zhǎng)度MA

      由于Fast-Flux域名單個(gè)A查詢(xún)返回的IP地址數(shù)量一般要高于合法域名,選取單個(gè)A查詢(xún)中IP地址數(shù)量的最大值MA來(lái)作為一個(gè)特征。

      (3)ASN累積數(shù)量NASN

      合法的域名,甚至是通過(guò)CDN托管的域名,往往只返回一個(gè)或者少數(shù)特定ASN(自治系統(tǒng)編號(hào))記錄。相比之下,F(xiàn)FSN網(wǎng)絡(luò)因?yàn)槭芨腥镜臋C(jī)器分散在不同的ISP上,它們通常屬于不同的自治系統(tǒng),有著不同的ASN。所以,在一段時(shí)間中,所有“A”記錄的累計(jì)自治域ASN數(shù)量NASN是衡量Fast-Flux流量攻擊的一個(gè)簡(jiǎn)單度量。

      (4)IP在不同AS中分散的程度DASN

      對(duì)一些初步的Fast-Flux數(shù)據(jù)包的分析表明,盡管ASN絕對(duì)數(shù)量在一般情況下非常有用,但在某些情況下,ASN的絕對(duì)數(shù)量并不是一個(gè)特別明顯的特征,而其與IP數(shù)量NIP的比值更合適。為此,本文定義了量化IP在不同AS中分散程度的度量指標(biāo)DASN。 這個(gè)量的取值范圍從DASN~0(當(dāng)所有的IP都在同一個(gè)ASN并且IP的數(shù)量很大時(shí))到DASN=1(當(dāng)每個(gè)IP都在不同的ASN時(shí)),表達(dá)式為

      (5)IP所屬網(wǎng)絡(luò)分散的程度EIP

      一個(gè)惡意的Fast-Flux域名往往被解析到許多不同網(wǎng)絡(luò)的不同IP地址。與該域名相關(guān)的不同網(wǎng)絡(luò)數(shù)量越多,主機(jī)就越分散,并被用作Fast-Flux惡意域名的概率就會(huì)越大。本文引入信息論中熵的概念來(lái)表示解析IP地址集的分散程度,計(jì)算IP地址的16 bit前綴(IP/16)的熵,熵越大,IP地址集越分散。假設(shè)IP地址集的集合為P,IP的16 bit前綴x在集合 P 中所占的比例為 p(x),p(x) = count(x)/|P|,count(x)表示IP地址的16 bit前綴為x的個(gè)數(shù),則IP所屬網(wǎng)絡(luò)分散的程度表示為

      (6)域名服務(wù)器記錄數(shù)量MNS

      單次DNS解析中的NS域名記錄數(shù)量是衡量Fast-Flux攻擊的一個(gè)簡(jiǎn)單指標(biāo)。在Double-Flux攻擊中,母體Mothership在FFSN網(wǎng)絡(luò)中托管他的權(quán)威名稱(chēng)服務(wù)器,由Mothership控制的惡意DNS服務(wù)器為了發(fā)動(dòng)Fast-Flux攻擊,往往會(huì)返回多條NS記錄。相反,合法域名在單個(gè)DNS查詢(xún)中只返回少部分NS 記錄[14]。 因此,在一次 DNS 查詢(xún)中,F(xiàn)ast-Flux 域名的NS記錄比合法流量攻擊域的更多,選取檢測(cè)時(shí)間內(nèi)單次查詢(xún)中域名記錄數(shù)量的最大值MNS來(lái)作為檢測(cè)特征。

      (7)IP池的變化情況CIP

      IP池指某域名解析IP地址的集合,合法域名要提供正常網(wǎng)絡(luò)服務(wù),必須用合法的IP解析地址,這些解析IP地址多是穩(wěn)定的服務(wù)器,IP地址相對(duì)固定,即便更換,IP地址替換的范圍也在有限數(shù)量的地址池內(nèi)。FFSN由于單個(gè)節(jié)點(diǎn)的可靠性較低,為了保持可用性,F(xiàn)FSN通常占用更多IP地址資源,這些IP通常是缺乏保護(hù)的終端主機(jī),在線(xiàn)時(shí)間不穩(wěn)定并且可能隨時(shí)離線(xiàn),F(xiàn)FSN必須在生存期間繼續(xù)快速添加新IP。所以一般認(rèn)為FFSN的IP池不斷發(fā)生變化。假設(shè)檢測(cè)時(shí)間為T(mén),將檢測(cè)時(shí)間T均分n個(gè)時(shí)間切片,記為T(mén)i,i的取值為1~n,表示第i個(gè)時(shí)間段Ti中IP池IP數(shù)量。是一個(gè)基于歷史的指標(biāo),表示某個(gè)域名在所有時(shí)間段IP池中IP數(shù)量的平均值。

      NIP是檢測(cè)時(shí)間為T(mén)內(nèi),域名解析IP的累計(jì)數(shù)量,本文定義了一個(gè)度量標(biāo)準(zhǔn),以一種非常簡(jiǎn)單的方式度量IP池中的變化

      如果IP池穩(wěn)定,每個(gè)時(shí)間段IP池?cái)?shù)量和內(nèi)容都一樣,那NIP和相等,CIP為0。當(dāng)IP池從一個(gè)時(shí)間段到另外一個(gè)時(shí)間段發(fā)生了很大的變化,則域名解析IP的累計(jì)數(shù)量NIP一定會(huì)大大超過(guò),從而導(dǎo)致CIP變大。

      (8)ASN池的變化情況CASN

      對(duì)合法域名解析出的IP地址分布一般都比較統(tǒng)一,ASN數(shù)量較少,變化也緩慢。而Fast-Flux惡意域名因?yàn)楸豢赜?jì)算機(jī)分布的不確定性,往往位于不同的自治系統(tǒng),隨著時(shí)間的變化,ASN池集合也會(huì)發(fā)生較大變化。對(duì)照IP池集合的變化CIP,提出ASN池集合的變化CASN,是某個(gè)域名在所有時(shí)間段IP池中ASN數(shù)量的平均值。

      3 檢測(cè)流程和算法分析

      3.1 檢測(cè)流程

      根據(jù)上文的特征屬性分析以及Fast-Flux惡意域名的檢測(cè)需求,F(xiàn)ast-Flux域名的檢測(cè)流程如圖1所示。

      圖1 基于實(shí)時(shí)特征的FFSN檢測(cè)流程方法

      (1)數(shù)據(jù)過(guò)濾

      1)協(xié)議過(guò)濾。首先基于53端口號(hào)和UDP協(xié)議獲取DNS數(shù)據(jù)包。

      2)黑/白名單的過(guò)濾。采用基于黑/白名單的過(guò)濾方式縮小相對(duì)龐大的DNS流量,如果當(dāng)前數(shù)據(jù)包的數(shù)據(jù)與黑白名單中的記錄相匹配,則不再檢測(cè)。白名單選取Alexa前10萬(wàn)條域名以及本地常用合法域名,黑名單為已知Fast-Flux惡意域名。

      3)基于實(shí)時(shí)特征的過(guò)濾。根據(jù)對(duì)Fast-Flux域名可用性模型的研究[5],當(dāng) TTL大于1 800 s時(shí),F(xiàn)ast-Flux網(wǎng)絡(luò)的可用性概率接近為零。因此TTL大于1 800 s的查詢(xún)將被過(guò)濾。

      (2)流量檢測(cè)

      這是FFSN檢測(cè)的第二階段,主要是針對(duì)上一階段過(guò)濾出來(lái)的剩余流量進(jìn)行準(zhǔn)確分析與檢測(cè)。利用機(jī)器學(xué)習(xí)算法和訓(xùn)練數(shù)據(jù)構(gòu)建檢測(cè)模型,然后對(duì)過(guò)濾后流量進(jìn)行特征向量提取,選取的特征內(nèi)容見(jiàn)第2節(jié)特征選取,使用訓(xùn)練好的檢測(cè)模型對(duì)提取出來(lái)的特征向量數(shù)據(jù)集進(jìn)行檢測(cè),得出被檢測(cè)的域名是否為Fast-Flux惡意域名。

      3.2 算法分析

      3.2.1 算法概述

      決策樹(shù)算法是機(jī)器學(xué)習(xí)算法中一種非常經(jīng)典的分類(lèi)方法,主要優(yōu)點(diǎn)是模型簡(jiǎn)單直觀(guān),具有可讀性,分類(lèi)速度快,但是決策樹(shù)算法一般容易產(chǎn)生過(guò)擬合問(wèn)題,導(dǎo)致模型的泛化能力不強(qiáng)。雖然可以通過(guò)剪枝方法解決模型過(guò)度擬合的問(wèn)題,但是會(huì)增加算法的復(fù)雜性。隨機(jī)森林算法是利用訓(xùn)練數(shù)據(jù)產(chǎn)生很多棵決策樹(shù),形成一個(gè)森林,然后每次從森林中選擇若干棵樹(shù)進(jìn)行預(yù)測(cè),選擇結(jié)果最多的作為預(yù)測(cè)結(jié)果。隨機(jī)森林算法因?yàn)橐肓穗S機(jī)性,不容易發(fā)生過(guò)擬合,分類(lèi)準(zhǔn)確率較高,能夠有效地在大數(shù)據(jù)集上運(yùn)用。一般來(lái)說(shuō),隨機(jī)森林算法的判決性能優(yōu)于決策樹(shù)算法,擁有廣泛的應(yīng)用前景[15-16]。綜合隨機(jī)森林算法的以上優(yōu)點(diǎn),本文選用隨機(jī)森林算法作為惡意域名的識(shí)別算法。

      隨機(jī)森林采用的典型決策樹(shù)的算法主要有ID3算法,C4.5算法以及CART算法等。ID3算法是一種最早提出的傳統(tǒng)的決策樹(shù)算法,它的核心是在決策樹(shù)的各個(gè)節(jié)點(diǎn)上利用信息增益準(zhǔn)則來(lái)進(jìn)行特征選擇,遞歸地構(gòu)建決策樹(shù)。ID3算法的優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單,構(gòu)建速度快,但是這種算法由于使用信息增益來(lái)選取特征,使得有一種傾向性,偏向選取取值較多的特征,而這個(gè)特征并不一定是最優(yōu)的。C4.5算法是目前較主流的一種決策樹(shù)算法,它對(duì)ID3算法進(jìn)行了改進(jìn)優(yōu)化,用信息增益率取代信息增益值來(lái)進(jìn)行特征選擇,從而避免了ID3算法中的歸納偏置問(wèn)題。在樹(shù)的構(gòu)造過(guò)程中能夠完成對(duì)連續(xù)屬性的離散化處理,而且可以通過(guò)剪枝操作進(jìn)行優(yōu)化,缺點(diǎn)是相對(duì)于ID3算法,計(jì)算復(fù)雜度略高。CART算法也是一種常用的決策樹(shù)算法,它是使用基尼系數(shù)作為數(shù)據(jù)純度的量化指標(biāo)來(lái)構(gòu)建決策樹(shù),既可以用作分類(lèi),也可以做回歸。目前,隨機(jī)森林算法最常用的決策樹(shù)算法是C4.5和CART算法,分別基于信息增益率和基尼系數(shù)來(lái)進(jìn)行特征選擇,由于信息增益率和基尼系數(shù)都是特征選擇的重要指標(biāo),本文選擇信息增益率和基尼系數(shù)的線(xiàn)性組合作為節(jié)點(diǎn)分裂的指標(biāo)。

      3.2.2 基于隨機(jī)森林算法的檢測(cè)模型構(gòu)建

      (1)模型訓(xùn)練整體流程

      1)隨機(jī)樣本集選擇:假定隨機(jī)森林要建立M棵決策樹(shù),每棵用于訓(xùn)練的決策樹(shù)都是通過(guò)隨機(jī)、Bootstrap有放回的從全部訓(xùn)練數(shù)據(jù)中選取和原始數(shù)據(jù)集相同的訓(xùn)練數(shù)據(jù)集,此要求是為了防止每棵樹(shù)用于訓(xùn)練的數(shù)據(jù)一樣,從而導(dǎo)致訓(xùn)練出的每一棵樹(shù)都一樣。

      2)隨機(jī)特征集選擇:對(duì)決策樹(shù)每個(gè)節(jié)點(diǎn)向下進(jìn)行分裂時(shí),用Forestes-RI方法從待選K個(gè)特征中隨機(jī)選取n個(gè)特征,n的取值一般為log2K+1,使得森林中的每棵樹(shù)都可以彼此不同,從而提升分類(lèi)性能。

      3)特征選擇,構(gòu)建決策樹(shù):從特征子集中選擇最優(yōu)分裂特征和分裂值來(lái)建立M棵決策樹(shù),組成隨機(jī)森林。

      4)結(jié)果輸出:匯總M棵決策樹(shù)的分類(lèi)結(jié)果,概率最大的一個(gè)分類(lèi)結(jié)果為最終輸出結(jié)果。

      (2)決策樹(shù)節(jié)點(diǎn)分裂指標(biāo)構(gòu)建

      對(duì)于隨機(jī)森林中常用的決策樹(shù)算法:ID3算法、C4.5算法以及CART算法,決策樹(shù)特征選擇的對(duì)應(yīng)指標(biāo)主要有信息增益、信息增益率和基尼系數(shù)。在隨機(jī)森林算法中,普遍選擇信息增益率或者基尼系數(shù)作為節(jié)點(diǎn)分裂指標(biāo)。

      1)基尼系數(shù)

      基尼(Gini)系數(shù)表示某特征下包含屬性的雜亂程度,一般來(lái)說(shuō),總體內(nèi)部純度越高,基尼系數(shù)越小,內(nèi)部包含越混亂,基尼系數(shù)越大。假設(shè)某節(jié)點(diǎn)樣本集為S,包含樣本的種類(lèi)數(shù)目為k,pi為某節(jié)點(diǎn)中某類(lèi)樣本數(shù)目和該節(jié)點(diǎn)中樣本總數(shù)的比值,則該節(jié)點(diǎn)的基尼系數(shù)為

      如果樣本集S被某個(gè)特征T劃分為兩個(gè)子集T1和T2,S1為子集T1中樣本數(shù)量,S2為子集T2中樣本數(shù)量,劃分后的基尼系數(shù)為

      2)信息增益率

      信息增益(Gain)是在信息熵的基礎(chǔ)上得來(lái)的,表示在某個(gè)條件下,信息復(fù)雜度(不確定性)的減少程度。由于信息增益作為特征選擇指標(biāo)容易產(chǎn)生多值偏向性的問(wèn)題,在信息增益指標(biāo)基礎(chǔ)上引入了信息增益率指標(biāo)。對(duì)于特征T,它的信息增益率GainRatio(T) 表示為

      其中,H(D)表示數(shù)據(jù)集D的熵值,H(D|T)為確定了特征T之后數(shù)據(jù)集的熵值,Gain(T)表示信息增益,表示在確定特征T之后,對(duì)應(yīng)數(shù)據(jù)集熵值的減少程度。

      3)基于線(xiàn)性組合的節(jié)點(diǎn)分裂指標(biāo)構(gòu)建決策樹(shù)

      由于Gini系數(shù)和信息增益率都是節(jié)點(diǎn)分裂的重要指標(biāo),本文在節(jié)點(diǎn)分裂時(shí),選擇Gini系數(shù)和信息增益率的線(xiàn)性組合作為特征選擇的指標(biāo),表達(dá)式為

      其 中,βi(i=1,2) ∈ (0,1),Gini(S,T) 和GainRatio(T)分別表示基尼系數(shù)和信息增益率,計(jì)算分別見(jiàn)式(8)和式(9)。 選擇φ(α)值最小的特征作為節(jié)點(diǎn)分裂選擇特征。

      對(duì)于連續(xù)型特征,需要將連續(xù)性特征轉(zhuǎn)換為離散屬性再進(jìn)行下一步處理。假設(shè)訓(xùn)練數(shù)據(jù)包含N個(gè)樣本,從任意兩個(gè)相鄰樣本數(shù)據(jù)之間尋找分類(lèi)點(diǎn),計(jì)算每一個(gè)分裂情況的φ(α),取值最小的作為分裂點(diǎn)即可。

      3.2.3 評(píng)估方式

      本文選擇召回率(Recall)、精確率(Precision)以及準(zhǔn)確率作為提出方法的標(biāo)準(zhǔn)評(píng)價(jià),表1對(duì)評(píng)估過(guò)程所需要參數(shù)做了定義。

      表1 評(píng)估參數(shù)

      4 實(shí)驗(yàn)結(jié)果與分析

      4.1 實(shí)驗(yàn)環(huán)境

      由于網(wǎng)絡(luò)流量數(shù)據(jù)量較大,本實(shí)驗(yàn)需要處理的數(shù)據(jù)較多,需要系統(tǒng)具備較好的運(yùn)算能力和響應(yīng)處理能力,硬件環(huán)境配置如表2所示。

      表2 實(shí)驗(yàn)環(huán)境參數(shù)表

      4.2 數(shù)據(jù)集選取

      本文實(shí)驗(yàn)數(shù)據(jù)集采用的是ISOT數(shù)據(jù)集[17],數(shù)據(jù)集包括公開(kāi)的惡意數(shù)據(jù)集和非惡意數(shù)據(jù)集。惡意數(shù)據(jù)集是從德國(guó)蜜網(wǎng)項(xiàng)目(The Honeynet Project)中獲取的,主要包括Strom和Waledac僵尸網(wǎng)絡(luò)流量數(shù)據(jù)。非惡意數(shù)據(jù)集表示非惡意的日常使用流量,由兩個(gè)不同的數(shù)據(jù)集合并而來(lái),分別是來(lái)自匈牙利愛(ài)立信研究中心交通實(shí)驗(yàn)室以及勞倫斯伯克利國(guó)家實(shí)驗(yàn)室(LBNL)的數(shù)據(jù)集,包含來(lái)自各種應(yīng)用程序的大量通用流量、流行的 bittorrent客戶(hù)端(如Azureus)流量以及企業(yè)網(wǎng)絡(luò)流量等。數(shù)據(jù)集中數(shù)據(jù)分布情況如表3所示。

      表3 ISOT數(shù)據(jù)集記錄數(shù)量

      首先對(duì)數(shù)據(jù)集數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,從數(shù)據(jù)集中提取協(xié)議類(lèi)型為DNS協(xié)議的數(shù)據(jù)類(lèi)型,然后針對(duì)響應(yīng)報(bào)文數(shù)據(jù)包進(jìn)行特征向量提取,形成實(shí)驗(yàn)數(shù)據(jù)集。

      4.3 算法對(duì)比實(shí)驗(yàn)

      為了確保對(duì)比效果的有效性,采用10折交叉驗(yàn)證(Cross Validation)的方法進(jìn)行檢驗(yàn),實(shí)驗(yàn)均值為模型得分。在決策樹(shù)節(jié)點(diǎn)分裂指標(biāo)上,將本文提出的Gini系數(shù)和信息增益率的線(xiàn)性組合作為結(jié)點(diǎn)分裂指標(biāo)的方法與文獻(xiàn)[9]采用的C4.5決策樹(shù)算法、文獻(xiàn)[10]采用的傳統(tǒng)隨機(jī)森林算法以及文獻(xiàn)[13]采用的SVM算法進(jìn)行比較,比較的指標(biāo)為3.2.3節(jié)評(píng)估方式中的3個(gè)指標(biāo),如圖2所示,在召回率(R)、精確率(P)和準(zhǔn)確率(ACC)上更有優(yōu)勢(shì)。

      圖2 不同算法效果對(duì)比結(jié)果

      4.4 現(xiàn)網(wǎng)數(shù)據(jù)測(cè)試

      本文選取基礎(chǔ)電信企業(yè)DNS服務(wù)器日志數(shù)據(jù)作為現(xiàn)網(wǎng)測(cè)試數(shù)據(jù),將測(cè)試數(shù)據(jù)分為5組,選取數(shù)據(jù)如表4所示,經(jīng)過(guò)數(shù)據(jù)過(guò)濾環(huán)節(jié),進(jìn)行特征提取,然后使用建立好的檢測(cè)模型對(duì)5組測(cè)試數(shù)據(jù)流量進(jìn)行檢測(cè),得出分類(lèi)結(jié)果。

      表4 實(shí)驗(yàn)數(shù)據(jù)

      以第一組數(shù)據(jù)為例(2020-11-10—12 0:00—12:00),通過(guò)DNS協(xié)議、黑白名單過(guò)濾、域名特征過(guò)濾后的DNS日志約有54 244 904條。因?yàn)閿?shù)據(jù)量過(guò)大,選擇1 h為一個(gè)檢測(cè)周期,通過(guò)模型檢測(cè),最終發(fā)現(xiàn)如下疑似Fast-Flux惡意域名,如表5所示。

      表5 疑似Fast-Flux惡意域名

      實(shí)驗(yàn)結(jié)果是否是Fast-Flux惡意域名是通過(guò)特征分析以及惡意域名網(wǎng)站驗(yàn)證的方法來(lái)驗(yàn)證的,但是virustotal.com和微步(x.threatbook.cn)等惡意域名網(wǎng)站在很多情況下,只能標(biāo)記域名是否是惡意,但是沒(méi)有對(duì)惡意域名是否是Fast-Flux惡意域名進(jìn)行分類(lèi),而且對(duì)于一些新出現(xiàn)的域名,存在是Fast-Flux惡意域名,但是沒(méi)有進(jìn)行標(biāo)記的情況,所以,本文驗(yàn)證方法采用先用惡意域名網(wǎng)站驗(yàn)證,如果標(biāo)記為Fast-Flux惡意域名,驗(yàn)證結(jié)束,否則再以特征分析進(jìn)行驗(yàn)證。

      以x1.dnsseed.blue matt.me域名為例,對(duì)其特征進(jìn)行分析,表6為在實(shí)際數(shù)據(jù)中該域名在DNS服務(wù)器221.5.203.108和221.7.92.108上得到的解析IP的情況

      表6 疑似Fast-Flux惡意域名解析情況

      觀(guān)察其請(qǐng)求的具體行為,他們解析IP地址數(shù)量相比正常域名返回的解析IP地址數(shù)量多,ASN碼和網(wǎng)絡(luò)分散程度也比正常域名的多,IP在不同ASN中分散的程度很大,存在較為明顯的Fast-Flux僵尸網(wǎng)絡(luò)中惡意域名的特征。

      通過(guò)特征分析以及惡意域名網(wǎng)站驗(yàn)證的方法來(lái)驗(yàn)證實(shí)驗(yàn)結(jié)果是否是Fast-Flux域名,分別計(jì)算5組現(xiàn)網(wǎng)測(cè)試數(shù)據(jù)精確率。通過(guò)驗(yàn)證,該檢測(cè)方法精確率的平均值為92.32%,模型的處理速度可以達(dá)到5 947條/s,一天數(shù)據(jù)的檢測(cè)時(shí)長(zhǎng)約為6 h,達(dá)到較好的檢測(cè)效果。實(shí)驗(yàn)證明本文采用的檢測(cè)特征數(shù)量較少(8個(gè)),提取簡(jiǎn)單,但是實(shí)際運(yùn)用效果很好,不存在模型復(fù)雜度過(guò)大的問(wèn)題,而且計(jì)算復(fù)雜度較小,更適合實(shí)際環(huán)境應(yīng)用。

      5 結(jié)束語(yǔ)

      本文針對(duì)Fast-Flux技術(shù)進(jìn)行研究,提出了一種基于被動(dòng)DNS流量的Fast-Flux惡意域名檢測(cè)方法。首先,基于DNS協(xié)議、黑白名單、DNS流量實(shí)時(shí)特征對(duì)流量數(shù)據(jù)進(jìn)行過(guò)濾,然后,構(gòu)建了識(shí)別Fast-Flux網(wǎng)絡(luò)的8個(gè)簡(jiǎn)單有效的特征集,采用基于Gini系數(shù)和信息增益率的線(xiàn)性組合的隨機(jī)森林算法建立相應(yīng)的識(shí)別模型,進(jìn)行Fast-Flux惡意域名檢測(cè)。最后,將基礎(chǔ)電信企業(yè)DNS服務(wù)器日志數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),證明了系統(tǒng)的有效性。本文的局限性在于Fast-Flux惡意域名的公開(kāi)數(shù)據(jù)集較少,本文采用的ISOT數(shù)據(jù)集中Fast-Flux惡意域名數(shù)據(jù)集較小,導(dǎo)致訓(xùn)練數(shù)據(jù)集規(guī)模較小,檢測(cè)模型的性能可以進(jìn)一步提升。

      猜你喜歡
      域名IP地址決策樹(shù)
      鐵路遠(yuǎn)動(dòng)系統(tǒng)幾種組網(wǎng)方式IP地址的申請(qǐng)和設(shè)置
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      如何購(gòu)買(mǎi)WordPress網(wǎng)站域名及綁定域名
      基于SNMP的IP地址管理系統(tǒng)開(kāi)發(fā)與應(yīng)用
      黑龍江電力(2017年1期)2017-05-17 04:25:16
      基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
      騰訊八百萬(wàn)美元收購(gòu)域名
      基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
      頂級(jí)域名爭(zhēng)奪戰(zhàn):ICANN放出1930個(gè)通用頂級(jí)域名,申請(qǐng)者有上千家
      用統(tǒng)一身份認(rèn)證解決IP地址的盜用
      彩票| 绥化市| 清涧县| 贡觉县| 迭部县| 盐池县| 涿鹿县| 当雄县| 牡丹江市| 正蓝旗| 德化县| 富源县| 德庆县| 闸北区| 忻州市| 苗栗市| 铜川市| 汝南县| 泰和县| 潜山县| 泾阳县| 通辽市| 丁青县| 甘孜县| 承德市| 平遥县| 广南县| 遵化市| 巢湖市| 沈阳市| 合水县| 运城市| 石屏县| 郴州市| 康平县| 唐山市| 晋城| 祁东县| 五大连池市| 玉溪市| 井冈山市|