• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合字符級(jí)滑動(dòng)窗口和深度殘差網(wǎng)絡(luò)的僵尸網(wǎng)絡(luò)DGA域名檢測(cè)方法

      2022-03-17 04:30:04劉小洋劉加苗張宜浩
      電子學(xué)報(bào) 2022年1期
      關(guān)鍵詞:分離式域名集上

      劉小洋,劉加苗,劉 超,張宜浩

      (1.重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶 400054;2.重慶理工大學(xué)人工智能學(xué)院,重慶 401135)

      1 前言

      僵尸網(wǎng)絡(luò)是指采用一種或多種傳播手段,將大量主機(jī)感染bot 程序病毒,從而使控制者和被感染主機(jī)之間形成一個(gè)可以一對(duì)多控制的網(wǎng)絡(luò).Internet 用戶的增多以及用戶安全意識(shí)的缺乏,是導(dǎo)致僵尸網(wǎng)絡(luò)產(chǎn)生的主要原因之一.組建僵尸網(wǎng)絡(luò)的僵尸程序被事先設(shè)計(jì)好了DGA 算法,利用該算法生成大量的DGA 域名并周期性產(chǎn)生一個(gè)域名列表.僵尸網(wǎng)絡(luò)的控制者會(huì)注冊(cè)某些域名作為該僵尸網(wǎng)絡(luò)的命令控制服務(wù)器訪問域名.通過不斷更改僵尸網(wǎng)絡(luò)控制服務(wù)器的域名使僵尸網(wǎng)絡(luò)保持運(yùn)行的技術(shù)被稱為domain flux[1].早期的DGA 域名檢測(cè)方式是黑名單、正則匹配等.后來隨著機(jī)器學(xué)習(xí)的興起,利用大量的域名數(shù)據(jù)并做特征工程的域名檢測(cè)的性能逐步提高.隨后基于深度學(xué)習(xí)自動(dòng)特征提取的DGA域名檢測(cè)方法也逐步得到發(fā)展.

      本文的主要?jiǎng)?chuàng)新點(diǎn):①提出了一種基于字符級(jí)滑動(dòng)窗口的深度殘差網(wǎng)絡(luò)模型用于DGA 域名的檢測(cè),使用區(qū)域卷積方式擴(kuò)大卷積核感受野,然后精巧地設(shè)計(jì)了一種可變長(zhǎng)式的深度可分離式卷積殘差神經(jīng)網(wǎng)絡(luò)來提取特征;②提出的SW-DRN 模型首次采用深度可分離式卷積設(shè)計(jì),減少了模型的可訓(xùn)練參數(shù)以及訓(xùn)練成本,提升了模型的檢測(cè)效率;③本文建立兩個(gè)數(shù)據(jù)集,分別為Real-Dataset 和Gen-Dataset,并且這兩個(gè)數(shù)據(jù)集上的二分類和多分類任務(wù)均到達(dá)了目前領(lǐng)先的水平.

      2 相關(guān)工作

      在僵尸網(wǎng)絡(luò)的防御中,DGA 域名檢測(cè)起著重要的作用.因此DGA 域名檢測(cè)成為網(wǎng)絡(luò)安全領(lǐng)域中一個(gè)非常重要的研究點(diǎn).在2010 年,Yadav 等人[2]同時(shí)對(duì)DGA域名和非DGA域名集合1-gram 與2-gram 的分布提取特征進(jìn)行了識(shí)別.Antonakakis等人[3]基于隱馬爾科夫聚類發(fā)現(xiàn)了潛在的DGA域名家族.在2016年,Woodbridge等人[4]首次將深度學(xué)習(xí)應(yīng)用到DGA域名檢測(cè)中,且該方法只使用域名字符串作為數(shù)據(jù)輸入,利用深度學(xué)習(xí)自動(dòng)提取字符串內(nèi)的隱藏特征,使DGA域名檢測(cè)的研究工作取得了飛躍性的突破.Vinayakumar等人[5]在不同深度學(xué)習(xí)框架上進(jìn)行DGA域名檢測(cè)實(shí)驗(yàn),比較了多種卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò).呂品等人[6]使用雙向多層的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),對(duì)大規(guī)模DGA 數(shù)據(jù)進(jìn)行訓(xùn)練,最終得到的模型的DGA域名檢測(cè)率為96%.Tran等人[7]提出了一種LSTM.MI算法,該算法結(jié)合了二分類和多類分類模型,并考慮了類別識(shí)別的重要性.Highnam 等人[8]提出了一種新穎的混合神經(jīng)網(wǎng)絡(luò),該模型對(duì)此類算法生成域的可能性進(jìn)行了分析和評(píng)分.杜鵬等人[9]提出一種混合詞向量的DGA域名檢測(cè)模型,并使用混合詞向量CNN-LSTM和CNN-MWE模型做了實(shí)驗(yàn)對(duì)比.從上述研究發(fā)現(xiàn),基于深度學(xué)習(xí)的方法普遍優(yōu)于基于人工特征的機(jī)器學(xué)習(xí)方法.但是基于深度學(xué)習(xí)的DGA 域名檢測(cè)方法在DGA 域名家族的二分和多分類任務(wù)上仍有很大的提升空間.

      3 所提出的方法

      本文提出的基于字符級(jí)滑動(dòng)窗口的深度殘差網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示.SW-DRN 輸入層接受固定長(zhǎng)度為L(zhǎng)的域名,且L=48.對(duì)域名進(jìn)行數(shù)值化處理,使用字符級(jí)詞典把域名中的每個(gè)字符映射成one-hot 編碼向量.嵌入層將one-hot 的V1維度向量映射成d維度,d=16.于是開始特征提取,區(qū)域卷積部分采用標(biāo)準(zhǔn)卷積進(jìn)行原始特征提取,采用多尺度的滑動(dòng)窗口,選用3 種一維卷積核,大小分別為1,3,5.然后輸入到深度可分離式卷積殘差網(wǎng)絡(luò)層進(jìn)行更深層次的特征提取.

      圖1 SW-DRN 模型架構(gòu)

      殘差網(wǎng)絡(luò)層的層數(shù)是可以根據(jù)圖1 中的深度可分離式卷積重復(fù)模塊進(jìn)行變化的,它的重復(fù)次數(shù)使用N來表示.卷積重復(fù)模塊的次數(shù)N=4,當(dāng)N的值每增加1時(shí),下一次卷積的濾波器數(shù)量n變?yōu)樵瓉淼? 倍,于是濾波器的數(shù)量分別為64,128,256,512.同時(shí)在深度可分離式卷積重復(fù)模塊的尾部加上一個(gè)最大池化層,這樣每經(jīng)過一個(gè)卷積重復(fù)模塊時(shí),特征圖的長(zhǎng)度變?yōu)樵瓉淼囊话?,其目的是在殘差網(wǎng)絡(luò)層中卷積核長(zhǎng)度不變的情況下,通過減少長(zhǎng)度L來增加對(duì)特征圖的感受視野,這樣可以提取DGA 域名內(nèi)不同位置字符之間的關(guān)系特征.最后,需要對(duì)得到的特征圖進(jìn)行K-max 池化采樣,感受野k=8,目的是提取顯著的特征,緩解模型的過擬合,增加模型的泛化能力.輸出層按照任務(wù)類型對(duì)輸入的DGA樣本進(jìn)行類別預(yù)測(cè).

      殘差網(wǎng)絡(luò)[10]的設(shè)計(jì)是為了防止當(dāng)網(wǎng)絡(luò)層數(shù)加深時(shí),模型在訓(xùn)練中出現(xiàn)梯度爆炸和梯度消失.考慮到殘差塊中若使用標(biāo)準(zhǔn)卷積會(huì)導(dǎo)致模型計(jì)算量增加并降低模型的檢測(cè)效率,于是在DGA 域名檢測(cè)中本文在設(shè)計(jì)殘差塊時(shí)首次應(yīng)用深度可分離式卷積[11].圖2 為SWDRN 中殘差塊的內(nèi)部結(jié)構(gòu).為了增加模型訓(xùn)練的穩(wěn)定性,引入批標(biāo)準(zhǔn)化(Batch Norm).殘差塊的數(shù)據(jù)流方向如式(1)所示:

      圖2 深度可分離式卷積殘差塊

      其中,xl-1為殘差塊的輸入;xl為殘差塊輸出.

      本文為了探索網(wǎng)絡(luò)模型的深度對(duì)DGA 域名檢測(cè)的影響,使用SW-DRN 模型分別在深度層數(shù)為9,17,29,49 的情況下進(jìn)行相應(yīng)的訓(xùn)練并測(cè)試,所得對(duì)比結(jié)果在實(shí)驗(yàn)部分展示.

      4 實(shí)驗(yàn)與結(jié)果分析

      4.1 實(shí)驗(yàn)超參數(shù)

      SW-DRN 模型的超參數(shù):初始化學(xué)習(xí)率為0.01;每32 Epoch 的學(xué)習(xí)率調(diào)整成原來的1/2;優(yōu)化器為Adam;Epoch為128;B(Batch size)=512.

      4.2 Real-Dataset 和Gen-Dataset

      Real-Dataset 數(shù)據(jù)集由2 部分組成:一部分是合法的域名樣本,來自Alexa 訪問量全球排名前一百萬的網(wǎng)站域名;另一部分用360 Netlab DGA 公開數(shù)據(jù).Real-Dataset 數(shù)據(jù)集包含21 種DGA 家族數(shù)據(jù)集,同時(shí)為了減緩數(shù)據(jù)不平衡問題,本文對(duì)該數(shù)據(jù)集進(jìn)行欠采樣.

      本文不僅收集真實(shí)網(wǎng)絡(luò)環(huán)境下的DGA 域名樣本,同時(shí)還用域名生成算法產(chǎn)生DGA 域名樣本并和Alexa中的域名一起作為合法域名構(gòu)成數(shù)據(jù)集Gen-Dataset.本文從Internet 中收集了主流的域名生成算法,然后根據(jù)不同域名的生成算法,按滿足條件不同,生成了33種不同家族的DGA域名,且每個(gè)類數(shù)量均為20 000.

      4.3 模型性能衡量指標(biāo)

      SW-DRN模型具有二分類和多分類的任務(wù).表1是分類混淆矩陣.

      表1 分類結(jié)果混淆矩陣

      準(zhǔn)確率:

      查準(zhǔn)率:

      檢測(cè)率(Detection Rate,DR):

      誤報(bào)率(False Positive Rate,F(xiàn)PR):

      考慮到實(shí)驗(yàn)中Real-Dataset 存在數(shù)據(jù)不平衡的問題,因此采用“macro”方式計(jì)算F-score比較合適.

      4.4 模型對(duì)比實(shí)驗(yàn)分析

      在Real-Dataset 數(shù)據(jù)集和Gen-Dataset 數(shù)據(jù)集上進(jìn)行的二分類和多分類的實(shí)驗(yàn),采用的對(duì)比實(shí)驗(yàn)?zāi)P头謩e是LSTM[12]、GRU[13]、Shallow-CNN[13]、CNN-LSTM[14]和LSTM-Attention[15].

      在Real-Dataset 數(shù)據(jù)集上的二分類結(jié)果如表2 所示.從表2 中可知,本文所提出的SW-DRN 模型和對(duì)比模型在5個(gè)評(píng)估指標(biāo)上都取得了不錯(cuò)的成績(jī),說明深度學(xué)習(xí)模型在DGA 域名檢測(cè)中具有非常不錯(cuò)的性能.由于Real-Dataset 數(shù)據(jù)集中DGA 合法域名的特征相對(duì)容易區(qū)分,且各個(gè)性能指標(biāo)幾乎都超過99%,SW-DRN 與其他模型對(duì)比,在二分類任務(wù)上取得了微弱的領(lǐng)先.表3 展示了各個(gè)模型在Gen-Dataset 數(shù)據(jù)集上的評(píng)估結(jié)果.SW-DRN 模型在5 個(gè)性能指標(biāo)上都領(lǐng)先于對(duì)比模型.但SW-DRN 模型在Gen-Dataset 數(shù)據(jù)集上并沒有達(dá)到Real-Dataset 數(shù)據(jù)集上一樣的識(shí)別率,主要原因是Gen-Dataset 數(shù)據(jù)集中的DGA 家族數(shù)量更多,增加了識(shí)別的難度.

      表2 Real-Dataset數(shù)據(jù)集二分類結(jié)果/%

      表3 Gen-Dataset數(shù)據(jù)集二分類結(jié)果對(duì)比/%

      模型在Real-Dataset數(shù)據(jù)集上的多分類實(shí)驗(yàn)結(jié)果如表4 所示.根據(jù)實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),SW-DRN 模型在多分類整體評(píng)估指標(biāo)F-score 上,比最優(yōu)對(duì)照模型高出了1.23%.且SW-DRN 在gameover 和virut等5 個(gè)家族上的誤報(bào)率均為0,在多個(gè)DGA 家族上取得了領(lǐng)先的成績(jī),即使在一些DGA 家族上未能超越對(duì)比模型,但也緊隨其后.同樣從表5 中的數(shù)據(jù)不難發(fā)現(xiàn),SW-DRN 模型比對(duì)照模型在整體多分類指標(biāo)上F-score 提升了1.01%,且在多個(gè)DGA 域名家族上領(lǐng)先于其他模型.但同上述SW-DRN 模型在Real-Dataset 數(shù)據(jù)集上的測(cè)試結(jié)果相比,Gen-Dataset數(shù)據(jù)集中的DGA 域名家族種類更多,對(duì)各個(gè)家族的識(shí)別難度也越大.還發(fā)現(xiàn),在dircrypt、proslikefan 和dnschanger 等一些家族上,其域名之間具有高較高相似性,使得識(shí)別率低于其他家族.

      表4 Real-Dataset 多分類結(jié)果/%

      表5 Gen-Dataset多分類結(jié)果/%

      為更進(jìn)一步證明SW-DRN的性能,針對(duì)當(dāng)前生成對(duì)抗網(wǎng)絡(luò)產(chǎn)生的DGA域名來測(cè)試基于深度學(xué)習(xí)的DGA域名檢測(cè)器.本文選擇3 個(gè)有關(guān)對(duì)抗樣本的域名生成模型,分別為DeepDGA[16]、MaskDGA[17]和CharBot[18].表6是SW-DRN分別在這3種生成域名的測(cè)試集上的結(jié)果.SW-DRN 在DeepDGA、MaskDGA 和CharBot 這3 種生成域名的識(shí)別上均取得了不錯(cuò)的效果,但由于CharBot 是直接對(duì)合法域名字符的個(gè)別位置上的字符隨機(jī)替換,因此評(píng)估指標(biāo)相比其他2種域名稍差一些.

      表6 SW-DRN模型在生成域名上測(cè)試結(jié)果/%

      4.5 模型的參數(shù)量

      為了評(píng)估模型的參數(shù)量,選擇參數(shù)量在9 層的SWDRN 模型進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表7 所示,SW-DRN 模型使用深度可分離式卷積比標(biāo)準(zhǔn)卷積減少了約56%的參數(shù).

      表7 SW-DRN可訓(xùn)練參數(shù)量對(duì)比/百萬

      4.6 模型深度的探索

      本文把SW-DRN 模型的層數(shù)設(shè)定為9,17,29,49,并在Real-Dataset 數(shù)據(jù)集和Gen-Dataset 數(shù)據(jù)集上分別進(jìn)行二分類和多分類實(shí)驗(yàn),結(jié)果如圖3 所示.當(dāng)SWDRN 模型為9 層時(shí),已經(jīng)取得了不錯(cuò)的性能,且隨著模型的層數(shù)逐漸加深,模型的性能并無明顯提升.當(dāng)模型為49層時(shí),模型因擬合能力太強(qiáng)而出現(xiàn)過擬合現(xiàn)象,導(dǎo)致泛化能力下降.對(duì)SW-DRN 模型進(jìn)行更深層數(shù)的探索,得到更深層次的網(wǎng)絡(luò)模型,并不能更好地提升模型在DGA域名上的檢測(cè)性能.

      圖3 SW-DRN的不同深度性能

      5 結(jié)束語

      本文提出了一種基于字符級(jí)滑動(dòng)窗口的深度殘差神經(jīng)網(wǎng)絡(luò)模型.實(shí)驗(yàn)證明,SW-DRN 模型不僅在二分類任務(wù)上優(yōu)于對(duì)比模型,而且在多分類任務(wù)中取得了當(dāng)前最優(yōu)異的成績(jī).針對(duì)少樣本DGA 域名家族進(jìn)行識(shí)別以及對(duì)高隨機(jī)性、易混淆的DGA 域名之間進(jìn)行識(shí)別,相比當(dāng)前已有的DGA 域名分類模型,SW-DRN 模型取得了更進(jìn)一步的提升.本文還對(duì)SW-DRN 模型進(jìn)一步實(shí)驗(yàn),通過可變長(zhǎng)的深度可分離式卷積殘差模塊實(shí)現(xiàn)對(duì)SW-DRN不同深度的探索,同時(shí)還對(duì)模型的檢測(cè)效率進(jìn)行了對(duì)比,實(shí)驗(yàn)證明,深度可分離式卷積能夠有效地降低模型的可訓(xùn)練參數(shù)量.

      猜你喜歡
      分離式域名集上
      Cookie-Cutter集上的Gibbs測(cè)度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      如何購買WordPress網(wǎng)站域名及綁定域名
      復(fù)扇形指標(biāo)集上的分布混沌
      騰訊八百萬美元收購域名
      可分離式凍干機(jī)自動(dòng)進(jìn)出料系統(tǒng)
      可分離式凍干機(jī)自動(dòng)進(jìn)出料系統(tǒng)
      可分離式凍干機(jī)自動(dòng)進(jìn)出料系統(tǒng)
      可分離式凍干機(jī)自動(dòng)進(jìn)出料系統(tǒng)
      幾道導(dǎo)數(shù)題引發(fā)的解題思考
      辽源市| 东港市| 巴里| 竹溪县| 海晏县| 桃园市| 綦江县| 上饶县| 讷河市| 铜山县| 兖州市| 句容市| 襄垣县| 泸西县| 福建省| 体育| 和顺县| 泸西县| 霸州市| 扎兰屯市| 阳谷县| 巴林右旗| 永顺县| 柘城县| 莒南县| 大余县| 宣恩县| 南雄市| 牟定县| 普兰店市| 长汀县| 恩施市| 民丰县| 宝丰县| 洮南市| 忻州市| 万山特区| 溆浦县| 张北县| 连城县| 五河县|