• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于特征多樣化的惡意域名檢測(cè)

      2021-02-24 13:04:06劉善玲祁正華
      關(guān)鍵詞:訪問(wèn)量字符串域名

      劉善玲,祁正華

      (南京郵電大學(xué)計(jì)算機(jī)學(xué)院、軟件學(xué)院、網(wǎng)絡(luò)空間安全學(xué)院,江蘇 南京 210023)

      域名系統(tǒng)(Domain Name System,DNS)作為互聯(lián)網(wǎng)的重要組成部分,實(shí)現(xiàn)域名和IP地址的相互映射,是各個(gè)信息系統(tǒng)協(xié)調(diào)與合作的中樞神經(jīng)。近年來(lái),隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)對(duì)全球組織和個(gè)人日?;顒?dòng)的影響呈指數(shù)增長(zhǎng)。與此同時(shí),由于域名協(xié)議本身安全運(yùn)行機(jī)制并不健全,域名系統(tǒng)在提供正常的網(wǎng)絡(luò)服務(wù)外,也被網(wǎng)絡(luò)攻擊者利用,進(jìn)行違法違紀(jì)活動(dòng)(如垃圾郵件、僵尸網(wǎng)絡(luò)、釣魚(yú)軟件等),通過(guò)分析發(fā)現(xiàn)許多移動(dòng)通信終端、PC機(jī)和服務(wù)器被植入了木馬病毒后會(huì)包含大量惡意域名鏈接?!?020年我國(guó)互聯(lián)網(wǎng)網(wǎng)絡(luò)安全態(tài)勢(shì)》報(bào)告[1]指出,全年捕獲惡意程序樣本數(shù)量超過(guò)4 200萬(wàn)個(gè),日均傳播次數(shù)達(dá)482萬(wàn)余次,控制我國(guó)境內(nèi)約3.3萬(wàn)臺(tái)IPv6地址主機(jī)。目前互聯(lián)網(wǎng)中較為常見(jiàn)的利用DNS產(chǎn)生惡意域名的異常行為是DGA(Domain Generation Algorithms)域名和DNS隱蔽通道。網(wǎng)絡(luò)釣魚(yú)者可以利用多種技術(shù)使網(wǎng)絡(luò)站點(diǎn)看起來(lái)合法,它誘騙受害者點(diǎn)擊這些鏈接從而獲取受害者的信息或控制受害者的計(jì)算機(jī)。

      隨著惡意域名造成的經(jīng)濟(jì)損失越來(lái)越大,人們對(duì)于網(wǎng)絡(luò)安全的意識(shí)也逐漸增強(qiáng),各種檢測(cè)方法層出不窮?,F(xiàn)有的檢測(cè)方法主要存在以下不足:一,采用復(fù)雜特征提取的辦法,并且結(jié)合多種檢測(cè)系統(tǒng)進(jìn)行多重檢測(cè)。雖然在檢測(cè)準(zhǔn)確率上有很好的效果,但在系統(tǒng)開(kāi)銷(xiāo)、檢測(cè)速度上花費(fèi)過(guò)大;二,對(duì)域名類(lèi)型的檢測(cè),目前大多的檢測(cè)方法主要是針對(duì)DGA域名的檢測(cè),當(dāng)產(chǎn)生新的域名類(lèi)型時(shí),檢測(cè)性能不佳。本文的主要貢獻(xiàn)如下:

      (1)在進(jìn)行域名特征提取前,對(duì)域名進(jìn)行分詞格式化處理,可以增加數(shù)據(jù)集的通用性,提高模型的泛化能力,同時(shí)簡(jiǎn)化后續(xù)域名特征提取過(guò)程。本文提取的特征和現(xiàn)有的復(fù)雜特征組合(時(shí)間向量、地理位置向量、注冊(cè)信息等)相比,在達(dá)到相同的檢測(cè)效果下,需要提取的特征數(shù)量有一定減少,同時(shí)提高了特征提取速度。

      (2)由DGA算法生成的惡意域名,與正常域名在形式上有很大的差異,因此網(wǎng)絡(luò)攻擊者可以利用這一特征來(lái)逃避檢測(cè)。針對(duì)現(xiàn)有檢測(cè)方法在域名類(lèi)型上的單一性,本文通過(guò)構(gòu)建不同時(shí)間段域名訪問(wèn)量的變化發(fā)現(xiàn),常規(guī)域名和惡意域名在各個(gè)時(shí)間段訪問(wèn)量存在很大的差異。網(wǎng)絡(luò)攻擊者在利用DGA算法生成惡意域名時(shí),很容易規(guī)避常規(guī)特征,但訪問(wèn)量是不可規(guī)避的。

      1 相關(guān)研究

      針對(duì)惡意域名的檢測(cè),最原始的方法是基于黑名單檢測(cè),Kührer等[2]發(fā)現(xiàn)所有公共黑名單的聯(lián)合覆蓋率不到20%,提出一種基于圖的方法來(lái)識(shí)別黑名單中的漏洞。由于黑名單方法存在的缺陷,提出了一種基于域名特征的檢測(cè)方法[3-4],依賴(lài)于 url詞匯特征進(jìn)行提取,張維維等[5]通過(guò)挖掘域名字面蘊(yùn)含的詞素(詞綴、拼音及縮寫(xiě))特征,能夠快速鎖定域名。Schiavoni等[6]提出了一種名為Phoenix的檢測(cè)機(jī)制,使用字符串和基于IP的特征對(duì)域名家族進(jìn)行分類(lèi)。后續(xù)的研究中發(fā)現(xiàn)域名的主機(jī)中也包含著許多隱藏信息[7-8]。 袁福祥等[9]通過(guò)挖掘域名的歷史信息例如DNS注冊(cè)信息、whois更新信息、被動(dòng)DNS數(shù)據(jù)等構(gòu)造合法域名與惡意域名的數(shù)據(jù)差異,進(jìn)行域名的全局特征提取。目前最常用的檢測(cè)方法是基于模型的檢測(cè),除了機(jī)器學(xué)習(xí)的檢測(cè)方法[10-12]外,也可以利用深度學(xué)習(xí)方法[13-14]進(jìn)行檢測(cè)。

      2 系統(tǒng)設(shè)計(jì)

      本文在分析多種域名檢測(cè)算法的基礎(chǔ)上,從域名字符和訪問(wèn)量?jī)煞矫嫣崛∮杏锰卣?,設(shè)計(jì)一種基于特征多樣化的域名檢測(cè)方法。本文方法主要分為4個(gè)模塊:數(shù)據(jù)集獲取、數(shù)據(jù)預(yù)處理、特征提取和分類(lèi)器模型訓(xùn)練。算法框架如圖1所示。

      圖1 算法框架

      2.1 數(shù)據(jù)預(yù)處理

      首先將獲取到的域名進(jìn)行分詞格式化處理,處理后的域名如表1所示。通過(guò)這步操作,在特征提取的過(guò)程中可以將原本時(shí)間復(fù)雜度為O(m?n)的字符串比較問(wèn)題,轉(zhuǎn)化為時(shí)間復(fù)雜度為O(n)的匹配問(wèn)題,同時(shí)可以達(dá)到一個(gè)擴(kuò)充模型通用性的目的。域名作為一種無(wú)空格間隔的特殊字符串,既具有英文文本的特征,又具有中文文本的特征,分詞時(shí)需要考慮到域名單詞間的無(wú)間隔性,也要考慮到詞語(yǔ)的連貫性。本文對(duì)字符串的分詞采用雙向最大匹配算法和概率模型方法。雙向最大匹配算法操作如下:

      表1 分詞處理結(jié)果

      (1)給定需要分割的字符串S;

      (2)先對(duì)字符串S進(jìn)行正向最大匹配,得到分詞結(jié)果PC;

      (3)再對(duì)字符串S進(jìn)行反向最大匹配,得到分詞結(jié)果RC;

      (4)利用概率模型函數(shù)Fit分別計(jì)算PC和RC的概率;

      (5)選擇概率大的作為分詞輸出結(jié)果。

      概率模型函數(shù)計(jì)算方法為

      式中,M為詞集大小,cwi為詞wi的數(shù)目。然后,針對(duì)分詞序列如w=w1,w2,…,wm,使用擬合函數(shù)Fit計(jì)算分析結(jié)果。分詞之后進(jìn)行格式化操作,將所有字母用“a”替代,所有數(shù)字用“0”替代。在2.2節(jié)特征提取過(guò)程計(jì)算域名長(zhǎng)度時(shí),只需匹配“[”、“]”即可。

      2.2 特征提取

      2.2.1 基本字符特征

      (1)域名長(zhǎng)度

      由于IP地址不易被記住,為了訪問(wèn)方便,引入了域名。常規(guī)域名為了便于記憶,注冊(cè)時(shí)選擇為短域名,一般情況下由一個(gè)或兩個(gè)英文單詞或者中文拼音組成,例如google.com,baidu.com。然而攻擊者在利用算法生成惡意域名時(shí),域名的長(zhǎng)度通常設(shè)置為16位、32位等,長(zhǎng)度一般較長(zhǎng),如 apple?mac911.onlinesoftware.info。因此可以基于域名長(zhǎng)度度量構(gòu)建域名長(zhǎng)度特征。如圖2所示,正常域名長(zhǎng)度大部分在5~10之內(nèi),惡意域名主要集中圖形的后半部分,長(zhǎng)度值較大。

      圖2 域名長(zhǎng)度分布特征

      (2)數(shù)字個(gè)數(shù)

      惡意域名通常由域名生成算法生成,作為惡意軟件的域名存在,域名內(nèi)容一般不具有可記憶性,此外,惡意域名一般會(huì)在正常域名之后加入數(shù)字來(lái)誤導(dǎo)用戶(hù),因此數(shù)字的隨機(jī)出現(xiàn)也是惡意域名的一個(gè)重要特征。正常域名極少包含數(shù)字或者包含很少的數(shù)字。分布特征如圖3所示。

      圖3 域名中數(shù)字分布特征

      (3) 隨機(jī)性

      隨機(jī)性作為域名的基本特征,代表了域名的混亂程度。DGA算法利用隨機(jī)字符串生成惡意域名,在數(shù)學(xué)上表示為不確定度,在這里可以用香農(nóng)熵公式H(X)來(lái)表示不確定度。字符隨機(jī)性越大,熵值越高,是惡意域名的可能性就更大。

      式中,X為域名;xi為X中的某一個(gè)字符,p(xi)為該字符出現(xiàn)的概率。分布特征如圖4所示。

      圖4 信息熵分布圖

      (4)最長(zhǎng)有意義字符串長(zhǎng)度

      常規(guī)域名通常具有一定的代表意義,可能是相應(yīng)的英文單詞,或者中文拼音,因此正常域名的有意義字符串長(zhǎng)度值偏大,作為隨機(jī)生成的惡意域名,算法在生成時(shí),一般未考慮到域名的可讀性以及域名代表的意義,通常由英文字母和數(shù)字混合在一起組成,因此最長(zhǎng)有意義字符串長(zhǎng)度值偏小。分布特征如圖5所示。

      圖5 最長(zhǎng)有意義字符串長(zhǎng)度分布

      2.2.2 訪問(wèn)特征

      傳統(tǒng)檢測(cè)方法基于人工特征的提取,在檢測(cè)方法不斷更新發(fā)展的同時(shí),網(wǎng)絡(luò)攻擊者也發(fā)現(xiàn)通過(guò)分析域名字符特征就可以輕易辨別出惡意域名,隨著惡意域名生成算法的不斷更新,攻擊者在生成惡意域名時(shí)很容易規(guī)避這些特征,生成一類(lèi)新的家族域名。

      本文從域名解析訪問(wèn)特征角度出發(fā),對(duì)域名訪問(wèn)量特征(request_cnt)計(jì)算均值、方差最大值、最小值等數(shù)值統(tǒng)計(jì)特征,但因?yàn)榫挡荒苊枋鰯?shù)據(jù)的離散程度,當(dāng)數(shù)據(jù)分布不均時(shí),采用均值特征不能展示真實(shí)的數(shù)據(jù)分布情況,因此根據(jù)時(shí)間段劃分,再對(duì)request_cnt做分位數(shù)特征提取,刻畫(huà)不同時(shí)間段的變化情況,減小異常值對(duì)模型的干擾。因此訪問(wèn)量不僅可以作為識(shí)別DGA域名的一個(gè)重要特征,同樣也可以作為識(shí)別生存時(shí)間較長(zhǎng)惡意域名的特征,主要因?yàn)樵L問(wèn)量是無(wú)法規(guī)避的特征。圖6為各個(gè)時(shí)間段域名的訪問(wèn)情況,可以看出常規(guī)域名因?yàn)樯嬷芷陂L(zhǎng),且有訪問(wèn)意義,一般都是訪問(wèn)量較大,并且呈現(xiàn)出白天多晚上少的特征。而惡意域名,生存周期較短,訪問(wèn)量大幅減少,并且考慮到隱蔽性等原因,呈現(xiàn)出聚集于晚上訪問(wèn)的特征。

      圖6 訪問(wèn)量分布圖

      2.3 分類(lèi)器模型訓(xùn)練

      本文方法使用黑白樣本集,將域名數(shù)據(jù)分為訓(xùn)練集21 000個(gè)和測(cè)試集100 000個(gè)(具體分布如表2所示),訓(xùn)練集的數(shù)據(jù)均是由真實(shí)網(wǎng)絡(luò)數(shù)據(jù)提供,其中測(cè)試集的數(shù)據(jù)集一部分來(lái)源為從未公開(kāi)過(guò)的DGA域名和非DGA域名。首先從域名數(shù)據(jù)集中提取相關(guān)特征,再構(gòu)造域名訪問(wèn)量分位數(shù)特征,按域名編號(hào)順序合并成二維向量。

      本文采用隨機(jī)森林分類(lèi)算法,訓(xùn)練過(guò)程采用有放回的樣本選取,每次訓(xùn)練生成的決策樹(shù)都不同,可以避免模型過(guò)擬合的問(wèn)題。同時(shí)隨機(jī)森林算法實(shí)現(xiàn)簡(jiǎn)單,對(duì)噪聲數(shù)據(jù)不敏感,本文使用隨機(jī)森林算法利用訓(xùn)練集數(shù)據(jù)訓(xùn)練模型,達(dá)到模型檢測(cè)最優(yōu)效果后,利用訓(xùn)練好的模型對(duì)測(cè)試集數(shù)據(jù)進(jìn)行分類(lèi)檢測(cè),觀察分類(lèi)結(jié)果。

      表2 數(shù)據(jù)集

      3 實(shí)驗(yàn)與分析

      3.1 性能評(píng)估

      為驗(yàn)證本文惡意域名檢測(cè)算法的有效性,將本實(shí)驗(yàn)所用到的域名作為對(duì)比實(shí)驗(yàn)的數(shù)據(jù)集,在相同的實(shí)驗(yàn)環(huán)境下根據(jù)條件分別復(fù)現(xiàn)檢測(cè)惡意域名經(jīng)典方法、文獻(xiàn)[15]Exposure方法和文獻(xiàn)[16]基于域名詞法特征的惡意域名檢測(cè)算法。對(duì)比實(shí)驗(yàn)結(jié)果如圖7所示。文獻(xiàn)[15]在原文中的準(zhǔn)確率可以達(dá)到98%,使用相同的數(shù)據(jù)集,在本實(shí)驗(yàn)當(dāng)中檢測(cè)效果有所下降,說(shuō)明該方法存在一定的穩(wěn)定性問(wèn)題。而文獻(xiàn)[16]單純基于詞法特征的檢測(cè)算法,在準(zhǔn)確率、召回率等方面,檢測(cè)效果遠(yuǎn)遠(yuǎn)不如本文,而在加入本文的域名處理和訪問(wèn)特征之后,準(zhǔn)確率提高了7.9%。說(shuō)明本文方法具有良好的穩(wěn)定性與準(zhǔn)確性。

      圖7 不同方法的檢測(cè)效果

      3.2 資源開(kāi)銷(xiāo)

      惡意域名的檢測(cè),除保證準(zhǔn)確率外,控制資源開(kāi)銷(xiāo)也十分重要。本文從檢測(cè)時(shí)間、內(nèi)存開(kāi)銷(xiāo)兩方面與文獻(xiàn)[7]采用的基于聚類(lèi)和分類(lèi)的檢測(cè)思路,利用SVM分類(lèi)器過(guò)濾惡意域名,以及文獻(xiàn)[17]采用的基于DNS流量的檢測(cè)方法進(jìn)行比較,使用相同數(shù)量的實(shí)驗(yàn)數(shù)集來(lái)驗(yàn)證本文方法的性能問(wèn)題。分析結(jié)果如表3所示。從表3可以看出,與文獻(xiàn)[7]、文獻(xiàn)[17]相比,本文算法在檢測(cè)時(shí)間與內(nèi)存開(kāi)銷(xiāo)方面都有良好的實(shí)驗(yàn)效果,導(dǎo)致這一結(jié)果的主要原因是文獻(xiàn)[7]使用組合分類(lèi)方法,先使用聚類(lèi)關(guān)聯(lián)疑似惡意域名之后,再利用分類(lèi)器檢測(cè)聚類(lèi)集合的域名,文獻(xiàn)[17]雖然有著較高的準(zhǔn)確率,但是在檢測(cè)方法上較為復(fù)雜,先采用關(guān)聯(lián)匹配方法,再提取特征,隨后采用深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等方法進(jìn)行檢測(cè),開(kāi)銷(xiāo)較大。本文在檢測(cè)方法上只需提取特征,訓(xùn)練隨機(jī)森林模型即可。同時(shí),在提取特征之前對(duì)域名做了相關(guān)處理,從根本上降低了時(shí)間復(fù)雜度,在特征提取方面多次實(shí)驗(yàn),在保證實(shí)驗(yàn)效果的情況下,選擇了系統(tǒng)開(kāi)銷(xiāo)最小、提取時(shí)間最短的相關(guān)特征進(jìn)行模型訓(xùn)練。結(jié)合對(duì)比實(shí)驗(yàn)的檢測(cè)結(jié)果,本文的檢測(cè)準(zhǔn)確率在現(xiàn)有方法中雖然不是最高,但綜合考慮具有一定的優(yōu)勢(shì)。

      表3 性能比較結(jié)果

      4 結(jié)束語(yǔ)

      本文提出了基于特征多樣化的惡意域名檢測(cè)方法,將域名特征與訪問(wèn)特征一起應(yīng)用到模型中訓(xùn)練,提高了系統(tǒng)的泛化能力,增加了模型的通用性,針對(duì)不同類(lèi)型的惡意域名都可以達(dá)到良好的檢測(cè)效果。在對(duì)方法的分析中,發(fā)現(xiàn)本文的檢測(cè)模型體現(xiàn)出整體更高的檢測(cè)性能。另外,本方法也存在著一定的不足,在分詞過(guò)程當(dāng)中,沒(méi)有達(dá)到更加全面的效果,對(duì)于類(lèi)似于中文拼音的域名,在分詞方面存在一定誤差,需要進(jìn)一步改進(jìn)。另一方面,可以對(duì)域名其他不易改變的特征進(jìn)行進(jìn)一步挖掘,提高檢測(cè)效果。

      猜你喜歡
      訪問(wèn)量字符串域名
      如何購(gòu)買(mǎi)WordPress網(wǎng)站域名及綁定域名
      高職院校圖書(shū)館電子資源中數(shù)據(jù)庫(kù)的使用情況分析
      卷宗(2016年12期)2017-04-19 20:57:30
      如何做好搜索引擎優(yōu)化(SEO)提高新聞網(wǎng)站訪問(wèn)量
      活力(2016年9期)2016-08-01 22:41:45
      一所大學(xué)有40人被確診為抑郁癥
      健康管理(2016年7期)2016-05-14 11:38:41
      騰訊八百萬(wàn)美元收購(gòu)域名
      一種新的基于對(duì)稱(chēng)性的字符串相似性處理算法
      依據(jù)字符串匹配的中文分詞模型研究
      頂級(jí)域名爭(zhēng)奪戰(zhàn):ICANN放出1930個(gè)通用頂級(jí)域名,申請(qǐng)者有上千家
      一種針對(duì)Java中字符串的內(nèi)存管理方案
      小改字符串讓殺毒軟件閉嘴
      宜良县| 昌乐县| 安庆市| 增城市| 图片| 宁夏| 克山县| 沅陵县| 饶阳县| 临江市| 溧阳市| 东阿县| 天峨县| 改则县| 新安县| 精河县| 包头市| 长丰县| 潞西市| 凤城市| 池州市| 梅州市| 信宜市| 全南县| 屯昌县| 南京市| 胶州市| 平安县| 高陵县| 东莞市| 澄江县| 荆州市| 新津县| 吕梁市| 湘西| 芦溪县| 柳林县| 岗巴县| 疏附县| 永宁县| 芜湖县|