張慧 錢麗萍 汪立東 袁辰 張婷
摘 ?要: 針對(duì)惡意網(wǎng)址檢測(cè)系統(tǒng)的特征選擇和降維問(wèn)題,基于特征選擇方法的優(yōu)化結(jié)果提出多種特征子集。利用基于分類器的準(zhǔn)確率和召回率等性能評(píng)價(jià)指標(biāo),采用隨機(jī)森林、貝葉斯網(wǎng)絡(luò)、J48、隨機(jī)樹(shù)機(jī)器學(xué)習(xí)方法,對(duì)信息增益、卡方校驗(yàn)、信息增益率、基于Relief值、基于OneR分類器、基于關(guān)聯(lián)性規(guī)則、基于相關(guān)性等多種特征選擇算法所確定的特征子集進(jìn)行檢測(cè)。結(jié)果表明,除基于相關(guān)性特征選擇算法確定的特征子集外,其他方法確定的特征子集均具有良好的分類性能,其中基于關(guān)聯(lián)性規(guī)則選擇的特征子集的維度僅為5,但各分類器基于此特征子集的分類準(zhǔn)確率均高達(dá)99%以上。
關(guān)鍵詞: 網(wǎng)絡(luò)安全; 惡意網(wǎng)址檢測(cè); 特征提取; 特征選擇; 特征子集; 信息安全
中圖分類號(hào): TN915.08?34; TP391 ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2019)09?0060?05
Broad?spectrum feature selection and evaluation for malicious URLs detection
ZHANG Hui, QIAN Liping, WANG Lidong, YUAN Chen, ZHANG Ting
(College of Electrical and Information Engineering, Beijing University of Civil Engineering and Architecture, Beijing 100044, China)
Abstract: The multiple feature subsets are proposed based on the optimization results of feature selection method to solve the problems of feature selection and dimension reduction for malicious URLs detection system. The classifier?based performance evaluation indicators such as accuracy rate and recall rate, and machine learning method using random forest, Bayesian network, J48, random tree are used to detect the feature subsets determined by information gain, Chi?square verification, information gain radio, and multi?feature selection algorithms based on Relief value, OneR classifier, correction rule and correction attribute evaluation. The results show that, except the feature subset determined by the algorithm based on correction attribute evaluation, the feature subsets determined by other feature selection algorithms have high classification performance, in which the dimensionality of feature subset determined by the algorithm based on correlation rule is only 5, but the classification accuracy rate of all the classifiers based on this feature subset can reach up to 99%.
Keywords: network security; malicious URL detection; feature extraction; feature selection; feature subset; information security
0 ?引 ?言
互聯(lián)網(wǎng)及其應(yīng)用快速發(fā)展,有力地支撐了社會(huì)經(jīng)濟(jì)民生的運(yùn)轉(zhuǎn)。人們?cè)谙硎芑ヂ?lián)網(wǎng)便利的同時(shí),也深受網(wǎng)頁(yè)篡改、網(wǎng)頁(yè)后門、網(wǎng)頁(yè)仿冒、驅(qū)動(dòng)開(kāi)發(fā)、網(wǎng)絡(luò)釣魚、點(diǎn)擊欺詐、僵尸網(wǎng)絡(luò)(Botnet)、分布式拒絕服務(wù)(DDoS)[1]等安全威脅,它們通過(guò)欺騙用戶訪問(wèn)惡意網(wǎng)址(Uniform Resource Locators,URLs),獲取用戶的銀行賬號(hào)、密碼、身份證號(hào)等敏感信息,嚴(yán)重危害到用戶的信息財(cái)產(chǎn)安全。CNCERT/CC2016年度安全報(bào)告顯示,360公司攔截釣魚攻擊279.5億次,被篡改網(wǎng)站8.3萬(wàn)個(gè)。2017年上半年,國(guó)際反釣魚工作組(APWG)報(bào)告已檢測(cè)到釣魚網(wǎng)站共29萬(wàn)余個(gè),瑞星在全球范圍內(nèi)截獲5 020萬(wàn)個(gè)惡意URLs。
為了保護(hù)用戶的上網(wǎng)安全,Google Chrome和Windows IE等主流瀏覽器會(huì)采用URL黑名單機(jī)制比對(duì)用戶訪問(wèn)網(wǎng)頁(yè)URLs,當(dāng)用戶訪問(wèn)黑名單中的URL時(shí)會(huì)立即停止訪問(wèn)并向用戶發(fā)出警告。然而黑名單機(jī)制只能用于檢測(cè)已確認(rèn)的惡意URLs,無(wú)法防范最新出現(xiàn)的惡意URLs。為改善此不足,本文提出基于特征提取的檢測(cè)方法,通過(guò)提取網(wǎng)頁(yè)或者URLs的詞匯特征、網(wǎng)頁(yè)信息特征、主機(jī)特征等大量信息,用于提升惡意URLs檢測(cè)的準(zhǔn)確性和時(shí)效性。然而,較高維數(shù)的特征雖然可以更有效地對(duì)問(wèn)題進(jìn)行準(zhǔn)確描述,但也會(huì)不可避免地將大量冗余特征、不相關(guān)特征、噪聲特征等引入特征空間。不僅降低特征提取的速度,還大大提升了計(jì)算復(fù)雜度,影響分類器運(yùn)算效率和分類性能。
本文針對(duì)基于特征提取的惡意URLs檢測(cè)方法面臨的高維特征空間特征選擇問(wèn)題,在保證特征可理解性的基礎(chǔ)上完成空間降維。首先,通過(guò)對(duì)大量惡意URLs的經(jīng)驗(yàn)性觀察,總結(jié)惡意URLs的共性特征,再結(jié)合相關(guān)文獻(xiàn),選擇30余項(xiàng)相關(guān)特征構(gòu)建初始特征空間。對(duì)此特征空間,選取多種特征選擇算法對(duì)其進(jìn)行優(yōu)化,結(jié)合多種機(jī)器學(xué)習(xí)方法對(duì)篩選得到的特征子集進(jìn)行檢測(cè)驗(yàn)證,最終選取適用于多種分類器的最優(yōu)特征子集結(jié)果。
1 ?相關(guān)工作
URLs是網(wǎng)民訪問(wèn)網(wǎng)站的門牌,因此也成為各種網(wǎng)絡(luò)威脅誘騙網(wǎng)民的重要手段。針對(duì)惡意URLs檢測(cè)方法的研究一直方興未艾。一部分研究從URLs中的域名(DNS)檢測(cè)入手,另一部分研究則利用完整URLs。文獻(xiàn)[1]使用帶語(yǔ)義特征的可逆哈希函數(shù),對(duì)被查詢的DNS及發(fā)起查詢的IP進(jìn)行快速聚類和還原,識(shí)別DNS流量中的異常,該方法可用于Botnet,DDoS攻擊等異常檢測(cè)的前期篩選和后期驗(yàn)證。文獻(xiàn)[2]利用信號(hào)處理技術(shù)、功率譜密度(PSD)分析發(fā)現(xiàn)僵尸網(wǎng)絡(luò)周期性DNS查詢產(chǎn)生的主要頻率,發(fā)現(xiàn)主機(jī)群的相似惡意行為模型。文獻(xiàn)[3]通過(guò)挖掘域名里面蘊(yùn)含的詞根、詞綴、拼音及縮寫特征,實(shí)現(xiàn)輕量級(jí)的惡意域名檢測(cè)。
URLs較DNS蘊(yùn)含有更多的檢測(cè)可用信息。文獻(xiàn)[4]通過(guò)提取URLs的詞匯特征和主機(jī)特征,實(shí)現(xiàn)釣魚網(wǎng)站的分類檢測(cè)。文獻(xiàn)[5]通過(guò)提取郵件中URLs的詞匯特征和基于主機(jī)的特征,基于累積分?jǐn)?shù)判定URL的性質(zhì)。文獻(xiàn)[6]提出結(jié)合基于惡意URLs的詞匯特征、基于主機(jī)的特征、基于域名的特征及在線社會(huì)網(wǎng)絡(luò)特征以提高惡意行為檢測(cè)效率。
面向高維特征空間,代表性、高貢獻(xiàn)率特征子集的選擇變得越來(lái)越重要。文獻(xiàn)[7]采用Fisher分和信息增益降低特征維數(shù)。文獻(xiàn)[8]結(jié)合遺傳算法與蟻群算法提升特征選擇的速度。文獻(xiàn)[9]通過(guò)主成分分析方法以及基于關(guān)聯(lián)性的特征選擇算法優(yōu)化評(píng)估特征并進(jìn)行特征選擇。
機(jī)器學(xué)習(xí)方法被大量用于惡意URLs檢測(cè),性能評(píng)估和比較是其中重要的研究?jī)?nèi)容。文獻(xiàn)[10]通過(guò)比較發(fā)現(xiàn),J48、SVM、LR三種分類方法中J48檢測(cè)效果最佳,且檢測(cè)準(zhǔn)確率受phishtank惡意域名與良性域名的比例影響。文獻(xiàn)[11]利用決策樹(shù)、K?近鄰、Bayesian、隨機(jī)森林(RF)、支持向量機(jī)(SVM)、多層神經(jīng)網(wǎng)絡(luò)(MLP)對(duì)采用三種不同特征的惡意URLs數(shù)據(jù)集進(jìn)行檢測(cè),發(fā)現(xiàn)對(duì)于同樣的數(shù)據(jù)集,不同特征集的檢測(cè)結(jié)果亦會(huì)不同。
2 ?方 ?法
2.1 ?特征提取
對(duì)URLs的時(shí)間特征、語(yǔ)法特征、結(jié)構(gòu)特征、概率特征等進(jìn)行概括分析,充分挖掘惡意URLs的相關(guān)特征,提高惡意URLs檢測(cè)的準(zhǔn)確率。
1) 時(shí)間特征
基于URLs被訪問(wèn)時(shí)間戳,統(tǒng)計(jì)特定時(shí)間片內(nèi)的通信頻度和散度。
2) 語(yǔ)法特征
IETF Request For Comment 1738(RFC1738)規(guī)定了URL的形式:
3) 結(jié)構(gòu)特征
URL在結(jié)構(gòu)上大致分為協(xié)議、域名、路徑、文件名、參數(shù)五個(gè)主要部分,每個(gè)部分都具有相應(yīng)的規(guī)則及習(xí)慣性用法。本文考慮多種結(jié)構(gòu)特征,包括從URL總體角度選取的特征:總長(zhǎng)度;是否以特殊字符結(jié)尾;大寫字母數(shù)量;數(shù)字?jǐn)?shù)量;連續(xù)數(shù)字的最大長(zhǎng)度;連續(xù)字母的最大長(zhǎng)度;超長(zhǎng)字串的最大長(zhǎng)度;重復(fù)出現(xiàn)的[n]元字串?dāng)?shù)量和;字符"?",“=”,“&”的數(shù)量及關(guān)系。從域名角度選取的特征:總長(zhǎng)度;級(jí)數(shù);最長(zhǎng)字串長(zhǎng)度;是否包含IP地址。從路徑角度選取的特征:是否含有域名;級(jí)數(shù);最長(zhǎng)級(jí)路徑占路徑長(zhǎng)度之比。從文件名角度選取的特征:文件名是否包含兩級(jí)以上擴(kuò)展名。
4) 概率特征
主要涉及各類字符的[n]?元組占比,包括:URL中數(shù)字字符占比;URL中數(shù)字與字母的轉(zhuǎn)換頻次;URL中元音與輔音字符比例;URL中元組在負(fù)向數(shù)據(jù)集概率和;URL中元組在正向數(shù)據(jù)集概率和;域名最長(zhǎng)級(jí)串占域名比例;域名中不同種類的字符所占域名比例;域名中相對(duì)安全字符所占比例。
2.2 ?機(jī)器學(xué)習(xí)方法選取
定義特征映射函數(shù)[f:U→F={T,A,P,H}]:對(duì)每條URL記錄,將其分別映射時(shí)間子向量[T={t1,t2,…,tm}]、結(jié)構(gòu)子向量[A={a1,a2,…,an}]、概率子向量[P={p1,p2,…,pr}]和語(yǔ)法子向量[H={h1,h2,…,hq}]。采用有監(jiān)督學(xué)習(xí)方法實(shí)驗(yàn)評(píng)估,記錄標(biāo)志位為[L],每條輸入數(shù)據(jù)的結(jié)構(gòu)為[V={F,L}={vii=0,…,m+n+r+q}]。
各類機(jī)器學(xué)習(xí)方法在網(wǎng)絡(luò)安全事件檢測(cè)中已有大量研究,主流方法包括J48決策樹(shù)、RF、貝葉斯、樸素貝葉斯、支持向量機(jī)(SVM)等。J48決策樹(shù)采用自上而下的遞歸分治策略,從根節(jié)點(diǎn)隨特征逐個(gè)加入從而遞歸產(chǎn)生分支。RF基于多決策樹(shù)實(shí)現(xiàn),通過(guò)隨機(jī)選取數(shù)據(jù)集和特征集構(gòu)建多個(gè)決策樹(shù),以多決策樹(shù)的投票結(jié)果確定分類。隨機(jī)樹(shù)(RT)通過(guò)隨機(jī)選取[n]個(gè)特征,并計(jì)算信息增益,選擇信息增益最大的節(jié)點(diǎn)為分裂節(jié)點(diǎn),重復(fù)此過(guò)程完成樹(shù)的構(gòu)造和分類。Bayes網(wǎng)絡(luò)基于概率推理,通過(guò)計(jì)算某對(duì)象的先驗(yàn)概率和似然計(jì)算該對(duì)象的后驗(yàn)概率即歸屬類別。
2.3 ?特征選擇
特征選擇的主要目的是從一個(gè)高維特征空間中遴選一組更小數(shù)目、更小失真的特征,以加速分類器的計(jì)算。上述時(shí)間特征、語(yǔ)法特征、結(jié)構(gòu)特征和概率特征從多角度對(duì)URLs的特點(diǎn)進(jìn)行了表達(dá),這些特征既要足以顯著區(qū)分惡意URLs與良性URLs,也不可避免地存在不相關(guān)或噪聲特征。為此對(duì)初步遴選的上述特征進(jìn)一步進(jìn)行選擇以實(shí)現(xiàn)特征空間降維。針對(duì)本文惡意URLs檢測(cè)問(wèn)題,特征選擇操作的形式化描述如下:對(duì)于數(shù)據(jù)集[V={F,L}],其中,[F={f1,f2,…,fn}]是[n]個(gè)特征,特征選擇過(guò)程就是從[F]中選擇[m]個(gè)([m 特征選擇算法的方法很多,理想化方法是窮舉法,針對(duì)[n]個(gè)特征的[2n]種組合方式得到的特征子集進(jìn)行評(píng)估,選擇最優(yōu)的特征組合方式。對(duì)于多維特征空間,窮舉法因其巨大的時(shí)間和空間消耗基本不可行。實(shí)際應(yīng)用的特征選擇算法總體上可分為過(guò)濾式(Filter)、封裝式(Wrapper)和嵌入式(Embedded)三大類。因本文初選的特征數(shù)量偏多,封裝式和嵌入式方法計(jì)算復(fù)雜度高且依賴分類器,普適性有限,因而選擇計(jì)算速度更快、更適合大規(guī)模數(shù)據(jù)處理的過(guò)濾式方法,包括信息增益(IG)、信息增益率(GR)、卡方校驗(yàn)(CHI)、基于OneR分類器的特征選擇(OneR)、基于Relief值的特征選擇(Relief)、基于相關(guān)性的特征選擇(CAE)和基于關(guān)聯(lián)規(guī)則的特征選擇(CFS)。 3 ?實(shí)驗(yàn)與分析 3.1 ?數(shù)據(jù)集 分別選取PhishTank和Alexa中相關(guān)數(shù)據(jù)作為實(shí)驗(yàn)用正、負(fù)URLs數(shù)據(jù)集。PhishTank作為一個(gè)反釣魚網(wǎng)站,自2006年建立以來(lái)每天都不斷地更新大量釣魚網(wǎng)站數(shù)據(jù),本文從其獲取大量惡意URLs作為惡意數(shù)據(jù)集。Alexa包含最詳盡的網(wǎng)站排名信息,該排名是基于網(wǎng)站的用戶鏈接數(shù)和頁(yè)面瀏覽數(shù)綜合得到的。一般來(lái)說(shuō),網(wǎng)站的瀏覽率越大排名越靠前,其網(wǎng)站內(nèi)所包含的鏈接被訪問(wèn)的概率以及頻次越高,鏈接所對(duì)應(yīng)網(wǎng)站的安全性也就越高。因此,本文提取Alexa排名靠前的網(wǎng)站,爬取其頁(yè)面內(nèi)的URLs記錄構(gòu)成實(shí)驗(yàn)用良性URLs數(shù)據(jù)。 為保證爬取過(guò)程的快捷、高效以及數(shù)據(jù)的完整性,以python為基礎(chǔ),結(jié)合BeautifulSoup完成網(wǎng)站內(nèi)記錄的爬取工作,并采用正則表達(dá)式過(guò)濾,匹配得到符合條件的記錄,以確保獲取的記錄符合URL規(guī)范而非頁(yè)面內(nèi)資源鏈接。 對(duì)于數(shù)據(jù)集規(guī)模,參照文獻(xiàn)[4,12]的實(shí)驗(yàn)成果,在盡可能減少特征沖突的情況下,100 000條的數(shù)據(jù)量可以獲得最好的分類結(jié)果。本文基于Alexa網(wǎng)站排名和網(wǎng)頁(yè)爬取,隨機(jī)選取56 500條記錄構(gòu)成正向URLs數(shù)據(jù)集,從PhishTank中選取2016年11月—2017年8月的50 042條記錄構(gòu)成負(fù)向數(shù)據(jù)集。 3.2 ?特征選擇 本文面向惡意URLs檢測(cè)初選了34項(xiàng)相關(guān)靜態(tài)特征,將該特征集記為F1。采用IG,GR,oneR,Relief,CHI,CAE,CFS方法在F1上進(jìn)行特征選擇。 對(duì)上述方法的特征選擇結(jié)果分析發(fā)現(xiàn):IG,OneR,CHI三種方法的前22項(xiàng)特征高度一致,尤其是IG和CHI兩種方法的評(píng)估結(jié)果只存在細(xì)微差異,本文選擇此特征子集作為特征選擇的結(jié)果之一,記為F2。同時(shí)以22為特征空間維度,選取GR選擇的前22項(xiàng)構(gòu)成特征子集F3,Relief選擇的前22項(xiàng)構(gòu)成特征子集F4,CAE選擇的前22項(xiàng)構(gòu)成特征子集F5。 進(jìn)一步的檢測(cè)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn):特征子集F2,F(xiàn)3,F(xiàn)4均產(chǎn)生了良好的檢測(cè)結(jié)果,取其公共特征構(gòu)成維度更低的特征子集F6。同時(shí)考慮到生成F2~?F5特征子集時(shí),各算法在評(píng)估時(shí)均是基于單變量的評(píng)估準(zhǔn)則,未考慮到多變量特征間可能存在的相互依賴關(guān)系,從而特征子集中可能包含冗余特征。為此再選取CFS評(píng)估算法,以上述特征空間為基礎(chǔ)進(jìn)行特征優(yōu)化,通過(guò)結(jié)合GreedyStepwise搜索策略,CFS從大量的特征空間中選取5項(xiàng)特征構(gòu)成特征子集F7。各特征子集包含的特征如表1所示。 3.3 ?機(jī)器學(xué)習(xí) 對(duì)上述各特征選擇算法確定的特征子集,利用J48,RF,RT,Bayes等方法實(shí)現(xiàn)惡意URLs檢測(cè),結(jié)果如表2所示。表1 ?特征選擇算法選擇結(jié)果
IG F2 時(shí)間、最大子路徑長(zhǎng)度、域名分割后最長(zhǎng)字串長(zhǎng)度占域名比例、url中超長(zhǎng)字串的最大長(zhǎng)度、url長(zhǎng)度、域名分割后最長(zhǎng)字串長(zhǎng)度、二元組和在惡意集、數(shù)字字母的轉(zhuǎn)換頻次、保留字符數(shù)、數(shù)字?jǐn)?shù)量比例、url中連續(xù)字母最大長(zhǎng)度、元輔音比、域名級(jí)數(shù)、url中數(shù)字?jǐn)?shù)量、域名大小、[n]元字符串重復(fù)頻次、大寫字母數(shù)、域名中不同字符種類占比、路徑級(jí)數(shù)、二元組和在良性集、url中連續(xù)數(shù)字最大長(zhǎng)度、其他字符數(shù) CHI OneR
GR F3 時(shí)間、&的數(shù)量與=的數(shù)量關(guān)系、結(jié)尾字符、域名級(jí)數(shù)、數(shù)字字母的轉(zhuǎn)換頻次、大寫字母數(shù)、&數(shù)量、url中超長(zhǎng)字串的最大長(zhǎng)度、最大子路徑長(zhǎng)度、域名分割后最長(zhǎng)字串長(zhǎng)度、保留字符數(shù)、非不安全字符比例、文件是否包含兩級(jí)以上擴(kuò)展名、url中連續(xù)數(shù)字最大長(zhǎng)度、路徑級(jí)數(shù)、域名分割后最長(zhǎng)字串長(zhǎng)度占域名比例、url中連續(xù)字母最大長(zhǎng)度數(shù)字?jǐn)?shù)量比例、二元組和在惡意集、不安全字符數(shù)、url中數(shù)字?jǐn)?shù)量、url長(zhǎng)度 Relief F4 時(shí)間、域名分割后最長(zhǎng)字串長(zhǎng)度占域名比例、域名中不同字符種類占比、最大子路徑長(zhǎng)度、數(shù)字?jǐn)?shù)量比例、元輔音比、url中連續(xù)字母最大長(zhǎng)度、保留字符數(shù)、域名大小、路徑級(jí)數(shù)、域名級(jí)數(shù)、url中連續(xù)數(shù)字最大長(zhǎng)度、二元組和在良性集、&數(shù)量、域名分割后最長(zhǎng)字串長(zhǎng)度、二元組和在惡意集、等號(hào)數(shù)量、url中數(shù)字?jǐn)?shù)量、域名中數(shù)字?jǐn)?shù)量、其他字符數(shù)、&的數(shù)量與=的數(shù)量關(guān)系、結(jié)尾字符 CAE F5 域名分割后最長(zhǎng)字串長(zhǎng)度占域名比例、域名分割后最長(zhǎng)字串長(zhǎng)度、url中連續(xù)字母最大長(zhǎng)度、保留字符數(shù)、二元組和在惡意集、元輔音比、數(shù)字?jǐn)?shù)量比例、路徑級(jí)數(shù)、url中數(shù)字?jǐn)?shù)量、url長(zhǎng)度、域名大小、url中超長(zhǎng)字串的最大長(zhǎng)度、數(shù)字字母的轉(zhuǎn)換頻次、等號(hào)數(shù)量、域名級(jí)數(shù)、url中連續(xù)數(shù)字最大長(zhǎng)度、&數(shù)量、&的數(shù)量與=的數(shù)量關(guān)系、?數(shù)量是否為零、域名中數(shù)字?jǐn)?shù)量、其他字符數(shù) 綜合 F6 時(shí)間、保留字符數(shù)、其他字符數(shù)、url中連續(xù)數(shù)字最大長(zhǎng)度、url中連續(xù)字母最大長(zhǎng)度、url中數(shù)字?jǐn)?shù)量、數(shù)字?jǐn)?shù)量比例、二元組和在惡意集、二元組和在良性集、域名級(jí)數(shù)、域名分割后最長(zhǎng)字串長(zhǎng)度、域名分割后最長(zhǎng)字串長(zhǎng)度占域名比例、域名中不同字符種類占比、路徑級(jí)數(shù)、最大子路徑長(zhǎng)度 CFS F7 時(shí)間、數(shù)字字母的轉(zhuǎn)換頻次、&的數(shù)量與=的數(shù)量關(guān)系、域名級(jí)數(shù)、最大子路徑長(zhǎng)度 ]
由表2可以發(fā)現(xiàn):特征子集F1,F(xiàn)2,F(xiàn)3,F(xiàn)4均具有良好的檢測(cè)效果,RF,J48,RT方法的準(zhǔn)確率均達(dá)到了99%以上,Bayes方法稍遜,但達(dá)到94.5%,子集F3,F(xiàn)4準(zhǔn)確率還超過(guò)96%。
表3綜合上述特征子集F1~F7的分類結(jié)果,以F?measure標(biāo)準(zhǔn)為參考??芍蛹疐5的結(jié)果并不理想,不適用于本文問(wèn)題。子集F2,F(xiàn)3,F(xiàn)4的分類性能雖均呈現(xiàn)輕微變化,但增減并不明顯,說(shuō)明特征選擇的結(jié)果是有效的。針對(duì)縮減特征子集的變量數(shù)量的能力,子集F6和F7的選擇結(jié)果更優(yōu)。其中,子集F6包含15項(xiàng)特征,較子集F1的34項(xiàng)特征有顯著減少,可有效降低學(xué)習(xí)過(guò)程中的計(jì)算復(fù)雜度并提升計(jì)算速度。對(duì)于F6,基于RF和RT的分類性能僅有0.001和0.006的微小減少,Bayes甚至有0.026的提升,說(shuō)明綜合各類方法的子集F6具有更好的代表性,能夠有效去除學(xué)習(xí)過(guò)程中冗余、弱相關(guān)及貢獻(xiàn)率較小的特征。
對(duì)于子集F5,由于CAE的選擇評(píng)估標(biāo)準(zhǔn)依賴于單個(gè)特征與類別間的相關(guān)程度,評(píng)估值高的特征對(duì)于類別區(qū)分具有良好貢獻(xiàn),但是這也會(huì)造成相似特征會(huì)被同時(shí)選擇,維度限制下,子集中特征相關(guān)性過(guò)高,整體貢獻(xiàn)力有限。而子集F6則綜合多種特征選擇方法,有效避免了這一情況的發(fā)生。同時(shí),子集F7相比于子集F5的未考慮子集特征間的相關(guān)性及子集F6的綜合提取不僅評(píng)估了單個(gè)特征的貢獻(xiàn)能力并一同評(píng)估特征間的相關(guān)性,在降維的同時(shí),最大限度地維持子集的整體貢獻(xiàn)值。所以,子集F7表現(xiàn)出更優(yōu)性能。由表3可知,相對(duì)于子集F6,F(xiàn)7較F1的變化更加微小。實(shí)際上,子集F7僅包含了時(shí)間、數(shù)字與字母的轉(zhuǎn)換頻次、&與=的數(shù)量關(guān)系、域名級(jí)數(shù)、最長(zhǎng)子路徑長(zhǎng)度5個(gè)特征,特征空間維度大幅下降,但檢測(cè)準(zhǔn)確率均高達(dá)99%,表明該特征子集適用于多類型分類器,具有普適性,是一組優(yōu)秀的廣譜特征。
特征選擇的目的是為了在盡可能維持特征可理解性的基礎(chǔ)上降低特征空間維度,同時(shí)適度增加特征子集的可擴(kuò)展性及普適性。這就要求所選擇的特征子集適用于多種學(xué)習(xí)算法。由表4可知,子集F1~F4,F(xiàn)6,F(xiàn)7均具有良好的檢測(cè)結(jié)果,各個(gè)分類器的平均準(zhǔn)確率均超越了98%。同時(shí),綜合特征子集空間維度可以發(fā)現(xiàn)子集F6和F7達(dá)到更優(yōu)的結(jié)果。F6子集的空間維度比F1減少了55.9%,F(xiàn)7子集平均準(zhǔn)確率上升至99.15%,相對(duì)于子集F1~F5具有更優(yōu)的性能。
4 ?結(jié) ?語(yǔ)
基于特征的惡意URLs的檢測(cè)方法具有良好的性能,適于規(guī)?;渴?,這得力于檢測(cè)特征的及時(shí)有效提取?;谠~匯、主機(jī)、域名等都可以提取出大量特征,它們的區(qū)分能力參差不一,有些特征在某些應(yīng)用場(chǎng)合甚至?xí)蔀樵肼晹?shù)據(jù),從而導(dǎo)致分類器在訓(xùn)練時(shí)產(chǎn)生過(guò)擬合現(xiàn)象。本文通過(guò)對(duì)IG,GR,Relief,CHI,CAE,CFS,OneR特征選擇算法所遴選的結(jié)果特征在分類中的性能比較,確定了一個(gè)維度低、分類準(zhǔn)確率高的特征子集,有效地減少了特征數(shù)量,降低了特征空間維度,既有利于降低計(jì)算復(fù)雜度,也能有效避免過(guò)擬合現(xiàn)象的出現(xiàn)。同時(shí),該特征子集適用于J48,RF,Bayes等多種類型的分類器,具有良好的泛化能力及普適性。另外,選用的特征選擇算法在對(duì)特征空間進(jìn)行降維的同時(shí)維持了特征的可理解性?,F(xiàn)有工作可以有效提高網(wǎng)頁(yè)訪問(wèn)的安全性,下一步將充實(shí)初始特征空間,針對(duì)靜態(tài)和動(dòng)態(tài)特征探索性能更優(yōu)的特征子集。
參考文獻(xiàn)
[1] 胡蓓蓓,彭艷兵,程光.基于Counting Bloom Filter的DNS異常檢測(cè)[J]. 計(jì)算機(jī)工程與應(yīng)用,2014,50(15):82?86.
HU Beibei, PENG Yanbing, CHENG Guang. DNS anomaly detection based on Counting Bloom Filter [J]. Computer enginee?ring and applications, 2014, 50(15): 82?86.
[2] KWON J, LEE J, LEE H, et al. PsyBoG: a scalable botnet detection method for large?scale DNS traffic [J]. Computer networks, 2016, 97: 48?73.
[3] 張維維,龔儉,劉茜,等.基于詞素特征的輕量級(jí)域名檢測(cè)算法[J].軟件學(xué)報(bào),2016,27(9):2348?2364.
ZHANG Weiwei, GONG Jian, LIU Qian, et al. Lightweight domain name detection algorithm based on morpheme features [J]. Journal of software, 2016, 27(9): 2348?2364.
[4] FEROZ M N, MENGEL S. Examination of data, rule generation and detection of phishing URLs using online logistic regression [C]// 2014 IEEE International Conference on Big Data. Washington, DC: IEEE, 2014: 241?250.
[5] AZEEZ N A, OLUWATOSIN A. CyberProtector: identifying compromised URLs in electronic mails with Bayesian classification [C]// 2016 International Conference on Computational Science and Computational Intelligence. Las Vegas: IEEE, 2017: 959?965.
[6] ALGHAMDI B, WATSON J, XU Y. Toward detecting malicious links in online social networks through user behavior [C]// 2016 International Conference on Web Intelligence Workshops. Omaha: IEEE, 2016: 5?8.
[7] 武小年,彭小金,楊宇洋,等.入侵檢測(cè)中基于SVM的兩級(jí)特征選擇方法[J].通信學(xué)報(bào),2015,36(4):23?30.
WU Xiaonian, PENG Xiaojin, YANG Yuyang, et al. Two?level feature selection method based on SVM for intrusion detection [J]. Journal on communications, 2015, 36(4): 23?30.
[8] 張浩.網(wǎng)絡(luò)數(shù)據(jù)特征選擇的優(yōu)化方法研究與仿真[J].計(jì)算機(jī)仿真,2017(2):367?370.
ZHANG Hao. Network data feature selection research and simulation optimization method [J]. Computer simulation, 2017(2): 367?370.
[9] DEMISSE G B, TADESSE T, BAYISSA Y. Data mining attribute selection approach for drought modeling: a case study for greater horn of Africa [J]. International journal of data mining & knowledge management process, 2017, 7(4): 1?16.
[10] DAEEF A Y, AHMAD R B, YACOB Y, et al. Wide scope and fast websites phishing detection using URLs lexical features [C]// 2017 International Conference on Electronic Design. Phuket: IEEE, 2017: 410?415.
[11] VANHOENSHOVEN F, N?POLES G, FALCON R, et al. Detecting malicious URLs using machine learning techniques [C]// 2016 IEEE Symposium Series on Computational Intelligence. Athens: IEEE, 2016: 1?8.
[12] AKIYAMA M, YAGI T, YADA T, et al. Analyzing the ecosystem of malicious URL redirection through longitudinal observation from honeypots [J]. Computers & security, 2017, 69: 155?173.