基于聯(lián)合特征的釣魚網(wǎng)頁分類方法

2018-03-21 09:07賈雪鵬容曉峰

電子技術(shù)與軟件工程 2018年2期

賈雪鵬容曉峰

摘要本文系統(tǒng)地描述了一種基于聯(lián)合特征的釣魚網(wǎng)頁檢測方法。提取了41項特征作為基礎(chǔ)特征，結(jié)合信息增益和遞歸特征刪除兩種方法的排序結(jié)果計算特征重要度。引入聯(lián)合特征率R（0

【關(guān)鍵詞】機器學(xué)習(xí) 釣魚網(wǎng)頁檢測聯(lián)合特征最優(yōu)分類模型

1 簡介

釣魚網(wǎng)頁攻擊指騙者制作的一個模仿合法組織網(wǎng)站的網(wǎng)頁，將引誘用戶訪問這個網(wǎng)頁，并在網(wǎng)頁上呈現(xiàn)出請求用戶私密信息的輸入字段，如登錄個人網(wǎng)上銀行賬戶的詳細(xì)信息。網(wǎng)絡(luò)釣魚攻擊危害嚴(yán)重，在全球范圍內(nèi)，存在至少255，065次獨立的網(wǎng)絡(luò)釣魚攻擊。同比2015年發(fā)現(xiàn)的230，280次攻擊增加了超過10%。因此網(wǎng)絡(luò)釣魚防護和預(yù)測愈發(fā)成為網(wǎng)絡(luò)安全領(lǐng)域乃至整個互聯(lián)網(wǎng)發(fā)展的研究重點。綜上所述，論文主要針對釣魚網(wǎng)頁檢測研究一種基于聯(lián)合特征的機器學(xué)習(xí)分類方法，探究特征種類和數(shù)量對機器學(xué)習(xí)分類模型的影響。

為了提取最具網(wǎng)頁表示性的特征，從三種來源進行提?。?/p>

（1）URL鏈接特征。研究最多的是提取URL詞匯和主機特征；

（2）網(wǎng)頁內(nèi)容特征。網(wǎng)頁內(nèi)容決定了網(wǎng)頁的性質(zhì)，對于網(wǎng)頁內(nèi)容的特征分為兩個部分：頁面結(jié)構(gòu)特征和頁面文本特征。

（3）第三方服務(wù)信息特征。例如WHOIS信息和網(wǎng)頁排名。大多數(shù)啟發(fā)式方法基于機器學(xué)習(xí)分類算法對釣魚網(wǎng)頁進行檢測。其中包括邏輯回歸、SVM、樸素貝葉斯、決策樹、隨機森林、提升算法等。第2章將介紹數(shù)據(jù)集和特征的構(gòu)建、分類算法的選擇。第3章將通過實驗確定最優(yōu)分類算法，同時對比使用基礎(chǔ)特征和聯(lián)合特征對模型分類能力的影響作用。第4章總結(jié)論文的實驗成果。

2 特征工程

2.1 特征選擇

本章將對特征選擇和特征評估、數(shù)據(jù)集構(gòu)建和分類模型進行詳細(xì)的介紹。論文選擇的URL鏈接特征主要包括：URL結(jié)構(gòu)特征和文本特征。論文提出的URL結(jié)構(gòu)特征包括：

（1）URL、domain、path、query的總長度、最長token長度和token平均長度。

（2）URL中“.”，“/”，“@”，“-”和非字母的個數(shù)。

（3）URL中是否包含IP地址、敏感詞匯和目標(biāo)組織。

（4）http 或https。

（5）URL各部分的n-gram。

（6）數(shù)字/字母比例。網(wǎng)頁內(nèi)容特征包括：表單中的標(biāo)簽的個數(shù)和是否包括圖標(biāo)。第三方信息特征包括域名的注冊時間和基于Alexa排名的聯(lián)合得分。

2.2 聯(lián)合特征

引入聯(lián)合特征率R（0

3 實驗與結(jié)果

3.1 數(shù)據(jù)集

論文從PhishTank中提取釣魚網(wǎng)頁樣本，從DMOZ中提取合法網(wǎng)頁樣本。將收集到的釣魚網(wǎng)頁和合法網(wǎng)頁數(shù)據(jù)拆分成訓(xùn)練集（釣魚網(wǎng)頁15000；合法網(wǎng)頁20000）和測試集（釣魚網(wǎng)頁2000；合法網(wǎng)頁2000）兩部分。

3.2 最優(yōu)分類模型

3.2.1 基于基礎(chǔ)特征的模型對比

邏輯回歸、隨機森林、Adaboost、神經(jīng)網(wǎng)絡(luò)四種最優(yōu)參數(shù)模型的ROC_AUC值，曲線覆蓋面積越大表明模型分類能力越強。各種模型對釣魚網(wǎng)頁的分類能力（F1值）：隨機森林0.978> 神經(jīng)網(wǎng)絡(luò)MLP 0.968> Adaboost 0.960> 邏輯回歸0.887。隨機森林和神經(jīng)網(wǎng)絡(luò)MLP兩種非線性模型的表現(xiàn)明顯更加優(yōu)秀；而屬于線性模型的邏輯回歸表現(xiàn)不佳。

3.2.2基于聯(lián)合特征的模型對比

測試上節(jié)中四種最優(yōu)參數(shù)模型在不同聯(lián)合特征率R下的模型分類質(zhì)量。表1為在選擇不同聯(lián)合特征率的情況下四種分類模型的F1值，其中橫坐標(biāo)表示聯(lián)合特征率（0代表沒有做特征擴充），縱坐標(biāo)表示模型的F1值。

由表1得四種分類模型能力（最大F1值）：

（1）邏輯回歸模型0.903，基本不變。

（2）隨機森林模型0.983，是四種分類模型中的最優(yōu)模型，隨機森林分類能力隨著聯(lián)合特征率的增加有小規(guī)模提升。

（3）Adaboost模型0.961，基本不變。

（4）神經(jīng)網(wǎng)絡(luò)MLP 0.980，隨特征數(shù)的增加其分類能力逐步提升，說明特征數(shù)量和特征質(zhì)量對神經(jīng)網(wǎng)絡(luò)分類模型影響較大。

4 結(jié)論

論文主要通過三個主要階段：特征選擇、特征聯(lián)合、確定最優(yōu)分類模型，研究了基于聯(lián)合特征的釣魚網(wǎng)頁分類問題。主要成果：

（1）根據(jù)已有研究成果選擇了41個具有代表性的基礎(chǔ)特征。

（2）使用特征交叉方法對基礎(chǔ)特征進行特征擴充，引入聯(lián)合特征率R，R越大，重組的特征越多。

（3）分別根據(jù)基礎(chǔ)特征和不同聯(lián)合特征對比四種最優(yōu)參數(shù)模型，得出隨機森林分類能力最強，而神經(jīng)網(wǎng)絡(luò)模型的分類能力隨特征數(shù)的增多而增強，模型潛力巨大。

作者單位

西安工業(yè)大學(xué) 陜西省西安市 710021

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于聯(lián)合特征的釣魚網(wǎng)頁分類方法