王嘉卿,朱 焱,陳同孝,張真誠(chéng)
(1.西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,成都 611756; 2.臺(tái)中科技大學(xué) 資訊工程系,臺(tái)灣 臺(tái)中 404; 3.逢甲大學(xué) 資訊工程系,臺(tái)灣 臺(tái)中 407)(*通信作者電子郵箱yzhu@swjtu.edu.cn)
為了謀取高額利潤(rùn),部分網(wǎng)站建設(shè)者利用變化多端的非法手段欺騙搜索引擎,以提高網(wǎng)站的關(guān)鍵排名進(jìn)行網(wǎng)頁(yè)欺詐。尋找高效有力的欺詐網(wǎng)頁(yè)檢測(cè)方法極為重要。針對(duì)欺詐網(wǎng)頁(yè)的檢測(cè)是一個(gè)二元分類問(wèn)題(欺詐和正常),特征選擇和分類算法是研究的焦點(diǎn)。Goh等[1]通過(guò)實(shí)驗(yàn)證明分類結(jié)果強(qiáng)依賴于使用的特征集合,并且不同的分類器帶來(lái)的結(jié)果差異遠(yuǎn)小于不同的特征集合。本文側(cè)重于特征選擇,旨在找到最佳最小特征集合(Optimal Minimum Feature Set, OMFS),減小分類器計(jì)算代價(jià),提高檢測(cè)效率。
網(wǎng)頁(yè)基本特征包括鏈接特征,如:網(wǎng)頁(yè)的入度、出度、PageRank值[2]以及內(nèi)容特征,如:網(wǎng)頁(yè)單詞數(shù)、平均單詞長(zhǎng)度。對(duì)應(yīng)的網(wǎng)頁(yè)欺詐分為鏈接欺詐、內(nèi)容欺詐和隱藏型欺詐[3]。在使用網(wǎng)頁(yè)基本特征的基礎(chǔ)上,針對(duì)不同欺詐類型提取新特征,改進(jìn)分類算法是近年來(lái)國(guó)內(nèi)外學(xué)者研究的重點(diǎn),取得的成果也較為顯著。Araujo等[4]專注于網(wǎng)頁(yè)鏈接質(zhì)量分析,提取有效的基于鏈接的特征并構(gòu)建語(yǔ)義模型,最后結(jié)合代價(jià)敏感的決策樹(shù)分類器得到較高的真陽(yáng)性率(True Positive Rate, TPR)、F1值和受試者工作特征曲線面積(Area Under receiver operating Characteristic, AUC)。Ntoulas等[5]提出了多個(gè)基于內(nèi)容的特征,并結(jié)合分類器得到了良好的檢測(cè)結(jié)果。Kumar等[6]提出了一個(gè)雙邊多分類的超球面支持向量機(jī)模型(Dual-Margin Multi-Class Hypersphere Support Vector Machine, DMMH-SVM)和多個(gè)新型隱藏型特征。國(guó)內(nèi)學(xué)者也致力于欺詐網(wǎng)頁(yè)檢測(cè)研究。李法良等[7]針對(duì)內(nèi)容特征和鏈接特征,設(shè)計(jì)一種集成主成分分析(Principal Component Analysis, PCA)與支持向量機(jī)(Support Vector Machine, SVM)的檢測(cè)方法;基于鏈接和內(nèi)容的新特征被繼續(xù)提出,并應(yīng)用于欺詐網(wǎng)頁(yè)的檢測(cè)[8-9]。然而新特征的提取需要大量的鏈接和網(wǎng)頁(yè)內(nèi)容分析,研究成本昂貴,且網(wǎng)頁(yè)基本特征是高維且冗余的,直接使用會(huì)增加計(jì)算代價(jià),影響分類性能,因此,研究高效的特征選擇算法遴選網(wǎng)頁(yè)基本特征,在不降低欺詐網(wǎng)頁(yè)檢測(cè)率的基礎(chǔ)上,有效減小分類計(jì)算代價(jià),降低欺詐網(wǎng)頁(yè)檢測(cè)成本優(yōu)勢(shì)明顯。
Goh等[10]對(duì)不同類型的基本特征子集進(jìn)行組合挑選,并結(jié)合多種機(jī)器學(xué)習(xí)算法比較,得到表現(xiàn)最好的特征子集和分類器。驗(yàn)證實(shí)驗(yàn)在數(shù)據(jù)集WEBSPAM-UK2007[4-11]上進(jìn)行,結(jié)果表明基于內(nèi)容和轉(zhuǎn)換鏈接的特征組合,在隨機(jī)森林(Random Forest, RF)中取得最高的AUC為0.850。Karimpour等[11]同樣關(guān)注特征選擇,應(yīng)用傳統(tǒng)的遺傳算法(Traditional Genetic Algorithm, TGA)和帝國(guó)主義競(jìng)爭(zhēng)算法(Imperialist Competitive Algorithm, ICA)找到基于基本內(nèi)容特征的optimal subset來(lái)減小分類器的計(jì)算代價(jià)。特征有效性同樣在WEBSPAM-UK2007數(shù)據(jù)上得到驗(yàn)證。結(jié)果表明,optimal subset在貝葉斯網(wǎng)絡(luò)(Bayes Net, BN)中的F1值從0.854增加為0.876。
本文與上述方法的不同之處在于:上述基于新特征提取和分類算法改進(jìn)的方法直接使用高維的網(wǎng)頁(yè)基本特征,增加了分類算法的計(jì)算代價(jià),檢測(cè)成本較高;而特征選擇的方法沒(méi)有對(duì)網(wǎng)頁(yè)基本特征進(jìn)行深入、全面的遴選,最終得到的特征集合維度仍然較高。本文方法除了考慮內(nèi)容和鏈接兩類特征外,對(duì)基于信息增益(Information Gain, IG)算法和遺傳算法(Genetic Algorithm, GA)的特征選擇算法作改進(jìn),尋找OMFS并在一個(gè)廣泛使用的標(biāo)準(zhǔn)欺詐網(wǎng)頁(yè)數(shù)據(jù)集,WEBSPAM-UK2007上進(jìn)行分類結(jié)果的對(duì)比與驗(yàn)證。在保證檢測(cè)準(zhǔn)確率不下降的同時(shí),最大限度地減小分類器的計(jì)算代價(jià),提高檢測(cè)效率。文獻(xiàn)[12]中指出,在欺詐網(wǎng)頁(yè)檢測(cè)中,評(píng)價(jià)指標(biāo)AUC比其他指標(biāo)更穩(wěn)定,本文主要的評(píng)價(jià)指標(biāo)為AUC、F1值作為參考。
(1)
遺傳算法(GA)[14]基于達(dá)爾文生物進(jìn)化論中的自然選擇和遺傳過(guò)程,它是一種性能突出的特征選擇算法。隨機(jī)搜索的方式和根據(jù)適應(yīng)值優(yōu)勝劣汰保證了算法不會(huì)陷入局部最優(yōu)。
參與遺傳算法的初始種群由隨機(jī)產(chǎn)生的一組染色體構(gòu)成,在迭代中通過(guò)遺傳算子生成更優(yōu)的種群。其中,選擇算子根據(jù)適應(yīng)值挑選一定比例的染色體,而交叉算子和變異算子被用來(lái)生成新的種群。當(dāng)適應(yīng)值達(dá)到最大閾值或迭代次數(shù)達(dá)到最大時(shí)算法停止,具有最佳適應(yīng)值的染色體就被解碼為最優(yōu)特征子集。通常,分類問(wèn)題中的適應(yīng)值可以設(shè)置為一般的分類評(píng)價(jià)指標(biāo)。而如何將染色體解碼為特征集合也是遺傳算法在特征選擇中至關(guān)重要的因素。
二進(jìn)制編碼是研究中最常使用的方法,其中染色體中的每個(gè)基因?qū)?yīng)一個(gè)二進(jìn)制位,“1”表示特征被選擇,“0”表示未被選擇?,F(xiàn)在希望從含有nF個(gè)特征的集合中選出gn個(gè)有效特征形成一個(gè)特征子集(Selected Feature set by GA, GSF)。圖1為遺傳算法某一次迭代隨機(jī)生成的染色體,省略位均為“0”。假設(shè)nF=200,gn=5,則此時(shí)GSF={f130,f45,f1,f11,f77},但是當(dāng)nF足夠大,gn又較小時(shí),染色體會(huì)變得稀疏而冗長(zhǎng),這不利于算法的高效率。
圖1 遺傳算法某一次迭代隨機(jī)生成的染色體
Fig. 1 Randomly generated chromosomes in one iteration of GA
遺傳算法是自組織、自適應(yīng)和自學(xué)習(xí)的算法。針對(duì)網(wǎng)頁(yè)欺詐檢測(cè)的高維特征作特征選擇,遺傳算法可以有效地收斂,有助于更快、更有效地得到OMFS。
為了減小網(wǎng)頁(yè)欺詐檢測(cè)中分類器的計(jì)算代價(jià),提出了一個(gè)集成信息增益和改進(jìn)的遺傳算法的特征選擇算法(Improved Feature Selection algorithm Based on Information Gain and Genetic Algorithm, IFS-BIGGA)。首先運(yùn)用IG,通過(guò)動(dòng)態(tài)閾值策略移除部分冗余特征,加速特征子集的收斂(參考算法1),輸出的新特征集FS′成為改進(jìn)遺傳算法的輸入。然后通過(guò)改進(jìn)GA中的染色體的編碼方式和選擇算子,輸出最小特征集(Minimum Feature Set, MFS),最后考慮到算法的穩(wěn)定性,從多次實(shí)驗(yàn)的MFS中選擇OMFS。
首先,動(dòng)態(tài)閾值策略主要指對(duì)IG排序后的特征序列,通過(guò)實(shí)驗(yàn)動(dòng)態(tài)選擇合適的閾值T,刪除IG值小于T的特征。為了找到一個(gè)優(yōu)秀的特征集合FS′,不僅含有適量的特征,而且具有較高的AUC和TPR,T的設(shè)置極為重要,因此,式(2)定義了一個(gè)加權(quán)指標(biāo)WS來(lái)權(quán)衡特征數(shù)量、AUC和TPR。其中:w1,w2和w3是按需可調(diào)節(jié)權(quán)重參數(shù),card(FS′)表示FS′中的特征數(shù)量。auc和tpr表示針對(duì)不同的T生成的FS′,使用RF獲取相應(yīng)的AUC和TPR。WS越大,說(shuō)明此時(shí)的T對(duì)應(yīng)篩選的特征集合表現(xiàn)越好;然后,針對(duì)GA的改進(jìn),為方便后續(xù)說(shuō)明,式(3)給出了2.2節(jié)中提到的常用二進(jìn)制編碼函數(shù),其中:nF是FS′中的特征數(shù)量;G表示一條采用二進(jìn)制編碼的染色體;fn代表FS′中的特征。
WS=w1×auc+w2×tpr-w3×0.001×card(FS′)
(2)
(3)
G′(m)=Binary(GSF[m]);m=1,2,…,gn,
n=1,2,…,nF
(4)
算法1 特征選擇——信息增益。
Input:原特征集合FS,閾值T。
Output:經(jīng)過(guò)信息增益的特征子集FS′。
ForFS中的每個(gè)特征f
根據(jù)式(1)計(jì)算信息增益KLD(f)
若KLD(f) 從FS中移除f end for 剩余特征組成FS′ ReturnFS′ 定義cl為染色體長(zhǎng)度,式(3)的cl為nF。cl足夠長(zhǎng)時(shí),遺傳算法迭代耗時(shí)加長(zhǎng),考慮到算法的效率和染色體的稀疏表示改進(jìn)編碼函數(shù),如式(4)所示。GSF[m]表示GSF中的第m個(gè)元素,同時(shí)也代表FS′中的特征f(GSF[m])。與式(3)中G不同的是,G′表示FS′中的特征編號(hào)的二進(jìn)制編碼。為了能取到FS′中的所有特征,(?lbnF」+1)比特被用來(lái)表示一個(gè)基因(特征),此時(shí)cl減小為(?lbnF」+1)×gn。染色體長(zhǎng)度的減小顯著降低了遺傳算法的計(jì)算消耗,幫助更快收斂到最小特征集合。 圖2給出了圖1示例在式(4)下的編碼,可以看到,cl已從200減小為40。算法2給出了改進(jìn)后染色體編碼的具體實(shí)現(xiàn)。由于遺傳算法中的交叉和變異具有隨機(jī)性,設(shè)定溢出重復(fù)查錯(cuò)機(jī)制,以避免式(4)產(chǎn)生的二進(jìn)制組合超出特征集合的長(zhǎng)度或互相重復(fù)。同時(shí),所提方法中g(shù)n可變,增加了MFS的客觀性。 圖2 改進(jìn)染色體編碼示例 算法2 染色體的新編碼方式。 Input:特征數(shù)量nF,挑選的特征子集大小gn。 Output:染色體c。 1) 定義gl=(?lbnF」+1) 2) 通過(guò)式(4)隨機(jī)產(chǎn)生基因g的編碼,轉(zhuǎn)成十進(jìn)制D(g) 3) 溢出重復(fù)查錯(cuò): 若D(g)>nF 回到步驟2),重新生成g 4) 重復(fù)步驟2)~3)直到生成gn×gl個(gè)合法基因 5) 將基因組合成一條染色體c 6) Returnc IFS-BIGGA采用AUC作為適應(yīng)度函數(shù),Auc(c)表示一次進(jìn)化過(guò)程中某條染色體c所獲得的分類AUC。算法3給出了IFS-BIGGA的完整描述,其中:cp是一個(gè)記錄進(jìn)化代數(shù)的累加指針;mp表示最大迭代次數(shù);ips是算法的初始種群大小。當(dāng)cp累加達(dá)到mp時(shí),算法終止,輸出MFS。 算法3 IFS-BIGGA。 Input:迭代計(jì)數(shù)指針cp,最大迭代次數(shù)mp,初始種群大小ips,特征集合FS′。 Output:最佳特征集合MFS。 初始化指針cp=0 定義一代中的最大AUC為best-fitness 定義具有最大AUC的染色體為best-cho 重復(fù)算法2,直到生成ips條染色體,構(gòu)成初始種群P(cp) 重復(fù)執(zhí)行遺傳算子 選擇、交叉、變異 計(jì)數(shù)器加1:cp←cp+1 直到cp=mp 根據(jù)最終的best-cho解碼出最佳特征集合MFS ReturnMFS 選擇、交叉和變異是遺傳算法的核心算子,考慮遺傳算法的運(yùn)行效率和收斂速度,本文對(duì)選擇算子的改進(jìn)主要結(jié)合了輪賭選擇策略和最佳個(gè)體保存策略,算法4給出了具體實(shí)現(xiàn)。 算法4 選擇操作。 Input:種群P;best-fitness;best-cho。 Output:選擇后的種群PBS,更新后的best-fitness和best-cho。 對(duì)于一代中的每個(gè)個(gè)體,計(jì)算對(duì)應(yīng)的AUC,若大于前一代保存的best-fitness,則更新best-fitness和best-cho 據(jù)AUC值計(jì)算選擇概率和累積概率 對(duì)于每個(gè)非best-cho個(gè)體,生成隨機(jī)數(shù)r,若累計(jì)概率大于r,保存該個(gè)體到PBS中 將best-cho保存到PBS中 ReturnPBS 輪賭選擇時(shí),選擇算子根據(jù)AUC,計(jì)算每個(gè)個(gè)體的選擇概率和累積概率。為了保證公平性,在選擇良好個(gè)體時(shí),產(chǎn)生符合0~1均勻分布的隨機(jī)數(shù)r,當(dāng)累積概率大于r時(shí),該個(gè)體被保留;但是隨著迭代次數(shù)增多,交叉和變異可能會(huì)破壞最佳個(gè)體,即適應(yīng)度最好的染色體,導(dǎo)致進(jìn)入下一代的個(gè)體平均AUC下降,因此結(jié)合最佳個(gè)體保存策略,在輪賭選擇的第1)步,保存AUC最高的個(gè)體直接進(jìn)入下一輪迭代,然后再進(jìn)行后續(xù)的選擇操作。另外,交叉算子是染色體隨機(jī)交換基因的操作,選擇與鄰居染色體單點(diǎn)交叉;同時(shí),根據(jù)經(jīng)驗(yàn)設(shè)置交叉率控制交叉的比例,防止染色體信息過(guò)度丟失,最后得到選擇操作的同代染色體種群。變異算子的作用對(duì)象為基因,由于參與變異的基因不宜過(guò)多,通過(guò)設(shè)置變異率控制基因變異的比例。 本文使用WEBSPAM-UK2007作為實(shí)驗(yàn)數(shù)據(jù)集,其中223個(gè)主機(jī)標(biāo)注為欺詐主機(jī)(“1”),5 248個(gè)標(biāo)注為正常主機(jī)(“0”)。欺詐檢測(cè)算法和驗(yàn)證性實(shí)驗(yàn)基于Java平臺(tái)和Weka軟件構(gòu)建。實(shí)驗(yàn)使用十倍交叉驗(yàn)證。 為了保證IFS-BIGGA的穩(wěn)定性進(jìn)行了30次重復(fù)實(shí)驗(yàn),并選擇貝葉斯網(wǎng)絡(luò)和隨機(jī)森林作為分類器。欺詐網(wǎng)頁(yè)數(shù)據(jù)集是高度不平衡的,而TPR客觀反映少數(shù)類的分類準(zhǔn)確率,因此,當(dāng)從MFS中選出OMFS時(shí)需要綜合考慮AUC和TPR。在將OMFS與其他文獻(xiàn)中的欺詐網(wǎng)頁(yè)檢測(cè)結(jié)果作比較時(shí),使用AUC、TPR和F1值。 實(shí)驗(yàn)中,根據(jù)經(jīng)驗(yàn)依次設(shè)置式(2)的三個(gè)權(quán)重參數(shù)為0.6,0.2,0.2,圖3給出了不同T值下WS的分布。由圖3可以看到,當(dāng)T取0.006時(shí),WS值最大,此時(shí)FS′含有64個(gè)特征,對(duì)應(yīng)的AUC為0.820,TPR為0.233。最后,設(shè)置T為0.006,而根據(jù)經(jīng)驗(yàn)設(shè)置算法3中的兩個(gè)輸入?yún)?shù),最大迭代次數(shù)mp為100,初始種群大小ips為10。 圖3 不同閾值T的WS值分布 實(shí)驗(yàn)主要以AUC、F1和TPR作為評(píng)價(jià)指標(biāo)。為了方便說(shuō)明,給出準(zhǔn)確率(Precision, P)、召回率(Recall, R)的計(jì)算公式,如式(5)、(6)。式(7)、(8)中分別給出了TPR和F1值計(jì)算公式。AUC實(shí)際上為ROC(Receiver Operating Characteristic)曲線下的面積,計(jì)算公式較為復(fù)雜。通常,根據(jù)其物理意義:任取一對(duì)(正、負(fù))樣本,正樣本的置信度大于負(fù)樣本的置信度的概率,運(yùn)用式(9)完成計(jì)算。其中:sp表示正類樣本(欺詐網(wǎng)頁(yè))總數(shù),sn表示負(fù)類樣本(正常網(wǎng)頁(yè))總數(shù),i表示每個(gè)正類樣本,rank表示正類樣本的置信度排序。 (5) (6) TPR=R (7) F1=(2×P×R)/(P+R) (8) (9) 為了從MFS中挑選OMFS,人為遞增地給定gn多次構(gòu)造IFS-BIGGA算法,同時(shí)對(duì)于每個(gè)gn,算法重復(fù)運(yùn)行30次以排除隨機(jī)干擾,實(shí)驗(yàn)結(jié)果用箱形圖展示,如圖4(a)和4(b)。每個(gè)數(shù)據(jù)箱分布著其對(duì)應(yīng)gn重復(fù)30次實(shí)驗(yàn)得到的AUC和TPR。基本的統(tǒng)計(jì)量如最大值、均值、最小值等可以直觀地從箱圖中取得。箱子的形狀和線段的長(zhǎng)度反映數(shù)據(jù)的聚合程度,總的來(lái)說(shuō),箱子越扁,線段越短,數(shù)據(jù)分布越密集。 圖4(a)中,gn取18時(shí),數(shù)據(jù)分布不僅呈高聚合態(tài),而且AUC總體偏高;若定義此時(shí)的箱子為優(yōu)質(zhì)箱(Box In Good Condition, BIGC),可以發(fā)現(xiàn)隨著gn的增加,尤其在gn接近24后,對(duì)應(yīng)的箱子穩(wěn)定呈現(xiàn)BICG。由于MFS中的特征越少越好,gn只取到30。而在圖4(b)中,只有g(shù)n取13,17,18,19時(shí)出現(xiàn)BIGC。綜合兩者,當(dāng)gn為18時(shí),30組數(shù)據(jù)中選擇具有最大AUC的MFS作為最終的OMFS。表1列舉了OMFS中部分典型特征含義[15],可以看到,特征分布包括了鏈接、內(nèi)容和隱藏3種類型。 為了說(shuō)明OMFS的有效性,進(jìn)行兩個(gè)實(shí)驗(yàn)。 實(shí)驗(yàn)1 從原始數(shù)據(jù)集Dinitial中抽取OMFS中的特征樣本構(gòu)成新數(shù)據(jù)集Dnew,結(jié)合當(dāng)前熱門(mén)的分類器,記錄兩個(gè)數(shù)據(jù)集下的檢測(cè)耗時(shí),如表2所示。由表2可以看到,與原始數(shù)據(jù)在各個(gè)分類器的平均檢測(cè)耗時(shí)相比,新數(shù)據(jù)集耗時(shí)減小了83%,OMFS有效減少了分類器的計(jì)算代價(jià)。 圖4 不同gn對(duì)應(yīng)的AUC和TPR分布 Tab. 1 Specific meanings for part of representative features in OMFS 實(shí)驗(yàn)2 首先,結(jié)合RF分類器,將OMFS-RF的分類結(jié)果與文獻(xiàn)[10]中結(jié)果最好的實(shí)驗(yàn)組,包括內(nèi)容和轉(zhuǎn)換鏈接共224個(gè)特征(Full Content-Based Features and Full Transformed Link-Based Features with Random Forest classifier, (FCBF+FTLBF)-RF)作比較,結(jié)果如表3所示;結(jié)果表明,盡管RF下的AUC減小了2%,但是真陽(yáng)性率(TPR)提高了21%,并且特征維度減少了92%;其次,運(yùn)用BN分類器,比較IFS-BIGGA和TGA[11]、ICA[11],結(jié)果如表3所示;結(jié)果表明,IFS-BIGGA的F1值分別提高了4.2%和3.5%。因此,本文提出的IFS-BIGGA算法有效,且得到的OMFS特征集合可以在不影響分類性能的情況下有效減小分類器的計(jì)算代價(jià),提高欺詐網(wǎng)頁(yè)檢測(cè)的效率。 表2 不同分類器下Dinitial和Dnew檢測(cè)耗時(shí)對(duì)比 ms 表3 不同方法的結(jié)果比較 本文針對(duì)網(wǎng)頁(yè)欺詐檢測(cè)遇到的網(wǎng)頁(yè)基本特征高維、冗余的問(wèn)題,提出一個(gè)基于信息增益和遺傳算法的改進(jìn)特征選擇算法——IFS-BIGGA。本文方法的主要貢獻(xiàn)在于運(yùn)用信息增益對(duì)特征作排序,采用動(dòng)態(tài)閾值策略高效刪除冗余特征,并改進(jìn)遺傳算法,對(duì)網(wǎng)頁(yè)基本特征進(jìn)行有效的特征降維。實(shí)驗(yàn)結(jié)果證明,本文算法與其他特征選擇算法相比,可以得到更少、更優(yōu)的特征集合OMFS,其中仍覆蓋了基于鏈接、內(nèi)容和隱藏內(nèi)容特征,而且基于OMFS的欺詐網(wǎng)頁(yè)檢測(cè)結(jié)果也可以近似達(dá)到甚至優(yōu)于其他算法得到的結(jié)果,有效地減小網(wǎng)頁(yè)欺詐檢測(cè)時(shí)的計(jì)算代價(jià),提高檢測(cè)效率。另一方面,本文提出的算法不僅可以應(yīng)用于欺詐網(wǎng)頁(yè)檢測(cè),在其他具有高維、冗余特征的領(lǐng)域,也可以高效地進(jìn)行特征選擇。在接下來(lái)的工作中,研究在OMFS中加入從網(wǎng)頁(yè)鏈接和內(nèi)容中提取的新特征,更大程度地優(yōu)化欺詐網(wǎng)頁(yè)的檢測(cè)性能。 References) [1] GOH L, SINGH A K, LIM K H. Multilayer perceptrons neural network based Web spam detection application [C]// Proceedings of the 1st IEEE China Summit and International Conference on Signal and Information Processing. Piscataway, NJ: IEEE, 2013: 636-640. [2] PAGE L. The PageRank citation ranking: bringing order to the Web [J]. Stanford Digital Libraries Working Paper, 1998, 9(1): 1-14. [3] 李智超,余慧佳,劉奕群,等.網(wǎng)頁(yè)作弊與反作弊技術(shù)綜述[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2011,46(5):1-8.(LI Z C, YU H J, LIU Y Q, et al. A survey of Web spam and anti-spam [J]. Journal of Shandong University (Natural Science), 2011, 46(5): 1-8.) [4] ARAUJO L, MARTINEZ-ROMO J. Web spam detection: new classification features based on qualified link analysis and language models [J]. IEEE Transactions on Information Forensics & Security, 2010, 5(3): 581-590. [5] NTOULAS A, NAJORK M, MANASSE M, et al. Detecting spam Web pages through content analysis [C]// Proceedings of the 15th International Conference on World Wide Web. New York: ACM, 2006: 83-92. [6] KUMAR S, GAO X, WELCH I, et al. A machine learning based Web spam filtering approach [C]// Proceedings of the 30th IEEE International Conference on Advanced Information Networking & Applications. Piscataway, NJ: IEEE, 2016: 973-980. [7] 李法良,朱焱,曾俊東.集成PCA降維與分類算法的垃圾網(wǎng)頁(yè)檢測(cè)[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(10):269-272.(LI F L, ZHU Y, ZENG J D. Spam Webpage detection combining PCA dimensionality reduction and classifier algorithm [J]. Journal of Computer Applications and Software, 2014, 31(10): 269-272) [8] 劉衛(wèi)紅,方衛(wèi)東,董守斌,等.基于內(nèi)容與鏈接特征的中文垃圾網(wǎng)頁(yè)分類[J].微計(jì)算機(jī)信息,2010,26(9):6-8.(LIU W H, FANG W D, DONG S B, et al. Chinese Web spam identification through content and hyperlinks [J]. Journal of Microcomputer Information, 2010, 26(9): 6-8.) [9] 韋莎,朱焱.主題相似度與鏈接權(quán)重相結(jié)合的垃圾網(wǎng)頁(yè)排序檢測(cè)[J].計(jì)算機(jī)應(yīng)用,2016,36(3):735-739.(WEI S, ZHU Y. Combining topic similarity with link weight for Web spam ranking detection [J]. Journal of Computer Applications, 2016, 36(3): 735-739.) [10] GOH K L, SINGH A K. Comprehensive literature review on machine learning structures for Web spam classification [J]. Procedia Computer Science, 2015, 70: 434-441. [11] KARIMPOUR J, NOROOZI A A, ABADI A. The impact of feature selection on Web spam detection [J]. International Journal of Intelligent Systems and Applications, 2012, 4(9): 59-64. [12] LUCKNER M, GAD M, SOBKOWIAK P. Stable Web spam detection using features based on lexical items [J]. Computers and Security, 2014, 46: 79-93. [13] KULLBACK, S, LEIBLER, R A. On information and sufficiency [J]. Annals of Mathematical Statistics, 1951, 22(1): 79-86. [14] GREFENSTETTE J J. Optimization of control parameters for genetic algorithms [J]. IEEE Transactions on Systems Man and Cybernetics, 1986, 16(1): 122-128. [15] CASTILLO C, DONATO D, GIONIS A, et al. Know your neighbors: Web spam detection using the Web topology [C]// Proceedings of the 2007 International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2007: 423-430. This work is partially supported by the Academic and Technological Leadership Training Foundation of Sichuan Province (WZ0100112371408, YH1500411031402), the Academic and Technological Leadership Research Foundation of Sichuan Province (WZ0100112371601/004), the Demonstration Project in Technology Service Industry of Sichuan Province (2016GFW0166). WANGJiaqing, born in 1993, M. S. candidate. Her research interests include Web data mining. ZHUYan, born in 1965, Ph. D., professor. Her research interests include data mining, Web anomaly detection, big data management and intelligent analysis. CHENTung-shou, born in 1964, Ph. D., professor. His research interests include image processing, data mining, information security. CHANGChin-chen, born in 1954, Ph. D., professor. His research interests include database design, e-business security, electronic multi-media imaging technique, cryptography.3 實(shí)驗(yàn)結(jié)果與分析
3.1 參數(shù)設(shè)置與評(píng)價(jià)指標(biāo)
3.2 特征選擇
3.3 結(jié)果與分析
4 結(jié)語(yǔ)