基于評(píng)分離散度的托攻擊檢測(cè)算法*

2022-12-23 09:52:42賈俊杰段超強(qiáng)

計(jì)算機(jī)工程與科學(xué) 2022年3期

賈俊杰，段超強(qiáng)

(西北師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院，甘肅蘭州 730070)

1 引言

目前，推薦系統(tǒng)大量應(yīng)用于電商、社交媒體、電影推薦和外賣(mài)等互聯(lián)網(wǎng)服務(wù)中。推薦系統(tǒng)通過(guò)收集、分析用戶(hù)信息，向用戶(hù)推薦可能感興趣的信息，以滿(mǎn)足用戶(hù)個(gè)性化的服務(wù)需求?，F(xiàn)代推薦系統(tǒng)通常采用基于協(xié)同過(guò)濾CF(Collaborative Filtering)[1]的推薦算法，協(xié)同過(guò)濾基于與用戶(hù)相似的用戶(hù)的偏好，通過(guò)用戶(hù)的歷史行為尋找與目標(biāo)用戶(hù)相似的用戶(hù)組成最近鄰，最近鄰對(duì)目標(biāo)項(xiàng)目的偏好即為用戶(hù)的偏好[2，3]。這種算法在實(shí)際應(yīng)用中具有良好的推薦效果，但容易受到托攻擊(Shilling Attack)[4]。托攻擊是指利用獲取的用戶(hù)歷史評(píng)分構(gòu)造攻擊概貌，與目標(biāo)用戶(hù)形成最近鄰來(lái)影響推薦效果。檢測(cè)托攻擊是當(dāng)前推薦系統(tǒng)安全的研究熱點(diǎn)之一。

檢測(cè)托攻擊本質(zhì)上是對(duì)真實(shí)用戶(hù)和攻擊概貌進(jìn)行分類(lèi)[5]。對(duì)真實(shí)用戶(hù)和攻擊概貌分類(lèi)需要尋找分類(lèi)特征作為依據(jù)，即真實(shí)用戶(hù)和攻擊概貌評(píng)分在某個(gè)指標(biāo)上具有明顯的差別，可以通過(guò)這個(gè)差別將二者區(qū)分開(kāi)來(lái)。目前已有一系列關(guān)于用戶(hù)評(píng)分的特征指標(biāo)，但單個(gè)特征指標(biāo)無(wú)法有效地對(duì)各種攻擊方式的托攻擊進(jìn)行檢測(cè)，同時(shí)特征指標(biāo)的選取角度不同會(huì)加大數(shù)據(jù)的處理難度。

基于上述問(wèn)題，本文提出基于用戶(hù)評(píng)分離散度的托攻擊檢測(cè)Dispersion-C算法。從用戶(hù)評(píng)分離散度出發(fā)，提取用戶(hù)評(píng)分極端評(píng)分比PER(Proportion of Extreme Ratings)、去極端評(píng)分方差RESV(Remove Extreme Score Variance)和用戶(hù)評(píng)分標(biāo)準(zhǔn)差SD(Standard Deviation)3個(gè)特征，作為真實(shí)用戶(hù)和攻擊概貌的分類(lèi)特征;然后將3個(gè)特征作為監(jiān)督學(xué)習(xí)分類(lèi)算法—ID3(Iterative Dichotomiser 3)決策樹(shù)算法的分類(lèi)特征，訓(xùn)練各自的分類(lèi)器，對(duì)托攻擊用戶(hù)進(jìn)行檢測(cè)。實(shí)驗(yàn)結(jié)果表明，本文算法對(duì)托攻擊用戶(hù)具有良好的檢測(cè)效果，魯棒性較強(qiáng)。

2 相關(guān)技術(shù)

2.1 托攻擊模型

目前流行的攻擊模型主要有隨機(jī)攻擊(Random Attack)、均值攻擊(Average Attack)、流行攻擊(Bandwagon Attack)和段攻擊(Segment Attack)等[5]，4種攻擊模型的攻擊概貌組成如表1所示。

Table 1 Four common attack models

2.2 檢測(cè)技術(shù)

現(xiàn)有的托攻擊檢測(cè)技術(shù)主要分為基于監(jiān)督學(xué)習(xí)的檢測(cè)技術(shù)、基于半監(jiān)督學(xué)習(xí)的檢測(cè)技術(shù)和無(wú)監(jiān)督學(xué)習(xí)的檢測(cè)技術(shù)。

為了對(duì)托攻擊概貌和真實(shí)用戶(hù)概貌進(jìn)行分類(lèi)，學(xué)者們提出了很多方法。Rashid等人[8]提出了多種可能有效分析各種托攻擊模式攻擊概貌的特征，包括預(yù)測(cè)偏差數(shù)量、用戶(hù)評(píng)分的標(biāo)準(zhǔn)偏差、與其他用戶(hù)的評(píng)分偏移度和最近鄰平均偏移度。Chirita等人[9]利用平均評(píng)分偏移度結(jié)合Degsim特征，提出了一種新的檢測(cè)算法。該算法可以成功檢測(cè)隨機(jī)攻擊、均值攻擊和流行攻擊概貌，但無(wú)法有效檢測(cè)段攻擊概貌。Bruke等人[10,11]在此基礎(chǔ)上提出了加權(quán)平均評(píng)分偏離度和加權(quán)評(píng)分偏離度，并提出了一些真實(shí)評(píng)分特征，但該算法受攻擊概貌填充率影響，對(duì)于較低填充率的段攻擊概貌識(shí)別效率不高。

(1)基于監(jiān)督學(xué)習(xí)的檢測(cè)技術(shù)。

將上述用戶(hù)評(píng)分特征與KNN(K-Nearest Neighbor)、SVM(Support Vector Machine)等監(jiān)督學(xué)習(xí)算法相結(jié)合稱(chēng)之為基于監(jiān)督學(xué)習(xí)的檢測(cè)算法。Bryan等人[12]利用方差校正均方殘差Hv-score發(fā)現(xiàn)攻擊概貌，攻擊概貌具有更大的Hv-score值，但極易受到攻擊概貌填充率影響，在填充率低時(shí)，檢測(cè)效果不佳。李文濤等人[13]從用戶(hù)選擇評(píng)分項(xiàng)入手，根據(jù)用戶(hù)已評(píng)分項(xiàng)目流行度的不同，提出了一種基于用戶(hù)評(píng)分流行度的區(qū)分真實(shí)用戶(hù)和攻擊概貌的方法，但由于流行攻擊和段攻擊存在選擇項(xiàng)，該方法對(duì)段攻擊的檢測(cè)效率不高?；诒O(jiān)督學(xué)習(xí)的檢測(cè)技術(shù)的關(guān)鍵在于擬合出合適的訓(xùn)練集和測(cè)試集來(lái)構(gòu)造分類(lèi)器。

(2)基于無(wú)監(jiān)督學(xué)習(xí)的檢測(cè)技術(shù)。

由于基于監(jiān)督學(xué)習(xí)的檢測(cè)技術(shù)過(guò)多依賴(lài)于特征和測(cè)試集，因此研究者轉(zhuǎn)向利用無(wú)監(jiān)督學(xué)習(xí)構(gòu)建分類(lèi)器。Metha等人[14,15]利用PCA(Principal Component Analysis)算法在檢測(cè)算法中的思想，無(wú)需任何先驗(yàn)知識(shí)，提出根據(jù)托攻擊概貌之間的相似性高于真實(shí)用戶(hù)這一特點(diǎn)對(duì)攻擊概貌進(jìn)行檢測(cè)的PCA VarSelect技術(shù)，是一種無(wú)監(jiān)督的托攻擊檢測(cè)算法，但這種算法必須提前知道攻擊強(qiáng)度，否則檢測(cè)準(zhǔn)確率會(huì)嚴(yán)重降低，而現(xiàn)實(shí)中攻擊強(qiáng)度一般是無(wú)法獲取的。李聰?shù)热薣16]提出了LFAMR模型，該模型以用戶(hù)非隨機(jī)缺失數(shù)據(jù)為依托，對(duì)導(dǎo)致評(píng)分缺失的潛在因素進(jìn)行解析，利用聚類(lèi)發(fā)現(xiàn)攻擊概貌，但這種模型無(wú)法有效探測(cè)低攻擊強(qiáng)度攻擊。

(3)基于半監(jiān)督學(xué)習(xí)的檢測(cè)算法。

在大多數(shù)的推薦系統(tǒng)中，未標(biāo)記的用戶(hù)數(shù)量遠(yuǎn)遠(yuǎn)大于標(biāo)記用戶(hù)數(shù)量，因此同時(shí)對(duì)標(biāo)記用戶(hù)和未標(biāo)記用戶(hù)概貌進(jìn)行建模有助于提高托攻擊檢測(cè)效率。Cao等人[17,18]提出Semi-SAD算法，該算法充分利用了標(biāo)記和未標(biāo)記的用戶(hù)概貌，結(jié)合樸素貝葉斯和EM-λ算法，首先在標(biāo)記用戶(hù)概貌上訓(xùn)練一個(gè)樸素貝葉斯分類(lèi)器，然后利用期望最大化算法和未標(biāo)記的用戶(hù)概貌對(duì)初始貝葉斯算法進(jìn)行改進(jìn)，提高攻擊概貌的檢測(cè)效率。但是，該算法對(duì)低強(qiáng)度的攻擊檢測(cè)效率不好，且EM迭代過(guò)程時(shí)間較長(zhǎng)，需要極大的時(shí)間代價(jià)。

從已有的檢測(cè)技術(shù)可以看出，檢測(cè)托攻擊概貌的關(guān)鍵在于特征選擇，本文根據(jù)不同攻擊模型和用戶(hù)評(píng)分在離散度上的差異，從托攻擊概貌和真實(shí)用戶(hù)概貌的評(píng)分離散度選擇特征，將這些特征作為決策樹(shù)算法的分類(lèi)特征。最后，通過(guò)實(shí)驗(yàn)說(shuō)明了基于用戶(hù)評(píng)分離散度的托攻擊檢測(cè)算法的可行性和優(yōu)越性。

3 基于用戶(hù)評(píng)分離散度的托攻擊檢測(cè)算法

3.1 基于用戶(hù)評(píng)分離散度的特征選擇

本文通過(guò)對(duì)美國(guó)Minnesota大學(xué)GroupLens項(xiàng)目組收集的MovieLens數(shù)據(jù)集[19]進(jìn)行分析，發(fā)現(xiàn)用戶(hù)評(píng)分存在一個(gè)顯著的特點(diǎn)：用戶(hù)對(duì)于電影項(xiàng)目的評(píng)分多是由用戶(hù)對(duì)于電影的喜愛(ài)程度和電影的質(zhì)量高低決定的，評(píng)分是隨機(jī)的、個(gè)性化的。同時(shí)評(píng)分項(xiàng)目越多的用戶(hù)，不同評(píng)分次數(shù)分布更接近，也就是說(shuō)真實(shí)用戶(hù)評(píng)分的離散度是在一定范圍內(nèi)隨機(jī)分布的。托攻擊用戶(hù)概貌可采取一定的模型進(jìn)行部署，攻擊者根據(jù)其擁有的背景知識(shí)和想要達(dá)到的攻擊效果采取不同的攻擊模型，不同的攻擊模型具有不同的評(píng)分生成方式，且評(píng)分生成滿(mǎn)足一定的條件，因此托攻擊概貌評(píng)分的頻數(shù)分布是不均衡的，攻擊概貌的評(píng)分離散度接近且和真實(shí)用戶(hù)存在差異。本文從這個(gè)角度出發(fā)，以用戶(hù)評(píng)分離散度區(qū)分真實(shí)用戶(hù)和攻擊概貌，提出了基于用戶(hù)評(píng)分離散度的PER、RESV和SD3個(gè)分類(lèi)特征，接下來(lái)通過(guò)不同攻擊模型對(duì)分類(lèi)特征進(jìn)行說(shuō)明。

3.1.1 隨機(jī)攻擊和均值攻擊概貌

從攻擊模型中可以看出，攻擊概貌與真實(shí)用戶(hù)在評(píng)分分布上存在一定的差異。其中隨機(jī)攻擊和均值攻擊不具有選擇項(xiàng)，且評(píng)分為隨機(jī)生成，這2類(lèi)模型可以一起討論。隨機(jī)攻擊的填充項(xiàng)評(píng)分服從系統(tǒng)評(píng)分的正態(tài)分布。均值攻擊的任一填充項(xiàng)評(píng)分的生成服從項(xiàng)目自身評(píng)分的正態(tài)分布。在生成這2種攻擊方式的過(guò)程中發(fā)現(xiàn)，隨機(jī)攻擊和均值攻擊的項(xiàng)目評(píng)分出現(xiàn)極端評(píng)分的概率極低，而真實(shí)用戶(hù)中極端評(píng)分是常有的。

基于這種情況，Yang等人[20]提出了用戶(hù)最高評(píng)分填充比來(lái)對(duì)此進(jìn)行描述，但僅以最高評(píng)分區(qū)分真實(shí)用戶(hù)和攻擊概貌效果不佳，極易將真實(shí)用戶(hù)劃分為攻擊概貌，影響推薦效果。因此，本文在此基礎(chǔ)上提出極端評(píng)分比作為檢測(cè)攻擊概貌的特征之一。

定義1(極端評(píng)分比PER)PER描述用戶(hù)評(píng)分中評(píng)分最大值和最小值的項(xiàng)目數(shù)占用戶(hù)評(píng)分所有項(xiàng)目數(shù)的比值。用戶(hù)u的極端評(píng)分比如式(1)所示：

(1)

圖1和圖2所示為隨機(jī)攻擊和均值攻擊概貌極端評(píng)分比與真實(shí)用戶(hù)的對(duì)比情況。2種攻擊模型由于不具有選擇項(xiàng)且填充項(xiàng)的評(píng)分滿(mǎn)足一定條件，出現(xiàn)極端評(píng)分的概率明顯小于真實(shí)用戶(hù)，且由于2種攻擊方式接近，極端評(píng)分比的分布方式也相似。通過(guò)圖1和圖2可以發(fā)現(xiàn)，利用極端評(píng)分比可以有效區(qū)分真實(shí)用戶(hù)和攻擊概貌。

Figure 1 Comparison of PER between random attackers and normal users

Figure 2 Comparison of PER between average attackers and normal users

3.1.2 流行攻擊概貌

流行攻擊選擇當(dāng)前系統(tǒng)中最流行的項(xiàng)目作為選擇項(xiàng)，其評(píng)分為系統(tǒng)最高評(píng)分，選擇項(xiàng)與隨機(jī)攻擊相同。由于流行攻擊具有評(píng)分為系統(tǒng)最高分的選擇項(xiàng)，故流行攻擊中極端評(píng)分比根據(jù)其選擇項(xiàng)的規(guī)模發(fā)生變化。圖3所示為不同填充率下流行攻擊中的極端評(píng)分比和真實(shí)用戶(hù)的對(duì)比，流行攻擊的極端評(píng)分比隨攻擊概貌的填充率發(fā)生變化且和真實(shí)用戶(hù)的極端評(píng)分比相似。因此，使用極端評(píng)分比作為特征無(wú)法有效區(qū)分流行攻擊概貌和真實(shí)用戶(hù)，但流行攻擊的概貌特征與真實(shí)用戶(hù)在評(píng)分離散度檢測(cè)下仍存在可區(qū)分的特征。下面對(duì)流行攻擊概貌進(jìn)行討論。

Figure 3 Comparison of PER between bandwagon attackers and normal users

流行攻擊屬于推攻擊，可以看作是隨機(jī)攻擊的一種擴(kuò)展。這種攻擊方式具有的選擇項(xiàng)為當(dāng)前系統(tǒng)中流行度最高的幾個(gè)項(xiàng)目，且評(píng)分均為系統(tǒng)最高評(píng)分，其填充項(xiàng)和隨機(jī)攻擊填充項(xiàng)的部署方式相同。因此，流行攻擊概貌的評(píng)分分布存在一個(gè)有趣的現(xiàn)象，即去除極端評(píng)分后，剩余的評(píng)分分布與隨機(jī)攻擊相同。而對(duì)于真實(shí)用戶(hù)在去除極端評(píng)分后，用戶(hù)評(píng)分的離散度會(huì)降低。因此，本文定義去極端評(píng)分方差對(duì)流行攻擊概貌和真實(shí)用戶(hù)進(jìn)行區(qū)分。

定義2(去極端評(píng)分方差RESV)RESV描述用戶(hù)去除極端評(píng)分后其余評(píng)分的方差。用戶(hù)u的去極端評(píng)分方差定義如式(2)所示：

(2)

如圖4所示，在去除極端評(píng)分后，流行攻擊用戶(hù)概貌的評(píng)分方差為用戶(hù)整體評(píng)分的均值和方差。而真實(shí)用戶(hù)去除極端評(píng)分值后，評(píng)分方差降低。因此，通過(guò)圖4可以確定，利用去極端評(píng)分方差可以有效地區(qū)分真實(shí)用戶(hù)和流行攻擊概貌。

Figure 4 Comparison of RESV between bandwagon attackers and normal users

3.1.3 段攻擊概貌

段攻擊同樣屬于推攻擊，具有選擇項(xiàng)。但是，段攻擊概貌和流行攻擊概貌的區(qū)別在于，段攻擊選擇項(xiàng)為與目標(biāo)用戶(hù)類(lèi)別相似的項(xiàng)目，評(píng)分均為系統(tǒng)最高評(píng)分。填充項(xiàng)與流行攻擊的不同之處在于，段攻擊的填充項(xiàng)為系統(tǒng)隨機(jī)選擇，但填充項(xiàng)目的評(píng)分均為系統(tǒng)最低分。這是由于段攻擊是只針對(duì)目標(biāo)項(xiàng)目具有潛在興趣的一組用戶(hù)群，而不影響推薦系統(tǒng)整體，因此利用去極端評(píng)分方差無(wú)法檢測(cè)段攻擊概貌。

段攻擊概貌中選擇項(xiàng)為系統(tǒng)最高分而填充項(xiàng)為系統(tǒng)最低分，但真實(shí)用戶(hù)評(píng)分中用戶(hù)根據(jù)對(duì)項(xiàng)目的喜愛(ài)程度進(jìn)行評(píng)分。真實(shí)用戶(hù)的評(píng)分是隨機(jī)且波動(dòng)較為平穩(wěn)的，2類(lèi)用戶(hù)在整體評(píng)分離散度上存在較大差異，因此本文引入用戶(hù)評(píng)分標(biāo)準(zhǔn)差作為檢測(cè)段攻擊的評(píng)分特征。

定義3(用戶(hù)評(píng)分標(biāo)準(zhǔn)差SD)SD指的是用戶(hù)對(duì)各個(gè)項(xiàng)目評(píng)分與評(píng)分均值的離差平方的算數(shù)平均數(shù)的平方根，如式(3)所示：

(3)

由圖5可見(jiàn)，真實(shí)用戶(hù)評(píng)分的離散度明顯小于段攻擊概貌的，因此SD可以區(qū)分真實(shí)用戶(hù)的段攻擊概貌。

Figure 5 Comparison of SD between segment attackers and normal users

3.2 基于用戶(hù)評(píng)分離散度的托攻擊檢測(cè)算法

根據(jù)上面的討論，托攻擊概貌和真實(shí)用戶(hù)概貌在評(píng)分離散度上存在差異，本文用極端評(píng)分比PER、去極端評(píng)分方差RESV和用戶(hù)評(píng)分標(biāo)準(zhǔn)差SD3個(gè)特征對(duì)用戶(hù)評(píng)分離散度進(jìn)行描述。利用這些特征差異對(duì)攻擊概貌和真實(shí)用戶(hù)進(jìn)行分類(lèi)。

以上3個(gè)特征中，PER是一個(gè)適合對(duì)不具有選擇項(xiàng)的隨機(jī)攻擊和均值攻擊進(jìn)行檢測(cè)的分類(lèi)特征，對(duì)真實(shí)用戶(hù)和攻擊概貌中的極端評(píng)分比進(jìn)行統(tǒng)計(jì)可以看出，隨機(jī)攻擊和均值攻擊的PER均低于正常用戶(hù)的。RESV是針對(duì)流行攻擊提出的分類(lèi)特征，在去除極端評(píng)分比之后，流行攻擊概貌的評(píng)分方差大于真實(shí)用戶(hù)的評(píng)分方差。SD是專(zhuān)門(mén)針對(duì)段攻擊的分類(lèi)特征，由于段攻擊由特殊的攻擊概貌構(gòu)成，其用戶(hù)評(píng)分均方差大于真實(shí)用戶(hù)的。為了從用戶(hù)離散度上對(duì)攻擊用戶(hù)進(jìn)行檢測(cè)，將PER、RESV和SD3個(gè)特征作為相應(yīng)攻擊模型的分類(lèi)特征，使用ID3決策樹(shù)算法訓(xùn)練分類(lèi)器。

決策樹(shù)算法是一個(gè)以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法[21]，從一個(gè)無(wú)次序、無(wú)規(guī)則的實(shí)例集合中歸納出一組采用樹(shù)形結(jié)構(gòu)表示的分類(lèi)規(guī)則。ID3決策樹(shù)算法是對(duì)決策樹(shù)算法的一種改進(jìn)算法。本文將標(biāo)記的數(shù)據(jù)集作為訓(xùn)練集，將ID3決策樹(shù)算法作為分類(lèi)算法。ID3決策樹(shù)算法根據(jù)信息增益率選擇測(cè)試屬性，通過(guò)屬性離散化的方式對(duì)連續(xù)屬性進(jìn)行處理。本文中系統(tǒng)標(biāo)記的虛假用戶(hù)和真實(shí)用戶(hù)樣本集D={x1,x2,…,xn}，每個(gè)樣本xi的屬性向量P=(a1,a2,…,am)，其中m=3，ai包括PER，RESV，SD3個(gè)特征值。類(lèi)別屬性C={C1,C2,…,Ck}，其中k=2，根據(jù)屬性特征值可以將樣本劃分為C1和C22個(gè)子集，代表真實(shí)用戶(hù)和攻擊概貌。步驟如下所示：

步驟1計(jì)算每個(gè)樣本的RESV、PER和SD3個(gè)屬性，得到用戶(hù)評(píng)分屬性特征向量。

步驟2計(jì)算待分類(lèi)數(shù)據(jù)樣本在每個(gè)屬性A=ai時(shí)的信息增益度h(D,A)=Gain(D,A)/Entropy(D),i=1,2,3，選擇信息增益度最大的屬性作為根節(jié)點(diǎn)，其中Entropy(D)是當(dāng)前樣本的信息熵，Gain(D,A)為屬性在當(dāng)前樣本下的分類(lèi)信息增益，其計(jì)算公式如式(4)所示：

Gain(D,A)=Entropy(D)-

∑v∈V(A)Entropy(Dv)

(4)

其中，D為當(dāng)前待分的數(shù)據(jù)樣本集，Dv是樣本集D中屬性A的值等于v的樣本集合,V(A)是屬性A的值域。

步驟3對(duì)于根節(jié)點(diǎn)屬性的每個(gè)可能值vi和相應(yīng)的數(shù)據(jù)點(diǎn)集合Dv，遞歸步驟2選擇子樹(shù)根節(jié)點(diǎn)建立子樹(shù)，直至某個(gè)分支下只有一個(gè)類(lèi)標(biāo)簽的樣本子集為止。

本文算法流程如算法1所示：

算法1基于評(píng)分離散度的托攻擊檢測(cè)算法

輸入：含有攻擊用戶(hù)的用戶(hù)評(píng)分?jǐn)?shù)據(jù)集S，用戶(hù)集合U，項(xiàng)目集I，決策樹(shù)算法分類(lèi)數(shù)K=2。

輸出：分類(lèi)結(jié)果。

BEGIN

步驟1foru∈U

步驟2fori∈I

步驟3計(jì)算特征向量P=(a1,a2,a3)/*用戶(hù)特征向量由SD,PER,RESV組成*/

步驟4endfor

步驟5endfor

步驟6foru∈U

步驟7計(jì)算用戶(hù)特征向量集合；

步驟8fori≤3

步驟9A=ai；

步驟10計(jì)算屬性A的分類(lèi)信息增益度：

步驟11Gain(D,A)=Entropy(D)-∑v∈V(A)Entropy(Dv)；

步驟12計(jì)算信息增益度：

步驟13MAE(ai)=root；

步驟14endfor

步驟15endfor

END

4 實(shí)驗(yàn)與結(jié)果分析

4.1 實(shí)驗(yàn)數(shù)據(jù)集與實(shí)驗(yàn)指標(biāo)

本文使用MovieLens數(shù)據(jù)集[19]進(jìn)行實(shí)驗(yàn)，包括943個(gè)用戶(hù)對(duì)1 682個(gè)項(xiàng)目的評(píng)分?jǐn)?shù)據(jù)，并且每個(gè)用戶(hù)至少對(duì)20部電影進(jìn)行評(píng)分，評(píng)分取值為[1,5]。實(shí)驗(yàn)假定系統(tǒng)中原有的用戶(hù)為真實(shí)用戶(hù)，利用托攻擊的模型向系統(tǒng)中注入的用戶(hù)為攻擊概貌，實(shí)驗(yàn)的目的是在不刪除虛假用戶(hù)的情況下，對(duì)目標(biāo)用戶(hù)進(jìn)行分類(lèi)。

托攻擊常用準(zhǔn)確率fp和召回率fr的綜合指標(biāo)F值[13]作為監(jiān)測(cè)指標(biāo)，設(shè)N為分類(lèi)器預(yù)測(cè)出的虛假用戶(hù)數(shù)量，Na為分類(lèi)器正確分類(lèi)出的虛假用戶(hù)數(shù)，Nt為系統(tǒng)中實(shí)際存在的虛假用戶(hù)數(shù)。為了適應(yīng)本文算法，重新定義N為ID3決策樹(shù)算法中虛假用戶(hù)集C1中用戶(hù)的數(shù)量，Na為C1中虛假用戶(hù)數(shù)，Nt為系統(tǒng)中實(shí)際存在的虛假用戶(hù)數(shù)。則準(zhǔn)確率fp、召回率fr及綜合指標(biāo)F值的計(jì)算公式分別如式(5)～式(7)所示：

fp=Na/N

(5)

fr=Na/Nt

(6)

F=2fpfr/(fp+fr)

(7)

4.2 實(shí)驗(yàn)與討論

為了說(shuō)明實(shí)驗(yàn)的效果，本文進(jìn)行了2組實(shí)驗(yàn)。首先在注入不同的攻擊概貌之后，驗(yàn)證Dispersion-C算法的準(zhǔn)確率fp和召回率fr；其次利用fp和fr的綜合指標(biāo)值，在10%的攻擊強(qiáng)度下，將本文算法與文獻(xiàn)[13，16，22]的托攻擊檢測(cè)算法進(jìn)行對(duì)比驗(yàn)證。

4.2.1 算法的檢測(cè)效果分析

為了說(shuō)明實(shí)驗(yàn)效果，在不同的實(shí)驗(yàn)參數(shù)下對(duì)本文Dispersion-C算法的效果進(jìn)行測(cè)試。實(shí)驗(yàn)的參數(shù)包括：裝填規(guī)模和攻擊規(guī)模。其中，攻擊強(qiáng)度取5%,7%,10%和12%，填充率取3%,8%,10%,12%,15%和20%，攻擊模型為隨機(jī)攻擊、均值攻擊、流行攻擊和段攻擊。將2個(gè)參數(shù)進(jìn)行相互組合，每一種組合對(duì)應(yīng)一個(gè)實(shí)驗(yàn)設(shè)置，其中選擇75%的數(shù)據(jù)樣本組成訓(xùn)練集，25%的數(shù)據(jù)樣本組成測(cè)試集，然后計(jì)算算法的準(zhǔn)確率和召回率，并在重復(fù)進(jìn)行100次實(shí)驗(yàn)后，統(tǒng)計(jì)得到最終的結(jié)果。

表2～表5是Dispersion-C算法在不同裝填規(guī)模和攻擊規(guī)模下的分類(lèi)效果，從中可以發(fā)現(xiàn)，對(duì)于不同填充率和攻擊強(qiáng)度的流行攻擊和均值攻擊，Dispersion-C算法均有較好的檢測(cè)效果，并且隨著填充率和攻擊強(qiáng)度的增大檢測(cè)效果逐漸提高，算法魯棒性較好。對(duì)于具有選擇項(xiàng)的流行攻擊和段攻擊，Dispersion-C算法的檢測(cè)效果同樣優(yōu)勢(shì)明顯，特別是針對(duì)段攻擊的檢測(cè)。實(shí)驗(yàn)中算法存在召回率大于準(zhǔn)確率的現(xiàn)象，說(shuō)明本文算法檢測(cè)嚴(yán)格，出現(xiàn)了將真實(shí)用戶(hù)劃分為攻擊概貌的現(xiàn)象。

Table 2 Detection precision and recall of random attack detected by Dispersion-C algorithm

4.2.2 Dispersion-C算法與其他算法對(duì)比

為了對(duì)本文提出的 Dispersion-C算法的檢測(cè)效果進(jìn)行更加全面的分析，將本文算法與文獻(xiàn)[13]提出的基于用戶(hù)評(píng)分流行度分類(lèi)特征的監(jiān)督學(xué)習(xí)的DegreeSAD算法、文獻(xiàn)[22]提出的利用特征指標(biāo)進(jìn)行托攻擊檢測(cè)的半監(jiān)督學(xué)習(xí)的檢測(cè)算法SEDSA-CI和文獻(xiàn)[16]提出的無(wú)監(jiān)督學(xué)習(xí)的檢測(cè)算法LFAMR一起進(jìn)行討論。在相同配置的情況下，且攻擊強(qiáng)度均為10%時(shí)，將4種算法的檢測(cè)效果利用式(7)進(jìn)行比較。實(shí)驗(yàn)結(jié)果如圖6所示。

Table 3 Detection precision and recall of average attack detected by Dispersion-C algorithm

Table 4 Detection precision and recall of bandwagon attack detected by Dispersion-C algorithm

Table 5 Detection precision and recall of segment attack detected by Dispersion-C algorithm

Figure 6 Comparison of detection effects between Dispersion-C and other algorithms

圖6展示了4種算法對(duì)于不同攻擊模型的檢測(cè)效果。Dispersion-C算法根據(jù)用戶(hù)評(píng)分離散度選取分類(lèi)特征，不易受到項(xiàng)目填充率的影響，因此對(duì)于較低項(xiàng)目填充率的攻擊概貌檢測(cè)效果較好，但因攻擊概貌始終存在接近真實(shí)用戶(hù)評(píng)分分布的可能性，因此很難達(dá)到完美的檢測(cè)效果。

與同為有監(jiān)督學(xué)習(xí)的基于流行度分類(lèi)特征的算法DegreeSAD相比，Dispersion-C算法針對(duì)4種攻擊模型具有較優(yōu)的檢測(cè)效果。由于DegreeSAD算法從用戶(hù)選擇評(píng)分項(xiàng)目的方式入手，因此對(duì)于存在選擇項(xiàng)的流行攻擊和段攻擊，在填充率低于10%時(shí)，檢測(cè)效果不太理想，并且隨著填充率的增加，對(duì)于隨機(jī)攻擊的檢測(cè)存在F值下降的現(xiàn)象，說(shuō)明DegreeSAD算法的檢測(cè)不穩(wěn)定。對(duì)于半監(jiān)督學(xué)習(xí)SEDSA-CI算法，由于其使用K-means算法對(duì)標(biāo)記用戶(hù)進(jìn)行分類(lèi)，算法易受到聚類(lèi)中心選擇的影響，導(dǎo)致檢測(cè)效果不穩(wěn)定，且檢測(cè)效果較差。無(wú)監(jiān)督學(xué)習(xí)算法LFAMR從用戶(hù)評(píng)分的缺失項(xiàng)目潛在因素構(gòu)建分類(lèi)特征，在填充率較低時(shí)目標(biāo)項(xiàng)和選擇項(xiàng)的數(shù)目相差不大，算法對(duì)各類(lèi)攻擊的檢測(cè)能力均較差。

根據(jù)以上實(shí)驗(yàn)對(duì)比，基于用戶(hù)評(píng)分離散度的托攻擊檢測(cè)算法與傳統(tǒng)的有監(jiān)督學(xué)習(xí)的托攻擊檢測(cè)算法相比具有較好的檢測(cè)效果；同時(shí)與半監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)算法相比，不受填充率的影響，且具有較好的魯棒性。

5 結(jié)束語(yǔ)

托攻擊的檢測(cè)通常面臨魯棒性問(wèn)題，針對(duì)這一問(wèn)題，本文對(duì)真實(shí)用戶(hù)和攻擊概貌的評(píng)分分布情況進(jìn)行分析，發(fā)現(xiàn)真實(shí)用戶(hù)和攻擊概貌在評(píng)分頻數(shù)分布上是不同的。引入評(píng)分離散度作為衡量標(biāo)準(zhǔn)，將評(píng)分離散度的描述特征PER、RESV和SD作為檢測(cè)攻擊概貌的分類(lèi)特征。選擇信息增益最大的特征作為ID3決策樹(shù)的分類(lèi)屬性，對(duì)真實(shí)用戶(hù)和攻擊概貌進(jìn)行分類(lèi)，實(shí)現(xiàn)托攻擊的檢測(cè)。實(shí)驗(yàn)結(jié)果表明，本文算法在不同的填充率和攻擊強(qiáng)度下，對(duì)攻擊概貌均有較好的檢測(cè)效果，同時(shí)算法具有良好的魯棒性。本文算法主要針對(duì)單一推薦系統(tǒng)的托攻擊檢測(cè)，而目前分布式協(xié)同過(guò)濾算法越來(lái)越流行，下一步工作將對(duì)分布式協(xié)同過(guò)濾算法中的托攻擊檢測(cè)算法進(jìn)行研究。