• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于特征分析的推薦系統(tǒng)托攻擊檢測算法研究

      2017-04-18 18:13:11胡德敏朱德福
      軟件導(dǎo)刊 2017年2期
      關(guān)鍵詞:協(xié)同過濾推薦系統(tǒng)特征分析

      胡德敏 朱德福

      摘要 協(xié)同過濾是推薦系統(tǒng)中普遍使用的一種推薦技術(shù),然而協(xié)同推薦系統(tǒng)很容易遭受惡意用戶的攻擊。攻擊者通過向系統(tǒng)注入大量有規(guī)律的攻擊用戶信息,達(dá)到人為操縱推薦系統(tǒng)的目的。為了檢測系統(tǒng)中存在的攻擊用戶,通過研究攻擊用戶信息的統(tǒng)計(jì)特征,提出了一種基于特征分析的攻擊檢測算法。試驗(yàn)結(jié)果表明,該算法具有更高的檢測率,有效緩解了推薦系統(tǒng)遭受托攻擊操縱的問題,確保了推薦系統(tǒng)的可靠性。

      關(guān)鍵詞 推薦系統(tǒng);協(xié)同過濾;托攻擊;特征分析;攻擊檢測算法

      DOI DOI: 10.11907/rjdk.162568

      中圖分類號: TP312

      文獻(xiàn)標(biāo)識碼: A 文章編號 文章編號: 16727800(2017)002004206

      0 引言

      通過生成高質(zhì)量的個(gè)性化推薦結(jié)果,推薦系統(tǒng)能夠有效幫助用戶應(yīng)對信息過載問題。協(xié)同過濾 [13]是目前主流的推薦技術(shù),然而由于系統(tǒng)的開放性和用戶的參與性,基于協(xié)同過濾的推薦系統(tǒng)很容易受到惡意用戶攻擊,尤其是在電子商務(wù)網(wǎng)站中,這種惡意攻擊現(xiàn)象更加普遍。

      研究表明[46],基于協(xié)同過濾的推薦系統(tǒng)很容易遭受到托攻擊(shilling attack)影響,惡意用戶通過偽造虛假的用戶概貌模型,對系統(tǒng)實(shí)施托攻擊,使系統(tǒng)增加或減少對某些商品的推薦頻率。文獻(xiàn)[7]第一次提到通過人工設(shè)計(jì)用戶評分?jǐn)?shù)據(jù)模型就可成功操控系統(tǒng)推薦結(jié)果的例子,文獻(xiàn)[4]列舉了一些人為操縱推薦系統(tǒng)的真實(shí)案例,其中包括像Amazon和eBay等知名網(wǎng)站。表1中的數(shù)據(jù)簡略展示了托攻擊操縱協(xié)同推薦系統(tǒng)原理,該例中用戶評分等級是15分,分值越高代表用戶就越喜歡某個(gè)項(xiàng)目。該例中項(xiàng)目6是目標(biāo)項(xiàng)目,用戶6是目標(biāo)用戶,攻擊者的目的是增加系統(tǒng)對目標(biāo)項(xiàng)目的預(yù)測分值,即對其實(shí)施推舉攻擊。在不考慮攻擊用戶的情況下,系統(tǒng)根據(jù)目標(biāo)用戶的歷史評分和其近鄰用戶的歷史評分,預(yù)測目標(biāo)用戶對目標(biāo)項(xiàng)目的喜歡程度。若只考慮用戶1到用戶6之間的真實(shí)用戶信息,推薦系統(tǒng)則傾向于給目標(biāo)項(xiàng)目偏低的預(yù)測分值,并且不會(huì)將目標(biāo)項(xiàng)目推薦給目標(biāo)用戶。但是,如果同時(shí)考慮攻擊用戶1到攻擊用戶5之間的攻擊信息時(shí),由于這些攻擊用戶是目標(biāo)用戶的相似近鄰用戶,并且都給予目標(biāo)項(xiàng)目最高評分,從而系統(tǒng)就會(huì)傾向于給目標(biāo)項(xiàng)目一個(gè)較高的預(yù)測評分,將項(xiàng)目6推薦給用戶6,從而達(dá)到操縱推薦系統(tǒng)的目的。

      如何防范和檢測托攻擊,提升推薦系統(tǒng)的健壯性和穩(wěn)定性,成為近年推薦系統(tǒng)領(lǐng)域的研究熱點(diǎn)。本文針對推薦系統(tǒng)托攻擊檢測問題展開了研究。

      1 相關(guān)工作

      目前該領(lǐng)域經(jīng)常用到的技術(shù)有分類、聚類和統(tǒng)計(jì)學(xué)技術(shù)等。文獻(xiàn)[8]基于統(tǒng)計(jì)學(xué)知識,提出了幾個(gè)可用來分析攻擊用戶特征的統(tǒng)計(jì)量,通過試驗(yàn)評估了它們在檢測托攻擊中具有的潛能大小,提出了一種基于概率模型的攻擊檢測算法;文獻(xiàn)[9]通過研究現(xiàn)存的幾種不同攻擊模型特性,引進(jìn)了基于特定攻擊模型的攻擊檢測方法,通過利用有監(jiān)督的機(jī)器學(xué)習(xí)方法構(gòu)建分類器,區(qū)分攻擊用戶和真實(shí)用戶。但是,隨著新的攻擊策略出現(xiàn),該方法卻不能保證其檢測結(jié)果精準(zhǔn)度;文獻(xiàn)[10]針對推薦系統(tǒng)中存在的托攻擊現(xiàn)象進(jìn)行了綜述,總結(jié)了現(xiàn)有的攻擊模型、攻擊檢測方法等相關(guān)內(nèi)容,并指出了度量攻擊模型性能的統(tǒng)計(jì)度量標(biāo)準(zhǔn),最后指出該領(lǐng)域需要重點(diǎn)研究攻擊者難以檢測的問題;文獻(xiàn)[11]研究了托攻擊對基于SVD算法的推薦系統(tǒng)影響,在此基礎(chǔ)上提出了一種基于SVD算法的攻擊檢測方法,實(shí)驗(yàn)表明,提出的檢測算法針對隨機(jī)攻擊具有很高的檢測率,但在平均攻擊模型下的檢測率卻異常的低;文獻(xiàn)[12]通過對推薦系統(tǒng)攻擊模型的研究,提出了基于項(xiàng)目識別的用戶概貌攻擊檢測算法,最終試驗(yàn)表明,所提出的用戶概貌攻擊檢測算法對推舉攻擊的檢測能力很高,但是對于核攻擊的檢測效果卻不理想;文獻(xiàn)[13]提出了攻擊塊概念,提出通過挖掘攻擊塊算法(MAB)來檢測系統(tǒng)中存在的攻擊塊,然而在攻擊檢測問題上,只從理論上進(jìn)行了論證,未在真實(shí)數(shù)據(jù)集上對其效果進(jìn)行檢驗(yàn)。

      現(xiàn)有的一些攻擊檢測算法沒有充分利用用戶的統(tǒng)計(jì)特征,只是依賴于某一個(gè)固定特征,以此作為攻擊概貌檢測指標(biāo),這種單一的檢測標(biāo)準(zhǔn)在應(yīng)對不同攻擊場景或新出現(xiàn)的攻擊策略時(shí),很難保證檢測結(jié)果的精確度。為此,本文通過分析用戶概貌的統(tǒng)計(jì)特征,在充分利用用戶統(tǒng)計(jì)特征的基礎(chǔ)上,提出了一種新穎的DegAgrOptimize攻擊檢測算法。該算法主要分為兩個(gè)階段:①利用用戶評分模型的統(tǒng)計(jì)特征將所有的用戶劃分為真實(shí)用戶集和潛在攻擊用戶集;②利用與其他用戶的一致程度(DegAgr)這一統(tǒng)計(jì)特征進(jìn)行優(yōu)化處理,減少檢測結(jié)果中真實(shí)用戶的輸出。通過這兩個(gè)階段的處理,保證了算法的檢測率,降低了算法檢測的錯(cuò)誤率。

      2 托攻擊

      2.1 定義

      通常情況下,單個(gè)用戶信息不足以改變系統(tǒng)的推薦結(jié)果,攻擊者為了達(dá)到操縱推薦系統(tǒng)的目的,需要有規(guī)律地偽造大量的攻擊用戶信息,聯(lián)合起來對特定的目標(biāo)項(xiàng)目進(jìn)行攻擊。文獻(xiàn)[14]首次提出了攻擊用戶概貌的明確定義,如圖1所示。一個(gè)攻擊用戶的概貌信息可以表示為一個(gè) n 維評分向量, n 為系統(tǒng)中項(xiàng)目的總個(gè)數(shù)。攻擊概貌一般由4部分組成,IT為攻擊的目標(biāo)項(xiàng)目,當(dāng)攻擊類型是推舉攻擊或打壓攻擊時(shí)會(huì)分別賦予其系統(tǒng)所允許的最大或最小評分,填充項(xiàng)目集合IF用來掩飾攻擊用戶,使其看起來更像是系統(tǒng)中的真實(shí)用戶,同時(shí)填充項(xiàng)目集合也保證了攻擊用戶與系統(tǒng)中真實(shí)用戶的近鄰關(guān)系,IS是具有某種特定評分特征的項(xiàng)目集合,集合Iφ是攻擊用戶概貌中未被評分的項(xiàng)目。攻擊概貌的不同生成策略決定了不同的攻擊模型,同時(shí)也賦予攻擊用戶與真實(shí)用戶之間不同的統(tǒng)計(jì)量特征。

      2.2 攻擊類型

      文獻(xiàn)[4]提出了兩種攻擊模型:隨機(jī)攻擊和平均攻擊,并且分析了它們對基于用戶和基于項(xiàng)目的協(xié)同過濾推薦系統(tǒng)性能的影響,文獻(xiàn)[15]對目前存在的推薦系統(tǒng)托攻擊進(jìn)行了綜合的調(diào)查分析,并列舉了其它的攻擊模型,其中包括局部攻擊、喜愛/憎惡攻擊和混合攻擊等。隨機(jī)攻擊和平均攻擊是現(xiàn)實(shí)中常見的攻擊類型,因此本文主要研究這兩種攻擊模型的托攻擊檢測問題。

      2.2.1 隨機(jī)攻擊

      在隨機(jī)攻擊中,填充項(xiàng)目會(huì)被賦予隨機(jī)評分值,隨機(jī)值在所有用戶對所有商品的平均評分值為中心的某個(gè)很小范圍內(nèi)隨機(jī)選取。根據(jù)攻擊目的不同,在推舉攻擊或打壓攻擊中分別賦予目標(biāo)項(xiàng)目系統(tǒng)允許的最高或最低評分。隨機(jī)攻擊實(shí)施比較簡單,只需要稍微了解系統(tǒng)數(shù)據(jù)庫知識即可進(jìn)行攻擊。

      2.2.2 平均攻擊

      平均攻擊比隨機(jī)攻擊略微復(fù)雜一些,在平均攻擊中每個(gè)項(xiàng)目的平均評分用作為填充項(xiàng)目的評分值。攻擊用戶的這種生成策略考慮了已有評分?jǐn)?shù)據(jù)集的更多信息,保證了生成的攻擊用戶有更多的近鄰用戶,從而在采取協(xié)同過濾技術(shù)的推薦系統(tǒng)中能夠影響更多用戶的推薦結(jié)果。平均攻擊類型的代價(jià)是需要額外的系統(tǒng)知識來確定評分值,即需要估計(jì)每個(gè)物品的平均得分值。在某些推薦系統(tǒng)中,系統(tǒng)會(huì)顯式提供這些評分值,因此平均攻擊的實(shí)施會(huì)變得更容易。已有研究結(jié)果表明[5],在平均攻擊模型中,當(dāng)攻擊用戶信息中只含有很少一部分填充項(xiàng)目評分的情況下,就能夠?qū)谟脩舻膮f(xié)同推薦系統(tǒng)產(chǎn)生明顯影響。在平均攻擊中,攻擊用戶對目標(biāo)項(xiàng)目的評分同隨機(jī)攻擊一樣,根據(jù)攻擊目的不同分別對目標(biāo)項(xiàng)目賦予系統(tǒng)所允許的最高或最低評分。

      3 統(tǒng)計(jì)量與算法描述

      3.1 統(tǒng)計(jì)量

      經(jīng)過上述分析可知,為了達(dá)到人工操縱推薦系統(tǒng)的目的,托攻擊實(shí)施者需要向系統(tǒng)有規(guī)律地注入大量的攻擊用戶信息。根據(jù)攻擊用戶信息的生成策略可知,攻擊用戶與真實(shí)用戶之間存在區(qū)別,不同之處主要體現(xiàn)在3個(gè)方面:①對目標(biāo)項(xiàng)目的評分;②對填充項(xiàng)目的評分;③由于所有的攻擊用戶信息采用同樣的生成策略,致使攻擊用戶信息之間具有高度的相似性。

      本文通過對攻擊用戶信息特征進(jìn)行分析,利用攻擊用戶信息與真實(shí)用戶信息之間統(tǒng)計(jì)特征的區(qū)別,提出基于特征分析的攻擊檢測算法,來區(qū)分系統(tǒng)中的真實(shí)用戶和攻擊用戶。文獻(xiàn) [8]中列舉的幾個(gè)統(tǒng)計(jì)量從不同角度反映了攻擊概貌有別于真實(shí)用戶概貌的特征,本文主要研究用戶以下3個(gè)統(tǒng)計(jì)特征:平均背離度(RDMA)、與其他用戶的一致度(DegAgr)和平均相似度(DegSim)。

      3.1.1 平均背離度

      平均背離度反映了系統(tǒng)中某個(gè)用戶的評分向量與其他用戶的平均偏離程度,某一用戶的平均背離度計(jì)算公式如下:RDMA = ∑ Nu i = 0 ru,i -ri NR

      其中Nu是用戶u評過分的項(xiàng)目個(gè)數(shù),ru,i是用戶 u 對項(xiàng)目 i 的評分, ri 是項(xiàng)目 i 的系統(tǒng)評分均值,NRi是系統(tǒng)中對項(xiàng)目 i 有過評分的用戶個(gè)數(shù)。在推舉攻擊中,目標(biāo)項(xiàng)目往往是那些評分較低的項(xiàng)目。為了達(dá)到推舉攻擊目的,攻擊用戶會(huì)賦予目標(biāo)項(xiàng)目最高的評分值,導(dǎo)致攻擊用戶會(huì)背離系統(tǒng)中真實(shí)用戶的評分習(xí)慣,從而使攻擊用戶具有較高的平均背離度。同樣,在打壓攻擊中攻擊用戶會(huì)賦予目標(biāo)項(xiàng)目最低的評分值,也會(huì)由于攻擊用戶對目標(biāo)項(xiàng)目的評分習(xí)慣與真實(shí)用戶背離,使得攻擊用戶具有較高的平均背離度。

      圖2給出了在隨機(jī)攻擊下每個(gè)用戶的平均背離度分布情況,試驗(yàn)數(shù)據(jù)集來自MovieLens,其中編號為944至968的用戶是人為注入到數(shù)據(jù)集中的攻擊用戶。從圖1可以看出,統(tǒng)計(jì)量RDMA提供了一個(gè)有效檢測攻擊用戶的指標(biāo)。

      3.1.2 與其他用戶的一致程度

      該統(tǒng)計(jì)量用來度量某一用戶與其他用戶評分的一致性程度,計(jì)算公式如下:

      其中ru,i是用戶 u 對項(xiàng)目 i 的評分, k 是用戶 u 有過評分的項(xiàng)目個(gè)數(shù), ri 是項(xiàng)目 i 獲得評分的均值。在后面的試驗(yàn)中,從局部角度出發(fā),計(jì)算每一個(gè)用戶與其最相似的25個(gè)近鄰用戶之間統(tǒng)計(jì)值。圖3給出了在隨機(jī)攻擊下用戶統(tǒng)計(jì)量DegAgr的分布,其中編號為944至968的用戶是人為注入到數(shù)據(jù)集中的攻擊用戶。試驗(yàn)結(jié)果發(fā)現(xiàn)攻擊用戶之間的DegAgr值在一個(gè)很小的范圍內(nèi)波動(dòng),幾乎是相等的,這主要是因?yàn)楣粲脩粜畔⒉扇⊥瑯拥纳刹呗?,因此攻擊用戶概貌中填充?xiàng)目的評分值幾乎是一樣的。本文提出的算法也正是利用攻擊用戶這一統(tǒng)計(jì)特征,對算法的檢測結(jié)果進(jìn)行了優(yōu)化處理,移除檢測結(jié)果中誤判的真實(shí)用戶,從而保證算法對攻擊用戶的檢測率,降低檢測算法的錯(cuò)誤率。

      3.1.3 平均相似度該統(tǒng)計(jì)量用來度量某一用戶與系統(tǒng)中其他用戶之間平均相似度的大小,計(jì)算公式如下:

      其中Wu,v是根據(jù)皮爾遜相關(guān)系數(shù)計(jì)算出來的用戶之間的相似性。由于皮爾遜相關(guān)系數(shù)計(jì)算時(shí)依賴用戶之間共同評分的項(xiàng)目個(gè)數(shù),當(dāng)共同評分的項(xiàng)目較少時(shí),用戶之間的相似性會(huì)受到影響,對此本文對其作如下調(diào)整:

      3.2 算法描述

      攻擊用戶往往具有較高的平均背離度和平均相似度,同時(shí)具有幾乎相同的評分一致度。在算法第一階段,利用平均背離度和平均相似度這兩個(gè)統(tǒng)計(jì)量,將所有的用戶劃分為攻擊用戶集和真實(shí)用戶集,即當(dāng)某個(gè)用戶的平均背離度大于某個(gè)設(shè)定的閾值tr時(shí),將其添加到可疑攻擊用戶集合中。同樣,當(dāng)某個(gè)用戶的平均相似度大于某個(gè)設(shè)定閾值td時(shí),將其添加到可疑的攻擊用戶集合中。經(jīng)過第一階段,可疑的攻擊用戶集合中會(huì)含有幾乎所有的攻擊用戶和少量的真實(shí)用戶。在算法第二階段,利用統(tǒng)計(jì)量DegAgr對第一階段得到的可疑攻擊用戶集進(jìn)行優(yōu)化處理。由于每一個(gè)攻擊用戶的DegAgr值幾乎相同,因此可疑攻擊用戶集合中大部分用戶的這一統(tǒng)計(jì)值都會(huì)集中接近于某個(gè)數(shù)值,不妨將這個(gè)數(shù)值看作眾數(shù)(Mode),然后從可疑攻擊用戶集合中移除那些明顯偏離眾數(shù)的用戶,偏離程度用閾值tm表示。經(jīng)過上述兩個(gè)階段的處理,將最終得到的可疑攻擊用戶集合作為檢測結(jié)果輸出,算法步驟如下:

      DegAgr-Optimize攻擊檢測算法

      輸入:用戶評分矩陣

      輸出:攻擊用戶集合

      ①對于每個(gè)用戶

      計(jì)算該用戶的 RDMA 和 DegSim 值;

      ②如果該用戶的 RDMA 值大于設(shè)定的閾值tr或該用戶的 DegSim 值大于設(shè)定的閾值td,

      則將該用戶添加到可疑攻擊用戶集合中;③對于可疑攻擊用戶集合中的每個(gè)用戶

      計(jì)算該用戶的 DegAgr 值;

      ④計(jì)算出可疑攻擊用戶集合中所有用戶 DegAgr 值中的眾數(shù) Mode;

      ⑤對于可疑攻擊用戶集合中的每個(gè)用戶,

      計(jì)算該用戶的 DegAgr 值與眾數(shù) Mode 之間的偏離程度: DegAgr-Mode ,

      如果差值大于設(shè)定的閾值tr,

      則將該用戶從可疑攻擊用戶集合中移除;

      ⑥輸出可疑攻擊用戶集合

      4 實(shí)驗(yàn)

      4.1 數(shù)據(jù)集

      實(shí)驗(yàn)中用到的數(shù)據(jù)集來自MovieLens,該數(shù)據(jù)集包含了943個(gè)用戶對1682部電影的100,000條評分,評分等級是1-5分,分值越高表示用戶對某個(gè)電影越滿意,數(shù)據(jù)集中的每個(gè)用戶都至少對20個(gè)電影有過評分記錄。

      實(shí)驗(yàn)在不同攻擊大小和填充大小的條件下進(jìn)行,攻擊大小定義為注入到系統(tǒng)中的攻擊用戶數(shù)量與系統(tǒng)中所有用戶的百分比,填充大小定義為攻擊用戶概貌中填充項(xiàng)目的個(gè)數(shù)與系統(tǒng)中所有項(xiàng)目的百分比。

      4.2 算法評估標(biāo)準(zhǔn)

      為評估算法的檢測效果,本文采用檢測率和錯(cuò)誤率作為評定標(biāo)準(zhǔn),定義如下:

      檢測率= #真正用戶 #攻擊用戶 (5)

      錯(cuò)誤率= #假正用戶 #真實(shí)用戶 (6)

      其中,#真正用戶表示被算法準(zhǔn)確檢測出來的攻擊用戶個(gè)數(shù),#攻擊用戶表示所有注入到數(shù)據(jù)集中的攻擊用戶個(gè)數(shù),#假正用戶表示被誤判為攻擊者的真實(shí)用戶個(gè)數(shù),#真實(shí)用戶表示系統(tǒng)中真實(shí)用戶的個(gè)數(shù)。檢測率的值越大說明算法的檢測能力越高,錯(cuò)誤率越低說明算法檢測結(jié)果中假正用戶的個(gè)數(shù)越少,算法檢測的準(zhǔn)確率越高。

      4.3 參數(shù)分析

      算法中用到的參數(shù)有tr、td和tm。參數(shù)tr和td的選取依據(jù)是要保證統(tǒng)計(jì)量RDMA和DegSim具有較高的區(qū)分度,這樣就可容易區(qū)分真實(shí)用戶和攻擊用戶,同時(shí)也保證在算法的第一個(gè)階段中可疑攻擊用戶集合盡可能包含所有的攻擊用戶,盡管這樣做會(huì)有一小部分真實(shí)用戶被誤判為攻擊用戶,但在第二階段的優(yōu)化過程中,還是有機(jī)會(huì)將這些假正用戶移除。在選定的數(shù)據(jù)集規(guī)模下,閾值tr和td選取為系統(tǒng)中所有用戶的均值時(shí),即可保證它們具有較高的區(qū)分度。試驗(yàn)中通過對所有用戶統(tǒng)計(jì)量DegAgr的分布特點(diǎn)進(jìn)行分析,得到當(dāng)閾值tm取0.02時(shí),即可保證算法取得較好的檢測效果。

      5 試驗(yàn)結(jié)果與分析

      試驗(yàn)設(shè)計(jì)為2×5×5不同實(shí)驗(yàn)條件下的攻擊場景,即攻擊模型(隨機(jī)攻擊、平均攻擊),攻擊大小(1%,2%,5%,10%,15%),填充大?。?%,3%,5%,10%,25%)。

      圖5展示了填充大小為5%,攻擊大小作為變量時(shí)的攻擊檢測結(jié)果??梢钥闯?,無論在隨機(jī)推舉攻擊還是平均推舉攻擊中,算法的整體檢測率在96%以上,而且隨著攻擊大小的變化,檢測結(jié)果能夠穩(wěn)定保持在96%~98.5%之間,體現(xiàn)了檢測算法的穩(wěn)定性。

      從圖6中還可看出,在攻擊大小保持不變的情況下,隨著攻擊用戶填充大小的不斷增大,檢測率有穩(wěn)步上升趨勢。這主要是因?yàn)殡S著攻擊用戶填充大小的增加,攻擊用戶的統(tǒng)計(jì)特征就越顯著,攻擊用戶之間的規(guī)律性就越明顯,致使攻擊用戶能容易地檢測出來。

      表2和表3給出了算法檢測結(jié)果的錯(cuò)誤率。實(shí)驗(yàn)中,雖然經(jīng)過算法第一個(gè)階段處理后,會(huì)有少量的真實(shí)用戶被誤認(rèn)為是攻擊用戶,但是在第二階段中,通過利用統(tǒng)計(jì)量DegAgr的優(yōu)化處理,大幅度降低了真實(shí)用戶的輸出,從而使得檢測算法的錯(cuò)誤率保持在很小的范圍內(nèi),從表2和表3可以得出算法檢測的錯(cuò)誤率在0.10%~0.25%之間。較低的錯(cuò)誤率也反映了檢測結(jié)果的準(zhǔn)確性。

      在與文獻(xiàn)[11]的對比實(shí)驗(yàn)中,為確保試驗(yàn)結(jié)果的可比性,試驗(yàn)選擇大小為1M的MovieLens數(shù)據(jù)集,同文獻(xiàn)[11]中的試驗(yàn)參數(shù)保持一致。表4給出了在隨機(jī)推舉攻擊下的試驗(yàn)對比結(jié)果,其中攻擊用戶的填充規(guī)模固定為2000,攻擊規(guī)模作為變量。從實(shí)驗(yàn)結(jié)果可以看出本文的檢測算法在處理更大規(guī)模的數(shù)據(jù)集時(shí),檢測率也能保持在96%,比文獻(xiàn)[11]的檢測率整體上要高出1%左右。

      表5給出了在攻擊用戶個(gè)數(shù)固定為100,不同填充規(guī)模條件下的隨機(jī)推舉攻擊試驗(yàn)結(jié)果??梢钥闯?,當(dāng)攻擊用戶的填充規(guī)模低于150時(shí),文獻(xiàn)[11]中的檢測率異常低,說明當(dāng)填充規(guī)模較小時(shí),文獻(xiàn)[11]中提出的基于SVD的檢測算法并不能有效檢測出數(shù)據(jù)集中存在的攻擊用戶;而本文的檢測算法,即使在填充規(guī)模低于150時(shí),也能獲得95%的檢測率,而且隨著填充規(guī)模的增大,檢測率有穩(wěn)步上升趨勢,這主要是因?yàn)殡S著攻擊用戶填充規(guī)模的不斷增大,攻擊用戶的統(tǒng)計(jì)特征變得越來越突出,攻擊用戶之間所具有的規(guī)律性也就越顯著,從而使算法能夠準(zhǔn)確檢測出人為注入到數(shù)據(jù)集中的攻擊用戶。

      通過試驗(yàn)分析可知,本文所提出的攻擊檢測算法的整體檢測率能保持在95%,與文獻(xiàn)[11]中的試驗(yàn)結(jié)果相比具有更高的檢測率;錯(cuò)誤率保持在0.10%-0.25%之間的一個(gè)很低范圍內(nèi),確保了算法檢測結(jié)果的準(zhǔn)確性。綜合評價(jià),本文提出的攻擊檢測算法高效可行。

      6 結(jié)語

      隨著推薦系統(tǒng)重要性的日益顯現(xiàn),推薦系統(tǒng)的健壯性和安全性問題受到高度重視。本文主要采用了統(tǒng)計(jì)學(xué)技術(shù),充分研究了用戶的統(tǒng)計(jì)特征,文中提出的DegAgrOptimize攻擊檢測算法綜合利用了用戶概貌的統(tǒng)計(jì)特征,并在隨機(jī)攻擊和平均攻擊模型下驗(yàn)證了該算法對攻擊用戶的檢測效果。試驗(yàn)結(jié)果表明,該算法能夠高效檢測系統(tǒng)中存在的攻擊用戶。后續(xù)工作中,將繼續(xù)研究該算法在其它攻擊模型下的檢測效果。

      參考文獻(xiàn):

      [1] GOOD N,SCHAFER J B,KONSTAN J A,et al.Combining collaborative filtering with personal agents for better recommendations[C].Sixteenth National Conference on Artificial Intelligence and the EleventhInnovative Applications of Artificial Intelligence Conference Innovative Applications of Artificial Intelligence.American Association for Artificial Intelligence,1999:439446.

      [2] HERLOCKER J L,KONSTAN J A,BORCHERS A,et al.An algorithmic framework for performing collaborative filtering[C].SIGIR '99: Proceedings of the,International ACM SIGIR Conference on Research and Development in Information Retrieval,Augus 1519,1999,Berkeley,Ca,Usa,1999:230237.

      [3] HERLOCKER J L.Evaluating collaborative filtering recommender systems[J].Acm Transactions on Information Systems,2004,22(1):553.

      [4] LAM S K,RIEDL J.Shilling recommender systems for fun and profit[C].International Conference on World Wide Web.ACM,2004:393402.

      [5] BURKE R,MOBASHER B,BHAUMIK R.Limited knowledge shilling attacks in collaborative filtering systems[J].Proceedings of Ijcai Workshop in Intelligent Techniques for Personalization,2005(2):155164.

      [6] M O MAHONY,N HURLEY,N KUSHMERICK,et al.Collaborative recommendation:arobustnessanalysis[C].ACM Transactions on Internet Technology,2004,4(4):344377.

      [7] OMAHONY M P,HURLEY N J,SILVESTRE G C M.Promoting recommendations:an attack on collaborative filtering[C].International Conference on Database and Expert Systems Applications.SpringerVerlag,2002:494503.

      [8] CHIRITA P A,NEJDL W,ZAMFIR C.Preventing shilling attacks in online recommender systems[C].ACM International Workshop on Web Information andData Management,2005:6774.

      [9] BURKE R,MOBASHER B,WILLIAMS C,et al.Classification features for attack detection in collaborative recommender systems[C].Twelfth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Philadelphia,Pa,Usa,August,2006:542547.

      [10] ZHANG F.A survey of shilling attacks in collaborative filtering recommender systems[C].International Conference on Computational Intelligence and Software Engineering.IEEE,2009:14.

      [11] ZHANG S,OUYANG Y,F(xiàn)ORD J,et al.Analysis of a lowdimensional linear model under recommendation attacks.[C].SIGIR 2006: Proceedings of the,International ACM SIGIR Conference on Research and Development in Information Retrieval,Seattle,Washington,Usa,August.2006:517524.

      [12] 高潔,鄧尉,盧美蓮.推薦系統(tǒng)中惡意攻擊檢測方法的實(shí)現(xiàn)[EB/OL].[20131223].http://www.paper.edu.cn/releasepaper/content/201312694.

      [13] 瞿春燕.推薦系統(tǒng)內(nèi)攻擊塊檢測算法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2015.

      [14] BHAUMIK R,WILLIAMS C,MOBASHER B,et al.Securing collaborative filtering against malicious attacksthrough anomaly detection[J].Aaai Workshop on Intelligent Techniques for Web Personalization,2006(5):224231.

      [15] GUNES I,KALELI C,BILGE A,et al.Shilling attacksagainst recommender systems: a comprehensive survey[J].Artificial Intelligence Review,2014,42(4):767799.

      (責(zé)任編輯:杜能鋼)

      猜你喜歡
      協(xié)同過濾推薦系統(tǒng)特征分析
      2012 年南海夏季風(fēng)特征分析
      基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型
      基于鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計(jì)與實(shí)現(xiàn)
      基于相似傳播和情景聚類的網(wǎng)絡(luò)協(xié)同過濾推薦算法研究
      基于個(gè)性化的協(xié)同過濾圖書推薦算法研究
      個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
      基于協(xié)同過濾算法的個(gè)性化圖書推薦系統(tǒng)研究
      混合推薦算法在電影推薦中的研究與評述
      淺談Mahout在個(gè)性化推薦系統(tǒng)中的應(yīng)用
      基于PowerPC的脈內(nèi)特征分析算法的工程實(shí)現(xiàn)
      依安县| 晋江市| 嵊泗县| 古浪县| 临海市| 灵川县| 大洼县| 栾城县| 开江县| 马山县| 双峰县| 汶上县| 茌平县| 雅安市| 岚皋县| 吉隆县| 澄城县| 巴彦淖尔市| 博野县| 师宗县| 沙坪坝区| 桃源县| 肇州县| 宾阳县| 醴陵市| 衡水市| 阜南县| 漳州市| 乌恰县| 江安县| 寿光市| 壤塘县| 鄢陵县| 房山区| 铜鼓县| 大英县| 阜康市| 资溪县| 泸西县| 蒲城县| 新乐市|