黃 衛(wèi),江官星
(南昌航空大學(xué)科技學(xué)院,江西 共青城 332020)
網(wǎng)絡(luò)大數(shù)據(jù)日益增多,用戶在海量數(shù)據(jù)中很難挖掘出所需數(shù)據(jù)[1],且由于數(shù)據(jù)庫信息較多,搜索引擎得出的結(jié)果也較多,用戶無法從中快速提取出所需目標(biāo)數(shù)據(jù),得出的結(jié)果僅能根據(jù)相關(guān)內(nèi)容信息量完成排序,而不能根據(jù)用戶真實(shí)的興趣點(diǎn)提供相應(yīng)內(nèi)容[2]。同時(shí)部分用戶在查找信息過程中不知如何描述關(guān)鍵詞,無法得出理想數(shù)據(jù),因此提出數(shù)據(jù)推薦算法。根據(jù)用戶的歷史信息以及關(guān)鍵詞等信息預(yù)測出用戶興趣點(diǎn)并以此搜索相關(guān)信息向用戶推薦,推薦算法的應(yīng)用大大提高了工作效率,也進(jìn)一步發(fā)展數(shù)據(jù)挖掘技術(shù),大數(shù)據(jù)在網(wǎng)絡(luò)化以及透明化的同時(shí)也對(duì)用戶的信息產(chǎn)生威脅,即在向用戶推薦信息的同時(shí),用戶的隱私數(shù)據(jù)可能暴露給不法分子,即為目前網(wǎng)絡(luò)數(shù)據(jù)推薦算法需要優(yōu)化的問題,現(xiàn)對(duì)網(wǎng)絡(luò)信息防泄漏[3]推薦算法展開研究。
李家華[4]等人利用大數(shù)據(jù)設(shè)計(jì)出信息個(gè)性化算法,運(yùn)用Map將推薦目標(biāo)進(jìn)行分解,得出結(jié)果后利用Reduce進(jìn)行結(jié)合處理,其次在用戶偏好獲取算法下對(duì)用戶興趣點(diǎn)進(jìn)行挖掘,實(shí)現(xiàn)網(wǎng)絡(luò)信息的推薦。胡敏[5]等人首先獲取用戶的大量歷史數(shù)據(jù),并從不同角度收集用戶的隱式行為特征,根據(jù)特征有效性過濾掉不可用的特征,進(jìn)而建立出用戶的潛在興趣點(diǎn)模型,最終基于特征相關(guān)性原理建立出興趣點(diǎn)特征函數(shù),實(shí)現(xiàn)網(wǎng)絡(luò)信息的推薦。以上兩種算法沒有提前對(duì)隱私數(shù)據(jù)進(jìn)行變換和保護(hù)處理,不僅不能保證數(shù)據(jù)的穩(wěn)定性,同時(shí)提高推薦算法的復(fù)雜度,導(dǎo)致其計(jì)算效率低下,準(zhǔn)確度降低,存在算法性能低的問題。
為解決上述算法中存在的問題,提出基于隱私大數(shù)據(jù)的網(wǎng)絡(luò)信息防泄漏推薦算法。
基于轉(zhuǎn)換隨機(jī)化方法實(shí)現(xiàn)隱私數(shù)據(jù)保護(hù)時(shí),首先需要任意計(jì)算出一個(gè)符合大數(shù)據(jù)環(huán)境的隱私數(shù)據(jù)特征的變換函數(shù),通過變換函數(shù)將原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換,實(shí)現(xiàn)隨機(jī)化回答[6]。
假設(shè)隱私大數(shù)據(jù)環(huán)境下的隱私數(shù)據(jù)集為A={a1,a2,…,al},其成分的均值為
(1)
式中,l代表隱私數(shù)據(jù)的屬性值,i代表數(shù)據(jù)特征向量,ai代表數(shù)據(jù)的損失內(nèi)容。
數(shù)據(jù)A成分的方差表達(dá)式為
(2)
假設(shè)隱私大數(shù)據(jù)環(huán)境下固定存在的隱私數(shù)據(jù)集為B={b1,b2,…,bm},則B中的成分均值表達(dá)式為
(3)
式中,m代表隱私數(shù)據(jù)在總樣本數(shù)據(jù)中的比重,bi代表隱私大數(shù)據(jù)的實(shí)驗(yàn)樣本。
數(shù)據(jù)B成分的方差表達(dá)式為
(4)
當(dāng)隱私數(shù)據(jù)屬于數(shù)值類別時(shí),此時(shí)的數(shù)據(jù)隨機(jī)函數(shù)表達(dá)式為
r(x)=b+ax
(5)
其中,r(x)代表隱私數(shù)據(jù)x的隨機(jī)函數(shù),a∈A,b∈B。
則隱私數(shù)據(jù)的變換處理公式為
y=r(x)
(6)
得出初始隱私數(shù)據(jù)集D的相應(yīng)屬性計(jì)算公式為
Y=R(X)
(7)
其中,R(X)代表與隱私數(shù)據(jù)較為類似的樣本數(shù)據(jù)。
假設(shè)數(shù)據(jù)集X滿足高斯分布原則,則隱私數(shù)據(jù)的無偏差預(yù)測量的表達(dá)式為:
(8)
式中,xi代表隱私數(shù)據(jù)隨機(jī)化函數(shù)的參數(shù)值。
在計(jì)算過程中將均值設(shè)定為0,以此保證計(jì)算量最少,進(jìn)而提高計(jì)算效率,此時(shí)的初始隱私數(shù)據(jù)x均值的估計(jì)值為
(9)
初始隱私數(shù)據(jù)x均值的計(jì)算公式為
(10)
(11)
(12)
隱私數(shù)據(jù)保護(hù)算法[7,8]主要是根據(jù)數(shù)據(jù)特征劃分出滿足大小要求的簇,并求解出完成劃分的簇中的節(jié)點(diǎn)個(gè)數(shù),在增加邊的技術(shù)下實(shí)現(xiàn)隱私數(shù)據(jù)的防泄漏。
第一步:計(jì)算隱私數(shù)據(jù)的量化信息丟失量。
隨意提取網(wǎng)絡(luò)中的一個(gè)簇,即Clt,該簇的標(biāo)識(shí)符公式如下所示
Q=(n1,n2,…,ns,c1,c2,…,ct)
(13)
則Q在泛化的情況下生成的數(shù)據(jù)丟失量表達(dá)式為
(14)
其中,|Clt|代表網(wǎng)絡(luò)隱私數(shù)據(jù)中簇內(nèi)節(jié)點(diǎn)的總數(shù),ni代表簇的節(jié)點(diǎn)度。
假設(shè)網(wǎng)絡(luò)隱私數(shù)據(jù)共生成m個(gè)簇,此時(shí)數(shù)據(jù)的總丟失量表達(dá)式為
(15)
式中,G代表網(wǎng)絡(luò)節(jié)點(diǎn)
第二步:計(jì)算隱私數(shù)據(jù)結(jié)構(gòu)信息丟失量。
假設(shè)隱私大數(shù)據(jù)中網(wǎng)絡(luò)節(jié)點(diǎn)G的表達(dá)式為
G=(V,E)
(16)
式中,V代表簇中某節(jié)點(diǎn)的集合,且V={v1,v2,…,vn},E代表節(jié)點(diǎn)連接的邊。
則節(jié)點(diǎn)間可形成邊的最大數(shù)量為
(17)
其中,vi代表簇內(nèi)節(jié)點(diǎn),k(vi)代表節(jié)點(diǎn)度,k代表隱私數(shù)據(jù)參數(shù)。
假設(shè)已知節(jié)點(diǎn)間的真實(shí)成邊總數(shù),則節(jié)點(diǎn)vi的聚集數(shù)量為
(18)
式中,E(vi)代表節(jié)點(diǎn)之間形成邊的總數(shù)。
因此隱私大數(shù)據(jù)環(huán)境下G以及網(wǎng)絡(luò)簇Clt的聚類系數(shù)之和的表達(dá)式分別為
(19)
其中,|CL|代表數(shù)據(jù)的限定閾值。
綜上所述總結(jié)出數(shù)據(jù)丟失量的求解公式為
NTQL=FQL-EQL
(20)
若網(wǎng)絡(luò)隱私數(shù)據(jù)簇中實(shí)際有N個(gè)節(jié)點(diǎn),m個(gè)簇,則各個(gè)簇的中的實(shí)際使用用戶計(jì)算公式為
Ni=N·(ni/(n1+n2+…+nm))
(21)
其中,ni代表簇的順序?yàn)閕的節(jié)點(diǎn)個(gè)數(shù),且m≥i≥1。
最終確保所有節(jié)點(diǎn)連接穩(wěn)定的情況下,篩選出節(jié)點(diǎn)個(gè)數(shù)最少的節(jié)點(diǎn),將其與新節(jié)點(diǎn)進(jìn)行連接,完成隱私大數(shù)據(jù)網(wǎng)絡(luò)信息的防泄漏。
大多的網(wǎng)絡(luò)信息推薦算法[9,10]都是根據(jù)權(quán)重定制出用戶專屬的推薦內(nèi)容,但這種推薦算法極易泄露用戶的隱私信息。由于該算法需要收集十分詳細(xì)的用戶信息以此分析出用戶可能存在的興趣點(diǎn),隨著人們隱私信息保護(hù)意識(shí)增強(qiáng),在不影響網(wǎng)絡(luò)信息推薦的同時(shí)還需防止用戶信息被泄露是現(xiàn)階段的研究目標(biāo)。
經(jīng)研究發(fā)現(xiàn),基于協(xié)同濾過的推薦算法是不影響推薦性能且不泄露用戶隱私的最佳推薦算法,該算法主要將每種項(xiàng)目的特征分類到相應(yīng)的群組內(nèi),根據(jù)每種群組的評(píng)價(jià)估計(jì)出用戶對(duì)此項(xiàng)目的感興趣程度,將這種行為稱為群組的交互行為,根據(jù)交互行為可很好的顯示出用戶對(duì)項(xiàng)目的感興趣程度,因此在推薦過程中需要提取項(xiàng)目特征并進(jìn)行劃分群組,當(dāng)用戶評(píng)價(jià)出群組中某個(gè)項(xiàng)目,根據(jù)同一群組內(nèi)評(píng)價(jià)結(jié)果相似的特性進(jìn)行推薦,且推薦的過程僅僅收集項(xiàng)目本身的特征,直接從根源上切斷用戶的隱私信息。
經(jīng)總結(jié),協(xié)同過濾推薦算法就是依據(jù)用戶對(duì)相似特征項(xiàng)目的評(píng)價(jià)結(jié)果進(jìn)行推薦,在計(jì)算過程中可根據(jù)項(xiàng)目屬性特征向量建立出項(xiàng)目的特征近似矩陣,并將其與用戶的評(píng)價(jià)矩陣進(jìn)行融合,生成鄰近項(xiàng)目群組,并充分估計(jì)填充矩陣,最終預(yù)測出項(xiàng)目感興趣程度分?jǐn)?shù),進(jìn)而完成信息推薦,具體計(jì)算過程如下所示。
首先構(gòu)建出項(xiàng)目特征相似性模型完成近似項(xiàng)目的劃分,構(gòu)建此模型需要對(duì)項(xiàng)目特征數(shù)據(jù)進(jìn)行量化處理,計(jì)算其相似性以及相似項(xiàng)目集合。
1)數(shù)據(jù)的量化處理
假設(shè)某項(xiàng)目被分成n個(gè)互不依賴的特征,此項(xiàng)目的n維向量表達(dá)式為
(ci1,ci2,…,cin)
(22)
式中,cin表示項(xiàng)目i的第n個(gè)屬性的特征值。
2)項(xiàng)目相似度計(jì)算
項(xiàng)目相似度計(jì)算的表達(dá)式如下所示
(23)
項(xiàng)目特征的相似度計(jì)算是構(gòu)建該模型的關(guān)鍵步驟,完成此步驟即代表完成了模型的構(gòu)建。
為防止用戶的項(xiàng)目評(píng)分矩陣過少,需要提前篩選出至少評(píng)價(jià)過其中一種項(xiàng)目的用戶,則評(píng)價(jià)過項(xiàng)目的用戶集合為
(24)
式中,u代表用戶,ru,i代表用戶對(duì)項(xiàng)目i的評(píng)價(jià)結(jié)果,ru,j代表用戶對(duì)項(xiàng)目j的評(píng)價(jià)結(jié)果。
利用相似特征群組的評(píng)價(jià)對(duì)未進(jìn)行評(píng)價(jià)的項(xiàng)目的評(píng)分進(jìn)行估計(jì),最終生成目標(biāo)項(xiàng)目的最近鄰居。
則用戶集對(duì)項(xiàng)目i的評(píng)分表達(dá)式為
(25)
式中,rui=0代表用戶未評(píng)價(jià)過項(xiàng)目i,pui代表預(yù)測評(píng)分,rui代表實(shí)際評(píng)分。
若用戶已評(píng)價(jià)過項(xiàng)目i,此時(shí)的評(píng)分為rui,反之,可利用實(shí)際評(píng)分rui進(jìn)行pui的預(yù)測,其公式為
(26)
式中,Ci代表項(xiàng)目i的特征。
最終根據(jù)項(xiàng)目實(shí)際評(píng)分rui和預(yù)測pui篩選出用戶的興趣點(diǎn),并將其推薦給用戶,完成網(wǎng)絡(luò)數(shù)據(jù)的推薦,同時(shí)防止隱私數(shù)據(jù)的泄露。
為了驗(yàn)證基于隱私大數(shù)據(jù)的網(wǎng)絡(luò)信息防泄漏推薦算法的整體有效性,分別采用所提算法、文獻(xiàn)[4]算法和文獻(xiàn)[5]算法進(jìn)行推薦算法性能的測試,測試結(jié)果如下:
僅僅計(jì)算算法準(zhǔn)確率不足以證明推薦算法的準(zhǔn)確性,為精確算法的推薦性能,對(duì)比三種的平均絕對(duì)誤差,其公式為
(27)
式中,rp代表項(xiàng)目i的預(yù)測評(píng)分,ri代表項(xiàng)目i的實(shí)際評(píng)分,MAE代表平均絕對(duì)誤差。
由于MAE更能準(zhǔn)確反映算法的準(zhǔn)確性能,在同一環(huán)境下進(jìn)行五組實(shí)驗(yàn),比較三種算法的MAE值,MAE越低說明算法的準(zhǔn)確率越高。
選取五組樣本數(shù)據(jù)進(jìn)行實(shí)驗(yàn),每組數(shù)據(jù)種類以及類型均不相同,結(jié)果如圖1所示,所提算法得出的平均絕對(duì)誤差最小,其次是文獻(xiàn)[4]算法,誤差最大的是文獻(xiàn)[5]算法。該實(shí)驗(yàn)結(jié)果驗(yàn)證了所提算法具有理想的準(zhǔn)確性,這是因?yàn)樗崴惴ㄌ崆皩?duì)隱私數(shù)據(jù)進(jìn)行轉(zhuǎn)換和保護(hù),從而簡化數(shù)據(jù),同時(shí)保證數(shù)據(jù)的穩(wěn)定,加強(qiáng)了數(shù)據(jù)的推薦性能,進(jìn)而降低推薦算法的平均絕對(duì)誤差。
圖1 三種算法的平均絕對(duì)誤差
推薦算法的目的是將所有用戶感興趣點(diǎn)的項(xiàng)目推薦給用戶,推薦結(jié)果是否全面也是測試算法性能優(yōu)劣的一大指標(biāo),即計(jì)算算法的覆蓋率大小,其表達(dá)式為
(28)
式中,M代表項(xiàng)目預(yù)測分?jǐn)?shù)的個(gè)數(shù),|Ω|代表隱私數(shù)據(jù)的評(píng)分總數(shù),RC代表項(xiàng)目評(píng)分覆蓋率。
比較三種算法的RC值,RC值越高,說明評(píng)分的項(xiàng)目數(shù)量越多,即越全面,進(jìn)而證明算法的性能優(yōu)。
圖2 不同算法的覆蓋率
根據(jù)結(jié)果可知,每組實(shí)驗(yàn)中覆蓋率最高的均是所提算法,其余兩種算法的覆蓋率均遠(yuǎn)低于所提算法,說明文獻(xiàn)[4]算法和文獻(xiàn)[5]算法項(xiàng)目評(píng)分不完整,導(dǎo)致推薦結(jié)果不完善,極可能遺落很多可推薦的興趣點(diǎn),降低推薦算法的性能,從而驗(yàn)證所提算法的有效性。
F1值是統(tǒng)計(jì)學(xué)中評(píng)價(jià)算法性能的一大優(yōu)良指標(biāo),是精確率和召回率的調(diào)和平均,因此該指標(biāo)可直接反映算法的優(yōu)劣。
F1值的公式如下所示
F1=(2×precision×RC)/(precision+RC)
(29)
式中,precision代表推薦算法的精確度,其公式為
(30)
式中,rmax表示計(jì)算過程中項(xiàng)目的最高評(píng)分,rmin表示計(jì)算過程中項(xiàng)目的最低評(píng)分。
根據(jù)式(29)可知,F(xiàn)1值越大說明算法的精確度等性能均較優(yōu)。根據(jù)圖3可知,在每組實(shí)驗(yàn)中最高的F1值都是所提算法,因此證明網(wǎng)絡(luò)數(shù)據(jù)推薦最精確的為所提算法,其余兩種算法均不可取,證明了所提算法的優(yōu)越性。
圖3 三種算法的F1值
在大數(shù)據(jù)環(huán)境下,為保證不降低用戶推薦興趣點(diǎn)性能的前提下還可保護(hù)用戶隱私,提出基于隱私大數(shù)據(jù)的網(wǎng)絡(luò)信息防泄漏推薦算法,該算法首先對(duì)隱私數(shù)據(jù)進(jìn)行轉(zhuǎn)換和保護(hù)處理,其次利用協(xié)同濾過原則得出興趣點(diǎn)的評(píng)分,完成興趣點(diǎn)的推薦,實(shí)現(xiàn)網(wǎng)絡(luò)信息防泄漏推薦,解決了推薦算法性能差的問題,保證用戶的用網(wǎng)安全,也確保用戶獲取完整的興趣點(diǎn)。