• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于隨機投影的本地差分隱私高維數(shù)值型數(shù)據(jù)收集算法

      2020-02-08 07:06:38孫慧中楊健宇程祥蘇森
      大數(shù)據(jù) 2020年1期
      關(guān)鍵詞:收集者高維降維

      孫慧中,楊健宇,程祥,蘇森

      北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國家重點實驗室,北京 100876

      1 引言

      隨著互聯(lián)網(wǎng)和云計算等信息技術(shù)的發(fā)展,各種智能設(shè)備日益普及,用戶的高維數(shù)值型數(shù)據(jù)被許多服務(wù)提供商(如谷歌等互聯(lián)網(wǎng)公司)收集。通過收集用戶的高維數(shù)值型數(shù)據(jù),服務(wù)提供商能夠分析和挖掘這些數(shù)據(jù)的價值,以提供更好的用戶體驗,并增加收益。例如,在推薦系統(tǒng)中,用戶的商品評分?jǐn)?shù)據(jù)就是一種典型的高維數(shù)值型數(shù)據(jù),通過收集用戶的商品評分?jǐn)?shù)據(jù),服務(wù)提供商能夠分析商品流行趨勢,從而更有效地為用戶推薦商品,并且更合理地投放廣告,以增加營業(yè)額。然而,用戶的高維數(shù)值型數(shù)據(jù)中往往包含大量的敏感信息(如興趣偏好等),如果沒有隱私保護(hù),直接對這些數(shù)據(jù)進(jìn)行收集可能導(dǎo)致嚴(yán)重的用戶隱私泄露問題,進(jìn)而阻礙商業(yè)運營。因此,用戶高維數(shù)值型數(shù)據(jù)收集中的隱私問題亟待解決。

      隱私保護(hù)的數(shù)據(jù)收集技術(shù)為解決數(shù)據(jù)收集帶來的個人隱私泄露問題提供了一種可行的方案。近年來提出的差分隱私(differential privacy,DP)技術(shù)[1-3]是目前比較先進(jìn)的隱私保護(hù)技術(shù)。與傳統(tǒng)的基于匿名的隱私保護(hù)技術(shù)(例如,k-匿名[4]和L-多樣性[5])不同,差分隱私技術(shù)提供了一種嚴(yán)格的、可證明的隱私保護(hù)手段,并且其提供的隱私保護(hù)強度并不依賴于攻擊者掌握的背景知識。本地差分隱私技術(shù)(local differential privacy,LD P)[6-7]是一種專門解決數(shù)據(jù)收集導(dǎo)致個人隱私泄露問題的技術(shù),該技術(shù)已被應(yīng)用于眾多現(xiàn)實應(yīng)用軟件之中,如Google公司的Chrome瀏覽器[8]等。該技術(shù)的主要思想是每個用戶在將自己的真實數(shù)據(jù)發(fā)給數(shù)據(jù)收集者之前就對其進(jìn)行加噪處理。由于用戶的真實數(shù)據(jù)始終存儲在用戶本地,本地差分隱私技術(shù)可以有效地避免不可信收集者的惡意攻擊,從根本上為用戶提供隱私保護(hù)。

      當(dāng)前,本地差分隱私技術(shù)已被應(yīng)用于一維或多維分類型數(shù)據(jù)收集[8-13]以及多維數(shù)值型數(shù)據(jù)收集[14-15]中。其中,一種可以用于處理這些問題的簡單方案是數(shù)據(jù)收集者直接調(diào)用Multi-HM算法[14]。該算法是當(dāng)前先進(jìn)的、滿足本地差分隱私的多維數(shù)據(jù)收集算法,該算法的基本思路是每個用戶從屬性集合中隨機選取幾個屬性,并進(jìn)行加噪處理,然后將加噪后的屬性信息發(fā)送給數(shù)據(jù)收集者。然而,運用該算法收集到的數(shù)據(jù)的準(zhǔn)確性受維度高低(即屬性個數(shù)大?。┯绊懨黠@,在處理具有較高維度的用戶數(shù)據(jù)時,會導(dǎo)致收集的數(shù)據(jù)中包含大量的噪聲,因此不適用于用戶高維數(shù)值型數(shù)據(jù)的收集。為此,本文提出了一種基于隨機投影技術(shù)的本地差分隱私數(shù)據(jù)收集算法——Multi-RPHM算法。在該算法中,首先用戶基于隨機投影技術(shù)對自身原始高維數(shù)據(jù)進(jìn)行降維,然后數(shù)據(jù)收集者對降維后的數(shù)據(jù)進(jìn)行收集并進(jìn)行維度還原。直觀上,由于數(shù)據(jù)收集者只需收集低維數(shù)據(jù),因此Multi-RPHM算法能有效降低收集到的數(shù)據(jù)中包含的噪聲,獲得較高的數(shù)據(jù)效用。

      2 預(yù)備知識與問題定義

      2.1 高維數(shù)值型數(shù)據(jù)

      用戶的高維數(shù)值型數(shù)據(jù)是一種典型的個人數(shù)據(jù),由多個數(shù)值型屬性構(gòu)成,每個屬性反映用戶不同方面的信息。特別地,給定一個屬性集合A={A1,A2,…,Ad},其中,d表示屬性數(shù)量,Aj代表第j個屬性,并且每個屬性的取值均為實數(shù)。據(jù)此,本文將一個用戶的高維數(shù)值型數(shù)據(jù)表示為一個元組t=[t[A1],t[A2],…,t[Ad]],其中t[Aj]代表元組t中第j個屬性的取值。本文假定所有屬性的取值范圍均為[-1,1],即t[Aj]∈[-1,1](1≤j≤d)。

      2.2 本地差分隱私

      本地差分隱私[6-7]的定義如下。

      ε-本地差分隱私:給定一個隱私參數(shù)ε,對于一個隨機算法M,當(dāng)且僅當(dāng)任意兩個輸入值v、v′和任意一個可能的輸出值O∈Range(M)滿足計算式(1),則稱算法M滿足ε-本地差分隱私。

      特別地,對于一系列本地差分隱私算法,整體隱私保護(hù)強度滿足如下串行 機制[16]。

      串行機制:給定r個本地差分隱私算法Mi(1≤i≤r),其中第i個算法Mi滿足εi-本地差分隱私,則算法序列M i(v)滿足本地差分隱私。

      2.3 問題定義

      給定n個用戶ui(1≤i≤n),其中ui代表第i個用戶。每個用戶ui擁有的高維數(shù)值型數(shù)據(jù)用元組ti來表示。本文的目標(biāo)是設(shè)計一個滿足本地差分隱私的算法,使一個不可信的數(shù)據(jù)收集者收集到的用戶高維數(shù)值型數(shù)據(jù)集{ti*|1≤i≤n}與用戶的原始數(shù)據(jù)集{ti|1≤i≤n}具有相同的統(tǒng)計特征。為了便于分析,本文假定所有用戶均采用相同的隱私參數(shù)ε。

      文中常用的符號及說明見表1。

      3 Multi-HM算法

      目前,可以處理該問題的方法共有3種:Laplace加噪算法[2]、MeanEST算法[15]和Multi-HM算法。在Laplace加噪算法中,每個用戶向其原始數(shù)據(jù)的各個屬性維度注入滿足Laplace分布的隨機噪聲,然后將加噪后的數(shù)據(jù)發(fā)送給數(shù)據(jù)收集者。在MeanEST算法中,首先,用戶根據(jù)其原始數(shù)據(jù)產(chǎn)生2個集合,每個集合中包含多個數(shù)據(jù)元組;然后,用戶依照特定概率選擇一個集合;最后,用戶在該集合中隨機選取一個數(shù)據(jù)元組,并將其作為擾動結(jié)果發(fā)送給數(shù)據(jù)收集者。但是,這2種方法均存在一定的缺陷:Laplace加噪算法引入的隨機噪聲是無界的,即噪聲的取值可能無窮大或無窮小,會導(dǎo)致收集的數(shù)據(jù)噪聲較大、效用較差;而對于MeanE S T算法,用戶返回的擾動元組始終落在原始數(shù)據(jù)域之外,也會導(dǎo)致收集的數(shù)據(jù)的效用較差。為了解決上述2種方法存在的缺陷,參考文獻(xiàn)[14]中提出了一種新的滿足本地差分隱私的多維數(shù)值型數(shù)據(jù)收集算法,即Multi-HM算法。

      具體地,對于每個用戶ui,Multi-HM算法(算法1)如下。其輸入是用戶數(shù)據(jù)隱私參數(shù)ε,輸出是擾動結(jié)果在該算法中,用戶ui首先初始化擾動結(jié)果,計算參數(shù)k、ε*、C和α。然后,在A中隨機選取k個屬性構(gòu)成集合S;接著,對每個屬性A j∈S,用戶ui計算

      算法1 Multi-HM算法

      在A中隨機選取k個屬性構(gòu)成屬性集合S;

      在[0,1]內(nèi)選取隨機數(shù)f;

      在[0,1]內(nèi)選取隨機數(shù)x;

      返回

      參考文獻(xiàn)[4]證明了Multi-HM算法滿足ε-本地差分隱私,并且對數(shù)據(jù)收集者運用該算法收集到的數(shù)據(jù)集進(jìn)行了效用分析。然而,根據(jù)其分析結(jié)果,本文發(fā)現(xiàn)運用Multi-HM算法收集到的數(shù)據(jù)的效用受屬性個數(shù)d的影響明顯。隨著d的增大,數(shù)據(jù)效用逐漸變差。對于較大的d(如d>200),Multi-HM算法會產(chǎn)生較大的誤差,難以滿足實際應(yīng)用需求。

      4 Multi-RPHM算法

      4.1 算法設(shè)計

      為解決Multi-HM算法在處理較大屬性個數(shù)d時誤差較大的問題,本文提出了Multi-RPHM算法。用戶首先通過隨機投影對自身原始高維數(shù)據(jù)進(jìn)行降維,然后數(shù)據(jù)收集者收集用戶降維后的數(shù)據(jù)并進(jìn)行維度還原。隨機投影(random projection,RP)[17]是一種有效的降維技術(shù),在投影維度選擇合理時,降維后的低維數(shù)據(jù)能夠保留原始數(shù)據(jù)的特征信息。

      Multi-RPHM算法的整體框架如圖1所示,共包括4個步驟。

      ● 數(shù)據(jù)收集者生成一個隨機投影矩陣,并將其廣播給所有用戶。

      ● 每個用戶利用該投影矩陣對其原始高維數(shù)據(jù)進(jìn)行降維處理,分別得到對應(yīng)的低維數(shù)據(jù)元組。

      ● 數(shù)據(jù)收集者利用Multi-HM算法對所有用戶降維后的數(shù)據(jù)進(jìn)行收集。

      ● 數(shù)據(jù)收集者利用投影矩陣的廣義逆矩陣對收集到的低維擾動數(shù)據(jù)進(jìn)行維度恢復(fù),得到與原始維度相同的高維數(shù)據(jù)。

      Multi-RPHM算法(算法2)如下。其輸入為所有用戶原始高維數(shù)據(jù){ti∈[-1,1]d| 1≤j≤n}、隱私參數(shù)ε、投影維度q,輸出為高維數(shù)據(jù)矩陣T*。在該算法中,數(shù)據(jù)收集者首先生成一個d q× 維的隨機投影矩陣Rd×q,并將其廣播給所有用戶。具體地,Rd×q采用經(jīng)典的正交矩陣方法構(gòu)造,即首先生成一個d q× 維的隨機矩陣,該

      矩陣中每個元素均由均值為0、標(biāo)準(zhǔn)差為1/k的高斯分布采樣生成,然后將該矩陣進(jìn)行Gran-Schmidt正交化,使得矩陣的每一列都是標(biāo)準(zhǔn)正交的,最后對矩陣的每一列進(jìn)行歸一化處理。對于每個用戶ui,首先計算q維的向量,然后將xi中的所有值映射到[-1,1]。具體地,對于如果xi[s] <?1 ,則令如果,則令接著,用戶ui執(zhí)行Multi-HM算法對xi進(jìn)行隱私處理,得到擾動后的低維數(shù)據(jù)元組并將其發(fā)送給數(shù)據(jù)收集者。在收集到所有用戶的擾動結(jié)果集合后,數(shù)據(jù)收集者構(gòu)建n×q維的矩陣X*,該矩陣的第i行為。最后,數(shù)據(jù)收集者通過廣義逆矩陣RT對X*進(jìn)行維度恢復(fù),得到原始屬性維度的數(shù)據(jù)集T=X*R+,其中,T*的第i行(T*)i=ti*對應(yīng)用戶ui的具有隱私保護(hù)的高維數(shù)據(jù)。

      算法2 Multi-RPHM

      輸入: 用戶原始高維數(shù)據(jù){ti∈[-1,1]d|1≤j≤n}、隱私參數(shù)ε、投影維度q。

      輸出: 估計高維數(shù)據(jù)矩陣T*。

      數(shù)據(jù)收集者生成d q× 維的隨機投影矩陣d qR×,并廣播給所有用戶;

      for 每個用戶uido

      將xi和ε作為參數(shù)執(zhí)行Multi-HM算法,生成擾動結(jié)果,并發(fā)送給數(shù)據(jù)收集者;

      數(shù)據(jù)收集者根據(jù)集合{xi*|1≤i≤n}構(gòu)建矩陣X*;

      返回T*;

      為了說明Mu l ti-R PHM算法的有效性,本文對其誤差進(jìn)行了討論分析。Multi-R PHM算法的誤差來源主要包括兩個方面:一是數(shù)據(jù)降維與維度恢復(fù);二是低維數(shù)據(jù)的隱私化處理。當(dāng)原始數(shù)據(jù)維度較大時(例如 200d> ),Multi-RPHM算法通過降維能夠有效地減少隱私化處理引入的誤差,并且保證維度恢復(fù)產(chǎn)生的誤差相對較小,從而降低總體誤差。因此,Multi-RPHM算法能夠在保證數(shù)據(jù)隱私的同時,降低誤差,提高數(shù)據(jù)效用,具有一定的有效性。

      4.2 隱私分析

      由本地差分隱私的定義可知,對于上述高維數(shù)據(jù)元組12, [ 1,1]d t t∈? 以及數(shù)據(jù)收集者收集的任意低維擾動數(shù)據(jù)x*,要證Multi-RPHM算法滿足ε-本地差分隱私,即證:

      屋子里很快想起鼾聲。響屁連天。我們破天荒地睡了個懶覺,被李大頭喊起來時,天已完全亮了。我們提著褲子,急匆匆尋露天廁所。室內(nèi)的廁所不夠這么多人排泄。

      由于Multi-HM算法滿足ε-本地差分

      另外,由于隨機投影矩陣Rd×q的生成不依賴于用戶的數(shù)據(jù),因而Rd×q不泄露隱私(R+同理)。因此,由給定的Rd×q以及式(2)可得到:

      因此,Multi-RPHM算法滿足ε-本地差分隱私。

      5 實驗分析

      5.1 實驗設(shè)置

      本文在多個合成數(shù)據(jù)集上對Multi-RPHM算法進(jìn)行了測試。每個合成數(shù)據(jù)集包含10 000個用戶的高維數(shù)據(jù)記錄,維度(即屬性個數(shù))分別為200、300、400、500、600。特別地,根據(jù)參考文獻(xiàn)[14],本文設(shè)置這些數(shù)據(jù)集均由均值 1/3μ= 、標(biāo)準(zhǔn)差σ1/4 = 的高斯分布采樣生成,并且數(shù)據(jù)取值在[ 1,1]? 內(nèi)。

      為了評估Multi-RPHM算法的性能,參照參考文獻(xiàn)[4]的評估方法,本文選取均方誤差(mean square error,MSE)作為評測指標(biāo),對收集到的高維數(shù)據(jù)集的效用進(jìn)行評估。具體地,假設(shè)原屬性均值為估計均值為,其中d代表屬性個數(shù),則的計算式如下:

      由于Multi-HM算法是目前比較先進(jìn)的滿足本地差分隱私的多維數(shù)據(jù)收集算法,因此,為了驗證Multi-RPHM算法的有效性,本文選取Multi-HM算法作為實驗中的對比算法。

      5.2 結(jié)果分析

      首先,本文固定隱私參數(shù)ε=1.0,投影維度q=0.3d,用戶數(shù)n=10 000,在屬性維度不同的合成數(shù)據(jù)集上對Multi-HM算法和Multi-RPHM算法進(jìn)行測試,實驗結(jié)果如圖3所示??梢钥闯?,隨著屬性維度d增加,Multi-HM算法的效果明顯變差,而Multi-RPHM算法受維度影響不大,算法性能穩(wěn)定。這是因為Multi-HM算法受維度d影響較大,而Multi-RPHM算法通過隨機投影技術(shù)將高維數(shù)據(jù)降至低維,且僅收集低維數(shù)據(jù),降低了隱私化處理引入的擾動誤差。當(dāng)維度d較大時(如400、500、600),Multi-RPHM算法的優(yōu)勢變得更加明顯,這說明其具有良好的可擴展性,更適用于高維數(shù)據(jù)的收集。

      其次,為了測試隱私保護(hù)強度對算法準(zhǔn)確性的影響,本文固定屬性維度d=400,投影維度q=0.3d,以評估Multi-HM算法和Multi-RPHM算法在不同隱私參數(shù)下的性能,實驗結(jié)果如圖4所示。值得注意的是,圖4中的RP代表只進(jìn)行數(shù)據(jù)降維及維度恢復(fù)操作,不添加隱私保護(hù)時的均值誤差。可以看出,隨著ε變大,兩種算法的MSE均逐漸減小,Multi-RPHM算法的誤差逐漸趨近RP,且始終低于Multi-HM算法。特別地,當(dāng)隱私參數(shù)ε較小時(如0.6、0.8、1.0),Multi-RPHM算法明顯優(yōu)于對比算法Multi-HM。正如第4.1節(jié)中分析的,這是因為Multi-RPHM算法的總體誤差由兩個因素引起,一個是數(shù)據(jù)的降維與維度恢復(fù),另一個是低維數(shù)據(jù)的隱私化處理。當(dāng)ε較小時,用戶采用Multi-HM算法直接對原始的高維數(shù)據(jù)隱私化處理會引入大量噪聲,而Multi-RPHM算法通過降維有效地降低了這部分誤差的引入,從而總體誤差較小,優(yōu)勢更加明顯。

      6 結(jié)束語

      針對滿足本地差分隱私的高維數(shù)值型數(shù)據(jù)收集問題,本文提出了一種基于隨機投影的隱私數(shù)據(jù)收集算法,即Multi-RPHM算法。本文在理論上證明了Multi-RPHM算法滿足ε-本地差分隱私。同時,實驗結(jié)果驗證了Multi-RPHM算法的有效性。本文提出的Multi-RPHM算法適用于多種真實場景,具有較強的實際應(yīng)用價值。此外,需要指出的是,高維數(shù)據(jù)一般包括數(shù)值型、分類型、混合型3種類型,本文主要聚焦在高維數(shù)值型數(shù)據(jù)收集的問題上,而高維分類型和混合型數(shù)據(jù)的收集具有新的問題場景和挑戰(zhàn),解決這兩個問題具有很高的研究價值與現(xiàn)實意義,能夠豐富高維數(shù)據(jù)收集問題的理論體系。本文提出的基于數(shù)據(jù)降維的解決思路,能夠為解決上述問題提供一定的借鑒意義。

      猜你喜歡
      收集者高維降維
      “收集者”、“拼接術(shù)”與中間狀態(tài)的人生
      混動成為降維打擊的實力 東風(fēng)風(fēng)神皓極
      車主之友(2022年4期)2022-08-27 00:57:12
      雨水收集者
      花城(2020年3期)2020-07-30 09:56:31
      降維打擊
      海峽姐妹(2019年12期)2020-01-14 03:24:40
      一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
      凡你目光所及之處就是美的
      哲思(2017年7期)2017-10-10 01:56:11
      網(wǎng)絡(luò)運營者不得泄露個人信息
      基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
      一般非齊次非線性擴散方程的等價變換和高維不變子空間
      高維Kramers系統(tǒng)離出點的分布問題
      商都县| 乌兰察布市| 涡阳县| 海林市| 深水埗区| 射阳县| 沈阳市| 成武县| 广灵县| 新和县| 乐业县| 文安县| 吉隆县| 南平市| 廉江市| 鹿泉市| 晋城| 锡林浩特市| 深圳市| 刚察县| 宜君县| 合江县| 盐边县| 德安县| 蚌埠市| 永修县| 涞水县| 禹城市| 武陟县| 涟源市| 略阳县| 大埔县| 莫力| 华蓥市| 扬中市| 绥芬河市| 黑山县| 宜黄县| 宜宾县| 杭锦后旗| 安义县|