• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      在大數(shù)據(jù)框架上試驗(yàn)和評(píng)估分布式隱私保護(hù)

      2022-05-30 10:48:04陳立軍劉暢李澤通
      電腦知識(shí)與技術(shù) 2022年31期
      關(guān)鍵詞:大數(shù)據(jù)分析大數(shù)據(jù)

      陳立軍 劉暢 李澤通

      摘要:OLAP(On-Line Analysis Processing) 是新興大數(shù)據(jù)分析環(huán)境中的權(quán)威分析工具,特別是針對(duì)分布式環(huán)境(例如云),當(dāng)今,基于隱私保護(hù)的OLAP大數(shù)據(jù)分析是一個(gè)熱門(mén)主題,在諸如智能城市、社交網(wǎng)絡(luò)、生物信息學(xué)等創(chuàng)新性大數(shù)據(jù)應(yīng)用場(chǎng)景中,它具有多種便利性,并且在OLAP分析任務(wù)期間提供隱私保護(hù),遵循這一研究路線,文章提出一個(gè)簡(jiǎn)化的并行過(guò)程在線分析(SPPOLAP) 框架,該框架的主要好處是引入了一種全新的隱私概念,用于OLAP數(shù)據(jù)多維數(shù)據(jù)集,實(shí)驗(yàn)證明:SPPOLAP算法優(yōu)于現(xiàn)有隱私保護(hù)算法,為大數(shù)據(jù)的隱私保護(hù)提供了技術(shù)保障。

      關(guān)鍵詞:大數(shù)據(jù);大數(shù)據(jù)分析;分布式隱私保護(hù);大數(shù)據(jù)集上的實(shí)驗(yàn)和分析

      中圖分類號(hào):TP309 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2022)31-0004-03

      在大數(shù)據(jù)時(shí)代,數(shù)據(jù)安全存在兩個(gè)截然不同的關(guān)鍵要求[1-3],需要對(duì)大量大數(shù)據(jù)進(jìn)行有意義的分析支持[4],且在處理大數(shù)據(jù)以提取分析數(shù)據(jù)時(shí),需要保證敏感信息(例如個(gè)人信息)的隱私保護(hù)。從這兩個(gè)要求可以推斷,保護(hù)隱私的大數(shù)據(jù)分析將成為最近幾年最熱門(mén)的研究之一[5-6]。On-line Analysis Processing (OLAP) [7] 是目前最流行的大數(shù)據(jù)分析工具,它使用戶能夠在直觀的多維空間上提取相關(guān)知識(shí),例如:社交網(wǎng)絡(luò)、電子科學(xué)、電子政務(wù)、傳感器網(wǎng)絡(luò)、云系統(tǒng)等。

      大數(shù)據(jù)的隱私保護(hù)涉及了隱私保護(hù)OLAP的研究領(lǐng)域[8-10],該領(lǐng)域的目標(biāo)是在保護(hù)大數(shù)據(jù)的隱私的同時(shí)支持OLAP。分布式環(huán)境是大數(shù)據(jù)的經(jīng)典配置[11],因此,在大數(shù)據(jù)上支持分布式隱私保護(hù)OLAP的問(wèn)題已成為當(dāng)前的研究課題。

      SPPOLAP(Simplified Parallel Process On-Line Analytical Processing) ?[8]是一種最新算法,可有效地支持分布式隱私保護(hù)OLAP,它引入了一種針對(duì)OLAP多維數(shù)據(jù)集的新穎隱私概念,該概念著重于OLAP聚合的隱私,而不是整個(gè)多維數(shù)據(jù)集作為一個(gè)多維數(shù)組。在此算法上,SPPOLAP通過(guò)定義隱私閾值,來(lái)嘗試根據(jù)貪婪策略在多維聚合的準(zhǔn)確性和隱私之間取得平衡,該閾值確定了在使用過(guò)程中用戶可接受的隱私保護(hù)程度。

      應(yīng)當(dāng)指出,SPPOLAP算法在新興大數(shù)據(jù)環(huán)境中有著明顯潛力,例如智慧城市場(chǎng)景,公民可以訪問(wèn)幾個(gè)大數(shù)據(jù)分析儀表盤(pán)并與之交互,這些儀表盤(pán)可以提供有關(guān)各種智能城市服務(wù)的匯總知識(shí),例如交通擁堵、停車位、醫(yī)院當(dāng)前的工作量、空氣污染群等,該知識(shí)顯然與敏感信息(個(gè)人信息等)有關(guān),當(dāng)在它們之上計(jì)算合適的OLAP聚合時(shí),必須保留其隱私。

      本文極大地?cái)U(kuò)展了文獻(xiàn)[8]中提供的研究結(jié)果,并著重針對(duì)分布式大數(shù)據(jù)的SPPOLAP算法(與零和競(jìng)爭(zhēng)方法相比)進(jìn)行了深入的實(shí)驗(yàn)評(píng)估和分析。

      本文的其余部分安排如下:在第1節(jié)中,提供SPPOLAP方法的摘要以及參考案例研究,以更好地說(shuō)明在現(xiàn)實(shí)的大數(shù)據(jù)場(chǎng)景中SPPOLAP面向應(yīng)用程序的功能;在第2節(jié)中,提供了SPPOLAP性能的綜合實(shí)驗(yàn)評(píng)估和分析;最后,第3節(jié)提供結(jié)論和研究的未來(lái)工作。

      1 SPPOLAP摘要和參考案例研究

      在本節(jié)中,首先提供SPPOLAP算法的摘要,然后提供參考案例研究,以顯示SPPOLAP在現(xiàn)代大數(shù)據(jù)分析環(huán)境中的潛力。

      令A(yù) = (D,L,H,M)為數(shù)據(jù)立方體,使得D是包含A的OLAP數(shù)據(jù)單元的數(shù)據(jù)域,L是A的維度集合,即定義OLAP分析所依據(jù)的功能屬性,H是與A的維度相關(guān)的層次結(jié)構(gòu)集,最后,M是A的度量集。

      SPPOLAP的第一步包括計(jì)算數(shù)據(jù)立方體A的隱私網(wǎng)格P(A),給定一個(gè)數(shù)據(jù)立方體A,隱私網(wǎng)格P(A)是A的范圍分區(qū),以使每個(gè)元素ALk都劃分維度dk,k屬于[[0,L-1]],通過(guò)合并所有分區(qū)A的維數(shù),本文獲得P(A)作為A的規(guī)則分區(qū)。

      第二步對(duì)輸入數(shù)據(jù)立方體A進(jìn)行采樣以獲得概要數(shù)據(jù)立方體[A]的貪婪策略,通過(guò)該策略計(jì)算概要數(shù)據(jù)立方體[A],以便同時(shí)滿足隱私約束,確保近似答案的準(zhǔn)確性,并滿足空間約束。該策略考慮了與P(A)中的網(wǎng)格區(qū)域關(guān)聯(lián)的數(shù)據(jù)分布屬性,并在可用的網(wǎng)格區(qū)域中選擇最偏斜的網(wǎng)格區(qū)域。

      算法的最后一步從通過(guò)上述貪婪策略選擇網(wǎng)格區(qū)域采樣,它是計(jì)算最終概要數(shù)據(jù)立方體[A]的基準(zhǔn)操作,特別地,關(guān)于采樣策略,本文采用經(jīng)典的均勻采樣,即基于常規(guī)的均勻生成分布。

      給定網(wǎng)格區(qū)域,在SPPOLAP的每次迭代中,本文首先考慮相應(yīng)的range-SUM查詢,然后,基于度量驅(qū)動(dòng)的方法,給定正整數(shù)參數(shù)?,通過(guò)提取?大小的樣本子集來(lái)迭代采樣網(wǎng)格區(qū)域,直到滿足隱私約束或使用空間約束為止。實(shí)際上要注意,?表示采樣期間使用的一種緩沖區(qū)大小,如果在沒(méi)有緩沖的情況下,此解決方案避免了對(duì)海量多維數(shù)據(jù)集執(zhí)行采樣會(huì)導(dǎo)致的過(guò)多計(jì)算開(kāi)銷。

      下面匯報(bào)有關(guān)SPPOLAP算法的詳細(xì)信息以及實(shí)現(xiàn)。

      本文通過(guò)具體展示該算法在新興大數(shù)據(jù)分析環(huán)境中的適用性,提供SPPOLAP算法的參考案例研究。

      在這里,本文確定了一個(gè)社交網(wǎng)絡(luò),在該社交網(wǎng)絡(luò)中,在每個(gè)節(jié)點(diǎn)的頂部計(jì)算OLAP多維數(shù)據(jù)集以進(jìn)行分析,在這種應(yīng)用環(huán)境中,兩個(gè)用戶A和B想要對(duì)數(shù)據(jù)立方體的分布式集合進(jìn)行分析,以便挖掘和分析目標(biāo)社交網(wǎng)絡(luò),兩個(gè)用戶中的每個(gè)用戶都基于特定的決策目標(biāo)訪問(wèn)特定的信息集。另一方面,由于社交網(wǎng)絡(luò)數(shù)據(jù)清楚地存儲(chǔ)了敏感信息[12-13],因此出現(xiàn)了隱私保護(hù)約束,從這一現(xiàn)象來(lái)看,SPPOLAP算法的應(yīng)用在這種應(yīng)用場(chǎng)景中非常有意義,因?yàn)樗軌蛟诜植际皆O(shè)置中計(jì)算隱私保護(hù)數(shù)據(jù)立方體,以支持傳感器網(wǎng)絡(luò)數(shù)據(jù)上隱私保護(hù)的分析任務(wù)。

      通過(guò)查看案例[12-13]研究,可以得出結(jié)論,多維數(shù)據(jù)集的隱私保護(hù)問(wèn)題是指確保多維數(shù)據(jù)集單元格的隱私問(wèn)題。一般而言,隱私保護(hù)數(shù)據(jù)挖掘工具的目標(biāo)是避免惡意用戶從權(quán)威數(shù)據(jù)中挖掘結(jié)果,例如頻繁的項(xiàng)目集、模式和規(guī)律性、群集、關(guān)聯(lián)規(guī)則和在多維數(shù)據(jù)立方體上挖掘模型,即信息丟失和公開(kāi)風(fēng)險(xiǎn),本文使用權(quán)威的SPPOLAP算法框架可以順利避免這些敏感信息的泄漏和風(fēng)險(xiǎn)的公開(kāi)。此外,SPPOLAP通過(guò)優(yōu)化,這將進(jìn)一步放大其在大數(shù)據(jù)設(shè)置中的可靠性。

      2 對(duì)最新的分布式隱私保護(hù)OLAP框架進(jìn)行實(shí)驗(yàn)和評(píng)估

      在本節(jié)中,將通過(guò)實(shí)驗(yàn)評(píng)估SPPOLAP的性能,并與文獻(xiàn)[14]中描述的最新算法進(jìn)行比較,進(jìn)行評(píng)估提議框架的質(zhì)量、有效性和性能,本文使用真實(shí)的數(shù)據(jù)立方體進(jìn)行實(shí)驗(yàn)評(píng)估,專注于六維數(shù)據(jù)集,它允許對(duì)復(fù)雜的多維數(shù)據(jù)集上的隱私保護(hù)功能進(jìn)行可靠的評(píng)估。

      2.1 質(zhì)量分析

      為了進(jìn)行質(zhì)量分析,本文分別使用Fp和FA表示隱私和準(zhǔn)確性因子,在下面,本文將它們都適應(yīng)于SPPOLAP的定義。

      假設(shè)A為輸入多維數(shù)據(jù)集,而[A]為概要多維數(shù)據(jù)集,F(xiàn)P測(cè)量包含在其中的平均數(shù)量[A],令ω(k)為以k為多維索引的數(shù)據(jù)立方體的像元,令ω={A,[A]},在零和方法中,該塊是一個(gè)子多維數(shù)據(jù)集,相對(duì)于該子多維數(shù)據(jù)集,沿行和列的擾動(dòng)數(shù)據(jù)單元邊際總和保持為零,F(xiàn)P的定義如下:

      [FP=1A?K=0|A|-1(A{k}-A{K})] ? ?(1)

      Fp可以看作是對(duì)[A]的隱私保護(hù)的一種度量,由于零和方法是一種面向數(shù)據(jù)單元的方法,而SPPOLAP是基于OLAP隱私概念的,因此本文對(duì)Fp定義進(jìn)行如下修改:

      1) 在等式(1) 定義的基礎(chǔ)上,將塊的概念替換為網(wǎng)格區(qū)域的概念;

      2) 在[A]{k} = NULL的情況下,用相對(duì)于包含[A]{k}的網(wǎng)格區(qū)域計(jì)算相應(yīng)單例聚合替換[A]{k}。

      準(zhǔn)確性因子FA可以看作[A]對(duì)給定查詢G所保證的近似程度的度量,F(xiàn)A是根據(jù)大綱G的數(shù)據(jù)集[A]上的查詢G定義的,如下面表達(dá)(2) 所示。

      [FA(G)=2|A(G)-A(G)||A(G)|] ? ? ? ? ? ? ?(2)

      其中A(G)是對(duì)G的精確答案,而[A](G)是對(duì)G的近似答案。由于本文處理查詢工作負(fù)載為GW,可以對(duì)表達(dá)式(2) 的定義擴(kuò)展如下:

      [FA(GW)=1|GW|K=0|GW|FA(GW)] ? ? (3)

      為了進(jìn)行質(zhì)量分析,本文將GW設(shè)置為Range-SUM查詢的集合,在零和方法的情況下,該查詢對(duì)應(yīng)于塊,在SPPOLAP中對(duì)應(yīng)于網(wǎng)格區(qū)域。

      在評(píng)估中使用的參數(shù)如下:

      1) 多維數(shù)據(jù)集每個(gè)維度的基數(shù),用Δk表示,其中[k∈[0,L-1]];

      2) 隱私網(wǎng)格的區(qū)域范圍大小,用Pk表示,[k∈[0,L-1]];

      3) 稀疏系數(shù)s,即非空數(shù)據(jù)單元相對(duì)于數(shù)據(jù)單元總數(shù)的比率;

      4) 空間限制B;

      5) 隱私閾值θ;

      6) 用于評(píng)估數(shù)據(jù)立方體的類型,用T表示;

      7) 查詢選擇性S。

      實(shí)驗(yàn)參數(shù)固定如下:Tk= 10%,Δk= 10%,θ= 70%,B = 20%,b = 20%,S = 10%。結(jié)果與現(xiàn)有方法比較可得(圖1) ,本文所提議的方法SPPLAP隱私性和質(zhì)量準(zhǔn)確性都要比現(xiàn)有方法高。

      2.2 有效性分析

      在本節(jié)中,描述了SPPOLAP的有效性分析,作為有效性指標(biāo),在典型查詢工作負(fù)載GW上采用了用戶平均相對(duì)感知推斷誤差,為針對(duì)選擇性查詢S和空間限制B進(jìn)行了有效性分析。在第一種情況下,使用以下實(shí)驗(yàn)參數(shù)的設(shè)置進(jìn)行內(nèi)容分析:Tk= 10%,Δk= 10%,θ= 70%,B = 20%,b = 20%,s = 20%, 結(jié)果得出本文提議的方法SPPLOAD的有效性比零和方法要好(圖2) 。

      2.3 性能分析

      在本節(jié)中,評(píng)估SPPOLAP和零和方法的性能,作為性能指標(biāo),采用以秒為單位的采樣時(shí)間,結(jié)合以下實(shí)驗(yàn)參數(shù)設(shè)置,針對(duì)緩沖區(qū)大小b評(píng)估性能:Tk= 10%,Δk= 10%,θ= 70%,B = 20%,s = 20%,S = 10%。實(shí)驗(yàn)結(jié)果如圖3所示(橫坐標(biāo)為緩沖區(qū)大小,縱坐標(biāo)為采樣時(shí)間):

      從圖3可以明顯看出,本文的SPPOLAP算法性能優(yōu)于零和算法Zero-Sum。

      3 結(jié)論

      本文極大地?cái)U(kuò)展了文獻(xiàn)[8]中提出的研究結(jié)果,并著重于SPPOLAP算法的研究,針對(duì)在分布式大數(shù)據(jù)環(huán)境中,進(jìn)行了深入的實(shí)驗(yàn)評(píng)估和分析,為大數(shù)據(jù)的隱私提供了技術(shù)保障。未來(lái)的工作主要集中在設(shè)計(jì)和測(cè)試SPPOLAP的新案例研究,以通過(guò)評(píng)估非常規(guī)應(yīng)用場(chǎng)景,進(jìn)一步評(píng)估其在新興大數(shù)據(jù)環(huán)境中的可靠性。

      參考文獻(xiàn):

      [1] 張娟.大數(shù)據(jù)背景下檔案信息隱私保護(hù)[J].黑龍江檔案,2021(4):62-63.

      [2] Qu Y Y,Nosouhi M R,Cui L,et al.Personalized Privacy Protection in Big Data [M]. Springer Verlag,2021.

      [3] 第九屆互聯(lián)網(wǎng)安全大會(huì)(ISC 2021)7月27日召開(kāi) 數(shù)據(jù)安全與隱私保護(hù)、大數(shù)據(jù)智能與安全峰會(huì)備受矚目[J].信息安全研究,2021,7(8):789.

      [4] Nilashi M,Minaei-Bidgoli B,Alrizq M,et al.An analytical approach for big social data analysis for customer decision-making in eco-friendly hotels[J].Expert Systems With Applications,2021,186:115722.

      [5] 嚴(yán)璐瑤.大數(shù)據(jù)背景下內(nèi)部審計(jì)與隱私保護(hù)問(wèn)題研究[J].審計(jì)與理財(cái),2021(7):49-50.

      [6] 王國(guó)峰,雷琦,唐云,等.大數(shù)據(jù)環(huán)境下用戶數(shù)據(jù)隱私保護(hù)研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2021(7):67-69.

      [7] Forresi C,Gallinucci E,Golfarelli M,et al.A dataspace-based framework for OLAP analyses in a high-variety multistore[J].The VLDB Journal,2021,30(6):1017-1040.

      [8] Broneske D,Drewes A,Gurumurthy B,et al.In-depth analysis of OLAP query performance on heterogeneous hardware[J].Datenbank-Spektrum,2021,21(2):133-143.

      [9] Tremblay M C,Hevner A R.Missing data in OLAP cubes[J].Journal of Database Management,2021,32(3):1-28.

      [10] Noh B,Yeo H.SafetyCube:Framework for potential pedestrian risk analysis using multi-dimensional OLAP[J].Accident Analysis & Prevention,2021,155:106104.

      [11] Cuzzocrea A,Moussa R,Xu G D.OLAP:effectively and efficiently supporting parallel OLAP over big data[C]//Model and Data Engineering,2013: 38-49.

      [12] Zakerzadeh H,Aggarwal C C,Barker K.Privacy-preserving big data publishing[C]//Proceedings of the 27th International Conference on Scientific and Statistical Database Management.La Jolla California.New York,NY,USA:ACM,2015.

      [13] Lu R X,Zhu H,Liu X M,et al.Toward efficient and privacy-preserving computing in big data era[J].IEEE Network,2014,28(4):46-50.

      [14] 李巖.大數(shù)據(jù)下信息通信技術(shù)中的隱私保護(hù)研究[J].中國(guó)新通信,2021,23(12):9-10.

      【通聯(lián)編輯:張薇】

      收稿日期:2022-04-15

      基金項(xiàng)目:2021年度廣東省科研項(xiàng)目(S202112618018) ;廣東省質(zhì)量工程(ZXKC202105)

      作者簡(jiǎn)介:陳立軍(1974—) ,男(苗族),廣西桂林人,講師,碩士,研究方向?yàn)榇髷?shù)據(jù)安全研究;劉暢(1999—) ,男,廣東深圳人,助教,學(xué)士,研究方向?yàn)榇髷?shù)據(jù)安全;李澤通(1999—) ,男,廣東深圳人,助教,學(xué)士,研究方向?yàn)榇髷?shù)據(jù)安全。

      猜你喜歡
      大數(shù)據(jù)分析大數(shù)據(jù)
      大數(shù)據(jù)分析對(duì)提高教學(xué)管理質(zhì)量的作用
      亞太教育(2016年36期)2017-01-17 17:26:50
      基于大數(shù)據(jù)分析的電力通信設(shè)備檢修影響業(yè)務(wù)自動(dòng)分析平臺(tái)研究與應(yīng)用
      面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
      面向大數(shù)據(jù)分析的信息管理實(shí)踐教學(xué)體系構(gòu)建
      傳媒變局中的人口電視欄目困境與創(chuàng)新
      科技傳播(2016年19期)2016-12-27 14:35:21
      大數(shù)據(jù)分析的移動(dòng)端在網(wǎng)絡(luò)課堂教學(xué)中的應(yīng)用
      大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      大石桥市| 宜兴市| 皮山县| 吴桥县| 南昌县| 雅安市| 涟源市| 温宿县| 镇康县| 特克斯县| 高雄市| 花莲县| 张家港市| 如皋市| 和林格尔县| 海宁市| 武夷山市| 密山市| 鸡泽县| 基隆市| 丹棱县| 从化市| 鱼台县| 田东县| 友谊县| 搜索| 比如县| 嘉禾县| 分宜县| 花莲县| 清流县| 曲周县| 镇雄县| 栾川县| 潞城市| 萨嘎县| 揭阳市| 稷山县| 衡南县| 临猗县| 武冈市|