• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向數(shù)據(jù)發(fā)布和挖掘的隱私保護研究進展

      2016-09-22 10:51:45王姣范科峰王勇
      網(wǎng)絡與信息安全學報 2016年1期
      關(guān)鍵詞:同態(tài)原始數(shù)據(jù)加密

      王姣,范科峰,王勇

      (1.桂林電子科技大學電子工程與自動化學院,廣西 桂林 541004;2.中國電子技術(shù)標準化研究院,北京 100007;3.桂林電子科技大學計算機科學與工程學院,廣西 桂林 5410004)

      面向數(shù)據(jù)發(fā)布和挖掘的隱私保護研究進展

      王姣1,范科峰2,王勇3

      (1.桂林電子科技大學電子工程與自動化學院,廣西 桂林 541004;2.中國電子技術(shù)標準化研究院,北京 100007;3.桂林電子科技大學計算機科學與工程學院,廣西 桂林 5410004)

      隨著計算機技術(shù)的迅速發(fā)展,數(shù)據(jù)越來越多,為了從這些大量數(shù)據(jù)中獲取有用信息,需要對其進行挖掘,然而,在此過程中不免會造成數(shù)據(jù)相關(guān)者隱私的泄露,如何提高數(shù)據(jù)的安全性、保護有用信息不被外泄變得尤為重要。分析了在數(shù)據(jù)發(fā)布和挖掘過程中若干現(xiàn)有數(shù)據(jù)隱私保護技術(shù)的方法,簡述了JTC1制定的隱私保護相關(guān)國際標準,并根據(jù)其不同應用領域提出了未來可能的研究方向。為信息安全領域相關(guān)的人員提供了一定參考基礎。

      隱私保護;大數(shù)據(jù);數(shù)據(jù)挖掘;標準

      數(shù)據(jù)大多涉及到個人隱私,如病人的病情、用戶的信用卡收支記錄、顧客的花費記錄等,通常由于某些原因,人們并不希望自己的信息被他人知曉。在保護隱私的前提下得到數(shù)據(jù)分析的有用結(jié)果變得至關(guān)重要,然而這不僅需要技術(shù)的不斷進步,還需要法律法規(guī)和相關(guān)標準的完善。這對很多企業(yè)來說既是機遇也是挑戰(zhàn),他們投入巨大的資金希望得到更及時和有用的信息來滿足增長和盈利需求,例如,作為大數(shù)據(jù)分析的探路者和領導者,IBM自2005年至2012年,投資160億美元進行了30次與大數(shù)據(jù)有關(guān)的收購[1],在2014年初,IBM又投入10億美元組建獨立的Watson部門,率先于業(yè)界開展前瞻認知計算實踐[4]。

      2 隱私保護關(guān)鍵技術(shù)

      隱私是伴隨著人類社會的形成而產(chǎn)生的,對于不同國家、地域和對象,概念也會有所不同。因此,隱私權(quán)也作為一項有關(guān)隱私的基本人權(quán),逐漸在各個國家的法律和相關(guān)政策條款中出現(xiàn)。最早涉及隱私權(quán)的法律政策文件源于1890年Warren和Brandeis的“The right to privacy”[5],其中提出“隱私權(quán)是個人獨處的權(quán)利,此權(quán)利是憲法規(guī)定的人所共享的自由權(quán)利的重要組成部分”。隨著信息技術(shù)不斷推動人類社會的發(fā)展,一些數(shù)據(jù)信息被悄無聲息地保存在不同的地方,并且被不正當?shù)厥褂?,進而產(chǎn)生了隱私和安全問題,人們對隱私保護的呼聲越來越高,除了相關(guān)政策的出臺,越來越多的人致力于技術(shù)層面的研究,從而產(chǎn)生了大量的方法,隱私保護技術(shù)的發(fā)展也逐漸趨于多元化。

      多年前就有不少人致力于對隱私保護技術(shù)的研究。1989年Adam等提出了擾動方法[6];2000年,Agrawal等提出了隨機化方法[7];2002年,Clifton等提出了安全多方計算(SMC,Secure multi-party computation)技術(shù)[8];2004年,F(xiàn)ienberg提出了交換方法[9];隨后基于博弈論[10]的隱私保護方法的提出也為其注入了新鮮的血液。

      目前,在數(shù)據(jù)發(fā)布過程中,對原始數(shù)據(jù)采用失真、匿名、加密等技術(shù),以實現(xiàn)隱私保護;在數(shù)據(jù)挖掘過程中,針對關(guān)聯(lián)規(guī)則、分類、聚類等,研究高效的隱私保護的挖掘算法來減少由挖掘所帶來的隱私風險[11]?;谝陨蟽蓚€層面,本節(jié)主要介紹數(shù)據(jù)隱私保護的關(guān)鍵技術(shù)。

      2.1失真技術(shù)

      數(shù)據(jù)失真技術(shù),就是對原始數(shù)據(jù)進行擾動,基本思想是隱藏真實數(shù)據(jù),只呈現(xiàn)出數(shù)據(jù)的統(tǒng)計學特征[12]。失真后的數(shù)據(jù)仍然保持原本的某些特性不變,但攻擊者是不能根據(jù)發(fā)布的失真數(shù)據(jù)重構(gòu)出真實的原始數(shù)據(jù)的。失真技術(shù)主要包括隨機化、阻塞、變形、交換等,以此來隱藏關(guān)聯(lián)規(guī)則。

      2.1.1隨機化

      隨機化技術(shù)是在原始數(shù)據(jù)中加入隨機噪聲,從而保護敏感數(shù)據(jù)不被發(fā)現(xiàn)。例如,在原始數(shù)據(jù)中注入大量偽項,隱藏頻繁項集。然而任意地對數(shù)據(jù)進行隨機化,并不能保證數(shù)據(jù)和隱私的安全,文獻[13]為此提供了一種基于隨機矩陣的數(shù)據(jù)過濾技術(shù)。同時,文獻[14]也提出了一種新的數(shù)據(jù)隨機處理方法,即部分隱藏的隨機化回答方法,此方法是將數(shù)據(jù)干擾和查詢限制相結(jié)合對原始數(shù)據(jù)進行變換和隱藏。

      隨機化擾動技術(shù)可以在不暴露原始數(shù)據(jù)的情況下進行多種數(shù)據(jù)挖掘,比如,在隨機擾動后的數(shù)據(jù)上估計項集支持度,從而發(fā)現(xiàn)規(guī)則[15];或者通過對隨機干擾數(shù)據(jù)的重構(gòu),設計高效的分類挖掘算法,利用重構(gòu)數(shù)據(jù)的分布進行決策樹分類器訓練,最終得到的決策樹可以很好地對數(shù)據(jù)進行分類[16]。

      2.1.2阻塞

      阻塞對于原始數(shù)據(jù)的修改并不引入虛假的噪聲數(shù)據(jù),而是對其進行泛化模糊處理[17]?;驹硎牵簩?shù)據(jù)表中的某些特定數(shù)值換成“?”,使支持度或置信度處于某個區(qū)間范圍內(nèi),當此區(qū)間范圍的下界取值小于設定的閾值時,即可實現(xiàn)關(guān)聯(lián)規(guī)則的隱藏。文獻[18]提出了通過使用未知值來代替部分敏感的原始數(shù)據(jù),文獻[19]也提出了針對特定的敏感規(guī)則對原始數(shù)據(jù)進行隱藏。阻塞雖然可以使一部分敏感信息得到很好的保護,但由于所提供的所有數(shù)據(jù)都是真實的原始數(shù)據(jù),所以對整個數(shù)據(jù)集的隱私保護程度并不是很高。

      2.1.3變形

      變形類似于阻塞,不同的是用布爾矩陣表示數(shù)據(jù)庫中的數(shù)據(jù),將敏感事務對應的數(shù)值進行取反操作,同時修改和過濾原有事務的屬性,使敏感規(guī)則的支持度和置信度低于設定的閾值,從而達到關(guān)聯(lián)規(guī)則的隱藏。

      但是一個無法避免的問題是,對原始數(shù)據(jù)進行阻塞和變形之后,都需要重建數(shù)據(jù)的分布,它們必須針對不同的應用需要設計特定的算法來對轉(zhuǎn)換后的數(shù)據(jù)進行處理。對此,文獻[20]提出了一種凝聚技術(shù),將原始數(shù)據(jù)記錄分成組,每組有k條記錄產(chǎn)生的統(tǒng)計信息,同一組內(nèi)的k條記錄是兩兩不可區(qū)分的,因此重構(gòu)后的記錄并不會泄露原始數(shù)據(jù)的隱私。

      2.1.4交換

      交換是在記錄之間交換數(shù)據(jù)值來平衡隱私和數(shù)據(jù)挖掘的一種技術(shù)[21],其核心是:在原始數(shù)據(jù)中,交換不同記錄的某些屬性值,但前提必須要保證不改變其統(tǒng)計特征,最后發(fā)布交換后的數(shù)據(jù),這樣便能提高數(shù)據(jù)的不確定性。在文獻[22]中,為了有效訪問以加密形式存儲的數(shù)據(jù),使用3個獨立的服務器來管理數(shù)據(jù),不斷對所訪問的數(shù)據(jù)進行重寫和重加密。文中數(shù)據(jù)交換意味著通過3個服務器間的信息交換來改變所訪問的數(shù)據(jù)的物理地址,并闡明了如何將交換技術(shù)應用于3個服務器中來保護隱私。

      2.2匿名技術(shù)

      數(shù)據(jù)匿名化的兩種主要方法是抑制和泛化[17],顧名思義,抑制是不發(fā)布某些數(shù)據(jù)項,泛化是對數(shù)據(jù)進行概括與抽象描述。對于數(shù)據(jù)匿名化,其研究的重難點在于,如何在既能保護隱私又具有較大價值的前提下設計更好的匿名化原則和算法。

      2.2.1k-匿名

      k-匿名隱私保護模型由L.Sweeney在1998年首次正式提出[23],他在文獻[24]中提出了k-匿名原則,即保證所發(fā)布數(shù)據(jù)集中的每一條記錄與其他k-1條記錄不能區(qū)分,因此數(shù)據(jù)挖掘者不能辨別出隱私信息所屬的具體個體,從而起到隱私保護的作用,k值越大,隱私保護效果越好,然而數(shù)據(jù)丟失也越為嚴重。k-匿名數(shù)據(jù)是不確定數(shù)據(jù)中的一種,有效解決了鏈接攻擊[18]問題,但其主要是針對單一約束條件進行處理,而在實際應用中,會涉及到大量約束條件,對此,文獻[25]提出了多約束k-匿名方法Classfly+,此算法的核心是先將約束集劃分為M個獨立的約束子集,然后再將獨立約束子集中的約束按照匿名度低優(yōu)先原則進行排序,若獨立約束子集含一個約束,則采用Classfly算法進行匿名化處理,若含多個約束,則采用多約束概括過濾進行匿名化處理。

      2.2.2l-多樣性

      l-多樣化模型[26]是對k-匿名的擴展,此模型要求每個等價類的敏感屬性至少有l(wèi)個不同的值,增加了敏感值與所屬個體的連接難度,防止了k-匿名易受同質(zhì)性攻擊和重標志攻擊的缺陷。然而不同個體對隱私保護有不同的需求,對此,文獻[27]通過設置敏感屬性的保護屬性來實現(xiàn)個體與敏感值之間關(guān)聯(lián)關(guān)系的個性化保護需求,提出了一種面向個體的個性化擴展l-多樣性隱私匿名模型,與此同時,為實現(xiàn)該模型,還提出了一種個性化擴展l-多樣性逆聚類(PELI-clustering)的算法,此算法首先從數(shù)據(jù)集中任意選取一個元組作為聚類質(zhì)心,根據(jù)其敏感屬性集得到該質(zhì)心相應的匿聚類候選集,再形成滿足擴展l-多樣性的匿聚類等價類,重新計算質(zhì)心,并將離此質(zhì)心最遠的元組作為下一個聚類的質(zhì)心,重復此過程直到全部元組歸入相應的匿聚類等價類或不滿足聚類的條件為止。

      2.2.3t-閉合

      上述提到的l-多樣性存在兩個問題,一是當l值較小,數(shù)據(jù)記錄值過大時,等價類數(shù)量會相當龐大;二是對單個敏感屬性而言,如果兩個敏感屬性值差異過大,很難確定敏感屬性值的敏感度[28]。對此,在k-匿名和l-多樣性基礎上,文獻[29]提出了t-閉合方法,此方法要求所有等價類的敏感屬性值分布與該屬性的總體分布差異小于t,文中給出了等價類和表滿足t-閉合的條件,若一個等價類的敏感屬性值分布和整個表的屬性值分布差異不超過閾值t,則這個等價類符合t-閉合條件,若一個表中的所有等價類都符合t-閉合,則整個表符合t-閉合。

      2.3加密技術(shù)

      加密技術(shù)多用于分布式數(shù)據(jù)應用之中,通過對原始數(shù)據(jù)進行加密以實現(xiàn)隱私保護。任何一種普通的計算都可轉(zhuǎn)化為無可信第三方參與的安全多方計算(SMC,secure multi-party computation)的框架[30],SMC主要用于兩個或多個互不信任的參與方之間進行隱私保護的協(xié)同計算。

      2.3.1安全多方計算

      安全多方計算的概念最初是由Yao在1982年提出的[31],確保輸入的獨立性、計算的正確性,同時不能向參與計算的其他成員泄露輸入值。一個SMC模型主要由參與方、安全性定義、通信網(wǎng)模型、信息論安全與密碼學安全4個方面組成,其應用領域涉及到電子選舉、投票、拍賣等。雖然安全多方計算相對來說比較安全和準確,但涉及到的加密技術(shù)計算開銷、通信開銷也較高,因此SMC是以犧牲費用為前提提高隱私保護度的。目前,對于安全多方計算的研究主要集中于降低計算開銷、優(yōu)化分布式計算協(xié)議等[12]。

      2.3.2同態(tài)加密技術(shù)

      同態(tài)加密(homomorphic encryption)作為SMC的核心技術(shù)之一,其概念最初由Rivest等在1978年提出[32],是一種允許直接對密文進行操作的加密變換技術(shù)[33],它既能實現(xiàn)基本的加密操作,也能實現(xiàn)密文間的多種計算功能。同態(tài)加密算法包括能實現(xiàn)一種同態(tài)性的半同態(tài)加密算法和可以滿足所有同態(tài)性質(zhì)的全同態(tài)加密算法[34],不過由于全同態(tài)加密算法的計算復雜性,目前還沒得到廣泛的應用。

      滿足乘法同態(tài)性的RSA算法[35],設p,q是兩大素數(shù),由于大整數(shù)分解較為困難,因此n=pq難以在有限時間內(nèi)進行分解。RSA算法也存在一些問題。一是在公私鑰生成之后,同一個明文加密后的密文總相同,這就對其安全性提出了挑戰(zhàn),對此,文獻[36]提出了滿足加法同態(tài)性的Paillier算法,因同一明文兩次加密會產(chǎn)生不同密文,相對RSA算法提高了方案的安全性。二是倘若攻擊者嘗試所有可能的密鑰進行蠻力攻擊或?qū)Υ髷?shù)因式分解進行數(shù)字攻擊,RSA算法的安全性也會受到威脅,為此,文獻[37]提出了一種改進型的RSA算法(MREA,modified RSA encryption algorithm),MREA是一種非對稱密鑰密碼體系,公鑰只用來加密,私鑰只用來解密,因此通過加密簽名是不能識別身份的。文獻[38]詳細介紹了兩成員和多成員情況下同態(tài)加密技術(shù)的過程,并分別對其正確性、復雜度和隱私性進行了分析。此外,還出現(xiàn)了一類異或同態(tài)加密算法,文獻[39]采用概率編碼方法和一個同態(tài)按位異或計算的密碼系統(tǒng),構(gòu)造了兩種安全協(xié)議,這不同于以往基于安全算術(shù)和的運算,而是基于安全的按位異或運算。

      同態(tài)加密技術(shù)的優(yōu)點如下:1)可以先對多個密文進行計算后再解密,減少計算代價;2)可以實現(xiàn)無密鑰方對密文的計算,密文計算無須經(jīng)過密鑰方,減少通信代價;3)可以實現(xiàn)讓解密方只能獲知最后的結(jié)果,而無法獲得每一個密文的消息,可以保證信息的安全性[40]。近年來,同態(tài)加密技術(shù)的突破性進展為云計算的安全保護提供了新的契機,研究高效、實用的全同態(tài)加密方案[41],并將其應用到云計算服務上,具有重要的現(xiàn)實意義。

      2.3.3數(shù)字信封技術(shù)

      數(shù)字信封技術(shù)使用兩層加密體系,結(jié)合了對稱加密和非對稱加密的優(yōu)點,保障信息傳輸安全。對稱加密,即加密和解密的密鑰相同;非對稱加密,即加密密鑰和解密密鑰不同。數(shù)字信封技術(shù)過程如下:

      1)發(fā)送方用對稱密鑰加密信息,并用接收方的公開密鑰將此對稱密鑰加密(這部分稱為數(shù)字信封),形成消息密文和密鑰密文,將二者發(fā)送給接收方;

      2)接收方用相應的私有密鑰打開數(shù)字信封,得到對稱密鑰,然后用此對稱密鑰打開加密信息。

      數(shù)字信封技術(shù)可滿足數(shù)據(jù)交換的高保密性要求,應用較為廣泛。例如,將同態(tài)加密技術(shù)和數(shù)字信封技術(shù)相結(jié)合,并應用于數(shù)據(jù)挖掘決策樹分類[42]的隱私保護之中。

      2.3.4Shamir秘密共享技術(shù)

      秘密共享是一種將秘密分割存儲的密碼技術(shù),但其關(guān)鍵是如何設計更好的分割和恢復。Shamir秘密共享技術(shù)可以有效預防共謀攻擊并且可以在不違背隱私保護的前提下進行多方計算[43],其基本思想是將一個密鑰分解成n個部分,只有知道了其中的至少k(kn≤)個部分才能恢復出原來的秘密信息。

      假定sυ是隱私信息,P是分配隱私信息的P1,P1,…,Pn組成的集合,k是重建隱私信息至少需要的股份數(shù)。Shamir秘密共享算法簡述如下:

      2)選擇m個不同公開的隨機數(shù)1x,2x,…,其中

      因為多項式 q( x)中有k個未知量,為了得到隱私信息υs,至少需要構(gòu)建k個方程。因此即便有k-1個隱私分配者串通也不能得到這個隱私的任何信息。

      文獻[43]詳細分析了此算法的正確性、復雜度和安全性。通過分析方程組的形式,得知k個部分參與的計算即使有k-1個部分勾結(jié)也不能計算出這個隱私信息,因此該方法可以達到隱私保護的目的。秘密共享技術(shù)有諸多優(yōu)點,例如保證密鑰的安全性和完整性,防止權(quán)力過分集中被濫用,增加系統(tǒng)的可靠性等。因此,將其與數(shù)字簽名、身份認證等技術(shù)結(jié)合可形成具有廣泛應用價值的密碼學算法和安全協(xié)議。

      2.4基于聚類算法的隱私保護技術(shù)

      聚類是根據(jù)數(shù)據(jù)間不同和相似的特性,將數(shù)據(jù)分成不同的類別,最后使同一聚簇中的個體差別盡可能小,而不同聚簇之間個體差異盡可能大。聚類是一個無監(jiān)督的分類,它沒有任何先驗知識可用[44]。在此,主要介紹基于EM和K-means聚類算法的隱私保護技術(shù)。

      2.4.1基于EM算法聚類的隱私保護

      EM算法( expectation maximization algorithm),即最大期望算法,是一種迭代算法,主要用于計算不完全數(shù)據(jù)的極大似然估計,大大降低了極大似然估計的計算復雜度。EM算法的每一步迭代中包括一個E步(expectation step)即期望步和一個M步(maximum likelihood step)即極大似然步,如此迭代下去,直至滿足某個收斂條件為止。由于EM算法收斂的優(yōu)劣很大程度上取決于其初始參數(shù),因此如何初始化EM參數(shù)[45,46]是一個關(guān)鍵的問題,一般采用隨機中心、層次聚類、K-means和Binning等方法。

      雖然人們在不斷地改進EM算法,但基于隱私保護的安全聚類協(xié)議并不是很多。對于水平分布的數(shù)據(jù),文獻[47]給出了一種EM混合模型下的安全算法,基本思想是在每次迭代中,每個參與者只從數(shù)據(jù)對象中生成一個局部模型,并根據(jù)上次迭代結(jié)果計算全局信息,然后將自己的局部模型和其他參與者的局部模型合并成全局模型。但這種方法至少需要3個參與方,因為倘若只有兩方的話,便可以根據(jù)全局模型和自己的局部模型得到另一方的局部模型。針對這種情況,文獻[48]提出了一種只有兩個參與者的基于EM聚類的隱私保護算法,討論了在高斯混合模型(GMM,Gaussian mixture model)里,如何在不共享各自信息的同時安全計算高斯分布的期望 μi、協(xié)方差矩陣類i的概率 πi。

      2.4.2K-means聚類的隱私保護算法

      K-means算法也是基于聚類算法中的一個典型算法,同樣也是一種迭代算法。其基本思想是找出K個聚類中心,使每個數(shù)據(jù)點與其最近的聚類中心的平方距離和最小?;具^程如下:

      1)從n個點中隨機選取k個點作為中心;

      2)分別測量其他每個點到k個中心的距離,并將其歸到最近的中心,得到k個類;

      3)重新計算k個類的中心點;

      4)若新中心點和原中心點相同或小于提前設定的閾值,則算法結(jié)束,否則繼續(xù)步驟2)和步驟3)。

      對于K-means聚類的隱私保護,關(guān)鍵是對聚類均值的隱私保護,但是在算法的每一步迭代中,參與方是知道均值的[49]。為了解決這一問題,文獻[48]提出了一個協(xié)議,即在不揭露聚類均值的前提下允許每個參與方計算到聚類中心點的距離。對于垂直分布的數(shù)據(jù)聚類,既要得到劃分的效果,又達到不能泄露各方對象屬性的個數(shù)和各方類的平均值的隱私保護目的,文獻[50]在K-means算法基礎上,結(jié)合安全多方計算和同態(tài)加密算法,提出了一種對于K-means聚類的隱私保護方案,假定有r個參與方,n個公共實體,每個參與方對于同一實體集有不同的屬性,最后的結(jié)果是每個參與方只知道對應于他們自己屬性的均值以及實體的劃分。

      3 隱私保護相關(guān)標準

      國際標準化組織/國際電工委員會(ISO/IEC,InternationalOrganization forStandardization/ International Electrotechnical Commission)的第一聯(lián)合技術(shù)委員會(JTC1)是一個信息技術(shù)領域的國際標準化委員會,它推進了國際信息技術(shù)標準化的進程。SC27是JTC1下屬的專門負責信息安全技術(shù)領域的分技術(shù)委員會,SC27下設5個工作組,其中第五工作組WG5主要負責研究和制定身份管理與隱私保護領域的信息安全國際標準。鑒于隱私保護相關(guān)的標準涉及范圍很廣,本節(jié)主要介紹SC27 WG5制定的與隱私保護相關(guān)的國際標準。

      3.1ISO/IEC 29100《信息技術(shù) 安全技術(shù) 隱私框架》

      ISO/IEC 29100《信息技術(shù) 安全技術(shù) 隱私框架》[51]為信息與通信技術(shù)(ICT,information and communication technology)系統(tǒng)內(nèi)個人可識別信息(PII,personally identifiable information)提供了一個高層次的框架。此框架定義了一個通用的隱私術(shù)語;介紹了處理PII過程中的成員和它們各自的角色;描述了隱私保護需考慮的事項;并且根據(jù)現(xiàn)有的隱私規(guī)則提供了一些參考規(guī)則。該標準提供的隱私框架可以作為制定其他隱私標準的基礎。

      3.2ISO/IEC 27018《信息技術(shù) 安全技術(shù) 在公有云中PII處理者的PII實用規(guī)則》

      ISO/IEC 27018這一標準[52]根據(jù) ISO/IEC 29100中的隱私規(guī)則建立了通用的可接受的控制對象、措施和指南,使得在公有云計算環(huán)境下保護PII。該標準幫助公有云服務提供商作為PII處理者時履行適用的義務;使公有云PII處理者在相關(guān)方面淺顯易懂,因此云服務消費者可以選擇較好的基于云管理的PII處理服務;幫助云服務消費者和公有云PII處理者達成合約共識;在物理和邏輯網(wǎng)絡安全風險增高的情況下,為云服務消費者提供一個執(zhí)行審計、合法權(quán)利和責任的機制。

      3.3ISO/IEC 29190《信息技術(shù) 安全技術(shù) 隱私保護能力評估模型》

      ISO/IEC 29190標準[53]試圖向組織提供一個關(guān)于如何評估其隱私保護能力水平的高層次指南。特別地,它規(guī)定了評定隱私能力的評估步驟;設定了隱私能力評估級別;在隱私能力評估的關(guān)鍵功能區(qū)域提供了指南;提供了執(zhí)行評估過程的指南,并且提供了如何將隱私能力評估融入到組織運作中的指南。

      3.4ISO/IEC 29134《信息技術(shù) 安全技術(shù) 隱私影響評估 方法學》

      ISO/IEC 29134標準[54]為隱私影響評估(PIA,privacy impact assessment)的進行提供了指導方針,并給出了一個隱私保護框架和具體的隱私影響評估方法,解釋了如何管理在PII處理過程中產(chǎn)生的隱私風險。此外,該標準還描述了PIA報告的結(jié)構(gòu)和內(nèi)容,PIA是一種用來評估在某個項目、技術(shù)和服務等方面隱私影響的工具,并與利益相關(guān)者協(xié)商采取補救措施來避免或減小不利影響。

      本節(jié)主要介紹的是SC27 WG5制定的與隱私保護相關(guān)的國標。然而由于不同國家的管理機制和理念各不相同,不同實體涉及到的隱私方面的差異也較大,應根據(jù)我國實際情況,通過研究和跟進國際國外相應標準及其發(fā)展趨勢,不斷推進和深化我國的隱私保護標準。

      4 展望

      目前,數(shù)據(jù)量呈指數(shù)式增長,數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)格式日趨復雜化,安全與隱私已成為大數(shù)據(jù)時代各行各業(yè)關(guān)注的焦點。無論是在技術(shù)層面還是標準制定層面,都需要進行進一步研究和完善。

      隨著無線傳感器網(wǎng)絡、移動社交網(wǎng)絡以及云計算相關(guān)應用的逐步展開,其安全問題也備受關(guān)注。如何將隱私保護技術(shù)和它們進一步結(jié)合,設計具有針對性且性能良好的算法,提高保護度和結(jié)果精確度,降低算法復雜度以及減少能量消耗等都需要進行深入研究。

      在無線傳感器網(wǎng)絡中,研究主要集中于數(shù)據(jù)聚集、查詢和訪問控制過程中的隱私保護,由于這是資源受限的分布式自組織多跳網(wǎng)絡,前面介紹的隱私保護關(guān)鍵技術(shù)并不能直接應用于此網(wǎng)絡。在隱私保護數(shù)據(jù)聚集中,可以使用逐跳加密機制、端到端加密機制、非加密策略等。逐跳加密機制是聚集節(jié)點將子節(jié)點上傳來的加密數(shù)據(jù)解密后進行聚類,然后加密上傳給父節(jié)點,由于中間節(jié)點都需進行加解密,因此計算代價較高;而端到端加密機制,聚集節(jié)點不解密只加密的方法減少了加解密的計算代價;非加密策略就是在不加密的情況下,加入與真實數(shù)據(jù)不可區(qū)分的偽裝數(shù)據(jù)以實現(xiàn)隱私保護,此方法可支持非線性聚類,但其隱私保護能力較弱。在隱私保護數(shù)據(jù)查詢中,目前大多采用范圍查詢、Top-k查詢、基于類型的查詢等方法:范圍查詢可通過桶模式和加密技術(shù)實現(xiàn),再添加驗證編碼進行正確性和完整性驗證;Top-k查詢是采用擾動和安全比較等技術(shù)實現(xiàn)隱私保護;在基于類型的查詢中,傳感器節(jié)點采集特定類型的數(shù)據(jù),使用橢圓曲線多項式技術(shù)將敏感數(shù)據(jù)的類型和內(nèi)容隱藏,應對共謀攻擊。在隱私保護訪問控制中,盲簽名技術(shù)隱私保護度較強,但通信代價較高,環(huán)簽名技術(shù)則與其相反。如何根據(jù)其特點,優(yōu)化數(shù)據(jù)管理,設計保護協(xié)議,將隱私保護技術(shù)和傳感器網(wǎng)絡技術(shù)有效結(jié)合是這一領域需要進一步研究的方向。

      在移動社交網(wǎng)絡中,各種移動定位設備的涌現(xiàn)產(chǎn)生了大量的位置和軌跡數(shù)據(jù),對其如何保護是迫切需要解決的問題,目前,社交網(wǎng)絡隱私保護技術(shù)主要集中于基于k-匿名、Markov鏈、聚類、隨機化等思想,軌跡隱私保護技術(shù)主要集中于假數(shù)據(jù)、泛化和抑制等,除了對發(fā)布的數(shù)據(jù)進行一定的處理外,還要考慮數(shù)據(jù)發(fā)布時間之間的聯(lián)系,此外,即便用戶可以控制自己發(fā)布的內(nèi)容,也無法控制朋友發(fā)布涉及自己的內(nèi)容,這也給相關(guān)人員帶來了巨大的挑戰(zhàn),如何降低隱私泄露程度并且提高數(shù)據(jù)可用性成為了研究的重點。因此,需要設計多樣化的社會網(wǎng)絡隱私保護模型,目前已初步嘗試將關(guān)系數(shù)據(jù)中的差分隱私應用到其中,不過由于大數(shù)據(jù)的規(guī)模和結(jié)點之間高度的相關(guān)性,可能導致數(shù)據(jù)差分隱私的復雜度較高。

      在云計算相關(guān)應用中,各種大量資源都鏈接在一起,形成一個巨大的虛擬資源共享池,它以便利、經(jīng)濟、高可擴展性等一系列優(yōu)勢吸引了越來越多的企業(yè)和公司,然而其安全問題是制約云計算發(fā)展的關(guān)鍵因素。近年來,研究者不斷致力于對虛擬機安全、數(shù)據(jù)外包安全、可信計算環(huán)境等相關(guān)方面的研究,為保護用戶數(shù)據(jù)的隱私,用戶在對數(shù)據(jù)加密后交給云服務器存儲,當用戶進行查詢時,也需對查詢條件進行加密,這對云服務器的要求很高,必須能夠根據(jù)加密的查詢條件在加密的數(shù)據(jù)上進行查詢,如何真正實現(xiàn)相關(guān)技術(shù)應用于云計算中,形成支撐云計算安全的技術(shù)體系,為用戶提供安全可靠的保障是未來需要解決的實質(zhì)性問題。目前,基于ORAM的可搜索加密技術(shù)能達到較高的安全保障,但需付出很大的計算代價;基于對稱加密的可搜索技術(shù)是一種無交互密文搜索方法,但較易遭受統(tǒng)計攻擊;較為符合云計算環(huán)境下隱私保護實際需求的方法是安全排名查詢,此方法是系統(tǒng)根據(jù)某種準則進行查詢將結(jié)果返回給用戶,系統(tǒng)適用性較強,不過仍需進一步研究。

      除了隱私保護相關(guān)領域技術(shù)層面的研究,還需要通過法律法規(guī)和標準對其進行規(guī)范。然而由于各國情況不同,實際應用和管理需求不同,必須結(jié)合實際情況進行法律法規(guī)和標準的制定。我國尚缺乏一部專門用于信息通信技術(shù)(ICT,information communication technology)系統(tǒng)的隱私保護法律,可參考國際國外的相關(guān)法規(guī)和標準,結(jié)合我國實際情況,盡快出臺相關(guān)政策。

      5 結(jié)束語

      本文從數(shù)據(jù)發(fā)布和挖掘的角度出發(fā),介紹了幾種典型的隱私保護技術(shù)方法,以及JTC1制定的與隱私保護相關(guān)的標準,并分析了其未來可能的發(fā)展方向。總體上說,對于隱私保護的相關(guān)研究,還需要進一步努力,制定合理的政策法規(guī),并在此基礎上加強技術(shù)方面的探索,才能更好地讓數(shù)據(jù)為我所用,使隱私更好地得以保護。

      [1]李國杰,程學旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域—大數(shù)據(jù)的研究現(xiàn)狀與科學思考[J].中國科學院院刊,2012,27(6).LI G J,CHENG X Q.Big data study:a major strategic area-the research status of big data and scientific reflection[J].Bulletin of ChineseAcademy of Sciences,2012,27(6).

      [2]CLIFFORD L.Big data[J].Nature,2008,455(7209):1-136.

      [3]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.MENG X F,CI X.Big data management:conception,technology and challenge[J].Computer Research and Development,2013,50(1): 146-169.

      [4]官思發(fā),朝樂門.大數(shù)據(jù)時代信息分析的關(guān)鍵問題、挑戰(zhàn)與對策[J].圖書情報工作,2015,59(3):12-18.GUAN S F,CHAO L M.The problem,challenge and countermeasure of the big data information analysis[J].Library and Information Service,2015,59(3):12-18.

      [5]WARREN S D,BRANDEIS L D.The right to privacy[J].Harvad Law Review,1973,4(6):193-220.

      [6]ADAM N R,WORTMANNJ C.Security control methods for statistical databases:a comparative study[J].ACM Computing Surveys,1989,21(4):515-556.

      [7]AGRAWAL R,SRIKANT R.Privacy-preserving data mining[J].Sigmod Record,2000,29(2):439-450.

      [8]CLIFTYON C,KANTARCIOGLU M,VAIDYA J,et al.Tools for privacy preserving distributed data mining[J].ACM SIGKDD Explorations,2003,4(2).

      [9]MCINTYRE S E,MCLNTYRE J.Data swapping:variations on a theme by dalenius and reiss[J].Lecture Notes in Computer Science, 2004:14-29.

      [10]KARGUPTA H,DAS K,LIU K.Multi-party,privacy-preserving distributed data mining using a game theoretic framework[C]//The 11st European conference on Principles and Practice of Knowledge Discovery in Databases.Berlin Heidelberg:Springer-Verlag,c2007: 523-531.

      [11]XU L,JIANG C X,WANG J,et al.Information security in big data: privacy and data mining[J].IEEE Access,2014,2:1-28.

      [12]李曉曄,孫振龍,鄧佳賓,等.隱私保護技術(shù)研究綜述[J].計算機科學,2013,40:199-202.LI X H,SUN Z L,DENG J B,et al.Review of privacy protection[J].Computer Science,2013,40:199-202.

      [13]KARGUPTA H,DATTA S,WANG Q,et al.On the privacy preserving properties of random data perturbation techniques[C] //IEEE International Conference on Data Mining.c2003:99.

      [14]張鵬,童云海,唐世渭,等.一種有效的隱私保護關(guān)聯(lián)規(guī)則挖掘方法[J].軟件學報,2006,17(8):1764-1774.ZHANG P,TONG Y H,TANG S W,et,al.An effective method of digging privacy protection assotionation rule[J].Journal Software, 17(8):1764-1774.

      [15]ELMAGARMID A K,VERYKIOS V S,SAYGIN Y.Privacy preserving association rule mining[C]//Twelfth International Workshop Research Issuesin Data Engineering:Engineering E-Commercr/E-Business Systems.c2002:151-158

      [16]AGRAWAL R,SRIKANT R.Privacy preserving data mining[J].ACM Sigmod Record,2000,29(2):439-450.

      [17]張海濤,黃慧慧,徐亮,等.隱私保護數(shù)據(jù)挖掘研究進展[J].計算機應用研究,2013,30(12):3529-3535.ZHANG H T,HANG H H,XU L,et al.Progress of private protection data mining[J].Application Research of Computers,2013,30(12): 3529-3535.

      [18]SAYGM Y I,VERYKIOS V S,CLIFTON C.Using unknowns to prevent discovery of association rules[J].ACM Sigmod Record, 2001,30(4):45-54.

      [19]OLIVEIRA S R M,ANE O.Privacy preserving frequent itemset mining[C]//IEEE International Conference on Privacy,Security and Data Mining.c2002:43-54.

      [20]AGGARWAL C C,YU P S,et al.A condensation approach to privacy preserving data mining[M]//9th International Conference on Extending Ratakase Technology,Heraklion,Crete.Berlin Heidelberg:Springer,c2004:183-199.

      [21]ESTIVILL V,BRANKOVIC L.Data swapping:balancing privacy against precision in mining for logic rules[J].Lecture Notes in Computer Science,1999:389-398.

      [22]FORESTI S,PARABOSCHI S,PELOSI G,et al.Protecting access confidentiality with data distribution and swapping[C]//Big Data and Cloud Computing.c2014:167-174.

      [23]SAMARATI P,SWEENEY L.Protecting privacy when disclosing information: K-anonymity and its enforcement through generalization and suppression[C]//IEEE Symposium on Research in Security and Privacy,Chicago.c1998.

      [24]SWEENEY L.K-anoymity:a model for protecting privacy[J].International Journal of Uncertainty Fuzziness&Knowledge Based Systems,2002,10(5):557-570.

      [25]楊曉春,劉向宇,王斌,等.支持多約束的K-匿名化方法[J].軟件學報,2006,17(5):1222-1231.YANG X C,LIU X Y,WANG B,et al.K-anonymous method of multiple constrains supported[J].Journals of Software,2006,17(5): 1222-1231.

      [26]MACHANAVAJJHALA A,GEHRKE J,KIFER D,et al.L-diversity:privacy beyond k-anonymity[C]//IEEE International Conference on Data Engineering.c2006:24.

      [27]王波,楊靜.一種基于逆聚類的個性化隱私匿名方法[J].電子學報,2012,40(5):883-890.WANG B,YANG J.An anonymity privacy method based on invese clustering[J].Acta Electronica Sinica,2012,40(5):883-890.

      [28]劉英華,楊炳儒,馬楠,等.分布式隱私保護數(shù)據(jù)挖掘研究[J].計算機應用研究,2011,28(10):3606-3610.LIU Y H,TANG B R,MA N,et al.Study of distributed privacy protection[J].Application Research of Computers,2011,28(10): 3606-3610.

      [29]LI N,LI T,VENKATASUBRAMANIAN S.T-closeness:privacy beyond k-anonymity and l-diversity[C]//IEEE International Conference on Data Engineering.c2007:106-115.

      [30]湯琳,何豐.隱私保護的數(shù)據(jù)挖掘方法的研究[J].計算機技術(shù)與發(fā)展,2011,21:156-159.TANG L,HE F.Study of data mining method based on privacy protection[J].Computer technology and Development,2011,21: 156-159.

      [31]YAO A C.How to generate and exchange secrets[C]//IEEE Symposium on Foundations of Computer Science.c1986:162-167.

      [32]RIVEST R L,ADLEMAN L,DERTOUZOS M L.On data banks and privacy homomorphisms[J].Foundations of SecureComputations,1978:169-179.

      [33]錢萍,吳蒙.同態(tài)加密隱私保護數(shù)據(jù)挖掘方法綜述[J].計算機應用研究,2011,28(5):1614-1617.QIAN P,WU M.Review of privacy protection data mining based on homomorphic encryption[J].Application Research of Computers,2011,28(5):1614-1617.

      [34]GENTRY C.Fully homomorphic encryption using ideal lattices[C]//Annual ACM Symposium on Theory of Computing.c2009:169-178.

      [35]RIVST R L,SHAMIR A,ADLEMAN L.A method for obtaining digital signatures and public-key cryptosystems[J].Communications of the ACM,1978,21:120-126.

      [36]PAILLER P.Public-key cryptosystems based on composite degree residuosity classes[J].Advances in Cryptology-Eurocrypt,1999, 547(1):223-238.

      [37]DHAKAR R S,GUPTAAK,SHARMAP.Modified RSAencryption algorithm(MREA)[C]//IEEE International Conference on Advanced Computing and CommunicationTechnologies,c2012:426-429.

      [38]ZHAN J,MATWIN S,CHANG L.Privacy-preserving collaborative association rule mining[J].Journal of Network& ComputerApplications,2007,30(3):1216-1227.

      [39]ZHANG Y,CHEN Q,ZHONG S.Efficient and privacy-preserving min and k-th min computations in mobile sensing systems[J].IEEE Transactions on Dependable&Secure Computing,2015:1.

      [40]夏超.同態(tài)加密技術(shù)及其應用研究[D].合肥:安徽大學,2013.XIA C.Studyofhomomorphicencryption technologyand application[D].Hefei:Anhui University,2013.

      [41]陳智罡,王箭,宋新霞.全同態(tài)加密研究[J].計算機應用研究, 2014,31(6):1624-1630.CHEN ZZ,WANG J,SONG X X.Studyofhomomorphic encryption[J].Application Research of Computers,2014, 31(6):1624-1630.

      [42]ZHAN J.Using homomorphic encryption for privacy-preserving collaborative decision tree classification[C]//Computational Intelligence and Data Mining.c2007:637-645.

      [43]GE X,YAN L,ZHU J,et al.Privacy-preserving distributed association rule mining based on the secret sharingtechnique[C]//The 2nd International Conference on IEEE Software Engineering and Data Mining.c2010:345-350.

      [44]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學報,2008, 19(1):48-61.SUN J G,LIU J,ZHAO L Y.Study of clustering algorithrm[J].Journals of Software,2008,19(1):48-61.

      [45]BIERNACKI C.Initializing EM using the properties of its trajectories in Gaussian mixtures[J].Statistics&Computing,2004, 14(3):267-279.

      [46]BIERNACI C,CELEUX G,GOVAERT G.Choosing starting values for the EM algorithm for getting the highest likelihood in multivariate Gaussian mixture models[J].Computational Statistics& Data Analysis,2003,41(3/4):561-575.

      [47]LIN X,CLIFTON C,ZHU M.2005.Privacy-preserving clustering with distributed EM mixture modeling[J].Knowledge & Information Systems,2005,8(1):68-81.

      [48]DUNG L T,BAO H T.Privacy preserving EM-based clustering[C]//International Conference on IEEE Computing and Communication Technologies.2009:1-7.

      [49]JHA S,KRUGER L,MCDANIEL P.Privacy Preserving Clustering[C]//10th European Symposium on Research in Computer Security, Milan.Berlin Heidelberg: Springer, 2005:397-417.

      [50]VAIDYA J,CLIFTON C.Privacy-preserving k-means clustering over vertically partitioned data[C]//Ninth ACM Sigkdd International Conference on Knowledge Discovery&Data Mining.c2003:206-215.

      [51]ISO/IEC JTC1/SC27.Information technology-security techniquesprivacy framework[S].

      [52]ISO/IEC JTC1/SC27.Information technology-security techniquescode of practice for PII protection in public clouds acting as PII processors[S].

      [53]ISO/IEC JTC1/SC27.Information technology-security techniques-Privacy capability assessment model[S].

      [54]ISO/IEC JTC1/SC27.Information technology-security techniquesprivacy impact assessment-methodology[S].

      Progress of research on privacy protection for data publication and data mining

      WANG Jiao1,FAN Ke-feng2,WANG Yong3

      (1.School of Electronic Engineering andAutomation,Guilin University of Electronic Technology,Guilin 541004,China; 2.China Electronics Standardization Institute,Beijing 100007,China; 3.School of Computer Science and Engineering,Guilin University of Electronic Technology,Guilin 541004,China)

      With the rapid development of the computer technology,there are more and more data in the society.In order to acquire knowledge from the large amounts of data,collecting and data mining is necessary.However,the privacy information will inevitably be disclosed during the process.So it is particularly important to improve the security of data and protect the useful data to avoid being disclosed.Several methods of data privacy preserving technology were analyzed when data was processed and briefly discussed the international standards which were made by JTC1 about privacy protection.According to its different application fields,the possible future research directions was proposed.Certain reference foundation could be provided for people who were in the field of information security.

      privacy protection,big data,data mining,standard

      1 引言

      隨著社會的進步和信息通信技術(shù)的迅猛發(fā)展,數(shù)據(jù)量越來越多,Google公司每月處理的數(shù)據(jù)量超過400 PB;百度每天大約要處理幾十PB數(shù)據(jù);Facebook每天生成300 TB以上的日志數(shù)據(jù)[1]。在信息化時代的今天,數(shù)據(jù)除了呈現(xiàn)上述海量性之外,類型也變得繁多起來,以Web2.0技術(shù)為基礎的新型社交網(wǎng)絡,以及云計算、物聯(lián)網(wǎng)的興起,使得越來越多的數(shù)據(jù)呈現(xiàn)半結(jié)構(gòu)化,甚至非結(jié)構(gòu)化特性,信息社會已然步入大數(shù)據(jù)(big data)[2]時代,大數(shù)據(jù)時代的數(shù)據(jù)存在多源異構(gòu)、分布廣泛、動態(tài)增長等特點[3],這些數(shù)據(jù)價值量大,但價值密度低,在對其進行有效分析過程中,在得到想要結(jié)果時,人們普遍將關(guān)注點集中在如何保證自己的信息不被泄露上。

      The National Natural Science Foundation of China(No.61172053)

      TP309

      A

      10.11959/j.issn.2096-109x.2016.00021

      2015-10-27;

      2016-01-08。通信作者:范科峰,kefengfan@163.com

      國家自然科學基金資助項目(No.61172053)

      王姣(1990-),女,河北石家莊人,桂林電子科技大學碩士生,主要研究方向為工業(yè)大數(shù)據(jù)的安全測評。

      范科峰(1978-),男,陜西禮泉人,中國電子技術(shù)標準化研究院信息安全研究中心副主任、高級工程師,主要研究方向為信息技術(shù)、信息安全領域關(guān)鍵技術(shù)及標準化。

      王勇(1964-),男,四川閬中人,博士,桂林電子科技大學教授,主要研究方向為信息安全。

      猜你喜歡
      同態(tài)原始數(shù)據(jù)加密
      GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
      受特定變化趨勢限制的傳感器數(shù)據(jù)處理方法研究
      關(guān)于半模同態(tài)的分解*
      拉回和推出的若干注記
      一種基于熵的混沌加密小波變換水印算法
      全新Mentor DRS360 平臺借助集中式原始數(shù)據(jù)融合及直接實時傳感技術(shù)實現(xiàn)5 級自動駕駛
      汽車零部件(2017年4期)2017-07-12 17:05:53
      一種基于LWE的同態(tài)加密方案
      HES:一種更小公鑰的同態(tài)加密算法
      認證加密的研究進展
      基于ECC加密的電子商務系統(tǒng)
      404 Not Found

      404 Not Found


      nginx
      陇川县| 来安县| 万安县| 扎赉特旗| 望都县| 石河子市| 临江市| 化隆| 新邵县| 黎平县| 阜新市| 霍林郭勒市| 平山县| 牟定县| 芜湖市| 平乐县| 屏南县| 和平县| 镇沅| 上高县| 庆城县| 桃源县| 始兴县| 望城县| 定襄县| 普兰县| 五家渠市| 萨迦县| 济宁市| 四平市| 东明县| 沁源县| 普宁市| 河池市| 北宁市| 璧山县| 大埔县| 云和县| 上饶县| 宿州市| 河津市|