李超
摘 要:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,整個社會被推入“大數(shù)據(jù)”時代。大數(shù)據(jù)中蘊藏著巨大的價值,是企業(yè)的寶貴財富。但大數(shù)據(jù)同時也帶來了極大的風(fēng)險與挑戰(zhàn),隱私保護(hù)問題就是其中之一。人們在網(wǎng)絡(luò)中留下的數(shù)據(jù),可能會被惡意分子利用,造成意外的麻煩和經(jīng)濟(jì)損失。首先介紹了大數(shù)據(jù)的發(fā)展背景,討論了大數(shù)據(jù)帶來的隱私泄露的風(fēng)險問題;然后分析了當(dāng)前用于隱私保護(hù)的關(guān)鍵技術(shù);最后提出了隱私保護(hù)技術(shù)的進(jìn)一步研究方向。
關(guān)鍵詞: 大數(shù)據(jù); 大數(shù)據(jù)隱私; 隱私風(fēng)險; 隱私泄露; 隱私保護(hù)技術(shù)
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)18-0029-03
Analysis of the Research Status of Privacy Protection under the Environment of Big Data
LI Chao
(College of Information Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China)
Abstract:With the high-speed development of International technology, the whole society is pushed into the big data Era. Big data contains great value. Data become the most valuable wealth of enterprise, but big data also brings grand challenges. Personal privacy protection is one of the major challenges of big data. People leaving the network data, could be exploited by malicious elements and cause unexpected trouble and economic losses. Firstly, development background of big data is introduced, and risks caused by big data privacy leak are discussed. Secondly, analysis of the current key technologies for privacy protection. Finally, the further research direction of personal privacy protection is put forward.
Key words:big data; big data privacy; privacy risk; privacy leakage; privacy protection
1 引言
1998年圖靈獎的獲得者Jim Gray曾經(jīng)斷言,現(xiàn)在每18個月新增的數(shù)據(jù)量等于有史以來數(shù)據(jù)量之和。統(tǒng)計發(fā)現(xiàn),每天有40億以上的信息在臉書上被用戶分享,Google搜索平均每分鐘被使用1億2千萬次。除此之外,在IT、金融、教育、醫(yī)療、能源等各領(lǐng)域都在不斷產(chǎn)生海量數(shù)據(jù)。大數(shù)據(jù)的產(chǎn)生使數(shù)據(jù)分析與應(yīng)用更加復(fù)雜,難以管理。這些數(shù)據(jù)包括不同類型,例如:視頻、圖片、文檔、微博等,其中僅有20%是結(jié)構(gòu)化數(shù)據(jù),80%是非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)的爆炸式增長使數(shù)據(jù)安全和隱私保護(hù)問題日漸突出,各類隱私泄露事件給企業(yè)和用戶敲響了警鐘。在數(shù)據(jù)的整個生命周期里,企業(yè)應(yīng)當(dāng)遵守更嚴(yán)格的安全標(biāo)準(zhǔn)和保密規(guī)定。網(wǎng)絡(luò)和數(shù)字化生活的普及也使得黑客更容易獲取他人信息,有了更多不易被追蹤和防范的手段,然而現(xiàn)有的法律法規(guī)仍沒有建立完善的管理體制,當(dāng)前的技術(shù)手段也無法徹底解決此類問題。因此,在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)安全和隱私保護(hù)是一個不容忽視的重要問題。
很多機構(gòu)同樣認(rèn)識到大數(shù)據(jù)隱私問題,由于大數(shù)據(jù)的發(fā)展,隱私保護(hù)有了新的內(nèi)涵,傳統(tǒng)的隱私保護(hù)技術(shù)已經(jīng)不能適應(yīng)新的問題。我們要重新定義什么是大數(shù)據(jù)隱私,思考如何保護(hù)數(shù)據(jù)隱私。本文首先探討了隱私保護(hù)的研究現(xiàn)狀,重點分析了隱私保護(hù)的關(guān)鍵技術(shù),經(jīng)過歸納對隱私保護(hù)下一步的研究方向與重點工作進(jìn)行了探討。
2 數(shù)據(jù)隱私的風(fēng)險
“最初我們民主制度的核心就是隱私,在大數(shù)據(jù)時代我們比以往任何時候更需要它”奧巴馬曾經(jīng)在消費者隱私條例發(fā)布會上這樣說過。
互聯(lián)網(wǎng)已經(jīng)成為我們生活中必不可少的一部分,人們在網(wǎng)絡(luò)中留下了大量的數(shù)據(jù)足跡。電商、電信或第三方企業(yè)可以通過瀏覽器、手機,甚至是信用卡輕松的跟蹤記錄用戶的瀏覽歷史、購物記錄和行為偏好。許多信息都會在用戶無意識的狀態(tài)下被發(fā)送到第三方,前提僅僅是一臺聯(lián)網(wǎng)的智能終端。隱私泄露在大數(shù)據(jù)環(huán)境下變得防不勝防,淘寶、京東通過購物網(wǎng)站獲得用戶的采購記錄,用戶的搜索記錄也會被Google、百度輕易獲取,社交工具更是可以提取用戶的聯(lián)系人網(wǎng)絡(luò),服務(wù)商可以根據(jù)用戶的這些信息定向的推送廣告。
除了用戶的行為信息在使用網(wǎng)絡(luò)軟件的時候被泄露,由于移動通信和傳感器的飛速發(fā)展,用戶的位置信息,甚至身份信息都將不再保密。通過智能手機可以快速定位用戶的實時位置,賓館、超市、小區(qū)等公共場所的攝像頭也時刻記錄著我們的出入行為。移動社交網(wǎng)絡(luò)的一些新興應(yīng)用也都有通過手機獲取用戶位置的功能,并且可以發(fā)布任意時刻用戶所處的位置信息[1]。
隱私泄露的威脅不僅限于暴露個人信息,更在于這些泄露的信息所帶來的后果。大數(shù)據(jù)的一個重要功能就是分析和預(yù)測,這些泄露的信息同樣可以用來預(yù)測用戶的行為狀態(tài)。例如,通過分析購物記錄,電商可能比丈夫更了解妻子喜歡什么款式的衣服,可能比父母更早知道女兒已經(jīng)懷孕。通過泄露的醫(yī)療信息,可以推斷出用戶的隱私病癥,通過分析社交網(wǎng)絡(luò),可以分析用戶的興趣愛好,甚至通過對推特信息的挖掘,用戶的消費習(xí)慣和政治傾向都將被披露[2]。所以用戶數(shù)據(jù)的泄露不僅可能威脅個人的生活安全,甚至?xí)绊懮鐣€(wěn)定。
3 隱私保護(hù)關(guān)鍵技術(shù)分析
大數(shù)據(jù)隱私保護(hù)的中心就是隱私保護(hù)技術(shù),技術(shù)是隱私保護(hù)最直接最有效的手段,然而相對來說,正是由于大數(shù)據(jù)的多樣性和復(fù)雜性,隱私泄露的很多途徑都不可預(yù)知,目前很難找到一種完全的技術(shù)來應(yīng)對各種環(huán)境。
現(xiàn)有的隱私保護(hù)技術(shù)分為3類:基于數(shù)據(jù)失真的技術(shù)(集中于差分隱私保護(hù))、基于數(shù)據(jù)加密的技術(shù)和基于限制發(fā)布的技術(shù)(集中于數(shù)據(jù)匿名化)。
3.1 數(shù)據(jù)匿名化技術(shù)
對數(shù)據(jù)和數(shù)據(jù)源進(jìn)行隱藏或者模糊處理的技術(shù)就是匿名化技術(shù),這種技術(shù)采用的是限制發(fā)布的方案。在大數(shù)據(jù)環(huán)境下,結(jié)構(gòu)化數(shù)據(jù)發(fā)布時,其隱私保護(hù)的關(guān)鍵技術(shù)就是數(shù)據(jù)匿名化技術(shù)。該技術(shù)一般有多種方法對數(shù)據(jù)進(jìn)行匿名化處理。
K-匿名[3]是一種比較經(jīng)典的匿名化方法,這種技術(shù)是首先通過泛化的方法將所要發(fā)布的關(guān)系數(shù)據(jù)劃分為多個等價類,重點是每個等價類都必須包含不少于K條相似數(shù)據(jù),也就是說,在等價類中,任意一條數(shù)據(jù)都無法和其他K-1條數(shù)據(jù)區(qū)分。但是K匿名的缺陷也很明顯,敏感屬性是等價類中的重要因子,但K-匿名沒有對此進(jìn)行約束,所以當(dāng)某個等價類的敏感屬性取值相同的時候,這種技術(shù)便會失效。
L-diversity[4]匿名是一種對K-匿名的改進(jìn)技術(shù),L-diversity通過裁剪算法[5]和數(shù)據(jù)置換[6]等方法來對敏感數(shù)據(jù)出現(xiàn)的頻率進(jìn)行平均,這樣就有效的改進(jìn)了K-匿名的缺陷,L-diversity一般要求敏感屬性的數(shù)據(jù)量不小于L,這樣才不會因為敏感數(shù)據(jù)波動較小而使平均化失去意義。現(xiàn)實情況中的數(shù)據(jù)發(fā)布通常是動態(tài)的、多次性發(fā)布,而無論是K-匿名,還是L-diversity都是基于靜態(tài)的、一次性發(fā)布的情況,所以這兩種技術(shù)并不足以應(yīng)對復(fù)雜的數(shù)據(jù)發(fā)布。
除了關(guān)系型數(shù)據(jù)發(fā)布,社交網(wǎng)絡(luò)的數(shù)據(jù)發(fā)布也是數(shù)據(jù)匿名化的重要研究方向。不同于結(jié)構(gòu)化數(shù)據(jù),社交網(wǎng)絡(luò)中的數(shù)據(jù)通常是非結(jié)構(gòu)化數(shù)據(jù),大量的敏感信息藏在這些非結(jié)構(gòu)化數(shù)據(jù)中,例如圖結(jié)構(gòu)、鏈接關(guān)系等。通過這些敏感屬性,可以定位到具體某個用戶,所以對社交網(wǎng)絡(luò)數(shù)據(jù)的保護(hù)還要注意為用戶身份標(biāo)識匿名和屬性匿名,通過隱藏用戶標(biāo)識和屬性來保護(hù)用戶的身份信息安全。
3.2 數(shù)據(jù)加密技術(shù)
云計算的發(fā)展大大方便了大數(shù)據(jù)的處理,云平臺也逐漸成為大數(shù)據(jù)存儲的平臺,那么如何保障存儲在云平臺中的數(shù)據(jù)的安全性也成為隱私管理不得不關(guān)注的部分。針對云平臺存儲的數(shù)據(jù)保密,目前主要是通過數(shù)據(jù)加密來實現(xiàn)。同態(tài)加密、功能加密、安全多方計算都是一般常見的加密算法。文獻(xiàn)[7]基于同態(tài)加密技術(shù)提出了鍵-值存儲和多級索引處理的方案,這種方案使得用戶查詢時的結(jié)點無法被數(shù)據(jù)持有者或者云平臺所識別。
對稱加密和非對稱加密的算法[8]是目前比較流行的密文檢索技術(shù)。
1)信息的加密和解密都需要密鑰,對稱加密是指在對信息加密和解密時選擇相同的密鑰,這樣做能夠有效減小計算開銷,提高加密速度,能較好的保證數(shù)據(jù)的機密性,無論是海量數(shù)據(jù)或者少量數(shù)據(jù)都能夠適應(yīng),這種加密算法是目前的主流方法。但是這種方法同樣存在缺陷,面對密鑰數(shù)量的增加,用戶管理密鑰會變得越來越難,而且因為雙方使用相同的密鑰,該密鑰泄露的風(fēng)險也比較大。除此之外,這種加密方法并不適合在分布式網(wǎng)絡(luò)中使用。
2)不同于對稱加密,非對稱加密則是加密和解密雙方選擇不同的密鑰,這樣是密鑰的管理變得簡單有效,加密和解密也不在相互影響。這種方法在數(shù)字簽名和身份認(rèn)證等方面發(fā)揮著比較明顯的作用。它的缺點是算法復(fù)雜,數(shù)據(jù)加密的速率較低。
上述數(shù)據(jù)加密研究為大數(shù)據(jù)隱私保護(hù)提供了新的思考方向,然而無論是數(shù)據(jù)加密還是數(shù)據(jù)匿名化,都是在對數(shù)據(jù)隱私進(jìn)行被動式保護(hù)。數(shù)據(jù)加密在大數(shù)據(jù)的大規(guī)模性和多樣性特點的影響下陷入怪圈,必須新的加密方法才能更有效地保護(hù)數(shù)據(jù)。
3.3 差分隱私技術(shù)
差分隱私技術(shù)是一種基于數(shù)據(jù)失真的技術(shù)。這種技術(shù)與前面介紹的兩種技術(shù)不同,前兩種技術(shù)并不具有普遍適用性,他們都缺乏數(shù)學(xué)基礎(chǔ),都是針對外部攻擊設(shè)計的保護(hù)方法,并不能夠完美的應(yīng)對新的攻擊,也沒有準(zhǔn)確地對數(shù)據(jù)隱私和損失進(jìn)行定義。而差分隱私[9]技術(shù)恰好彌補了這個缺陷,差分隱私保護(hù)通過添加噪聲使數(shù)據(jù)失真,從而起到隱私保護(hù)的目的,這是一種由數(shù)學(xué)基礎(chǔ)支撐的、新型的隱私保護(hù)技術(shù)。
隱私參數(shù)ε是差分隱私技術(shù)的關(guān)鍵參數(shù),這個參數(shù)通過控制隱私保護(hù)程度來確保輸出結(jié)果不會因為在數(shù)據(jù)集中插入或刪除某條記錄而受到影響,從而控制了隱私損失。這種技術(shù)在目前的數(shù)據(jù)發(fā)布和數(shù)據(jù)挖掘領(lǐng)域發(fā)揮了重要作用。學(xué)術(shù)界認(rèn)為差分隱私與大數(shù)據(jù)具有天然的匹配性,因為大數(shù)據(jù)的大規(guī)模性使得數(shù)據(jù)整體很難受到局部數(shù)據(jù)集的增刪的影響。這個特點正好契合了大數(shù)據(jù)環(huán)境下隱私保護(hù)的需求。
4 進(jìn)一步研究方向
4.1 數(shù)據(jù)匿名化方面
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)源具有多樣性和動態(tài)性等特點,這些特點會關(guān)聯(lián)到多個數(shù)據(jù)屬性,這些數(shù)據(jù)屬性之間的相關(guān)關(guān)系會對模式語義進(jìn)行演化,模式語義正是數(shù)據(jù)集成過程中的核心操作。所以數(shù)據(jù)匿名化的下一步研究熱點將是在數(shù)據(jù)模式多樣性的前提下,如何控制模式演化以達(dá)到相關(guān)性的匿名。而且,現(xiàn)在的許多新型計算框架的出現(xiàn),也對匿名化提出了新的要求,如何將現(xiàn)有方法應(yīng)用到新型框架中也是一個重要的研究方向。
4.2 數(shù)據(jù)加密方面
大數(shù)據(jù)可以從多渠道獲得,數(shù)據(jù)通常是存儲在云平臺上的,因此私密性保護(hù)的關(guān)鍵就是如何保證在存儲過程中的數(shù)據(jù)安全。與我們的假設(shè)不同,在現(xiàn)實世界中,不安全的云平臺是切實存在的,在這種平臺上,用戶的數(shù)據(jù)和隱私都有可能被披露?;诖?,數(shù)據(jù)加密領(lǐng)域的一個重要研究課題是如何通過公鑰加密、功能加密、同態(tài)加密等技術(shù)來保護(hù)數(shù)據(jù)隱私和三方交互隱私。
4.3 差分隱私方面
在差分隱私保護(hù)技術(shù)中,隱私參數(shù)ε非常重要,這個參數(shù)直接決定了差分隱私的效率,它決定了數(shù)據(jù)隱私性和可用性。然而,這個參數(shù)還不能做到對二者的充分平衡。所以,設(shè)計一個合理的隱私參數(shù)是差分隱私技術(shù)的有價值的研究方向。
5 結(jié)論
大數(shù)據(jù)的迅速發(fā)展,不僅給我們帶來了機遇,同時也帶來了巨大挑戰(zhàn)。數(shù)據(jù)隱私保護(hù)就是其中之一。本文首先講述了數(shù)據(jù)隱私泄露的風(fēng)險,然后分析了現(xiàn)有的幾種主流隱私保護(hù)技術(shù),最后提出了幾種技術(shù)的進(jìn)一步研究方向。
大數(shù)據(jù)的隱私保護(hù)還處于起步階段,完全保護(hù)個人隱私依然無法實現(xiàn),而且隱私管理不僅僅是技術(shù)方面的問題,它還涉及法律法規(guī)、監(jiān)管模式等諸多方面,因此需要學(xué)術(shù)界,企業(yè)界以及政府部門的共同努力才能實現(xiàn)。
參考文獻(xiàn):
[1] 王璐, 孟小峰. 位置大數(shù)據(jù)研究綜述[J]. 軟件學(xué)報, 2014, 25(4):693-712.
[2] Goel S, Hofman J M, Lahaie S, et al. Predicting consumer behavior with Web search[J]. National Academy of Sciences,2010,7(41):17486-17490.
[3] Sweeney L. K-anonymity: A model for protecting privacy[J]. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems,2002,10(5):557-570.
[4] Machanavajjhala A, Kifer D, Gehrke J, et al. L-diversity: Privacy beyond k-anonymity[J]. ACM Trans on Knowledge Discovery from Data, 2007,1(1):1-47.
[5] Xiao Xiao-kui, Tao Yu-Fei. Anatomy: Simple and effective privacy preservation[C]. Proceedings of the 32nd International Conference on Very Large Data Bases. Seoul, Korea,2006. 139-150.
[6] Qing Zhang, Koudas N, Srivastava D, Ting Yu. Aggregate query answering on anonymized tables[C]. Proceedings of the IEEE 23rd International Conference on Data Engineering(ICDE2007). Istanbul, Turkey,2007. 116-125.
[7] Hu H, Xu J, et al. Private search on key-value stores with hierarchical indexes[C]. Proc of the 32th IEEE Int Conf on Data Engineering (ICDE 2014). Piscataway, NJ : IEEE,2014. 628-639.
[8] 劉雅輝, 張鐵贏, 靳小龍, 等. 大數(shù)據(jù)時代個人隱私保護(hù)[J]. 計算機研究與發(fā)展,2015,52(1):1-19.
[9] 李楊, 溫雯, 謝光強. 差分隱私保護(hù)研究綜述[J]. 計算機研究應(yīng)用,2012,29(9):3201-3211.