胡 柳,王 梅,鄧 杰,葉 靜,趙正偉
(1.湖南信息職業(yè)技術(shù)學(xué)院 計算機工程學(xué)院,湖南 長沙 410200;2.湖南省長沙市岳麓觀沙嶺街道,湖南 長沙 410023;3.廣西民族大學(xué) 信息科學(xué)與工程學(xué)院,廣西 南寧 530006)
?
大數(shù)據(jù)環(huán)境下的隱私保護研究
胡 柳1,王 梅1,鄧 杰1,葉 靜2,趙正偉3
(1.湖南信息職業(yè)技術(shù)學(xué)院 計算機工程學(xué)院,湖南 長沙 410200;2.湖南省長沙市岳麓觀沙嶺街道,湖南 長沙 410023;3.廣西民族大學(xué) 信息科學(xué)與工程學(xué)院,廣西 南寧 530006)
針對大數(shù)據(jù)處理過程中泄露用戶隱私的問題,必須要對大數(shù)據(jù)進行有效的保護,盡可能減少用戶敏感信息的泄露。采用匿名與分級管理技術(shù)為中心的大數(shù)據(jù)隱私保護策略,研究表明,在現(xiàn)有的技術(shù)基礎(chǔ)之上采用該策略,能有效減少用戶隱私信息的泄露,為大數(shù)據(jù)隱私保護的研究提供了參考。
大數(shù)據(jù);隱私數(shù)據(jù);匿名技術(shù);分級管理
隨著物聯(lián)網(wǎng)、智能交通、金融中心、云計算等技術(shù)的發(fā)展與運用,大數(shù)據(jù)概念逐漸進入人們的視野,這些無結(jié)構(gòu)的數(shù)據(jù)通過網(wǎng)絡(luò)進行交換與處理,最終形成與生活密切相關(guān)的支撐服務(wù)基礎(chǔ)數(shù)據(jù),如智能家居中各類傳感器產(chǎn)生的數(shù)據(jù)、地下軌道交通中各設(shè)備傳回管理中心的數(shù)據(jù)、云平臺中的各類數(shù)據(jù)等[1-2]。
大數(shù)據(jù)的發(fā)展IDC的研究結(jié)果表明:全球數(shù)據(jù)量大約每兩年翻一番,且產(chǎn)生的數(shù)據(jù)量按指數(shù)級增長,預(yù)計到2020年全球的數(shù)據(jù)量將達35 ZB(1 ZB=1 024 EB)[3]。大數(shù)據(jù)將成為信息產(chǎn)業(yè)的增長點,IDC預(yù)計中國大數(shù)據(jù)技術(shù)和服務(wù)市場在2011~2017年之間,年均增長率38.7%,由1.65億美元增長至8.5億美元[4]。目前,數(shù)據(jù)的增長速度已超越了數(shù)據(jù)存儲如數(shù)據(jù)處理技術(shù),如淘寶網(wǎng)每天產(chǎn)生的交易數(shù)據(jù)高達10 TB[5]。
大數(shù)據(jù)的特征大數(shù)據(jù)帶來了機遇,但也存在對數(shù)據(jù)的有效管理和利用提出了新的挑戰(zhàn)[6]。由于數(shù)據(jù)來源范圍廣,大數(shù)據(jù)的特征也比較明顯,孟小峰等人對現(xiàn)有的大數(shù)據(jù)研究資料進行歸納和總結(jié),在大數(shù)據(jù)定義層次上的3V(Volume,Variety,Velocity)基礎(chǔ)上考慮4V(Value)特性[7]。大數(shù)據(jù)的來源有人、機、物等,其中人是指人們在信息網(wǎng)絡(luò)中進行的各項活動產(chǎn)生的數(shù)據(jù),如文本、音頻、視頻等數(shù)據(jù)。機是指計算機、磁盤等設(shè)備中的文件、數(shù)據(jù)等。物是指各類感知設(shè)備收集的數(shù)據(jù)信息。
(1)數(shù)據(jù)量巨大(Volume)。傳統(tǒng)的存儲技術(shù)和處理技術(shù)難以管理、處理PB、ZB級別的數(shù)據(jù),未來將在存儲、計算、分析技術(shù)及處理工具的發(fā)展上進行重點研究,以確保未來大數(shù)據(jù)的處理完整、精確;
(2)數(shù)據(jù)種類多(Variety)。大數(shù)據(jù)是包含著不同來源、不同數(shù)據(jù)產(chǎn)生源的數(shù)據(jù),如網(wǎng)絡(luò)、物聯(lián)網(wǎng)、移動應(yīng)用、汽車、傳感器、醫(yī)療、金融、交通等各行業(yè)內(nèi)產(chǎn)生的數(shù)據(jù)都是大數(shù)據(jù)的一部分,數(shù)據(jù)種類和格式無法實現(xiàn)以往的結(jié)構(gòu)化、組織化、規(guī)律化,其中的數(shù)據(jù)可能是半結(jié)構(gòu)化、非結(jié)構(gòu)化、無組織、無邏輯的數(shù)據(jù);
(3)數(shù)據(jù)產(chǎn)生速度快(Velocity)。IDC的預(yù)測中,數(shù)據(jù)量將呈現(xiàn)指數(shù)級別的增長,到2020年數(shù)據(jù)量為35ZB,隨著處理技術(shù)的進步,而自處理過程同樣將產(chǎn)生新的數(shù)據(jù);
(4)區(qū)域內(nèi)價值密度低(Value)。由于數(shù)據(jù)量的擴大,而在其中能尋找到的有效價值則越低。
大數(shù)據(jù)處理技術(shù)大數(shù)據(jù)的處理主要過程有:數(shù)據(jù)采集與預(yù)處理、管理與提取、分析、應(yīng)用等,其整體架構(gòu)如圖1所示。
圖1 大數(shù)據(jù)處理技術(shù)架構(gòu)
(1)數(shù)據(jù)采集及預(yù)處理。對結(jié)構(gòu)化、半結(jié)構(gòu)化或無規(guī)則的非結(jié)構(gòu)化數(shù)據(jù)進行前期處理,如數(shù)據(jù)清洗、去除重復(fù)的數(shù)據(jù)、數(shù)據(jù)規(guī)整、結(jié)構(gòu)化等,檢查數(shù)據(jù)的一致性、處理無效值和缺失值等。文獻[8]基于D-S證據(jù)理論中置信區(qū)間的概念,提出了一種基于待測數(shù)據(jù)項置信區(qū)間來檢測查詢結(jié)果中錯誤數(shù)據(jù)的方法;
(2)數(shù)據(jù)管理。采用NoSQL技術(shù)、文件存儲、索引等技術(shù)對數(shù)據(jù)進行存儲與管理,大數(shù)據(jù)的來源廣泛,對實時性要求較高的系統(tǒng)需要提高數(shù)據(jù)吞吐量,一般采用分布式文件來存儲大數(shù)據(jù),如GFS/HDFS[9],GFS是谷歌文件系統(tǒng),一種可擴展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進行訪問的應(yīng)用。它運行于廉價的普通硬件上,并提供容錯功能。HDFS是Hadoop分布式文件系統(tǒng),HDFS具有高度容錯性,適合部署在普通的設(shè)備上,具有較高吞吐量的數(shù)據(jù)訪問,適合大規(guī)模數(shù)據(jù)集上的應(yīng)用;
(3)數(shù)據(jù)分析。對大數(shù)據(jù)進行實時分析,是大數(shù)據(jù)應(yīng)用的核心部分,MapReduce是當(dāng)前采用最為廣泛的計算模型,文獻[10]對MapReduce并行編程進行了綜述研究,重點對模型改進、任務(wù)調(diào)度、負(fù)載均衡和容錯性進行分析。文獻[11]提出了基于BloomFilter的等值連接算法,利用BloomFilter減少Map和Reduce之間網(wǎng)絡(luò)傳輸量從而提高等值連接算法的效率。文獻[12]提出一種在異構(gòu)環(huán)境下基于蟻群算法的多任務(wù)集群調(diào)度算法MSBACO,同時提出一種新的目標(biāo)轉(zhuǎn)移函數(shù),提高集群性能;
(4)數(shù)據(jù)應(yīng)用。通過對大數(shù)據(jù)統(tǒng)計分析得到的結(jié)果可以進行相應(yīng)的預(yù)測、推理,用于醫(yī)院、交通、金融等行業(yè),對日常生活將產(chǎn)生積極的推動作用。
2.1 個人數(shù)據(jù)隱私
大數(shù)據(jù)環(huán)境下最為關(guān)鍵的就是個人數(shù)據(jù)的隱私問題,當(dāng)海量而繁雜的數(shù)據(jù)匯總到一塊時,會呈現(xiàn)出結(jié)構(gòu)化、非結(jié)構(gòu)化等形式,而其中就會包括各類含有個人隱私的數(shù)據(jù),如論壇、貼吧、資訊、博客等網(wǎng)站上的用戶數(shù)據(jù),可以匹配出聯(lián)系電話、郵箱、姓名、價值取向、位置等用戶個人的隱私數(shù)據(jù)。如A用戶在博客上的信息包括用戶名、性別、地址、從事職業(yè),其在資訊網(wǎng)上的信息包括姓名、電話等實名注冊信息,當(dāng)這些信息混合在一起時,通過相同的用戶名進行連接,則有可能將該用戶的全面的個人隱私資料都分析出來。
2.2 安全風(fēng)險提升
在網(wǎng)絡(luò)中,大數(shù)據(jù)以其信息量、集中度、規(guī)范性等特點,成為黑客攻擊的主要目標(biāo),只要能進入到平臺中,即意味著能獲取大量的信息,這些內(nèi)容中包含有用戶信息、商業(yè)信息、金融信息等各類敏感數(shù)據(jù),這樣降低了黑客獲取數(shù)據(jù)的成本、提高了效率。因此,安全風(fēng)險問題不斷提升,成為黑客攻擊的主要目標(biāo)。
2.3 平臺管理
大數(shù)據(jù)平臺通常都具有較快的運算速度、數(shù)據(jù)存儲速度、網(wǎng)絡(luò)傳輸速度,全面的大數(shù)據(jù)平臺每天都處理海量的數(shù)據(jù)信息,平臺管理者需要時時監(jiān)控當(dāng)前的運行情況,包括數(shù)據(jù)處理和數(shù)據(jù)存儲,采用新的處理技術(shù)、數(shù)據(jù)緩沖技術(shù)來解決遇到的問題。
3.1 加密技術(shù)
若用戶在A應(yīng)用程序中進行注冊,應(yīng)用程序可以對其提交的每條信息進行加密存儲,Y為加密后的密文,n為字符串長度,C為加密算法,對每一位字符進行條件加密,如式(1)所示
(1)
應(yīng)用程序在使用用戶的信息時,則進行解密過程,按加密的逆過程將明文應(yīng)用于數(shù)據(jù)處理過程中。
3.2 水印技術(shù)
大數(shù)據(jù)平臺中,水印技術(shù)可以用于驗證和溯源,但是大數(shù)據(jù)快速的處理速度和存儲速度又使得水印技術(shù)需提高其應(yīng)用場景,不僅在多媒體載體文件,而應(yīng)該是包含在更多的數(shù)據(jù)信息中。
3.3 匿名技術(shù)
社交網(wǎng)絡(luò)數(shù)據(jù)通常是攻擊者的主要目標(biāo),大數(shù)據(jù)中某一份用戶數(shù)據(jù)將包含大量其它用戶群體的數(shù)據(jù),通常一個用戶的社交數(shù)據(jù)可以描述如式(2)所示
k={(t1,r1),(t2,r2),(t3,r3),…,(tn,rn)}
(2)
其中,t為序列,r為關(guān)系,即當(dāng)前用戶的n個社交關(guān)系數(shù)據(jù)集合。
當(dāng)攻擊者獲取到部分?jǐn)?shù)據(jù)時,可以通過循環(huán)而獲取大量社交網(wǎng)絡(luò)用戶群體的個人信息,從而造成嚴(yán)重的后果。
匿名技術(shù)要求用戶或大數(shù)據(jù)平臺都采用相關(guān)的機制進行隱私保護,如對用戶關(guān)系結(jié)點、邊界、中心進行加密或重分布技術(shù),保護用戶隱私數(shù)據(jù)不被泄露或破解。
3.4 訪問控制技術(shù)
用戶訪問大數(shù)據(jù)平臺時,根據(jù)其興趣或角色的不同為其提供不同的數(shù)據(jù)服務(wù),安全維護管理員需要為訪問者進行數(shù)據(jù)訪問控制,跟蹤訪問者在大數(shù)據(jù)平臺中的操作行為,查看是否存在有危險的操作。對用戶訪問進行控制,將敏感數(shù)據(jù)進行角色或權(quán)限保護,安全管理員確認(rèn)用戶的合法性之后再放開權(quán)限。隨著安全技術(shù)的不斷提高,目前采用自適應(yīng)的訪問控制技術(shù)進行安全性控制是較好的方法,Cheng等人[13]提出了一個多級別的安全模型的安全自適應(yīng)訪問控制解決方案。大數(shù)據(jù)平臺由于其處理程度復(fù)雜、數(shù)據(jù)行為監(jiān)控難度大、安全風(fēng)險量化困難等因素,導(dǎo)致采用訪問控制技術(shù)來解決安全問題顯得比較困難。
大數(shù)據(jù)的數(shù)據(jù)來源廣泛,為了有效保護用戶隱私數(shù)據(jù),提出采用基于匿名技術(shù)對網(wǎng)絡(luò)社交數(shù)據(jù)進行保護與分級管理的保護策略,網(wǎng)絡(luò)中每天產(chǎn)生的社交數(shù)據(jù)量大,騰訊QQ、微信、人人網(wǎng)等社交網(wǎng)絡(luò)平臺中用戶發(fā)表的言論或圖片達數(shù)TB,這些隱私數(shù)據(jù)既包含用戶的行為、生活、政治傾向、社會關(guān)系等內(nèi)容,通過心智模型、語言模型的分析,則很有可能完整的分析出用戶的心理狀態(tài),造成一定的影響。
匿名技術(shù)應(yīng)用在社交網(wǎng)絡(luò)數(shù)據(jù)中能在一定程度上切斷用戶之間的關(guān)系。當(dāng)前有一些學(xué)者對這類問題進行了研究,文獻[14]對匿名化隱私保護技術(shù)進行綜述研究,闡述了匿名化技術(shù)的一般原理,并從匿名化原則、匿名化方法和匿名化度量等方面對匿名化技術(shù)進行了總結(jié)。文獻[15]對數(shù)據(jù)發(fā)布中的個性化隱私匿名技術(shù)進行研究,對各類技術(shù)和基本原理、特征進行概括性的闡述,根據(jù)信息度量的差異給出個性化隱私度量的方法與標(biāo)準(zhǔn)。文獻[16]對社交網(wǎng)絡(luò)隱私保護技術(shù)最新研究進展進行了分析與闡述,重點對基于K-匿名、Markov鏈、聚類、隨機化等技術(shù)的隱私保護方案的優(yōu)點與不足進行了深入比較與分析。同時,在保護用戶的屬性方面也有較好的效果。
分級管理策略是根據(jù)大數(shù)據(jù)平臺中對數(shù)據(jù)的級別定義,可以將其定義為5級,每一級別的訪問策略不同,當(dāng)訪問者請求數(shù)據(jù)時,先對其身份等級進行審核,再給予其相應(yīng)的訪問權(quán)限。同時,為了實現(xiàn)最佳的效果,也需要將數(shù)據(jù)進行分級管理,其級別定義如表1所示。
輸入為字符串或段落A,對其進行級別定義過程即是對字符串的分類,一般采用SVM或其它文本分類算法,如文獻[17]設(shè)計與實現(xiàn)了新型快速中文文本分類器,提出一種將詞頻和綜合評估函數(shù)值相結(jié)合的權(quán)重計算方法,設(shè)計了基于貝葉斯原理的快速分類器。文獻[18]設(shè)計了一個基于Boosting算法的文本自動分類器。
表1 分級管理策略中級別定義
每一次訪問都將判斷請求者的身份級別,默認(rèn)級別為中,通過操作行為來不斷維護請求者的身份級別,請示者的級別定義如式(3)
(3)
其中,Ts為級別類型;Ri為某個請求者第i次的級別;n為某個請求者的訪問總次數(shù)。
得到請求者的訪問級別之后,能在大數(shù)據(jù)平臺中請求到與之相應(yīng)級別的數(shù)據(jù)信息,這樣有利于屏蔽非法用戶的非法請求,避免個人隱私數(shù)據(jù)大范圍的泄露。
針對數(shù)據(jù)安全問題,用戶個人隱私在大數(shù)據(jù)中成為新的安全域。從加密技術(shù)、水印技術(shù)、匿名技術(shù)、訪問控制技術(shù)及個人信息保護、法律制度監(jiān)督管理等方面進行闡述,提出了基于匿名技術(shù)與分級管理技術(shù)相結(jié)合對大數(shù)據(jù)平臺中用戶隱私數(shù)據(jù)的保護,通過技術(shù)手段和相關(guān)政策法規(guī)相結(jié)合來保障用戶的隱私數(shù)據(jù)。
[1] 陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學(xué)報,2013,25(8S):142-146.
[2] 維基百科.大數(shù)據(jù)[EB/OL].(2014-12-12)[2016-8-27]http:∥zh.wikipedia.org/wiki/%E5%A4%A7%E6%95%B8%E6%93%9A.
[3] 孫紅,郝澤明.大數(shù)據(jù)處理流程及存儲模式的改進[J].電子科技,2015,28(12):167-172.
[4] 潘永花.中國大數(shù)據(jù)技術(shù)與服務(wù)市場2013-2017年預(yù)測與分析[EB/OL].(2014-03-05)[2016-8-27]http:∥www.idc.com.cn/prodserv/detail.jsp?id=NTc3.
[5] 程建云,魏文軍.軌道電路故障診斷大數(shù)據(jù)處理技術(shù)綜述[J].電子科技,2015,28(11):161-165.
[6] 申德榮,于戈,王習(xí)特,等.支持大數(shù)據(jù)管理的NoSQL系統(tǒng)研究綜述[J].軟件學(xué)報,2013,24(8):1786-1803.
[7] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.
[8] 樊金輝,岳昆,張驥先.基于D-S證據(jù)理論的不確定數(shù)據(jù)清洗[J].云南大學(xué)學(xué)報:自然科學(xué)版,2014,36(6):815-822.
[9] 孫知信,黃涵霞.基于云計算的數(shù)據(jù)存儲技術(shù)研究[J].南京郵電大學(xué)學(xué)報:自然科學(xué)版,2014,34(4):13-19.
[10] 李建江,崔建,王聃,等.MapReduce并行編程模型研究綜述[J].電子學(xué)報,2011,39(11):2635-2642.
[11] 張常淳.基于MapReduce的大數(shù)據(jù)連接算法的設(shè)計與優(yōu)化[D].合肥:中國科學(xué)技術(shù)大學(xué),2014.
[12] 張建平.云計算中基于MapReduce集群模型的調(diào)度優(yōu)化與研究[D].南京:南京郵電大學(xué),2013.
[13] Cheng P C,Rohatgi P,Keser C,et al.Fuzzy multi-level security: an experiment on quantified risk-adaptive access control[C].Oakland,USA:Proceedings of the 2007 IEEE Symposium on Security and Privacy(S&P’2007),2007.
[14] 王平水,王建東.匿名化隱私保護技術(shù)研究進展[J].計算機應(yīng)用研究,2010,27(6):2016-2019.
[15] 王波,楊靜.數(shù)據(jù)發(fā)布中的個性化隱私匿名技術(shù)研究[J].計算機科學(xué),2012,39(4):168-171.
[16] 馬飛,蔣建國,李娟.社交網(wǎng)絡(luò)隱私保護技術(shù)最新研究進展[J].計算機應(yīng)用研究,2015,32(5):1291-1297.
[17] 陳艷秋,熊耀華.新型快速中文文本分類器的設(shè)計與實現(xiàn)[J].計算機工程與應(yīng)用,2009,45(22):53-55.
[18] 董樂紅,耿國華,周明全.基于Boosting算法的文本自動分類器設(shè)計[J].計算機應(yīng)用,2007,27(2):384-386.
Research on Big Data Privacy Protection
HU Liu1, WANG Mei1, DENG Jie1, YE Jing2, ZHAO Zhengwei3
(1.School of Computer, Hunan College of Information, Changsha 410200 China;2. Guanshaling Street,Yuelu District, Changsha 410023, China;3. School of Information Science and Engineering, Guangxi University for Nationalities, Nanning 530006, China)
Effective protection for big data is a must and the leakage of sensitive information of users should be minimized. The anonymous technology and hierarchical management is adopted as the center of big data privacy protection. Research suggests that this policy effectively reduces the leakage of user privacy information and brings a new and important approach to big data privacy protection.
big data; private data; anonymous technology; hierarchical management
2016- 08- 25
湖南省教育廳高校研究項目(15C0980)
胡柳(1988-),男,碩士研究生。研究方向:大數(shù)據(jù)等。王梅(1978-),女,講師。研究方向:大數(shù)據(jù)。鄧杰(1982-),男,高級工程師。研究方向:信息安全。
10.16180/j.cnki.issn1007-7820.2017.07.045
TP309
A
1007-7820(2017)07-159-04