劉孟旭
摘? 要: 大數(shù)據(jù)創(chuàng)造經(jīng)濟(jì)和社會(huì)效益的同時(shí),也為隱私保護(hù)以及數(shù)據(jù)安全帶來(lái)前所未有的風(fēng)險(xiǎn)。目前,隱私已經(jīng)成為大數(shù)據(jù)應(yīng)用領(lǐng)域亟待突破的難題,本文分析了隱私保護(hù)的現(xiàn)狀與挑戰(zhàn),提出了一個(gè)以數(shù)據(jù)為核心的、全生命周期的、系統(tǒng)性的隱私動(dòng)態(tài)防護(hù)技術(shù)框架,以降低大數(shù)據(jù)應(yīng)用實(shí)踐中的泄露風(fēng)險(xiǎn),探索行之有效的隱私管理解決方案。
關(guān)鍵詞: 大數(shù)據(jù);隱私風(fēng)險(xiǎn);動(dòng)態(tài)隱私防護(hù)框架;隱私泄露
中圖分類號(hào): TP391.41? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? DOI:10.3969/j.issn.1003-6970.2019.07.035
【Abstract】: Big data bring about not only significant economic and social benefits,but also great risks and challenges on privacy protection. Currently,privacy has been considered as one of the greatest problems related big data. This paper analyzes the challenges, and provides a data-centric, life-cycle, systematic and dynamic privacy protection technology framework, in order to reduce the risk of privacy leakage in the practice of big data applications and explore effective privacy management solutions.
【Key words】: Big data; Privacy risk; Dynamic privacy preserving framework; Privacy leakage
0? 引言
促進(jìn)大數(shù)據(jù)發(fā)展已經(jīng)納入國(guó)家戰(zhàn)略規(guī)劃[1],2017年11月河南省獲批社會(huì)信用體系與大數(shù)據(jù)融合發(fā)展試點(diǎn)省,成為全國(guó)首批2個(gè)試點(diǎn)省份之一,在創(chuàng)新大數(shù)據(jù)應(yīng)用、提高政府治理能力方面探索可供全國(guó)推廣和借鑒的經(jīng)驗(yàn)。
1? 隱私保護(hù)現(xiàn)狀堪憂
近年來(lái),數(shù)據(jù)泄露事件頻繁發(fā)生,2018年8月28日上海警方通報(bào)華住酒店集團(tuán)5億條用戶入住登記身份信息泄露,12月28日北京市警方通報(bào)疑似12306鐵路訂票網(wǎng)站用戶數(shù)據(jù)470余萬(wàn)條信息泄露,犯罪嫌疑人相繼落網(wǎng)。全球范圍內(nèi),據(jù)公共數(shù)據(jù)泄露事件嚴(yán)重程度指數(shù)(Breach Level Index)報(bào)告顯示,自2013年以來(lái)已有近150億條數(shù)據(jù)泄露,2019年平均每天有超過(guò)600萬(wàn)條數(shù)據(jù)遭到入侵或泄露,最令人擔(dān)憂的是泄露的數(shù)據(jù)中只有不到4%的經(jīng)過(guò)加密。2018年6月,美國(guó)Exactis公司泄露約3.4億條記錄,涉及2.3億人隱私信息,泄露原因是數(shù)據(jù)庫(kù)暴露在可公開(kāi)訪問(wèn)網(wǎng)絡(luò)且未采取安全防護(hù)措施。
2? 大數(shù)據(jù)隱私保護(hù)的新挑戰(zhàn)
數(shù)據(jù)隱私保護(hù)的常用技術(shù)包括密碼技術(shù)、匿名化以及數(shù)據(jù)溯源等技術(shù)。密碼技術(shù)包括安全多方計(jì)算[3]、密文檢索、同態(tài)加密等技術(shù),主要解決數(shù)據(jù)存儲(chǔ)和通信的安全性。匿名化技術(shù)采用抑制[4]、泛化[5]、剖析、切片、分離等操作隱藏或者模糊數(shù)據(jù)等操作是隱私保護(hù)的最主要的一種技術(shù)手段。匿名化技術(shù)和密碼技術(shù)都面臨可擴(kuò)展性差、計(jì)算代價(jià)高、不適應(yīng)分布式存儲(chǔ)和新型的計(jì)算框架等方面的挑戰(zhàn)技術(shù)方案的可行性。此外,匿名化技術(shù)的隱私保護(hù)模型一般假設(shè)數(shù)據(jù)集的數(shù)據(jù)是相互獨(dú)立的[6-7],大數(shù)據(jù)的大規(guī)模性、高速性、多樣性、相關(guān)性以及多個(gè)異構(gòu)數(shù)據(jù)源的融合使傳統(tǒng)的隱私保護(hù)方案失效。
大數(shù)據(jù)分析和融合給隱私保護(hù)帶來(lái)了新挑戰(zhàn),
高性能算法、更加復(fù)雜的分析模型、新型計(jì)算框架可以快速挖掘出大數(shù)據(jù)中的異常點(diǎn)、決策樹(shù)、時(shí)序模式、關(guān)聯(lián)規(guī)則以及用戶行為模式等信息[9],從而泄露隱私信息或?yàn)楣籼峁┝斯舻谋尘爸R(shí)。
3? 數(shù)據(jù)隱私防護(hù)體系
針對(duì)大數(shù)據(jù)環(huán)境下隱私數(shù)據(jù)面臨高風(fēng)險(xiǎn)、低防護(hù)的現(xiàn)狀,解決問(wèn)題的當(dāng)務(wù)之急是針對(duì)不同類型的風(fēng)險(xiǎn),探索一個(gè)行之有效的隱私防護(hù)框架。
3.1? 隱私防護(hù)框架的目標(biāo)
建立隱私防護(hù)技術(shù)框架的目標(biāo)是合理利用已有隱私保護(hù)技術(shù),降低政府部門、互聯(lián)網(wǎng)企業(yè)、數(shù)據(jù)
中心等在大數(shù)據(jù)應(yīng)用實(shí)踐中隱私泄露風(fēng)險(xiǎn),因此方案的可行性和有效性也至關(guān)重要。大數(shù)據(jù)環(huán)境下,網(wǎng)絡(luò)攻擊和安全風(fēng)險(xiǎn)呈現(xiàn)多層次、系統(tǒng)性、高速性、復(fù)雜多變等特征,因此任何孤立的、靜態(tài)的保護(hù)手段都可能失效,為此必須做好隱私管理的頂層設(shè)計(jì),建立覆蓋數(shù)據(jù)全生命周期的、系統(tǒng)性的、動(dòng)態(tài)演化的隱私防護(hù)體系。
3.2? 數(shù)據(jù)隱私動(dòng)態(tài)防護(hù)框架
本文主要從技術(shù)的角度探討隱私問(wèn)題,法律規(guī)范與管理體系方面的不再詳述,數(shù)據(jù)隱私動(dòng)態(tài)防護(hù)技術(shù)框架包括隱私識(shí)別體系、隱私管理服務(wù)體系、風(fēng)險(xiǎn)監(jiān)測(cè)評(píng)估體系、動(dòng)態(tài)反饋體系四大基本組成部分,如圖1。
(1)隱私識(shí)別體系
隱私識(shí)別體系根據(jù)隱私保護(hù)方案實(shí)現(xiàn)隱私數(shù)據(jù)范圍界定、權(quán)限管理和隱私策略等形成隱私管理的知識(shí)庫(kù),為隱私管理服務(wù)系統(tǒng)、風(fēng)險(xiǎn)監(jiān)測(cè)評(píng)估和應(yīng)急反饋提供支撐。隱私保護(hù)方案根據(jù)法律法規(guī)、標(biāo)準(zhǔn)規(guī)范,綜合考慮應(yīng)用需求、部署環(huán)境、數(shù)據(jù)資產(chǎn)價(jià)值、管理目標(biāo)等制定。
(2)隱私管理服務(wù)體系
隱私管理服務(wù)體系按照預(yù)定義隱私保護(hù)策略,對(duì)外提供統(tǒng)一的隱私管理和數(shù)據(jù)服務(wù)。系統(tǒng)應(yīng)能按
照根據(jù)隱私保護(hù)策略選用包括匿名化技術(shù)、差分隱私保護(hù)技術(shù)[8]、隱私信息檢索技術(shù)、安全多方計(jì)算技術(shù)、數(shù)據(jù)加密技術(shù)等隱私保護(hù)技術(shù),提供數(shù)據(jù)存儲(chǔ)和通信、加工處理、融合分析、應(yīng)用、銷毀以及等不同層次隱私防護(hù)。應(yīng)滿足不同應(yīng)用場(chǎng)景的需求,包括支持統(tǒng)計(jì)查詢、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能等不同層次的分析需;支持格式化數(shù)據(jù)、半個(gè)格式化數(shù)據(jù)、流數(shù)據(jù)、多媒體等不同數(shù)據(jù)類型的發(fā)布需求;支持直方圖、top-k查詢、范圍統(tǒng)計(jì)查詢等不同類型的查詢需求[11]。
(3)風(fēng)險(xiǎn)監(jiān)測(cè)與評(píng)估體系
隱私風(fēng)險(xiǎn)監(jiān)測(cè)與評(píng)估體系主要完成主動(dòng)探測(cè)風(fēng)險(xiǎn)、違規(guī)審計(jì)、風(fēng)險(xiǎn)評(píng)估。應(yīng)具備主動(dòng)發(fā)現(xiàn)、分析和發(fā)布風(fēng)險(xiǎn)的能力,指導(dǎo)上層隱私管理技術(shù)體系如何選擇相應(yīng)技術(shù)的能力。
(4)動(dòng)態(tài)反饋體系
動(dòng)態(tài)反饋體系針對(duì)網(wǎng)絡(luò)攻擊、安全漏洞、安全事件以及安全策略變化等動(dòng)態(tài)因素做出響應(yīng)和反饋,并與其他系統(tǒng)形成有機(jī)聯(lián)動(dòng),完成系統(tǒng)迭代更新和自身的演化升級(jí),并按照升級(jí)后的隱私策略進(jìn)行隱私防護(hù)并對(duì)外提供服務(wù)。
本文提出據(jù)隱私動(dòng)態(tài)防護(hù)技術(shù)框架是我們?cè)趯?shí)踐的基礎(chǔ)上對(duì)隱私管理的理論探索和經(jīng)驗(yàn)總結(jié),隨著大數(shù)據(jù)應(yīng)用的深入和隱私保護(hù)技術(shù)發(fā)展,未來(lái)不斷會(huì)有新的、更完善的隱私保護(hù)框架與機(jī)制的出? 現(xiàn)[2]。大數(shù)據(jù)隱私不僅僅是技術(shù)方面的問(wèn)題,還涉及法律法規(guī)、標(biāo)準(zhǔn)規(guī)范、監(jiān)管模式等諸多方面,需要各方的共同努力才能實(shí)現(xiàn)。
參考文獻(xiàn)
[1]?????? 國(guó)務(wù)院. 促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要, 國(guó)務(wù)院, 2015.
[2]?????? 工業(yè)和信息化部. 大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年),工業(yè)和信息化部, 2016
[3]?????? Sheikh R, Mishra D K, Kumar B, Secure multiparty computation: From millionaires problem to anonymizer[J] Information Security Journal: A Global Perspective 2011, 20(1): 25- 33
[4]?????? Wang K, Fung B C M, Yu P S. Handicapping attackers confidence: An alternative to k-anonymization[J] knowledge and information system, 2007 11(3): 345-368
[5]?????? Fung B C M, Wang K, Yu P S. anonymizing classification data for privacy preservation[J] IEEE Trans on Knowledge and Data Engineering, 2007, 19(5): 711-725
[6]?????? Sweeney L. k-Anonymity: A model for protecting privacy[J] International Journal of Uncertainty, Fuzziness and Knowledge-Based System 2002, 10(5): 557-570.
[7]?????? Sweeney L. k-Anonymity: Achieving k-anonymity privacy protection using generalization and suppression. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems.
[8]?????? 張嘯劍, 孟小峰. 面向數(shù)據(jù)發(fā)布和分析的差分隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào), 2014, 37(4): 927-949.
[9]?????? The Internet Association, “Comments Concerning Big Data and the Consumer Privacy Bill of Rights.” pp. 1-15, 2014
[10]??? 劉向宇, 王斌 ,楊曉春. 社會(huì)網(wǎng)絡(luò)數(shù)據(jù)發(fā)布隱私保護(hù)技術(shù)綜述[J]. 軟件學(xué)報(bào), 2014, 25(3): 576-590.
[11]??? 周長(zhǎng)利, 馬春光, 楊松濤. 路網(wǎng)環(huán)境下保護(hù)LBS位置隱私的連續(xù)KNN查詢方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 52(11): 2628-2644.