王紹荃 鐘尚染
摘 要:計算機、互聯(lián)網(wǎng)等信息技術(shù)的快速發(fā)展推動了“大數(shù)據(jù)”概念形成。雖然大數(shù)據(jù)技術(shù)給人們的生產(chǎn)、生活帶來了諸多便利性,但是大數(shù)據(jù)在采集、傳輸、儲存和使用過程中出現(xiàn)了安全、個人隱私等方面的問題,例如個人信息泄漏、數(shù)據(jù)刻意造假等。本文站在大數(shù)據(jù)安全角度,通過分析大數(shù)據(jù)所帶來的安全挑戰(zhàn),整理相關(guān)關(guān)鍵技術(shù)和最新研究進展,并從數(shù)據(jù)獲取、數(shù)據(jù)防護與數(shù)據(jù)銷毀三方面給出了數(shù)據(jù)安全保護的相關(guān)建議。
關(guān)鍵詞:大數(shù)據(jù);安全;隱私保護;研究
中圖分類號:TP309 文獻標識碼:A 文章編號:1671-2064(2019)22-0038-02
0 引言
當今世界正在經(jīng)歷一場重要的數(shù)字化變革?;ヂ?lián)網(wǎng)、移動終端設(shè)備和物聯(lián)網(wǎng)快速發(fā)展產(chǎn)生了大量數(shù)據(jù)。根據(jù)IDC數(shù)據(jù),全球大數(shù)據(jù)儲量從2016年的16ZB增長至2018年的33ZB,未來全球大數(shù)據(jù)儲量規(guī)模增長率將保持在40%左右。
1 認識大數(shù)據(jù)
2011年,麥肯錫提出“大數(shù)據(jù)是指其大小超出了典型數(shù)據(jù)庫軟件的采集、儲存、管理和分析等能力的數(shù)據(jù)集”,成為金融、商業(yè)、科技等領(lǐng)域的熱門話題。大數(shù)據(jù)具有5V特征,包括數(shù)據(jù)龐大(Volume)、數(shù)據(jù)高速(Velocity)、數(shù)據(jù)多樣(Variety)、數(shù)據(jù)準確性(Veracity)與數(shù)據(jù)應(yīng)用高價值性(Value)。
“大數(shù)據(jù)”技術(shù)是指收集和存儲大量、廣泛的數(shù)據(jù)集。在利用大數(shù)據(jù)時,需前沿的處理模式才能獲得大數(shù)據(jù)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力。大數(shù)據(jù)包含海量、多樣化和高增長率的信息資產(chǎn),其存儲方式和處理方法、利用角度較傳統(tǒng)數(shù)據(jù)架構(gòu)有一定區(qū)別。大數(shù)據(jù)的基本特征對計算設(shè)施、存儲、網(wǎng)絡(luò)、信息資源等提出了更高的安全要求,傳統(tǒng)的信息安全手段和管理機制已經(jīng)跟不上大數(shù)據(jù)時代的信息安全形勢發(fā)展。
2 大數(shù)據(jù)安全研究現(xiàn)狀和進展
近年來,“大數(shù)據(jù)安全”相關(guān)期刊論文增長趨勢明顯,學術(shù)界對“大數(shù)據(jù)安全”研究逐年增多。通過對“big data”和“security”在Engineering Village期刊論文檢索,我們發(fā)現(xiàn)檢索量從2014年的124篇增長至2016年的265篇。Hakuta.K等展示了大數(shù)據(jù)安全和隱私方面所面臨的挑戰(zhàn)有關(guān)一些最新研究成果,確定了獲取大數(shù)據(jù)相關(guān)信息和知識的三個階段,得出大數(shù)據(jù)安全生命周期模型,并從數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用(知識創(chuàng)造)四方面提升數(shù)據(jù)安全。Murthy.P.K給出了大數(shù)據(jù)安全和隱私挑戰(zhàn)論述,強調(diào)這些挑戰(zhàn)將促使人們更加關(guān)注加強大數(shù)據(jù)基礎(chǔ)設(shè)施。陳興蜀等介紹了數(shù)據(jù)安全相關(guān)法律法規(guī)以及標準現(xiàn)狀。
3 大數(shù)據(jù)所帶來的安全挑戰(zhàn)
傳統(tǒng)上說,數(shù)據(jù)安全性保護包括數(shù)據(jù)的機密性、完整性和可用性三大要素,數(shù)據(jù)保密目的是保護數(shù)據(jù)免受未經(jīng)授權(quán)的訪問;數(shù)據(jù)完整性是指保護數(shù)據(jù)免受未經(jīng)授權(quán)的更改;數(shù)據(jù)可用性是解決如何使授權(quán)實體和用戶可以訪問數(shù)據(jù)。在大數(shù)據(jù)領(lǐng)域,數(shù)據(jù)隱私是保密性的一種特殊性呈現(xiàn)方式。
3.1 用戶隱私保護
大量事實證明,對大數(shù)據(jù)不正確處理會威脅到用戶隱私。保護用戶隱私包含以下三方面:位置隱私、標識符隱私以及連接關(guān)系隱私保護。一般來說,未經(jīng)個人授權(quán),其驗證信息不能被共享及使用,個人信息共享常常還受到隱私法的約束。除了信息直接泄露,基于用戶信息,對用戶生活的狀態(tài)和行為的分析與預測也威脅到個人隱私安全,給安全帶來了巨大挑戰(zhàn)。
目前,常用隱私保護方法效果一般,比如對用戶個人信息匿名顯示或脫敏公開,個人隱私信息仍可能被泄露。
目前,企業(yè)在收集、存儲、管理用戶信息數(shù)據(jù)時,缺乏一定的合規(guī)性規(guī)范與監(jiān)管,用戶無法確定隱私信息的正確用途。一般來說,在數(shù)據(jù)的商業(yè)化利用過程中,用戶信息的利用狀態(tài)與處理結(jié)果等過程信息應(yīng)該被用戶所知曉,從而增加對用戶隱私保護的可控性。
3.2 數(shù)據(jù)可信度
在數(shù)據(jù)采集的時候,由于數(shù)據(jù)源頭眾多、數(shù)據(jù)結(jié)構(gòu)多樣性,數(shù)據(jù)增長速度快,數(shù)據(jù)的可信度成為一個重要關(guān)注點。
(1)數(shù)據(jù)刻意造假對數(shù)據(jù)可信度產(chǎn)生威脅,例如虛假的互聯(lián)網(wǎng)電商評論、手機應(yīng)用APP數(shù)據(jù)會導致決策失誤。假如數(shù)據(jù)使用目標明確后,此時會產(chǎn)生部門人員可以提供假數(shù)據(jù),誘導分析者得出對其有利的結(jié)論。人們較難去辨別虛假信息,無法辨別真?zhèn)危赡軙鞒鲥e誤判斷。由于網(wǎng)上部分評論信息的不真實性,往往會誤導客戶去選擇劣勢商品或產(chǎn)品服務(wù)?,F(xiàn)有技術(shù)無法做到對所有數(shù)據(jù)來源進行真實性鑒別。
(2)數(shù)據(jù)傳播過程中存在一定的誤差傳遞,也會對數(shù)據(jù)可信度造成一定影響。1)數(shù)據(jù)采集過程中會有人工干預從而引起誤差,誤差會逐步傳導到分析的結(jié)果中,影響分析結(jié)果的準確性。2)數(shù)據(jù)變更、傳播不及時也會導致數(shù)據(jù)失真,隨著時間變化,前期數(shù)據(jù)無法表征事件的真實性。例如,用戶電話信息變更,早期的信息已被大數(shù)據(jù)中心所收錄,造成此時推送應(yīng)用信息不準確。為防止分析結(jié)果不真實造成判斷誤差,大數(shù)據(jù)利用者或研究機構(gòu)在使用數(shù)據(jù)的過程中,應(yīng)重視數(shù)據(jù)的真實性、數(shù)據(jù)傳播路徑的正確性以及數(shù)據(jù)處理全過程管控等,從而全面提升、保障數(shù)據(jù)可信度?,F(xiàn)有對數(shù)據(jù)完整性驗證的手段中,數(shù)字簽名、消息鑒別碼等技術(shù)是比較好的措施,但由于數(shù)據(jù)顆粒度差異,進行真實性鑒別時,難度較大。
3.3 實現(xiàn)訪問控制
由于大數(shù)據(jù)被應(yīng)用在不同的領(lǐng)域中,數(shù)據(jù)訪問控制需求強烈,而作為數(shù)據(jù)受控共享的有效手段,隨著訪問控制需求的不斷增長,訪問控制的實現(xiàn)有以下兩點難點:
(1)無法輕易預設(shè)角色,從而達到劃分角色的目的。由于大數(shù)據(jù)被運用在不同的范圍、領(lǐng)域中,不同類型用戶訪問控制需求不一樣,包括不同行業(yè)、部門和身份用戶。當下面對海量數(shù)據(jù)及大量用戶,其權(quán)限管理要求呈現(xiàn)一定的未知性,預先設(shè)置角色難度較大。
(2)難以預知用戶實際權(quán)限。面對海量的數(shù)據(jù),安全管理員由于其專業(yè)知識壁壘,無法準確為用戶設(shè)定可訪問的數(shù)據(jù)范圍,而定義所有用戶的授權(quán)規(guī)則效率很低。例如在醫(yī)療應(yīng)用時,當醫(yī)生因為業(yè)務(wù)需求訪問大量信息時,管理員可對其訪問行為進行檢測和控制,從而防止醫(yī)生對病患相關(guān)信息、數(shù)據(jù)的過度訪問。另外,大數(shù)據(jù)呈現(xiàn)多樣性的特點與結(jié)構(gòu),存在多樣化的控制訪問需求,如何能在當前海量數(shù)據(jù)中統(tǒng)一描述需求、正確表述需求成為新的挑戰(zhàn)。隨著數(shù)據(jù)分析技術(shù)快速發(fā)展與應(yīng)用,部分企業(yè)采用“保護、檢測、響應(yīng)、恢復”這一措施發(fā)現(xiàn)潛在安全威脅,從而實現(xiàn)降低數(shù)據(jù)安全事故發(fā)生概率,提升了隱私保護。例如,作為新型安全工具,“IBM大數(shù)據(jù)安全智能”可綜合利用電子郵件、社交媒體等大數(shù)據(jù)信息甄別企業(yè)的數(shù)據(jù)安全威脅(內(nèi)部和外部),該方法可以通過分析發(fā)現(xiàn)泄露公司相關(guān)機密性信息異常員工,提醒企業(yè)防范。在國際政治形勢分析中,“棱鏡”計劃是一種利用大數(shù)據(jù)進行危險局勢預測的方法,通過采集、利用海量數(shù)據(jù),基于安全分析系統(tǒng)及方法,可快速發(fā)覺攻擊之前的潛在威脅。
4 大數(shù)據(jù)安全與隱私保護關(guān)鍵技術(shù)
4.1 數(shù)據(jù)發(fā)布匿名保護技術(shù)
大數(shù)據(jù)中含有大量結(jié)構(gòu)化數(shù)據(jù)(或關(guān)系數(shù)據(jù)),采取發(fā)布匿名是保護大數(shù)據(jù)隱私的主要方法,是實現(xiàn)其隱私保護的核心關(guān)鍵技術(shù)與基本手段,具體做法包括k-匿名、l-diversity匿名、個性化匿名、t-closeness匿名、m-invariance匿名、基于“角色構(gòu)成”的匿名等。匿名發(fā)布方法可防止惡意攻擊行為,在保證數(shù)據(jù)質(zhì)量前提下,避免用戶隱私的泄漏。例如金融交易信息中心含有大量涉及隱私安全的數(shù)據(jù),若公開這些數(shù)據(jù)會產(chǎn)生大量的安全隱患,因此在發(fā)布數(shù)據(jù)時,采用匿名發(fā)布保護技術(shù),保護用戶隱私。
4.2 數(shù)據(jù)溯源技術(shù)
數(shù)據(jù)溯源是對數(shù)據(jù)來源、數(shù)據(jù)傳播、數(shù)據(jù)計算等過程的全方位追根溯源,從而確定數(shù)據(jù)的準確度和精確性。數(shù)據(jù)溯源技術(shù)能夠提升分析結(jié)果的準確性,可確定提升數(shù)據(jù)運算精度,發(fā)現(xiàn)業(yè)務(wù)問題。標記法是常用的方法之一,標記法側(cè)重于數(shù)據(jù)計算方法及出處,記錄數(shù)據(jù)在數(shù)據(jù)倉庫中的查詢與傳播歷史。數(shù)據(jù)溯源技術(shù)在云儲存場景應(yīng)用、對文件回復及溯源取得了一定的成就,但與隱私之間的平衡以及其本身的安全性全面保護這兩方面面臨挑戰(zhàn)。
4.3 角色挖掘技術(shù)
基于角色訪問控制通過為用戶指派角色、將角色關(guān)聯(lián)至權(quán)限集合,控制與管理使用者的相關(guān)權(quán)限,實現(xiàn)用戶授權(quán)、簡化權(quán)限管理。角色挖掘技術(shù)目前獲得了比較高的使用率,利用該技術(shù)可自動化實現(xiàn)角色優(yōu)化與提取,可為用戶提供不同服務(wù),實時監(jiān)控用戶行為。
4.4 身份認證技術(shù)
采用特定的技術(shù),對用戶行為進行數(shù)據(jù)分析,形成身份認證技術(shù)。通過對海量數(shù)據(jù)的分析、采集,把握用戶行為習慣,總結(jié)用戶行為特點。身份認證技術(shù)對數(shù)據(jù)隱私保護起到一定的促進作用,有利于大數(shù)據(jù)的健康發(fā)展,第一可根據(jù)用戶特征分析結(jié)果對操作者身份進行驗證,第二增加網(wǎng)絡(luò)黑客惡意攻擊、盜取信息難度。
5 建議和結(jié)語
大數(shù)據(jù)快速發(fā)展帶來許多機遇,但在安全和隱私方面也帶來了問題和挑戰(zhàn)。企業(yè)規(guī)模、所屬行業(yè)以及現(xiàn)有數(shù)據(jù)系統(tǒng)和安全策略都會對數(shù)據(jù)安全與隱私保護產(chǎn)生一定影響。以下從數(shù)據(jù)獲取、數(shù)據(jù)防護與數(shù)據(jù)銷毀三方面提出大數(shù)據(jù)的安全隱私保護解決方案建議。
從信息獲取角度來說,通過限制對敏感文檔的訪問來管理用戶身份、對數(shù)據(jù)進行一定分類、對數(shù)據(jù)存儲與傳輸?shù)募用堋⒓訌姅?shù)據(jù)源頭保護都是數(shù)據(jù)安全隱私保護有效手段(數(shù)據(jù)加密包括工作設(shè)備上網(wǎng)絡(luò)使用規(guī)則、防病毒軟件的安裝等)。從數(shù)據(jù)安全防護角度來說,進行系統(tǒng)功能安全測試、加強內(nèi)部員工數(shù)據(jù)安全教育與培訓、制定數(shù)據(jù)共享安全規(guī)章制度、制定安全管理標準處理流程與制度、制定數(shù)據(jù)恢復計劃(數(shù)據(jù)備份)都能有效降低數(shù)據(jù)安全帶來的風險,同時加強內(nèi)部操作日志查詢,為安全事故的責任追溯提供依據(jù)。從數(shù)據(jù)銷毀機制來看,應(yīng)建立一定的數(shù)據(jù)刪除機制,數(shù)據(jù)安全銷毀是一種新的數(shù)據(jù)安全措施,隨著用戶對云服務(wù)的依賴性越來越大,若云端數(shù)據(jù)消除不徹底,會導致敏感數(shù)據(jù)的惡意恢復,從而導致用戶數(shù)據(jù)或隱私面臨泄露的風險。
參考文獻
[1] 王建民,金濤,葉潤國.《大數(shù)據(jù)安全標準化白皮書(2017)》解讀[J].信息技術(shù)與標準化,2017(08):38-41.
[2] 中華人民共和國工業(yè)和信息化部.中華人民共和國網(wǎng)絡(luò)安全法[EB/OL].2016-11-08/2017-06-12.
[3] Issa N T,Byers S W,Dakshanamurthy S.Big data:the next frontier for innovation in therapeutics and healthcare[J].Expert Review of Clinical Pharmacology,2014,7(3):293-298.
[4] Keisuke Hakuta,Hisayoshi Sato. Cryptographic Technology for Benefiting from Big Data[M].Springer Japan:2014-06-15.
[5] Murthy P K.Top ten challenges in Big Data security and privacy[C]//Test Conference.IEEE,2015.
[6] 陳興蜀,楊露,羅永剛.大數(shù)據(jù)安全保護技術(shù)[J].工程科學與技術(shù),2017,49(05):1-12.
[7] 大數(shù)據(jù)安全標準化白皮書[R].北京:全國信息技術(shù)標準化技術(shù)委員會大數(shù)據(jù)安全標準特別工作組,2017.