陳天瑩,陳劍鋒,2,3
(1.中國電子科技網(wǎng)絡信息安全有限公司,四川 成都 610041;2.中國電科網(wǎng)絡空間安全技術重點實驗室,四川 成都 610041;3.保密通信重點實驗室,四川 成都 610041)
大數(shù)據(jù)環(huán)境下的智能數(shù)據(jù)脫敏系統(tǒng)*
陳天瑩1,陳劍鋒1,2,3
(1.中國電子科技網(wǎng)絡信息安全有限公司,四川 成都 610041;2.中國電科網(wǎng)絡空間安全技術重點實驗室,四川 成都 610041;3.保密通信重點實驗室,四川 成都 610041)
隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)中蘊藏的巨大商業(yè)價值得以挖掘并面世,同時也帶來了隱私、敏感信息保護方面的棘手難題。大數(shù)據(jù)安全區(qū)別于傳統(tǒng)信息安全的本質在于數(shù)據(jù)層面,即如何在實現(xiàn)大數(shù)據(jù)高效共享、分析挖掘的同時,保護敏感及隱私信息不被泄露。通過對現(xiàn)有數(shù)據(jù)脫敏技術原理、機制和過程等方面的深入研究,總結當前主流脫敏方法存在的缺點和不足,創(chuàng)新性地提出了大數(shù)據(jù)環(huán)境下的智能數(shù)據(jù)脫敏系統(tǒng)。該系統(tǒng)能夠以集中式、低耦合和高容量的方式,幫助政府、企業(yè)等用戶解決敏感及隱私數(shù)據(jù)在共享、交換及使用過程中的難題。
大數(shù)據(jù)安全;數(shù)據(jù)脫敏;信息安全;數(shù)據(jù)隱私
信息技術與經(jīng)濟社會的交匯融合引發(fā)了數(shù)據(jù)的迅猛增長,數(shù)據(jù)成為國家基礎性戰(zhàn)略資源。進入大數(shù)據(jù)時代,企業(yè)收集的數(shù)據(jù)越來越多,數(shù)據(jù)外泄事件一再發(fā)生,企業(yè)信息受到嚴重威脅。為此,企業(yè)積極投資于數(shù)據(jù)隱私和數(shù)據(jù)安全技術,將不可預見的安全成本最小化并減少風險損失。Ponemon Institute公司針對美國近年來數(shù)據(jù)外泄成本進行的基礎研究發(fā)現(xiàn),平均每起數(shù)據(jù)外泄的成本為720萬美元,每條外泄記錄的成本為214美元,其中最高的數(shù)據(jù)外泄比率來自于內(nèi)部人員的疏忽,占比為41%[1]。這意味在業(yè)務分析、開發(fā)測試、審計監(jiān)管等使用場合中,敏感數(shù)據(jù)具有極高的安全風險。如何在這些階段中確保生產(chǎn)數(shù)據(jù)的安全,已經(jīng)成為業(yè)界極為關注的問題。
在大數(shù)據(jù)快速推動國家信息化發(fā)展的整體趨勢下,第十三個五年規(guī)劃綱要中明確提出:“實施國家大數(shù)據(jù)戰(zhàn)略,推進數(shù)據(jù)資源開放共享?!比欢餍袠I(yè)數(shù)據(jù)資源中往往包含大量的敏感和重要信息,一旦泄露或遭到非法利用,將會給個人甚至是國家?guī)頍o法彌補的損失。同時,隨著大數(shù)據(jù)分析的成熟和價值挖掘的深入,從看似安全的數(shù)據(jù)中還原出用戶的敏感、隱私信息已不再困難。如何在數(shù)據(jù)交換、共享及使用等過程中實現(xiàn)對敏感數(shù)據(jù)的定向、精準和徹底脫敏,達到數(shù)據(jù)安全、可信、受控使用的目標,是數(shù)據(jù)產(chǎn)生者和管理者亟待解決的技術問題。
數(shù)據(jù)脫敏又稱數(shù)據(jù)去隱私化或數(shù)據(jù)變形,是在給定的規(guī)則、策略下對敏感數(shù)據(jù)進行變換、修改的技術機制,能夠在很大程度上解決敏感數(shù)據(jù)在非可信環(huán)境中使用的問題。Gartner認為,數(shù)據(jù)脫敏應成為相關企業(yè)在軟件開發(fā)、數(shù)據(jù)分析和培訓時的強制選項[2]。目前,數(shù)據(jù)脫敏的主要實踐者包括IBM、ORACLE和Informatica。他們憑借在傳統(tǒng)數(shù)據(jù)庫行業(yè)較早的進入時間、較深厚的實踐經(jīng)驗和技術積累,占據(jù)了多數(shù)市場份額。相較國內(nèi),數(shù)據(jù)脫敏的研究和應用剛剛起步,銀行、通信運營商根據(jù)自身需求制訂了一些數(shù)據(jù)脫敏解決方案,但多以靜態(tài)脫敏為主,設計流程固定,工具能力有限,專用性較強,配置規(guī)則復雜,維護困難,不能滿足數(shù)據(jù)交互流量的不斷增長和復雜多變的安全處理需求[3-4]。
論文第一部分將介紹大數(shù)據(jù)環(huán)境下敏感數(shù)據(jù)面臨的風險、已有防護手段和數(shù)據(jù)脫敏原理,第二部分概括由目標、策略和實現(xiàn)機制構成的數(shù)據(jù)脫敏過程,第三部分則結合大數(shù)據(jù)環(huán)境的實際需求,設計并實現(xiàn)智能大數(shù)據(jù)脫敏系統(tǒng),同時闡述其架構、處理流程、基本功能及運行模式。最后總結全文。
1.1 敏感數(shù)據(jù)的安全風險
敏感數(shù)據(jù)又稱隱私數(shù)據(jù),常見的有姓名、身份證號碼、住址、電話、銀行賬號、郵箱、密碼、醫(yī)療信息、教育背景等。這些與個人生活、工作密切相關的信息受到不同行業(yè)和政府數(shù)據(jù)隱私法規(guī)的管制。如果負責存儲和發(fā)布這些信息的企業(yè)或政府無法保證數(shù)據(jù)隱私,他們就會面臨嚴重的財務、法律或問責風險,同時在用戶信任方面蒙受巨大損失。
敏感數(shù)據(jù)在其生命周期的各個環(huán)節(jié),也即數(shù)據(jù)的產(chǎn)生、存儲、應用、交換等環(huán)節(jié)中均存在被泄露和攻擊的風險。這些風險包括網(wǎng)絡協(xié)議漏洞、數(shù)據(jù)庫入侵、內(nèi)部人員越權訪問、社會工程學、高級持續(xù)性威脅以及合法人員的錯誤配置等。多數(shù)企業(yè)將安全工作的重心放在外圍安全和終端防護上,往往購買防火墻、反病毒軟件,并對網(wǎng)絡設備進行安全配置。但是,對于數(shù)據(jù)這一企業(yè)的核心資產(chǎn)而言,這種防護方式實現(xiàn)的能力有限。隨著大數(shù)據(jù)時代信息的價值性越來越突出,企業(yè)應當將安全投資側重于保護數(shù)據(jù)層面的攻擊風險,以取得理想的安全收益。
1.2 當前的數(shù)據(jù)安全防護手段
數(shù)據(jù)安全是信息安全的重要一環(huán)。當前,對數(shù)據(jù)安全的防護手段包括對稱/非對稱加密、同態(tài)加密、訪問控制、安全審計和備份恢復等。
對稱/非對稱加密:加密是對原來為明文的數(shù)據(jù)按某種算法進行處理,使其成為不可讀的亂碼,從而達到保護數(shù)據(jù)而不被非法竊取、閱讀的目的。傳統(tǒng)加密技術由對稱、非對稱和散列算法構成,具有極高的安全強度,能夠保證數(shù)據(jù)在傳輸過程中的機密性和完整性。但是,由于數(shù)據(jù)在使用時必須完全解密,對最終用戶而言,敏感數(shù)據(jù)依然是明文,因而無法同時滿足敏感數(shù)據(jù)安全性和可用性的需求。
同態(tài)加密:同態(tài)加密是一種加密形式,允許人們通過精心設計的密碼算法對密文進行特定的代數(shù)運算并解密,其結果與對明文進行同樣的運算結果一致。同態(tài)加密能夠從根本上解決將數(shù)據(jù)及其操作委托給第三方時的保密問題,但由于加密后的數(shù)據(jù)缺乏語義,因而除簡單的統(tǒng)計外,無法執(zhí)行更精細的數(shù)據(jù)分析、挖掘和價值發(fā)現(xiàn)等操作。另外,當前同態(tài)的性能也遠未達到生產(chǎn)級別數(shù)據(jù)的處理需求。
訪問控制:根據(jù)預定義的數(shù)據(jù)模型和用戶角色模型,對數(shù)據(jù)庫、數(shù)據(jù)表的訪問行為進行檢測和判斷,在必要時阻斷查詢語句以保護敏感信息的安全。訪問控制雖然提供了一定意義上的敏感數(shù)據(jù)保護能力,但是這種粗粒度的攔截方式難以滿足甚至違背了大數(shù)據(jù)環(huán)境下共享交換、綜合分析挖掘的需求和原則。
安全審計:對數(shù)據(jù)請求進行全時嚴密監(jiān)控,對敏感信息的訪問者和訪問時間進行詳細的審核和記錄,通過安全分析檢測非法行為,并與其他手段聯(lián)動對違規(guī)事件進行處置。安全審計的缺點在于,它是一種事后核查機制,只能在發(fā)生數(shù)據(jù)泄漏問題后才能生效,無法實時對攻擊進行攔截和阻斷以實現(xiàn)防患于未然。
備份恢復:通過分布式存儲、冗余和恢復來實現(xiàn)數(shù)據(jù)的容災安全性,是一種可用性機制。
綜上所述,這些手段均有各自的優(yōu)點和適應領域,但它們用于敏感數(shù)據(jù)防護方面仍有欠缺,無法在不妨礙已有的數(shù)據(jù)處理、操作及分析過程的同時,實現(xiàn)對敏感數(shù)據(jù)的針對性保護。
1.3 數(shù)據(jù)脫敏原理
數(shù)據(jù)脫敏在保留數(shù)據(jù)原始特征的條件下,按需進行敏感信息內(nèi)容的變換。只有授權的管理員或用戶,在必須知曉的情況下,才可通過特定應用程序與工具訪問數(shù)據(jù)的真實值,從而降低這些重要數(shù)據(jù)在共享和移動時的風險。數(shù)據(jù)脫敏在不降低安全性的前提下,使原有數(shù)據(jù)的使用范圍和共享對象得以拓展,因而是大數(shù)據(jù)環(huán)境下最有效的敏感數(shù)據(jù)保護方法。
任何涉及敏感信息的行業(yè)都對數(shù)據(jù)脫敏有著天然的需求。其中,金融、政府和醫(yī)療行業(yè)首當其沖。相關單位在應用開發(fā)、測試、培訓等活動中普遍使用真實數(shù)據(jù),導致數(shù)據(jù)在暴露期間面臨嚴重泄露風險。在數(shù)據(jù)脫敏的幫助下,企業(yè)能夠按照數(shù)據(jù)使用目標,通過定義精確、靈活的脫敏策略,按照用戶的權限等級,針對不同類別的數(shù)據(jù)以不同方式脫敏,實現(xiàn)跨工具、應用程序和環(huán)境的迅速、一致性的訪問限制。
數(shù)據(jù)脫敏通常遵循的幾條原則包括[5]:
(1)數(shù)據(jù)脫敏算法通常應當是不可逆的,必須防止使用非敏感數(shù)據(jù)推斷、重建敏感原始數(shù)據(jù)。但在一些特定場合,也存在可恢復式數(shù)據(jù)脫敏需求。
(2)脫敏后的數(shù)據(jù)應具有原數(shù)據(jù)的大部分特征,因為它們?nèi)詫⒂糜陂_發(fā)或測試場合。帶有數(shù)值分布范圍、具有指定格式(如信用卡號前四位指代銀行名稱)的數(shù)據(jù),在脫敏后應與原始信息相似;姓名和地址等字段應符合基本的語言認知,而不是無意義的字符串。在要求較高的情形下,還要求具有與原始數(shù)據(jù)一致的頻率分布、字段唯一性等。
(3)數(shù)據(jù)的引用完整性應予保留,如果被脫敏的字段是數(shù)據(jù)表主鍵,那么相關的引用記錄必須同步更改。
(4)對所有可能生成敏感數(shù)據(jù)的非敏感字段同樣進行脫敏處理。例如,在學生成績單中為隱藏姓名與成績的對應關系,將“姓名”作為敏感字段進行變換。但是,如果能夠憑借某“籍貫”的唯一性推導出“姓名”,則需要將“籍貫”一并變換。
(5)脫敏過程應是自動化、可重復的。因為數(shù)據(jù)處于不停的變化中,期望對所需數(shù)據(jù)進行一勞永逸式的脫敏并不現(xiàn)實。生產(chǎn)環(huán)境中數(shù)據(jù)的生成速度極快,脫敏過程必須能夠在規(guī)則的引導下自動化進行,才能達到可用性要求;另一種意義上的可重復性,是指脫敏結果的穩(wěn)定性。在某些場景下,對同一字段脫敏的每輪計算結果都相同或者都不同,以滿足數(shù)據(jù)使用方可測性、模型正確性、安全性等指標的要求。
2.1 脫敏目標確認
數(shù)據(jù)脫敏通常會帶來一定的業(yè)務性能開銷,其運行和維護過程也需要成本投入。企業(yè)應根據(jù)自身的業(yè)務運行特征、數(shù)據(jù)資產(chǎn)價值和風險承受能力制訂不同的脫敏目標。
脫敏目標中較為關鍵的部分是數(shù)據(jù)敏感程度的分級和確認,包括確認原始數(shù)據(jù)的主觀敏感度、在各種使用場景下的關聯(lián)性、脫敏后數(shù)據(jù)在系統(tǒng)開發(fā)測試方面的可用性等。敏感信息字段名稱、敏感級別、字段類型、字段長度、賦值規(guī)范等內(nèi)容,需要在這一過程中明確,以作為脫敏策略制訂的依據(jù)。
2.2 脫敏策略制訂
脫敏策略是在脫敏過程中貫徹的規(guī)則、規(guī)范、方法和限制的統(tǒng)稱。脫敏規(guī)則是根據(jù)數(shù)據(jù)及用戶的特點制訂的全局和個別配置,用以指導脫敏過程的實現(xiàn);脫敏規(guī)范是數(shù)據(jù)在處理中必須遵循的安全法規(guī)及行業(yè)標準;脫敏方法是對敏感數(shù)據(jù)進行具體變換操作的算法及流程;脫敏限制是應用脫敏方法時受到的條件和制約,如時空復雜度要求、時效性要求、接口要求等。
在脫敏策略中,脫敏方法是數(shù)據(jù)脫敏的重心和難點,包括可恢復和不可恢復兩類,原理都是將原始數(shù)據(jù)轉換為“看起來很真實的假數(shù)據(jù)”。
幾種常見的脫敏方法包括[6]:
替換:以虛構的數(shù)據(jù)代替真值。例如,建立一個較大的虛擬值數(shù)據(jù)表,對每一真實值記錄產(chǎn)生隨機種子,對原始數(shù)據(jù)內(nèi)容進行哈希映射替換。這種方法得到的數(shù)據(jù)與真實數(shù)據(jù)非常相似。
無效化:以NULL或*****代替真值或真值的一部分,如遮蓋信用卡號的后12位。
置亂:對敏感數(shù)據(jù)列的值進行重新隨機分布,混淆原有值和其他字段的聯(lián)系。這種方法不影響原有數(shù)據(jù)的統(tǒng)計特性,如最大/最小/方差等均與原數(shù)據(jù)無異。
均值化:針對數(shù)值型數(shù)據(jù),首先計算它們的均值,然后使脫敏后的值在均值附近隨機分布,從而保持數(shù)據(jù)的總和不變。通常用于產(chǎn)品成本表、工資表等場合。
反推斷:查找可能由某些字段推斷出另一敏感字段的映射,并對這些字段進行脫敏,如從出生日期可推斷出身份證號、性別、地區(qū)的場景。
偏移:通過隨機移位改變數(shù)字數(shù)據(jù)。
FPE:Format Preserving Encryption,即格式維持的加密是一種特殊的可逆脫敏方法。通過加密密鑰和算法對原始數(shù)據(jù)進行加密,密文格式與原始數(shù)據(jù)在邏輯規(guī)則上一致,如都為日期、卡號、結構化值等。通過解密密鑰可以恢復原始數(shù)據(jù)。
基于其他參考信息進行屏蔽:根據(jù)預定義規(guī)則僅改變部分回應內(nèi)容(例如,屏蔽VIP客戶姓名,但顯示其他客戶等)。
限制返回行數(shù):僅提供響應數(shù)據(jù)的子集,防止用戶訪問到全部符合要求的數(shù)據(jù)。
2.3 數(shù)據(jù)脫敏實現(xiàn)
按照作用位置、實現(xiàn)原理不同,數(shù)據(jù)脫敏可以劃分為靜態(tài)數(shù)據(jù)脫敏(Static Data Masking,SDM)和動態(tài)數(shù)據(jù)脫敏(Dynamic Data Masking,DDM)。隨著數(shù)據(jù)脫敏的應用領域從非生產(chǎn)系統(tǒng)拓展到生產(chǎn)系統(tǒng),業(yè)界的技術需求也逐步從SDM過渡到SDM/ DDM并重。
SDM一般用于非生產(chǎn)環(huán)境。在不能將敏感數(shù)據(jù)存儲于非生產(chǎn)環(huán)境的場合中,通過脫敏程序轉換生產(chǎn)數(shù)據(jù),使數(shù)據(jù)內(nèi)容及數(shù)據(jù)間的關聯(lián)能夠滿足測試、開發(fā)中的問題排查需要,同時進行數(shù)據(jù)分析、數(shù)據(jù)挖掘等分析活動。而DDM通常用于生產(chǎn)環(huán)境,在敏感數(shù)據(jù)被低權限個體訪問時才對其進行脫敏,并能夠根據(jù)策略執(zhí)行相應的脫敏方法。SDM與DDM的區(qū)別在于,是否在使用敏感數(shù)據(jù)時才進行脫敏。這將影響脫敏規(guī)則的實現(xiàn)位置、脫敏方法和策略等參數(shù)。
目前,在傳統(tǒng)關系型數(shù)據(jù)庫中,SDM依然是重要的數(shù)據(jù)保護方法,其執(zhí)行能力、質量和可擴展性較好,適合在數(shù)據(jù)的時效性需求不高的場合中使用。然而,在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)的海量、異構、實時處理將成為常態(tài),能夠在不影響數(shù)據(jù)使用的前提下,在用戶層面實現(xiàn)數(shù)據(jù)屏蔽、加密、隱藏、審計或內(nèi)容封鎖的DDM具有更強的優(yōu)勢。DDM基于橫向或縱向的安全等級要求,依據(jù)用戶角色、職責和其他規(guī)則變換敏感數(shù)據(jù),其能力的發(fā)揮對大數(shù)據(jù)的廣泛、合規(guī)應用至關重要。
動態(tài)數(shù)據(jù)脫敏目前具有兩類實現(xiàn)機制:基于視圖的實現(xiàn)機制和基于代理的實現(xiàn)機制。
2.3.1 基于視圖的實現(xiàn)機制
在這類機制中,生產(chǎn)數(shù)據(jù)及脫敏后的數(shù)據(jù)版本通常存放在同一數(shù)據(jù)庫中,用戶能夠訪問到的數(shù)據(jù)內(nèi)容范圍取決于其角色的權限等級。在用戶訪問請求發(fā)出時,該請求被與數(shù)據(jù)庫集成的脫敏組件截獲,高權限用戶獲得原始數(shù)據(jù)的完整版本,低權限用戶或未使用指定方式訪問的用戶獲得數(shù)據(jù)的脫敏版本。由于這種判決是在請求到達時刻完成,用戶與權限、脫敏數(shù)據(jù)視圖的對應關系需要預先定義。在敏感數(shù)據(jù)被脫敏訪問時,控制中心將收到一條通知或警告。
基于視圖的動態(tài)數(shù)據(jù)脫敏的一種實現(xiàn)方式是編寫數(shù)據(jù)庫程序代碼,在權限判決后對請求語句進行重寫,以尋址原始數(shù)據(jù)或脫敏數(shù)據(jù);另一種方式是建立數(shù)據(jù)庫的真實視圖即虛擬數(shù)據(jù)表,使應用程序如同訪問真實數(shù)據(jù)表一樣訪問脫敏后的數(shù)據(jù)。這種方式需要為虛擬數(shù)據(jù)表構建觸發(fā)器、存儲過程等,以處理數(shù)據(jù)請求,其原理圖如圖1所示。
圖1 基于視圖的動態(tài)脫敏實現(xiàn)機制
2.3.2 基于代理的實現(xiàn)機制
與視圖方式相比,基于代理的實現(xiàn)機制適應性更強,靈活性也更高。用戶的數(shù)據(jù)請求被代理實時在線攔截并經(jīng)脫敏后返回,此過程對于用戶及應用程序完全透明。這種機制與視圖方法的不同點在于,脫敏判決是在數(shù)據(jù)容器外實現(xiàn),因而能夠適用于非關系型數(shù)據(jù)庫,如大數(shù)據(jù)環(huán)境。脫敏代理部署在數(shù)據(jù)容器的出口處以網(wǎng)關方式運行,檢測并處理所有用戶與服務器間的數(shù)據(jù)請求及響應。這種實現(xiàn)機制的好處是,無需對數(shù)據(jù)存儲方式及應用程序代碼做出任何更改。
代理實現(xiàn)數(shù)據(jù)脫敏的具體方法是查詢語句或響應語句替換。代理能自動識別目標為敏感數(shù)據(jù)的查詢語句,并將語句改寫為不包含敏感字段,或對敏感字段進行變換處理的查詢語句。查詢結果返回代理時,會被重新計算、修改并包裝為與原請求一致的格式交付用戶,從而完成一次敏感信息的查詢過程,其原理圖如圖2所示。
圖2 基于代理的動態(tài)脫敏實現(xiàn)機制
就這二類實現(xiàn)機制而言,基于視圖的方式盡管效率較高,但需要修改數(shù)據(jù)庫結構及代碼,而基于代理的方式又在擴展性和統(tǒng)一管理方面存在欠缺,兩者均難以應對大數(shù)據(jù)環(huán)境中數(shù)據(jù)脫敏的嚴峻挑戰(zhàn)。因此,本文提出了智能大數(shù)據(jù)脫敏系統(tǒng),通過分析大數(shù)據(jù)環(huán)境下的敏感數(shù)據(jù)類型、使用場景等,設計了合理的系統(tǒng)框架及脫敏方式。
3.1 系統(tǒng)架構
智能大數(shù)據(jù)脫敏系統(tǒng)架構從底至上由四個層次構成,即資源層、數(shù)據(jù)層,服務層和應用層。橫向包含兩大管理功能,即安全管理和運維管理。系統(tǒng)架構圖如圖3所示。
資源層:為數(shù)據(jù)脫敏服務提供基礎性物理資源,包括計算資源、網(wǎng)絡資源和存儲資源等;
數(shù)據(jù)層:包括支持系統(tǒng)完成智能敏感數(shù)據(jù)發(fā)現(xiàn)、脫敏的各類數(shù)據(jù)庫、知識庫,針對不同敏感數(shù)據(jù)的脫敏規(guī)則庫,管理規(guī)則及規(guī)則集合的脫敏策略庫,支持智能敏感數(shù)據(jù)發(fā)現(xiàn)的本體知識庫和機器學習所形成的模型庫,運維管理和安全管理所需的權限庫等。
服務層:以松耦合的方式承載數(shù)據(jù)脫敏所需的一系列核心服務及中間件,提供數(shù)據(jù)脫敏、規(guī)則化和服務化三大引擎,支撐大數(shù)據(jù)多元異構敏感數(shù)據(jù)發(fā)現(xiàn)和脫敏操作。
圖3 智能大數(shù)據(jù)脫敏系統(tǒng)架構
應用層:面向最終用戶,按照數(shù)據(jù)類型,提供數(shù)據(jù)庫脫敏、文件脫敏以及多媒體脫敏;按照業(yè)務需求,分為測試和研發(fā)過程所需的靜態(tài)脫敏和生產(chǎn)過程中對敏感數(shù)據(jù)訪問及應用的動態(tài)脫敏。
運維管理:包括用戶、策略、數(shù)據(jù)源等系統(tǒng)要素及配置的管理,確保系統(tǒng)的可用性;
安全管理:包括權限、角色和合規(guī)性等安全隱私要素及配置的管理,確保系統(tǒng)的對外安全性和自身安全性。它與運維管理的協(xié)同,使數(shù)據(jù)脫敏服務的運行時刻處于嚴密和安全防護及監(jiān)控之下。
3.2 系統(tǒng)處理流程
智能大數(shù)據(jù)脫敏系統(tǒng)主體流程包括脫敏需求配置、敏感數(shù)據(jù)識別、脫敏策略配置、脫敏服務運行和脫敏狀態(tài)監(jiān)控五個環(huán)節(jié)。
用戶需求配置:根據(jù)用戶的資產(chǎn)重要性和數(shù)據(jù)價值對脫敏的粒度、強度和目標進行定義和配置。
敏感數(shù)據(jù)識別:對目標系統(tǒng)的全量數(shù)據(jù)進行智能識別,獲取用戶數(shù)據(jù)源中數(shù)據(jù)元信息、數(shù)據(jù)結構等。對數(shù)據(jù)字段的內(nèi)容進行分析,對格式和語義進行識別,對主鍵/外鍵進行處理,識別出系統(tǒng)中存在的敏感數(shù)據(jù)。
脫敏策略配置:提供兩種脫敏策略的配置方式,一種是基于系統(tǒng)內(nèi)置的敏感數(shù)據(jù)類型,采用智能推薦方式進行脫敏策略的配置;另一種是支持用戶自定義脫敏策略以及更改合適的脫敏算法。
脫敏服務運行:按照用戶需求進行靜態(tài)數(shù)據(jù)脫敏和動態(tài)數(shù)據(jù)脫敏。
脫敏狀態(tài)監(jiān)控:持續(xù)對脫敏系統(tǒng)的運行情況進行監(jiān)控和審計,及時發(fā)現(xiàn)異常并做出響應。定期將綜合后的運行結果反饋用戶,完善脫敏需求配置,提升脫敏效果。
3.3 敏感數(shù)據(jù)識別方法
敏感數(shù)據(jù)識別是智能數(shù)據(jù)脫敏系統(tǒng)中的核心和關鍵。大數(shù)據(jù)環(huán)境中,非結構化數(shù)據(jù)占85%以上,因而非結構化數(shù)據(jù)的敏感數(shù)據(jù)識別、發(fā)現(xiàn)、處理是迫切需要解決的問題,否則數(shù)據(jù)脫敏系統(tǒng)的實用性將大打折扣。圖4描述了數(shù)據(jù)庫(主要是結構化數(shù)據(jù))和文件(主要是非結構化數(shù)據(jù))的敏感數(shù)據(jù)識別方法,其核心技術采用數(shù)據(jù)特征學習以及自然語言處理等技術進行敏感數(shù)據(jù)識別。
敏感數(shù)據(jù)識別分為兩個階段,即數(shù)據(jù)源注冊和數(shù)據(jù)脫敏任務執(zhí)行。
(1)數(shù)據(jù)源注冊階段。數(shù)據(jù)源注冊時,系統(tǒng)將連接注冊數(shù)據(jù)源,一方面驗證數(shù)據(jù)源的聯(lián)通性,一方面將獲取該數(shù)據(jù)源的元數(shù)據(jù)和部分樣例數(shù)據(jù)。系統(tǒng)將對樣例數(shù)據(jù)執(zhí)行一次敏感數(shù)據(jù)的初步識別。其步驟如下:
①系統(tǒng)識別獲取的樣例數(shù)據(jù),通過其數(shù)據(jù)類型(字符、數(shù)值等)和數(shù)據(jù)內(nèi)容進行敏感數(shù)據(jù)識別。
②敏感數(shù)據(jù)識別由敏感數(shù)據(jù)識別引擎完成;敏感數(shù)據(jù)識別引擎采用規(guī)則、知識庫以及自然語言處理中的命名實體識別、特征詞提取,特征密度計算等方式進行智能識別。
③如果字段屬于長字段,則對該字段進行標記。
④如果字段不屬于長字段,但無法進行敏感數(shù)據(jù)識別,此時系統(tǒng)將對其字段描述進行語義分析和理解,補充相關信息后進行識別。
⑤識別出的字段將存儲在敏感字段識別庫中。
圖4 敏感數(shù)據(jù)識別方法
(2)數(shù)據(jù)脫敏任務執(zhí)行階段。為提高敏感數(shù)據(jù)發(fā)現(xiàn)以及數(shù)據(jù)脫敏的效率,在脫敏任務執(zhí)行階段,主要對長字段進行識別,步驟如下:
①系統(tǒng)根據(jù)用戶配置的參數(shù)對訪問數(shù)據(jù)庫的所有SQL語句進行解析,首先在敏感數(shù)據(jù)字段庫中查驗哪些屬于敏感字段,已識別出的敏感字段按其脫敏策略執(zhí)行脫敏。
②如果字段為長字段,則獲取每一條流經(jīng)系統(tǒng)的數(shù)據(jù),送入敏感數(shù)據(jù)識別引擎中,作為文本型數(shù)據(jù)進行識別。文本中可能包含多種敏感數(shù)據(jù)類型。
③根據(jù)識別結果進行脫敏。
3.4 系統(tǒng)主要功能
智能大數(shù)據(jù)脫敏系統(tǒng)的功能按數(shù)據(jù)類型劃分,主要包括數(shù)據(jù)庫脫敏、文件脫敏、圖片及視頻脫敏幾個主要部分,組成圖如圖5所示。
圖5 智能大數(shù)據(jù)脫敏系統(tǒng)功能組成
敏感數(shù)據(jù)識別:將針對不同數(shù)據(jù)的特點,設計敏感數(shù)據(jù)識別所需的模型、算法、知識庫等,以覆蓋數(shù)據(jù)庫中敏感字段的識別、文本中敏感數(shù)據(jù)的識別、圖片和視頻中的敏感區(qū)域識別等;
數(shù)據(jù)脫敏:將針對不同類型的數(shù)據(jù)形態(tài),實現(xiàn)不破壞其數(shù)據(jù)格式和可用性的數(shù)據(jù)脫敏處理。例如:當對Word文件中的數(shù)據(jù)執(zhí)行脫敏時,脫敏完成后文件格式依然為Word。需要注意的是,針對不同的數(shù)據(jù)類型其脫敏的方式和方法也將會有所不同。
脫敏驗證:數(shù)據(jù)脫敏的本質是通過數(shù)據(jù)變形來保證對敏感信息的保護,主要目標是安全使用數(shù)據(jù)。如果脫敏后的數(shù)據(jù)導致可用性降低或者喪失,將失去數(shù)據(jù)脫敏的意義。因此,對脫敏后的數(shù)據(jù)必須在完整性、一致性以及關聯(lián)性三個方面進行驗證。
3.5 服務模式
隨著大數(shù)據(jù)技術的發(fā)展和分布式計算技術的成熟,基于大數(shù)據(jù)平臺的脫敏服務為數(shù)據(jù)安全產(chǎn)品及相關服務設計提供了全新的思路和支撐環(huán)境,非常適合數(shù)據(jù)脫敏這一計算密集、時間敏感型的應用?;诖髷?shù)據(jù)平臺的敏感數(shù)據(jù)智能探測、智能分析與統(tǒng)計、智能處理平臺,有望成為數(shù)據(jù)安全產(chǎn)品的重要發(fā)展方向。
按照動態(tài)數(shù)據(jù)脫敏的基本原理和需求,將數(shù)據(jù)脫敏系統(tǒng)的存儲和計算依托大數(shù)據(jù)平臺實現(xiàn),提供數(shù)據(jù)脫敏服務DMaaS(Data Masking as a Service)。它以集中控制和分布代理方式運行,面向政府數(shù)據(jù)、醫(yī)療、教育行業(yè)數(shù)據(jù)和金融數(shù)據(jù)等,進行按需定制和調(diào)用的脫敏服務,如圖6所示。
圖6 基于大數(shù)據(jù)平臺的動態(tài)數(shù)據(jù)脫敏服務
基于大數(shù)據(jù)的數(shù)據(jù)脫敏平臺作為數(shù)據(jù)擁有者和數(shù)據(jù)使用者之間的關聯(lián)途徑,承載數(shù)據(jù)安全隱私保護的重要使命。大數(shù)據(jù)脫敏平臺以集中、松耦合方式進行數(shù)據(jù)的保護與處理,為企業(yè)擁有的敏感和隱私信息提供靈活、實時的服務,不必對應用程序和數(shù)據(jù)庫進行昂貴且耗時的變更,也不會干擾開發(fā)、測試及數(shù)據(jù)使用者履行其各自的職責。
根據(jù)應用場景,DMaaS可以劃分為勞務、承包、中轉和托管四種應用模式。
勞務模式:SDM實現(xiàn)方式,按照用戶需求將需要脫敏的數(shù)據(jù)一次性轉換完畢,并將結果交付用戶。
承包模式:私有化DDM實現(xiàn)方式,在用戶生產(chǎn)/測試環(huán)境中搭建DMaaS,持續(xù)運行脫敏功能。
中轉模式:公有化DDM實現(xiàn)方式。在用戶數(shù)據(jù)環(huán)境外搭建DMaaS,應用程序運行結果在呈現(xiàn)前由脫敏服務處理并交付用戶,實現(xiàn)業(yè)務流程的靈活調(diào)用。
托管模式:公有化DDM/數(shù)據(jù)倉庫實現(xiàn)方式。用戶的所有敏感數(shù)據(jù)存放在DMaaS中,業(yè)務需要訪問數(shù)據(jù)時調(diào)用脫敏服務處理后提交至用戶。這種模式有利于數(shù)據(jù)的集中監(jiān)管和高強度隱私保護。
數(shù)據(jù)脫敏是大數(shù)據(jù)時代企業(yè)數(shù)據(jù)化運行治理的必要安全機制,未來數(shù)據(jù)脫敏發(fā)展的趨勢包括精確理解用戶需求、更細的粒度、更高的精確度和可用度、更佳的自動化程度、更好的抗破解能力、更強的擴展能力和更友好的方式呈現(xiàn)等,從而滿足未來用戶多領域的數(shù)據(jù)交互、共享和融合需求。
[1] Ponemon Institute.Cost of Data Breach:Global Analysis [EB/OL].(2013-05-28)[2016-05-26].http://www.ponemon.org/,2015.
[2] Gartner.Gartner 2014 Magic Quadrant Data Masking Report[EB/OL].(2015-12-22)[2016-05-23].http://www. gartner.com.2014.
[3] 姜日敏.電信運營商數(shù)據(jù)脫敏系統(tǒng)建設方案探討[J].信息科技,2014(08):132-133. JIANG Ri-min.Data Masking System Construction Plans of Telecommunication Operator[J].Information Technology,2014(08):132-133.
[4] 劉明輝,張尼,張云勇等.云環(huán)境下的敏感數(shù)據(jù)保護技術研究[J].電信科學,2014(11):2-8. LIU Ming-hui,ZHANG Ni,ZHANG Yun-yong,et al.Research on Sensitive Data Protection Technology on Cloud Computing[J].Telecommunication Science,2014(11):2-8.
[5] Securosis Corporations.Understanding and Selecting Data Masking Solutions:Creating Secure and Useful Data[EB/OL].(2014-03-01)[2016-05-19].http:// www.techrepublic.com/resource-library/whitepapers/ understanding-and-selecting-data-masking-solutionscreating-secure-and-useful-data/.
[6] Informatica Corporation.Dynamic Data Masking Baseline Deployment[EB/OL].(2013-01-01)[2016-05-22]. https://www.informatica.com,2013.
陳天瑩(1982—),女,博士,高級工程師,主要研究方向為大數(shù)據(jù)、信息安全;
陳劍鋒(1983—),男,博士,高級工程師,主要研究方向為信息安全、云計算。
Intelligent Data Masking System for Big Data Productive Environment
CHEN Tian-ying1, CHEN Jian-feng1,2,3
(1.China Electronic Technology Cyber Security Co.,Ltd, Chengdu Sichuan 610041, China; 2.Cyberspace Security Technology Laboratory of CETC, Chengdu Sichuan 610041, China; 3.Science and Technology on Communication Security Laboratory, Chengdu Sichuan 610041, China)
With the arrival of big data era, huge amount of business interest in big data is explored and great potential value mined and utilized. However, this revolution also leads to severe problems of private and sensitive information protection. The main difference of between traditional information security and big data security lies in the data content layer, this means to protect private or sensitive data from being disclosed while retain the ability to effectively share, analyze and distribute such data. Through the in-depth research on current data masking principle, mechanism and process, the shortcomings and deficiencies of existing data masking methods are summed up, and an innovative solution dynamic data masking system suitable for big data productive environment is proposed, which can meet the needs of various enterprises with its service-centric architecture, high throughput capacity and low coupling nature for data masking, exchange and application.
big-data security; data masking; information security; data privacy
TP309.2
A
1002-0802(2016)-07-0915-08
10.3969/j.issn.1002-0802.2016.07.023
2016-03-12;
2016-06-12 Received date:2016-03-12;Revised date:2016-06-12