朱春琴
隨著技術(shù)的發(fā)展,數(shù)據(jù)存儲(chǔ)與處理成本顯著降低,人們有能力從支離破碎的看似毫無(wú)關(guān)系的數(shù)據(jù)中抽煉出真知灼見(jiàn),這就意味著大數(shù)據(jù)時(shí)代的到來(lái)。它滲透到了我們衣食住行的方方面面,悄悄地改變著我們的生活方式,拉近了我們與現(xiàn)實(shí)的距離,我們可以輕松獲取以前從未有過(guò)的各種信息,仿佛所有人所有事都觸手可及,“地球村”變成了“地球屋”。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的價(jià)值不斷凸顯,被大家稱為智能時(shí)代的“石油”,掌握了數(shù)據(jù)就相當(dāng)于掌握了未來(lái)。利用數(shù)據(jù),企業(yè)可以分析用戶行為,可以定位潛在消費(fèi)群體,精準(zhǔn)的投放產(chǎn)品;利用數(shù)據(jù),企業(yè)可以進(jìn)行業(yè)務(wù)轉(zhuǎn)型,成為數(shù)據(jù)驅(qū)動(dòng)型企業(yè);利用數(shù)據(jù),企業(yè)可以更精確的改良產(chǎn)品,適應(yīng)大眾需求……
在大數(shù)據(jù)時(shí)代,我們每個(gè)人都被打上了各種各樣的標(biāo)簽,數(shù)據(jù)帶來(lái)了巨大價(jià)值的同時(shí),也帶來(lái)了用戶隱私保護(hù)方面的難題,如何在不斷挖掘數(shù)據(jù)中存在的價(jià)值的同時(shí)保護(hù)好隱私信息和敏感信息,正成為當(dāng)下新的挑戰(zhàn)。近年來(lái),數(shù)據(jù)泄露事件頻出,在發(fā)生數(shù)據(jù)濫用、內(nèi)部偷竊、網(wǎng)絡(luò)攻擊等安全事件時(shí),常常伴隨著個(gè)人信息泄露,新聞中經(jīng)常出現(xiàn)“泄露”、“漏洞”、“隱私”等名詞。數(shù)據(jù)泄露事件越來(lái)越嚴(yán)重,輕則波及數(shù)千萬(wàn)人甚至影響幾十億人,相比以往,2018年數(shù)據(jù)泄漏事件遠(yuǎn)遠(yuǎn)超過(guò)往年,成為個(gè)人信息泄露的最高記錄年。隨著數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能等技術(shù)的研究和應(yīng)用,使得大數(shù)據(jù)分析的能力越來(lái)越強(qiáng),由于海量數(shù)據(jù)本身就蘊(yùn)藏著價(jià)值,在對(duì)大數(shù)據(jù)中多源數(shù)據(jù)進(jìn)行綜合分析時(shí),通過(guò)關(guān)聯(lián)分析可以挖掘出更多的個(gè)人信息,進(jìn)一步加劇信息泄露的風(fēng)險(xiǎn)。數(shù)據(jù)安全事關(guān)重要信息和個(gè)人隱私,一旦泄露我們將無(wú)所遁形,成為廣告營(yíng)銷的對(duì)象,防不勝防,甚至成為電信詐騙分子的目標(biāo)。對(duì)于企業(yè)來(lái)講,數(shù)據(jù)安全可能關(guān)乎生死存亡,所以說(shuō)數(shù)據(jù)泄露已經(jīng)成為企業(yè)和消費(fèi)者的共同“心病”,一點(diǎn)不為過(guò)。在大數(shù)據(jù)時(shí)代,要對(duì)數(shù)據(jù)進(jìn)行安全保護(hù),既要注意防止因數(shù)據(jù)丟失而直接導(dǎo)致的個(gè)人信息泄露,也要注意防止因挖掘分析而間接導(dǎo)致的個(gè)人信息泄露,這種綜合保護(hù)需求帶來(lái)的安全挑戰(zhàn)無(wú)疑是巨大的。
隨著江蘇省大數(shù)據(jù)平臺(tái)的建設(shè),平臺(tái)內(nèi)部的各種業(yè)務(wù)和信息支撐系統(tǒng)不斷增加,網(wǎng)絡(luò)規(guī)模也迅速擴(kuò)大。大數(shù)據(jù)平臺(tái)作為數(shù)據(jù)存儲(chǔ)、分析及共享的核心和基礎(chǔ),承載著越來(lái)越多的關(guān)鍵政務(wù)數(shù)據(jù)。大數(shù)據(jù)中心實(shí)現(xiàn)了數(shù)據(jù)大集中的同時(shí),也導(dǎo)致了數(shù)據(jù)的風(fēng)險(xiǎn)大集中。而數(shù)據(jù)是江蘇省大數(shù)據(jù)管理中心最重要的“隱形”資產(chǎn),如何識(shí)別數(shù)據(jù)風(fēng)險(xiǎn),進(jìn)而采用有針對(duì)性的數(shù)據(jù)安全防護(hù)控制措施,來(lái)緩解、轉(zhuǎn)移、規(guī)避數(shù)據(jù)安全風(fēng)險(xiǎn),是江蘇省大數(shù)據(jù)管理中心安全建設(shè)必須考慮的一環(huán)。
從數(shù)據(jù)安全的全生命周期角度來(lái)看,數(shù)據(jù)的采集、傳輸、存儲(chǔ)、共享、使用、銷毀等各個(gè)階段,均伴隨著不同程度的風(fēng)險(xiǎn),例如:
采集和傳輸階段:采集前端仿冒、偽造風(fēng)險(xiǎn),使得數(shù)據(jù)交換共享平臺(tái)存在被入侵的風(fēng)險(xiǎn)。同時(shí),傳輸鏈路可能被監(jiān)聽(tīng)、嗅探,導(dǎo)致數(shù)據(jù)被惡意篡改、竊取。
存儲(chǔ)階段:存在DBA 等特權(quán)用戶越權(quán)訪問(wèn)、違規(guī)操作或者誤操作,導(dǎo)致數(shù)據(jù)泄露;還會(huì)存在數(shù)據(jù)庫(kù)或文件未加密導(dǎo)致數(shù)據(jù)直接泄露。
使用階段:終端用戶可能會(huì)通過(guò)截屏、拍照等方式竊取數(shù)據(jù);內(nèi)部人員通過(guò)應(yīng)用系統(tǒng)違規(guī)竊取或?yàn)E用數(shù)據(jù);BI分析人員越權(quán)、違規(guī)操作數(shù)據(jù)。
共享階段,傳輸鏈路被監(jiān)聽(tīng)、嗅探,導(dǎo)致數(shù)據(jù)被篡改、竊??;外部應(yīng)用系統(tǒng)假冒數(shù)據(jù)接收對(duì)象獲取數(shù)據(jù);敏感數(shù)據(jù)分發(fā)給外部單位;通過(guò)無(wú)線、藍(lán)牙等外設(shè)發(fā)送敏感數(shù)據(jù)。
銷毀階段,重要存儲(chǔ)介質(zhì)維修或報(bào)廢前缺乏數(shù)據(jù)清除管控,沒(méi)有做到安全刪除,同樣存在數(shù)據(jù)泄露風(fēng)險(xiǎn)。
綜合分析不難得出,解決大數(shù)據(jù)安全問(wèn)題主要存在以下幾個(gè)難點(diǎn):
(一)傳統(tǒng)的安全措施難以適配
大數(shù)據(jù)技術(shù)先進(jìn),架構(gòu)偏于復(fù)雜,為了滿足海量數(shù)據(jù)分布式存儲(chǔ)和高效計(jì)算服務(wù),一般采用底層復(fù)雜、開(kāi)放的分布式計(jì)算和存儲(chǔ)架構(gòu)。這些新的技術(shù)和架構(gòu)使得大數(shù)據(jù)應(yīng)用的系統(tǒng)邊界變得模糊,傳統(tǒng)那些基于邊界的安全措施失去了保護(hù)效用。在大數(shù)據(jù)系統(tǒng)中,數(shù)據(jù)一般采取分布式存儲(chǔ)方式,數(shù)據(jù)會(huì)動(dòng)態(tài)分散在很多個(gè)不同的存儲(chǔ)設(shè)備,甚至可能是不同的物理地點(diǎn)存儲(chǔ),這樣導(dǎo)致難以準(zhǔn)確劃定傳統(tǒng)意義上的每個(gè)數(shù)據(jù)集的“邊界”,傳統(tǒng)的基于網(wǎng)關(guān)模式的防護(hù)手段就失去了安全防護(hù)效果。
(二)平臺(tái)安全機(jī)制嚴(yán)重不足
現(xiàn)有大數(shù)據(jù)應(yīng)用大部分采用基于開(kāi)源的大數(shù)據(jù)技術(shù)和管理平臺(tái),如基于 Hadoop生態(tài)架構(gòu)的 HBase/Hive、Cassandra/Spark、MongoDB等。這些技術(shù)和平臺(tái)在設(shè)計(jì)之初,由于絕大部分是部署在可信的內(nèi)部網(wǎng)絡(luò)中的,對(duì)于用戶的身份鑒別、授權(quán)訪問(wèn)以及安全審計(jì)等安全方面的功能需求考慮的很少。近年來(lái),隨著更新發(fā)展,這些軟件通過(guò)調(diào)用外部 Kerberos身份鑒別組件、擴(kuò)展訪問(wèn)控制管理能力、允許使用存儲(chǔ)加密以及增加安全審計(jì)功能等方式逐步增加了一些安全措施。即便如此,大部分大數(shù)據(jù)軟件仍然是圍繞大容量、高速率的數(shù)據(jù)處理功能開(kāi)發(fā),而缺乏原生的安全特性,在整體安全規(guī)劃方面考慮嚴(yán)重不足,甚至沒(méi)有提供良好的安全方面的可擴(kuò)展性。
(三)應(yīng)用訪問(wèn)控制更加困難
數(shù)據(jù)類型復(fù)雜、應(yīng)用范圍廣泛是大數(shù)據(jù)應(yīng)用的基本特點(diǎn),它需要為來(lái)自不同部門或單位、不同身份、不同目的的用戶提供數(shù)據(jù)服務(wù)。所以隨著大數(shù)據(jù)應(yīng)用場(chǎng)景的變化和發(fā)展,在應(yīng)用訪問(wèn)控制方面正面臨著巨大的挑戰(zhàn)。
首先是用戶身份的鑒別,大數(shù)據(jù)只有經(jīng)過(guò)開(kāi)放和流動(dòng)才能創(chuàng)造出更大的價(jià)值,政府部門的數(shù)據(jù)也在逐步開(kāi)放共享,數(shù)據(jù)的開(kāi)放就會(huì)意味著有更多的用戶來(lái)訪問(wèn)數(shù)據(jù)。大量的用戶再加上復(fù)雜的共享應(yīng)用環(huán)境,傳統(tǒng)基于集中數(shù)據(jù)存儲(chǔ)的用戶身份鑒別已經(jīng)難以滿足安全需求,大數(shù)據(jù)系統(tǒng)需要更準(zhǔn)確地識(shí)別用戶身份。其次是用戶訪問(wèn)控制,在大數(shù)據(jù)應(yīng)用場(chǎng)景中,由于存在著大量的未知用戶和數(shù)據(jù),預(yù)先設(shè)置角色及權(quán)限十分困難,所以基于用戶身份或角色進(jìn)行訪問(wèn)控制很難。即使對(duì)用戶權(quán)限分類,也難以細(xì)粒度、精細(xì)化地控制每個(gè)角色可以訪問(wèn)的數(shù)據(jù)范圍。然后是用戶數(shù)據(jù)安全審計(jì)和追蹤溯源,當(dāng)前常見(jiàn)的操作系統(tǒng)審計(jì)、網(wǎng)絡(luò)審計(jì)、日志審計(jì)等軟件在審計(jì)粒度上較粗,不能完全滿足復(fù)雜大數(shù)據(jù)應(yīng)用場(chǎng)景下審計(jì)多種數(shù)據(jù)源日志的需求,溯源效果不好,用戶訪問(wèn)控制策略急需創(chuàng)新。
國(guó)家、保密委、國(guó)家等級(jí)保護(hù)體系中都對(duì)數(shù)據(jù)安全情況做出了明確的要求,其中2017年6月1日施行的《中華人民共和國(guó)網(wǎng)絡(luò)安全法》對(duì)網(wǎng)絡(luò)安全等級(jí)保護(hù)制度、關(guān)鍵信息基礎(chǔ)設(shè)施保護(hù)和用戶個(gè)人信息保護(hù)制度等從法律層面上進(jìn)行了規(guī)定。網(wǎng)絡(luò)安全法特別強(qiáng)調(diào)了數(shù)據(jù)的安全問(wèn)題,明確指出需要對(duì)數(shù)據(jù)的采集、使用、傳輸、存儲(chǔ)等環(huán)節(jié)進(jìn)行保護(hù)。因此,江蘇省大數(shù)據(jù)管理中心需要構(gòu)建以大數(shù)據(jù)為核心,覆蓋大數(shù)據(jù)全生命周期的安全保障體系,在數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)共享與使用、數(shù)據(jù)銷毀等環(huán)節(jié)采取相應(yīng)的安全防護(hù)措施保障大數(shù)據(jù)全生命周期的數(shù)據(jù)安全。
針對(duì)數(shù)據(jù)安全需求,結(jié)合大數(shù)據(jù)平臺(tái)安全建設(shè)現(xiàn)狀及未來(lái)安全建設(shè)規(guī)劃,建立一套數(shù)據(jù)全生命周期安全體系非常重要。再與基礎(chǔ)安全設(shè)施結(jié)合,按照管理權(quán)、使用權(quán)、審計(jì)權(quán)的分立模式,設(shè)計(jì)統(tǒng)一大數(shù)據(jù)安全體系服務(wù),全方位保障數(shù)據(jù)安全。
具體框架如下圖1所示:
設(shè)計(jì)思路和方法如下:
在數(shù)據(jù)采集階段,對(duì)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行識(shí)別,并依據(jù)敏感數(shù)據(jù)識(shí)別引擎及策略,自動(dòng)識(shí)別出敏感數(shù)據(jù)。政務(wù)大數(shù)據(jù)可以分為敏感數(shù)據(jù)、可共享數(shù)據(jù)、禁止共享數(shù)據(jù)、公開(kāi)數(shù)據(jù)四級(jí),依據(jù)分類分級(jí)的結(jié)果對(duì)數(shù)據(jù)資產(chǎn)打標(biāo)簽,并且可以動(dòng)態(tài)更新。同時(shí)可對(duì)數(shù)據(jù)庫(kù)服務(wù)的分布以及數(shù)據(jù)庫(kù)中的數(shù)據(jù)資產(chǎn)進(jìn)行發(fā)現(xiàn),并對(duì)數(shù)據(jù)的分布情況進(jìn)行分析和展示。參照《網(wǎng)絡(luò)數(shù)據(jù)安全管理辦法(征求意見(jiàn)稿)》,落實(shí)對(duì)數(shù)據(jù)分類分級(jí)的要求。如果存在多個(gè)類別數(shù)據(jù)相互關(guān)聯(lián)程度較高或多類型數(shù)據(jù)集合的情況,依據(jù)“等級(jí)就高”原則,與集合內(nèi)最高級(jí)數(shù)據(jù)保持一致的安全等級(jí),部署并執(zhí)行一致的數(shù)據(jù)安全保護(hù)技術(shù)措施與安全管理機(jī)制。
數(shù)據(jù)傳輸安全主要保障數(shù)據(jù)的完整性和保密性,為防止數(shù)據(jù)在傳輸過(guò)程中被竊取、篡改,采取身份權(quán)限控制、傳輸加密等安全防護(hù)措施。通過(guò)統(tǒng)一身份管理中心對(duì)資源需求方進(jìn)行身份認(rèn)證;通過(guò)統(tǒng)一權(quán)限管理中心對(duì)資源需求方進(jìn)行數(shù)據(jù)訪問(wèn)權(quán)限控制,避免非法請(qǐng)求。在數(shù)據(jù)跨網(wǎng)、跨域傳輸過(guò)程中,可在傳輸網(wǎng)絡(luò)兩端部署VPN對(duì)傳輸鏈路進(jìn)行加密或者對(duì)數(shù)據(jù)進(jìn)行加密再傳輸。為了防止因違規(guī)、誤操作導(dǎo)致的數(shù)據(jù)泄漏,通過(guò)網(wǎng)絡(luò)數(shù)據(jù)防泄漏系統(tǒng)對(duì)外發(fā)的數(shù)據(jù)進(jìn)行敏感性識(shí)別,以便及時(shí)發(fā)現(xiàn)、攔截禁止共享開(kāi)放的數(shù)據(jù)流出大數(shù)據(jù)中心。
為了保障落地存儲(chǔ)數(shù)據(jù)的安全性,避免數(shù)據(jù)失竊后導(dǎo)致的敏感信息泄露,需要對(duì)重要敏感數(shù)據(jù)進(jìn)行加密存儲(chǔ)。利用敏感數(shù)據(jù)地圖探針對(duì)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)庫(kù)、大數(shù)據(jù)組件進(jìn)行掃描,對(duì)敏感數(shù)據(jù)進(jìn)行標(biāo)簽標(biāo)注,并在數(shù)據(jù)安全管理平臺(tái)進(jìn)行敏感數(shù)據(jù)分布可視化呈現(xiàn),識(shí)別展現(xiàn)數(shù)據(jù)駐留風(fēng)險(xiǎn),提高數(shù)據(jù)梳理效率。通過(guò)調(diào)用統(tǒng)一密鑰管理系統(tǒng)提供多種數(shù)據(jù)加密服務(wù),同時(shí)通過(guò)數(shù)據(jù)加密網(wǎng)關(guān)實(shí)現(xiàn)數(shù)據(jù)庫(kù)表文件或列、字段的加密。
數(shù)據(jù)使用安全主要保護(hù)通過(guò)應(yīng)用程序和API訪問(wèn)數(shù)據(jù),以及用戶終端使用過(guò)程中的數(shù)據(jù)泄露防護(hù),敏感數(shù)據(jù)保護(hù)的安全。采用數(shù)據(jù)泄露防護(hù)對(duì)外發(fā)的數(shù)據(jù)進(jìn)行敏感性識(shí)別,以便及時(shí)發(fā)現(xiàn)、攔截禁止數(shù)據(jù)流流出大數(shù)據(jù)中心。主要技術(shù)包括終端數(shù)據(jù)防泄漏、數(shù)據(jù)脫敏、業(yè)務(wù)行為審計(jì)、數(shù)據(jù)操作審計(jì)和API業(yè)務(wù)安全監(jiān)測(cè)等。同時(shí),采用數(shù)據(jù)運(yùn)維管控平臺(tái)實(shí)現(xiàn)避免開(kāi)發(fā)測(cè)試和運(yùn)維過(guò)程中的數(shù)據(jù)泄露,增加開(kāi)發(fā)測(cè)試和運(yùn)維人員的身份認(rèn)證、權(quán)限管控和操作審計(jì),以及高危操作檢測(cè)及防護(hù)。
在數(shù)據(jù)共享過(guò)程中,既要滿足各委辦廳局的數(shù)據(jù)使用需求,也要防止不該共享的數(shù)據(jù)泄漏出去,因此,需要對(duì)這些數(shù)據(jù)進(jìn)行模糊化處理??梢酝ㄟ^(guò)脫敏算法管理、同義替換、混合屏蔽、確定性屏蔽、部分?jǐn)?shù)據(jù)遮蔽等技術(shù)手段實(shí)現(xiàn)。對(duì)于業(yè)務(wù)操作人員查詢、導(dǎo)出、修改數(shù)據(jù)時(shí),如果操作的數(shù)據(jù)包含業(yè)務(wù)操作人員不應(yīng)接觸的核心數(shù)據(jù)或內(nèi)部數(shù)據(jù),通過(guò)數(shù)據(jù)動(dòng)態(tài)脫敏系統(tǒng)對(duì)這些數(shù)據(jù)進(jìn)行動(dòng)態(tài)脫敏處理,可有效防止人為泄露數(shù)據(jù)。
大數(shù)據(jù)共享交換平臺(tái)提供各委辦廳局的數(shù)據(jù)訂閱和數(shù)據(jù)傳輸,個(gè)人信息等敏感數(shù)據(jù)一旦經(jīng)過(guò)大數(shù)據(jù)共享交換平臺(tái)傳輸給委辦廳局后,大數(shù)據(jù)中心將失去對(duì)這部分?jǐn)?shù)據(jù)的安全保障和控制能力,所以在數(shù)據(jù)傳輸給委辦廳局前可以對(duì)數(shù)據(jù)進(jìn)行水印處理,實(shí)現(xiàn)數(shù)據(jù)在委辦廳局泄露后的溯源能力。同時(shí)可以在共享交換時(shí)對(duì)敏感數(shù)據(jù)進(jìn)行脫敏處理,防止個(gè)人信息等敏感數(shù)據(jù)泄露。數(shù)據(jù)水印支持將特定的標(biāo)識(shí)信息嵌入到宿主數(shù)據(jù)中,并且不影響宿主數(shù)據(jù)的可用性,是目前實(shí)現(xiàn)數(shù)據(jù)溯源行之有效的方法。
當(dāng)物理磁盤(pán)需要報(bào)廢時(shí),可以通過(guò)消磁、折彎或破碎等方式清除數(shù)據(jù),并對(duì)數(shù)據(jù)清除操作保存完整記錄,確保數(shù)據(jù)不泄露。介質(zhì)銷毀應(yīng)當(dāng)按照國(guó)家標(biāo)準(zhǔn)統(tǒng)一管理,集中實(shí)施,確保數(shù)據(jù)無(wú)法還原。銷毀過(guò)程應(yīng)當(dāng)履行清點(diǎn)、登記、審批手續(xù),自行銷毀的應(yīng)當(dāng)選用符合標(biāo)準(zhǔn)的設(shè)備和方法,送交符合資質(zhì)的承銷單位銷毀的,應(yīng)保留銷毀憑證。
建設(shè)數(shù)據(jù)安全分析平臺(tái),通過(guò)采集應(yīng)用行為日志、數(shù)據(jù)庫(kù)訪問(wèn)日志、大數(shù)據(jù)組件訪問(wèn)日志、網(wǎng)絡(luò)流量、終端數(shù)據(jù)行為日志,采用用戶行為分析、數(shù)據(jù)挖掘算法等技術(shù),對(duì)敏感數(shù)據(jù)訪問(wèn)行為進(jìn)行分析和挖掘,發(fā)現(xiàn)數(shù)據(jù)濫用、數(shù)據(jù)泄露、數(shù)據(jù)篡改等異常行為并進(jìn)行告警,對(duì)事件或風(fēng)險(xiǎn)進(jìn)行集中的日志搜索、查詢、分析和溯源。
面對(duì)新的安全形勢(shì),數(shù)據(jù)安全防護(hù)需要在頂層規(guī)劃設(shè)計(jì)環(huán)節(jié)就全面把握好安全體系的平衡,在強(qiáng)調(diào)重點(diǎn)的同時(shí)要做到內(nèi)、外兼修。除做到對(duì)外部威脅防護(hù)外,更要加強(qiáng)對(duì)內(nèi)部威脅的防范控制,防止堡壘從內(nèi)部崩塌。通過(guò)大量的安全事件分析,我們發(fā)現(xiàn)有一大部分內(nèi)部威脅都是在授權(quán)范圍內(nèi)就可以完成,說(shuō)明在管理制度上還有很多不完善的地方。因此,內(nèi)部威脅首先是內(nèi)部安全管理問(wèn)題,解決好內(nèi)部安全管理、制定相關(guān)的安全管理制度,在此基礎(chǔ)上通過(guò)技術(shù)手段完善支撐管理制度,將管理制度切實(shí)落地。所以應(yīng)對(duì)內(nèi)部威脅,必須雙管齊下,做好管理手段和技術(shù)手段,兩手都得抓,兩手都得硬。保障數(shù)據(jù)安全是一項(xiàng)長(zhǎng)期性、艱巨性、復(fù)雜性的工作,要做到警鐘長(zhǎng)鳴、持久發(fā)力、持之以恒,數(shù)據(jù)安全永遠(yuǎn)在路上。
作者單位:江蘇省大數(shù)據(jù)管理中心