袁紹晚
摘 要:數(shù)據(jù)脫敏是數(shù)據(jù)治理的重要內(nèi)容。文章在數(shù)據(jù)脫敏概述與文獻(xiàn)研究的基礎(chǔ)上,指出城建檔案數(shù)據(jù)脫敏系統(tǒng)建設(shè)路徑包括5個(gè)步驟:數(shù)據(jù)脫敏戰(zhàn)略化、分類分級(jí)標(biāo)簽化、脫敏策略標(biāo)準(zhǔn)化、脫敏目標(biāo)元數(shù)據(jù)化和脫敏流程智能化,并總結(jié)了6個(gè)脫敏關(guān)鍵技術(shù):傳統(tǒng)脫敏技術(shù)、文本分類技術(shù)、CAD二次開(kāi)發(fā)技術(shù)、GIS二次開(kāi)發(fā)技術(shù)、內(nèi)容識(shí)別技術(shù)和數(shù)據(jù)可視化技術(shù),最后對(duì)脫敏系統(tǒng)進(jìn)行功能設(shè)計(jì)。
關(guān)鍵詞:城建檔案;數(shù)據(jù)脫敏;脫敏技術(shù)
數(shù)據(jù)開(kāi)放共享已成為國(guó)家治理戰(zhàn)略的重要組成部分。近年來(lái),國(guó)家層面印發(fā)一系列政策文件,對(duì)數(shù)據(jù)開(kāi)放共享進(jìn)行宏觀部署和頂層設(shè)計(jì)。在數(shù)據(jù)開(kāi)放共享過(guò)程中,城建檔案數(shù)據(jù)作為政務(wù)數(shù)據(jù)的重要組成部分,在釋放數(shù)據(jù)紅利的同時(shí),也面臨著數(shù)據(jù)泄露或遭黑客攻擊等安全風(fēng)險(xiǎn),其中的敏感數(shù)據(jù)一旦發(fā)生泄露,將會(huì)給政府、社會(huì)和個(gè)人帶來(lái)較大負(fù)面影響,甚至造成經(jīng)濟(jì)損失。因此,在數(shù)據(jù)開(kāi)放共享環(huán)境下,如何在保障數(shù)據(jù)供給質(zhì)量的同時(shí),防止敏感數(shù)據(jù)泄露,已經(jīng)成為檔案管理部門亟待解決的問(wèn)題。
數(shù)據(jù)脫敏是數(shù)據(jù)治理的重要內(nèi)容,是一項(xiàng)保障數(shù)據(jù)安全的基本技術(shù)。大量實(shí)踐案例和文獻(xiàn)研究已經(jīng)證明,數(shù)據(jù)脫敏技術(shù)在保護(hù)個(gè)人隱私數(shù)據(jù)、防止數(shù)據(jù)泄露方面具有獨(dú)特的技術(shù)優(yōu)勢(shì)。
數(shù)據(jù)脫敏又稱數(shù)據(jù)去隱私化或數(shù)據(jù)變形,是在給定的規(guī)則、策略下對(duì)敏感數(shù)據(jù)進(jìn)行變換、修改的技術(shù)機(jī)制,能夠在很大程度上解決敏感數(shù)據(jù)在非可信環(huán)境中使用的問(wèn)題[1]。數(shù)據(jù)脫敏流程分為敏感數(shù)據(jù)分類分級(jí)、脫敏策略制訂、脫敏目標(biāo)確認(rèn)、數(shù)據(jù)脫敏與分發(fā)、脫敏數(shù)據(jù)審計(jì)與監(jiān)管等環(huán)節(jié)。在脫敏實(shí)現(xiàn)方式上,可分為靜態(tài)數(shù)據(jù)脫敏和動(dòng)態(tài)數(shù)據(jù)脫敏。
以“數(shù)據(jù)脫敏”為主題在中國(guó)知網(wǎng)進(jìn)行檢索,發(fā)現(xiàn)目前研究成果主要集中在以下方面:脫敏數(shù)據(jù)類型方面,已由結(jié)構(gòu)化數(shù)據(jù)脫敏拓展至非結(jié)構(gòu)化數(shù)據(jù)脫敏,如文本內(nèi)容[2]、圖像內(nèi)容[3]、矢量地理數(shù)據(jù)[4]等;脫敏技術(shù)發(fā)展方面,諸如機(jī)器學(xué)習(xí)[5]、數(shù)據(jù)智能分類技術(shù)[6]、人工智能技術(shù)[7]等智能化數(shù)據(jù)脫敏技術(shù)日趨成熟;行業(yè)應(yīng)用方面,脫敏技術(shù)已在政府?dāng)?shù)據(jù)[8]、證券期貨[9]、電信運(yùn)營(yíng)[10]等行業(yè)領(lǐng)域得到廣泛應(yīng)用。
城建檔案數(shù)據(jù)不僅包括了政府部門在工程建設(shè)項(xiàng)目審批過(guò)程中形成的政務(wù)數(shù)據(jù),還包括了建設(shè)單位在生產(chǎn)施工過(guò)程中產(chǎn)生的建設(shè)項(xiàng)目數(shù)據(jù)。因此,城建檔案數(shù)據(jù)積累、沉淀和匯聚了大量隱私、敏感數(shù)據(jù)。目前,城建檔案數(shù)據(jù)脫敏主要存在以下問(wèn)題:數(shù)據(jù)脫敏無(wú)序,沒(méi)有納入數(shù)據(jù)治理的全生命周期管理;數(shù)據(jù)資產(chǎn)模糊,沒(méi)有脈絡(luò)清晰的分類體系;脫敏策略歧義,沒(méi)有定義明確的執(zhí)行標(biāo)準(zhǔn);脫敏目標(biāo)隨機(jī),沒(méi)有全面完整的數(shù)據(jù)模型;脫敏操作傳統(tǒng)沒(méi)有自動(dòng)智能的工具手段。
城建檔案數(shù)據(jù)脫敏系統(tǒng)建設(shè)應(yīng)當(dāng)堅(jiān)持總體國(guó)家安全觀,以《中華人民共和國(guó)檔案法》《中華人民共和國(guó)網(wǎng)絡(luò)安全法》《中華人民共和國(guó)數(shù)據(jù)安全法》等為法律依據(jù),在國(guó)家數(shù)據(jù)治理的頂層設(shè)計(jì)下有序推進(jìn)。同時(shí),結(jié)合城建檔案數(shù)據(jù)的特點(diǎn),有針對(duì)性地引入大數(shù)據(jù)等信息技術(shù),開(kāi)展數(shù)據(jù)脫敏工作。
1. 數(shù)據(jù)脫敏戰(zhàn)略化
國(guó)家數(shù)據(jù)治理的頂層設(shè)計(jì)是城建檔案數(shù)據(jù)脫敏工作的遵循原則和戰(zhàn)略目標(biāo)。在實(shí)踐中,要充分認(rèn)識(shí)到城建檔案數(shù)據(jù)具有政務(wù)數(shù)據(jù)和檔案數(shù)據(jù)雙重屬性,一是要融入國(guó)家大數(shù)據(jù)資源統(tǒng)籌發(fā)展工程和政府治理大數(shù)據(jù)工程[11],二是要融入新時(shí)代新成就國(guó)家記憶工程和檔案信息化強(qiáng)基工程[12]。
2. 分類分級(jí)標(biāo)簽化
數(shù)據(jù)分類分級(jí)是數(shù)據(jù)治理工作的核心任務(wù)?!吨腥A人民共和國(guó)數(shù)據(jù)安全法》明確規(guī)定,國(guó)家建立數(shù)據(jù)分類分級(jí)保護(hù)制度。城建檔案的分類分級(jí)體系有項(xiàng)目性質(zhì)分類法、文件密級(jí)分級(jí)法和著錄數(shù)據(jù)分級(jí)法。大數(shù)據(jù)的核心價(jià)值通過(guò)標(biāo)簽數(shù)據(jù)的多樣應(yīng)用得到充分體現(xiàn)[13],在城建檔案分類分級(jí)工作中,引入數(shù)據(jù)標(biāo)簽類目體系,能滿足不同業(yè)務(wù)場(chǎng)景下數(shù)據(jù)脫敏需求,多維度體現(xiàn)數(shù)據(jù)業(yè)務(wù)價(jià)值。
3. 脫敏策略標(biāo)準(zhǔn)化
數(shù)據(jù)脫敏策略標(biāo)準(zhǔn)是脫敏系統(tǒng)建設(shè)的基礎(chǔ)。依據(jù)《信息安全技術(shù)個(gè)人信息安全規(guī)范》(GB/T 35273-2020)等數(shù)據(jù)安全類標(biāo)準(zhǔn),脫敏策略標(biāo)準(zhǔn)制訂應(yīng)以滿足落地執(zhí)行為出發(fā)點(diǎn),覆蓋城建檔案數(shù)據(jù)生命周期,包括策略發(fā)布流程、策略術(shù)語(yǔ)定義、脫敏通用原則、脫敏操作方法、數(shù)據(jù)訪問(wèn)規(guī)則等內(nèi)容,用于指導(dǎo)敏感數(shù)據(jù)的管理和保護(hù)。
4. 脫敏目標(biāo)元數(shù)據(jù)化
元數(shù)據(jù)是數(shù)據(jù)脫敏系統(tǒng)建設(shè)的中心內(nèi)容。廣泛采集城建檔案的業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù),建立動(dòng)態(tài)、開(kāi)放、集成的脫敏目標(biāo)元數(shù)據(jù)存儲(chǔ)庫(kù),不僅能夠精準(zhǔn)繪制敏感數(shù)據(jù)的全景視圖,建立統(tǒng)一的數(shù)據(jù)表達(dá)形式,還能方便敏感數(shù)據(jù)的靈活交互和縱橫擴(kuò)展,實(shí)現(xiàn)從業(yè)務(wù)層到技術(shù)層的互聯(lián)互通。
5. 脫敏流程智能化
智能化是脫敏系統(tǒng)建設(shè)的關(guān)鍵績(jī)效指標(biāo)。大數(shù)據(jù)時(shí)代將數(shù)據(jù)脫敏流程與人工智能的自主學(xué)習(xí)和強(qiáng)大的數(shù)據(jù)分析能力相結(jié)合,實(shí)現(xiàn)易學(xué)習(xí)、免配置、自動(dòng)脫敏和自適應(yīng)脫敏算法等功能[14],可以滿足優(yōu)化營(yíng)商環(huán)境對(duì)城建檔案敏感數(shù)據(jù)供給提出的時(shí)效、質(zhì)量、能力等政策要求和考核評(píng)估。
城建檔案業(yè)務(wù)主題數(shù)據(jù)的文件格式包括結(jié)構(gòu)化文件、文本文件、圖像文件、CAD文件、GIS文件等。針對(duì)不同的文件格式,要采用不同的數(shù)據(jù)脫敏技術(shù)。
1. 傳統(tǒng)脫敏技術(shù)
結(jié)構(gòu)化文件表現(xiàn)形式為關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)表,字段類型可分為字符型、數(shù)值型、日期型等。這些字段的內(nèi)容可以使用傳統(tǒng)脫敏技術(shù)如替換、無(wú)效化、置亂、均值化、偏移、加密等脫敏算法進(jìn)行數(shù)據(jù)脫敏。例如,在瀏覽特定區(qū)域內(nèi)某個(gè)建設(shè)項(xiàng)目的用地面積時(shí),可以將詳細(xì)地址置亂為特定區(qū)域,將建設(shè)單位加密為消息摘要值,用地年限替換為長(zhǎng)期等。
2. 文本分類技術(shù)
城建檔案中存在大量的電子文本文件,如政府批文、地質(zhì)勘察報(bào)告、監(jiān)理文件等,利用文本分類技術(shù),通過(guò)多次對(duì)適度規(guī)模敏感詞訓(xùn)練集的測(cè)試、優(yōu)化,建立敏感詞特征庫(kù),并以此為基礎(chǔ),通過(guò)自適應(yīng)學(xué)習(xí)算法完成文本文件內(nèi)容脫敏工作。
3. CAD二次開(kāi)發(fā)技術(shù)
城建檔案中有大量由計(jì)算機(jī)輔助設(shè)計(jì)(Computer Aided Design,CAD)技術(shù)生成的DWG格式電子文件,如建筑安裝工程竣工圖、市政基礎(chǔ)設(shè)施工程竣工圖等。通過(guò)AutoCAD進(jìn)行二次開(kāi)發(fā),使脫敏系統(tǒng)具有CAD數(shù)據(jù)脫敏功能,可以對(duì)敏感圖層、敏感實(shí)體、敏感圖形和敏感屬性等進(jìn)行自動(dòng)脫敏,脫敏操作通常是不可逆、去關(guān)聯(lián)的,如刪除、隱藏、變形等。
4. GIS二次開(kāi)發(fā)技術(shù)
GIS二次開(kāi)發(fā)技術(shù)主要用于地理數(shù)據(jù)脫敏。地理數(shù)據(jù)屬于高敏感級(jí)數(shù)據(jù)。地理空間數(shù)據(jù)的脫敏較復(fù)雜,需要通過(guò)GIS的二次開(kāi)發(fā),在已有的GIS平臺(tái)中開(kāi)發(fā)專門的地理數(shù)據(jù)脫敏功能,涉密屬性信息或高敏感級(jí)數(shù)據(jù)多通過(guò)地理要素及屬性刪除法脫密[15]。
5. 內(nèi)容識(shí)別技術(shù)
隨著數(shù)字化設(shè)備的廣泛應(yīng)用,城建檔案包含了大量的紙質(zhì)檔案數(shù)字化副本影像文件、照片文件和視頻文件。人工手動(dòng)脫敏方法已遠(yuǎn)遠(yuǎn)不能滿足檔案利用現(xiàn)實(shí)需求。利用圖像內(nèi)容識(shí)別技術(shù)進(jìn)行圖像數(shù)據(jù)內(nèi)容識(shí)別、數(shù)據(jù)加密并進(jìn)行敏感信息模糊化等手段[16],不僅能快速完成對(duì)圖像文件中敏感數(shù)據(jù)的自動(dòng)脫敏,還能全面滿足各種利用工作場(chǎng)景的業(yè)務(wù)需求,為高效、準(zhǔn)確地開(kāi)展數(shù)據(jù)保護(hù)工作提供有力支撐。
6. 數(shù)據(jù)可視化技術(shù)
數(shù)據(jù)可視化旨在借助圖形化手段,清晰有效地傳達(dá)與溝通信息。在“公開(kāi)為常態(tài)、不公開(kāi)為例外”的信息公開(kāi)政策要求下,將結(jié)構(gòu)化數(shù)據(jù)如建筑面積、用地面積、車位數(shù)、綠地率、容積率等,以柱狀圖、折線圖、餅圖等圖形方式進(jìn)行直觀表達(dá),不僅達(dá)到了政策要求,還實(shí)現(xiàn)了數(shù)據(jù)泛化脫敏處理。
城建檔案數(shù)據(jù)脫敏系統(tǒng)功能包括數(shù)據(jù)請(qǐng)求、數(shù)據(jù)審計(jì)、目標(biāo)識(shí)別、策略匹配、數(shù)據(jù)訪問(wèn)、數(shù)據(jù)脫敏、脫敏驗(yàn)證和數(shù)據(jù)封裝等(見(jiàn)圖1)。
1. 數(shù)據(jù)請(qǐng)求
用戶根據(jù)自身數(shù)據(jù)需求,通過(guò)網(wǎng)頁(yè)瀏覽器、移動(dòng)設(shè)備、數(shù)據(jù)接口等方式向脫敏系統(tǒng)發(fā)出數(shù)據(jù)請(qǐng)求。
2. 數(shù)據(jù)審計(jì)
數(shù)據(jù)審計(jì)是在接受到數(shù)據(jù)請(qǐng)求后和作出數(shù)據(jù)響應(yīng)前對(duì)相關(guān)內(nèi)容進(jìn)行審計(jì)。在接受到數(shù)據(jù)請(qǐng)求后,審計(jì)內(nèi)容包括:用戶權(quán)限、身份角色、請(qǐng)求設(shè)備和訪問(wèn)協(xié)議等。在作出數(shù)據(jù)響應(yīng)前,審計(jì)內(nèi)容包括:脫敏數(shù)據(jù)的合規(guī)性、安全性,問(wèn)題回溯等。
3. 目標(biāo)識(shí)別
目標(biāo)識(shí)別用于敏感數(shù)據(jù)識(shí)別。數(shù)據(jù)識(shí)別是在元數(shù)據(jù)庫(kù)、敏感信息庫(kù)的相互協(xié)作下完成。其中,敏感信息庫(kù)來(lái)源于機(jī)器學(xué)習(xí)對(duì)不同文件格式的敏感數(shù)據(jù)訓(xùn)練集的特征值。機(jī)器學(xué)習(xí)過(guò)程并不是一次性完成,而是要不斷地進(jìn)行人工標(biāo)注和調(diào)整。
4. 策略匹配
策略匹配用于數(shù)據(jù)脫敏策略標(biāo)準(zhǔn)的匹配和管理。脫敏策略標(biāo)準(zhǔn)是在脫敏過(guò)程中貫徹的規(guī)則、規(guī)范、方法和限制的統(tǒng)稱,主要內(nèi)容來(lái)源于業(yè)務(wù)領(lǐng)域的知識(shí)庫(kù)、工程建設(shè)的規(guī)則庫(kù)、機(jī)器學(xué)習(xí)的算法決策庫(kù)及人工配置的規(guī)范文本等(見(jiàn)圖2)。
5. 數(shù)據(jù)訪問(wèn)
數(shù)據(jù)訪問(wèn)分為結(jié)構(gòu)化數(shù)據(jù)訪問(wèn)和非結(jié)構(gòu)化數(shù)據(jù)訪問(wèn)。結(jié)構(gòu)化數(shù)據(jù)訪問(wèn)步驟包括數(shù)據(jù)源連接、數(shù)據(jù)表打開(kāi)、字段記錄提取等。非結(jié)構(gòu)化數(shù)據(jù)視不同的文件格式執(zhí)行不同的操作:文本文件、CAD文件和圖像文件等直接從文件服務(wù)器中加載解析;地理數(shù)據(jù)在GIS平臺(tái)中提取圖層數(shù)據(jù)和要素?cái)?shù)據(jù)。
6. 數(shù)據(jù)脫敏
數(shù)據(jù)脫敏是在數(shù)據(jù)分級(jí)、脫敏策略的共同約束下,對(duì)目標(biāo)數(shù)據(jù)集采用適當(dāng)?shù)拿撁羲惴ê兔撁艏夹g(shù)進(jìn)行脫敏操作。數(shù)據(jù)脫敏是脫敏全生命周期中的關(guān)鍵環(huán)節(jié),脫敏算法的復(fù)雜度、脫敏技術(shù)的匹配度會(huì)直接影響數(shù)據(jù)脫敏質(zhì)量和效果。
7. 脫敏驗(yàn)證
脫敏驗(yàn)證是對(duì)脫敏后的數(shù)據(jù)從完整性、一致性和關(guān)聯(lián)性三個(gè)方面驗(yàn)證脫敏數(shù)據(jù)的利用價(jià)值是否得到延續(xù)。以脫敏后的地理數(shù)據(jù)集為例,包括地物編碼的組成要素是否齊全完整,空間坐標(biāo)精度是否與坐標(biāo)元數(shù)據(jù)描述一致,各地物間的拓?fù)潢P(guān)系是否相互關(guān)聯(lián)。
8. 數(shù)據(jù)封裝
數(shù)據(jù)封裝是指采用數(shù)字簽名等安全技術(shù)防止脫敏數(shù)據(jù)被偽造或篡改,保證數(shù)據(jù)在整個(gè)生命周期中有效傳遞和安全傳輸。通過(guò)數(shù)據(jù)封裝,數(shù)據(jù)請(qǐng)求者在接收到脫敏系統(tǒng)的響應(yīng)數(shù)據(jù)后,能及時(shí)確認(rèn)脫敏數(shù)據(jù)來(lái)源合法性和完整性,防止傳輸中的抵賴和欺詐。
城建檔案數(shù)據(jù)脫敏在具有通用數(shù)據(jù)脫敏特點(diǎn)的同時(shí),又具有較強(qiáng)的專業(yè)性。
隨著建筑信息模型數(shù)據(jù)加入,勢(shì)必對(duì)城建檔案數(shù)據(jù)脫敏提出更高要求。僅從技術(shù)層面對(duì)城建檔案數(shù)據(jù)脫敏進(jìn)行研究,并不能實(shí)現(xiàn)真正意義上的數(shù)據(jù)脫敏,還要更多地從法律層面、文化層面進(jìn)行研究,為城建檔案數(shù)據(jù)脫敏創(chuàng)造更好的數(shù)據(jù)治理環(huán)境和氛圍。
*本文系2020年度國(guó)家檔案局科技項(xiàng)目“‘互聯(lián)網(wǎng)+政務(wù)服務(wù)背景下廣州建設(shè)項(xiàng)目檔案數(shù)據(jù)治理研究”(項(xiàng)目編號(hào):2020-X-77)階段性研究成果。
[1]陳天瑩,陳劍鋒.大數(shù)據(jù)環(huán)境下的智能數(shù)據(jù)脫敏系統(tǒng)[J].通信技術(shù),2016(7):915-922.
[2]李偉偉,張濤,林為民等.基于文本內(nèi)容的敏感數(shù)據(jù)識(shí)別方法研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2013(4):1202-1206.
[3][16]田菁菁,葉紫光,許慧云.基于圖像內(nèi)容識(shí)別技術(shù)敏感數(shù)據(jù)分析[J].通訊世界,2020(1):133-134.
[4][15]李安波,吳雪榮,解憲麗等.精度可控的矢量地理數(shù)據(jù)脫密方法[J].中國(guó)礦業(yè)大學(xué)學(xué)報(bào),2016(5):1050-1057.
[5]王鑫,王電鋼,母繼元等. 基于機(jī)器學(xué)習(xí)的數(shù)據(jù)脫敏系統(tǒng)研究與設(shè)計(jì)[J].電力信息與通信技術(shù), 2018(1):33-38.
[6]徐建忠,張亮,李嬌嬌.數(shù)據(jù)智能分類技術(shù)在數(shù)據(jù)治理中的應(yīng)用研究[J].信息安全與通信保密,2016(6):88-90.
[7]駱京.基于人工智能技術(shù)的內(nèi)容識(shí)別系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電視技術(shù),2018(7):112-115.
[8]王毛路,華躍.數(shù)據(jù)脫敏在政府?dāng)?shù)據(jù)治理及開(kāi)放服務(wù)中的應(yīng)用[J].電子政務(wù),2019(5):94-103.
[9]王浩宇,劉超,蔣東興.證券期貨監(jiān)管數(shù)據(jù)脫敏方案研究與實(shí)踐[J].金融電子化,2019(3):36-38.
[10]姜日敏.電信運(yùn)營(yíng)商數(shù)據(jù)脫敏系統(tǒng)建設(shè)方案探討[J].中國(guó)科技信息,2014(8):132-133.
[11]中國(guó)政府網(wǎng).國(guó)務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知[EB/ OL].[2015-09-05].http://www. gov.cn/zhengce/content/2015-09/05/ content_10137.htm.
[12]國(guó)家檔案局.中辦國(guó)辦印發(fā)《“十四五”全國(guó)檔案事業(yè)發(fā)展規(guī)劃》[EB/OL].[2021-06-08].https:// www.saac.gov.cn/daj/yaow/202106/89965 0c1b1ec4c0e9ad3c2ca7310eca4.shtml.
[13]付登坡,任寅姿,孫少憶等.數(shù)據(jù)中臺(tái)[M].機(jī)械工業(yè)出版社,2020:158-158.
[14]王紅凱,龔小剛,葉衛(wèi)等.大數(shù)據(jù)智能下數(shù)據(jù)脫敏的思考[J].科技導(dǎo)報(bào),2020(3):115-122.