王文宇
(北京數(shù)安行科技有限公司 北京 100036)(wwy@datasecops.com.cn)
數(shù)據(jù)信息可以分為個(gè)人信息、公眾信息、商業(yè)信息、國(guó)家機(jī)密等.個(gè)人信息在各類數(shù)據(jù)中屬于特殊的一類,其特殊性表現(xiàn)在:1)與每個(gè)個(gè)體息息相關(guān),并且攜帶個(gè)人的隱私特性,對(duì)個(gè)體的影響深遠(yuǎn);2)收集、使用個(gè)人信息的主體,可能是教育機(jī)構(gòu)、政務(wù)機(jī)構(gòu)、企業(yè)單位等等,個(gè)人信息一旦被違規(guī)使用,從受損害的主體來講,個(gè)人承受的損害更嚴(yán)重.在互聯(lián)網(wǎng)、大數(shù)據(jù)、5G萬(wàn)物互聯(lián)的時(shí)代,個(gè)人信息相比歷史時(shí)期被更加廣泛地收集和使用.個(gè)人信息被收集和使用,對(duì)個(gè)人來講期望掌握主動(dòng)權(quán).當(dāng)個(gè)人發(fā)起個(gè)人信息遺忘的訴求時(shí),個(gè)人信息的控制者或個(gè)人信息的處理者應(yīng)當(dāng)按照個(gè)人信息合規(guī)要求,對(duì)個(gè)人信息進(jìn)行刪除.在歷史時(shí)期個(gè)人信息遺忘并沒有真正的貫徹執(zhí)行.一方面,在個(gè)人信息遺忘方面缺乏針對(duì)性的法律法規(guī),法律監(jiān)管力度不強(qiáng),政策方面的驅(qū)動(dòng)力較弱;另一方面,持有個(gè)人信息或使用個(gè)人信息的一方擁有大量雜亂無章的個(gè)人信息,對(duì)執(zhí)行個(gè)人信息遺忘缺乏有效的技術(shù)手段.在上述背景下個(gè)人信息遺忘等同虛設(shè).在數(shù)字化轉(zhuǎn)型時(shí)期,數(shù)據(jù)運(yùn)營(yíng)是數(shù)字化轉(zhuǎn)型的核心驅(qū)動(dòng),數(shù)字化轉(zhuǎn)型時(shí)期數(shù)據(jù)運(yùn)營(yíng)的特性決定了數(shù)據(jù)安全需要從數(shù)據(jù)運(yùn)營(yíng)角度重新審視,個(gè)人信息作為數(shù)據(jù)運(yùn)營(yíng)中的一類特殊數(shù)據(jù),在數(shù)字化轉(zhuǎn)型中,個(gè)人信息一方面隨著數(shù)據(jù)運(yùn)營(yíng)業(yè)務(wù)的多線條化變得無處不在,另一方面?zhèn)€人信息合規(guī)要求達(dá)到史無前例的嚴(yán)格程度,不管因何種緣由導(dǎo)致個(gè)人信息遺忘的不作為都將面臨嚴(yán)重的法律制裁.針對(duì)上述問題,本文提出了基于DataSecOps(即數(shù)據(jù)運(yùn)營(yíng)安全)的個(gè)人信息遺忘的技術(shù),達(dá)到個(gè)人信息遺忘的合規(guī)目標(biāo).
個(gè)人信息遺忘在法律法規(guī)中稱為被遺忘權(quán)或刪除權(quán),國(guó)內(nèi)外法律法規(guī)對(duì)此都有定義.2018年5月25日實(shí)施的GDPR指出:“當(dāng)用戶依法撤回同意或者控制者不再有合法理由繼續(xù)處理數(shù)據(jù)等情形時(shí),用戶有權(quán)要求刪除數(shù)據(jù)”.GDPR是由歐盟頒布實(shí)施,其管轄目標(biāo)是歐盟成員國(guó),但實(shí)際GDPR的管轄范圍不止是歐盟國(guó)家,任何國(guó)家或者企業(yè)在一定條件下都會(huì)進(jìn)入GDPR的管轄區(qū)域.
在我國(guó),《關(guān)于加強(qiáng)網(wǎng)絡(luò)信息保護(hù)的決定》[1]《中華人民共和國(guó)網(wǎng)絡(luò)安全法》[2]《中華人民共和國(guó)民法總則》[3]都對(duì)個(gè)人信息刪除作了定義.作為首部專門規(guī)定個(gè)人信息保護(hù)的法律,《中華人民共和國(guó)個(gè)人信息保護(hù)法(草案)》[4]規(guī)定:“在滿足指定條件時(shí),個(gè)人信息處理者應(yīng)當(dāng)主動(dòng)或者根據(jù)個(gè)人的請(qǐng)求,刪除個(gè)人信息”.《中華人民共和國(guó)個(gè)人信息保護(hù)法》目前仍在草案階段,正式出臺(tái)后將成為個(gè)人信息保護(hù)領(lǐng)域的基本法.隨著立法的進(jìn)一步完善,個(gè)人信息遺忘將成為政府機(jī)關(guān)、企事業(yè)單位等個(gè)人信息合規(guī)性的重要環(huán)節(jié).
作為個(gè)人信息合規(guī)的重要一環(huán),個(gè)人信息遺忘因個(gè)人信息本身的特性以及數(shù)字化轉(zhuǎn)型中無處不在的個(gè)人信息流動(dòng),導(dǎo)致貫徹實(shí)施面臨較大挑戰(zhàn),主要表現(xiàn)在:1)在過去的歷史時(shí)期,個(gè)人信息雖有收集,但使用過程相比數(shù)字化轉(zhuǎn)型時(shí)期簡(jiǎn)單化,流動(dòng)性較小.在數(shù)字化轉(zhuǎn)型中,個(gè)人信息滲透到數(shù)據(jù)運(yùn)營(yíng)的多個(gè)環(huán)節(jié),諸如收集、存儲(chǔ)、分析、共享合作等.與之相關(guān)的主體既包括個(gè)人信息的控制者,也包括個(gè)人信息的處理者.一旦需要對(duì)指定個(gè)人信息執(zhí)行被遺忘權(quán)或刪除權(quán),不管是個(gè)人信息的控制者還是個(gè)人信息的處理者都無法掌控局面:比如不了解需要執(zhí)行刪除的個(gè)人信息在哪里,應(yīng)賦予誰(shuí)刪除權(quán)限,從哪里著手刪除,刪除了指定信息后是否可能造成業(yè)務(wù)層面影響,即使執(zhí)行了刪除是否刪除徹底并滿足合規(guī)性要求.2)存儲(chǔ)個(gè)人信息的數(shù)據(jù)源多,同一個(gè)人信息的不同屬性在不同的數(shù)據(jù)源里表現(xiàn)為不同的形態(tài),刪除個(gè)人信息時(shí)無法全面找到這些信息,刪除不徹底.3)個(gè)人信息刪除,如何證明刪除的信息與當(dāng)前的個(gè)人完全對(duì)應(yīng),如何證明刪除后個(gè)人信息真正不存在,這些證據(jù)鏈如何向監(jiān)管部門提供合規(guī)性證明.
綜上,個(gè)人信息的遺忘或者刪除,從個(gè)人信息的特性上,與業(yè)務(wù)的深度耦合方面,落實(shí)實(shí)施是個(gè)人信息的控制者、個(gè)人信息的處理者以及個(gè)人信息合規(guī)監(jiān)管部門需關(guān)注和亟需解決的難點(diǎn).
在過去的歷史時(shí)期,個(gè)人信息的存儲(chǔ)比較固定,不同的業(yè)務(wù)之間交互較少,個(gè)人信息處于一種靜態(tài)模式.當(dāng)前我國(guó)已進(jìn)入數(shù)字化轉(zhuǎn)型時(shí)代[5],個(gè)人信息在數(shù)據(jù)運(yùn)營(yíng)的全流程中廣泛地流動(dòng),個(gè)人信息所在的數(shù)據(jù)源多,個(gè)人信息的存在形態(tài)多樣化,涉及個(gè)人信息的分析處理業(yè)務(wù)復(fù)雜化,個(gè)人信息分散、流動(dòng)頻繁.現(xiàn)有技術(shù)在解決上述問題時(shí)具有以下局限性:1)主要針對(duì)結(jié)構(gòu)化數(shù)據(jù),對(duì)個(gè)人信息以非結(jié)構(gòu)化形態(tài)存儲(chǔ)無能為力;2)個(gè)人信息的數(shù)據(jù)源多,傳統(tǒng)技術(shù)需要單一處理各個(gè)源,一方面效率低,另一方面也會(huì)刪除不全;3)個(gè)人信息頻繁流動(dòng),與數(shù)據(jù)運(yùn)營(yíng)業(yè)務(wù)交織,由此可能在多個(gè)業(yè)務(wù)中留下多個(gè)副本,傳統(tǒng)的技術(shù)無法定位到哪些業(yè)務(wù)中可能自行留存了副本,從而導(dǎo)致副本刪除不全;4)借助傳統(tǒng)的技術(shù)處理個(gè)人信息,達(dá)到同刪除個(gè)人信息相同的效果,此類技術(shù)諸如匿名化、去標(biāo)識(shí)化[6-8],相關(guān)的方案比如數(shù)據(jù)脫敏.此類手段因算法原因可能還原原始個(gè)人信息.比如通過同一原個(gè)人信息的脫敏數(shù)據(jù)經(jīng)過多次組合,能夠拼湊出原個(gè)人信息,抗逆性較弱.有些算法處理后的個(gè)人信息,借助第三方工具或技術(shù)仍能去匿名化或者識(shí)別到個(gè)人[9-10],這些處理結(jié)果最終不能滿足個(gè)人信息刪除的合規(guī)要求.一旦個(gè)人信息被還原或者被識(shí)別,實(shí)際個(gè)人信息的遺忘或刪除義務(wù)就必須重新執(zhí)行.
現(xiàn)有技術(shù)一方面主要面向個(gè)人信息靜態(tài)模式的處理,難以解決數(shù)據(jù)運(yùn)營(yíng)全流程中個(gè)人信息的遺忘或刪除問題;另一方面對(duì)個(gè)人信息的匿名化、去標(biāo)識(shí)化因算法原因仍有還原或識(shí)別到個(gè)人的途徑,導(dǎo)致無法滿足個(gè)人信息遺忘或刪除的合規(guī)性.數(shù)字化轉(zhuǎn)型時(shí)代下,讓個(gè)人信息遺忘或刪除滿足合規(guī)性是個(gè)人、政務(wù)、企業(yè)、國(guó)家關(guān)注的重點(diǎn).
基于DataSecOps的個(gè)人信息遺忘方案,在深度把握個(gè)人信息特殊性、使用方式特殊性、享有被遺忘權(quán)(或刪除權(quán))的特殊性的基礎(chǔ)上,將數(shù)據(jù)運(yùn)營(yíng)安全內(nèi)嵌到數(shù)據(jù)運(yùn)營(yíng)中,通過人工智能自動(dòng)映射個(gè)人信息與數(shù)據(jù)運(yùn)營(yíng)業(yè)務(wù)的全流程關(guān)聯(lián)性,在需要執(zhí)行個(gè)人信息遺忘時(shí),通過DataSecOps一體化刪除所有與當(dāng)前個(gè)人相關(guān)的信息,達(dá)到個(gè)人信息遺忘的合規(guī)目標(biāo).基于DataSecOps的個(gè)人信息遺忘,主要包括以下核心技術(shù):1)基于人工智能的全類型個(gè)人信息映射;2)基于數(shù)據(jù)沙盒無痕映射;3)內(nèi)嵌于數(shù)據(jù)運(yùn)營(yíng)全業(yè)務(wù)流程的追蹤;4)自關(guān)聯(lián)檢索刪除個(gè)人信息映射是個(gè)人信息遺忘或刪除的基礎(chǔ),是基于人工智能的全類型個(gè)人信息映射;5)建立刪除-合規(guī)的證據(jù)鏈,如圖1所示:
圖1 基于DataSecOps的個(gè)人信息遺忘
基于人工智能的全類型個(gè)人信息映射,通過行為智能分析識(shí)別當(dāng)前行為主體,包括個(gè)人信息控制者、個(gè)人信息處理者等;通過對(duì)個(gè)人信息智能分類、智能識(shí)別,識(shí)別當(dāng)前分類客體,包括個(gè)人信息的屬性分類等;通過對(duì)個(gè)人信息的不同格式智能分析,獲得結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等不同格式的個(gè)人信息.采用人工智能技術(shù)建立個(gè)人信息的智能分析模型,分析模型僅以上述內(nèi)容作為范疇,不涉及個(gè)人信息本身的具體屬性值,持續(xù)對(duì)個(gè)人信息梳理,在不持有個(gè)人信息內(nèi)容的前提下建立主體與客體的多維映射.
在對(duì)個(gè)人信息的映射、追蹤過程中,不獲得、不存儲(chǔ)原始個(gè)人信息,而是通過個(gè)人信息關(guān)聯(lián)特征進(jìn)行映射、追蹤,即數(shù)據(jù)沙盒.數(shù)據(jù)沙盒技術(shù)下的處理,借助基于人工智能的全類型個(gè)人信息映射中所建立的分析模型,對(duì)個(gè)人信息進(jìn)行信息的提取、關(guān)聯(lián)和映射,個(gè)人信息原內(nèi)容或?qū)傩蕴卣鞅A粼瓲顟B(tài),未因新的處理形成新的副本,處理結(jié)果以虛擬化數(shù)據(jù)的方式呈現(xiàn),對(duì)個(gè)人信息本體來講是無痕的.
通過輕量化探針與數(shù)據(jù)運(yùn)營(yíng)業(yè)務(wù)融合,內(nèi)嵌于數(shù)據(jù)運(yùn)營(yíng)中,涉及個(gè)人信息存儲(chǔ)、分析、共享協(xié)作等各業(yè)務(wù),追蹤個(gè)人信息、個(gè)人信息的片段、不同個(gè)人信息屬性組合隨數(shù)據(jù)運(yùn)營(yíng)業(yè)務(wù)的流動(dòng),從數(shù)量、類型、位置、應(yīng)用場(chǎng)景等方面建立個(gè)人信息的追蹤視圖,動(dòng)態(tài)跟蹤個(gè)人信息的實(shí)時(shí)狀態(tài).如圖2所示:
圖2 個(gè)人信息追蹤
通過基于人工智能的分析模型、數(shù)據(jù)沙盒以及數(shù)據(jù)運(yùn)營(yíng)業(yè)務(wù)流程的映射、追蹤,個(gè)人信息以一種虛擬化的數(shù)據(jù)方式,建立了涵蓋全數(shù)據(jù)、全業(yè)務(wù)的個(gè)人信息視圖,完整地了解并掌握哪些用戶信息,在用戶提出要求時(shí)能夠準(zhǔn)確、及時(shí)地提供或刪除.當(dāng)個(gè)人信息因合規(guī)需要執(zhí)行遺忘或刪除時(shí),從虛擬化的數(shù)據(jù)集中,基于人工智能的特征模型,自動(dòng)檢索、刪除所有與當(dāng)前個(gè)人信息特征相關(guān)聯(lián)的數(shù)據(jù),包括但不限于作為個(gè)人信息控制者持有的個(gè)人信息相關(guān)數(shù)據(jù)、個(gè)人信息處理者持有的個(gè)人信息相關(guān)數(shù)據(jù)以及隨業(yè)務(wù)流動(dòng)與數(shù)據(jù)運(yùn)營(yíng)業(yè)務(wù)融合交錯(cuò)的個(gè)人信息.
經(jīng)過自關(guān)聯(lián)檢索刪除當(dāng)前個(gè)人信息后,刪除的徹底性、合規(guī)性,通過人工智能關(guān)聯(lián)分析進(jìn)行自證,并保留證據(jù)鏈.其中,自證形成的證據(jù)鏈不包含任何與已刪除個(gè)人信息特征相關(guān)的信息,而是通過對(duì)個(gè)人信息控制者持有的個(gè)人信息相關(guān)數(shù)據(jù)、個(gè)人信息處理者持有的個(gè)人信息相關(guān)數(shù)據(jù)以及隨業(yè)務(wù)流動(dòng)與數(shù)據(jù)運(yùn)營(yíng)業(yè)務(wù)融合交錯(cuò)的個(gè)人信息等方面進(jìn)行個(gè)人信息遺忘刪除的合規(guī)驗(yàn)證,形成數(shù)據(jù)運(yùn)營(yíng)全業(yè)務(wù)的檢查結(jié)果.
在過去的歷史階段,個(gè)人信息被遺忘權(quán)或刪除權(quán),因需要經(jīng)歷逐步的立法完善過程,可實(shí)施性較弱,而個(gè)人層面對(duì)個(gè)人信息能夠妥善處理的主觀意識(shí)相對(duì)來講不強(qiáng).近些年來,從個(gè)人角度來看,個(gè)人對(duì)個(gè)人信息的保護(hù)意識(shí)愈來愈強(qiáng),未來個(gè)人對(duì)有效行使個(gè)人信息處置權(quán)利的要求也會(huì)相應(yīng)地越來越高.《中華人民共和國(guó)個(gè)人信息保護(hù)法》(草案)已發(fā)布,落地實(shí)施也將逐步提上日程,國(guó)家有關(guān)部門的監(jiān)管力度越來越強(qiáng),在這些背景下,個(gè)人信息遺忘或刪除也必須與國(guó)家、社會(huì)、個(gè)體的發(fā)展和訴求相符,才能有助于數(shù)字經(jīng)濟(jì)的持續(xù)健康發(fā)展.基于DataSecOps的個(gè)人信息遺忘,遵循個(gè)人信息保護(hù)的合規(guī)性要求,結(jié)合人工智能、數(shù)據(jù)沙盒,內(nèi)嵌至數(shù)據(jù)運(yùn)營(yíng)全周期中對(duì)個(gè)人信息進(jìn)行追蹤,自關(guān)聯(lián)檢索刪除個(gè)人信息,并動(dòng)態(tài)反饋檢查刪除后的合規(guī)狀態(tài),形成刪除-合規(guī)證據(jù)鏈,是當(dāng)前數(shù)字化轉(zhuǎn)型時(shí)代適應(yīng)個(gè)人信息合規(guī)新訴求的技術(shù)手段.
基于DataSecOps的個(gè)人信息遺忘,是現(xiàn)階段適應(yīng)個(gè)人信息合規(guī)新訴求的技術(shù)手段.而隨著社會(huì)大變革及新興領(lǐng)域、新興技術(shù)的發(fā)展,個(gè)人信息將繼續(xù)以不同的形態(tài)參與到各個(gè)環(huán)節(jié),比如,有些領(lǐng)域在建立人工智能模型時(shí),是基于個(gè)人信息的具體屬性值的數(shù)據(jù)學(xué)習(xí)而形成的,針對(duì)此場(chǎng)景下行使個(gè)人信息的被遺忘權(quán)或刪除權(quán),一旦刪除個(gè)人信息的具體屬性,有可能造成模型失效.因此,個(gè)人信息的遺忘、刪除,需要結(jié)合新興的技術(shù)特征進(jìn)一步研究和探索,以兼顧新興技術(shù)的持續(xù)發(fā)展與個(gè)人信息的合規(guī).