Mary Branscombe
如果把數(shù)據(jù)比喻成新油田,那么想要避免相當(dāng)于有毒泄漏的數(shù)據(jù)泄露,必須做好安全工作。這一切都始于強(qiáng)大的數(shù)據(jù)刪除策略。
在65萬(wàn)多個(gè)客戶的個(gè)人信息被泄露后,連鎖酒吧Wetherspoon決定刪除其存儲(chǔ)的幾乎所有客戶信息,為的是降低風(fēng)險(xiǎn)。畢竟,如果你沒(méi)有數(shù)據(jù),就不需要檢查是否合規(guī),也不用針對(duì)GDPR的“主題訪問(wèn)請(qǐng)求”進(jìn)行披露,不會(huì)因?yàn)槌霈F(xiàn)數(shù)據(jù)泄露而道歉。
事實(shí)上,數(shù)據(jù)是如此有毒,以至于加州律師協(xié)會(huì)互聯(lián)網(wǎng)與隱私法委員會(huì)主席Joshua de Larios-Heiman建議將其視為鈾礦而非油田。他說(shuō):“廢鈾棒怎么辦?它們變成了有毒資產(chǎn),很難處理掉它們。如果處理不當(dāng),人們會(huì)起訴你?!?/p>
如果你開(kāi)始從這些方面考慮風(fēng)險(xiǎn),那么你的企業(yè)丟掉存儲(chǔ)的哪些數(shù)據(jù)會(huì)變得更好?
不收集不需要的數(shù)據(jù)
有很多數(shù)據(jù)是由人們自己產(chǎn)生的,你無(wú)法從中獲得任何價(jià)值,而保留這些數(shù)據(jù)可能又會(huì)增加風(fēng)險(xiǎn)。微軟負(fù)責(zé)Azure和企業(yè)安全的副總裁Julia White評(píng)論說(shuō):“令我非常震驚的是,人們似乎并沒(méi)有發(fā)現(xiàn)他們不想要的數(shù)據(jù),或者出于GDPR的原因應(yīng)該清除掉的數(shù)據(jù)?!?/p>
ACLU高級(jí)技術(shù)研究員Jon Callas指出,不要被存儲(chǔ)成本下降所迷惑,以為保存數(shù)據(jù)很便宜。
他說(shuō):“保存數(shù)據(jù)的成本比想象得要高,而且收益也很低。它有可能是有用的,對(duì)分析有所貢獻(xiàn)。但更有可能是有害的——會(huì)讓你輸?shù)暨`約案,或者被法庭傳喚。隨著時(shí)間的推移,其可用價(jià)值越來(lái)越少,但危害價(jià)值保持不變。如果你丟失了某個(gè)人五年前的住址,歐盟并不關(guān)心這是你不想要的不準(zhǔn)確的數(shù)據(jù),也不關(guān)心這對(duì)你的業(yè)務(wù)有什么幫助,丟了你就得負(fù)責(zé)。在某一時(shí)點(diǎn)上,數(shù)據(jù)和業(yè)務(wù)會(huì)出現(xiàn)交叉。你應(yīng)該在這些數(shù)據(jù)交叉之前把它們?nèi)拥??!?/p>
Callas指出,“被傳訊和主題訪問(wèn)請(qǐng)求的成本高于存儲(chǔ)媒介的成本。有些糟心事可能會(huì)發(fā)生,有些數(shù)據(jù)可能會(huì)令你陷入更多的糟心事中,結(jié)果所導(dǎo)致的成本要遠(yuǎn)高于這些數(shù)據(jù)的價(jià)值。當(dāng)你說(shuō)‘我只保留有理由保留的數(shù)據(jù)時(shí),你必須采取的程序會(huì)讓你陷入截然不同的境地中。”
高風(fēng)險(xiǎn)數(shù)據(jù)
Veritas公司的高級(jí)主管Jasmit Sagoo在接受CIO.com采訪時(shí)表示,數(shù)據(jù)中心存儲(chǔ)的數(shù)據(jù)有1/3是可有可無(wú)的、過(guò)時(shí)的甚至是多余的。
他說(shuō):“這些數(shù)據(jù)幾乎沒(méi)有什么業(yè)務(wù)價(jià)值,應(yīng)該主動(dòng)刪除,尤其是考慮到數(shù)據(jù)泄露和風(fēng)險(xiǎn)等級(jí)時(shí)。例如,前員工和前客戶數(shù)據(jù)的風(fēng)險(xiǎn)非常高。這包含個(gè)人身份信息,因此只有出于法律原因才值得保存這些數(shù)據(jù)。財(cái)務(wù)記錄特別容易受到黑客的攻擊,這也是需要謹(jǐn)慎管理的敏感數(shù)據(jù)的具體實(shí)例?!?/p>
怎樣找到不需要并且應(yīng)該刪除的數(shù)據(jù)呢?Sagoo說(shuō):“作為一個(gè)起點(diǎn),企業(yè)應(yīng)能夠識(shí)別數(shù)據(jù)中的具體細(xì)節(jié),準(zhǔn)確指出風(fēng)險(xiǎn)范圍及其潛在價(jià)值。了解存儲(chǔ)了什么、誰(shuí)在訪問(wèn)它以及訪問(wèn)頻率也很重要。只有這樣,才能知道有哪些數(shù)據(jù),根據(jù)定制的數(shù)據(jù)保留策略對(duì)其進(jìn)行分類。然后,至少每季度刪除一次這些文件?!?/p>
ISG首席分析師Blair Hanley Frank認(rèn)為,“有些數(shù)據(jù)永遠(yuǎn)不應(yīng)該存儲(chǔ)起來(lái)進(jìn)行分析。在2019年仍以純文本形式存儲(chǔ)用戶密碼的任何企業(yè)都是在自找麻煩?!?/p>
刪除與不再使用的生產(chǎn)系統(tǒng)相關(guān)聯(lián)的數(shù)據(jù)。例如,WeatherSpoon公司泄露的用戶數(shù)據(jù)來(lái)自一個(gè)老網(wǎng)站,而這些數(shù)據(jù)本不應(yīng)該還在那里。而Adobe公司泄露的密碼數(shù)據(jù)也來(lái)自一個(gè)老的非生產(chǎn)系統(tǒng)。Frank指出:“企業(yè)不能僅僅因?yàn)檫@些系統(tǒng)是老的IT基礎(chǔ)設(shè)施的一部分就忽略這些過(guò)時(shí)或者很少使用的系統(tǒng)?!?/p>
特別要注意跟蹤已經(jīng)提取(通常是XLS或者CSV文件)并移交給開(kāi)發(fā)人員用作示例數(shù)據(jù)的客戶數(shù)據(jù)庫(kù)副本。
對(duì)此,你應(yīng)該屏蔽數(shù)據(jù)。通過(guò)屏蔽數(shù)據(jù),可以保留相關(guān)的數(shù)據(jù)統(tǒng)計(jì)分布,以便在測(cè)試中使用,而不存在泄露的風(fēng)險(xiǎn)。
Delphix公司董事Benjamin Ross指出:“非生產(chǎn)開(kāi)發(fā)和測(cè)試環(huán)境雖然非常重要,但卻帶來(lái)了很大的風(fēng)險(xiǎn),而且往往是GDPR合規(guī)的軟肋?!?/p>
不要“去身份標(biāo)識(shí)”,直接刪除就好
只有出于當(dāng)前業(yè)務(wù)的原因才保存數(shù)據(jù),而不是模糊地希望機(jī)器學(xué)習(xí)系統(tǒng)能從中發(fā)現(xiàn)一些有用的東西。Callas指出,即便是人工智能初創(chuàng)企業(yè)投資人的Andreessen Horowitz,也在質(zhì)疑收集大量數(shù)據(jù)是否有價(jià)值。Callas說(shuō):“有一種神秘的信念,即擁有這種‘?dāng)?shù)據(jù)護(hù)城河便具備了可持續(xù)的競(jìng)爭(zhēng)優(yōu)勢(shì),而作為投資者,經(jīng)驗(yàn)告訴他們,并非如此。你可能認(rèn)為這會(huì)使你的企業(yè)變得更好,但現(xiàn)實(shí)卻是不太可能?!?/p>
微軟研究院(Microsoft Research)高級(jí)研究員Mary L.Gray說(shuō),這尤其適用于你正在考慮用于訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)集的個(gè)人識(shí)別信息(PII)。她說(shuō):“既然有了GDPR,就應(yīng)該非常嚴(yán)格地限制PII可以收集什么,誰(shuí)能訪問(wèn)它,采用什么審計(jì)措施來(lái)說(shuō)明PII在哪里、何時(shí)以及怎樣被重新調(diào)整用途,出售給收集它的公司之外的某個(gè)實(shí)體,說(shuō)清楚這些實(shí)體能保留多長(zhǎng)時(shí)間?!?/p>
而且“去身份標(biāo)識(shí)”的數(shù)據(jù)并不能保證安全保存,因?yàn)橹灰凶銐虻臄?shù)據(jù),仍然可以識(shí)別個(gè)人身份——即使你不想這樣做。她警告說(shuō):“認(rèn)為能夠永久地把收集到的數(shù)據(jù)‘去身份標(biāo)識(shí),這實(shí)在是無(wú)稽之談?!?/p>
她繼續(xù)道,“以數(shù)據(jù)為中心的技術(shù)行業(yè)還沒(méi)有找到怎樣徹底刪除數(shù)據(jù)的方法,更不用說(shuō)能確定完全停止收集哪些數(shù)據(jù)。該行業(yè)最終同意了對(duì)PII進(jìn)行散列處理:這相當(dāng)于在其上運(yùn)行一個(gè)黑色標(biāo)記。但他們可以收集我們所做的一切。如果你能預(yù)測(cè)自己在做什么和在哪里做什么,那么你仍然留下了數(shù)字足跡,這與圖片中的PII沒(méi)有什么不同?!?/p>
她補(bǔ)充說(shuō),雖然刪除明顯的身份標(biāo)示(例如,姓名和出生日期)很簡(jiǎn)單,但“去身份標(biāo)識(shí)”的數(shù)據(jù)中仍然會(huì)包含PII,例如,當(dāng)用戶把全名添加到?jīng)]有標(biāo)記為姓名的字段中時(shí),等等。
Gray解釋說(shuō):“這就是為什么很難堵住數(shù)據(jù)泄露的原因。”你可以獲取一組電子郵件地址數(shù)據(jù)、另一組地理位置元數(shù)據(jù)和第三組搜索查詢數(shù)據(jù),并運(yùn)行足夠的這些數(shù)據(jù)組合,產(chǎn)生能生成姓名、出生日期和位置的搜索字符串,重新識(shí)別出與某一電子郵件地址相關(guān)的人員?!?/p>
Frank警告說(shuō),這些潛在的有害數(shù)據(jù)甚至?xí)泳徠髽I(yè)的數(shù)據(jù)策略。他說(shuō):“擁有大量基本上無(wú)用的信息會(huì)增加人們花在構(gòu)建和測(cè)試模型上的時(shí)間,從而使分析有用數(shù)據(jù)變得更加困難。為了解決這個(gè)問(wèn)題,企業(yè)應(yīng)該主動(dòng)判斷信息帶來(lái)的價(jià)值,并測(cè)試這些數(shù)據(jù),看看它是否具有預(yù)測(cè)價(jià)值?!?/p>
微軟云與人工智能部執(zhí)行副總裁Scott Guthrie建議減少存儲(chǔ)的數(shù)據(jù),并盡可能匿名。他說(shuō):“如果能夠遠(yuǎn)程監(jiān)測(cè)網(wǎng)絡(luò)搜索,你會(huì)存儲(chǔ)進(jìn)行網(wǎng)絡(luò)搜索的人的確切位置嗎?或者,你在街道或者其他級(jí)別上進(jìn)行匿名處理,這樣無(wú)論你是否有數(shù)據(jù)泄露,都不會(huì)侵犯隱私了?”
如果你沒(méi)有數(shù)據(jù),就不會(huì)有人濫用數(shù)據(jù)。
Callas說(shuō):“不要問(wèn),‘我為什么要丟掉這些數(shù)據(jù)?而是要問(wèn),‘我為什么要保留它?除非你知道為什么要保留數(shù)據(jù),否則就應(yīng)該丟掉數(shù)據(jù),因?yàn)樵诂F(xiàn)在的環(huán)境中,我們能以更低的成本收集更多、更新的數(shù)據(jù)?!边@可以是在自己的網(wǎng)站上提供某種選項(xiàng),填寫(xiě)調(diào)查問(wèn)卷進(jìn)行獎(jiǎng)勵(lì),或者對(duì)測(cè)試軟件程序進(jìn)行遠(yuǎn)程監(jiān)測(cè)。
他指出,扔掉PII后,可以認(rèn)為,“不管怎樣,這才是你想要的?!?/p>
Callas說(shuō):“如果公交管理部門因?yàn)橄胫廊藗冊(cè)谧鍪裁炊M(jìn)行調(diào)查,那么就真得需要準(zhǔn)確的數(shù)據(jù),并且為這些數(shù)據(jù)付費(fèi)是有意義的,但是你應(yīng)該通過(guò)數(shù)據(jù)過(guò)濾機(jī)(data grinder)來(lái)運(yùn)行這些數(shù)據(jù),丟掉原始數(shù)據(jù),然后在一年內(nèi)徹底處理掉這些數(shù)據(jù)。比如,如果你想弄清楚要修哪條道路,就不需要那些剛剛修過(guò)的道路的數(shù)據(jù),特別是數(shù)據(jù)顯示你已經(jīng)修過(guò)這些道路了。剛剛修好的道路的每一條數(shù)據(jù)都是有毒的:沒(méi)有好處,只有壞處?!?/p>
對(duì)數(shù)據(jù)的保存時(shí)間也要有明確的政策,比如日志文件的保存時(shí)間不超過(guò)一周(調(diào)試除外)。Callas建議建立一些“強(qiáng)制職能”,以確保做出這些決定。“如果我說(shuō),‘你放進(jìn)我的數(shù)據(jù)倉(cāng)庫(kù)的所有東西,十年后我都會(huì)刪除,除非你告訴我你為什么要保留它,那么你就得想清楚為什么要把數(shù)據(jù)放進(jìn)數(shù)據(jù)倉(cāng)庫(kù)?!?/p>
Mary Branscombe是一位自由撰稿人,他二十多年來(lái)一直致力于技術(shù)寫(xiě)作,其寫(xiě)作主題涵蓋了從編程語(yǔ)言、Windows和Office的早期版本,到最早的網(wǎng)絡(luò)以及消費(fèi)類小工具和家庭娛樂(lè)的各個(gè)方面。
原文網(wǎng)址
https://www.cio.com/article/3405129/data-deletion-your-data-strategys-greatest-defense.html