陳涵
【摘要】本文重點(diǎn)研究基于數(shù)據(jù)挖掘的隱私安全保護(hù)問題。通過實(shí)際案例分析,建立了不受信任的數(shù)據(jù)合作商濫用數(shù)據(jù)訪問權(quán)限、匿名共享數(shù)據(jù)被重新識(shí)別、數(shù)據(jù)公司內(nèi)部濫用數(shù)據(jù)挖掘三個(gè)方面的隱私保護(hù)威脅模型場(chǎng)景。文章針對(duì)這些威脅場(chǎng)景從技術(shù)、法律、政府、數(shù)據(jù)商、用戶五個(gè)角度論述了相應(yīng)的隱私安全保護(hù)對(duì)策與建議,旨在引起社會(huì)對(duì)于數(shù)據(jù)挖掘隱私保護(hù)問題的重視和防范。
【關(guān)鍵詞】數(shù)據(jù)挖掘;隱私保護(hù)
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索潛在有用信息的過程。如今該技術(shù)已經(jīng)在經(jīng)濟(jì)、金融、科技、人文等領(lǐng)域廣泛應(yīng)用,一方面能夠促進(jìn)社會(huì)的發(fā)展和進(jìn)步,給人類生活帶來(lái)極大便利,另一方面,如果使用不當(dāng),也會(huì)對(duì)用戶的隱私信息安全帶來(lái)挑戰(zhàn)和威脅。因此,如何鑒別數(shù)據(jù)挖掘中的隱私安全威脅并針對(duì)其進(jìn)行防范具有一定的研究意義。
1. 威脅模型與案例
1.1 不受信任的數(shù)據(jù)合作商濫用訪問權(quán)限推斷信息
如果數(shù)據(jù)擁有者外包了數(shù)據(jù)分析,一個(gè)不受信任的合作伙伴有可能濫用他們對(duì)數(shù)據(jù)的訪問權(quán)限來(lái)推斷用戶的私人信息,利用數(shù)據(jù)挖掘制定相應(yīng)的商業(yè)、政治策略,謀取不當(dāng)利益,不僅會(huì)泄露用戶隱私信息,侵犯?jìng)€(gè)人隱私和名譽(yù),還有可能影響經(jīng)濟(jì)發(fā)展和政治走向。(見圖1)
例如某組織利用大數(shù)據(jù)分析預(yù)測(cè)個(gè)人犯罪的概率,可能直接侵犯了個(gè)人名譽(yù)權(quán)。某公司招聘工作人員,可以和醫(yī)生同謀,在醫(yī)生的幫助下訪問醫(yī)療記錄,挑選出具有糖尿病或嚴(yán)重心臟病的人,以此來(lái)決定是否錄用,從而削減日后有可能產(chǎn)生的保險(xiǎn)支出。
1.2 匿名共享數(shù)據(jù)被重新識(shí)別出個(gè)人隱私敏感信息
一些數(shù)據(jù)存儲(chǔ)方出于學(xué)術(shù)、經(jīng)濟(jì)研究等目的在共享數(shù)據(jù)時(shí),考慮到大數(shù)據(jù)的隱私保護(hù)問題,會(huì)對(duì)數(shù)據(jù)進(jìn)行匿名化處理,將名稱、地址等敏感信息用數(shù)字、字母等代替,以防身份等隱私泄露。但是,在這樣一個(gè)“萬(wàn)物互聯(lián)”、“云計(jì)算”、“大數(shù)據(jù)挖掘”的時(shí)代,即使是匿名數(shù)據(jù),也能夠通過多來(lái)源的渠道信息“人肉搜索”出個(gè)人隱私的敏感信息。可見,數(shù)據(jù)挖掘能夠把看似不涉及個(gè)人隱私的數(shù)據(jù)信息關(guān)聯(lián)起來(lái),分析并重新識(shí)別出核心隱私信息,導(dǎo)致匿名的無(wú)效性。(見圖2)
美國(guó)在線(AOL)是美國(guó)最大的互聯(lián)網(wǎng)提供商之一,致力于互聯(lián)網(wǎng)服務(wù)工作。2006年8月,AOL公布了由65.7萬(wàn)用戶的2000萬(wàn)記錄組成的舊搜索查詢數(shù)據(jù),本意是希望研究人員能夠從中得出有趣的見解。數(shù)據(jù)庫(kù)從防止隱私泄露的角度進(jìn)行了精心的匿名化,用特殊數(shù)字符號(hào)代替用戶名稱和地址等個(gè)人信息。盡管如此,《紐約時(shí)報(bào)》通過“60歲的單身”、“利爾本的園丁”、“有益健康的茶葉”等關(guān)聯(lián)信息,在幾天之內(nèi)通過大數(shù)據(jù)分析判斷出數(shù)據(jù)庫(kù)中的4417749號(hào)代表的是佐治亞州利爾本的一個(gè)62歲寡婦塞爾瑪·阿諾德(Thelma Arnold)。最終美國(guó)在線因隱私泄露事件遭到了起訴,AOL的首席技術(shù)官和兩名員工被開除,賠償金額高達(dá)五百萬(wàn)美元。
1.3 大數(shù)據(jù)存儲(chǔ)公司內(nèi)部濫用數(shù)據(jù)挖掘侵犯隱私權(quán)
大數(shù)據(jù)存儲(chǔ)公司常出于商業(yè)目的對(duì)購(gòu)物喜好、就診病例、消費(fèi)記錄等進(jìn)行數(shù)據(jù)挖掘,雖會(huì)對(duì)商業(yè)決策和政府決策起到積極作用,但若內(nèi)部人員濫用數(shù)據(jù)挖掘,對(duì)消費(fèi)群體進(jìn)行精準(zhǔn)畫像,實(shí)施差別對(duì)待的營(yíng)銷策略,不但會(huì)對(duì)個(gè)人隱私帶來(lái)威脅和挑戰(zhàn)、侵犯消費(fèi)者的合法權(quán)益,也會(huì)觸及倫理上的歧視偏見問題,俗稱“危險(xiǎn)的懂你”。(見圖3)
例如網(wǎng)站在推送求職廣告時(shí)所產(chǎn)生的歧視行為,2015年,卡耐基梅隆大學(xué)利用AdFisher工具追蹤了第三方網(wǎng)站定向投放的求職廣告,研究發(fā)現(xiàn),谷歌為男性求職者投放高薪主管職位廣告的概率遠(yuǎn)大于同等條件的女性求職者。與此情況相似,相親交友軟件也會(huì)濫用數(shù)據(jù)挖掘?qū)τ脩暨M(jìn)行“等級(jí)劃分”。Tinder Plus是美國(guó)推出的一款付費(fèi)版的約會(huì)應(yīng)用,其差異化定價(jià)行為曾飽受爭(zhēng)議,美國(guó)地區(qū)的用戶,18歲到29歲的會(huì)員僅需支付9.99美元,但30歲以上的用戶會(huì)員費(fèi)就提升至19.99美元,而英國(guó)地區(qū)的用戶,18歲到27歲的會(huì)員僅需支付3.99英鎊,但28歲以上的用戶會(huì)員費(fèi)就提升至14.99英鎊。
一些公司在定價(jià)時(shí),會(huì)利用大數(shù)據(jù)分析技術(shù)根據(jù)不同類型的用戶量身定做相應(yīng)的定價(jià)策略,俗稱大數(shù)據(jù)“殺熟”。2000年,某亞馬遜用戶在刪除了瀏覽器的cookies后,其曾經(jīng)關(guān)注過的DVD商品售價(jià)從26.24美元降到了22.74美元。某些旅行網(wǎng)站相同的房型會(huì)根據(jù)顧客消費(fèi)能力設(shè)置不同的價(jià)格,某電信公司也會(huì)根據(jù)顧客話費(fèi)流量情況設(shè)置不同價(jià)格的最低消費(fèi)套餐……
2. 保護(hù)對(duì)策與建議
2.1 隱私保護(hù)技術(shù)
數(shù)據(jù)獲取時(shí)為保證數(shù)據(jù)真實(shí)性、完整性、機(jī)密性,可采用SSL VPN、SFTP等傳輸安全協(xié)議,利用安全多方計(jì)算加密技術(shù),通過互不信任的多方參與計(jì)算使數(shù)據(jù)挖掘者無(wú)法獲取全面、準(zhǔn)確的信息;數(shù)據(jù)儲(chǔ)存時(shí)為保障數(shù)據(jù)不被第三方竊取或篡改,可采用同態(tài)加密和代理重加密等加密技術(shù)、反攻擊反泄露技術(shù)、訪問權(quán)限控制等;數(shù)據(jù)發(fā)布時(shí)為隱藏用戶身份和敏感數(shù)據(jù),可采用數(shù)據(jù)失真、限制發(fā)布、加密傳輸、脫敏、反探測(cè)反截獲等技術(shù);數(shù)據(jù)使用時(shí)為確保數(shù)據(jù)被授權(quán)用戶合法訪問,可使用隱私使用解密、匿名化處理、差分隱私技術(shù),可采用基于角色的訪問控制、基于屬性的訪問控制等技術(shù),實(shí)現(xiàn)靈活、動(dòng)態(tài)的細(xì)粒度訪問控制。
2.2 法律規(guī)章制度
建立健全法律體系和監(jiān)督機(jī)制,制定權(quán)責(zé)清晰、細(xì)致明確的個(gè)人隱私保護(hù)法律,出臺(tái)與大數(shù)據(jù)挖掘技術(shù)配套的法案和司法解釋,例如引入數(shù)據(jù)被遺忘權(quán)等。明確數(shù)據(jù)挖掘、共享和交易過程中的紅線,對(duì)違規(guī)違法行為制定相應(yīng)的處罰措施,嚴(yán)厲打擊各種侵犯隱私的犯罪活動(dòng),加大違規(guī)成本,使數(shù)據(jù)盈利企業(yè)不敢濫用數(shù)據(jù)挖掘。制定大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)和運(yùn)營(yíng)標(biāo)準(zhǔn),限制企業(yè)收集個(gè)人數(shù)據(jù)的維度數(shù)量,例如搜集姓名、地區(qū)、年齡、電話等信息維度不得超過5個(gè)。
2.3 政府相關(guān)部門
市場(chǎng)監(jiān)管部門應(yīng)加強(qiáng)互聯(lián)網(wǎng)消費(fèi)市場(chǎng)的監(jiān)管力度,了解網(wǎng)絡(luò)經(jīng)濟(jì)運(yùn)行模式,出臺(tái)相應(yīng)的規(guī)范條例和處罰措施,暢通消費(fèi)者投訴渠道,保障用戶的公平交易權(quán)、知情權(quán)和選擇權(quán)。加強(qiáng)個(gè)人信息保護(hù)安全教育,定期開展宣傳活動(dòng),向公眾宣傳基于數(shù)據(jù)挖掘的隱私保護(hù)常識(shí)。行業(yè)協(xié)會(huì)應(yīng)充分發(fā)揮監(jiān)管作用,對(duì)于大數(shù)據(jù)業(yè)務(wù)機(jī)構(gòu)的資格設(shè)立準(zhǔn)入標(biāo)準(zhǔn),建立數(shù)據(jù)挖掘不正當(dāng)行為的負(fù)面清單,定期對(duì)大數(shù)據(jù)企業(yè)進(jìn)行審查,一旦發(fā)現(xiàn)違法違規(guī)行為,列入黑名單,屏蔽網(wǎng)站平臺(tái)。
2.4 數(shù)據(jù)盈利企業(yè)
大數(shù)據(jù)儲(chǔ)存公司內(nèi)部應(yīng)通過技術(shù)手段、行為準(zhǔn)則設(shè)置、教育培訓(xùn)等,建立數(shù)據(jù)合理利用與保護(hù)隱私的系統(tǒng)安全管理體系制度。數(shù)據(jù)企業(yè)應(yīng)搭建合法的數(shù)據(jù)處理網(wǎng)絡(luò)技術(shù)平臺(tái),在合理合法的基礎(chǔ)上利用用戶信息,知曉數(shù)據(jù)挖掘的紅線,防止內(nèi)部人員濫用訪問級(jí)別,在數(shù)據(jù)收集、整理、分析時(shí)應(yīng)充分履行告知義務(wù),主動(dòng)簽署隱私協(xié)議,征得數(shù)據(jù)來(lái)源用戶的同意并授權(quán)。企業(yè)有義務(wù)保護(hù)用戶隱私,避免數(shù)據(jù)泄露,主動(dòng)防止用戶數(shù)據(jù)被數(shù)據(jù)交易市場(chǎng)非法利用,在制定營(yíng)銷策略時(shí)要注意保護(hù)消費(fèi)者的合法權(quán)益,不能僅為追求利益的最大化實(shí)行差異化定價(jià),觸及歧視偏見問題,否則得不償失。此外,應(yīng)定期對(duì)數(shù)據(jù)處理技術(shù)人員進(jìn)行專業(yè)培訓(xùn),樹立良好的職業(yè)道德觀。
2.5 數(shù)據(jù)來(lái)源用戶
數(shù)據(jù)來(lái)源用戶應(yīng)加強(qiáng)個(gè)人隱私信息保護(hù)意識(shí)和風(fēng)險(xiǎn)意識(shí),養(yǎng)成良好的上網(wǎng)習(xí)慣,不隨意在網(wǎng)絡(luò)上共享個(gè)人信息,注冊(cè)時(shí)減少個(gè)人信息的暴露,不輕易在軟件中進(jìn)行用戶信息授權(quán)。當(dāng)發(fā)現(xiàn)個(gè)人信息被泄露或非法利用時(shí)應(yīng)善于利用法律武器及時(shí)維權(quán),知曉個(gè)人具有數(shù)據(jù)行為是否被企業(yè)保存和利用的知情權(quán)、處置權(quán)和否決權(quán),享有要求停止侵害、經(jīng)濟(jì)賠償和精神損害賠償?shù)恼?qǐng)求權(quán)。
3. 結(jié)語(yǔ)
數(shù)據(jù)挖掘在訪問權(quán)限、匿名共享、挖掘深度幾個(gè)方面存在隱私安全威脅,是一把“雙刃劍”,不但能挖掘?qū)毑?,使用不?dāng)也有可能成為隱私安全“地雷”的導(dǎo)火索。公眾應(yīng)加強(qiáng)數(shù)據(jù)隱私自我保護(hù),大數(shù)據(jù)開發(fā)商應(yīng)謹(jǐn)慎合法利用數(shù)據(jù)挖掘,政府有關(guān)部門應(yīng)加強(qiáng)監(jiān)管,有效規(guī)范市場(chǎng)秩序,筑牢用戶隱私權(quán)益保護(hù)防火墻。
參考文獻(xiàn):
[1]薛孚,陳紅兵.大數(shù)據(jù)隱私倫理問題探究[J].自然辯證法研究.2015,31(02):44-48
[2]謝舒婷.保護(hù)隱私的數(shù)據(jù)挖掘研究[D].西安:陜西師范大學(xué),2012
[3]維克托·邁克爾·舍恩伯格,肯尼斯·庫(kù)克耶.大數(shù)據(jù)時(shí)代[M].浙江:浙江人民出版社,2013:198-199
[4]最極客,東方亦落.大數(shù)據(jù)帶來(lái)的隱私泄露和歧視問題漸顯,數(shù)據(jù)發(fā)展正面臨轉(zhuǎn)折點(diǎn)[EB/OL]. https ://www.tmtpost.com/1656654. html , 2016.3/2019.6
[5]林智嵐.大數(shù)據(jù)時(shí)代,消費(fèi)再無(wú)隱私[N].福建日?qǐng)?bào),2018.6.1(11)
[6]李慧,呂欣.信息傳播下的個(gè)人數(shù)據(jù)隱私保護(hù)架構(gòu)研究[J]信息安全研究,2016,10(10):896-902
[7]王帥,金華敏,沈軍,汪來(lái)富.大數(shù)據(jù)應(yīng)用安全方案及對(duì)策研究[J].廣東通信技術(shù),2017,37(8):2-5
[8]李雨明,聶圣歌,西楠.大數(shù)據(jù)隱私侵權(quán)界定及其應(yīng)對(duì)策略研究[J].圖書館工作與研究,2017(S1):5-10