閆宏強(qiáng),王 偉,張 婕
(中國(guó)科學(xué)院 計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190)
(中國(guó)科學(xué)院大學(xué),北京 100049)
互聯(lián)網(wǎng)標(biāo)識(shí)[1]是互聯(lián)網(wǎng)運(yùn)行和發(fā)展的重要基礎(chǔ),是在互聯(lián)網(wǎng)上,唯一識(shí)別目標(biāo)對(duì)象的編碼、符號(hào)、名字,是識(shí)別和管理物品、信息、機(jī)器的關(guān)鍵基礎(chǔ)資源.互聯(lián)網(wǎng)標(biāo)識(shí)本質(zhì)上是用真實(shí)個(gè)人信息與基礎(chǔ)資源對(duì)應(yīng)來達(dá)到標(biāo)識(shí)目的,這其中涉及的一個(gè)重要問題是個(gè)人信息保護(hù)問題.近年來,有關(guān)個(gè)人隱私數(shù)據(jù)泄露事件頻發(fā),引發(fā)社會(huì)和學(xué)術(shù)界廣泛關(guān)注.據(jù)報(bào)道,2017年11月,Google利用算法成功避開了蘋果手機(jī)的默認(rèn)隱私設(shè)置,非法收集大概540萬名用戶的歷史瀏覽數(shù)據(jù),嚴(yán)重侵犯了用戶隱私.2018年3月,全球用戶規(guī)模最大的社交應(yīng)用Facebook被曝光有超過5000萬名用戶的個(gè)人信息資料遭到泄露,被第三方公司用于大數(shù)據(jù)分析,成為間接影響總統(tǒng)大選的隱形黑手,在歐美社會(huì)產(chǎn)生巨大震動(dòng).同樣,國(guó)內(nèi)的隱私泄露問題也很嚴(yán)峻.2014年3月,攜程安全支付日歷導(dǎo)致用戶銀行卡信息泄露.2018年8月,華住集團(tuán)旗下連鎖酒店5億條用戶信息遭到泄露,泄露的信息包括用戶的注冊(cè)信息、酒店入住信息和開房記錄,這或是國(guó)內(nèi)近五年來規(guī)模最大最嚴(yán)重的一次個(gè)人信息泄露事件.
國(guó)內(nèi)外的信息泄露事件敲響了互聯(lián)網(wǎng)個(gè)人信息安全警鐘.國(guó)際社會(huì)和各國(guó)政府對(duì)隱私保護(hù)問題十分重視,已經(jīng)建立起較為完善的隱私保護(hù)制度.1980年,世界經(jīng)濟(jì)與合作發(fā)展組織(Organization for Economic Cooperation and Developmen,OECD)發(fā)布了《隱私保護(hù)和個(gè)人數(shù)據(jù)跨境流動(dòng)指南》(Guidelines on the Protection of Privacy and Transborder Flows of Personal Data)[2],提出了8條隱私保護(hù)基本原則,幾十年來已經(jīng)成為被世界各國(guó)廣泛接受的隱私保護(hù)標(biāo)準(zhǔn)[3].歐盟1995年頒布《數(shù)據(jù)保護(hù)指令(95/46/EC)》[4],指導(dǎo)歐盟成員國(guó)隱私保護(hù)立法和執(zhí)法工作.2016年,歐盟實(shí)施全面的隱私和數(shù)據(jù)保護(hù)改革,通過了直接適用于歐盟成員國(guó)的《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,GDPR)[5],重申并強(qiáng)化數(shù)據(jù)處理基本原則,強(qiáng)化了數(shù)據(jù)主體(data subjuect)權(quán)利,建立起嚴(yán)苛的企業(yè)問責(zé)制度[6].美國(guó)頒布了《聯(lián)邦隱私法案》(Privacy Act of 1974)、《金融服務(wù)現(xiàn)代化法》(the Gramm-Leach-Bliley Act of 1999)、《聯(lián)邦兒童在線隱私保護(hù)法》(Children’s Online Privacy Protection Act of 1998)等系列法律,主要以聯(lián)邦貿(mào)易委員會(huì)為主開展了一系列隱私保護(hù)執(zhí)法行動(dòng)[7].2007年美國(guó)會(huì)計(jì)師事務(wù)所(American Institute of Certified Public Accountants,AICPA)和加拿大特許會(huì)計(jì)師協(xié)會(huì)(Chartered Accountants of Canada,CICA)發(fā)布了一個(gè)全球性隱私框架—公認(rèn)隱私準(zhǔn)則(the Generally Accepted Privacy Principles,GAPP),旨在幫助特許會(huì)計(jì)師和注冊(cè)會(huì)計(jì)師創(chuàng)建有效的隱私計(jì)劃,以管理和預(yù)防隱私風(fēng)險(xiǎn)[8].2016年6月,我國(guó)頒布《中華人民共和國(guó)網(wǎng)絡(luò)安全法》[9],加強(qiáng)了對(duì)個(gè)人信息的保護(hù)力度,完善了個(gè)人信息保護(hù)基本規(guī)則.截至2018年,世界上120多個(gè)國(guó)家和地區(qū)制定了綜合性的個(gè)人信息保護(hù)的相關(guān)法律[10].
法律對(duì)于個(gè)人信息保護(hù)提出了嚴(yán)格的要求,在實(shí)踐中實(shí)施個(gè)人信息保護(hù),還需要系統(tǒng)性的個(gè)人數(shù)據(jù)隱私處理框架及合規(guī)體系,還需要對(duì)具體隱私算法進(jìn)行細(xì)化.互聯(lián)網(wǎng)標(biāo)識(shí)相關(guān)聯(lián)的個(gè)人信息也面臨著嚴(yán)峻的安全形勢(shì),主要涉及標(biāo)識(shí)注冊(cè)信息的隱私保護(hù)問題.國(guó)內(nèi)外學(xué)術(shù)界圍繞隱私保護(hù)展開的研究工作主要是針對(duì)軌跡隱私保護(hù)和隱私計(jì)算算法的實(shí)現(xiàn)和改進(jìn),缺少針對(duì)互聯(lián)網(wǎng)標(biāo)識(shí)這一應(yīng)用場(chǎng)景的隱私政策及技術(shù)方案研究,本文致力于填補(bǔ)這個(gè)研究空白.
本文結(jié)合法律分析了個(gè)人信息和隱私保護(hù)要求和相關(guān)工作的迫切需要,以最典型的互聯(lián)網(wǎng)標(biāo)識(shí)——域名為例,闡述互聯(lián)網(wǎng)標(biāo)識(shí)業(yè)務(wù)中涉及的隱私保護(hù)場(chǎng)景,借鑒國(guó)內(nèi)外隱私保護(hù)的最新研究理論,提煉出互聯(lián)網(wǎng)標(biāo)識(shí)隱私保護(hù)技術(shù)的最佳方案建議.
本文其余部分的組織結(jié)構(gòu)如下:第1節(jié)介紹了互聯(lián)網(wǎng)標(biāo)識(shí)以及典型領(lǐng)域—域名領(lǐng)域,第2節(jié)分析闡述了域名業(yè)務(wù)領(lǐng)域中涉及隱私泄露風(fēng)險(xiǎn)點(diǎn),第3節(jié)針對(duì)第2節(jié)的風(fēng)險(xiǎn)點(diǎn)、結(jié)合個(gè)人數(shù)據(jù)生命周期,提出了互聯(lián)網(wǎng)標(biāo)識(shí)隱私保護(hù)技術(shù)框架,第4節(jié)對(duì)于數(shù)據(jù)的每個(gè)生命周期中的隱私保護(hù)需求,提出了技術(shù)解決方案.第5節(jié),以隨機(jī)可逆匿名化算法進(jìn)行試驗(yàn)驗(yàn)證.第6節(jié)總結(jié)與展望.
互聯(lián)網(wǎng)標(biāo)識(shí)廣義上是指用于互聯(lián)網(wǎng)行為的所有標(biāo)志性名稱,可以包括圖像、文字、數(shù)字、聲音等幾種常見的形式.狹義上的互聯(lián)網(wǎng)標(biāo)識(shí)是指機(jī)器在網(wǎng)絡(luò)中的標(biāo)志和尋址信息,例如,MAC地址、IP地址或者域名可以作為一臺(tái)機(jī)器的互聯(lián)網(wǎng)標(biāo)識(shí).
常見的互聯(lián)網(wǎng)標(biāo)識(shí)有:域名、自治系統(tǒng)號(hào)碼、IPv4、IPv6互聯(lián)網(wǎng)地址、組播尋址、端口號(hào)碼、協(xié)議號(hào)碼、統(tǒng)一資源標(biāo)識(shí)符(URL).
在互聯(lián)網(wǎng)中,域名是最常用、最典型的標(biāo)識(shí),是互聯(lián)網(wǎng)上的“門牌號(hào)碼”,是各種互聯(lián)網(wǎng)應(yīng)用的入口.域名具有網(wǎng)絡(luò)定位和身份定位雙重作用[11],由一串點(diǎn)分隔的字符組成,用于在數(shù)據(jù)傳輸時(shí)標(biāo)識(shí)計(jì)算機(jī)的電子方位,在網(wǎng)絡(luò)應(yīng)用中起到地址和標(biāo)識(shí)作用.域名采用分層結(jié)構(gòu)的名稱空間,可以從域名映射到其他標(biāo)識(shí).
隨著互聯(lián)網(wǎng)高速發(fā)展,互聯(lián)網(wǎng)用戶在迅速增加,域名注冊(cè)服務(wù)市場(chǎng)也在飛速發(fā)展.據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)第43次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至2018年底,我國(guó)域名總數(shù)為3792.8萬個(gè),其中“.cn”域名總數(shù)為2124.3萬個(gè).面對(duì)如此龐大的域名體系,域名相關(guān)個(gè)人信息的保護(hù)成為行業(yè)重要的工作.近年來,網(wǎng)絡(luò)安全形勢(shì)日益嚴(yán)峻,相關(guān)域名惡意解析和域名糾紛事件頻發(fā).2010年1月12日,國(guó)內(nèi)最大搜索引擎百度長(zhǎng)時(shí)間無法正常訪問,經(jīng)查,原因是黑客篡改了百度域名在域名注冊(cè)服務(wù)商的注冊(cè)信息,導(dǎo)致百度域名被指向錯(cuò)誤的服務(wù)器.無獨(dú)有偶,2005年天涯社區(qū)也被人修改了域名注冊(cè)信息,將域名指向另一網(wǎng)站,一度劫持了天涯社區(qū)的訪問量.
類似事件都表明,域名注冊(cè)信息不僅是域名管理的聯(lián)系方式,也是域名持有者對(duì)該域名所有權(quán)(使用權(quán))的法律依據(jù).對(duì)域名注冊(cè)信息進(jìn)行有效保護(hù)很重要,如果注冊(cè)信息不真實(shí)、不準(zhǔn)確,一旦域名注冊(cè)信息被惡意篡改,域名持有者的隱私安全和域名財(cái)產(chǎn)安全將受到損害.而且,不法分子往往利用虛假身份信息注冊(cè)域名實(shí)施網(wǎng)絡(luò)釣魚、僵尸網(wǎng)絡(luò)控制、傳播違法信息等黑客犯罪行為,以逃避追查和打擊.國(guó)際上在域名服務(wù)推廣之初,并未嚴(yán)格要求域名注冊(cè)信息的實(shí)名制,隨著互聯(lián)網(wǎng)的普及和應(yīng)用,不實(shí)的域名注冊(cè)信息比例偏高,已經(jīng)成為困擾全球互聯(lián)網(wǎng)產(chǎn)業(yè)健康發(fā)展的重要問題.實(shí)施域名實(shí)名注冊(cè)制度是大勢(shì)所趨.
2003 年,互聯(lián)網(wǎng)名稱與數(shù)字分配機(jī)構(gòu)(the Internet Corporation for Assigned Names and Numbers,ICANN)出臺(tái)了新版的《域名注冊(cè)信息提醒政策》,規(guī)定姓名、地址、聯(lián)系方式等完整的注冊(cè)信息中,域名持有者必須確保所有信息真實(shí)、準(zhǔn)確,如果信息不真實(shí)、不準(zhǔn)確,域名會(huì)被注銷.2004年制定實(shí)施的《中國(guó)互聯(lián)網(wǎng)域名管理辦法》[12]規(guī)定,域名實(shí)名制要求用戶注冊(cè)域名時(shí),填寫真實(shí)、準(zhǔn)確、完整的注冊(cè)信息,并且要求全面實(shí)施域名實(shí)名認(rèn)證.以此保護(hù)域名注冊(cè)者的合法權(quán)益,防止域名被惡意盜取和濫用,維護(hù)域名市場(chǎng)環(huán)境,促進(jìn)網(wǎng)絡(luò)可信建設(shè).
針對(duì)《網(wǎng)絡(luò)安全法》和歐盟GDPR對(duì)個(gè)人數(shù)據(jù)(歐盟稱個(gè)人信息為個(gè)人數(shù)據(jù))提出的更嚴(yán)格的隱私保護(hù)要求,本節(jié)以域名業(yè)務(wù)為例,分析互聯(lián)網(wǎng)標(biāo)識(shí)數(shù)據(jù)在跨域跨境傳輸過程涉及的隱私披露風(fēng)險(xiǎn)點(diǎn),如圖1.
圖1 域名注冊(cè)業(yè)務(wù)流程
注冊(cè)人(registrant)選擇域名后,需要向注冊(cè)商(registrar)或其代理商提交域名注冊(cè)請(qǐng)求,同時(shí)需要提交相關(guān)注冊(cè)信息(所需域名、注冊(cè)人姓名、電話、地址等聯(lián)系信息,技術(shù)聯(lián)系人信息和管理聯(lián)系人信息,以及注冊(cè)期限).注冊(cè)商將檢查該域名是否可用,并按照注冊(cè)人提供的信息建立一個(gè)WHOIS記錄(包含注冊(cè)人、管理聯(lián)系人和技術(shù)聯(lián)系人的信息、創(chuàng)建日期、更新日期、域名服務(wù)器和域名狀態(tài)),通過可擴(kuò)展注冊(cè)協(xié)議(Extensible Provisioning Protocol,EPP)注冊(cè)服務(wù),構(gòu)建注冊(cè)庫(kù).并且向注冊(cè)局(registry)提交數(shù)據(jù),注冊(cè)局負(fù)責(zé)頂級(jí)域名的注冊(cè)管理,維護(hù)域名數(shù)據(jù)庫(kù).
為了防止注冊(cè)局和注冊(cè)商經(jīng)營(yíng)失敗或遭受到惡意網(wǎng)絡(luò)攻擊而造成注冊(cè)數(shù)據(jù)丟失或該頂級(jí)域名無法正常運(yùn)轉(zhuǎn),ICANN要求新通用頂級(jí)域名(New generic Top-Level Domain,NewgTLD)的申請(qǐng)人選擇第三方數(shù)據(jù)托管服務(wù)機(jī)構(gòu)(data escrow agent)向其提交注冊(cè)數(shù)據(jù),進(jìn)行數(shù)據(jù)托管.
ICANN在執(zhí)行新通用頂級(jí)域名計(jì)劃時(shí),推出全新商標(biāo)保護(hù)措施,滿足商標(biāo)持有人的權(quán)益保護(hù)需求,同時(shí)也避免商標(biāo)持有人到各個(gè)注冊(cè)局反復(fù)注冊(cè)商標(biāo)相關(guān)域名并提交、校驗(yàn)同樣的商標(biāo)信息.ICANN推出了全球商標(biāo)信息交換庫(kù)(Trade Mark Clearing House,TMCH),作為已驗(yàn)證的商標(biāo)集中存儲(chǔ)的商標(biāo)數(shù)據(jù)庫(kù).在進(jìn)行校驗(yàn)的過程中,注冊(cè)局或注冊(cè)商需要向TMCH提供包括注冊(cè)人信息在內(nèi)的域名注冊(cè)數(shù)據(jù).
ICANN要求注冊(cè)管理機(jī)構(gòu)每周向ICANN提供一次批量注冊(cè)數(shù)據(jù)WHOIS的訪問權(quán)限,用以隨機(jī)抽取注冊(cè)數(shù)據(jù)樣本,供ICANN以及其授權(quán)的第三方研究機(jī)構(gòu)開展關(guān)于域名注冊(cè)相關(guān)調(diào)查研究.
針對(duì)第2節(jié)中討論的域名注冊(cè)業(yè)務(wù)流程,結(jié)合數(shù)據(jù)隱私保護(hù)的生命周期,具體分析在GDPR和《網(wǎng)絡(luò)安全法》隱私保護(hù)新要求下,業(yè)務(wù)流程中的相關(guān)隱私風(fēng)險(xiǎn),同時(shí),考慮數(shù)據(jù)在產(chǎn)生、存儲(chǔ)、流通、分析挖掘的整個(gè)生命周期中,如何保護(hù)用戶隱私不被泄露、如何保證數(shù)據(jù)的可用性.域名注冊(cè)數(shù)據(jù)隱私保護(hù)生命周期模型如圖2所示.
(1)數(shù)據(jù)發(fā)布
數(shù)據(jù)發(fā)布者即采集數(shù)據(jù)和發(fā)布數(shù)據(jù)的實(shí)體,包括域名注冊(cè)局、注冊(cè)商,負(fù)責(zé)采集相關(guān)域名注冊(cè)數(shù)據(jù).ICANN實(shí)施WHOIS政策,域名WHOIS資料的收集、展示,以及ICANN方都可能產(chǎn)生隱私泄露.因此域名注冊(cè)局、域名注冊(cè)商、注冊(cè)人在提供WHOIS信息、使用WHOIS信息上要注重隱私保護(hù).如何在數(shù)據(jù)發(fā)布時(shí)不泄露用戶隱私內(nèi)容,同時(shí)還能保證數(shù)據(jù)的可用性,是這一階段的研究重點(diǎn).
針對(duì)數(shù)據(jù)的匿名發(fā)布技術(shù),包括K-匿名,L-多樣性,T-接近性匿名等模型,可以實(shí)現(xiàn)對(duì)數(shù)據(jù)發(fā)布時(shí)的隱私保護(hù).
(2)數(shù)據(jù)存儲(chǔ)
數(shù)據(jù)存儲(chǔ)方面隱私風(fēng)險(xiǎn)主要指在存儲(chǔ)平臺(tái)中,數(shù)據(jù)被不可信的第三方偷窺或篡改的風(fēng)險(xiǎn).在域名業(yè)務(wù)流程中,在注冊(cè)局、注冊(cè)商、ICANN等域名管理部門以及數(shù)據(jù)托管商和TMCH,內(nèi)部存儲(chǔ)如何保證,用戶存儲(chǔ)在系統(tǒng)中的高隱私等級(jí)數(shù)據(jù)不被竊取或篡改,是數(shù)據(jù)存儲(chǔ)階段隱私保護(hù)的重點(diǎn).密碼技術(shù)方法是解決該方法的關(guān)鍵.
(3)分析挖掘
數(shù)據(jù)挖掘者試圖從獲取的數(shù)據(jù)中挖掘盡可能多的有價(jià)值信息,但這可能會(huì)泄露用戶的隱私信息.經(jīng)簡(jiǎn)單匿名技術(shù)處理的信息,經(jīng)過數(shù)據(jù)關(guān)聯(lián)分析、聚類、分類等挖掘后,仍可能分析出用戶的隱私信息.如在域名業(yè)務(wù)場(chǎng)景中,ICANN或其他域名服務(wù)機(jī)構(gòu),會(huì)委托第三方調(diào)研公司,開展域名相關(guān)調(diào)查研究.如何保證數(shù)據(jù)的可用性、足夠研究機(jī)構(gòu)進(jìn)行調(diào)查研究,又同時(shí)防范數(shù)據(jù)挖掘方法引起的隱私泄露,是分析發(fā)掘階段的主要隱私風(fēng)險(xiǎn)點(diǎn).
抑制技術(shù)、假名化技術(shù)、泛化技術(shù)、隨機(jī)化技術(shù)等傳統(tǒng)技術(shù)可以解決這一階段的問題.
同時(shí),基于統(tǒng)計(jì)基礎(chǔ)的嚴(yán)格和可證明的差分隱私模型,可以向第三方機(jī)構(gòu)提供查詢數(shù)據(jù)庫(kù),保證隱私數(shù)據(jù)挖掘和隱私查詢.
(4)數(shù)據(jù)使用
數(shù)據(jù)使用者是訪問和使用域名數(shù)據(jù)從數(shù)據(jù)中挖掘出信息的用戶,通常是企業(yè)和個(gè)人,如何確保數(shù)據(jù)及屬性在合適的時(shí)間和地點(diǎn),給合適的用戶訪問和利用,是數(shù)據(jù)使用階段面臨的主要風(fēng)險(xiǎn).角色控制、訪問控制等,是這一階段的主要解決方案.
圖2 域名注冊(cè)數(shù)據(jù)隱私保護(hù)生命周期模型
注冊(cè)局、注冊(cè)商對(duì)收集到的域名用戶注冊(cè)數(shù)據(jù)進(jìn)行公開發(fā)布時(shí),這些注冊(cè)數(shù)據(jù)通常包含注冊(cè)人的個(gè)人信息,注冊(cè)局、注冊(cè)商需要在發(fā)布之前對(duì)數(shù)據(jù)進(jìn)行處理,防止不必要的用戶個(gè)人信息泄露.同時(shí),考慮用戶數(shù)據(jù)被惡意第三方獲取的極端情況,希望攻擊者無法從數(shù)據(jù)中識(shí)別出注冊(cè)人確切個(gè)體數(shù)據(jù)信息,匿名技術(shù)是實(shí)現(xiàn)上述目的的方法之一.本節(jié)重點(diǎn)介紹傳統(tǒng)的匿名操作—泛化、典型的匿名隱私保護(hù)模型—K-匿名模型,以及K-匿名的擴(kuò)展改進(jìn)模型.
(1)泛化技術(shù)
泛化技術(shù)[13]是一種能夠保護(hù)記錄級(jí)數(shù)據(jù)的真實(shí)性,同時(shí)降低數(shù)據(jù)集中所選屬性粒度的匿名技術(shù),基本思想是用粗粒度的值代替原始細(xì)粒度的屬性值,從而減少屬性的唯一值,增加了推測(cè)出數(shù)據(jù)主體的難度.泛化技術(shù)依據(jù)泛化層次樹進(jìn)行泛化,主要包括域泛化和值泛化兩種方式,如圖3所示.
圖3 域泛化和值泛化
(2)K-匿名模型
傳統(tǒng)的匿名方法僅僅在數(shù)據(jù)表中泛化或者刪除有關(guān)數(shù)據(jù)主體身份屬性,但這會(huì)遭到鏈?zhǔn)焦鬧14],攻擊者可以通過其他包含數(shù)據(jù)個(gè)體標(biāo)識(shí)符的數(shù)據(jù)集,重新建立用戶標(biāo)識(shí)符與數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,推理得出隱私數(shù)據(jù),從而造成隱私泄露.為了解決鏈?zhǔn)焦魡栴},1998年Samarati P 和 Sweeney L提出了K-匿名模型[15],該模型要求發(fā)布的數(shù)據(jù)中,指定標(biāo)識(shí)符屬性值相同的每一等價(jià)類至少包含K個(gè)記錄,使攻擊者不能識(shí)別出數(shù)據(jù)主體的具體信息,從而降低鏈?zhǔn)焦羲鶎?dǎo)致的隱私泄露風(fēng)險(xiǎn).一般K值越大,隱私保護(hù)強(qiáng)度越大,但信息損失也越大.
該模型可以保證攻擊者無法確切指定某個(gè)數(shù)據(jù)主體是否在公開的數(shù)據(jù)庫(kù)中;給定一個(gè)數(shù)據(jù)主體,攻擊者無法確定其是否含有某項(xiàng)敏感屬性;同時(shí)也無法將某條數(shù)據(jù)記錄對(duì)應(yīng)到具體數(shù)據(jù)個(gè)體.
但是在實(shí)際應(yīng)用中,由于攻擊者的背景不同,攻擊手段也多種多樣,K-匿名模型仍會(huì)遭到同質(zhì)攻擊(homogeneity attack)和背景知識(shí)攻擊(background knowledge attack),不能解決所有隱私泄露問題.
(3)K-匿名改進(jìn)模型
針對(duì)K-匿名模型的缺陷,為了更好地保護(hù)數(shù)據(jù)表中的敏感信息,Machanavajjhala和Gehrke等人提出了L-多樣性模型(L-diversity)[16],該模型要求每一個(gè)等價(jià)類在每一個(gè)敏感屬性上至少包含L個(gè)不同值,使得攻擊者最多以1/L的概率確認(rèn)每個(gè)個(gè)體的敏感信息.T-接近性(T-closeness)[17]模型在L-多樣性模型的基礎(chǔ)上,考慮了敏感屬性的分布問題,要求所有等價(jià)類中敏感屬性值的分布盡可能接近原始數(shù)據(jù)集的數(shù)據(jù)分布.為了防止概率性推導(dǎo),要求任何定價(jià)類中的敏感屬性的分布于整個(gè)數(shù)據(jù)集中相應(yīng)屬性的分布之間的距離小于閾值T.
數(shù)據(jù)存儲(chǔ)隱私保護(hù)是指在數(shù)據(jù)層層面的個(gè)人信息安全.通信中可以使用SSL協(xié)議保證數(shù)據(jù)傳輸?shù)陌踩?因此,數(shù)據(jù)層的數(shù)據(jù)保護(hù)主要是針對(duì)數(shù)據(jù)存儲(chǔ)和管理的保護(hù),保證數(shù)據(jù)的機(jī)密性和完整性,加密技術(shù)是解決這一問題的關(guān)鍵.
同態(tài)加密[18]是指對(duì)密文進(jìn)行處理得到的結(jié)果仍然是加密的結(jié)果,即對(duì)密文進(jìn)行直接處理,與對(duì)明文進(jìn)行處理后再對(duì)處理結(jié)果加密,得到的結(jié)果相同.從抽象代數(shù)的角度講,保持了同態(tài)性.文獻(xiàn)[19,20]利用同態(tài)加密技術(shù)分別提出了key-value隱私存儲(chǔ)方式以及多級(jí)索引技術(shù),能夠保證數(shù)據(jù)擁有者和存儲(chǔ)平臺(tái)都不能在用戶的節(jié)點(diǎn)檢索過程中識(shí)別出節(jié)點(diǎn).
保留格式加密[21]可以實(shí)現(xiàn)明文和密文的格式相同,有助于增強(qiáng)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的安全性,但是對(duì)于數(shù)據(jù)庫(kù)敏感數(shù)據(jù)的保留格式加密,需要保證密文滿足數(shù)據(jù)庫(kù)對(duì)于格式的約束.
安全多方計(jì)算[22]是另外一種數(shù)據(jù)加密技術(shù),其核心操作在分布式環(huán)境下基于多方參與者提供的數(shù)據(jù)計(jì)算出相應(yīng)的函數(shù)值,并確保除了參與者的輸入及輸出信息外,不會(huì)額外暴露參與者的任何信息.
隨著技術(shù)的進(jìn)步,數(shù)據(jù)挖掘可以從大量域名注冊(cè)數(shù)據(jù)中挖掘出有價(jià)值的信息,但也伴隨著隱私泄露的風(fēng)險(xiǎn),這一課題已經(jīng)成為研究界的研究熱點(diǎn).隱私保護(hù)數(shù)據(jù)挖掘,即在保護(hù)隱私的前提下進(jìn)行數(shù)據(jù)挖掘.主要有兩個(gè)研究方向:
(1)對(duì)原始數(shù)據(jù)及進(jìn)行必要的修改,使得數(shù)據(jù)接收者不能侵犯他人隱私.
(2)對(duì)數(shù)據(jù)分析查詢、挖掘算法進(jìn)行研究,研究如何在挖掘過程中進(jìn)行隱私保護(hù).
針對(duì)第一個(gè)研究方向,方法眾多,主要有抑制技術(shù)、假名化技術(shù)、隨機(jī)化等典型代表技術(shù).針對(duì)第二個(gè)研究方向,基于統(tǒng)計(jì)基礎(chǔ)的嚴(yán)格可證明的差分隱私模型[23],能夠?qū)崿F(xiàn)隱私查詢,可以確保在數(shù)據(jù)集中刪除或插入一條記錄,對(duì)計(jì)算結(jié)果的影響非常小,即使攻擊者具有所有背景知識(shí),仍然無法獲知某條個(gè)人記錄.
數(shù)據(jù)使用者是訪問和使用數(shù)據(jù)從數(shù)據(jù)中挖掘出信息的用戶,通常是企業(yè)和個(gè)人,如何確保數(shù)據(jù)及屬性在合適的時(shí)間和地點(diǎn),被合適的用戶訪問和利用,是數(shù)據(jù)使用階段面臨的主要風(fēng)險(xiǎn).角色控制、訪問控制等,是這一階段的主要解決方案.
在基于角色的訪問控制(Role-Based Access Control,RBAC)[24]中,不同角色的訪問控制權(quán)不同.通過為用戶分配角色,可實(shí)現(xiàn)在對(duì)數(shù)據(jù)的訪問權(quán)限控制.因此,在基于角色的訪問控制中,角色挖掘是前提.通常,角色根據(jù)職權(quán)、責(zé)任、工作能力而定.
RBAC模型中引入了角色(role)的概念,目的是為了隔離動(dòng)作主體(user)和權(quán)限,當(dāng)一個(gè)角色被指定給了一個(gè)用戶時(shí),該用戶就擁有了該角色所包含的權(quán)限.RBAC基本模型(RBAC0)包含了RBAC標(biāo)準(zhǔn)最基本的內(nèi)容,如圖4所示.
圖4 RBAC模型核心
基于屬性的訪問控制(Attribute-Based Access Control,ABAC)[25]通過將各類屬性,包括用戶屬性、資源屬性、環(huán)境屬性等組合起來用于用戶訪問權(quán)限的設(shè)定.RBAC模型以用戶為中心,而沒有將額外的資源信息,如用戶和資源之間的關(guān)系、資源隨時(shí)間的動(dòng)態(tài)變化、用戶對(duì)資源的請(qǐng)求動(dòng)作(如刪除、編輯等)以及環(huán)境的上下文信息進(jìn)行綜合考慮.而ABAC模型通過對(duì)全方位屬性的考慮,可以實(shí)現(xiàn)更加細(xì)粒度的訪問控制.ABAC框架示意圖如圖5所示.
圖5 ABAC框架示意圖
本節(jié)以數(shù)據(jù)發(fā)布階段的隱私保護(hù)方案做為實(shí)驗(yàn)驗(yàn)證,針對(duì)“.cn”域名注冊(cè)數(shù)據(jù)中數(shù)值文本數(shù)據(jù),提出具體的方案流程,如圖6所示,并對(duì)于可用性和隱私性進(jìn)行對(duì)比分析.
圖6 數(shù)值文本隱私保護(hù)方案流程
首先對(duì)數(shù)據(jù)需要進(jìn)行預(yù)處理,按需求對(duì)部分屬性進(jìn)行泛化、刪除缺省數(shù)據(jù)、非法值.
然后計(jì)算屬性的概率分布,部分屬性統(tǒng)計(jì)表1所示,用于匿名化算法的實(shí)現(xiàn),以及后續(xù)對(duì)比實(shí)驗(yàn).
表1 原始表屬性概率分布統(tǒng)計(jì)
采用匿名化算法對(duì)數(shù)據(jù)表進(jìn)行匿名處理,可以采用K-匿名、L-多樣性算法以及其改進(jìn)算法.
最后對(duì)于匿名化算法的隱私保護(hù)性能和可用性進(jìn)行分析.本文結(jié)合“.cn”域名注冊(cè)數(shù)據(jù),實(shí)現(xiàn)了一種隨機(jī)可逆匿名化算法,依據(jù)原始屬性值概率分布,隨機(jī)替換需要匿名化的對(duì)象值,具體算法如下:
算法.隨機(jī)可逆匿名算法1.輸入:原始數(shù)據(jù)集D,準(zhǔn)標(biāo)識(shí)符屬性集合Q,準(zhǔn)標(biāo)識(shí)符屬性被選概率images/BZ_29_251_700_368_734.png,n為準(zhǔn)標(biāo)識(shí)符屬性個(gè)數(shù)2.輸出:隨機(jī)匿名后的數(shù)據(jù)集D'.3.begin 4.k=|D|5.6.for i=1 to n do 7.beginimages/BZ_29_251_920_351_954.png
8.Disti=Qi的概率分布9.end 10.for j=1 to k do 11.begin 12.對(duì)于記錄j,以概率pu隨機(jī)從準(zhǔn)標(biāo)識(shí)符屬性集合中選取一個(gè)屬性Qu 13.根據(jù)概率分布Distu,隨機(jī)生成一個(gè)新的值14.用新值替換原屬性值記錄替換關(guān)聯(lián),以備可逆還原13.end 14.end
數(shù)據(jù)原始表和匿名后的數(shù)據(jù)表如表2、表3所示.
表2 預(yù)處理后的數(shù)據(jù)原始表
表3 匿名化后的數(shù)據(jù)表
采用隱私保護(hù)評(píng)價(jià)的重要指標(biāo)——數(shù)據(jù)查詢準(zhǔn)確率作為評(píng)價(jià)指標(biāo),以相對(duì)誤差進(jìn)行橫向?qū)Ρ?采用Aprioi方法進(jìn)行關(guān)聯(lián)恢復(fù),驗(yàn)證匿名數(shù)據(jù)可用性.
查詢方式為模糊查詢:
其中,*p(a)代表a在準(zhǔn)標(biāo)識(shí)符敏感屬性分組中出現(xiàn)的次數(shù),V(Qi)代表該準(zhǔn)標(biāo)識(shí)符屬性可能的取值.
相對(duì)誤差準(zhǔn)確率計(jì)算方式為:
實(shí)驗(yàn)結(jié)果圖7表明,采用隨機(jī)可逆匿名化算法的數(shù)據(jù)查詢準(zhǔn)確率相對(duì)誤差遠(yuǎn)低于其他算法,證明數(shù)據(jù)匿名性較好.圖8表明,大部分準(zhǔn)敏感關(guān)聯(lián)規(guī)則得到了保留,而其他3種方法的關(guān)聯(lián)大部分被丟失,說明采用隨機(jī)可逆匿名化算法的匿名后的數(shù)據(jù)可用性較好.
圖7 數(shù)據(jù)查詢準(zhǔn)確率
圖8 關(guān)聯(lián)恢復(fù)比例
歐盟GDPR和國(guó)內(nèi)網(wǎng)安法對(duì)個(gè)人信息和隱私安全保護(hù)提出了更嚴(yán)格的要求.針對(duì)互聯(lián)網(wǎng)標(biāo)識(shí)中涉及的隱私數(shù)據(jù)泄露的問題,本文以最典型的互聯(lián)網(wǎng)標(biāo)識(shí)——域名為例進(jìn)行深入討論.首先分析域名業(yè)務(wù)流程中涉及隱私泄露的風(fēng)險(xiǎn)點(diǎn),針對(duì)隱私泄露風(fēng)險(xiǎn)點(diǎn),結(jié)合個(gè)人數(shù)據(jù)生命周期,提出了互聯(lián)網(wǎng)標(biāo)識(shí)隱私保護(hù)框架.本文以域名業(yè)務(wù)場(chǎng)景為例,但是問題的分析思路、隱私保護(hù)框架以及技術(shù)解決方案具有普適性,仍適用于其他互聯(lián)網(wǎng)標(biāo)識(shí)的隱私保護(hù)分析.
隱私保護(hù)是目前信息安全領(lǐng)域的研究熱點(diǎn)之一,也取得了豐富的研究成果.近2年來,隨著各國(guó)加強(qiáng)立法,注重隱私保護(hù),其技術(shù)研究也出現(xiàn)了新的深度.但是從實(shí)際應(yīng)用角度來看,還有很多內(nèi)容需要深入研究,本文從立法和技術(shù)以及行業(yè)流程的不同角度回答了互聯(lián)網(wǎng)標(biāo)識(shí)隱私保護(hù)所面臨的一些挑戰(zhàn)的解決方案,希望能夠給后續(xù)的研究提供一些參考.