劉悅
(新疆大學 新疆維吾爾自治區(qū)烏魯木齊市 830000)
在大數(shù)據(jù)時代下,全球數(shù)據(jù)呈指數(shù)級增長,數(shù)據(jù)價值急速劇增,與國民經濟、社會公共安全、個人合法權益等之間的關系日趨緊密。與此同時,隨著互聯(lián)網技術的快速發(fā)展,個人數(shù)據(jù)也更容易地被獲取與廣泛地傳播,侵犯個人隱私數(shù)據(jù)的重大安全事件也層出不窮,數(shù)據(jù)隱私保護問題日趨嚴重。如何在保證數(shù)據(jù)的高效可用性的前提下,進行數(shù)據(jù)隱私保護,成為當前國內外研究人員研究的熱點課題。
根據(jù)現(xiàn)有文獻,本文將從當前主流的兩種隱私保護方法入手:以安全多方計算、同態(tài)加密為主的基于加密的隱私保護方法和以差分隱私為主的基于擾動的隱私保護方法,在兩種基礎的隱私保護方法上結合關鍵熱點技術聯(lián)邦學習技術、聚類分析技術、區(qū)塊鏈技術,研究數(shù)據(jù)隱私保護的關鍵技術,分析當前現(xiàn)有技術存在的問題,并提出技術的研究方向與研究建議。
隱私保護[1]是指使個人或集體不想被他人知道的信息數(shù)據(jù)資源得到保護。與隱私保護概念相關的是信息安全與數(shù)據(jù)安全,但信息安全與數(shù)據(jù)安全應用范圍更廣,關注數(shù)據(jù)的完整性、機密性、真實性、不可否認性以及平臺的安全性、可用性,而隱私保護一般聚焦于數(shù)據(jù)的匿名性。故研究隱私保護方法的性能,我們可以在隱私性、數(shù)據(jù)準確性和能力消耗等幾個方面進行研究評估。
目前,我們正處在一個數(shù)據(jù)廣泛多樣和高速流通的大數(shù)據(jù)時代,隱私泄露已成為社會發(fā)展的隱患。近日,據(jù)外媒報道,在一家黑客論壇上, 5.33億臉書(FaceBook)用戶的個人隱私信息被人免費發(fā)布,包含用戶的身份證、姓名全稱、家庭住址等,被泄露的隱私信息數(shù)據(jù)涉及106 個國家。同時,IBM 的研究報告調查了全球477 家公司過去一年發(fā)生了2200 多起數(shù)據(jù)泄露事件,發(fā)現(xiàn)大型數(shù)據(jù)泄露的代價十分高昂。平均來看,泄露百萬條記錄會導致?lián)p失2.8 億元人民幣,而泄露5000 萬條記錄的損失高達24.1 億元人民幣。由此可見,侵犯數(shù)據(jù)隱私保護的違法犯罪以及因此而產生的電信與網絡詐騙等違法犯罪行為已造成社會巨大的損失。隱私保護涉及每個公民的自身利益,如何進行隱私保護、如何在保護數(shù)據(jù)安全與隱私的前提下發(fā)展大數(shù)據(jù)與人工智能技術,成為當下亟待解決的問題。
隨著科學技術的快速發(fā)展,人工智能技術應運而生,大數(shù)據(jù)被廣泛的應用于人工智能等領域。大數(shù)據(jù)在方便人們生活的同時,也帶來了一些隱私保護方面的問題。針對隱私保護的法律法規(guī)相繼出臺,使數(shù)據(jù)孤島現(xiàn)象出現(xiàn),數(shù)據(jù)孤島即很難將不同數(shù)據(jù)源的數(shù)據(jù)信息進行交流與融合。為解決數(shù)據(jù)孤島問題,早期的分布式計算試圖對不同數(shù)據(jù)來源的數(shù)據(jù)進行分布式建模,但重量級的分布式系統(tǒng)架構會影響數(shù)據(jù)的傳輸和處理效率。聯(lián)邦學習為上述問題給出了解決方案。
基于人工智能算法,谷歌[2]在2016年率先提出聯(lián)邦學習的概念,基于數(shù)據(jù)處理的分布式框架,即在數(shù)據(jù)不共享、加密機制的下實現(xiàn)數(shù)據(jù)建模,建好的共享模型為所有參與方可以使用,極大程度保護了數(shù)據(jù)的安全性和隱私性。在數(shù)據(jù)隱私保護方面,聯(lián)邦學習實現(xiàn)了參與者之間數(shù)據(jù)不共享而模型共享的機制,但是一些工作表明,聯(lián)邦學習在訓練參數(shù)更新迭代的過程中,易被第三方攻擊者攻擊造成泄露,或被中央服務器泄露。例如,文獻[12]指出,共享梯度會泄露數(shù)據(jù)信息,一小部分的梯度就會泄露眾多有用的隱私數(shù)據(jù)。同時,文獻[13]也介紹了共享梯度中私有訓練數(shù)據(jù)如何泄露的問題。故針對以上隱私數(shù)據(jù)泄露的問題,一些結合聯(lián)邦學習的隱私保護方法被提出。
針對訓練公開后的模型API 查詢導致的隱私泄露,同時現(xiàn)有聯(lián)邦學習存在不支持用戶掉線等問題,路紅琳[3]等人提出了將差分隱私擾動添加在本地模型參數(shù)上的方法,有效的抵御了黑盒推理攻擊,攻擊者利用模擬數(shù)據(jù)構造多個目標模型的影子,通過影子模型和目標模型的輸出結果,訓練出一個可以判斷是否為目標模型訓練數(shù)據(jù)的攻擊模型,并且解決了用戶掉線問題。
針對梯度參數(shù)泄露從而導致隱私泄露的問題,張澤輝[4]等人提出了一種支持隱私保護的聯(lián)邦深度神經網絡模型,將固定的偏置項參數(shù)改為隨機數(shù)生成,從而避免由于梯度參數(shù)信息泄露而導致隱私信息直接泄露。同時,將模型梯度加密替換為神經網絡模型的權重參數(shù)加密,減少了加解密的運算量,為訓練者提供了更優(yōu)的算法選擇,適應于更加真實的場景。
針對聯(lián)邦模型在訓練過程中的數(shù)據(jù)隱私泄露問題,Truex 等人提出了將差分隱私與安全多方計算相結合[14],以不泄露隱私數(shù)據(jù)的目的,增加參與方的數(shù)量,從而減少噪聲的注入,進而防止推理威脅。
聚類即為按照某一特定標準,將抽象的對象分為不同類,使同一類的對象相似度更大,不同類的對象相似度盡可能地小。聚類分析算法具有可伸縮性、處理不同數(shù)據(jù)類型、處理“噪聲”數(shù)據(jù)、高緯度的能力,故聚類分析在信息安全與數(shù)據(jù)隱私保護方面也具有重要的研究價值。
針對數(shù)據(jù)外包計算過程中的數(shù)據(jù)泄漏的隱私保護問題,賈春福[5]等人提出了在加密數(shù)據(jù)集上進行同態(tài)DBSCAN聚類操作的方案。通過設計協(xié)議的方式,使同態(tài)加密不支持的密文比較算法實現(xiàn)加密數(shù)據(jù)集上的同態(tài)聚類功能。同時,也提出了浮點型數(shù)據(jù)預處理方式來解決不能直接加密浮點型數(shù)據(jù)的問題。
針對公鑰同態(tài)加密技術不符合加密體制基本原則等問題,曹珍富[6]等人提出了不基于同態(tài)加密的密文數(shù)據(jù)聚合。避開全同態(tài)公鑰加密和零知識證明技術,采用在離線狀態(tài)下,利用一次單向陷門置換加密隨機數(shù),用于對密鑰的分發(fā),在線狀態(tài)用對稱密鑰對個體數(shù)據(jù)進行加密,云服務器利用加法同態(tài)性在密文域上進行數(shù)據(jù)聚合及分析統(tǒng)計,最后授權用戶解密出對稱密鑰和明文域上的聚合運算結果。
針對數(shù)據(jù)上傳服務器面臨數(shù)據(jù)泄露、數(shù)據(jù)窺探、數(shù)據(jù)濫用等問題,任昊[7]等人提出了保護隱私的多功能醫(yī)療數(shù)據(jù)聚合和支持差分隱私方案發(fā)布的方案(PMHA-DP)。利用BGN 同態(tài)加密設計了基礎聚合方案(BAAS),提出了支持加權聚合的方案(WAAS),利用直方圖分層法(HMH)設計滿足差分隱私保護的統(tǒng)計分析和聚合,同時利用后處理技術來處理噪聲。然而此方案更適合集中式差分機制,需要用戶數(shù)據(jù)加密后再上傳。
同時,目前的差分隱私保護機制都依賴于一個可信的聚合者,但在很多網絡模型中這樣的聚合者是不存在的。針對以上問題,賈巍巍[8]等人提出了適合分布式的添噪機制,提出二項分布機制和泊松機制,將原來只能由信任中心實現(xiàn)的差分隱私保護轉換為用戶自己可以取得的差分隱私保護。
區(qū)塊鏈技術并不是一項新的技術,而是一種分布式數(shù)據(jù)存儲、點對點傳輸、共識機制、加密算法等計算機技術的新型應用模式,是一個去中心化、去信任化的數(shù)據(jù)庫和分布式的共享賬本。區(qū)塊是一個一個的存儲單元,記錄一段時間內各個區(qū)塊節(jié)點的交流信息,區(qū)塊直接通過哈希算法實現(xiàn)鏈接,一個區(qū)塊與一個區(qū)塊相接形成區(qū)塊鏈。區(qū)塊鏈具有去中心化、不可篡改、可以追溯、全程留痕、公開透明的特點,將區(qū)塊鏈技術應用于隱私保護方向具有很大的研究意義。
近些年,區(qū)塊鏈技術被廣泛的應用于隱私保護領域,然而,在基于區(qū)塊鏈技術的去中心化賬本中用戶的信息是很容易被追蹤的,基于以上問題,劉峰[9]等人設計提出了一種基于Pederson 承諾與Schnorr 協(xié)議的安全多方計算協(xié)議,此協(xié)議可以融入?yún)^(qū)塊鏈網絡,并且可以在匿名的情況下合并不同的隱私信息并進行高效簽署的特點。
針對多源網絡中惡意節(jié)點的問題,仲蓓鑫[10]等人提出了基于區(qū)塊鏈技術的隱私保護方法。向傳輸?shù)亩嘣淳W絡中分配密鑰和全網密鑰,將多源網絡劃分為兩個部分,加密傳輸數(shù)據(jù),確認和驗證用戶信息,獲取區(qū)塊鏈的公共賬本以及本地賬本,完成兩個區(qū)塊的相連,進而對多源網絡中的隱私進行保護。我們發(fā)現(xiàn),利用區(qū)塊鏈的特性可以有效的減少隱私數(shù)據(jù)在傳輸過程中的泄露。
針對云計算多方數(shù)據(jù)提供和使用場景,基于公鏈和本地鏈雙鏈協(xié)同機制,翁曉泳[11]等人提出了全生命周期的可信數(shù)據(jù)共享方案。利用區(qū)塊鏈的不可篡改性,將用戶原始服務器的數(shù)據(jù)用區(qū)塊鏈記賬,本地數(shù)據(jù)上傳服務器之前,采用國密算法的非對稱加密算法加密每一條數(shù)據(jù)內容,客戶端根據(jù)智能合約進行業(yè)務訪問。我們發(fā)現(xiàn),基于區(qū)塊鏈的云計算數(shù)據(jù)共享系統(tǒng)可以高效的實現(xiàn)多方數(shù)據(jù)的共享與協(xié)同。
本文根據(jù)現(xiàn)有的大量文獻,結合以安全多方計算、同態(tài)加密為主的基于加密的隱私保護方法和以差分隱私為主的基于擾動的隱私保護方法,重點研究了現(xiàn)有的隱私保護關鍵技術:聯(lián)邦學習技術、聚類技術、區(qū)塊鏈技術。聯(lián)邦學習技術為數(shù)據(jù)孤島提出了解決方案,但同時在訓練的各個環(huán)節(jié)中會存在數(shù)據(jù)泄露的問題。數(shù)據(jù)聚類算法的處理不同數(shù)據(jù)類型、處理“噪聲”數(shù)據(jù)、高緯度的能力為數(shù)據(jù)隱私保護問題提供了新的研究方向。區(qū)塊鏈具有去中心化、不可篡改、可以追溯、全程留痕、公開透明的特點,將區(qū)塊鏈技術應用于隱私保護方向也將具有很大的研究意義。