朱丹紅,程 燁
(福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 福州 350108)
物聯(lián)網(wǎng)指代“物與物之間連接而成的互聯(lián)網(wǎng)絡(luò)”,是一種建立在互聯(lián)網(wǎng)基礎(chǔ)上的衍生網(wǎng)絡(luò),也可以作為互聯(lián)網(wǎng)的拓展物[1]。其客戶端雖然可以延伸到實(shí)物,但是其核心部分依舊是互聯(lián)網(wǎng)數(shù)據(jù)。作為現(xiàn)代社會(huì)重要的組成部分,物聯(lián)網(wǎng)保留了射頻識(shí)別技術(shù)、激光掃描技術(shù)、紅外傳感技術(shù)等,可以實(shí)現(xiàn)互聯(lián)網(wǎng)連接、定位、追蹤等,其提供的數(shù)據(jù)能夠滿足社會(huì)生產(chǎn)和企業(yè)運(yùn)營(yíng)等多方面的需要。為了保證社會(huì)公共信息以及私人信息的安全性,必須完善物聯(lián)網(wǎng)敏感信息保護(hù)技術(shù)[2]。而一旦出現(xiàn)敏感數(shù)據(jù)泄露,很有可能造成隱私信息泄露及篡改。目前國(guó)內(nèi)外針對(duì)物聯(lián)網(wǎng)敏感數(shù)據(jù)問(wèn)題,已經(jīng)衍生出了大量的物聯(lián)網(wǎng)安全防護(hù)手段,不法分子很難突破外圍的安全防護(hù)[3]。但是物聯(lián)網(wǎng)敏感數(shù)據(jù)泄露的情況依舊存在,根據(jù)調(diào)查顯示截止到2020年3月,我國(guó)物聯(lián)網(wǎng)敏感數(shù)據(jù)泄露事件累積超過(guò)25萬(wàn)起,社會(huì)企業(yè)直接經(jīng)濟(jì)損失超過(guò)1000億,其中內(nèi)部數(shù)據(jù)泄露事件所占比例超過(guò)60%,可見(jiàn)當(dāng)前物聯(lián)網(wǎng)敏感數(shù)據(jù)的保護(hù)方法還有待完善[4]。
為了滿足當(dāng)前需求,不少專家學(xué)者都對(duì)物聯(lián)網(wǎng)敏感數(shù)據(jù)泄露控制方法進(jìn)行了研究,例如基于動(dòng)態(tài)污點(diǎn)跟蹤的敏感數(shù)據(jù)泄露控制方法[5]以及基于加權(quán)貝葉斯網(wǎng)絡(luò)的敏感數(shù)據(jù)泄露控制方法[6]等。但是這兩種方法由于對(duì)所有數(shù)據(jù)都進(jìn)行了運(yùn)算,導(dǎo)致工程量加大。在實(shí)際應(yīng)用過(guò)程中發(fā)現(xiàn),該方法的數(shù)據(jù)加密覆蓋率較低,難以在實(shí)際中得到廣泛應(yīng)用。
針對(duì)該問(wèn)題,基于局部差分隱私的物聯(lián)網(wǎng)敏感數(shù)據(jù)泄露控制方法。將局部差分隱私技術(shù)用于物聯(lián)網(wǎng)敏感數(shù)據(jù)保護(hù)與泄露控制過(guò)程中,可以對(duì)物聯(lián)網(wǎng)用戶終端信息尤其是敏感數(shù)據(jù)進(jìn)行多方位的保護(hù)和權(quán)限監(jiān)控,可以有效保障物聯(lián)網(wǎng)敏感數(shù)據(jù)安全,杜絕數(shù)據(jù)泄露情況的發(fā)生。
由于物聯(lián)網(wǎng)數(shù)據(jù)呈現(xiàn)海量化,因此需要進(jìn)行物聯(lián)網(wǎng)數(shù)據(jù)挖掘,將數(shù)據(jù)挖掘結(jié)果作為后續(xù)敏感數(shù)據(jù)泄露控制方法設(shè)計(jì)的基礎(chǔ)。其具體過(guò)程如下:
數(shù)據(jù)挖掘作為安全控制數(shù)據(jù)的來(lái)源,是物聯(lián)網(wǎng)數(shù)據(jù)鏈的生成形式[7]。傳統(tǒng)數(shù)據(jù)挖掘方式因?yàn)樽陨聿蓸勇蔬^(guò)高,導(dǎo)致數(shù)據(jù)采集負(fù)荷量過(guò)高,因此在進(jìn)行數(shù)據(jù)挖掘過(guò)程中,需要對(duì)物聯(lián)網(wǎng)數(shù)據(jù)鏈進(jìn)行簡(jiǎn)化[8],其簡(jiǎn)化思想為:對(duì)當(dāng)前物聯(lián)網(wǎng)數(shù)據(jù)鏈?zhǔn)孜捕诉M(jìn)行連線,獲取數(shù)據(jù)最小量值,并提取最大的間隔值dmax,將其如限差值δ進(jìn)行對(duì)比,如果dmax小于δ,則將當(dāng)前數(shù)據(jù)鏈中間數(shù)據(jù)點(diǎn)抹去,否則保留當(dāng)前dmax數(shù)據(jù)點(diǎn)并將其用作數(shù)據(jù)鏈邊界。所有數(shù)據(jù)點(diǎn)按照A和B標(biāo)號(hào),依靠豪斯多夫距離建立連接,連接公式為
(1)
將dmax帶入公式距離可以將其簡(jiǎn)化為
(2)
在簡(jiǎn)化物聯(lián)網(wǎng)數(shù)據(jù)鏈之后,進(jìn)一步對(duì)數(shù)據(jù)鏈距離進(jìn)行估計(jì),設(shè)計(jì)基于鏈距離估計(jì)的物聯(lián)網(wǎng)數(shù)據(jù)挖掘方法。假設(shè)數(shù)據(jù)點(diǎn)A與B的相似距離為E={e1,e2,e3,…,en},物聯(lián)網(wǎng)數(shù)據(jù)鏈數(shù)量為N,n=N/2。為了提升數(shù)據(jù)挖掘效果,首先需要定義數(shù)據(jù)點(diǎn)的離群因子[9],描述為
(3)
式中,L(·)表示離群因子復(fù)雜度,T表示轉(zhuǎn)置wT局部離群點(diǎn),λ為局部離群系數(shù),zi(w)表示離群點(diǎn)分布描述函數(shù)。
在此基礎(chǔ)上,需要對(duì)離群因子進(jìn)行排序,將排序時(shí)間復(fù)雜度設(shè)為fi,獲取離散因子排序結(jié)果[10],計(jì)算公式如下
(4)
以離散因子排序結(jié)果為基礎(chǔ),對(duì)物聯(lián)網(wǎng)數(shù)據(jù)鏈距離重新估計(jì),計(jì)算公式為
(5)
在t時(shí)刻,數(shù)據(jù)挖掘節(jié)點(diǎn)i在云平臺(tái)中進(jìn)行物聯(lián)網(wǎng)數(shù)據(jù)挖掘的頻率利用下式進(jìn)行計(jì)算
(6)
式中,Di(t)表示物聯(lián)網(wǎng)數(shù)據(jù)分布函數(shù),Dn(t)為數(shù)據(jù)密度描述性函數(shù),Dk(t)表示數(shù)據(jù)挖掘代價(jià)函數(shù)。
基于物聯(lián)網(wǎng)數(shù)據(jù)鏈距離重估計(jì)結(jié)果,令數(shù)據(jù)挖掘頻率最大化[11],數(shù)據(jù)鏈距離最小化,得到數(shù)據(jù)挖掘結(jié)果,表示為
(7)
在獲取到物聯(lián)網(wǎng)數(shù)據(jù)后,為減少計(jì)算量,需要在物聯(lián)網(wǎng)數(shù)據(jù)集中檢索敏感數(shù)據(jù),以實(shí)現(xiàn)后續(xù)對(duì)于物聯(lián)網(wǎng)敏感數(shù)據(jù)泄露控制[12]。敏感數(shù)據(jù)檢索首先需要按順序進(jìn)行數(shù)據(jù)存儲(chǔ),進(jìn)而記錄關(guān)鍵詞出現(xiàn)頻率和位置起始端的偏移量。其核心設(shè)計(jì)步驟如下:
第二步,文檔化結(jié)束后,對(duì)當(dāng)前數(shù)據(jù)的分詞部分進(jìn)行處理,中英文連詞部分需要隔開(kāi),以此建立規(guī)范化的檢索格式,計(jì)算公式如下
(8)
式中,η(k)表示檢索到第k種敏感數(shù)據(jù)的決策函數(shù),Si為中英文連詞分隔函數(shù)。
第三步,根據(jù)上述建立的規(guī)范化的檢索格式,建立敏感數(shù)據(jù)檢索序列,表示為:
(9)
第四步,以檢索序列為基礎(chǔ),對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行檢索,構(gòu)建物聯(lián)網(wǎng)敏感數(shù)據(jù)集,表示為
(10)
由于文檔內(nèi)部存有獨(dú)立且唯一的安全性保密檢索,根據(jù)不同的文檔形式可以直接定位文檔內(nèi)容位置,以保證遠(yuǎn)程信息和擴(kuò)展信息需要。
在檢索到物聯(lián)網(wǎng)敏感數(shù)據(jù)后,為保證數(shù)據(jù)安全性,需要對(duì)物聯(lián)網(wǎng)敏感數(shù)據(jù)集進(jìn)行加密處理。由于一般的差分隱私模型以用戶為中心,網(wǎng)絡(luò)服務(wù)商對(duì)隱私信息進(jìn)行聚合,從而構(gòu)建隱私數(shù)據(jù)庫(kù),通過(guò)對(duì)數(shù)據(jù)庫(kù)添加噪聲從而發(fā)布具有噪聲的信息,并提供相應(yīng)的查詢服務(wù)。但是,在以上過(guò)程中,由于可能存在可信度較低的第三方服務(wù)商,因而仍有可能會(huì)面臨較大的信息泄露風(fēng)險(xiǎn),例如服務(wù)商內(nèi)部員工泄露和遭受惡意攻擊。
而局部差分隱私思想的提出與應(yīng)用能夠較好地解決以上問(wèn)題,局部差分隱私針對(duì)不可信第三方服務(wù)商,通過(guò)對(duì)用戶端發(fā)送的數(shù)據(jù)進(jìn)行擾動(dòng),在服務(wù)器端聚合擾動(dòng)數(shù)據(jù)的方式來(lái)提供差分隱私保障。其實(shí)現(xiàn)步驟如下:
1)初始化:假設(shè)一個(gè)q階的雙線性群為Gq,群生成元為g。隨機(jī)選擇兩個(gè)加密參數(shù)α與β,則主鑰K=(β,gα),則物聯(lián)網(wǎng)敏感數(shù)據(jù)集初始化公式為
PK=〈Gq,g,h=gβ,e(g,gα)〉
(11)
2)數(shù)據(jù)擾動(dòng)
假設(shè)一共有n個(gè)用戶,則一個(gè)隱私算法J及其定義域Dom(J)與值域Ran(J),假如兩條查詢記錄為l,l′∈Dom(J),利用隱私算法J得到兩個(gè)相同的結(jié)果l*,則J滿足ε(局部差分隱私)
Pr[J(l)=l*]≤eε×Pr[J(l′)=l*]
(12)
雖然上述能夠從理論方面保障隱私算法滿足局部差分隱私,但是需要引入數(shù)據(jù)擾動(dòng)機(jī)制保障局部差分隱私的實(shí)現(xiàn),而其中關(guān)鍵是構(gòu)造一個(gè)響應(yīng)矩陣。假設(shè)用戶屬性集合Sj具有m個(gè)屬性值,分別用s1,s2,s3,…,sm表示,若Sj=vi(i=1,2,3,…,m),擾動(dòng)數(shù)據(jù)為p,則擾動(dòng)矩陣為
(13)
3)明文加密:實(shí)現(xiàn)局部差分隱私之后,需要對(duì)明文進(jìn)行加密,首先定義明文的訪問(wèn)樹(shù)λ。定義訪問(wèn)樹(shù)中的每個(gè)非葉子節(jié)點(diǎn)x隨機(jī)訪問(wèn)一個(gè)多項(xiàng)式P(x),該節(jié)點(diǎn)的門限為[dx,nx]。假設(shè)根節(jié)點(diǎn)為r,隨機(jī)選取一個(gè)常數(shù)s,將其設(shè)為Pr(x)的常數(shù)系數(shù),即Pr(0)=s。對(duì)于根節(jié)點(diǎn)以上的節(jié)點(diǎn)y,與其對(duì)應(yīng)的多項(xiàng)式一律滿足
Px(0)=Pparent(x)(index(x))
(14)
利用上述思路,自下而上構(gòu)建明文的訪問(wèn)樹(shù)λ。則物聯(lián)網(wǎng)敏感數(shù)據(jù)集加密密文為
CT=〈λ,Me(g,g)αs,C=hs,?y∈Y:Cy=ggy(0),
(15)
4)私鑰生成:當(dāng)新用戶j申請(qǐng)入網(wǎng)之時(shí),系統(tǒng)會(huì)隨機(jī)分配給用戶一個(gè)私鑰uj。假設(shè)該用戶屬性集合為Sj,用戶的獨(dú)有屬性o∈Sj,如果o∈La,Lj表示用戶安全屬性集合,那么用戶j會(huì)獲得密鑰中心分發(fā)的私鑰為
Ka=(?o∈Sj∩La:Di=g1uj·Vi·Ta,i)
(16)
5)解密:假設(shè)節(jié)點(diǎn)z為明文訪問(wèn)樹(shù)的葉子節(jié)點(diǎn),密文為CT,私鑰Ka中包含了用戶屬性集合Sj,z是密文CT中訪問(wèn)控制樹(shù)的節(jié)點(diǎn),則o=attr(z)表示節(jié)點(diǎn)z關(guān)聯(lián)的屬性值,如果o∈S,則解密算法如下
(17)
如果o?S,則定義:
DecryptNode(CT.K,z)(CT.K,z)=⊥
(18)
根據(jù)以上步驟,按照自上而下方式一直從葉子節(jié)點(diǎn)計(jì)算至根節(jié)點(diǎn),得到:
e(g1,g2)uj·v0=e(g1,g2)uj·s
(19)
基于上述結(jié)果對(duì)加密密文進(jìn)行解密,獲取明文ET,其計(jì)算公式為:
ET=e(C,D)/e(g1,g2)uj·v0
=e(g1,g2)τ·s+uj·s/e(g1,g2)uj·s=e(g1,g2)τ·s
(20)
通過(guò)數(shù)據(jù)初始化、數(shù)據(jù)擾動(dòng)、明文加密、私鑰生成、解密等多個(gè)步驟實(shí)現(xiàn)物聯(lián)網(wǎng)隱私數(shù)據(jù)泄露控制,避免了敏感數(shù)據(jù)在傳輸過(guò)程中被攔截、復(fù)制和篡改的危險(xiǎn),使得敏感數(shù)據(jù)安全性得到了較大提高。
為了驗(yàn)證本文提出的基于局部差分隱私的物聯(lián)網(wǎng)敏感數(shù)據(jù)泄露控制方法的實(shí)際應(yīng)用效果,進(jìn)行仿真測(cè)試。測(cè)試環(huán)境如下:
測(cè)試環(huán)境如下:
本次實(shí)驗(yàn)在Inter(R) Core(TM) i7-3770 CPU @3.4GHz、內(nèi)存為8G、硬盤容量為512G的Windows 10上進(jìn)行。仿真測(cè)試軟件為MATLAB 7.0,實(shí)驗(yàn)數(shù)據(jù)為某一大型物聯(lián)網(wǎng)服務(wù)商的后臺(tái)數(shù)據(jù),在獲取樣本數(shù)據(jù)過(guò)程中,剔除損壞以及重復(fù)數(shù)據(jù),保證其能夠在仿真平臺(tái)上順利運(yùn)行。
此次實(shí)驗(yàn)主要應(yīng)用性能對(duì)比測(cè)試的方式進(jìn)行,將文獻(xiàn)[5]基于動(dòng)態(tài)污點(diǎn)跟蹤的敏感數(shù)據(jù)泄露控制方法以及文獻(xiàn)[6]基于加權(quán)貝葉斯網(wǎng)絡(luò)的敏感數(shù)據(jù)泄露控制方法作為實(shí)驗(yàn)對(duì)比方法。通過(guò)測(cè)試物聯(lián)網(wǎng)敏感數(shù)據(jù)檢索查全率與查準(zhǔn)率、加密覆蓋程度以及非法操作定位精度,確定不同方法的綜合性能。
首先比較不同方法的查全率與查準(zhǔn)率,結(jié)果如圖1和圖2所示。
圖1 查全率比較
圖2 查準(zhǔn)率比較
分析圖1與圖2可知,研究方法的物聯(lián)網(wǎng)敏感數(shù)據(jù)檢索查全率在82%-98%之間,查準(zhǔn)率在94%-98%之間,說(shuō)明該方法的物聯(lián)網(wǎng)敏感數(shù)據(jù)檢索查全率與查準(zhǔn)率均高于實(shí)驗(yàn)對(duì)比方法,能夠精準(zhǔn)全面地檢索到物聯(lián)網(wǎng)敏感數(shù)據(jù)。
在上述實(shí)驗(yàn)的基礎(chǔ)上對(duì)三種方法應(yīng)用后的物聯(lián)網(wǎng)敏感數(shù)據(jù)加密覆蓋程度進(jìn)行測(cè)試,其結(jié)果如圖3所示。
從圖3可以看出,在對(duì)物聯(lián)網(wǎng)敏感數(shù)據(jù)加密覆蓋度對(duì)比測(cè)試中,不同方法的加密覆蓋度不同。經(jīng)過(guò)比較可知,研究方法的加密覆蓋度明顯高于實(shí)驗(yàn)對(duì)比方法,足以證明該方法在進(jìn)行物聯(lián)網(wǎng)敏感數(shù)據(jù)泄露控制過(guò)程中,具有更高的覆蓋面,適合海量物聯(lián)網(wǎng)隱私數(shù)據(jù)泄露控制。
利用服務(wù)端軟件生成非法操作訪問(wèn),監(jiān)測(cè)不同方法的非法操作定位精度,比較結(jié)果如下:
表1 非法操作定位對(duì)比
根據(jù)表1數(shù)據(jù)可以清晰地看出,隨著攻擊量的上升,三種方法的非法操作定位準(zhǔn)確度均出現(xiàn)下降趨勢(shì),但是研究方法的整體準(zhǔn)確率依舊維持在95%以上,說(shuō)明該方法能夠準(zhǔn)確定位非法操作。
隨著現(xiàn)代科技的飛速發(fā)展,物聯(lián)網(wǎng)作為傳感網(wǎng)絡(luò)和數(shù)據(jù)網(wǎng)絡(luò)的產(chǎn)物,成為現(xiàn)代互聯(lián)網(wǎng)產(chǎn)業(yè)重要的組成部分。物聯(lián)網(wǎng)隱私數(shù)據(jù)的安全監(jiān)管是企業(yè)生產(chǎn)安全的前提條件,為有效提高物聯(lián)網(wǎng)數(shù)據(jù)安全性,提高敏感數(shù)據(jù)保護(hù)范圍,設(shè)計(jì)基于局部差分隱私的物聯(lián)網(wǎng)敏感數(shù)據(jù)泄露控制方法。主要通過(guò)數(shù)據(jù)初始化、數(shù)據(jù)擾動(dòng)、明文加密、私鑰生成、解密等多個(gè)步驟實(shí)現(xiàn)物聯(lián)網(wǎng)隱私數(shù)據(jù)泄露控制。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)于物聯(lián)網(wǎng)敏感數(shù)據(jù)檢索的查全率與查準(zhǔn)率高,可以有效提高數(shù)據(jù)加密覆蓋度,更能提高風(fēng)險(xiǎn)訪問(wèn)事件位置的定位成功率。