蔚晨月,楊 璐
(山西農(nóng)業(yè)大學信息學院,山西 晉中 030800)
物聯(lián)網(wǎng)內(nèi)存儲著大量的數(shù)據(jù),各種商業(yè)組織甚至個人用戶可以通過各種方式或渠道進行收集、下載、處理、整理數(shù)據(jù),但是,這些數(shù)據(jù)蘊含著大量用戶的個人隱私信息,因此,物聯(lián)網(wǎng)服務提供商在收集、存儲用戶的個人隱私信息、使用用戶個人隱私數(shù)據(jù)過程中,可能存在侵犯用戶隱私安全的問題。因此,有必要對應用程序數(shù)據(jù)進行保護,以避免鏈接攻擊導致的個人隱私泄露。
鄭孝遙等[1]提出一種基于差分隱私保護的光譜聚類算法?;诓罘蛛[私模型,利用累積分布函數(shù)產(chǎn)生滿足拉普拉斯分布的隨機噪聲。在譜聚類算法計算的樣本相似度函數(shù)中加入噪聲干擾樣本間的權重值,以達到隱私保護的目的,實現(xiàn)樣本個體之間的信息隱藏。在UCI數(shù)據(jù)集上的仿真結果表明,該算法能夠在一定的信息丟失范圍內(nèi)實現(xiàn)有效的數(shù)據(jù)聚類,并且能夠保護聚類數(shù)據(jù);黃宏程等[2]提出一種基于分布式壓縮感知和哈希函數(shù)的數(shù)據(jù)融合數(shù)據(jù)保護算法。然后對稀疏的感知數(shù)據(jù)進行壓縮處理,去除冗余數(shù)據(jù),并將稀疏的感知數(shù)據(jù)與稀疏的感知數(shù)據(jù)進行合并壓縮。關閉感知數(shù)據(jù)的哈希值在Sink節(jié)點提取偽裝數(shù)據(jù)并檢查數(shù)據(jù)完整性后重新確定。胡震海等[3]提出一種抗竊聽攻擊的聚集查詢處理算法,不依賴于預先構造好的拓撲結構,適用于網(wǎng)絡拓撲結構動態(tài)變化的傳感器網(wǎng)絡,保證了節(jié)點感知數(shù)據(jù)的隱私性的同時,節(jié)省了維護拓撲結構的開銷。
但是上述方法需處理的數(shù)據(jù)量較大,無法只針對接收端進行處理,大大增加了服務器端負載,擴展性相對較差。為此本文提出一種寬帶物聯(lián)網(wǎng)信息接收端隱私抗泄露算法,其關鍵在于確定最優(yōu)的線性回歸函數(shù),并建立隱私泄露檢測線性回歸模型,實現(xiàn)隱私信息防泄漏,強化適用性和可擴展性。
與Intranet相關的交互信息交互過程是對網(wǎng)絡安全的主要威脅:在網(wǎng)絡環(huán)境下,信息交互、節(jié)點保護機制不完善導致節(jié)點在數(shù)據(jù)傳輸過程中可能改變保密性和密鑰模式,在信息的接收端也存在潛在的風險。軟件之間的交互信息交換存在差距,主要是由于數(shù)據(jù)節(jié)點定位不準確,傳輸時間長,寬帶物聯(lián)網(wǎng)接收端存在安全問題,如表1所示。
表1 寬帶物聯(lián)網(wǎng)信息接收端安全問題
網(wǎng)絡環(huán)境是由許多異構網(wǎng)絡組成的。根據(jù)實際環(huán)境中數(shù)據(jù)流和控制流的特點,將其分為設備層、中間層和應用層。涉及的隱私信息主要存在于設備層和中間層終端節(jié)點的配置軟件中[4]。它主要用于工業(yè)管理員或超級用戶建立遠程會話,以達到控制和調(diào)試的目的。目前,物聯(lián)網(wǎng)的基本網(wǎng)絡架構可分為三部分,具體內(nèi)容如圖1所示。
圖1 物聯(lián)網(wǎng)層次結構
在物聯(lián)網(wǎng)技術架構的各個層次中,信息不僅是單向傳輸,還包括交互、控制、雙向互傳等,傳遞的信息是多樣的,其中關鍵是資源信息[5]。此外,軟件技術、現(xiàn)場總線技術和集成電路技術也是各層所要求的關鍵技術。物聯(lián)網(wǎng)中的公共技術并不屬于技術體系中的某一特定層次,而是都涉及到物聯(lián)網(wǎng)的三個層次的技術架構。主要包括應用業(yè)務需求、通信計算聚合網(wǎng)絡體系結構、識別解析服務、物聯(lián)網(wǎng)安全技術、服務質(zhì)量管理和網(wǎng)絡管理。作為一項極其先進的系統(tǒng)工程,其最終目標是建立開放的對象識別標準,實現(xiàn)網(wǎng)絡連接的信息共享。
在物聯(lián)網(wǎng)環(huán)境下,要進行正常的數(shù)據(jù)采集,首先必須保證信息源的真實性[6]。這就要求物聯(lián)網(wǎng)控制系統(tǒng)的身份認證機制比傳統(tǒng)網(wǎng)絡更加嚴格,以保證接入設備的合法性。身份認證就是確定用戶是否有權訪問和使用某一資源,使雙方能夠建立信任關系,保證數(shù)據(jù)的可靠性。在物聯(lián)網(wǎng)隱私數(shù)據(jù)采集和傳輸過程中,如果攻擊者獲得網(wǎng)絡的認證方法,則通過偽造傳感器節(jié)點來獲取網(wǎng)絡中的隱私信息。攻擊者還可以截獲節(jié)點間傳輸?shù)臄?shù)據(jù),并從看似無關的數(shù)據(jù)中獲取其它重要信息。在物聯(lián)網(wǎng)中,通過遠程控制傳輸大量信息,攻擊者可以通過遠程操作獲取隱私信息,并通過遠程訪問以較低的風險監(jiān)控多個地方?;诖耍疚奶岢隽艘环N隱私防泄露算法,從源頭上解決隱私泄露問題。
在大數(shù)據(jù)時代,數(shù)據(jù)保護的主要目的是減少數(shù)據(jù)丟失和匿名社交網(wǎng)絡數(shù)據(jù)的可用性[7]。因為社交網(wǎng)絡中隱私保護越多,敏感信息的保護就越好。然而,原始數(shù)據(jù)越隱蔽,數(shù)據(jù)丟失的概率就越大,接收端的數(shù)據(jù)可用性就越低。因此,在數(shù)據(jù)保護領域,兩者之間的平衡是非常重要的。
數(shù)據(jù)保護過程就是在互聯(lián)網(wǎng)上或數(shù)據(jù)機構采集數(shù)據(jù),對采集到的數(shù)據(jù)進行預處理,接收原始數(shù)據(jù),并通過隱私手段對數(shù)據(jù)進行處理,以保護原始數(shù)據(jù)的隱私,然后將數(shù)據(jù)交給用戶,具體內(nèi)容如圖2所示。
圖2 隱私保護數(shù)據(jù)處理過程
經(jīng)過隱私保護數(shù)據(jù)處理后,對網(wǎng)絡數(shù)據(jù)特征進行交叉運算,得到網(wǎng)絡數(shù)據(jù)特征的總數(shù),表達式即
(1)
式中,vhml所描述的是存在隱私泄露的網(wǎng)絡數(shù)據(jù)的數(shù)量,Q所描述的是網(wǎng)絡數(shù)據(jù)特征量。以網(wǎng)絡數(shù)據(jù)為樣本,各個樣本都有相應的特征權重m,依據(jù)式(2)運算出網(wǎng)絡數(shù)據(jù)特征v1和v2的相似度,其公式為
(2)
然后對網(wǎng)絡數(shù)據(jù)特征v進行交叉變換,實現(xiàn)隱私公開網(wǎng)絡數(shù)據(jù)特征e的選擇,其表達式為
(3)
式中,r(v)表示相似度反演,r(e)表示變換函數(shù),與隱私泄露的網(wǎng)絡數(shù)據(jù)特征無關的網(wǎng)絡數(shù)據(jù)Cij可以用抗原表示。上述抗原組如下
Ci=(Ci1,Ci2,…Cij),(k=1,2,…p)
(4)
與隱私泄露數(shù)據(jù)存在關聯(lián)性的網(wǎng)絡數(shù)據(jù)Cdk可以用抗體來表示??贵w收集如:
Cd=(Cd1,Cd2,…Cdk),(k=1,2,…q)
(5)
重構隱私抗泄露網(wǎng)絡數(shù)據(jù)的特征空間,其表達式即
Jv(sample)={z∈W|?u∈sample,J(z,u)≤V}
(6)
式中,V所描述的是網(wǎng)絡數(shù)據(jù)特征空間重構的閾值,如果在防泄漏過程中抗體的數(shù)量設置為Q,第k抗體中Nk表示元素的總數(shù)量,可得出抗原和抗體之間的匹配即
(7)
其中,Rl的表達為
(8)
在寬帶物聯(lián)網(wǎng)信息接收器的隱私防泄漏檢測過程中,需要計算數(shù)據(jù)的克隆量,得到克隆量與匹配度的相關性[8],表達式為
(9)
在網(wǎng)絡數(shù)據(jù)隱私檢測過程中,根據(jù)克隆體和匹配度的相關性,對抗體實施變異操作,實現(xiàn)相空間重構,其變異表達式為
Pkl=Pkl+χq
(10)
根據(jù)上述方法,可以完成海量網(wǎng)絡數(shù)據(jù)中隱私的檢測,為網(wǎng)絡數(shù)據(jù)管理提供保障。
傳統(tǒng)的社交網(wǎng)絡隱私保護算法一般認為社交網(wǎng)絡中的所有用戶身份都是私有的,忽略了現(xiàn)實社交網(wǎng)絡中存在大量的公眾用戶,如名人、媒體等官方組織[9]。然而,這些實際的公共用戶很可能會導致社交網(wǎng)絡中私人用戶身份信息的隱私泄露,因為攻擊者可以利用這些公共用戶與普通用戶之間的連接進行私密有用的再身份識別攻擊,從而竊取用戶的敏感信息。
在上述分解矩陣中,所有網(wǎng)絡數(shù)據(jù)相關信息的個數(shù)可用k表示,網(wǎng)絡數(shù)據(jù)特征的個數(shù)可用l表示。
對網(wǎng)絡隱私泄露特征值進行變換后計算網(wǎng)絡隱私特征值[10]。表達式如下所示
(11)
根據(jù)以上隱私泄露網(wǎng)絡數(shù)據(jù)的特點,可以對其進行有效的集成,整合過程可以用以下公式描述
Ukl=h(Ak,Al)
(12)
式中,Ukl表示數(shù)據(jù)特征構成的序列,h(Ak,Al)表示數(shù)據(jù)特征函數(shù),得出公式為
(13)
設置整個隱私泄露特征的集合為{(yj,zj)},j==1,2,…p,相空間重構模型需要輸入的數(shù)據(jù)可以用yj表示,模型的輸出可以用zj表示。yj∈Sp,zj∈S線性映射函數(shù)映射到相應的相室,得到線性回歸函數(shù)如下所示
g(y)=xTγ(y)+c
(14)
式中,γ表示物聯(lián)網(wǎng)隱私泄露數(shù)據(jù)特征權重,c表示相應的偏移量[11]。
依據(jù)隱私泄密數(shù)據(jù)的特點,空間設計模型如下
xTγ(y)=Dzj-fj+c,(j==1,2,…p)
(15)
式中,D作為網(wǎng)絡數(shù)據(jù)中隱私泄露檢測的懲罰因子,fj作為實際網(wǎng)絡數(shù)據(jù)檢測特征與回歸函數(shù)間的偏差。
通過有限的網(wǎng)絡資源和服務器的計算能力,對物聯(lián)網(wǎng)中信息接收端數(shù)據(jù)節(jié)點進行規(guī)劃,使數(shù)據(jù)傳輸合理,然后代入拉格朗日乘子,能夠獲得空間優(yōu)化內(nèi)容,表達式為
M(x,c,ψ,β)
(16)
式中,βj表示拉格朗日乘子[12]。
根據(jù)Mercer理論,計算出隱私泄露的核心函數(shù),表達式為
L(yj,yk)=γ(yj)Tγ(yk)
(17)
最后,建立了物聯(lián)網(wǎng)數(shù)據(jù)信息隱私抗泄漏檢測的相空間重構模型,公式為
(18)
根據(jù)上述方法,可以完成寬帶物聯(lián)網(wǎng)信息接收端隱私抗泄露的檢測,能夠很好地保護社交網(wǎng)絡中用戶的隱私信息。
為了證明本文算法隱私保護數(shù)據(jù)防泄漏性能,在Movie ReviewData (http:∥www.cs.cornell.edu/People/pabo/movie-review-data/) 中隨機選取100分數(shù)據(jù)文件,分為1MB、10MB和20MB進行仿真,并將文獻[1]算法和文獻[2]算法與本文算法進行比較分析。
在實驗中,測試環(huán)境選擇C/S服務器,操作系統(tǒng)為Windows XP Profes2 sional Edition,編程語言為C++,3.0GHzCPU,運用4G的內(nèi)存進行實驗。
對原始數(shù)據(jù)信息實施采樣以獲得采樣序列,如圖3所示。
圖3 待加密數(shù)據(jù)采樣
不同算法的功能性比較結果如表2所示,安全性比較結果見表3。其中√表示能夠達成的項目,×表示不能達成的項目。
表2 功能性比較結果
表3 安全性比較結果
通過上述表中可知,在功能性和安全性兩方面,本文算法優(yōu)于文獻[1]和文獻[2]算法。能在物聯(lián)網(wǎng)內(nèi)添加或者刪除節(jié)點,實現(xiàn)用戶與服務器之間的相互認證,使物聯(lián)網(wǎng)用戶的隱私得到保障。
然后選擇寬帶物聯(lián)網(wǎng)信息接收端內(nèi)的一個節(jié)點當作數(shù)據(jù)源節(jié)點,設置終端基站對該節(jié)點實施多種不同種類的攻擊,進一步驗證用戶所接收數(shù)據(jù)的完整性。具體內(nèi)容如表4所示。
表4 不同算法完整性對比
完整性的運算公式為
(19)
式中,le表示數(shù)據(jù)傳輸長度,lj表示數(shù)據(jù)接收長度。
從表4的分析可以看出,在多種攻擊下,當實驗次數(shù)不斷增加,本文算法保護數(shù)據(jù)資源的完整性明顯高于其它兩種算法。
以上述采樣數(shù)據(jù)為樣本,利用本文算法、文獻[1]算法和文獻[2]算法對隱私保護數(shù)據(jù)加密性能進行對比具體內(nèi)容如圖4所示。
圖4 性能對比
從圖4中可以看出,采用寬帶物聯(lián)網(wǎng)信息接收端隱私抗泄露算法大幅降低了私有數(shù)據(jù)的泄露概率;同時,其利用預處理與在線查詢對用戶信息進行隱私保護,提高了隱私保護數(shù)據(jù)的抗泄漏能力。
1)為了防止數(shù)據(jù)泄露確保信息的安全性尤為重要,提出了一種寬帶物聯(lián)網(wǎng)信息接收端隱私抗泄露算法,通過物聯(lián)網(wǎng)數(shù)據(jù)信息隱私抗泄漏檢測的相空間重構模型,設定的十個指標達成率為100%,能夠保證隱私的完整性。
2)根據(jù)數(shù)據(jù)保護網(wǎng)絡的數(shù)據(jù)集和數(shù)據(jù)特征分解矩陣,優(yōu)化網(wǎng)絡數(shù)據(jù)隱私抗泄露檢測,對物聯(lián)網(wǎng)中信息接收端數(shù)據(jù)節(jié)點進行規(guī)劃,使數(shù)據(jù)傳輸合理,泄露率最高僅為25%,保證用戶隱私信息的安全性,具有高效的安全通信能力,可以在網(wǎng)絡數(shù)據(jù)管理方面得到極為廣泛的應用。