摘要:隨著數(shù)據(jù)時代的到來,云服務(wù)器成為許多用戶和企業(yè)外包數(shù)據(jù)的頭號選擇,關(guān)于數(shù)據(jù)異常檢測問題的研究愈發(fā)地被人們重視。針對現(xiàn)有方案大多數(shù)不支持對云環(huán)境上密文數(shù)據(jù)的異常檢測的問題,本文提出了一種云環(huán)境下基于密文的數(shù)據(jù)異常檢測隱私保護(hù)方案(Privacy protection scheme for data anomaly detection based on ciphertext in cloud environment, PADC)。安全性分析證明,該方案的算法不會泄露數(shù)據(jù)明文、檢測索引以及檢測令牌的隱私信息,實現(xiàn)了隱私保護(hù)。效率分析與仿真實驗表明,該方案具有較低的計算開銷,具有良好的應(yīng)用前景。
關(guān)鍵詞:異常檢測;密文數(shù)據(jù);云存儲;隱私保護(hù);高斯模型
一、引言
現(xiàn)如今,數(shù)據(jù)的傳播范圍變得更加廣泛,面臨的安全威脅也變得更多,數(shù)據(jù)在流轉(zhuǎn)使用過程中的每個環(huán)節(jié)均存在數(shù)據(jù)篡改、數(shù)據(jù)丟失等異常問題[1-2]。由于數(shù)據(jù)的影響范圍變廣、影響力變強(qiáng),一旦發(fā)生數(shù)據(jù)異常,許多場景會失控,造成難以估算的后果。因此,數(shù)據(jù)異常問題變得愈發(fā)引人關(guān)注,而準(zhǔn)確、高效地檢測這些異常值成為解決數(shù)據(jù)異常問題的關(guān)鍵。
近年來,針對數(shù)據(jù)異常中異常數(shù)據(jù)檢測的研究取得了進(jìn)展[3-11]。文獻(xiàn)[4]中提出了一個用于描述異?;顒訖z測的統(tǒng)計模型;文獻(xiàn)[5]提出了一種基于SDN的在線流量異常檢測方法;文獻(xiàn)[8]研究了加權(quán)條件熵在異常檢測中的應(yīng)用;文獻(xiàn)[9]提出了人工智能領(lǐng)域中針對異常圖像的檢測算法;文獻(xiàn)[11]提出了混沌RBF神經(jīng)網(wǎng)絡(luò)異常檢測算法;文獻(xiàn)[11]通過混合高斯模型與馬爾科夫鏈來檢測異常事件。
為了保證云端數(shù)據(jù)的機(jī)密性,將數(shù)據(jù)加密成為一個普遍的隱私保護(hù)選擇。由于加密數(shù)據(jù)本身具有隱蔽性與不規(guī)則性的特點(diǎn),若加密數(shù)據(jù)被異常,則更加難以將其檢測。然而,現(xiàn)有數(shù)據(jù)異常檢測技術(shù)大多數(shù)針對明文數(shù)據(jù),無法針對密文進(jìn)行數(shù)據(jù)異常檢測,影響了數(shù)據(jù)異常檢測技術(shù)在云環(huán)境中的實用性。針對上述提到的問題,本文提出一種云環(huán)境下基于密文的數(shù)據(jù)異常檢測隱私保護(hù)方案,其能夠滿足用戶對存儲在云服務(wù)器上的密文數(shù)據(jù)進(jìn)行異常檢測的需求。
該方案以基于高斯模型的異常檢測方法為基礎(chǔ)[12-13],利用期望、方差、F值等統(tǒng)計學(xué)技術(shù)與Paillier加密等密碼學(xué)手段,根據(jù)數(shù)據(jù)標(biāo)簽為每一類數(shù)據(jù)構(gòu)建了加密異常檢測索引與異常檢測令牌[14-15],在保護(hù)方案的語義安全且檢測索引和檢測令牌不泄露數(shù)據(jù)隱私的條件下,實現(xiàn)了對存儲在云上的密文數(shù)據(jù)的數(shù)據(jù)異常檢測,具有重要的理論價值。
二、PADC方案
(一)方案模型與形式化定義
PADC方案模型架構(gòu)如圖1所示,包含三個實體:數(shù)據(jù)擁有者、數(shù)據(jù)檢測者,云服務(wù)器。
下面分別介紹各實體的功能:
1.數(shù)據(jù)擁有者(DO)作為待檢測數(shù)據(jù)的擁有方,負(fù)責(zé)對數(shù)據(jù)進(jìn)行預(yù)處理,包括生成加密數(shù)據(jù)以及加密的異常檢測索引,并將其上傳至云服務(wù)器;
2.數(shù)據(jù)檢測者(DT)作為數(shù)據(jù)異常的檢測方,需要發(fā)送檢測請求及個人身份信息,得到數(shù)據(jù)擁有者的檢測授權(quán),并接受檢測令牌;
3.云服務(wù)器(Server)是一個誠實且好奇的實體,無法獲得敏感數(shù)據(jù)本身,只負(fù)責(zé)對加密數(shù)據(jù)及檢測索引存儲并協(xié)助數(shù)據(jù)檢測者進(jìn)行數(shù)據(jù)異常檢測。
PADC方案由五個算法組成,形式化定義為:.
(二)安全性定義
PADC方案中,認(rèn)為DO為可信實體,DT經(jīng)DO檢測認(rèn)證后同樣被認(rèn)為是可信的,也同樣認(rèn)為對數(shù)據(jù)使用的對稱加密算法是安全的,在這里不再對數(shù)據(jù)本身的安全性進(jìn)行討論。因此,PADC方案中需要提供的隱私保護(hù)包括兩部分:檢測索引安全以及檢測令牌安全,即Server無法通過檢測索引推出索引本身以及數(shù)據(jù)的相關(guān)信息,同時Server無法通過檢測令牌得到DT檢測的相關(guān)信息,包括檢測內(nèi)容、數(shù)量以及待檢測數(shù)據(jù)是否被檢測過。
定理1:如果方案基于的所有加密算法是語義安全的,則PADC方案是語義安全的。
三、方案詳細(xì)設(shè)計
根據(jù)上一章形式化定義,下面對PADC的五個算法分別進(jìn)行詳細(xì)描述。
(一)密鑰生成算法
為概率性算法。輸入安全參數(shù)λ,DO首先計算Paillier加密算法所需私鑰sk與公鑰pk,之后生成對稱加密密鑰K,用于對數(shù)據(jù)的加密,最后生成一個可逆矩陣M,偽隨機(jī)函數(shù)f與哈希函數(shù)
H( )。將M、K、f、H( )與sk私有,并將公鑰pk發(fā)布。最后,DT為自己生成Paillier加密所需要的密鑰 ,用于對簽名的驗證。密鑰生成算法執(zhí)行完畢。
(二)數(shù)據(jù)預(yù)處理算法
為概率性算法。DO首先使用對稱密鑰k對數(shù)據(jù)集D加密,得到加密數(shù)據(jù)D',并將其上傳至Server。接下來,DO對數(shù)據(jù)集進(jìn)行分類,假設(shè)數(shù)據(jù)共被分為 類,記數(shù)據(jù)標(biāo)簽為li。針對每一類數(shù)據(jù)集 ,即其為n維向量數(shù)據(jù),對數(shù)據(jù)樣本進(jìn)行處理(如:取對數(shù)),使其均服從高斯分布,即 ,對數(shù)據(jù)集進(jìn)行劃分為訓(xùn)練集、交叉驗證集以及測試集,劃分標(biāo)準(zhǔn)如圖2所示。
假設(shè)樣本個數(shù)為m,計算其每一維數(shù)據(jù)的期望與方差 ,其公式:
(1)
對每一類數(shù)據(jù)進(jìn)行訓(xùn)練后,利用數(shù)據(jù)標(biāo)簽與其期望、方差構(gòu)建異常檢測索引I,結(jié)構(gòu)如圖3所示。
最后利用交叉驗證集中的數(shù)據(jù)樣本,通過計算樣本F值,通過測試集中的數(shù)據(jù)對選擇的εi進(jìn)行測試,當(dāng)全部εi被確定后,利用其數(shù)據(jù)標(biāo)簽li與異常閾值εl構(gòu)建驗證字典。
(三)加密索引生成算法
為概率性算法。加密索引生成算法的工作是將異常檢測索引I加密成安全索引,算法如下所示:
1.利用偽隨機(jī)函數(shù)f加密每一個數(shù)據(jù)標(biāo)簽與其對應(yīng)的期望與方差的參數(shù)加密,生成加密標(biāo)簽與加密參數(shù) 。生成一系列隨機(jī)數(shù),然后將Ri填充至參數(shù)中,將填充后的參數(shù)列表生成一個多項式 。
2.計算多項式 的矢量 ,對其每一個多項式 中的系數(shù) 采用公鑰pk加密,得到 。將全部多項式參數(shù)加密完畢后,得到加密字典 。
3.利用Ω中的元素構(gòu)建字典矩陣M',將M'加密,得到MD=M·M'。令加密索引。
(四)令牌生成算法
為確定性算法。DT向DO發(fā)送異常檢測請求C,首先用個人私鑰skDT以及哈希函數(shù)H對待查詢的數(shù)據(jù)標(biāo)簽lq、個人身份信息ID與時間戳TS生成簽名 ,當(dāng)驗證成功后,DO首先根據(jù)lq生成數(shù)據(jù)異常檢測令牌T,生成算法如下:
1.記待查詢的數(shù)據(jù)標(biāo)簽集為Q,構(gòu)建多項式:
(2)
即多項式的根為所有不包含待檢測的數(shù)據(jù)標(biāo)簽。為了掩藏令牌的長度,將令牌固定為定長 ,并用隨機(jī)數(shù)填充多項式剩余部分。
2.對 中的每一個系數(shù) ,計算:
, (3)
3.DO根據(jù)待檢測數(shù)據(jù)標(biāo)簽lq找到DT中對應(yīng)的異常閾值εq,記T[3]=εq。令 ,生成三元組檢測令牌T。
DO將T發(fā)送至DT,令牌生成算法執(zhí)行完畢。
(五)異常檢測算法
為確定性算法。DT利用檢測令牌T對加密檢測索引對待檢測數(shù)據(jù)D(lq)進(jìn)行數(shù)據(jù)異常檢測,算法過程如下:
Server取出T[1]與MD,首先計算:
(4)
Server接下來取出T[2]對Y中的每一個參數(shù)γi,Server利用pk計算:
(5)
全部計算完畢后得到新矢量 。
Server計算 并將其發(fā)送至DT。DT在DO的協(xié)助下利用sk對R(x)解密,得到R'(x)。R'(x)的根即為lq對應(yīng)的檢測索引值,即DT得到了待檢測的數(shù)據(jù)對應(yīng)的期望與方差集。
DT利用Δ中的參數(shù)與待檢測數(shù)據(jù):
,計算:
(6)
取出T[3]與RS(x)對比,當(dāng)RS(x)<T[3]時,說明檢測數(shù)據(jù)被異常,記RS=ture;否則,說明數(shù)據(jù)合格,記RS=false。
四、安全性證明
本節(jié)對PADC方案根據(jù)第二章的安全性定義進(jìn)行安全性證明:
根據(jù)定理1,假設(shè)敵手A能夠以不可忽略的優(yōu)勢贏得前文所述的安全性實驗,采用P算法代替PADC方案中的加密操作(P為一個語義安全的算法,可以訪問隨機(jī)預(yù)言機(jī)Of ),然后通過第3章所述的安全性實驗來證明PADC方案的語義安全性。實驗結(jié)束后,A輸出參數(shù)ω'作為猜想。如果輸出的結(jié)果是0,則表示隨機(jī)預(yù)言機(jī)Of 中的f代表一個隨機(jī)算法,記Pr [Pf =0];否則f代表一個加法同態(tài)加密算法,記Pf =1。
如果f是一個隨機(jī)算法,則顯然有Pr [Pf =0]=1/2;如果f是一個加法同態(tài)加密算法,則敵手A與P輸出1的概率是相同的。因此,敵手贏得安全性實驗的優(yōu)勢與P區(qū)分語義安全加密算法的優(yōu)勢是相同的[29]。
接下來考慮算法的索引安全與令牌安全。令牌生成過程中,T[1]的系數(shù)被隨機(jī)矩陣加密,T[2]的系數(shù)中添加了隨機(jī)數(shù),不能被確定。因此,對于不同的檢測行為,令牌的值是不同的。因此,敵手無法通過檢測操作推測出多次檢測使用了相同的標(biāo)簽。
五、效率分析與實驗測試
本節(jié)通過模擬實驗對上述階段分別進(jìn)行測試,驗證效率分析。
首先根據(jù)Server中存儲的密文數(shù)據(jù)標(biāo)簽個數(shù)m,對PADC方案執(zhí)行的三個階段(檢測索引生成、檢測令牌生成、數(shù)據(jù)異常檢測)分別進(jìn)行效率測試,測試結(jié)果如圖4所示。
通過測試結(jié)果得出結(jié)論:隨著數(shù)據(jù)標(biāo)簽個數(shù)的遞增,檢測索引生成時間、檢測令牌生成時間與數(shù)據(jù)異常檢測時間也相應(yīng)遞增。
接下來根據(jù)Server中存儲的數(shù)據(jù)向量的最大維度n對PADC方案執(zhí)行的三個階段(檢測索引生成、檢測令牌生成、數(shù)據(jù)異常檢測)分別進(jìn)行效率測試,測試結(jié)果如圖5所示。
通過測試結(jié)果得出結(jié)論:隨著數(shù)據(jù)向量的最大維度的遞增,檢測索引生成時間與數(shù)據(jù)異常檢測時間也相應(yīng)遞增,接近于一個正比的關(guān)系。而檢測令牌生成時間與數(shù)據(jù)向量的最大維度的遞增關(guān)系不大,其生成效率接近于一個常數(shù)。
六、結(jié)束語
針對現(xiàn)有的方案大多不支持對存儲在云上的密文數(shù)據(jù)進(jìn)行數(shù)據(jù)異常檢測的問題,本文提出了一種云環(huán)境下基于密文的數(shù)據(jù)異常檢測方案,簡稱PADC。該方案以基于高斯模型的異常檢測方法為基礎(chǔ),根據(jù)數(shù)據(jù)的期望、方差等參數(shù)與Paillier同態(tài)加密、偽隨機(jī)函數(shù)等密碼學(xué)知識構(gòu)建加密的異常檢測索引與異常檢測令牌,通過每一類數(shù)據(jù)的異常檢測令牌實現(xiàn)了對存儲在云上的密文數(shù)據(jù)的異常檢測。通過安全性證明,該方案的算法是語義安全的.通過效率分析與實驗證明,該方案具有較低的計算開銷,具備良好的應(yīng)用前景。
作者單位:魏淑華 肖珂 張靜 北方工業(yè)大學(xué)
陳華平 宋鑫 奇安信集團(tuán)
魏淑華(1981.10.12-),女,漢族,山東聊城,博士,副教授,研究方向:芯片安全與芯片性能驗證;
肖珂(1980.11.01-),男,漢族,吉林松原,博士,教授,博導(dǎo),研究方向:網(wǎng)絡(luò)異常行為檢測;
張靜(1978.03.06-),女,漢族,北京,博士,教授,碩導(dǎo),研究方向:集成電路應(yīng)用、物聯(lián)網(wǎng)安全;
陳華平(1980.04.17-),男,漢族,遼寧沈陽,碩士,工程師,中國計算機(jī)學(xué)會專委會(CCF)委員,奇安信集團(tuán)創(chuàng)始合伙人、集團(tuán)副總裁,研究方向:集團(tuán)戰(zhàn)略、戰(zhàn)略情報、產(chǎn)業(yè)研究;
宋鑫(1977.05.16-),男,漢族,江蘇南通,碩士,現(xiàn)任奇安信集團(tuán)副總裁、軍團(tuán)委戰(zhàn)略合作部負(fù)責(zé)人,南京分公司黨支部書記。
參考文獻(xiàn)
[1]方國斌.數(shù)據(jù)污染的特征與影響分析[J].統(tǒng)計與咨詢,2007,(05):74-75.
[2]Chen C L P, Zhang C Y. Data-intensive applications, challenges, techniques and technologies: A survey on big data[J]. Information Sciences,2014, 275: 314–347.
[3]BAI Ning.An outlier detection method based on k-means clus—tering[J].Computer and Modernization,2014.
[4]V.Saligrama, J.Konrad,P.M.Jodoin.Video anomaly identification[J]. IEEE Signal Process,2010:1833.
[5]ZUO Qingyun,CHEN Ming,WANG Xiulei.Online traffic anomaly detection method for SDN[J].Journal of Xidian University,2015.
[6] C.Lu,J.Shi,J.Jia.Abnormal event detection at 150 fps in matlab[C].//Proceeding of the 2013 IEEE Internationa lConference on Computer Vision.Sydney,Australia,IEEE,2013:2720-2727.
[7]M.Bertini,A.Bimbo,L.Seidenari. Multi-scale and real-time non-parametric approach for anomaly detection and localization[J].Comput.Vis.Image Underst,2012 (116):320-329.
[8]HUANG Liang,ZHAO Zemao,LLANO Xingkai.Web data extraction based on edit distance[J].Journal of Computer Applications,2012,32(6):1662-1665.
[9]J.Wang,Z.Xu. Spatio-temporal texture modeling for real-time crowd anomaly detection[J].Comput.Vis.ImageUnderst,2016(144):177-187.
[10]H.Weng,P Chang.Chaotic RBF neural network anomaly detection algorithm [J].Computer Technology and Development.2014,24(7):29-33.
[11]R.Leyva,V.Sanchez,C.T.Li. Video anomaly detection with compact feature sets for online performance [J].IEEETrans.ImageProcess,2017(26):3463-3478.
[12]Xie S,Guan Y.Motion instability based unsupervised online abnormal behaviors detection[J].Multimedia Toolsand Applications,2016(12):7423-7444.
[13]連一峰,戴英俠,王航. 基于模式挖掘的用戶行為異常檢測[J]. 計算機(jī)學(xué)報, 2002, 25(3):325-330.
[14]Shehab D, Ammar H. Statistical detection of a panic behavior in crowded scenes[J].Machine Vision and Applications,2019(30):919-931.
[15]Yue G, Jun ping D,Meiyu. Abnormal event detection in tourism video based on salient spatio-temporal features and sparse combination learning [J].World Wide Web,2019(22):689-715.