工業(yè)云下基于密文的數(shù)據(jù)異常檢測隱私保護(hù)方案

2024-10-29 00:00:00魏淑華肖珂張靜陳華平宋鑫

中國新通信 2024年18期

摘要：隨著數(shù)據(jù)時代的到來，云服務(wù)器成為許多用戶和企業(yè)外包數(shù)據(jù)的頭號選擇，關(guān)于數(shù)據(jù)異常檢測問題的研究愈發(fā)地被人們重視。針對現(xiàn)有方案大多數(shù)不支持對云環(huán)境上密文數(shù)據(jù)的異常檢測的問題，本文提出了一種云環(huán)境下基于密文的數(shù)據(jù)異常檢測隱私保護(hù)方案（Privacy protection scheme for data anomaly detection based on ciphertext in cloud environment， PADC）。安全性分析證明，該方案的算法不會泄露數(shù)據(jù)明文、檢測索引以及檢測令牌的隱私信息，實現(xiàn)了隱私保護(hù)。效率分析與仿真實驗表明，該方案具有較低的計算開銷，具有良好的應(yīng)用前景。

關(guān)鍵詞：異常檢測；密文數(shù)據(jù)；云存儲；隱私保護(hù)；高斯模型

一、引言

現(xiàn)如今，數(shù)據(jù)的傳播范圍變得更加廣泛，面臨的安全威脅也變得更多，數(shù)據(jù)在流轉(zhuǎn)使用過程中的每個環(huán)節(jié)均存在數(shù)據(jù)篡改、數(shù)據(jù)丟失等異常問題[1-2]。由于數(shù)據(jù)的影響范圍變廣、影響力變強(qiáng)，一旦發(fā)生數(shù)據(jù)異常，許多場景會失控，造成難以估算的后果。因此，數(shù)據(jù)異常問題變得愈發(fā)引人關(guān)注，而準(zhǔn)確、高效地檢測這些異常值成為解決數(shù)據(jù)異常問題的關(guān)鍵。

近年來，針對數(shù)據(jù)異常中異常數(shù)據(jù)檢測的研究取得了進(jìn)展[3-11]。文獻(xiàn)[4]中提出了一個用于描述異?；顒訖z測的統(tǒng)計模型；文獻(xiàn)[5]提出了一種基于SDN的在線流量異常檢測方法；文獻(xiàn)[8]研究了加權(quán)條件熵在異常檢測中的應(yīng)用；文獻(xiàn)[9]提出了人工智能領(lǐng)域中針對異常圖像的檢測算法；文獻(xiàn)[11]提出了混沌RBF神經(jīng)網(wǎng)絡(luò)異常檢測算法；文獻(xiàn)[11]通過混合高斯模型與馬爾科夫鏈來檢測異常事件。

為了保證云端數(shù)據(jù)的機(jī)密性，將數(shù)據(jù)加密成為一個普遍的隱私保護(hù)選擇。由于加密數(shù)據(jù)本身具有隱蔽性與不規(guī)則性的特點(diǎn)，若加密數(shù)據(jù)被異常，則更加難以將其檢測。然而，現(xiàn)有數(shù)據(jù)異常檢測技術(shù)大多數(shù)針對明文數(shù)據(jù)，無法針對密文進(jìn)行數(shù)據(jù)異常檢測，影響了數(shù)據(jù)異常檢測技術(shù)在云環(huán)境中的實用性。針對上述提到的問題，本文提出一種云環(huán)境下基于密文的數(shù)據(jù)異常檢測隱私保護(hù)方案，其能夠滿足用戶對存儲在云服務(wù)器上的密文數(shù)據(jù)進(jìn)行異常檢測的需求。

該方案以基于高斯模型的異常檢測方法為基礎(chǔ)[12-13]，利用期望、方差、F值等統(tǒng)計學(xué)技術(shù)與Paillier加密等密碼學(xué)手段，根據(jù)數(shù)據(jù)標(biāo)簽為每一類數(shù)據(jù)構(gòu)建了加密異常檢測索引與異常檢測令牌[14-15]，在保護(hù)方案的語義安全且檢測索引和檢測令牌不泄露數(shù)據(jù)隱私的條件下，實現(xiàn)了對存儲在云上的密文數(shù)據(jù)的數(shù)據(jù)異常檢測，具有重要的理論價值。

二、PADC方案

（一）方案模型與形式化定義

PADC方案模型架構(gòu)如圖1所示，包含三個實體：數(shù)據(jù)擁有者、數(shù)據(jù)檢測者，云服務(wù)器。

下面分別介紹各實體的功能：

1.數(shù)據(jù)擁有者（DO）作為待檢測數(shù)據(jù)的擁有方，負(fù)責(zé)對數(shù)據(jù)進(jìn)行預(yù)處理，包括生成加密數(shù)據(jù)以及加密的異常檢測索引，并將其上傳至云服務(wù)器；

2.數(shù)據(jù)檢測者（DT）作為數(shù)據(jù)異常的檢測方，需要發(fā)送檢測請求及個人身份信息，得到數(shù)據(jù)擁有者的檢測授權(quán)，并接受檢測令牌；

3.云服務(wù)器（Server）是一個誠實且好奇的實體，無法獲得敏感數(shù)據(jù)本身，只負(fù)責(zé)對加密數(shù)據(jù)及檢測索引存儲并協(xié)助數(shù)據(jù)檢測者進(jìn)行數(shù)據(jù)異常檢測。

PADC方案由五個算法組成，形式化定義為：.

（二）安全性定義

PADC方案中，認(rèn)為DO為可信實體，DT經(jīng)DO檢測認(rèn)證后同樣被認(rèn)為是可信的，也同樣認(rèn)為對數(shù)據(jù)使用的對稱加密算法是安全的，在這里不再對數(shù)據(jù)本身的安全性進(jìn)行討論。因此，PADC方案中需要提供的隱私保護(hù)包括兩部分：檢測索引安全以及檢測令牌安全，即Server無法通過檢測索引推出索引本身以及數(shù)據(jù)的相關(guān)信息，同時Server無法通過檢測令牌得到DT檢測的相關(guān)信息，包括檢測內(nèi)容、數(shù)量以及待檢測數(shù)據(jù)是否被檢測過。

定理1：如果方案基于的所有加密算法是語義安全的，則PADC方案是語義安全的。

三、方案詳細(xì)設(shè)計

根據(jù)上一章形式化定義，下面對PADC的五個算法分別進(jìn)行詳細(xì)描述。

（一）密鑰生成算法

為概率性算法。輸入安全參數(shù)λ，DO首先計算Paillier加密算法所需私鑰sk與公鑰pk，之后生成對稱加密密鑰K，用于對數(shù)據(jù)的加密，最后生成一個可逆矩陣M，偽隨機(jī)函數(shù)f與哈希函數(shù)

H（）。將M、K、f、H（）與sk私有，并將公鑰pk發(fā)布。最后，DT為自己生成Paillier加密所需要的密鑰，用于對簽名的驗證。密鑰生成算法執(zhí)行完畢。

（二）數(shù)據(jù)預(yù)處理算法

為概率性算法。DO首先使用對稱密鑰k對數(shù)據(jù)集D加密，得到加密數(shù)據(jù)D'，并將其上傳至Server。接下來，DO對數(shù)據(jù)集進(jìn)行分類，假設(shè)數(shù)據(jù)共被分為類，記數(shù)據(jù)標(biāo)簽為li。針對每一類數(shù)據(jù)集，即其為n維向量數(shù)據(jù)，對數(shù)據(jù)樣本進(jìn)行處理（如：取對數(shù)），使其均服從高斯分布，即，對數(shù)據(jù)集進(jìn)行劃分為訓(xùn)練集、交叉驗證集以及測試集，劃分標(biāo)準(zhǔn)如圖2所示。

假設(shè)樣本個數(shù)為m，計算其每一維數(shù)據(jù)的期望與方差，其公式：

（1）

對每一類數(shù)據(jù)進(jìn)行訓(xùn)練后，利用數(shù)據(jù)標(biāo)簽與其期望、方差構(gòu)建異常檢測索引I，結(jié)構(gòu)如圖3所示。

最后利用交叉驗證集中的數(shù)據(jù)樣本，通過計算樣本F值，通過測試集中的數(shù)據(jù)對選擇的εi進(jìn)行測試，當(dāng)全部εi被確定后，利用其數(shù)據(jù)標(biāo)簽li與異常閾值εl構(gòu)建驗證字典。

（三）加密索引生成算法

為概率性算法。加密索引生成算法的工作是將異常檢測索引I加密成安全索引，算法如下所示：

1.利用偽隨機(jī)函數(shù)f加密每一個數(shù)據(jù)標(biāo)簽與其對應(yīng)的期望與方差的參數(shù)加密，生成加密標(biāo)簽與加密參數(shù) 。生成一系列隨機(jī)數(shù)，然后將Ri填充至參數(shù)中，將填充后的參數(shù)列表生成一個多項式。

2.計算多項式的矢量，對其每一個多項式中的系數(shù) 采用公鑰pk加密，得到。將全部多項式參數(shù)加密完畢后，得到加密字典。

3.利用Ω中的元素構(gòu)建字典矩陣M'，將M'加密，得到MD=M·M'。令加密索引。

（四）令牌生成算法

為確定性算法。DT向DO發(fā)送異常檢測請求C，首先用個人私鑰skDT以及哈希函數(shù)H對待查詢的數(shù)據(jù)標(biāo)簽lq、個人身份信息ID與時間戳TS生成簽名，當(dāng)驗證成功后，DO首先根據(jù)lq生成數(shù)據(jù)異常檢測令牌T，生成算法如下：

1.記待查詢的數(shù)據(jù)標(biāo)簽集為Q，構(gòu)建多項式：

（2）

即多項式的根為所有不包含待檢測的數(shù)據(jù)標(biāo)簽。為了掩藏令牌的長度，將令牌固定為定長，并用隨機(jī)數(shù)填充多項式剩余部分。

2.對中的每一個系數(shù) ，計算：

，（3）

3.DO根據(jù)待檢測數(shù)據(jù)標(biāo)簽lq找到DT中對應(yīng)的異常閾值εq，記T[3]=εq。令，生成三元組檢測令牌T。

DO將T發(fā)送至DT，令牌生成算法執(zhí)行完畢。

（五）異常檢測算法

為確定性算法。DT利用檢測令牌T對加密檢測索引對待檢測數(shù)據(jù)D（lq）進(jìn)行數(shù)據(jù)異常檢測，算法過程如下：

Server取出T[1]與MD，首先計算：

（4）

Server接下來取出T[2]對Y中的每一個參數(shù)γi，Server利用pk計算：

（5）

全部計算完畢后得到新矢量。

Server計算并將其發(fā)送至DT。DT在DO的協(xié)助下利用sk對R（x）解密，得到R'（x）。R'（x）的根即為lq對應(yīng)的檢測索引值，即DT得到了待檢測的數(shù)據(jù)對應(yīng)的期望與方差集。

DT利用Δ中的參數(shù)與待檢測數(shù)據(jù)：

，計算：

（6）

取出T[3]與RS（x）對比，當(dāng)RS（x）＜T[3]時，說明檢測數(shù)據(jù)被異常，記RS=ture；否則，說明數(shù)據(jù)合格，記RS=false。

四、安全性證明

本節(jié)對PADC方案根據(jù)第二章的安全性定義進(jìn)行安全性證明：

根據(jù)定理1，假設(shè)敵手A能夠以不可忽略的優(yōu)勢贏得前文所述的安全性實驗，采用P算法代替PADC方案中的加密操作（P為一個語義安全的算法，可以訪問隨機(jī)預(yù)言機(jī)Of ），然后通過第3章所述的安全性實驗來證明PADC方案的語義安全性。實驗結(jié)束后，A輸出參數(shù)ω'作為猜想。如果輸出的結(jié)果是0，則表示隨機(jī)預(yù)言機(jī)Of 中的f代表一個隨機(jī)算法，記Pr [Pf =0]；否則f代表一個加法同態(tài)加密算法，記Pf =1。

如果f是一個隨機(jī)算法，則顯然有Pr [Pf =0]=1/2；如果f是一個加法同態(tài)加密算法，則敵手A與P輸出1的概率是相同的。因此，敵手贏得安全性實驗的優(yōu)勢與P區(qū)分語義安全加密算法的優(yōu)勢是相同的[29]。

接下來考慮算法的索引安全與令牌安全。令牌生成過程中，T[1]的系數(shù)被隨機(jī)矩陣加密，T[2]的系數(shù)中添加了隨機(jī)數(shù)，不能被確定。因此，對于不同的檢測行為，令牌的值是不同的。因此，敵手無法通過檢測操作推測出多次檢測使用了相同的標(biāo)簽。

五、效率分析與實驗測試

本節(jié)通過模擬實驗對上述階段分別進(jìn)行測試，驗證效率分析。

首先根據(jù)Server中存儲的密文數(shù)據(jù)標(biāo)簽個數(shù)m，對PADC方案執(zhí)行的三個階段（檢測索引生成、檢測令牌生成、數(shù)據(jù)異常檢測）分別進(jìn)行效率測試，測試結(jié)果如圖4所示。

通過測試結(jié)果得出結(jié)論：隨著數(shù)據(jù)標(biāo)簽個數(shù)的遞增，檢測索引生成時間、檢測令牌生成時間與數(shù)據(jù)異常檢測時間也相應(yīng)遞增。

接下來根據(jù)Server中存儲的數(shù)據(jù)向量的最大維度n對PADC方案執(zhí)行的三個階段（檢測索引生成、檢測令牌生成、數(shù)據(jù)異常檢測）分別進(jìn)行效率測試，測試結(jié)果如圖5所示。

通過測試結(jié)果得出結(jié)論：隨著數(shù)據(jù)向量的最大維度的遞增，檢測索引生成時間與數(shù)據(jù)異常檢測時間也相應(yīng)遞增，接近于一個正比的關(guān)系。而檢測令牌生成時間與數(shù)據(jù)向量的最大維度的遞增關(guān)系不大，其生成效率接近于一個常數(shù)。

六、結(jié)束語

針對現(xiàn)有的方案大多不支持對存儲在云上的密文數(shù)據(jù)進(jìn)行數(shù)據(jù)異常檢測的問題，本文提出了一種云環(huán)境下基于密文的數(shù)據(jù)異常檢測方案，簡稱PADC。該方案以基于高斯模型的異常檢測方法為基礎(chǔ)，根據(jù)數(shù)據(jù)的期望、方差等參數(shù)與Paillier同態(tài)加密、偽隨機(jī)函數(shù)等密碼學(xué)知識構(gòu)建加密的異常檢測索引與異常檢測令牌，通過每一類數(shù)據(jù)的異常檢測令牌實現(xiàn)了對存儲在云上的密文數(shù)據(jù)的異常檢測。通過安全性證明，該方案的算法是語義安全的.通過效率分析與實驗證明，該方案具有較低的計算開銷，具備良好的應(yīng)用前景。

作者單位：魏淑華肖珂張靜北方工業(yè)大學(xué)

陳華平宋鑫奇安信集團(tuán)

魏淑華（1981.10.12-），女，漢族，山東聊城，博士，副教授，研究方向：芯片安全與芯片性能驗證；

肖珂（1980.11.01-），男，漢族，吉林松原，博士，教授，博導(dǎo)，研究方向：網(wǎng)絡(luò)異常行為檢測；

張靜（1978.03.06-），女，漢族，北京，博士，教授，碩導(dǎo)，研究方向：集成電路應(yīng)用、物聯(lián)網(wǎng)安全；

陳華平（1980.04.17-），男，漢族，遼寧沈陽，碩士，工程師，中國計算機(jī)學(xué)會專委會（CCF）委員，奇安信集團(tuán)創(chuàng)始合伙人、集團(tuán)副總裁，研究方向：集團(tuán)戰(zhàn)略、戰(zhàn)略情報、產(chǎn)業(yè)研究；

宋鑫（1977.05.16-），男，漢族，江蘇南通，碩士，現(xiàn)任奇安信集團(tuán)副總裁、軍團(tuán)委戰(zhàn)略合作部負(fù)責(zé)人，南京分公司黨支部書記。

參考文獻(xiàn)

[1]方國斌.數(shù)據(jù)污染的特征與影響分析[J].統(tǒng)計與咨詢，2007，（05）：74-75.

[2]Chen C L P， Zhang C Y. Data-intensive applications， challenges， techniques and technologies： A survey on big data[J]. Information Sciences，2014， 275： 314–347.

[3]BAI Ning．An outlier detection method based on k-means clus—tering[J]．Computer and Modernization，2014.

[4]V.Saligrama， J.Konrad，P.M.Jodoin.Video anomaly identification[J]. IEEE Signal Process，2010：1833.

[5]ZUO Qingyun，CHEN Ming，WANG Xiulei．Online traffic anomaly detection method for SDN[J]．Journal of Xidian University，2015.

[6] C.Lu，J.Shi，J.Jia.Abnormal event detection at 150 fps in matlab[C].//Proceeding of the 2013 IEEE Internationa lConference on Computer Vision.Sydney，Australia，IEEE，2013：2720-2727.

[7]M.Bertini，A.Bimbo，L.Seidenari. Multi-scale and real-time non-parametric approach for anomaly detection and localization[J].Comput.Vis.Image Underst，2012 （116）：320-329.

[8]HUANG Liang，ZHAO Zemao，LLANO Xingkai．Web data extraction based on edit distance[J]．Journal of Computer Applications，2012，32（6）：1662-1665.

[9]J.Wang，Z.Xu. Spatio-temporal texture modeling for real-time crowd anomaly detection[J].Comput.Vis.ImageUnderst，2016（144）：177-187.

[10]H.Weng，P Chang．Chaotic RBF neural network anomaly detection algorithm [J]．Computer Technology and Development．2014，24（7）：29-33.

[11]R.Leyva，V.Sanchez，C.T.Li. Video anomaly detection with compact feature sets for online performance [J].IEEETrans.ImageProcess，2017（26）：3463-3478.

[12]Xie S，Guan Y.Motion instability based unsupervised online abnormal behaviors detection[J].Multimedia Toolsand Applications，2016（12）：7423-7444.

[13]連一峰，戴英俠，王航. 基于模式挖掘的用戶行為異常檢測[J]. 計算機(jī)學(xué)報， 2002， 25（3）：325-330.

[14]Shehab D， Ammar H. Statistical detection of a panic behavior in crowded scenes[J].Machine Vision and Applications，2019（30）：919-931.

[15]Yue G， Jun ping D，Meiyu. Abnormal event detection in tourism video based on salient spatio-temporal features and sparse combination learning [J].World Wide Web，2019（22）：689-715.

中國新通信2024年18期

中國新通信的其它文章: 信息技術(shù)背景下小學(xué)美術(shù)教學(xué)創(chuàng)新模式探討; 信息化背景下初中化學(xué)核心素養(yǎng)培養(yǎng)路徑研究; 大數(shù)據(jù)背景下高中音樂課堂教學(xué)模式創(chuàng)新研究; “互聯(lián)網(wǎng)+”背景下小學(xué)音樂體態(tài)律動課程教學(xué)探究; 信息技術(shù)與小學(xué)音樂課堂教學(xué)的有效融合探析; 信息技術(shù)背景下小學(xué)美術(shù)課堂教學(xué)改進(jìn)策略探析