• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于信息熵的傳感器數(shù)據(jù)異常檢測方法

      2018-10-19 05:34:30田黎明張冬梅
      軟件 2018年9期
      關(guān)鍵詞:誤報率信息熵數(shù)據(jù)流

      田黎明,張冬梅

      ?

      一種基于信息熵的傳感器數(shù)據(jù)異常檢測方法

      田黎明,張冬梅

      (北京郵電大學 網(wǎng)絡(luò)空間安全學院,北京 100876)

      傳感器數(shù)據(jù)采集作為系統(tǒng)感知信息和獲取數(shù)據(jù)的重要手段,其數(shù)據(jù)的真實性和可靠性至關(guān)重要,數(shù)據(jù)異常檢測能提升數(shù)據(jù)的質(zhì)量,挖掘出數(shù)據(jù)的潛在信息。基于分類、聚類等的檢測方法依賴于數(shù)據(jù)的空間相關(guān)性,且復(fù)雜度很高,不適用于智能家居等小型物聯(lián)網(wǎng)環(huán)境?;跀?shù)據(jù)距離的檢測方法適用于此場景,但是存在誤報率高的問題。針對這些問題,本文將傳感器滑動窗口內(nèi)的數(shù)據(jù)值作為離散隨機變量,定義了數(shù)據(jù)流的信息熵,在此基礎(chǔ)上提出了一種通過計算滑動窗口內(nèi)信息熵進而檢測數(shù)據(jù)異常的方法。模擬實驗表明,本文提出的方法能高效地檢測異常,并且有更高的檢測率及更低的誤報率,符合預(yù)期結(jié)果。

      信息熵;滑動窗口;異常概率;異常檢測;時間相關(guān)性;統(tǒng)計特征

      0 引言

      傳感器作為系統(tǒng)感知信息和獲取數(shù)據(jù)的重要設(shè)備,在生態(tài)環(huán)境監(jiān)測、工農(nóng)業(yè)生產(chǎn)監(jiān)控乃至國防軍工等領(lǐng)域都有廣泛的應(yīng)用。由于傳感器部署區(qū)域不確定且設(shè)備資源有限,其易受到外界因素的干擾和破壞,故廣泛存在傳感器數(shù)據(jù)的不可靠性問題,如何保障和提高傳感器數(shù)據(jù)的質(zhì)量是一個亟需解決的問題。

      當前針對傳感器數(shù)據(jù)異常檢測的研究集中于無線傳感器網(wǎng)絡(luò)(WSN)環(huán)境[1]。在WSN環(huán)境下,為了提高系統(tǒng)整體的可用性,大量的無線傳感器被分散部署在能量和帶寬均受限的地區(qū),這些傳感器節(jié)點密集組網(wǎng)、相互協(xié)作地提供數(shù)據(jù)服務(wù)。在該環(huán)境下可以利用不同傳感器節(jié)點數(shù)據(jù)流的時間與空間相關(guān)性進行異常檢測[2]。但是將這些檢測方法應(yīng)用于一些智能家居或智能樓宇等小型物聯(lián)網(wǎng)環(huán)境時,由于環(huán)境中部署的同類型傳感器節(jié)點數(shù)量少,數(shù)據(jù)的空間相關(guān)性不足,基于空間相關(guān)性進行檢測不僅增加方法的復(fù)雜度,而且檢測效果也不理想。在該場景下,應(yīng)綜合利用數(shù)據(jù)的時間相關(guān)性和統(tǒng)計特性對數(shù)據(jù)進行異常檢測。

      本文結(jié)構(gòu)如下:第一部分綜述傳感器網(wǎng)絡(luò)領(lǐng)域現(xiàn)有的數(shù)據(jù)異常檢測方法;第二部分介紹本文的相關(guān)定義;第三部分詳細闡述以信息熵為基礎(chǔ)的異常檢測方法的檢測原理和具體設(shè)計;第四部分通過實驗驗證方法的效果。

      1 相關(guān)工作

      無線傳感器網(wǎng)絡(luò)領(lǐng)域內(nèi)的數(shù)據(jù)異常檢測方法主要分為以統(tǒng)計為基礎(chǔ)的、以距離為基礎(chǔ)的、以分類為基礎(chǔ)的和以聚類為基礎(chǔ)的。

      文獻[3]提出通過計算數(shù)據(jù)的變寬直方圖進行異常數(shù)據(jù)檢測,即采用數(shù)據(jù)融合的技術(shù)將網(wǎng)絡(luò)中的動態(tài)數(shù)據(jù)聚合為變寬直方圖進而檢測出異常數(shù)據(jù)。文獻[4]提出一種基于假設(shè)數(shù)學統(tǒng)計模型和核密度函數(shù)的異常檢測方法。但該型方法需要傳感器數(shù)據(jù)分布的先驗知識,依賴于確定的數(shù)學模型,存在局限性,通用性弱。文獻[5~7]提出通過計算數(shù)據(jù)實例間的距離來判斷數(shù)據(jù)異常的方法,這種類型的方法便于理解和實現(xiàn),但在檢測因開啟空調(diào)等引起數(shù)據(jù)正常變化的情況時存在誤報率過高的問題,有進一步改進算法的空間。文獻[8]提出一種基于SVM(Support Vector Machine)的異常檢測算法,該算法先使用訓(xùn)練數(shù)據(jù)集來學習出一個分類模型,然后將數(shù)據(jù)實例分到所學習的類中,數(shù)據(jù)所屬的類數(shù)據(jù)較少時或不屬于任何分類時就被認為是異常數(shù)據(jù)。該算法需要較大的數(shù)據(jù)樣本作為訓(xùn)練集,樣本的數(shù)量會成為算法的瓶頸,而且異常檢測的效果不理想。文獻[9]提出了一種基于K-means算法的異常檢測算法,該算法通過將相似的數(shù)據(jù)實例分到具有相似行為的數(shù)據(jù)簇中來實現(xiàn)對異常的檢測。該方法基于數(shù)據(jù)的空間相關(guān)性,未能引入和利用數(shù)據(jù)流的統(tǒng)計特征。文獻[10]提出一種通過結(jié)合K-means算法和FP增長算法進行異常檢測的算法,該方法先對數(shù)據(jù)建模,而后檢測異常數(shù)據(jù)。該方法聚類中心位置與數(shù)量的選擇對檢測結(jié)果有很大的影響,算法檢測效果不穩(wěn)定,復(fù)雜度很高。文獻[11]提出了一種利用多模態(tài)數(shù)據(jù)流的相干性進行異常檢測的方法,該方法只適用于高數(shù)據(jù)維度的數(shù)據(jù)流,在數(shù)據(jù)維度低時的效果不好。文獻[12,13]提出基于分布式計算進行異常檢測的方法,該類型方法在大型分布式環(huán)境下具有良好的檢測效果,但是算法復(fù)雜不易實現(xiàn),不適合部署在家居環(huán)境中。

      在無線傳感器網(wǎng)絡(luò)領(lǐng)域,數(shù)據(jù)異常檢測常通過檢測數(shù)據(jù)之間的時間、空間相關(guān)性來實現(xiàn)。但是在特定的小型物聯(lián)網(wǎng)環(huán)境下,同類型傳感器節(jié)點數(shù)量不足,利用數(shù)據(jù)流的時序特征進行檢測有更好的效果?,F(xiàn)有的基于距離的檢測方法適用于此場景,但是對數(shù)據(jù)流等距正常變化的場景存在誤報率高的問題。本文針對該場景和現(xiàn)有方法的缺陷,設(shè)計了一種基于信息熵的傳感器數(shù)據(jù)異常檢測方法。相比文獻中提及的方法,該方法不需要額外的傳感器節(jié)點提供數(shù)據(jù),節(jié)省了通訊、存儲和計算的開支,并引入了滑動窗口,通過計算信息熵改進了在空調(diào)開啟時引起數(shù)據(jù)流等距變化等正常場景下的檢測,降低了誤報率。在單傳感器數(shù)據(jù)流的環(huán)境下,可高效準確地檢測到數(shù)據(jù)異常。

      2 相關(guān)定義

      即傳感器數(shù)據(jù)流的時間序列具有無限延展性,但傳感器節(jié)點的存儲空間和計算能力有限,故本文利用滑動窗口模型對數(shù)據(jù)流進行處理。

      2.1 滑動窗口模型

      2.2 信息熵

      信息熵(Information entropy)是系統(tǒng)中數(shù)據(jù)有序程度的度量,和離散隨機變量出現(xiàn)概率相關(guān),即一個系統(tǒng)越是有序,分布越集中,信息熵就越小,反之,一個系統(tǒng)越是混亂無序,分布越平均,信息熵就越大。通常在正常數(shù)據(jù)的鄰域里,數(shù)據(jù)有序且緊湊,信息熵保持穩(wěn)定,而在異常數(shù)據(jù)的鄰域里,信息熵出現(xiàn)較大波動[14]。

      2.3 數(shù)據(jù)距離

      3 異常檢測算法

      本文異常檢測的對象為單個傳感器節(jié)點,首先獲取一段時間內(nèi)的數(shù)據(jù)序列,然后計算得到滑動窗口信息熵序列,再計算出滑動窗口內(nèi)數(shù)據(jù)值異常概率和信息熵異常概率,最后通過計算聯(lián)合異常概率判斷數(shù)據(jù)流是否發(fā)生異常。當傳感器節(jié)點的聯(lián)合異常概率過高時,可以認為發(fā)生了數(shù)據(jù)異常。

      對于一個溫度傳感器,其每天的溫度數(shù)據(jù)均遵循著相同的規(guī)律,溫度采樣值在此基礎(chǔ)上小幅波動。其數(shù)據(jù)值序列具有時序特征,在時間上存在相關(guān)性,信息熵序列反映了數(shù)據(jù)流的統(tǒng)計特征,具有統(tǒng)計特征的相關(guān)性。通過綜合計算數(shù)據(jù)值異常概率和信息熵異常概率,達到了綜合利用數(shù)據(jù)流的時間相關(guān)性及統(tǒng)計特征的目的,從而可以更加準確地檢測出異常數(shù)據(jù)。

      3.1 滑動窗口信息熵序列計算

      在抽樣概率的基礎(chǔ)上計算滑動窗口信息熵:

      隨著窗口滑動,依次計算窗口數(shù)據(jù)的信息熵,故信息熵的時間序列可表示為:

      3.2 異常概率計算

      在文獻[15]中,Knorr EM等人提出一種通過計算數(shù)據(jù)對象之間距離進行異常檢測的方法,這種方法對數(shù)據(jù)異常的定義為:在數(shù)據(jù)集中,對于一個數(shù)據(jù)對象,在距離的圓內(nèi)存在的數(shù)據(jù)對象數(shù)小于,則認為是異常。在每個檢測條件下都存在一個相鄰數(shù)據(jù)對象數(shù)閾值k且相互獨立,故難以在多個檢測條件下進行綜合判定。本文在上述基礎(chǔ)上,定義了異常概率與聯(lián)合異常概率,使之適用于多條件下異常的綜合判定,從而應(yīng)用于數(shù)據(jù)流時間相關(guān)性及統(tǒng)計特征的綜合利用。

      假設(shè)數(shù)據(jù)集中有個數(shù)據(jù)對象,若對于數(shù)據(jù)集中一個數(shù)據(jù)對象O,中存在個數(shù)據(jù)對象與對象的距離大于,則定義數(shù)據(jù)對象的異常概率p為/。其中取數(shù)據(jù)集的標準差。

      圖2 滑動窗口示意圖

      如圖2所示,滑動窗口大小為5。對于數(shù)據(jù)對象7,在窗口內(nèi)的鄰居對象為(3,4,5),不相鄰的對象為6,數(shù)據(jù)點7的數(shù)據(jù)值異常概率為20%。

      3.3 異常判定

      如果滿足下式,那么該測量值可能為異常數(shù)據(jù)。

      4 仿真與實驗結(jié)果

      4.1 實驗環(huán)境與評價指標

      實驗環(huán)境:Intel Core 4代i5-4210H筆記本,8G內(nèi)存,256G硬盤,操作系統(tǒng)為Windows 10,使用python軟件平臺對所提出的算法進行仿真分析。實驗數(shù)據(jù)來自于研究領(lǐng)域共同認可的英特爾伯克利研究所傳感器數(shù)據(jù)集,并通過向其中注入異常數(shù)據(jù)產(chǎn)生帶有數(shù)據(jù)異常標簽的數(shù)據(jù)流。實驗中滑動窗口的大小分別選擇為200、400、600、800和1000。

      評價指標:本文選擇檢測率和誤報率作為算法的主要評價指標。檢測率TP(True Positive rate)是指算法檢測到的異常數(shù)據(jù)樣本數(shù)與實際的異常數(shù)據(jù)樣本總數(shù)的比值;誤報率FP(False Positive rate)是指算法將正常數(shù)據(jù)誤判為異常數(shù)據(jù)的樣本數(shù)與正常數(shù)據(jù)樣本總數(shù)的比值[16]。

      4.2 檢測率與誤報率結(jié)果分析

      本文設(shè)計的異常檢測算法綜合利用了數(shù)據(jù)流的時間相關(guān)性及統(tǒng)計特征,因此選擇將本文方法(方案1)與僅利用數(shù)據(jù)距離的檢測方法[6](方案2)以及僅利用信息熵距離的檢測方法(方案3)進行對比。分別基于方案1、方案2、方案3進行實驗,每次實驗時滑動窗口的大小分別設(shè)定為200、400、600、800和1000。實驗的檢測率對比結(jié)果如圖2所示,誤報率對比結(jié)果如圖3所示。

      圖3 檢測率對比

      圖4 誤報率對比

      從結(jié)果中可以看出,方案1檢測率和誤報率的表現(xiàn)都優(yōu)于方案2和方案3。在滑動窗口值起始較小時,隨著滑動窗口的增大,方案1的檢測率比方案2的提升幅度更大,誤報率也有更大幅度地下降。當滑動窗口增大到800后,方案1的檢測率和誤報率性能不再明顯提升,此時達到了該算法的瓶頸。從算法穩(wěn)定性上看,隨滑動窗口的增大,方案1和方案3檢測率穩(wěn)定上升,誤報率穩(wěn)步下降,而方案2出現(xiàn)了一定的波動。基于上述實驗接軌,本文采用的方法有更高的檢測率、更低的誤報率和更佳的穩(wěn)定性。

      5 結(jié)論

      本文針對智能家居傳感器等小型物聯(lián)網(wǎng)應(yīng)用場景,結(jié)合現(xiàn)有的研究方法和成果,提出了一種基于信息熵的滑動窗口內(nèi)異常檢測算法。該方法通過綜合利用單傳感器數(shù)據(jù)流的時間相關(guān)性及統(tǒng)計特征,可以更加準確地區(qū)分數(shù)據(jù)流的正常和異常變化,相比現(xiàn)有的僅利用數(shù)據(jù)距離進行判定的檢測方法,提高了檢測率的同時降低了誤報率。實驗結(jié)果表明,該方法在大數(shù)據(jù)規(guī)模下具有理想的檢測效果。該方法計算聯(lián)合異常概率時需要權(quán)重參數(shù),未來需要對參數(shù)的選擇依據(jù)進行研究,進一步提升方法的檢測率,降低誤報率。

      [1] Branch J W, Giannella C, Szymanski B, et al. In-network outlier detection in wireless sensor networks[J]. Knowledge and information systems, 2013, 34(1): 23?54.

      [2] 崔莉, 鞠海玲, 苗勇等. 無線傳感器網(wǎng)絡(luò)研究進展[J]. 計算機研究與發(fā)展, 2005, 42(1): 163?174.

      [3] 姜旭寶, 李光耀, 連朔.基于變寬直方圖的無線傳感器網(wǎng)絡(luò)異常數(shù)據(jù)檢測算法[J].計算機應(yīng)用, 2011, 31(3): 694-697

      [4] Samparthi V S K, Verma H K. Outlier Detection of Data in Wireless Sensor Networks Using Kernel Density Estimation[J]. International Journal of Computer Applications, 2010, 5(6): 28-32.

      [5] 趙學良, 朱慶生. 基于距離的數(shù)據(jù)流離群點快速檢測[J].世界科技研究與發(fā)展, 2013, 35(4): 462-464.

      [6] 龍瀅, 裘曉峰. 基于滑動窗口的單傳感器數(shù)據(jù)異常檢測[J]. 軟件, 2014, 35(12): 49-57

      [7] Oussama Ghorbel, Walid Ayedi, Hichem Snoussi, Mohamed Abid. Fast and Efficient Outlier Detection Method in Wire-less Sensor Networks. IEEE Sensors Journal, 2015, 15(6): 3403 - 3411

      [8] Zhang Y, Meratnia N, Havinga P J M. Distributed Online Outlier Detection in Wireless Sensor Networks Using Ellipsoidal Support Vector Machine[J]. Ad Hoc Networks, 2013, 11(3): 1062-1074

      [9] Kiss I, Genge B, Haller P, et al. Data clustering-based anomaly detection in industrial control systems[C]//Proc of International Conference on Intelligent Computer Comm-unication and Processing. 2014: 275-281

      [10] Elijorde F, Kim S, Lee J. A wind turbine fault detection approach based on cluster analysis and frequent pattern mining[J]. Ksii Transactions on Internet & Information Systems, 2014, 8(2): 664-677

      [11] 費歡, 肖甫, 李光輝等. 基于多模態(tài)數(shù)據(jù)流的無線傳感器網(wǎng)絡(luò)異常檢測方法[J]. 計算機學報, 2017, 40(8): 1829- 1842.

      [12] Wenjie Li, Francesca Bassi, Davide Dardari, Michel Kieffer, Gianni Pasolini. Low-complexity distributed fault detection for wireless sensor networks. IEEE International Conference on Communications (ICC). 2015.

      [13] Wenjie Li, Francesca Bassi, Davide Dardari, Michel Kieffer, Gianni Pasolini. Iterative Distributed Outlier Detection for Wireless Sensor Networks: Equilibrium and Convergence Analysis. IEEE 54th Annual Conference on Decision and Control (CDC). 2015.

      [14] 李少波, 魏中賀, 孟偉. 基于距離的數(shù)據(jù)流在線檢測算法研究[J]. 計算機應(yīng)用研究, 2015, 32(12): 3579-3581.

      [15] Knorr E M, Ng R T. Algorithms for Mining Distance-Based Outliers in Large Datasets[C]// International Conference on Very Large Data Bases. Morgan Kaufmann Publishers Inc. 1998: 392-403.

      [16] 胡石, 李光輝, 馮海林. 基于Top-k(σ)的無線傳感器網(wǎng)絡(luò)異常數(shù)據(jù)檢測算法[J]. 南京大學學報(自然科學), 2016, 52(2): 261-269.

      An Anomaly Detection Method of Sensor Data Based on Information Entropy

      TIAN Li-ming, ZHANG Dong-mei

      (School of Cyberspace Security, Beijing University of Post and Telecommunication, Beijing 100876, China)

      As an important means to perceive information and obtain data, it is crucial to make sensor datas accurate and reliable. Data anomaly detection can improve the quality of data and the mining of potential information. The detection method based on classification and clustering relies on the spatial correlation of data, and the complexity is very high. It is not suitable for smart home and other micro IOT environments. Besides, the detection method based on data distance is suitable for this scenario, but it has a high false positive rate. In order to solve these problems, the data values in the sliding window of the sensor are used as discrete random variables, and then the information entropy of the data flow is defined. On this basis, a method of anomaly detection for data in sliding window based on information entropy is proposed. Simulation experiments show that the proposed method can detect anomalies efficiently and has higher true positive rate and lower false positive rate, which is in line with the expected results.

      Information entropy; Sliding window; Anomaly probability; Outlier detection; Temporal correlation; Statistical characteristics

      TP393

      A

      10.3969/j.issn.1003-6970.2018.09.015

      田黎明(1993-),男,碩士研究生,主要研究領(lǐng)域:物聯(lián)網(wǎng)安全;張冬梅(1972-),女,副教授,博士,主要研究方向:物聯(lián)網(wǎng)安全、網(wǎng)絡(luò)安全與軟件安全。

      本文著錄格式:田黎明,張冬梅. 一種基于信息熵的傳感器數(shù)據(jù)異常檢測方法[J]. 軟件,2018,39(9):69-73

      猜你喜歡
      誤報率信息熵數(shù)據(jù)流
      基于GRU-LSTM算法的物聯(lián)網(wǎng)數(shù)據(jù)入侵檢測分析
      基于SSA-SVM的網(wǎng)絡(luò)入侵檢測研究
      基于信息熵可信度的測試點選擇方法研究
      家用燃氣報警器誤報原因及降低誤報率的方法
      煤氣與熱力(2021年6期)2021-07-28 07:21:40
      汽車維修數(shù)據(jù)流基礎(chǔ)(下)
      一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機制
      基于信息熵的實驗教學量化研究
      電子測試(2017年12期)2017-12-18 06:35:48
      一種基于信息熵的雷達動態(tài)自適應(yīng)選擇跟蹤方法
      雷達學報(2017年6期)2017-03-26 07:52:58
      基于信息熵的IITFN多屬性決策方法
      基于數(shù)據(jù)流聚類的多目標跟蹤算法
      华蓥市| 宁化县| 巩留县| 庄浪县| 肥乡县| 扎赉特旗| 淮南市| 报价| 越西县| 图木舒克市| 乡宁县| 永和县| 双辽市| 城口县| 许昌县| 新巴尔虎左旗| 子洲县| 建宁县| 垣曲县| 龙山县| 行唐县| 石台县| 泽库县| 东乌珠穆沁旗| 钟山县| 杂多县| 常山县| 胶南市| 万州区| 福贡县| 综艺| 故城县| 宁城县| 巴东县| 云安县| 合水县| 河东区| 新郑市| 绩溪县| 临澧县| 延津县|