• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于局部敏感布隆過濾器的工業(yè)物聯(lián)網(wǎng)隱性異常檢測

      2022-01-05 02:32:08肖如良曾智霞肖晨凱
      計(jì)算機(jī)應(yīng)用 2021年12期
      關(guān)鍵詞:哈希投影編碼

      肖如良,曾智霞,肖晨凱,2,張 仕,2*

      (1.福建師范大學(xué)計(jì)算機(jī)與網(wǎng)絡(luò)空間安全學(xué)院,福州 350117;2.數(shù)字福建環(huán)境監(jiān)測物聯(lián)網(wǎng)實(shí)驗(yàn)室(福建師范大學(xué)),福州 350117;3.福建省網(wǎng)絡(luò)安全與密碼技術(shù)重點(diǎn)實(shí)驗(yàn)室(福建師范大學(xué)),福州 350007)

      (?通信作者電子郵箱shi@fjnu.edu.cn)

      0 引言

      隨著工業(yè)4.0 時(shí)代[1-2]的到來,工業(yè)物聯(lián)網(wǎng)(Industrial Internet of Things,IIoT)系統(tǒng)目前已經(jīng)廣泛應(yīng)用于安全監(jiān)控[3]、智能交通[4]、環(huán)境監(jiān)測[5]等領(lǐng)域。IIoT 系統(tǒng)的傳感器節(jié)點(diǎn)配備了攝像機(jī)、麥克風(fēng)和其他傳感器,能夠從物理環(huán)境中收集視頻、音頻、圖像等多媒體數(shù)據(jù)。但是,傳感器設(shè)備由于持續(xù)使用和正常磨損出現(xiàn)損壞,導(dǎo)致收集和記錄的IIoT 數(shù)據(jù)出現(xiàn)異常。由于IIoT數(shù)據(jù)通常具有高維度、大規(guī)模、多類型的特點(diǎn),大規(guī)模高維數(shù)據(jù)無關(guān)特征的存在可能會掩蓋異常的存在,隱性異常難以被檢測。因此,構(gòu)建一個(gè)良好的異常檢測模型對IIoT應(yīng)用有非常重要的意義。當(dāng)前已有很多學(xué)者開展了相關(guān)的異常檢測方法研究[6-9],特別是近年來,異常檢測算法的研究已成為產(chǎn)業(yè)界與學(xué)術(shù)界共同關(guān)注的熱點(diǎn)問題。

      目前,在異常檢測算法研究中具有代表性的有:Deng等[10]提出的一種基于Bloom Filter 的異常流量檢測框架。他們主要分析了兩種異常流量(端口掃描流量和TCP 泛洪流量)。對于端口的掃描,使用Bloom Filter 結(jié)構(gòu)框架可以檢索這個(gè)流已經(jīng)訪問的端口:如果在不同的端口上有太多的流量,則可以確定異常;對于TCP 泛洪流量,使用Count Bloom Filter來計(jì)算一段時(shí)間內(nèi)每種類型的流中具有相似長度的包的數(shù)量,如果檢測到相同長度的報(bào)文比例較高,則異常發(fā)生的概率較大。Lee 等[11]提出了一種新的用于異常事件檢測的雙向多尺度聚合網(wǎng)絡(luò)模型。該模型學(xué)習(xí)正常事件的時(shí)空模式,以檢測偏離學(xué)習(xí)的正常模式為異常。該模型主要由幀間預(yù)測器和外觀-運(yùn)動關(guān)節(jié)檢測器兩部分組成。設(shè)計(jì)了幀間預(yù)測器對正常模式進(jìn)行編碼,利用基于注意力的雙向多尺度聚合生成幀間預(yù)測器。通過特征聚合,實(shí)現(xiàn)了常規(guī)模式編碼對目標(biāo)尺度變化和復(fù)雜運(yùn)動的魯棒性。在編碼正常模式的基礎(chǔ)上,同時(shí)考慮場景的外觀特征和運(yùn)動特征的外觀-運(yùn)動聯(lián)合檢測器檢測異常事件。Gibert 等[12]使用計(jì)算機(jī)視覺和模式識別方法的自動軌道檢測最近顯示出了提高安全性的潛力,利用深度卷積神經(jīng)網(wǎng)絡(luò)允許更頻繁的檢查,同時(shí)減少人為錯(cuò)誤。

      總的來說,以上這些方法為異常檢測拓展了新的思路,但是現(xiàn)有異常檢測方法依然存在兩個(gè)方面的問題:

      1)大規(guī)模高維特征的存在可能掩蓋異常的存在,隱性異常難以被檢測系統(tǒng)檢測。

      2)在耗費(fèi)大量時(shí)間標(biāo)記好訓(xùn)練數(shù)據(jù)后,異常檢測模型仍需要大量的時(shí)間進(jìn)行訓(xùn)練修正才能夠有效地對異常進(jìn)行檢測,并且模型對參數(shù)具有較高的敏感性。

      針對以上問題,本文提出一種基于局部敏感Bloom Filter(Locality Sensitive Bloom Filter,LSBF)模型的異常檢測算法,與現(xiàn)有方法的不同之處如下:

      1)提出的基于空間劃分的快速Johnson-Lindenstrauss 變換(Spatial Partition based Fast Johnson-Lindenstrauss Transform,SP-FJLT)具有很強(qiáng)的映射保距性,可以準(zhǔn)確識別隱性特征,減少數(shù)據(jù)在哈希投影中的精度損失;

      2)提出的基于LSBF 模型的異常檢測(LSBF-based Anomaly Detection,LSBFAD)算法能夠有效地對高維度、大規(guī)模、多類型的IIoT 數(shù)據(jù)進(jìn)行異常檢測,探測隱性異常,提高檢測的準(zhǔn)確率;

      3)LSBFAD 算法是半監(jiān)督模式,即訓(xùn)練過程中不需要異常類標(biāo)簽的數(shù)據(jù)。

      本文使用3 個(gè)仿真數(shù)據(jù)集進(jìn)行了充分的實(shí)驗(yàn)評估,與多個(gè)典型的異常檢測算法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,本文LSBFAD 算法具有更高的檢測率(Detection Rate,DR)以及更低的誤報(bào)率(False Alarm Rate,F(xiàn)AR)。

      1 相關(guān)工作

      目前常規(guī)的異常檢測算法根據(jù)應(yīng)用技術(shù)主要分為三大類:基于分類的異常檢測方法[13-15]、基于最近鄰的異常檢測方法[16-18]和基于統(tǒng)計(jì)的異常檢測方法[19-21]。三種方法都存在一些優(yōu)點(diǎn)與不足?;诜诸惖漠惓z測算法由于具有先驗(yàn)?zāi)P?,具有較高的檢測效率,在IIoT 系統(tǒng)中得到了更廣泛的應(yīng)用。而基于分類的異常檢測算法又分為三大類:基于神經(jīng)網(wǎng)絡(luò)、基于支持向量機(jī)和基于規(guī)則。其中,基于神經(jīng)網(wǎng)絡(luò)的異常檢測算法的檢測精度最高,但通常不能做到及時(shí)響應(yīng)?;诜诸惖漠惓z測算法相對成熟,有很多優(yōu)秀的科研成果。Han 等[13]提出了一種混合異常檢測模型,包括針對異?;顒拥幕谠紨?shù)據(jù)的方法和針對異常狀態(tài)的基于譜圖的方法兩種;然后利用卷積神經(jīng)網(wǎng)絡(luò)對支持向量機(jī)預(yù)測的活動進(jìn)行分類,再利用遞歸神經(jīng)網(wǎng)絡(luò)直接對信號進(jìn)行預(yù)測。Farshchi等[14]分析了一種度量日志上下文異常檢測技術(shù)在空中交通管制系統(tǒng)中間件中的有效性,研究解決了將此類技術(shù)應(yīng)用到一個(gè)新的案例研究中的挑戰(zhàn),該案例具有高密度的測井?dāng)?shù)據(jù)量和更精細(xì)的監(jiān)測采樣率。Dasgupta 等[15]提出了果蠅Bloom Filter,發(fā)現(xiàn)果蠅的嗅覺回路進(jìn)化出一種Bloom Filter 的變種,以評估氣味的新穎性。與傳統(tǒng)的Bloom Filter 相比,這種果蠅根據(jù)兩個(gè)額外的特征調(diào)整新穎性反應(yīng):一種氣味與之前經(jīng)歷過的氣味的相似性,以及自上次經(jīng)歷這種氣味以來的時(shí)間間隔。他們詳細(xì)闡述并驗(yàn)證了一個(gè)框架來預(yù)測果蠅對特定氣味的新穎性反應(yīng),并且將果蠅的見解轉(zhuǎn)化為開發(fā)了一種距離和時(shí)間敏感的Bloom Filter。

      Bloom Filter 模型[22]被提出的最初原因是哈希編碼占用了大量的內(nèi)存空間,為了解決這個(gè)問題,Bloom Filter給出了一種新的數(shù)據(jù)結(jié)構(gòu),該數(shù)據(jù)結(jié)構(gòu)通過容許哈希編碼中的少許錯(cuò)誤減少哈希編碼所占用的空間。后來的一些學(xué)者也從中得到啟發(fā)作進(jìn)一步的改進(jìn),并逐漸形成了現(xiàn)在通用的Bloom Filter。如今Bloom Filter 已經(jīng)成為大規(guī)模數(shù)據(jù)集的常見處理手段。目前,傳統(tǒng)的Bloom Filter 的功能主要是快速判斷給定的元素v是否在集合S中,它的主要思想是通過一組長度為w、初始值均為0 的二進(jìn)制編碼模型,通過k個(gè)哈希函數(shù)映射,把集合中的元素一一映射到模型中,每當(dāng)模型中一個(gè)位置被激發(fā),修改該位置的值為1。然后使用同樣的哈希函數(shù)映射給定的查詢點(diǎn),當(dāng)模型中查詢點(diǎn)所映射的k個(gè)位置均顯示1 時(shí),說明該查詢點(diǎn)存在集合中,即v∈S,輸出True;否則,輸出結(jié)果為False,即該查詢點(diǎn)不在集合S中。

      2 LSBFAD算法

      2.1 LSBFAD算法總體框架

      針對IIoT 數(shù)據(jù)的異常檢測,由于異常的IIoT 數(shù)據(jù)特征不同于正常的IIoT 數(shù)據(jù),并且異常的IIoT 數(shù)據(jù)數(shù)量占少數(shù),因此本文的工作建立在樣本數(shù)據(jù)的兩個(gè)假設(shè)基礎(chǔ)上,即:1)異常數(shù)據(jù)具有區(qū)別于正常數(shù)據(jù)的特征;2)異常數(shù)據(jù)的數(shù)量遠(yuǎn)遠(yuǎn)小于正常數(shù)據(jù)的數(shù)量。

      本文利用LSBF 模型,結(jié)合SP-FJLT 矩陣投影和相互競爭(Mutual Competition,MC)策略,提出LSBFAD 算法,算法總體框架如圖1所示。

      圖1 LSBFAD算法總體框架Fig.1 Overall framework of LSBFAD algorithm

      1)數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理階段在輸入IIoT的原始多類型數(shù)據(jù)后,通過特征化將多媒體數(shù)據(jù)轉(zhuǎn)換成特征向量;在這個(gè)過程中,對文本數(shù)據(jù)進(jìn)行特征提取,通常采用詞頻逆-文本頻率(Term Frequency-Inverse Document Frequency,TF-IDF)方法或詞頻方法,以將文本數(shù)據(jù)轉(zhuǎn)換為歐氏空間下的特征向量;對圖像數(shù)據(jù)進(jìn)行特征提取時(shí),通過提取尺度不變特征變換(Scale Invariant Feature Transform,SIFT)特征值進(jìn)行特征化處理。

      2)構(gòu)建SP-FJLT。IIoT數(shù)據(jù)利用本文提出的SP-FJLT進(jìn)行哈希投影,首先構(gòu)建FJLT 投影變換,然后進(jìn)行空間劃分,并采用MC策略進(jìn)行除噪。

      3)構(gòu)建LSBF。IIoT 數(shù)據(jù)通過SP-FJLT 投影變換后,通過MC 策略進(jìn)行除噪,最后映射到Bloom Filter 上,Bloom Filter 被哈希映射的位向量由“0”變?yōu)椤?”。

      2.2 LSBF

      2.2.1 降維投影結(jié)構(gòu)

      降維是數(shù)據(jù)分析中常用的方法,它將高維數(shù)據(jù)投影到低維空間中,同時(shí)保留盡可能多的信息。JL(Johnson-Lindenstrauss)定理[23]證明了這一類線性映射的存在性,它提供了任意數(shù)量的點(diǎn)從高維歐氏空間到指數(shù)低維空間的低失真嵌入。JLT(Johnson-Lindenstrauss Transform)是一個(gè)提供了高概率嵌入的隨機(jī)線性映射,F(xiàn)JLT(Fast JLT)利用快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)的矩陣向量乘法僅在嵌入維數(shù)略有增加的同時(shí)減少嵌入的復(fù)雜性。利用數(shù)據(jù)的空間性質(zhì),對數(shù)據(jù)進(jìn)行空間劃分的方式實(shí)現(xiàn)降維。這種劃分子空間的方法可以很大程度降低數(shù)據(jù)的失真程度。空間劃分是一種重要的數(shù)學(xué)模型,在信號處理、數(shù)據(jù)挖掘、模式識別、圖論等領(lǐng)域都有重要應(yīng)用。本文提出的SP-FJLT 映射以傅里葉變換為基礎(chǔ),用JL 定理指導(dǎo)空間劃分,克服降維過程中的缺陷,同時(shí)利用數(shù)據(jù)的空間分布性質(zhì),增強(qiáng)了映射的保距性能。

      先給出FJLT的組成:

      φ是一個(gè)元素獨(dú)立分布的k×d矩陣,k=δd,δ是參數(shù),d是數(shù)據(jù)初始維度。

      矩陣P=(Pij)在概率1-q的情況下設(shè)置Pij=0,否則(其余概率)從方差為0、期望為q-1的正態(tài)分布中提取pij,稀疏常量q表示為:

      FN∈Rn×n是一個(gè)標(biāo)準(zhǔn)化的Walsh-Hadamard矩陣:

      DN∈Rd×d:是一個(gè)d×d的對角陣,Dii為1 的概率是1/2,否則Dii為-1。

      SP-FJLT 從單位球SD-1中隨機(jī)均勻地選擇一個(gè)方向,并使用與該方向正交的超平面利用數(shù)據(jù)空間分布性質(zhì)進(jìn)行劃分,組成如下:

      使用SP-FJLT 映射來最小化數(shù)據(jù)的失真,從而保證算法的準(zhǔn)確性。與傳統(tǒng)的稀疏矩陣投影和FJLT 矩陣相比,SPFJLT 矩陣具有更好的覆蓋率,可以更好地利用數(shù)據(jù)分布的性質(zhì)來保持?jǐn)?shù)據(jù)的準(zhǔn)確性,特別是當(dāng)輸入數(shù)據(jù)是一個(gè)稀疏向量(它有許多零元素)時(shí)。

      2.2.2 MC策略

      本文提出的LSBFAD 算法訓(xùn)練Bloom Filter的過程采用半監(jiān)督模式,只需要正常IIoT 數(shù)據(jù)進(jìn)行訓(xùn)練。但是數(shù)據(jù)收集過程存在誤差,不可避免地會把一些異常IIoT 數(shù)據(jù)標(biāo)記成正常IIoT 數(shù)據(jù)。因此當(dāng)IIoT 數(shù)據(jù)通過哈希投影后,相似的數(shù)據(jù)都被映射至同一編碼,采用MC 策略對編碼進(jìn)行優(yōu)化,即根據(jù)編碼所含的數(shù)據(jù)比例進(jìn)行競爭,剔除數(shù)據(jù)量稀疏的編碼,保留數(shù)據(jù)量在前β的編碼。這一操作有利于刪除那些標(biāo)記成正常類的異常數(shù)據(jù),能有效降低算法的假陽性。

      2.2.3 構(gòu)建LSBF

      正常的IIoT 數(shù)據(jù)通過SP-FJLT 映射后,在經(jīng)過MC 策略進(jìn)行除噪,然后映射到Bloom Filter 上,Bloom Filter 對應(yīng)的位向量發(fā)生改變。即初始的Bloom Filter 位向量全為“0”標(biāo)記,當(dāng)對應(yīng)的位置被SP-FJLT 映射后,“0”轉(zhuǎn)變?yōu)椤?”,意味著此位向量已被哈希映射,即該位是正常數(shù)據(jù)映射的位。

      2.2.4 LSBFAD算法及復(fù)雜度分析

      本文提出的LSBFAD 算法(見Algorithm 1)由三個(gè)步驟組成:首先利用SP-FJLT 映射算法將數(shù)據(jù)進(jìn)行投影,然后采用MC策略進(jìn)行除噪,最后利用0-1編碼構(gòu)建LSBF。

      Algorithm 1:LSBF。

      輸入 待檢測數(shù)據(jù)Q=(q1,q2,…,qd)∈R1×d;n表示IIOT 數(shù)據(jù)X的個(gè)數(shù);d表示數(shù)據(jù)初始維度;k表示哈希碼的數(shù)量;m表示Bloom filter的大小;m'表示位確認(rèn)向量的大小;β表示編碼保留比例;

      1)利用IIOT 數(shù)據(jù)X=(x1,x2,…xd)∈Rn×d構(gòu)造待檢測數(shù)據(jù)Q的SP-FJLT投影y=SP?FJLT(Q);

      2)利用MC策略保留前β個(gè)二進(jìn)制編碼;

      3)利用投影數(shù)據(jù)Y=(y1,y2,…,yk)∈Rn×k構(gòu)造LSBF

      k0...position-1=Bloomfilter(Y)

      輸出k0...position-1

      算法步驟1)構(gòu)造SP-FJLT 投影的時(shí)間復(fù)雜度為O((dlb(d)+min{dε-2lb(n),εp-4lbp+1(n)})d3n);步驟2)提取數(shù)據(jù)的時(shí)間復(fù)雜度為O(cn);步驟3)構(gòu)造LSBF 的時(shí)間復(fù)雜度為O(cmk)。LSBFAD 算法的計(jì)算復(fù)雜度在第一步構(gòu)建SPFJLT 投影是最大的,因此整個(gè)算法的計(jì)算復(fù)雜度由第一步,即構(gòu)建SP-FJLT 投影算法決定的,它的計(jì)算復(fù)雜度為O((dlb(d)+min{dε-2lb(n),εp-4lbp+1(n)})d3n)。從中可以看出LSBFAD 算法的計(jì)算復(fù)雜度跟數(shù)據(jù)數(shù)量以及維數(shù)呈正相關(guān)。

      3 理論分析

      常規(guī)哈希方法在降維過程中不可避免地會損失數(shù)據(jù)集內(nèi)部數(shù)據(jù)對象之間的相似性,本文提出的LSBFAD 算法中,SPFJLT 映射充分利用了數(shù)據(jù)的空間分布特性對數(shù)據(jù)進(jìn)行空間劃分,最大限度保留了數(shù)據(jù)對象的相似性,擁有良好的保距性能。

      SP-FJLT 算法中,空間劃分主要的難點(diǎn)是球面S與映射μ在內(nèi)在維度的依賴關(guān)系。

      定理假設(shè)球面S∈RD擁有其特征矩陣前d個(gè)特征值。選擇一個(gè)隨機(jī)向量U~N(0,(1/D)ID),以任何方式(可能依賴U)將S劃分成S1、S2兩部分。讓p=|S1|/|S|,u1和u2分別代表S1和S2的均值,u'1和u'2分別代表S1?U和S2?U的均值。對于任何δ>0,有大于1-δ的概率選擇最佳的U,最大限度保留了數(shù)據(jù)對象的相似性。

      證明 在不失一般性的前提下假設(shè)S的均值為0。讓H是由cov(S)上的d個(gè)特征向量組成的子空間,H⊥是它的正交子空間。把任意點(diǎn)x∈RD寫成xH+x⊥,其中每一個(gè)分量都是RD的一個(gè)向量,并且位于各自的子空間。

      選取隨機(jī)向量U,有大于1-δ的概率滿足如下兩個(gè)性質(zhì):

      性質(zhì)1:對于任意一個(gè)常數(shù)c'>0,對于所有x∈RD有:

      性質(zhì)2:設(shè)X是從S中抽取的均勻隨機(jī)數(shù)

      式(4)來自于馬爾可夫不等式,式(6)來自于局部協(xié)方差條件。

      基于以上兩個(gè)性質(zhì),把u2-u1寫成(u2H-u1H)+(u2⊥-u1⊥)。

      第一項(xiàng)可以由性質(zhì)1限定:

      對于第二項(xiàng),設(shè)EX表示從S中隨機(jī)均勻選取的期望,有

      因此本文提出的SP-FJLT 可以選擇最佳的U進(jìn)行劃分,最大限度減少了數(shù)據(jù)間的相似性損失,擁有良好的保距性能。

      4 實(shí)驗(yàn)與分析

      4.1 評價(jià)指標(biāo)

      實(shí)驗(yàn)中以異常檢測的檢測率(Detection Rate,DR)和誤報(bào)率(False Alarm Rate,F(xiàn)AR)來檢驗(yàn)本文LSBFAD 算法的性能。DR 表示檢測出的測試數(shù)據(jù)(TP+TN)占所有測試數(shù)據(jù)(P+N)的比例,同時(shí)反映了正常數(shù)據(jù)和異常數(shù)據(jù)分類的正確率;FAR表示誤檢的測試數(shù)據(jù)(FP+FN)占所有測試數(shù)據(jù)(P+N)的比例,其中包括了把正常數(shù)據(jù)檢測成異常情況和把異常數(shù)據(jù)判定成正常情況。計(jì)算公式如下:

      對于每組數(shù)據(jù)集,選取其中80%的正常數(shù)據(jù)作為訓(xùn)練集,20%的正常數(shù)據(jù)以及異常數(shù)據(jù)作為測試集。每組實(shí)驗(yàn)重復(fù)20次,通過平均的DR和FAR來衡量結(jié)果。

      4.2 仿真數(shù)據(jù)集

      為了充分展現(xiàn)算法在不同數(shù)據(jù)分布下的異常檢測性能,挑選了三個(gè)不同領(lǐng)域中的大規(guī)模高維仿真IIoT數(shù)據(jù)集進(jìn)行對比實(shí)驗(yàn),這三個(gè)數(shù)據(jù)集是IIoT領(lǐng)域常用的數(shù)據(jù)評測數(shù)據(jù)集。

      1)SIFT(https://archive.ics.uci.edu/ml/datasets.php):圖像數(shù)據(jù)集,含15 000條正常數(shù)據(jù)和500條異常數(shù)據(jù)。

      2)MNIST(https://moa.cms.waikato.ac.nz/datasets/):手寫數(shù)字識別的數(shù)據(jù)集,含32 000條正常數(shù)據(jù)和600條異常數(shù)據(jù)。

      3)FMA(http://mlkd.csd.auth.gr/conceptDrift.html):音頻數(shù)據(jù)集,含25 000條正常數(shù)據(jù)和1 000條異常數(shù)據(jù)。

      4.3 實(shí)驗(yàn)結(jié)果及分析

      實(shí)驗(yàn)1:比較本文提出的SP-FJLT 投影算法與傳統(tǒng)的LSH(Locality-Sensitive Hashing)投影[24]算法的保距性能。SP-FJLT和LSH 投影后的數(shù)據(jù)保留5、10、15、20、25 個(gè)哈希位映射到Bloom Filter,通過DR 來比較兩種投影算法的保距性能,實(shí)驗(yàn)結(jié)果如圖2 所示??梢钥闯觯涸谌齻€(gè)不同的IIoT 數(shù)據(jù)集上,本文提出的SP-FJLT 算法的保距性能明顯優(yōu)于LSH 算法,因此SP-FJLT 算法更適合異常檢測模型。SP-FJLT 算法能夠盡可能降低數(shù)據(jù)的失真程度,讓數(shù)據(jù)通過哈希后能夠準(zhǔn)確地映射到Bloom Filter的向量位中。

      圖2 SP-FJLT算法和LSH算法的保距性比較Fig.2 Comparison of SP-FJLT algorithm and LSH algorithm on distance keeping performance

      實(shí)驗(yàn)2:探究相互競爭的參數(shù)β對DR的影響。在實(shí)驗(yàn)中,將參數(shù)β分別取值為0.7、0.75、0.8、0.85、0.9,并且投影后保留15 個(gè)哈希位映射到Bloom Filter 中,比較不同取值β下在SIFT、MNIST 和FMA 數(shù)據(jù)集的DR,實(shí)驗(yàn)結(jié)果如表1 所示。可以看出:隨著參數(shù)β的增大,算法的DR 也隨之增高。但是,β的最佳取值范圍在0.80~0.85,超過這個(gè)取值范圍后,算法檢測率下降。算法DR 隨β增大的原因是假陰性不斷下降,但在超過最佳取值范圍后,增大參數(shù)β的取值會讓算法的假陽性增大,因此參數(shù)β的最佳取值在0.80~0.85。

      表1 β在SIFT、MNIST和FMA數(shù)據(jù)集上對檢測率的影響Tab.1 Influence of β on detection rate on SIFT,MNIST and FMA datasets

      實(shí)驗(yàn)3:將本文提出的LSBF 異常檢測算法與如下算法在IIoT領(lǐng)域的三個(gè)數(shù)據(jù)集上進(jìn)行對比,結(jié)果如表2所示。

      表2 在SIFT、MNIST和FMA數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果 單位:%Tab.2 Experimental results of comparison on SIFT,MNIST and FMA datasets unit:%

      MUVAD(Nearest Neighbor based Multi-View Anomaly Detection)[25]:該算法提出了一個(gè)異常度量標(biāo)準(zhǔn),并利用這個(gè)標(biāo)準(zhǔn)來制定MUVAD 的目標(biāo),以顯式地估計(jì)正常實(shí)例集,提高異常檢測算法的精度。

      Fast-ODT(Fast Outlier Detection Tree)[26]:使用離群檢測樹,構(gòu)造一個(gè)分類樹將數(shù)據(jù)集分類為兩個(gè)類,然后,使用樹中的if-then規(guī)則將每個(gè)數(shù)據(jù)點(diǎn)分為離群點(diǎn)和正常點(diǎn)。

      HUAD(Hybrid Unsupervised Anomaly Detection)[27]:該模型集成了卷積自編碼器和高斯回歸來提取特征和去除噪聲數(shù)據(jù)中的異常,并且對數(shù)據(jù)集異常率的變化具有更強(qiáng)的魯棒性。

      DDAD(Distance-based Distributed Anomaly Detection)[28]:該算法通過低維平面距離觀測數(shù)據(jù)的近似分布來實(shí)現(xiàn)異常檢測,并且可以有效地?cái)U(kuò)展到多個(gè)維度。這些近似也可以用于其他應(yīng)用程序,例如范圍查詢的在線估計(jì)。通過估計(jì)數(shù)據(jù)的潛在分布來識別異常,并且以分散的方式處理盡可能多的數(shù)據(jù)。

      GFUAD(Geometric Framework for Unsupervised Anomaly Detection)[29]:該算法提出了一種新的無監(jiān)督異常檢測的幾何框架,將數(shù)據(jù)元素映射到一個(gè)特征空間,通過確定哪些點(diǎn)位于特征空間的稀疏區(qū)域來檢測異常。提出了兩個(gè)特征映射數(shù)據(jù)元素到特征空間:第一個(gè)映射是一個(gè)依賴于數(shù)據(jù)的規(guī)范化特征映射,將其應(yīng)用于網(wǎng)絡(luò)連接;第二個(gè)特性映射是一個(gè)頻譜內(nèi)核,將其應(yīng)用于系統(tǒng)調(diào)用跟蹤。

      通過實(shí)驗(yàn)3發(fā)現(xiàn),本文提出的LSBFAD 算法在三種IIoT數(shù)據(jù)集上的DR 都要優(yōu)于對比的異常檢測算法,且LSBFAD 算法的FAR 都低于10%,這說明LSBFAD 算法在DR 和FAR 都體現(xiàn)出了更加優(yōu)秀的性能,能夠有效檢測出隱性異常;并且LSBFAD 算法訓(xùn)練Bloom Filter 模型的過程中只需要正常數(shù)據(jù),不需要異常數(shù)據(jù),這也提高了模型的通用性。

      5 結(jié)語

      工業(yè)物聯(lián)網(wǎng)系統(tǒng)已呈現(xiàn)出廣闊的應(yīng)用前景,但是傳感器設(shè)備由于持續(xù)使用和正常磨損出現(xiàn)損壞,導(dǎo)致收集和記錄的傳感數(shù)據(jù)出現(xiàn)異常,大規(guī)模高維特征的存在可能掩蓋異常的存在,隱性異常難以被檢測系統(tǒng)檢測。因此構(gòu)建一個(gè)性能良好的異常檢測算法對IIoT 的實(shí)際應(yīng)用具有非常重要的意義。本文提出了基于局部敏感Bloom Filter 的異常檢測算法LSBFAD。該算法利用SP-FJLT 投影算法以及MC 策略將數(shù)據(jù)映射到Bloom Filter 中。在三個(gè)不同領(lǐng)域的IIoT 數(shù)據(jù)集SIFT、MNIST和FMA上進(jìn)行實(shí)驗(yàn),結(jié)果表明,本文提出的LSBFAD算法與主流的異常檢測算法相比檢測精度具有明顯優(yōu)勢。

      在未來研究中,我們將從低失真的投影方法出發(fā),找到更加符合數(shù)據(jù)投影的哈希方法,以進(jìn)一步來降低數(shù)據(jù)的失真程度;此外,對于哈希后的數(shù)據(jù)對象特征的進(jìn)一步探測,也是未來研究工作的重點(diǎn)。

      猜你喜歡
      哈希投影編碼
      基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
      解變分不等式的一種二次投影算法
      《全元詩》未編碼疑難字考辨十五則
      基于最大相關(guān)熵的簇稀疏仿射投影算法
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      找投影
      找投影
      Genome and healthcare
      基于OpenCV與均值哈希算法的人臉相似識別系統(tǒng)
      基于維度分解的哈希多維快速流分類算法
      日喀则市| 融水| 连州市| 密山市| 龙川县| 逊克县| 双桥区| 鸡泽县| 施甸县| 石河子市| 霍州市| 锡林郭勒盟| 宁强县| 大化| 宜丰县| 西安市| 高州市| 阳西县| 吉安市| 临西县| 加查县| 田东县| 崇义县| 太仆寺旗| 昭苏县| 富民县| 安溪县| 扎兰屯市| 梓潼县| 和龙市| 安龙县| 日照市| 竹北市| 河源市| 杭锦旗| 紫金县| 茂名市| 潮州市| 平塘县| 台南市| 龙井市|