• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于變分自編碼器的異常檢測(cè)算法研究

      2021-02-04 06:53:34
      軟件導(dǎo)刊 2021年1期
      關(guān)鍵詞:球體編碼器步長(zhǎng)

      (杭州電子科技大學(xué)通信工程學(xué)院,浙江杭州 310018)

      0 引言

      在人們?nèi)粘I钆c生產(chǎn)中會(huì)生成海量數(shù)據(jù),也會(huì)產(chǎn)生較多異常數(shù)據(jù)。這些異常數(shù)據(jù)不但無(wú)益,反而有害,易造成巨大經(jīng)濟(jì)損失。因此,如何從海量數(shù)據(jù)中監(jiān)控并檢測(cè)異常數(shù)據(jù)是亟待解決的重要問(wèn)題。異常檢測(cè)指在數(shù)據(jù)中檢測(cè)出不符合期望行為的數(shù)據(jù),異常數(shù)據(jù)在統(tǒng)計(jì)領(lǐng)域也被稱為偏差值或離群值,是指遠(yuǎn)離大量正常數(shù)據(jù)點(diǎn)的數(shù)據(jù)[1]。產(chǎn)生異常的原因很多,比如由數(shù)據(jù)本身錯(cuò)誤引起,或人為因素造成,這些異常往往蘊(yùn)含著一些隱秘的行為信息。在金融尤其是互聯(lián)網(wǎng)金融領(lǐng)域[2],高效準(zhǔn)確的異常檢測(cè)系統(tǒng)能夠識(shí)別并預(yù)警用戶潛在的異常行為,控制金融風(fēng)險(xiǎn),減少因?yàn)榻鹑谄墼p行為導(dǎo)致的經(jīng)濟(jì)損失。此外,異常檢測(cè)還廣泛應(yīng)用于網(wǎng)絡(luò)入侵檢測(cè)[3]、醫(yī)療圖像輔助病癥判斷[4]、工業(yè)設(shè)備異常監(jiān)控[5]、智能安防監(jiān)控[6]等領(lǐng)域,為各類系統(tǒng)的正常運(yùn)轉(zhuǎn)提供重要支撐。因此,研究高效的異常檢測(cè)算法對(duì)眾多領(lǐng)域而言具有重要現(xiàn)實(shí)意義。

      1 相關(guān)工作

      針對(duì)異常檢測(cè)問(wèn)題,J?rg[7]提出了局部異常因子算法(Local Outlier Factor,LOF),LOF 算法是一種經(jīng)典的基于密度估計(jì)的異常檢測(cè)算法,其將數(shù)據(jù)點(diǎn)的可達(dá)距離、局部可達(dá)密度與其鄰域數(shù)據(jù)點(diǎn)進(jìn)行比較,并計(jì)算局部離群因子評(píng)估數(shù)據(jù)異常程度,判斷數(shù)據(jù)是否屬于異常;Liu 等[8]提出孤立森林(Isolation Forest,IF)算法,其采用集成學(xué)習(xí)方式,通過(guò)二叉搜索樹(shù)對(duì)樣本進(jìn)行孤立計(jì)算,并以此衡量樣本異常程度。異常點(diǎn)往往具有與正常點(diǎn)分離的特性,因此會(huì)被更快地孤立。

      近年來(lái),隨著數(shù)據(jù)維度的提高,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)顯示出其優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)的優(yōu)點(diǎn)。因此,越來(lái)越多研究人員開(kāi)始利用深度學(xué)習(xí)進(jìn)行異常檢測(cè)。Boracchi 等[9]提出一個(gè)基于稀疏表示的模型,通過(guò)共同監(jiān)視數(shù)據(jù)的稀疏性表示和重構(gòu)誤差以提高掃描電子顯微鏡圖像的異常檢測(cè)性能;杜辰飛等[10]提出一個(gè)基于稀疏自編碼器的異常檢測(cè)模型,輸入正常數(shù)據(jù)對(duì)稀疏自編碼器進(jìn)行訓(xùn)練和優(yōu)化,然后基于測(cè)試數(shù)據(jù)的重構(gòu)誤差檢測(cè)數(shù)據(jù)中的異常情況;Li 等[11]提出基于膠囊網(wǎng)絡(luò)的深度異常檢測(cè)算法,其使用膠囊網(wǎng)絡(luò)搭建編碼器和分類器,并基于預(yù)測(cè)概率和重建誤差對(duì)圖片數(shù)據(jù)進(jìn)行異常檢測(cè);丁建立等[12]采用自然語(yǔ)言處理常用的seq2seq 模型對(duì)數(shù)據(jù)進(jìn)行建模,通過(guò)計(jì)算數(shù)據(jù)的重構(gòu)誤差對(duì)廣播式自動(dòng)監(jiān)視數(shù)據(jù)進(jìn)行異常檢測(cè)。

      目前,異常檢測(cè)算法大多依賴于重建誤差或是重建概率等啟發(fā)式方法進(jìn)行異常判斷。因此,本文在變分自編碼器[13]基礎(chǔ)上引入深度支持向量網(wǎng)絡(luò),利用神經(jīng)網(wǎng)絡(luò)壓縮特征空間,通過(guò)尋找最小超球體分離異常數(shù)據(jù)和正常數(shù)據(jù),從而達(dá)到異常檢測(cè)目的。該方法擺脫了目前主流的基于重構(gòu)誤差的異常檢測(cè)方法,而是基于數(shù)據(jù)特征的訓(xùn)練優(yōu)化進(jìn)行異常檢測(cè)。

      2 異常檢測(cè)模型

      2.1 變分自編碼器

      本文采用變分自編碼器作為異常檢測(cè)模型的特征提取網(wǎng)絡(luò)。變分自編碼器是一種基于變分推斷的有向概率圖模型,通過(guò)將深度學(xué)習(xí)與概率統(tǒng)計(jì)相結(jié)合,能夠?qū)W習(xí)到數(shù)據(jù)特征分布,是深度學(xué)習(xí)領(lǐng)域的一種重要模型。變分自編碼器的有向概率圖模型如圖1 所示。

      Fig.1 The directed graphical model of the variational autoencoder圖1 變分自編碼器有向概率圖模型

      圖1 中,實(shí)線代表生成觀察數(shù)據(jù)x 的過(guò)程。此時(shí),數(shù)據(jù)邊緣概率分布pθ(x)如式(1)所示。

      對(duì)于任意復(fù)雜的數(shù)據(jù)分布而言,邊緣概率分布pθ(x)很難計(jì)算。為了解決這一難題,變分自編碼器引入識(shí)別模型qφ(z|x),也稱近似后驗(yàn),代替真正的后驗(yàn)分布pθ(z|x)。在引入識(shí)別模型qφ(z|x)后,對(duì)數(shù)邊緣似然函數(shù)logpθ(x)如式(2)所示。

      根據(jù)Jensen 不等式[14],式(2)可以寫(xiě)成式(3)。

      其中,L(θ,φ; x)為對(duì)數(shù)似然函數(shù)通過(guò)變分推斷得到的變分下界(Evidence Lower Bound,ELBO),此時(shí)最大化變分下界等價(jià)于最大化對(duì)數(shù)似然函數(shù)。

      在標(biāo)準(zhǔn)變分自編碼器中,近似后驗(yàn)分布qφ(z|x)=N(z; μ,σ2I)符合高斯分布,先驗(yàn)pθ(z)=N(z; 0,I)屬于標(biāo)準(zhǔn)高斯分布。正則化項(xiàng)可以由高斯分布的KL 散度公式進(jìn)行計(jì)算,重構(gòu)項(xiàng)可以使用蒙特卡洛采樣技巧進(jìn)行近似評(píng)估,則變分下界可以寫(xiě)為如式(4)所示。

      2.2 深度支持向量網(wǎng)絡(luò)

      支持向量數(shù)據(jù)描述(Support Vector Data Description,SVDD)是Tax 等[15]提出的一種在統(tǒng)計(jì)學(xué)理論基礎(chǔ)上發(fā)展起來(lái)的單值分類方法。異常檢測(cè)問(wèn)題其實(shí)也是一種單值分類問(wèn)題,可以將正常數(shù)據(jù)看作目標(biāo)類數(shù)據(jù),將各種異常數(shù)據(jù)均看作離群類數(shù)據(jù),因此可以使用單值分類思想解決異常檢測(cè)問(wèn)題。SVDD 的目標(biāo)是在特征空間?k中找到中心c∈?k,半徑R>0 的超球體,該超球體將大多數(shù)目標(biāo)類數(shù)據(jù)包圍,以此分離目標(biāo)類數(shù)據(jù)與所有非目標(biāo)類數(shù)據(jù)。

      假設(shè)輸入數(shù)據(jù)為x(i)∈{x(1),x(2),…,x(n)},SVDD 在特征空間上尋找最優(yōu)超球體的優(yōu)化目標(biāo)被定義為式(5)。

      其中,R為超球體半徑,ξ(i)為松弛變量,懲罰參數(shù)ν∈(0,1)控制對(duì)離群點(diǎn)懲罰的權(quán)重,φ(x(i))為輸入x(i)在特征空間的映射,c 為超球體中心,‖φ(x(i))-c‖2為輸入x(i)在特征空間的映射到超球體中心c 的歐式距離。

      受支持向量數(shù)據(jù)描述啟發(fā),本文使用一種全新的方法進(jìn)行異常檢測(cè),通過(guò)訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)將網(wǎng)絡(luò)輸出擬合到最小超球體中,以學(xué)習(xí)數(shù)據(jù)特征分布變化的共同因素。本文將深度支持向量網(wǎng)絡(luò)的目標(biāo)定義為如式(6)所示。

      其中,φ是神經(jīng)網(wǎng)絡(luò)參數(shù),φ(x(i);φ)是神經(jīng)網(wǎng)絡(luò)輸入為x(i)的輸出,第2 項(xiàng)是L2 正則化項(xiàng),L是神經(jīng)網(wǎng)絡(luò)層數(shù),φ(l)是第l層神經(jīng)網(wǎng)絡(luò)參數(shù),λ是正則化系數(shù),該正則化項(xiàng)可以減少模型過(guò)擬合出現(xiàn)次數(shù),提高模型泛化能力。

      對(duì)于給定測(cè)試數(shù)據(jù)x',根據(jù)測(cè)試數(shù)據(jù)經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)的輸出到超球體中心的距離,定義深度支持向量網(wǎng)絡(luò)的異常分?jǐn)?shù)s(x')如式(7)所示。

      2.3 異常檢測(cè)過(guò)程

      在訓(xùn)練階段構(gòu)建并訓(xùn)練變分自編碼器,通過(guò)訓(xùn)練變分自編碼器得到正常類別數(shù)據(jù)的特征表示及特征的均值c。將均值c 作為超球體中心,構(gòu)建并訓(xùn)練深度支持向量網(wǎng)絡(luò)。在測(cè)試階段將測(cè)試數(shù)據(jù)輸入深度支持向量網(wǎng)絡(luò),根據(jù)式(7)計(jì)算異常分?jǐn)?shù)。異常檢測(cè)判斷公式如式(8)所示,當(dāng)測(cè)試數(shù)據(jù)的異常分?jǐn)?shù)小于閾值,說(shuō)明該數(shù)據(jù)落在超球體之內(nèi),認(rèn)為是正常數(shù)據(jù);當(dāng)測(cè)試數(shù)據(jù)的異常分?jǐn)?shù)大于閾值,說(shuō)明該數(shù)據(jù)落在超球體之外,認(rèn)為是異常數(shù)據(jù)。

      3 網(wǎng)絡(luò)模型

      本文使用卷積神經(jīng)網(wǎng)絡(luò)搭建變分自編碼器,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。在編碼器中,輸入圖像首先經(jīng)過(guò)一層含64個(gè)卷積核大小為3×3、步長(zhǎng)為1 的卷積層,激活函數(shù)使用非線性的ReLU 函數(shù)[16]。ReLU 函數(shù)作為激活函數(shù)可以避免出現(xiàn)梯度消失等問(wèn)題,并加快模型收斂速度。池化層具有特征降維、減少模型參數(shù)、增大卷積核感受野等特點(diǎn),但是池化層在進(jìn)行下采樣操作時(shí),容易丟失有價(jià)值的信息[17]。因此,本文使用含64 個(gè)卷積核大小為3×3、步長(zhǎng)為2 的卷積層代替池化層進(jìn)行下采樣操作,以保留圖片中的重要信息。級(jí)聯(lián)一層含128 個(gè)大小為3×3 卷積核的卷積層、步長(zhǎng)為1 的卷積層,同樣使用含128 個(gè)卷積核大小為3×3、步長(zhǎng)為2 的卷積層代替池化層;最后級(jí)聯(lián)含256 個(gè)卷積核大小為3×3 的卷積層、步長(zhǎng)為1 以及含256 個(gè)卷積核大小為3×3、步長(zhǎng)為2 的卷積層,再連接兩個(gè)全連接層,維數(shù)分別是2 304 和10。

      解碼器中使用反卷積完成對(duì)特征的復(fù)原工作。解碼器在結(jié)構(gòu)上與編碼器對(duì)稱,使用兩個(gè)維數(shù)分別是10 和2 304的全連接層,然后級(jí)聯(lián)3 層反卷積層,分別具有128 個(gè)、64個(gè)、1 個(gè)大小為3×3 的卷積核。與編碼器使用步長(zhǎng)為2 的卷積層代替池化層類似,解碼器使用步長(zhǎng)為2 的反卷積層代替上采樣。除最后一層反卷積使用Sigmoid 作為激活函數(shù)外,其余卷積層、反卷積層均使用ReLU 作為激活函數(shù)。

      4 實(shí)驗(yàn)結(jié)果分析

      4.1 實(shí)驗(yàn)配置及數(shù)據(jù)集

      實(shí)驗(yàn)采用Windows10 平臺(tái)下的Python3.6 編譯器。計(jì)算機(jī)參數(shù)配置為 Intel(R)Core(TM)i5-7300HQ@2.50GHzCPU,內(nèi)存為8GB,使用的編程環(huán)境為TensorFlow和Keras,編程語(yǔ)言為Python。網(wǎng)絡(luò)使用正態(tài)分布隨機(jī)值初始化網(wǎng)絡(luò)參數(shù),Batch Size 設(shè)置為100,使用Adam 優(yōu)化器更新模型參數(shù),學(xué)習(xí)率設(shè)置為0.000 1。

      Fig.2 Network structure of anomaly detection model圖2 異常檢測(cè)模型網(wǎng)絡(luò)結(jié)構(gòu)

      本文使用MNIST 數(shù)據(jù)集[18]和Fashion-MNIST 數(shù)據(jù)集[19]進(jìn)行實(shí)驗(yàn)。在MNIST 數(shù)據(jù)集中,根據(jù)數(shù)字的不同,可以從MNIST 數(shù)據(jù)集中分離出10 種不同數(shù)字(0~9)的數(shù)據(jù)集,將其中一種數(shù)字作為正常類別數(shù)據(jù),其余9 種數(shù)字作為異常類別數(shù)據(jù)。訓(xùn)練集使用正常類別的數(shù)據(jù)集,約有6 000個(gè)樣本,測(cè)試集中有10 000 個(gè)樣本,其中包括正常類別數(shù)據(jù)和異常類別數(shù)據(jù)。為了更好地進(jìn)行實(shí)驗(yàn),本文將所有MNIST 數(shù)據(jù)集圖像像素值縮放到[0,1]區(qū)間。

      同樣,從Fashion-MNIST 數(shù)據(jù)集中分離出10 種不同時(shí)尚商品的數(shù)據(jù)集,將其中一種時(shí)尚商品作為正常類別數(shù)據(jù),其余9 種時(shí)尚商品作為異常類別數(shù)據(jù)。訓(xùn)練集使用正常類別的數(shù)據(jù)集,約有6 000 個(gè)樣本,測(cè)試集中有10 000 個(gè)樣本,其中包括正常類別數(shù)據(jù)和異常類別數(shù)據(jù)。本文將所有Fashion-MNIST 數(shù)據(jù)集圖像像素值縮放到[0,1]區(qū)間。

      4.2 MNIST 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

      為了進(jìn)一步驗(yàn)證本文方法的有效性,在MNIST 數(shù)據(jù)集上進(jìn)行異常檢測(cè)實(shí)驗(yàn),并與其它優(yōu)秀異常檢測(cè)算法作對(duì)比。本文算法與OC-SVM[20]、IF[8]、DCAE[21]、ANOGAN[22]等算法在MNIST 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比如表1 所示,加粗顯示代表效果優(yōu)于其它算法。

      Table 1 Comparison of results of MNIST data set under various anomaly detection methods表1 MNIST 數(shù)據(jù)集在各種異常檢測(cè)方法下的實(shí)驗(yàn)結(jié)果對(duì)比(單位:%)

      由表1 可知,本文算法平均AUC 值較其它優(yōu)秀異常檢測(cè)算法有一定提高,表明本文算法在MNIST 數(shù)據(jù)集中實(shí)現(xiàn)了較好檢測(cè)效果,能夠?qū)崿F(xiàn)有效異常檢測(cè)。

      4.3 Fashion-MNIST 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

      基于Fashion-MNIST 數(shù)據(jù)集開(kāi)展異常檢測(cè)實(shí)驗(yàn),將本文算法與其它優(yōu)秀異常檢測(cè)算法作對(duì)比。本文算法與OC-SVM[20]、IF[8]、DCAE[21]、ANOGAN[22]等算法在Fashion-MNIST 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比如表2 所示,加粗顯示代表效果優(yōu)于其它算法。

      由表2 可知,本文算法平均AUC 值較其它優(yōu)秀異常檢測(cè)算法有一定提高,說(shuō)明本文算法在Fashion-MNIST 數(shù)據(jù)集中實(shí)現(xiàn)了較好檢測(cè)效果,能夠?qū)崿F(xiàn)有效異常檢測(cè)。

      Table 2 Comparison of results of Fashion-MNIST data set under various anomaly detection methods表2 Fashion-MNIST 數(shù)據(jù)集在各種異常檢測(cè)方法下的實(shí)驗(yàn)結(jié)果對(duì)比 (單位:%)

      5 結(jié)語(yǔ)

      本文提出了一種基于變分自編碼器和深度支持向量網(wǎng)絡(luò)的異常檢測(cè)算法,采用變分自編碼器提取數(shù)據(jù)特征,并利用深度支持向量網(wǎng)絡(luò)壓縮特征空間,尋找最小超球體分離正常數(shù)據(jù)與異常數(shù)據(jù)以進(jìn)行異常檢測(cè)。實(shí)驗(yàn)結(jié)果表明,本文算法優(yōu)于其它優(yōu)秀方法,實(shí)現(xiàn)了較好的異常檢測(cè)效果。該算法擺脫了基于重構(gòu)誤差的異常檢測(cè)方法,為異常檢測(cè)提供了一種新思路,未來(lái)可以設(shè)計(jì)更加高效的網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步提升異常檢測(cè)效果。

      猜你喜歡
      球體編碼器步長(zhǎng)
      基于Armijo搜索步長(zhǎng)的BFGS與DFP擬牛頓法的比較研究
      計(jì)算機(jī)生成均值隨機(jī)點(diǎn)推理三、四維球體公式和表面積公式
      基于FPGA的同步機(jī)軸角編碼器
      廣告創(chuàng)意新方法——球體思維兩極法
      基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
      Optimization of rice wine fermentation process based on the simultaneous saccharification and fermentation kinetic model☆
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      基于逐維改進(jìn)的自適應(yīng)步長(zhǎng)布谷鳥(niǎo)搜索算法
      多總線式光電編碼器的設(shè)計(jì)與應(yīng)用
      一種新型光伏系統(tǒng)MPPT變步長(zhǎng)滯環(huán)比較P&O法
      定边县| 萨迦县| 广安市| 博乐市| 收藏| 清镇市| 长武县| 通州市| 台州市| 远安县| 启东市| 石景山区| 四平市| 阿尔山市| 望都县| 吴桥县| 鄂尔多斯市| 云霄县| 靖西县| 隆回县| 泌阳县| 邵阳市| 宁德市| 新余市| 石景山区| 岑溪市| 五莲县| 怀来县| 马鞍山市| 苗栗市| 永平县| 台山市| 正镶白旗| 汉川市| 大兴区| 孝昌县| 新蔡县| 武功县| 武邑县| 平泉县| 霍林郭勒市|