• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      無(wú)監(jiān)督異常檢測(cè)的深度變分自編碼高斯混合模型

      2024-01-15 05:44:48江連吉陳玉明鐘才明曾高發(fā)
      關(guān)鍵詞:編碼器高斯重構(gòu)

      江連吉,陳玉明*,鐘才明,曾高發(fā)

      (1. 廈門理工學(xué)院 計(jì)算機(jī)與信息工程學(xué)院,福建 廈門 361024;2. 寧波大學(xué)科學(xué)技術(shù)學(xué)院信息工程學(xué)院, 浙江 寧波 315212;3. 廈門市執(zhí)象智能科技有限公司, 福建 廈門 361024)

      無(wú)監(jiān)督異常檢測(cè)是機(jī)器學(xué)習(xí)中的基本問(wèn)題之一[1-2],它在許多領(lǐng)域都有廣泛的應(yīng)用,如網(wǎng)絡(luò)安全、復(fù)雜管理系統(tǒng)和醫(yī)療衛(wèi)生等。尤其在網(wǎng)絡(luò)安全領(lǐng)域,隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)流量不斷增長(zhǎng),網(wǎng)絡(luò)入侵、黑客攻擊和惡意程序注入等現(xiàn)象頻繁出現(xiàn)。據(jù)《2021 年中國(guó)互聯(lián)網(wǎng)安全報(bào)告》,2021 年API攻擊增長(zhǎng)超200%,DDos 攻擊事件同比增長(zhǎng)約60%,Web 應(yīng)用攻擊高達(dá)229.83 億次,同比增長(zhǎng)141.3%[3]。因此,提高網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)的性能和準(zhǔn)確率顯得尤為關(guān)鍵。

      早期的入侵檢測(cè)主要是基于模式的硬編碼規(guī)則[4-5],但隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的發(fā)展,異常檢測(cè)開(kāi)始采用有監(jiān)督和無(wú)監(jiān)督的機(jī)器學(xué)習(xí)模型[6-11],如決策樹(shù)模型(decision tree,DT)[12-13]、支持向量機(jī)模型(support vector machine,SVM)[14-16]和高斯混合模型(gaussian mixture model,GMM)[17-18]。由于異常數(shù)據(jù)比正常流量數(shù)據(jù)少,存在數(shù)據(jù)不平衡與難以獲得有效標(biāo)簽的問(wèn)題。為解決這些問(wèn)題,有學(xué)者開(kāi)始采用自編碼器(autoencoder,AE)[19-21]、變分自編碼器(variational auto-encoders,VAE)[22-23]和生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[24-26]等模型進(jìn)行檢測(cè)。這些模型能對(duì)異常數(shù)據(jù)進(jìn)行生成重構(gòu),解決了無(wú)法獲得有效標(biāo)簽數(shù)據(jù)集的問(wèn)題,并能應(yīng)對(duì)更多未知類型的異常數(shù)據(jù)。然而,它們?cè)谥貥?gòu)數(shù)據(jù)樣本時(shí)往往忽略了正常樣本本身的內(nèi)部結(jié)構(gòu)和低維空間的表征。

      目前,用于無(wú)監(jiān)督異常檢測(cè)的方法大致可以分為3類。第一類是基于重構(gòu)的方法。如通過(guò)深度自編碼器對(duì)樣本進(jìn)行重構(gòu),將重構(gòu)后的樣本與訓(xùn)練樣本進(jìn)行比較,通過(guò)設(shè)定閾值,把重構(gòu)誤差小的歸為正常樣本。這類方法由于只從重構(gòu)誤差這一方面進(jìn)行異常分析,所以存有大量異常樣本經(jīng)過(guò)重構(gòu)后仍然與正常樣本接近的問(wèn)題。第二類是基于聚類的方法,如K-means、CBLOF(基于聚類的局部異常因子)算法、CMGOS(基于聚類的多維高斯異常得分)算法等。這些傳統(tǒng)技術(shù)主要通過(guò)兩個(gè)步驟來(lái)進(jìn)行檢測(cè),即先進(jìn)行降維,然后進(jìn)行聚類分析。由于這兩個(gè)步驟是分開(kāi)學(xué)習(xí)的,因此在降維過(guò)程中可能會(huì)丟失聚類分析的關(guān)鍵信息。第三類是基于單分類的方法,如利用SVM(支持向量機(jī))對(duì)樣本進(jìn)行二分類。這類方法由于異常樣本的數(shù)量往往少于正常樣本,隨著樣本維度的增加會(huì)導(dǎo)致檢測(cè)精度的下降。為更好地學(xué)習(xí)到原始樣本的低維特征,同時(shí)避免自編碼器自身的局部?jī)?yōu)化問(wèn)題,減少重構(gòu)誤差,本文采用聯(lián)合優(yōu)化深度變分自編碼器和高斯混合模型參數(shù)的方法,并利用單獨(dú)的估計(jì)網(wǎng)絡(luò)促進(jìn)混合模型的參數(shù)學(xué)習(xí),提出一種由壓縮網(wǎng)絡(luò)和估計(jì)網(wǎng)絡(luò)組成的深度變分自編碼高斯混合模型(DVAGMM)。

      1 深度變分自編碼高斯混合模型的建立

      1.1 網(wǎng)絡(luò)結(jié)構(gòu)

      DVAGMM 模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。從圖1 可見(jiàn),該模型包含壓縮網(wǎng)絡(luò)和估計(jì)網(wǎng)絡(luò)兩個(gè)部分。壓縮網(wǎng)絡(luò)由變分自編碼器組成,可以將初始輸入樣本X 進(jìn)行降維,并計(jì)算低維空間的均值μ(X)和方差σ(X),從而獲得N(μ(X),σ(X))的高斯分布。這個(gè)分布會(huì)被重采樣得到低維表征Zl,然后再通過(guò)解碼器進(jìn)行解碼重構(gòu),從而獲得重構(gòu)樣本X'。在估計(jì)網(wǎng)絡(luò)中,使用余弦相似度Z1和歐氏距離Z2來(lái)衡量原始樣本X 與重構(gòu)樣本X'之間的差異,并將它們作為重構(gòu)誤差與重采樣后的低維特征Zl一起作為輸入Z。最后,使用高斯混合模型對(duì)每個(gè)樣本進(jìn)行密度估計(jì),得到整個(gè)網(wǎng)絡(luò)的最終輸出π?。

      1.2 壓縮網(wǎng)絡(luò)

      壓縮網(wǎng)絡(luò)的作用是將輸入樣本X進(jìn)行壓縮降維獲得的樣本進(jìn)行低維表示后再進(jìn)行重構(gòu),其主要由編碼器和解碼器組成。編碼器、解碼器的結(jié)構(gòu)如圖2、3所示。由圖2可見(jiàn),樣本X通過(guò)編碼器學(xué)習(xí)到其低維空間的后驗(yàn)分布P(Zl|X)~N(μ(X),σ(X)),同時(shí)對(duì)該分布進(jìn)行隨機(jī)采樣獲得低維變量Zl。

      圖 1 DVAGMM的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of DVAGMM

      圖 2 編碼器的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of the encoder

      圖 3 解碼器的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of the decoder

      將采樣得到的低維變量Zl輸入到解碼器中,通過(guò)隱藏層進(jìn)行解碼重構(gòu),最終獲得重構(gòu)樣本X';通過(guò)函數(shù)h( ?,?)和f( ?,?)計(jì)算重構(gòu)誤差,并與低維變量Zl合并成Z輸出,具體表示為

      式(1)~(3)中:h( ?,?)為余弦相似度函數(shù);f( ?,?)為樣本間歐式距離;Z為估計(jì)網(wǎng)絡(luò)的輸入。

      1.3 估計(jì)網(wǎng)絡(luò)

      輸入樣本的低維表示Z,通過(guò)以高斯混合模型為基本框架的估計(jì)網(wǎng)絡(luò),對(duì)低維樣本進(jìn)行密度估計(jì),得到估計(jì)網(wǎng)絡(luò)的輸出π?。區(qū)別于傳統(tǒng)的高斯混合模型,該網(wǎng)絡(luò)在訓(xùn)練過(guò)程中可以直接通過(guò)計(jì)算未知混合變量的均值、協(xié)方差和該變量的分布,估計(jì)出高斯混合模型中的參數(shù)和樣本的似然,而不需要通過(guò)傳統(tǒng)的期望最大化(EM)算法對(duì)參數(shù)進(jìn)行迭代估計(jì)。該估計(jì)網(wǎng)絡(luò)的關(guān)鍵在于,當(dāng)混合變量經(jīng)過(guò)多層神經(jīng)網(wǎng)絡(luò)時(shí),能通過(guò)計(jì)算得出樣本混合成分的概率,給出低維表征Z和一個(gè)整數(shù)K作為混合成分的數(shù)量。估計(jì)網(wǎng)絡(luò)利用多層神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行成分預(yù)測(cè),計(jì)算公式為

      式(4)~(5)中:π?是一個(gè)K 維向量,通過(guò)歸一化指數(shù)函數(shù)(softmax 函數(shù))進(jìn)行成分預(yù)測(cè);P 是以θm為參數(shù)的MLN(多層神經(jīng)網(wǎng)絡(luò))的輸出。給定一批N個(gè)樣本和它們的成分預(yù)測(cè),?1 ≤k ≤K,就可以進(jìn)一步估計(jì)出高斯混合模型中的參數(shù)。即

      這個(gè)概率分布稱作樣本能量,在異常檢測(cè)中,其能量值越大,則被分為異常樣本的概率也越大。

      1.4 損失函數(shù)

      DVAGMM 模型采用聯(lián)合優(yōu)化的方式對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化。為同時(shí)優(yōu)化壓縮網(wǎng)絡(luò)與估計(jì)網(wǎng)絡(luò)中的參數(shù),提出新的聯(lián)合損失函數(shù),該函數(shù)主要分為4個(gè)部分。第一部分主要由樣本能量構(gòu)成;第二部分為KL 散度;第三部分為壓縮網(wǎng)絡(luò)中變分自編碼器產(chǎn)生的重構(gòu)誤差的損失;第四部分為正則項(xiàng),用于防止矩陣出現(xiàn)不可逆的情況。第一部分可以表示為

      式(10)中:N 表示樣本個(gè)數(shù);λ1為平衡系數(shù);E(zi)表示第i個(gè)樣本的樣本能量。通過(guò)最小化樣本能量可以找到壓縮網(wǎng)絡(luò)與估計(jì)網(wǎng)絡(luò)的最優(yōu)組合。第二部分損失的目標(biāo)是使所有樣本的邊際與p(x)最大化,計(jì)算公式為

      式(11)中:p(XZl)為 X 和Zl的聯(lián)合先驗(yàn)分布;p(Zl|X)為隱變量Zl的真實(shí)條件分布。兩邊取對(duì)數(shù)再積分,可得

      式(12)~(13)中:GKL( ?∥?)為KL 散度。因?yàn)镚KL( ?∥?) ≥0,所以的變分下界,記為GELBO(evidence lower bound,ELBO)。該網(wǎng)絡(luò)的優(yōu)化目標(biāo)可以簡(jiǎn)化為最大化GELBO,GELBO由KL 散度和重構(gòu)誤差組成。其中,KL 散度表示隱變量Zl的真實(shí)分布p(Zl|X)與近似后驗(yàn)分布q(Zl|X)之間的差異,KL 散度越小,兩個(gè)分布越相似。重構(gòu)誤差指重構(gòu)樣本與原始樣本之間的差異,用樣本的歐氏距離或余弦相似度表示。

      假設(shè)隱變量Zlw的真實(shí)分布p(Zl,w)服從均值為0,方差為1的標(biāo)準(zhǔn)正態(tài)分布,可以得到:

      因此,第二部分的損失為

      第三部分的損失為重構(gòu)誤差,計(jì)算公式為

      第四部分的損失為正則化項(xiàng),用于防止矩陣出現(xiàn)不可逆的情況,其具體公式為

      綜上,聯(lián)合損失函數(shù)L可表示為

      式(18)中:λ1、λ2為用于平衡以上4項(xiàng)的參數(shù);L(Xi,X'i)為重構(gòu)損失函數(shù)。

      2 實(shí)驗(yàn)結(jié)果與分析

      2.1 數(shù)據(jù)集

      公共基準(zhǔn)數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如表1所示。

      表 1 公共基準(zhǔn)數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)Table 1 Statistics for public benchmark datasets

      表1 中,KDDCUP 數(shù)據(jù)集來(lái)自于1998 年的DARPA(美國(guó)國(guó)防高級(jí)研究計(jì)劃局)入侵檢測(cè)評(píng)估項(xiàng)目,是網(wǎng)絡(luò)入侵檢測(cè)的基準(zhǔn)數(shù)據(jù)集。本次實(shí)驗(yàn)選取數(shù)據(jù)集總數(shù)的10%,實(shí)驗(yàn)樣本個(gè)數(shù)為494 021 個(gè),包含了41 個(gè)維度,其中34 個(gè)是連續(xù)型特征,7 個(gè)是離散型特征。對(duì)于離散特征,使用One-hot 編碼。最終得到一個(gè)120 維度的數(shù)據(jù)集。由于20%的數(shù)據(jù)樣本被標(biāo)記為“正?!保溆嗟谋粯?biāo)記為“異?!?,“正?!睒颖緦儆谏贁?shù)群,因此,在這個(gè)任務(wù)中,“正?!钡臉颖臼潜豢醋鳟惓?lái)進(jìn)行處理的。

      Thyroid(甲狀腺)數(shù)據(jù)集從ODDS(original owners of database)數(shù)據(jù)庫(kù)中獲得。原始數(shù)據(jù)集中一共有3 772個(gè)樣本6個(gè)特征維度,總共有3個(gè)類。在這個(gè)任務(wù)中,因?yàn)楣δ芸哼M(jìn)類是個(gè)明顯的少數(shù)類,所以功能亢進(jìn)類被視為異常類,其他兩個(gè)類被視為正常類。

      Arrhythmia(心律失常)數(shù)據(jù)集也從ODDS 數(shù)據(jù)庫(kù)中獲得。稀少的類,包括3、4、5、7、8、9、14和15,被組合成異常類,其余的類被合并為正常類。

      KDDCUP-Rev 數(shù)據(jù)集來(lái)自KDDCUP。保留所有標(biāo)記為“正?!钡臄?shù)據(jù)樣本,并隨機(jī)抽取標(biāo)記為“異?!钡臉颖荆埂罢!焙汀爱惓!敝g的比例為4∶1,這樣就得到1 個(gè)異常比例為0.2 的數(shù)據(jù)集。其中“異常”樣本屬于少數(shù)群體。需要注意的是,“異?!睒颖静皇枪潭ǖ?,每一次運(yùn)行都將從KDDCUP中隨機(jī)抽取“異?!睒颖尽?/p>

      2.2 網(wǎng)絡(luò)參數(shù)設(shè)置

      DVAGMM 模型的壓縮網(wǎng)絡(luò)參數(shù)如表2所示。表2中,F(xiàn)C表示全連接層;Sampling表示對(duì)數(shù)據(jù)進(jìn)行重采樣,將低維數(shù)據(jù)映射到N(Zmean,e0.5Zvarε)的高斯分布后對(duì)該分布進(jìn)行采樣,最終得到原樣本的低維表示Zl。其中,Zmean、Zvar分別是Zl的均值和方差,ε是服從N(0,1)的隨機(jī)數(shù)。

      表 2 壓縮網(wǎng)絡(luò)參數(shù)Table 2 Compressed network parameters

      DVAGMM模型的壓縮網(wǎng)絡(luò)參數(shù)如表3所示。

      表 3 估計(jì)網(wǎng)絡(luò)參數(shù)Table 3 Estimated network parameters

      表3中,Z1、Z2表示壓縮網(wǎng)絡(luò)產(chǎn)生的重構(gòu)誤差。這里采用歐式距離和余弦相似度作為度量,計(jì)算公式分別為

      為防止模型產(chǎn)生過(guò)擬合的現(xiàn)象,在估計(jì)網(wǎng)絡(luò)的第二層設(shè)置Dropout 層。權(quán)重0.5 表示在前向傳播的過(guò)程中讓某個(gè)神經(jīng)元的激活值以50%的概率停止工作,以增強(qiáng)模型的泛化性能,使其不過(guò)于依賴局部特征。最后,通過(guò)softmax函數(shù)激活后輸出最終結(jié)果π?作為樣本在低維空間的密度估計(jì)。

      其余超參數(shù)的設(shè)置如訓(xùn)練次數(shù)epochs = 200,每次的批量大小batch_size = 1 024。在模型優(yōu)化方面,訓(xùn)練采用Adam 優(yōu)化器,其中的超參數(shù)設(shè)置如學(xué)習(xí)率learning_rate = 1 × 10-4,平衡系數(shù)λ1= 0.1,平衡系數(shù)λ2= 0.005。

      2.3 實(shí)驗(yàn)結(jié)果

      本次實(shí)驗(yàn)采用平均精度、召回率、F1指標(biāo)對(duì)異常檢測(cè)性能進(jìn)行度量。根據(jù)表1數(shù)據(jù)集中的異常比率,實(shí)驗(yàn)通過(guò)設(shè)置閾值來(lái)對(duì)異常樣本進(jìn)行判別。例如在KDDCUP 數(shù)據(jù)集上,設(shè)置密度估計(jì)值前20%的數(shù)據(jù)樣本標(biāo)記為異常樣本,并把異常樣本歸為正例,正常樣本定義為負(fù)例。相應(yīng)地,定義精確率P、召回率R和F1指標(biāo)如下:

      式(21)~(23)中:TP 為真正例,指的是將異常樣本正確分類為異常樣本;FP 為假正例,指的是將正常樣本錯(cuò)誤分類為正常樣本;FN為假負(fù)例,指的是將異常樣本錯(cuò)誤預(yù)測(cè)為正常樣本。

      將DVAGMM 與OC-SVM、DCN、DSEBM、PAE 這幾個(gè)流行的異常檢測(cè)算法進(jìn)行比較。OC-SVM(one-class support vector machine)是一種基于核函數(shù)的支持向量機(jī),本實(shí)驗(yàn)采用的是RBF(radial basis function)核函數(shù)[27]。DCN(deep clustering network)深度聚類網(wǎng)絡(luò)是一種最先進(jìn)的通過(guò)k-means調(diào)節(jié)自動(dòng)編碼器性能的聚類算法[28],將這項(xiàng)技術(shù)應(yīng)用于異常檢測(cè)任務(wù),是將樣本與其聚類中心之間的距離作為異常檢測(cè)的度量標(biāo)準(zhǔn)(樣本距離其聚類中心較遠(yuǎn)的被視為異常樣本)。DSEBM(deep structured energy based model)基于深度結(jié)構(gòu)化能量的模型是一種用于無(wú)監(jiān)督異常檢測(cè)的深度學(xué)習(xí)方法[29]。在DSEBM-e 中,樣本能量被用作檢測(cè)異常的度量標(biāo)準(zhǔn)。DSEBM-e 和DSEBM-r共享相同的核心技術(shù),但是DSEBM-r使用重建誤差作為異常檢測(cè)的度量標(biāo)準(zhǔn)。PAE是將DAGMM 在目標(biāo)函數(shù)中去除樣本能量函數(shù)獲得的變量,這個(gè)DVAGMM 變體相當(dāng)于1個(gè)深度自動(dòng)編碼器。為確保壓縮網(wǎng)絡(luò)訓(xùn)練良好,實(shí)驗(yàn)采用預(yù)訓(xùn)練策略[30]在PAE中的樣本重構(gòu)誤差作為異常檢測(cè)的度量標(biāo)準(zhǔn)。

      在第一組實(shí)驗(yàn)中,隨機(jī)選擇50%的數(shù)據(jù)進(jìn)行訓(xùn)練,而將剩余的50%數(shù)據(jù)用于測(cè)試,保證用于訓(xùn)練模型的樣本都為正常樣本,并且所有方法都運(yùn)行20次,取平均值,得到如表4所示的結(jié)果。

      表 4 DAGMM與多個(gè)異常檢測(cè)算法的比較Table 4 Comparison of DAGMM with multiple anomaly detection algorithms

      第二組實(shí)驗(yàn)針對(duì)KDDCUP 數(shù)據(jù)集,仍然將50%的數(shù)據(jù)用于訓(xùn)練,剩余50%的數(shù)據(jù)用于測(cè)試。為了研究訓(xùn)練時(shí)異常樣本數(shù)量對(duì)訓(xùn)練模型的干擾,第二組實(shí)驗(yàn)將異常樣本和正常樣本按混合比例c進(jìn)行混合作為訓(xùn)練集,對(duì)各個(gè)模型進(jìn)行訓(xùn)練,獲得的實(shí)驗(yàn)結(jié)果如表5所示。

      表 5 異常樣本比例對(duì)各模型訓(xùn)練的影響情況Table 5 Effect of anomaly sample proportion on training by model

      從表4可見(jiàn),DVAGMM 在準(zhǔn)確率P、召回率R、以及F1指標(biāo)等多個(gè)方面相較于其他流行的異常檢測(cè)算法及其變體都有著優(yōu)異的表現(xiàn)。在KDDCUP和KDDCUP-Rev數(shù)據(jù)集上,DVAGMM 表現(xiàn)更加突出。相比于OC-SVM、DSEBM-e、DCN 及PAE 模型,DVAGMM 在準(zhǔn)確率方面分別高出了16.41%、17.29%、14.02%和18.22%。在召回率指標(biāo)上,DVAGMM 也有著不錯(cuò)的表現(xiàn),僅在KDDCUP-Rev 數(shù)據(jù)集上略低于OC-SVM,在KDDCUP、Thyroid 和Arrhythmia 數(shù)據(jù)集上比OC-SVM 分別高出0.56%、5.95%、9.96%。說(shuō)明在異常檢測(cè)過(guò)程中,DVAGMM 能夠盡可能地檢測(cè)出異常樣本。對(duì)于DSEBM 的變體,由于其只考慮部分損失,召回率指標(biāo)普遍較低,說(shuō)明在實(shí)際應(yīng)用中對(duì)異常樣本不敏感。在4個(gè)數(shù)據(jù)集上,DVAGMM 的F1 指標(biāo)均超過(guò)OC-SVM,分別高出8.77%、10.64%、8.95%和4.02%,表明在綜合性能上,DVAGMM相較于其他異常檢測(cè)算法有著明顯的優(yōu)勢(shì)。

      分析第一組實(shí)驗(yàn)發(fā)現(xiàn),DVAGMM 在異常檢測(cè)和信息判別方面都有著出色的效果。盡管OC-SVM在某些情況下表現(xiàn)不錯(cuò),但其容易受到數(shù)據(jù)維度的限制;而DSEBM 的變體雖然在不同數(shù)據(jù)集上表現(xiàn)良好,但DVAGMM 共同考慮了重構(gòu)誤差和樣本能量,性能更佳。DCN 和PAE 模型在預(yù)先訓(xùn)練的深度自動(dòng)編碼器方面可能存在限制,且當(dāng)預(yù)訓(xùn)練較為成熟時(shí),這些模型難以適應(yīng)數(shù)據(jù)維度的減少,從而影響后續(xù)的密度估計(jì)任務(wù)。

      分析第二組實(shí)驗(yàn)發(fā)現(xiàn),被異常數(shù)據(jù)污染的訓(xùn)練集會(huì)對(duì)檢測(cè)準(zhǔn)確性產(chǎn)生影響,隨著異常樣本的混合比例從1%增加到5%,所有方法的準(zhǔn)確率、召回率和F1 指標(biāo)都下降了。不過(guò),DVAGMM 在5%的樣本污染狀態(tài)下仍然保持了不錯(cuò)的檢測(cè)效果。相比之下,OC-SVM 對(duì)訓(xùn)練集污染比例更為敏感。因此,在訓(xùn)練時(shí)最好使用低污染的數(shù)據(jù)集。

      綜上所述,DVAGMM 通過(guò)端到端的訓(xùn)練,在公共基準(zhǔn)數(shù)據(jù)集上表現(xiàn)良好,能夠有效提高無(wú)監(jiān)督異常檢測(cè)的檢測(cè)效果。

      3 結(jié)論

      針對(duì)高維數(shù)據(jù)無(wú)監(jiān)督異常檢測(cè)難以重構(gòu)異常樣本,無(wú)法保留低維空間信息的問(wèn)題,本文提出了深度變分自編碼高斯混合模型DVAGMM,通過(guò)壓縮網(wǎng)絡(luò)和估計(jì)網(wǎng)絡(luò)進(jìn)行端到端的訓(xùn)練,聯(lián)合優(yōu)化了深度變分自編碼器和高斯混合模型的參數(shù)。實(shí)驗(yàn)結(jié)果表明,在異常檢測(cè)方面,DVAGMM 模型相較于其他幾個(gè)流行算法有著明顯的優(yōu)越性,在綜合性能上高出第二名4.02%,對(duì)于訓(xùn)練樣本的污染情況也有著較強(qiáng)的抵抗性,在5%的樣本污染率下依舊能保持80%的準(zhǔn)確率。后續(xù)將考慮通過(guò)加入?;乃枷耄肓S?jì)算的理念來(lái)增強(qiáng)模型的泛化性能,并進(jìn)一步提高異常檢測(cè)的準(zhǔn)確率。

      猜你喜歡
      編碼器高斯重構(gòu)
      小高斯的大發(fā)現(xiàn)
      長(zhǎng)城敘事的重構(gòu)
      攝影世界(2022年1期)2022-01-21 10:50:14
      天才數(shù)學(xué)家——高斯
      北方大陸 重構(gòu)未來(lái)
      基于FPGA的同步機(jī)軸角編碼器
      北京的重構(gòu)與再造
      商周刊(2017年6期)2017-08-22 03:42:36
      基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
      論中止行為及其對(duì)中止犯的重構(gòu)
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      有限域上高斯正規(guī)基的一個(gè)注記
      林甸县| 富锦市| 闽清县| 海门市| 乐都县| 崇义县| 石泉县| 石狮市| 岳池县| 平泉县| 香港| 昭觉县| 容城县| 日喀则市| 左权县| 长治市| 东至县| 长岛县| 湄潭县| 冕宁县| 长兴县| 青浦区| 那坡县| 淮安市| 杂多县| 松江区| 邻水| 英吉沙县| 三亚市| 中阳县| 贵阳市| 龙里县| 永吉县| 永善县| 黑龙江省| 永川市| 德令哈市| 陵水| 铁岭县| 黎川县| 富宁县|