• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      VAE過采樣與遷移學習在網絡入侵檢測中的應用

      2021-08-06 19:34:19黃仲英楊印根雷震春
      計算機時代 2021年7期
      關鍵詞:遷移學習

      黃仲英 楊印根 雷震春

      摘? 要: 在網絡入侵檢測中,異常樣本通常要比正常樣本少得多,數(shù)據(jù)的不平衡問題會導致檢測模型的分類結果傾向于多數(shù)類,影響模型準確率。文章提出應用變分自編碼器(VAE)模型對網絡入侵檢測中的不平衡數(shù)據(jù)進行過采樣,通過學習原數(shù)據(jù)的特征后生成新樣本重新平衡數(shù)據(jù)分布,以提高檢測模型的性能。在訓練檢測模型時采用遷移學習方法,先在過采樣后混合的數(shù)據(jù)集上預訓練,再遷移到原數(shù)據(jù)集上進行訓練,得到最終的檢測模型。在NSL-KDD數(shù)據(jù)集上進行實驗,網絡入侵檢測模型使用前饋神經網絡。結果表明,基于深度學習的VAE過采樣方法比傳統(tǒng)的SMOTE過采樣方法要更加有效,提高了網絡入侵檢測模型準確率3.23%。

      關鍵詞: 網絡入侵檢測; VAE; 遷移學習; SMOTE; 不平衡數(shù)據(jù)

      中圖分類號:TP393.08? ? ? ? ? 文獻標識碼:A? ? ? 文章編號:1006-8228(2021)07-50-05

      Application of VAE oversampling and transfer learning in network intrusion detection

      Huang Zhongying, Yang Yingen, Lei Zhenchun

      (School of Computer and Information Engineering, Jiangxi Normal University, Nanchang, Jiangxi 330022, China)

      Abstract: In network intrusion detection, the number of malicious samples is extremely less than that of normal samples. The data imbalance will lead to the classification results of detection models inclined to most categories, which leads to the low accuracy of the detection models. This paper proposes to use the variational auto-encoder (VAE) model to oversample the imbalanced data in network intrusion detection, and rebalance the data distribution with the new samples generated by learning the features of the original data, so as to improve the performance of detection model. When training the detection model, the transfer learning method is adopted, the final model is pre-training on the oversampled and mixed data set, and then training on the original data set. The experiment is carried out on NSL-KDD data set, and the network intrusion detection model uses feedforward neural network. The results show that the VAE oversampling method based on deep learning is more effective than the traditional SMOTE oversampling method, and the accuracy of network intrusion detection model is improved by 3.23%.

      Key words: network intrusion detection; VAE; transfer learning; SMOTE; imbalanced data

      0 引言

      入侵檢測模型的作用是監(jiān)視和分析網絡通信,通過主動響應來識別網絡中的異常行為[1]。在實際應用中,由于網絡入侵行為并不是時刻都在發(fā)生,因此獲取大量標簽樣本比較困難,需要耗費大量的人力物力,這就造成檢測模型的訓練集中惡意入侵類別的標簽數(shù)據(jù)量較少,使得集中出現(xiàn)數(shù)據(jù)不平衡的問題。有限的標簽數(shù)據(jù)只能反饋有限的信息,在少量的標簽樣本環(huán)境下訓練出來的檢測模型往往影響其檢測性能。

      從不平衡的數(shù)據(jù)中訓練模型對于研究界來說是一個挑戰(zhàn)。常規(guī)的網絡入侵檢測模型在不平衡數(shù)據(jù)集中通常表現(xiàn)不佳,因為它們會導致分類結果偏向于樣本數(shù)量多的類[2]。目前,在處理網絡入侵檢測數(shù)據(jù)集中的數(shù)據(jù)不平衡問題時,研究者通常使用欠采樣或者過采樣方法進行處理。如陳高升等人[3]提出的基于簇內樣本平均分類錯誤率的欠采樣方法,在減少多數(shù)類樣本數(shù)量的同時保留盡量多的對構建分類器有用的信息,最終得到一個平衡的數(shù)據(jù)集再進行實驗。Abhishek Divekar等人[4]使用SMOTE過采樣技術與隨機欠采樣技術結合對數(shù)據(jù)集中的惡意攻擊標簽樣本數(shù)據(jù)進行調整構建一個均衡版本的NSL-KDD數(shù)據(jù)集進行網絡入侵檢測實驗。

      通過欠采樣的方法對數(shù)據(jù)集進行處理容易丟失多數(shù)類樣本信息導致模型對多數(shù)類的分類精度下降。SMOTE過采樣方法則是基于簡單的插值運算進行樣本的過采樣,容易制造出冗余的數(shù)據(jù)樣本增加模型的訓練難度。隨著信息技術的發(fā)展,越來越多的入侵攻擊方式也在不斷的走向智能化、多樣化,傳統(tǒng)的過采樣方法原理簡單,已經不再適用于當下的網絡環(huán)境。

      近年來,在深度生成模型領域變分自編碼器(Variational Auto-Encoders,VAE)被視為深度學習領域最具研究價值的方法之一,得到越來越多的應用。如圖像處理領域中,田棟文等人[5]提出一種基于VAE的跨域圖像生成算法,利用編碼器對跨域圖像進行編碼得到其內容屬性和風格屬性后再進行拼接實現(xiàn)跨域圖像過采樣。人臉識別領域中,李頊晟等人[6]設計了一種基于自編碼器結構的生成對抗網絡,使模型既能生成人臉圖像,又可以對人臉圖像進行編碼和重構。張鵬升等人[7]設計基于變分自編碼器的產生式模型,采用[β-VAE]模型學習隱空間與真實圖片空間關系,提高圖片生成質量,并使用模擬加無監(jiān)督學習方法,提高模型在訓練過程的穩(wěn)定性。語音處理領域中,Aggarwal等人[8]利用VAE和歸一化流對表達性言語進行一次文本-語音合成,使用一個表達風格的例子作為編碼器的參考輸入,以生成所需風格的任何文本。范純龍等人[9]提出了一種基于變分自編碼器(VAE)的無監(jiān)督交互式旋律生成方法,通過給VAE引入顯式的旋律輪廓條件推理學習,實現(xiàn)了對生成旋律局部與全局特征的靈活控制。基于深度生成模型的數(shù)據(jù)過采樣方式已經在許多領域得到應用,其在過采樣時利用深度學習方法強大的學習能力,通過深度生成模型學習到待采樣數(shù)據(jù)的分布后,再進行數(shù)據(jù)的過采樣。

      在當下復雜的網絡環(huán)境中,傳統(tǒng)的過采樣方法已經不適用于網絡入侵檢測數(shù)據(jù)集中不平衡數(shù)據(jù)的過采樣。深度生成模型在圖片處理、語音識別、自然語言處理等領域得到廣泛應用,說明其在數(shù)據(jù)過采樣方面具有很大的優(yōu)勢。本文應用深度生成模型中的變分自編碼器模型對網絡入侵檢測數(shù)據(jù)集中的不平衡數(shù)據(jù)進行過采樣,通過深度生成模型過采樣,重新平衡數(shù)據(jù)集的樣本數(shù)量分布后再訓練檢測模型,以提高檢測模型的準確率。本文實驗在網絡入侵檢測數(shù)據(jù)集NSL-KDD上進行,并且將傳統(tǒng)的SMOTE過采樣方法與深度生成模型中的VAE過采樣方法對檢測模型準確率的優(yōu)化情況進行對比。

      1 基于過采樣的入侵檢測模型

      1.1 SMOTE過采樣方法

      SMOTE過采樣方法是基于插值的方法從現(xiàn)有的數(shù)據(jù)樣本中合成新樣本,其原理如圖1所示。

      SMOTE過采樣方法通過在兩個最近鄰的樣本連線中隨機取一點作為新合成的樣本,具體步驟如下。

      Step1 對于數(shù)據(jù)集中的少數(shù)類樣本[xi],找出樣本[xi]的K個近鄰;

      Step2 在樣本[xi]的K個近鄰中隨機選擇一個樣本記為[xij],同時生成一個0到1之間的隨機數(shù)[α1],然后根據(jù)式(1)生成一個新的樣本[xi1]:

      [xi1=xi+α1?(xij-xi)] ⑴

      Step3 根據(jù)需要過采樣的數(shù)量,重復Step1和Step2即可以完成數(shù)據(jù)的過采樣。

      1.2 VAE過采樣方法

      變分自編碼器是深度生成模型的一種形式,是由Kingma等人[10]提出的基于變分貝葉斯(Variational Bayes,VB)推斷的生成式網絡結構。如圖2所示,VAE由編碼器和解碼器兩個部分組成[11],編碼器將原始數(shù)據(jù)X轉化為隱向量Z,解碼器將隱向量Z還原成盡可能接近原始數(shù)據(jù)的生成數(shù)據(jù)X'。

      在進行樣本生成時,編碼器通過內部神經網絡將真實樣本X編碼到隱空間的一個概率分布[q(Z|X)]中,由均值μ和方差σ2確定,然后從[q(Z|X)]中隨機采樣得到隱向量Z作為解碼器的輸入,最后得到生成樣本X'。由于解碼器的概率分布受到隱向量Z的約束[12],因此確定一個基于Z的條件概率分布[p(X'|Z)]。VAE的損失函數(shù)如下:

      [cost=KLN(μ(X),σ2(X))N(0,1)-logPp(X'|Z)(X)] ⑵

      在訓練時將數(shù)據(jù)解碼映射到標準正態(tài)分布N(0,1)中,使用KL散度表示[q(Z|X)]與標準正態(tài)分布N(0,1)的距離,用概率分布[p(X'|Z)]下P(X)的對數(shù)似然表示生成樣本X'與輸入樣本X的距離。通過將損失函數(shù)最小化得到最優(yōu)模型后,利用解碼器進行樣本的過采樣。

      1.3 基于過采樣與遷移學習的入侵檢測模型

      網絡入侵檢測是指對異常的網絡流量和活動進行監(jiān)控,并將其與正常的網絡預期行為進行區(qū)分[13]。本文使用深度前饋神經網絡[14]構建網絡入侵檢測模型,并且應用變分自編碼器模型對網絡入侵檢測數(shù)據(jù)集中的不平衡數(shù)據(jù)進行過采樣,然后在過采樣后混合的數(shù)據(jù)集上訓練檢測模型。

      在傳統(tǒng)的檢測模型構建時,首先在訓練集上對檢測模型訓練至最優(yōu)狀態(tài)以后再到測試集上進行檢測實驗,而本實驗中的訓練集包括過采樣后混合的數(shù)據(jù)集以及沒有過采樣處理的原數(shù)據(jù)集,為了檢測模型盡可能的學習到訓練集中的樣本特征,本文提出使用遷移學習的方法來構建檢測模型。在檢測模型訓練時,首先在過采樣后混合的訓練集上訓練檢測模型,然后再遷移到沒有過采樣處理的訓練集上進行微調訓練確定最終的模型。系統(tǒng)流程如圖3所示。

      整個系統(tǒng)流程如下。

      ⑴ 網絡入侵數(shù)據(jù)預處理。主要包括字符型特征屬性數(shù)值化、數(shù)據(jù)標準化、標簽數(shù)值化等。

      ⑵ 訓練VAE過采樣模型。將NSL-KDD數(shù)據(jù)集中的數(shù)據(jù)樣本編碼映射到高斯分布N(0,1)中,其中,編碼器和解碼器都是5隱層每層400個神經元的前饋神經網絡。過采樣模型在訓練時使用Relu函數(shù)作為每個隱層的激活函數(shù),并使用Adam optimizer優(yōu)化器進行最小損失求解,得到最優(yōu)狀態(tài)下的過采樣模型。

      ⑶ 數(shù)據(jù)過采樣。對網絡入侵檢測數(shù)據(jù)集中的少數(shù)類進行過采樣,使用VAE中的解碼器以及SMOTE過采樣方法對少數(shù)類的樣本進行過采樣,然后將過采樣的樣本與原樣本混合,使得所有類別樣本數(shù)量相等。

      ⑷ 入侵檢測分類。本實驗的檢測模型使用5個隱含層,每個隱含層有100個神經元的FNN模型。在進行入侵檢測實驗時,首先將過采樣數(shù)據(jù)與原數(shù)據(jù)混合,然后在混合后的數(shù)據(jù)集上迭代訓練檢測模型100次得到預訓練的模型;再使用遷移學習的方法在原數(shù)據(jù)集上迭代訓練20次,得到最終的檢測模型;最后在測試集上進行測試,并對不同過采樣方法中的檢測模型準確率進行比較。

      2 實驗

      2.1 數(shù)據(jù)集

      本文實驗使用網絡入侵檢測領域內公開的數(shù)據(jù)集NSL-KDD數(shù)據(jù)集,包括1個訓練集KDDTrain+以及2個測試集KDDTest+和KDDTest21[15]。其中訓練集包括22種攻擊類型的標簽樣本,測試集包含39種攻擊類型的標簽樣本。這些標簽樣本屬于5種類型:Benign(正常)、DOS(拒絕服務攻擊)、Probe(探測性暴力破解攻擊)、R2L(遠程對本地攻擊)、U2R(特權升級嘗試攻擊)。表1為訓練集和測試集的5種標簽數(shù)據(jù)數(shù)量分布。

      表1中Benign為正常樣本的類別標簽,其余四種均為惡意攻擊樣本的類別標簽。從表1中可以看出R2L類、U2R類的數(shù)量遠少于Benign類與DOS類的數(shù)量。因此,將R2L類與U2R類視為少數(shù)類,將Benign類與DOS類視為多數(shù)類。檢測模型在訓練時需要大量的標簽數(shù)據(jù)進行學習,樣本少則檢測效果不好。為了解決這一問題,本文應用過采樣的方法先對數(shù)據(jù)集中的不平衡數(shù)據(jù)過采樣后再訓練檢測模型。

      NSL-KDD數(shù)據(jù)集中每個樣本都具有41維特征,其中包含了3個字符型特征,對數(shù)據(jù)的預處理如下。

      ⑴ 字符型特征數(shù)值化。數(shù)據(jù)集中存在3個字符型特征(“protocol_type”、“service”、“flag”)。檢測模型需要輸入數(shù)值型特征進行計算,本文使用one-hot編碼的方式將字符型特征轉換為數(shù)值型。如特征“protocol_type”有3種取值:“tcp”,“udp”,“icmp”,經過one-hot編碼以后對應變成二進制特征向量(1,0,0),(0,1,0),(0,0,1)。將數(shù)據(jù)集內的3個字符型特征使用one-hot編碼轉換為數(shù)值型特征后與剩下的38維數(shù)值型特征組合,得到118維的特征向量,以此作為檢測模型的輸入向量。

      ⑵ 數(shù)據(jù)標準化。訓練集中不同的特征具有不同的量綱,為了消除不同的量綱對實驗的影響,并且加快模型的計算速度。本實驗使用數(shù)據(jù)標準化操作,對數(shù)據(jù)集中的數(shù)據(jù)特征規(guī)整后服從均值為0標準差為1的分布。

      ⑶ 標簽數(shù)值化。將數(shù)據(jù)集內5種數(shù)據(jù)的標簽Benign、Dos、Probe、R2L、U2R進行one-hot編碼轉換為二進制標簽向量。

      2.2 數(shù)據(jù)過采樣

      本文實驗對NSL-KDD數(shù)據(jù)集中的不平衡數(shù)據(jù)使用SMOTE過采樣與VAE過采樣,具體采樣數(shù)據(jù)如下:

      ⑴ SMOTE過采樣。利用傳統(tǒng)的SMOTE過采樣方法,對NSL-KDD數(shù)據(jù)集中訓練集KDDTrain+的惡意攻擊類別DOS、Probe、R2L、U2R的樣本進行過采樣,生成DOS類別樣本21416個,Probe類別樣本55687個,R2L類別樣本66348個,U2R類別樣本67291個。然后,生成的樣本與原樣本混合,得到SMOTE過采樣后的訓練集,其中每個類別樣本的數(shù)量都為67343個。

      ⑵ VAE過采樣。在VAE模型訓練至最優(yōu)狀態(tài)后,通過其內的解碼器,從概率分布[q(Z|X)]中采樣解碼生成新的樣本,對訓練集中DOS、Probe、R2L、U2R類別的樣本進行過采樣,過采樣的數(shù)量與SMOTE過采樣中一致,然后將過采樣中生成的樣本與原樣本混合。

      2.3 入侵檢測實驗結果

      圖4所示為FNN模型作為檢測模型在實驗中的準確率變化情況。首先,檢測模型分別在不同的訓練集(SMOTE過采樣后的訓練集、VAE過采樣后的訓練集)上迭代訓練100次,然后再到原數(shù)據(jù)集上迭代訓練20次后確定最終的模型,最后在測試集上進行測試,得到準確率。

      從圖4中可以看出,在VAE過采樣后混合的數(shù)據(jù)集上訓練出的檢測模型準確率最高,并且在使用遷移學習的方法后準確率還有進一步的提升,這說明模型充分的學習到了數(shù)據(jù)集中各類型樣本的特征。為進一步的分析過采樣方法對檢測模型的作用,本文結合準確率(Accuracy)與各類別分類的精確率和召回率的調和平均值(F1-Score)對不同的過采樣方法進行分析。結果如表2所示。

      相比于原數(shù)據(jù)集上直接檢測分類的方法,VAE過采樣后檢測模型的準確率提高了3.23%,比傳統(tǒng)的SMOTE過采樣方法高1.59%。F1-Score值越大表明模型對該類別的分類精度越高,從四個實驗中的F1-Score可以看出在VAE過采樣后的訓練集上訓練的檢測模型對測試集中各個類別的樣本分類精度都有所提高,基本上都高于傳統(tǒng)的SMOTE過采樣方法。

      綜合圖4和表2中的準確率和F1-Score的值可以得出:使用過采樣方法提高了檢測模型對少數(shù)類的分類精度,從而提高了檢測模型的準確率,并且基于深度學習的VAE過采樣方法在提高檢測模型性能方面要優(yōu)于傳統(tǒng)的SMOTE過采樣方法。出現(xiàn)這種現(xiàn)象的原因可能是SMOTE過采樣的原理過于簡單,其基于插值來合成的過采樣樣本,使得樣本缺乏創(chuàng)新性而成為冗余樣本,增加模型的訓練難度?;谏疃葘W習的過采樣方法,能夠更加準確的學習到待采樣樣本的分布,最大程度的減少冗余樣本的出現(xiàn),并且生成出具有一定創(chuàng)新性的樣本,使得檢測模型在檢測未知攻擊上具有更大的潛力。

      3 結束語

      針對網絡入侵檢測領域中由于訓練集的數(shù)據(jù)數(shù)量分布不平衡而導致檢測模型性能降低的問題。本文以重新平衡數(shù)據(jù)集內的樣本數(shù)量分布為研究目標,通過應用VAE模型對不平衡數(shù)據(jù)進行過采樣,并加入遷移學習的方法在過采樣數(shù)據(jù)集與原數(shù)據(jù)集上訓練檢測模型,提高檢測模型的準確率。在NSL-KDD數(shù)據(jù)集上實驗結果表明,與傳統(tǒng)的SMOTE過采樣方法相比,在提高檢測模型的準確率上基于深度學習的VAE過采樣方法更具有優(yōu)勢。深度生成模型在網絡安全領域存還有非常多的應用場景,更多的應用方式還需要進一步的挖掘。

      參考文獻(References):

      [1] S.Dubey and J.Dubey, "KBB: A Hybrid Method for Intru-sion Detection", in International Conference on Computer, Communication and Control,2015:1-6

      [2] CHAWLA N V, BOWYER K W, HALL L O. SMOTE:Synthetic minority over-sampling technique[J].Artificial Intelligence Research,2002.16:321-357

      [3] 陳高升.基于機器學習的網絡入侵檢測方法研究[D].重慶郵電大學,2020.

      [4] A. DIVEKAR, M. PAREKH, V. SAVLA, R. "Bench-marking datasets for Anomaly-based Network Intrusion Detection: KDD CUP 99 alternatives,"[C]//2018 IEEE 3rd Interna-tional Conference on Computing, Communication and Se-curity (ICCCS), Kathmandu,2018:1-8

      [5] 田棟文.基于自編碼器的圖像生成算法研究[D].北方民族大學,2020.

      [6] 李頊晟.基于自編碼器結構的生成對抗網絡人臉圖像生成技術研究[D].電子科技大學,2020.

      [7] 張鵬升.基于變分自編碼器的人臉正面化產生式模型[J].軟件導刊,2018.17(12):48-51

      [8] BEAULIEU-JONES B K, WU Z S, WILLIAMS C, et al.?Privacy-Preserving Generative Deep Neural Networks Support Clinical Data Sharing[J]. Circulation Cardiovas-cu-lar Quality and Outcomes,2019.12(7).

      [9] 范純龍,張振鑫,丁三軍,滕一平,王翼新.基于變分自編碼器的交互式旋律生成方法[J].計算機應用研究,2021.38(2):479-483

      [10] Kingma D P,Welling M.Auto-encoding variational bayes[C]//International Conference on Learning Represen-tations,2014.

      [11] 翟正利,梁振明,周煒,孫霞.變分自編碼器模型綜述[J].計算機工程與應用,2019.55(3):1-9

      [12] 羅智鈺,黃立群.基于變分自編碼器的入侵檢測系統(tǒng)設計與實現(xiàn)[J].電腦知識與技術,2020.16(13):22-24

      [13] NASEER S, SALEEM Y, KHALID S. Enhanced NetworkAnomaly Detection Based on Deep Neural Networks[J]. IEEE Access,2018.6:48231-48246

      [14] INGRE B, YADAV A. Performance analysis of NSL-KDD dataset using ANN[C]//International Conference on Signal Processing & Communication Engineering Systems. IEEE,2015:92-96

      [15] TAVALLAEE M, BAGHERI E, LU W, et al. A detailedanalysis of the KDD CUP 99 data set[C]//Computational Intelligence for Security and Defense Applications, 2009. CISDA 2009.? IEEE Symposium on. IEEE,2009:1-6

      猜你喜歡
      遷移學習
      《宋史·曾公亮傳》傳主形象論析
      文學教育(2018年7期)2018-07-17 18:50:52
      基于深度神經網絡的人體動作識別研究
      威斯頓相互作用法在社會保險學課程教學中的實踐
      基于卷積神經網絡的圖像分類技術
      科技視界(2017年32期)2018-01-24 17:54:40
      遷移學習在專業(yè)課程教學中的實踐研究
      遷移學習研究綜述
      從認知角度探討大學英語網絡教學模式
      基于多特征融合的跨域情感分類模型研究
      奇異值分解與移移學習在電機故障診斷中的應用
      一種基于遷移極速學習機的人體行為識別模型
      新丰县| 阿克| 广灵县| 长武县| 鲜城| 黄浦区| 黎城县| 上虞市| 贺州市| 松江区| 资源县| 房山区| 宁都县| 镇巴县| 天镇县| 长兴县| 华蓥市| 天水市| 乾安县| 凤冈县| 大荔县| 潞西市| 昭苏县| 屏东县| 尼木县| 汉川市| 嵩明县| 芒康县| 杭锦后旗| 象山县| 扶余县| 罗江县| 嘉禾县| 普定县| 英山县| 濮阳市| 阿坝| 湖南省| 平和县| 临猗县| 若羌县|