葉 倩,譚 天,孫艷杰
(杭州迪普信息技術(shù)有限公司,浙江 杭州 310051)
近年來,大數(shù)據(jù)、人工智能、云計算和5G技術(shù)得到迅猛發(fā)展,網(wǎng)絡(luò)的應(yīng)用也變得更廣泛和便捷。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第47次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截至2020年12月,我國網(wǎng)民規(guī)模達(dá)到9.89億人,較2020年3月增長8540萬人,互聯(lián)網(wǎng)普及率已達(dá)70.4%。網(wǎng)民規(guī)模的擴(kuò)大,引入了更大的網(wǎng)絡(luò)流量和網(wǎng)絡(luò)攻擊面,使得保護(hù)網(wǎng)絡(luò)信息和通信安全成為一個更具挑戰(zhàn)性的問題。入侵檢測系統(tǒng)(Intrusion Detection System,IDS)對提高系統(tǒng)的安全水平起著至關(guān)重要的作用。
隨著網(wǎng)絡(luò)攻擊的復(fù)雜性和網(wǎng)絡(luò)功能的多樣化,傳統(tǒng)的入侵檢測技術(shù)存在誤報率高、適應(yīng)性差和檢測率低的問題。因此,我們需要研究新的入侵檢測技術(shù)來提高入侵檢測系統(tǒng)的安全檢測能力。近年來,深度學(xué)習(xí)[1]在圖像識別、語音識別、自然語言處理等方面取得了驚人的成績。深度學(xué)習(xí)技術(shù)在處理復(fù)雜的大規(guī)模數(shù)據(jù)方面具有出色的性能,這也為處理多特征入侵?jǐn)?shù)據(jù)帶來了新的思路。深度學(xué)習(xí)在網(wǎng)絡(luò)入侵檢測領(lǐng)域的靈活應(yīng)用可以有效提高檢測率,降低誤報率和漏報率。
本文從以下幾方面展開研究:第一,提出當(dāng)前的網(wǎng)絡(luò)安全防護(hù)存在的一些問題;第二,介紹了基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的入侵檢測技術(shù),并對這兩種技術(shù)做了分析比較;第三,介紹了入侵檢測系統(tǒng)訓(xùn)練的必需因素數(shù)據(jù)集;第四,對深度學(xué)習(xí)模型結(jié)合數(shù)據(jù)集在入侵檢測系統(tǒng)上的應(yīng)用和近幾年相關(guān)研究工作做了綜述;第五,對全文進(jìn)行了總結(jié),并對今后的工作進(jìn)行了展望。
隨著新興技術(shù)突飛猛進(jìn)的發(fā)展,信息技術(shù)的應(yīng)用已經(jīng)逐步滲透到各行各業(yè)中,為我們的工作和生活帶來便捷和智能服務(wù)的同時,也帶來了逐步加劇的網(wǎng)絡(luò)安全問題。其中,零日攻擊、APT攻擊、勒索病毒攻擊等智能化攻擊日益猖獗。在信息化時代中常見的網(wǎng)絡(luò)安全問題如下。
(1)用戶操作不當(dāng):計算機(jī)產(chǎn)生的安全問題和用戶的操作不當(dāng)有著密切的關(guān)系。對于使用網(wǎng)絡(luò)的普通用戶而言,因缺乏必要的計算機(jī)網(wǎng)絡(luò)安全知識,沒有對網(wǎng)絡(luò)系統(tǒng)進(jìn)行有效防護(hù),比如用戶密碼過于簡單、將個人信息隨意泄露給別人。對于網(wǎng)絡(luò)管理員而言,因為新的網(wǎng)絡(luò)系統(tǒng)非常復(fù)雜,配置操作容易出錯,這些錯誤很可能會被黑客利用,存在大量的安全隱患。
(2)網(wǎng)絡(luò)系統(tǒng)存在缺陷:相關(guān)的開發(fā)人員在最初設(shè)計軟件系統(tǒng)時,沒有充分考慮系統(tǒng)的安全性問題,導(dǎo)致軟件在開發(fā)過程中會出現(xiàn)一些安全漏洞。盡管有一些測試工具可以發(fā)現(xiàn)和修復(fù)一些漏洞,但是不可能完全修復(fù)。一旦出現(xiàn)嚴(yán)重的安全隱患問題,這一漏洞便會成為很多黑客進(jìn)行網(wǎng)絡(luò)攻擊的突破口。黑客在未經(jīng)用戶允許的情況下修改計算機(jī)系統(tǒng),造成用戶信息丟失或泄露。
(3)內(nèi)部威脅日益嚴(yán)重:大部分組織都會設(shè)置防御系統(tǒng),制定防范機(jī)制來保護(hù)內(nèi)部系統(tǒng)不受外部攻擊,往往忽視了來自內(nèi)部員工的威脅。在信息化時代中,員工越來越容易拿到內(nèi)部訪問權(quán)限,一旦這些員工做出惡意行為,所造成的內(nèi)部威脅很難被及時發(fā)現(xiàn),帶來的危害性更大。
(4)防護(hù)機(jī)制更新不及時:網(wǎng)絡(luò)攻擊方式千變?nèi)f化,使新型攻擊往往可以繞過防護(hù)和檢測機(jī)制,入侵防御系統(tǒng)規(guī)則庫的更新速度跟不上攻擊變種的速度,導(dǎo)致安全防范滯后。因此需要通過動態(tài)學(xué)習(xí)和自動更新機(jī)制來升級安全解決方案。
以上因素推動了入侵檢測系統(tǒng)的發(fā)展,研究設(shè)計智能化的入侵檢測系統(tǒng)具有十分重要的應(yīng)用前景。
入侵檢測系統(tǒng)(Intrusion Detection Systems,IDS)是一種非常重要的軟件或硬件安全工具,用于檢測可能出現(xiàn)的威脅,防止未經(jīng)授權(quán)的訪問或濫用,并向安全管理員報告攻擊。入侵檢測系統(tǒng)按引擎檢測機(jī)制分類可分為基于簽名檢測的IDS和基于異常行為檢測的IDS。
(1)基于簽名檢測的IDS:根據(jù)已知的簽名進(jìn)行檢測,這種方法能有效識別簽名庫中已有的攻擊,但無法識別未知攻擊和已知攻擊的變種。
(2)基于異常行為檢測的IDS:通過學(xué)習(xí)網(wǎng)絡(luò)流量行為來對流量進(jìn)行分類,可以檢測未知的攻擊。
第一種方法能高效準(zhǔn)確地識別出攻擊,但它檢測不出新型的攻擊,比如零日攻擊,所以整體的檢測率較低。而第二種方法更具靈活性、健壯性和可擴(kuò)展性。因此,為了實現(xiàn)動態(tài)入侵檢測系統(tǒng),主要推薦基于異常行為的檢測技術(shù)。目前常用的是基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)對入侵檢測中的異常行為進(jìn)行檢測,以下將對這兩種技術(shù)做概括介紹。
機(jī)器學(xué)習(xí)是人工智能的一個分支,主要研究通過經(jīng)驗來自動改進(jìn)計算機(jī)算法,常見的機(jī)器學(xué)習(xí)模型如下。
(1)數(shù)理統(tǒng)計(Statistical):通過檢查用戶或系統(tǒng)的正常行為和異常行為來創(chuàng)建統(tǒng)計模型,統(tǒng)計模型可以用來識別新的攻擊。常用的統(tǒng)計方法有主成分分析、卡方分布、高斯混合分布。
(2)支持向量機(jī)(Support Vector Machine,SVM):支持向量機(jī)是一種在數(shù)據(jù)樣本有限的情況下檢測入侵事件的有效方法。向量機(jī)的目標(biāo)是以最合適的方式用一個特征向量來區(qū)分兩種類型數(shù)據(jù)。它們有很多應(yīng)用領(lǐng)域,如人物識別、聲音識別等,是機(jī)器學(xué)習(xí)中的經(jīng)典模型。
(3)數(shù)據(jù)挖掘(Data Mining):數(shù)據(jù)挖掘是從采集的海量數(shù)據(jù)中提取大量的信息,通過分析用戶與數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系來提取關(guān)鍵規(guī)則,是用戶行為分析的常用方法。
(4)基于規(guī)則集(Rule-Based):由安全研究人員分析網(wǎng)絡(luò)中的攻擊流量,提取關(guān)鍵規(guī)則,從而在這基礎(chǔ)上降低數(shù)據(jù)維度后再對入侵行為進(jìn)行檢測。該方法在一定程度上可以減少檢測計算量,提高檢測效率。
(5) 人 工 神 經(jīng) 網(wǎng) 絡(luò)(Artificial Neural Network,ANN)[2]:人工神經(jīng)網(wǎng)絡(luò)是一種智能的信息處理模型,它模擬人類大腦對信息進(jìn)行加工、存儲和處理。神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)獲得知識,并將學(xué)到的知識存儲在連接點的權(quán)重中。該模型具有學(xué)習(xí)性和自適應(yīng)性,并且可以識別未知入侵。
深度學(xué)習(xí)通常是人工神經(jīng)網(wǎng)絡(luò)的改進(jìn),是一種深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),用于特征提取、感知和學(xué)習(xí)?!吧疃取笔侵干窠?jīng)網(wǎng)絡(luò)中隱藏層的層數(shù)。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)只包含到2~3個隱藏層,而深度神經(jīng)網(wǎng)絡(luò)可能包含高達(dá)150個隱藏層。深度學(xué)習(xí)使用多個連續(xù)層執(zhí)行操作,各層相互連接,每層接收前一層的輸出作為輸入。簡單的深層神經(jīng)網(wǎng)絡(luò)如圖1所示,其包括一個輸入層、三個隱藏層和一個輸出層;輸入維是6,輸出維是2;隱藏層分別包含12個、6個和3個神經(jīng)元。
圖1 簡單的深度神經(jīng)網(wǎng)絡(luò)
在深度學(xué)習(xí)中,不是人工去提取特征,而是使用有效的算法來自動提取數(shù)據(jù)特征。深度學(xué)習(xí)被應(yīng)用于多種領(lǐng)域,比如語音識別、無人駕駛、圖像識別與分類、自然語言處理、生物信息學(xué)等。
深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的區(qū)別如下。
(1)在深度學(xué)習(xí)中,需要輸入海量數(shù)據(jù)進(jìn)行訓(xùn)練才能使算法模型達(dá)到最理想的狀態(tài);而在機(jī)器學(xué)習(xí)中,大量的數(shù)據(jù)并不能提高模型的性能。
(2)在深度學(xué)習(xí)中,自動從數(shù)據(jù)中提取特征;而在機(jī)器學(xué)習(xí)中,特征由專家來指定。
(3)在深度學(xué)習(xí)中,需要在高性能機(jī)器上工作;而在機(jī)器學(xué)習(xí)中,可以在性能不高的機(jī)器上工作。
(4)在深度學(xué)習(xí)中,問題是端到端解決的;而在機(jī)器學(xué)習(xí)中,先將問題分成幾部分,再逐個解決每部分的問題,然后形成解決方案。
(5)與傳統(tǒng)的機(jī)器學(xué)習(xí)相比,深度學(xué)習(xí)可以對輸入的高維特征進(jìn)行多次抽象變換,使它具有較強(qiáng)的特征表達(dá)能力,更利于解決許多復(fù)雜特征問題。
深度學(xué)習(xí)常見的4個模型為深度前饋網(wǎng)絡(luò)(Deep Feedforward Network,DFN)、 遞 歸 神經(jīng) 網(wǎng) 絡(luò)(Recursive Neural Network,RNN)、卷 積 神 經(jīng) 網(wǎng) 絡(luò)(Convolution Neural Networks,CNN)、自編碼器(AutoEncoder,AE)。
(1)深度前饋網(wǎng)絡(luò):也稱為全連接前饋神經(jīng)網(wǎng)絡(luò)或多層感知機(jī)。在前饋神經(jīng)網(wǎng)絡(luò)內(nèi)部,信息從輸入層向輸出層傳播,只能單向傳播,不能反向傳播。
(2)遞歸神經(jīng)網(wǎng)絡(luò):也稱為循環(huán)神經(jīng)網(wǎng)絡(luò),能有效處理序列數(shù)據(jù)。與深度前饋網(wǎng)絡(luò)不同,神經(jīng)元的輸出可以在下一個時間戳直接作用到本層神經(jīng)元上。主要應(yīng)用在文本描述、語音識別、機(jī)器翻譯等領(lǐng)域。
(3)卷積神經(jīng)網(wǎng)絡(luò):包括卷積層、池化層、全連接層,能夠在保留圖片特征的前提下,將大數(shù)據(jù)量的圖像有效降維到小數(shù)據(jù)量。主要應(yīng)用在圖像分類、人臉識別、骨骼識別等領(lǐng)域。
(4)自編碼器:是一種無監(jiān)督的神經(jīng)網(wǎng)絡(luò)模型,由編碼器和解碼器組成,主要目的是將輸入值編碼成中間值,然后將中間值解碼,使輸入數(shù)據(jù)被重構(gòu),從而實現(xiàn)降維。
數(shù)據(jù)集是評估和訓(xùn)練基于異常行為檢測的入侵檢測系統(tǒng)的必需條件。入侵檢測數(shù)據(jù)集分為主機(jī)數(shù)據(jù)集和網(wǎng)絡(luò)數(shù)據(jù)集。因為本文重點關(guān)注的是網(wǎng)絡(luò)入侵檢測系統(tǒng),所以這里僅討論基于網(wǎng)絡(luò)的數(shù)據(jù)集。本節(jié)將介紹入侵檢測系統(tǒng)中最常用的數(shù)據(jù)集。
KDD Cup99[3]數(shù)據(jù)集在1999年設(shè)計完成,為智能入侵檢測系統(tǒng)的研究奠定了基礎(chǔ)。KDD Cup99數(shù)據(jù)集分成具有標(biāo)識的訓(xùn)練數(shù)據(jù)和未加標(biāo)識的測試數(shù)據(jù),總共約有500萬條記錄,其中攻擊數(shù)據(jù)約占80%。數(shù)據(jù)集中共有41個特征屬性,可分為基本特征、流量特征和內(nèi)容特征。該數(shù)據(jù)集中的數(shù)據(jù)可分為5大類別,其中攻擊類別有4類。
(1)正常類別:沒有攻擊類型的數(shù)據(jù)。
(2)攻擊類別:拒絕服務(wù)攻擊類(Denial of Service,DoS)、探測攻擊類(Probe)、遠(yuǎn)程對本地攻擊類(Remote-to-Login,R2L)、用戶對管理員攻擊類(User-to-Root,U2R)。這4種攻擊類別中包含了22種攻擊。
為了使深度學(xué)習(xí)算法在KDD Cup99上更好地工作,研究人員在2000年基于KDD Cup99數(shù)據(jù)集創(chuàng)建了NSL-KDD[4]數(shù)據(jù)集。該數(shù)據(jù)集刪除了KDD Cup99中重復(fù)的記錄,減少了數(shù)據(jù)量。NSL-KDD包含了KDD Cup99數(shù)據(jù)集的基本記錄和數(shù)據(jù)特性,識別的攻擊類別都和KDD Cup99數(shù)據(jù)集一樣。但有以下不同。
(1)由于訓(xùn)練集中沒有冗余數(shù)據(jù),分類器不會偏向更頻繁的記錄。
(2)因為測試集中沒有重復(fù)的數(shù)據(jù),所以檢測率更為準(zhǔn)確。
(3)每個難度級別組中選擇的記錄數(shù)與原始KDD數(shù)據(jù)集中記錄的百分比成反比。這將對不同學(xué)習(xí)技術(shù)的準(zhǔn)確評估更有效。
UNSW-NB15[5]數(shù)據(jù)集由澳大利亞網(wǎng)絡(luò)安全中心實驗室在2015年設(shè)計完成,是一個開源的數(shù)據(jù)集。數(shù)據(jù)集的訓(xùn)練是利用IXIA流量生成器,根據(jù)CVE網(wǎng)站上公開的漏洞信息技術(shù),盡可能模擬真實的攻擊環(huán)境。該數(shù)據(jù)集共有49個特征屬性,類似KDD Cup99數(shù)據(jù)集,包括5個流量特征、13個基本特征、8個內(nèi)容特征、9個時間特征、12個其他特征、2個標(biāo)記特征。
該數(shù)據(jù)集按訓(xùn)練集和測試集做了分割,在訓(xùn)練集中共有175341條記錄,在測試集中共有82332條記錄,分別以CSV文件格式保存。數(shù)據(jù)集包含模糊攻擊類、社會工程學(xué)攻擊類、后門攻擊類、拒絕服務(wù)攻擊類、漏洞利用類攻擊類、泛型攻擊、掃描攻擊類、Shellcode攻擊類、蠕蟲攻擊類等。
CIC-IDS 2017[6]數(shù)據(jù)集由加拿大網(wǎng)絡(luò)安全研究所(CIC)在2017年創(chuàng)建。該數(shù)據(jù)集使用了CICFlowMeter工具從原始數(shù)據(jù)中提取80多個特征屬性。提取特征的方法有兩種,分別是在線模式和離線模式。在線模式可以實時監(jiān)控網(wǎng)絡(luò)流量,并產(chǎn)生特征,監(jiān)聽結(jié)束后,將特征屬性以CSV格式保存在本地。離線模式是提交一個.pcap格式的完整數(shù)據(jù)包到CICFlowMeter工具,會得到一個包含特征的CSV文件。CIC-IDS 2017數(shù)據(jù)集可識別的攻擊類別有僵尸網(wǎng)絡(luò)攻擊類、Web攻擊類、DoS&DDoS攻擊類、滲透攻擊類、SSH暴力破解攻擊類、FTP暴力破解攻擊類。
接下來將結(jié)合以上數(shù)據(jù)集,介紹深度學(xué)習(xí)模型在入侵檢測系統(tǒng)上的應(yīng)用。
不同的深度學(xué)習(xí)模型結(jié)合合適的數(shù)據(jù)集,適用于不同的攻擊類型分類。本節(jié)選擇近幾年的國內(nèi)外文獻(xiàn),來說明當(dāng)前深度學(xué)習(xí)在入侵檢測系統(tǒng)中的應(yīng)用情況。
Roy等人[7]提出了一種利用深度神經(jīng)網(wǎng)絡(luò)模型的入侵檢測系統(tǒng),并驗證了該模型可以提高入侵檢測系統(tǒng)的性能。作者提出的深度神經(jīng)網(wǎng)絡(luò)模型是一種全連接前饋神經(jīng)網(wǎng)絡(luò),包含3層或者更多層人工神經(jīng)元,由輸入層、約400個隱藏層神經(jīng)元和輸出層神經(jīng)元3個部分組成。作者使用ReLu函數(shù)作為激活函數(shù),使用Softmax分類器對流量進(jìn)行分類。作者還使用了KDD Cup99數(shù)據(jù)集,將數(shù)據(jù)集中的41個特征輸入算法模型中進(jìn)行驗證。作者比較了深度神經(jīng)網(wǎng)絡(luò)模型和支持向量機(jī)模型的性能。實驗結(jié)果表明,使用深度神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率為99.994%,而使用支持向量機(jī)模型的準(zhǔn)確率僅為84.635%。這一結(jié)果表明了深度神經(jīng)網(wǎng)絡(luò)模型在入侵檢測中的有效性。
Potluri等人[8]也提出了另一種利用深度神經(jīng)網(wǎng)絡(luò)模型的入侵檢測系統(tǒng)。因為神經(jīng)網(wǎng)絡(luò)需要大量的訓(xùn)練計算,所以該研究利用多核CPU和GPU來提高入侵檢測系統(tǒng)的性能。作者研究選取深度學(xué)習(xí)模型中的棧自編碼器(Stacked AutoEncoder,SAE)來構(gòu)建神經(jīng)網(wǎng)絡(luò)。第一個自編碼器(AutoEncoder,AE)在第一隱藏層有20個神經(jīng)元,第二個自編碼器在第二隱藏層有10個神經(jīng)元,輸出層有5個神經(jīng)元。在訓(xùn)練階段,由于第一個自編碼器的隱藏層成為第二個自編碼器的輸入,因此每個自編碼器被單獨但按順序地訓(xùn)練。有兩次微調(diào)過程,第一次是通過Softmax激活函數(shù)完成的,第二次是通過整個網(wǎng)絡(luò)的反向傳播完成的。此研究選擇NSL-KDD數(shù)據(jù)集來測試這種方法。作者首先測試了2類到4類不同攻擊類型組合的網(wǎng)絡(luò)。因為不平衡的攻擊類型分布會導(dǎo)致較少的攻擊類型得到很好的結(jié)果,所以較少數(shù)量的攻擊類型比較多數(shù)量的攻擊類型表現(xiàn)更佳。為了加速,作者使用了兩個不同的CPU和一個GPU。作者還嘗試使用串行和并行CPU。實驗結(jié)果表明,使用并行CPU的訓(xùn)練速度是使用串行CPU的3倍,使用GPU的訓(xùn)練速度與并行CPU相似。
Yin等人[9]指出傳統(tǒng)機(jī)器學(xué)習(xí)算法無法有效解決海量入侵?jǐn)?shù)據(jù)的分類問題。作者利用了遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN) 的優(yōu)勢,提出了一種基于遞歸神經(jīng)網(wǎng)絡(luò)模型的入侵檢測系統(tǒng)?;赗NN模型的入侵檢測系統(tǒng)先對數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)值化和標(biāo)準(zhǔn)化。然后將特征準(zhǔn)備數(shù)據(jù)傳到RNN的訓(xùn)練步驟進(jìn)行訓(xùn)練。最終訓(xùn)練輸出的模型使用測試數(shù)據(jù)集進(jìn)行測試。在實驗時,作者使用NSL-KDD數(shù)據(jù)集進(jìn)行訓(xùn)練和測試。實驗將數(shù)據(jù)集的41個特征經(jīng)過將字符串映射為二進(jìn)制的數(shù)字化后就變換成122個特征。實驗測試了兩種分類,即二分類和多分類。結(jié)果表明,二分類的準(zhǔn)確率為83.28%,多分類的準(zhǔn)確率為81.29%。RNN在二分類和多分類方面都優(yōu)于作者測試的其他機(jī)器學(xué)習(xí)方法。
Li等人[10]在入侵檢測系統(tǒng)上使用卷積神經(jīng)網(wǎng) 絡(luò)(Convolutional Neural Networks,CNN) 模型作為特征提取器和分類器進(jìn)行了實驗。卷積神經(jīng)網(wǎng)絡(luò)在與圖像相關(guān)的分類任務(wù)中取得了許多成功的實現(xiàn),但在文本分類方面還存在難點,所以該試驗最大的挑戰(zhàn)就是將文本數(shù)據(jù)轉(zhuǎn)換成圖像的步驟。實驗的時候,Li等人采用了NSLKDD數(shù)據(jù)集,圖像轉(zhuǎn)換步驟首先將41個原始特征映射為464個二進(jìn)制向量,接著將464個向量轉(zhuǎn)換成8×8像素圖像。這些圖像將作為卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入數(shù)據(jù)。作者用學(xué)習(xí)過的卷積神經(jīng)網(wǎng)絡(luò)模型ResNet 50和GoogLeNet進(jìn)行實驗。實驗結(jié)果表明,ResNet 50模型和GoogLeNet模型的準(zhǔn)確率分別為79.14%和77.14%。雖然這一結(jié)果并沒有改善入侵檢測技術(shù)的現(xiàn)狀,但作者展示了如何在入侵檢測環(huán)境中應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)和圖像轉(zhuǎn)換方法。
Zarai等人[11]提出了一種基于深度神經(jīng)網(wǎng)絡(luò) 和 長 短 期 記 憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)的入侵檢測系統(tǒng)。LSTM模型是一種改進(jìn)版的RNN模型,用來解決梯度消失或爆炸的問題。作者采用KDD Cup99數(shù)據(jù)集,將DNN和LSTM應(yīng)用于入侵檢測系統(tǒng)中用來預(yù)測攻擊,實驗表明基于3層架構(gòu)的DNN或基于3層架構(gòu)的LSTM的入侵檢測模型對異常攻擊檢測更有效。
李學(xué)勇[12]在2020年的畢業(yè)論文中提出了一種基于多元相關(guān)性分析算法的長短期記憶網(wǎng)絡(luò)(Multiple Correlation Analysis Long Short-Term Memory,MCA-LSTM)的入侵檢測模型,用來解決網(wǎng)絡(luò)入侵檢測模型因高維數(shù)據(jù)所導(dǎo)致的檢測性能低,誤報率高的問題。該模型首先通過信息增益特征選擇模塊選擇出最優(yōu)的特征子集;然后利用多元相關(guān)性分析算法將特征子集轉(zhuǎn)換為TAM矩陣(主對角線全為0的對稱矩陣);最后將TAM矩陣輸入長短期記憶網(wǎng)絡(luò)模塊中進(jìn)行訓(xùn)練和測試。為了更好地展現(xiàn)該模型的性能,與現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、深度森林(Deep Forest)、支持向量機(jī)和K最近鄰(KNN)等方法的性能進(jìn)行了對比分析。試驗結(jié)果表明,提出的MCA-LSTM模型在NSL-KDD數(shù)據(jù)集5分類任務(wù)中和UNSW-NB15數(shù)據(jù)集10分類任務(wù)中具有較好的準(zhǔn)確度。與傳統(tǒng)的機(jī)器學(xué)習(xí)和現(xiàn)有深度學(xué)習(xí)模型相比,該模型具有較好的分類檢測性能。
綜上所述,不同的深度學(xué)習(xí)模型在入侵檢測系統(tǒng)中會產(chǎn)生不同的應(yīng)用效果。本章節(jié)中所提到的研究工作主要使用4種典型的深度學(xué)習(xí)模 型, 結(jié) 合 KDD Cup99、NSL-KDD、UNSWNB15數(shù)據(jù)集,通過實驗來測試入侵檢測的準(zhǔn)確率和檢測性能。這對未來的研究有著一定的指導(dǎo)意義。
入侵檢測系統(tǒng)的有效性直接取決于所使用的檢測引擎。為了提高系統(tǒng)的靈活性,需要用學(xué)習(xí)系統(tǒng)來實現(xiàn)異常檢測。深度學(xué)習(xí)是檢測引擎中執(zhí)行的最新訓(xùn)練和分類技術(shù)之一。本文對基于深度學(xué)習(xí)的入侵檢測系統(tǒng)進(jìn)行了簡要的綜述,并列出一些公開的檢測數(shù)據(jù)集,給出了它們的優(yōu)點和缺點,對這一領(lǐng)域的研究人員有一定的幫助。未來的工作建議是針對以下幾個方面進(jìn)行進(jìn)一步的研究。
(1)在以大數(shù)據(jù)為基礎(chǔ)的信息化時代中,流量模型變得更復(fù)雜、數(shù)據(jù)量更大。而當(dāng)前所使用的大部分?jǐn)?shù)據(jù)集都存在數(shù)據(jù)樣本過時、信息冗余和數(shù)據(jù)不平衡等問題。因此,在后續(xù)工作中,建立擁有龐大的數(shù)據(jù)量、豐富的攻擊類型(比如零日攻擊)和平衡的樣本的入侵檢測數(shù)據(jù)集是提高檢測性能的重要方向。
(2)本文提及了4種典型的深度學(xué)習(xí)模型,希望未來能有更多新的神經(jīng)網(wǎng)絡(luò)模型被應(yīng)用到入侵檢測研究工作中,為網(wǎng)絡(luò)安全防護(hù)提供更好的入侵檢測方法。
(3)目前大部分實驗是在計算機(jī)模擬環(huán)境中進(jìn)行的,與實際的網(wǎng)絡(luò)環(huán)境還具有較大差異。隨著物聯(lián)網(wǎng)、5G網(wǎng)絡(luò)、無線網(wǎng)等網(wǎng)絡(luò)的發(fā)展,在后續(xù)研究工作中,應(yīng)多考慮新型的網(wǎng)絡(luò)應(yīng)用場景,解決如何在實際環(huán)境中進(jìn)行實時性和適應(yīng)性的驗證。