• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于馬爾可夫決策過程的入侵檢測方法研究

      2021-06-03 06:39:16凱,趙
      計算機技術與發(fā)展 2021年5期
      關鍵詞:信用度馬爾可夫決策

      董 凱,趙 旭

      (西安工程大學 計算機科學學院,陜西 西安 710600)

      0 引 言

      隨著互聯(lián)網(wǎng)的不斷發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為生活中不可缺少的一部分。網(wǎng)絡技術在商業(yè)、經(jīng)濟、軍事等各個領域都發(fā)揮著巨大作用。根據(jù)中國互聯(lián)網(wǎng)絡信息中心最新的統(tǒng)計報告顯示,截至2020年3月,國內(nèi)互聯(lián)網(wǎng)普及率達64.5%。與此同時帶來的挑戰(zhàn)也更加嚴峻,成千上萬的網(wǎng)絡攻擊、網(wǎng)絡安全事件層出不窮。如今在大數(shù)據(jù)時代背景下,網(wǎng)絡給人們的生活提供了便利,但同時網(wǎng)絡安全問題日益凸顯,一旦出現(xiàn)安全事件,將造成不可挽回的經(jīng)濟損失、社會影響。所以事前主動檢測、防御,對于網(wǎng)絡穩(wěn)定、可靠運行具有重要的意義。針對網(wǎng)絡與信息安全的發(fā)展,目前主要通過防火墻技術、數(shù)據(jù)加密、訪問控制、入侵檢測等方法進一步提高網(wǎng)絡的安全性。通過對比以上幾種常見的措施,入侵檢測方法具有相對較高的靈活性和拓展性?,F(xiàn)如今的網(wǎng)絡安全問題一般需要通過多種技術的組合來進行保護和監(jiān)測,依靠傳統(tǒng)的防御手段已經(jīng)無法更好地處理千變?nèi)f化的網(wǎng)絡問題。在目前廣泛應用的防御手段中,提前發(fā)現(xiàn)異常的入侵行為并及時處理,能更好地適應當前的網(wǎng)絡常態(tài)。網(wǎng)絡安全中能否檢測出網(wǎng)絡異常行為是至關重要的一個環(huán)節(jié),網(wǎng)絡異常行為檢測作為防火墻的重要補充,在不影響網(wǎng)絡性能的情況下完成了對網(wǎng)絡安全性的分析,并實時阻止攻擊行為破壞網(wǎng)絡,保障網(wǎng)絡運行的安全。因此,入侵檢測技術在網(wǎng)絡安全領域是不可或缺的一部分。

      自1980年首次提出入侵檢測模型至今,已有眾多學者對入侵檢測技術進行大量的探索與研究。例如,Ligun等人[1]提出一種基于規(guī)則的方法,該方法以專家的經(jīng)驗作為規(guī)則編碼成入侵檢測系統(tǒng)的檢驗規(guī)則。但存在一個普遍的問題,需要設計一組能準確識別入侵行為的規(guī)則,然而如何設計一組合適的規(guī)則是一個尚未解決的問題。Lee等人[2]提出了一種基于數(shù)據(jù)挖掘的方法,核心思想是從采集到的樣本數(shù)據(jù)中獲取高頻的關鍵信息和聯(lián)合規(guī)則,區(qū)別于人工設計的檢驗規(guī)則。該方法依靠大量的聯(lián)合規(guī)則,使得系統(tǒng)過于復雜,檢測效率低下。Siraj[3]提出了一種新的混合智能方法,通過在分類精度和處理時間上的改進實現(xiàn)入侵檢測中的自動警報。Patra等人[4]使用關聯(lián)規(guī)則挖掘和多個最小支持等方法,應用于識別正常用戶和異常用戶。該方法將基于規(guī)則與基于數(shù)據(jù)挖掘[5]的方法結(jié)合起來,在一定程度上可以改進檢測率,但是對于未知的入侵檢測效果不太明顯。傳統(tǒng)的流量分析、特征提取等網(wǎng)絡攻擊流量檢測方法和檢測技術難以適應高速和大規(guī)模的互聯(lián)網(wǎng)環(huán)境,無法高效、準確地檢測攻擊,必須對其加以改進。這些方法的研究與應用為該研究提供了有利的參考。

      通過上述分析,該文提出了一種基于馬爾可夫決策過程的入侵檢測(intrusion detection based on Markov decision,MDP-IDS)模型。該模型結(jié)合馬爾可夫的基本要素建立入侵檢測的馬爾可夫決策過程,通過檢測引擎學習得到馬爾可夫決策過程的最優(yōu)策略進行決策。采用模糊層次分析法為用戶設置信用度,當用戶訪問時,對于信用度高的用戶直接放行,其他用戶則采用馬爾可夫決策過程進行判斷。其判斷過程是通過分析用戶的歷史行為信息、主機信息等來辨別用戶信用度的大小,從而區(qū)分合法用戶和惡意用戶,保證合法用戶的業(yè)務不受影響的同時阻斷入侵主機。通過在網(wǎng)絡節(jié)點建立分布式入侵檢測服務器[6],盡早地將存在惡意入侵行為的用戶進行攔截。各入侵檢測服務器周期性地進行數(shù)據(jù)同步,從而達到數(shù)據(jù)一致。

      1 MDP-IDS檢測模型

      MDP-IDS模型將馬爾可夫決策應用于網(wǎng)絡入侵檢測,通過學習不斷改進。其基本思想是:通過學習選擇一個作用于環(huán)境的動作a,環(huán)境接收該動作后狀態(tài)會發(fā)生改變,接著會反饋一個獎勵r給智能體,智能體根據(jù)強化信號和環(huán)境當前的狀態(tài)再選擇下一個動作a,選擇的原則是受獎賞概率值有沒有逐漸增大,即如果智能體的某個決策行為導致來自外部的評價信號的增強,此后產(chǎn)生這個決策行為的趨勢會逐漸地增強,反之系統(tǒng)產(chǎn)生這個動作的趨勢便會逐漸地減弱。根據(jù)系統(tǒng)當前所處的環(huán)境來采取行動,以達到預期利益最大化的目的。其本質(zhì)就是解決一個決策問題,即學會自動進行決策。

      其中,智能體是進行狀態(tài)感知、學習訓練、動作選擇的模塊,環(huán)境是當前系統(tǒng)的狀態(tài),此處的環(huán)境是網(wǎng)絡中的用戶行為組成的共同體,狀態(tài)是由一系列能描述環(huán)境的參數(shù)組成,動作是作用于環(huán)境進行狀態(tài)的,獎勵則是環(huán)境給予動作的獎勵值。進而得到一個具有高效決策能力的入侵檢測模型。其工作流程如圖1所示。

      圖1 MDP-IDS模型的工作流程

      首先用戶向應用服務器發(fā)送訪問請求,入侵檢測服務器攔截請求,檢測引擎(detection engine)[7]查詢數(shù)據(jù)庫并對訪問請求進行匹配,若查詢不到請求記錄或者記錄不匹配,則將用戶請求的信息記錄到數(shù)據(jù)庫;若信息存在,則不做任何操作。

      若匹配到請求記錄,則分兩種情況處理。第一種情況是當用戶在T時間周期內(nèi)與服務器有過通信,則判斷該用戶的信用度是否滿足條件。若信用度滿足,則表示正常并且允許該用戶請求服務器。若信用度不滿足則拒絕該用戶請求服務器。信用度較高表示該用戶為誠實用戶的可能性較高,反之則為惡意用戶。第二種情況是用戶在T時間周期內(nèi)未與服務器有過通信,則直接進入馬爾可夫決策過程,Policy函數(shù)根據(jù)分析的結(jié)果做出決策,并完成用戶信用度的設置。

      若無法匹配到請求,即該用戶未與服務器建立過通信,亦采用馬爾可夫決策過程進行決策。

      1.1 馬爾可夫決策過程建立

      對于如何構建一個完整的馬爾可夫決策過程,首先要在一個標準的馬爾可夫決策過程中,將智能體設置為一個學習者,以便于獲取外部環(huán)境的當前狀態(tài)信息s,之后可以對環(huán)境采取試探行為a,并再次獲取環(huán)境反饋對此動作的評價r和新的環(huán)境狀態(tài)s。如果智能體在某動作a的作用下使得環(huán)境趨于正的獎勵,那么智能體以后產(chǎn)生這個動作的趨勢便會加強;反之,智能體產(chǎn)生這個動作的趨勢將會減弱。且強化學習作為一種具有很強的決策能力的高階機器學習方法,將其應用于入侵檢測系統(tǒng)的構建當中,在學習系統(tǒng)的控制行為與環(huán)境反饋的狀態(tài)及評價的反復的交互作用中,以學習的方式不斷地修改從狀態(tài)到動作的映射策略,即可以得到一個高效的、具有決策能力的入侵檢測模型。

      通過分析結(jié)合入侵檢測與馬爾可夫決策過程的特性,在入侵檢測系統(tǒng)內(nèi)建立學習環(huán)境。建立馬爾可夫決策過程的5元組(S,A,P,R,γ),不斷學習出最優(yōu)策略[8],進而求出策略函數(shù)的最優(yōu)解。建模的具體步驟如下:

      (1)在入侵檢測系統(tǒng)內(nèi)設置入侵檢測引擎為智能體(Agent)進行學習,即為動作的執(zhí)行者;

      (2)定義智能體的動作為a,動作空間A={a1,a2,a3…}是通過對IP數(shù)據(jù)庫等入侵檢測相關信息分析得到的動作集合。并且設置策略函數(shù)π為最優(yōu)的檢測方法;

      (3)定義當前學習環(huán)境下的狀態(tài)s,狀態(tài)空間為S={Normal,Attack};

      (4)定義該學習環(huán)境下的獎勵函數(shù)R。智能體根據(jù)當前狀態(tài)s給予動作進行獎勵或者懲罰。作為入侵檢測系統(tǒng)是否存在入侵,即獎勵函數(shù)R為入侵系統(tǒng)的檢測率[9];

      (5)定義γ為折扣因子,通常采用折扣累計回報進行計算,且環(huán)境中的不確定性導致下一時刻的獎勵權重小于當前時刻;

      (6)模擬與環(huán)境相似的場景進行建模,進而學習到入侵檢測的最優(yōu)策略,然后利用遞歸的Bellman方程[10]進行求解。

      1.2 累積回報和策略的表示

      強化學習的最終目標是通過學習得到累積回報最大化的策略函數(shù)。而對于累積回報常用的是“γ折扣累計回報”方法。首先通過在環(huán)境中不斷地嘗試而得到一個策略函數(shù)[11](policy function),根據(jù)當前的策略函數(shù),得到當前狀態(tài)下要執(zhí)行的動作。

      采用隨機性策略表示方法將策略函數(shù)表示為π:S×A→R。

      定義狀態(tài)s下選擇動作a的概率,即策略函數(shù)為:π(a|s)=P(A=a|S=s)。且必須滿足:

      (1)

      同時還定義狀態(tài)轉(zhuǎn)移函數(shù),即從當前狀態(tài)中做出動作,使得轉(zhuǎn)移到下一個狀態(tài),狀態(tài)轉(zhuǎn)移可以是確定的,也可以是隨機的,狀態(tài)轉(zhuǎn)移的隨機性是從入侵檢測系統(tǒng)中來的。

      p(s′|s,a)=P[S′=s′|S=s,A=a]

      (2)

      累計獎勵是指當前入侵檢測環(huán)境,從t時刻開始的獎勵全部加起來,而通常情況下采用折扣累計獎勵,未來的不確定性使得Rt+1的權重低于Rt的權重。

      定義折扣率r∈(0,1)和累積獎勵Ut:

      Ut=Rt+γRt+1+γ2Rt+2+γ3Rt+3+…

      (3)

      累積獎勵Ut存在兩個隨機性[11]:

      (1)動作a的隨機性,用狀態(tài)s作為輸入策略函數(shù)的輸入,動作a是以概率分布的形式隨機抽樣得到的。

      (2)下一個狀態(tài)s的隨機性,給定當前狀態(tài)s和動作a,下一個狀態(tài)s是隨機的,狀態(tài)轉(zhuǎn)移函數(shù)p輸出一個概率分布,環(huán)境從概率分布中抽樣得到新的狀態(tài)。對于任意時間t,獎勵Rt取決于狀態(tài)St和動作At,因此Ut的隨機性是未來所有的狀態(tài)和動作。

      1.3 馬爾可夫決策過程的求解

      求解的核心思想就是找到一個最優(yōu)策略函數(shù),使得未來的回報最大,同時輸出最優(yōu)價值函數(shù)。以上過程即是馬爾可夫的控制問題。在馬爾可夫決策過程中,控制問題可以通過動態(tài)規(guī)劃來求解,核心思想是把馬爾可夫過程分解成每一個最佳的子結(jié)構。在Bellman方程中,包含兩個函數(shù):狀態(tài)價值函數(shù)(state value function),表示狀態(tài)上的累計獎勵;動作價值函數(shù)(action value function),表示動作上的累計獎勵。bellman最優(yōu)方程為:

      (4)

      (5)

      (6)

      已知一個馬爾可夫決策過程(S,A,P,R,γ),在尋找最優(yōu)策略的同時得到一個最佳的價值函數(shù)(optimal value function)。但在這種情況下,最優(yōu)的價值函數(shù)是一致的,可能存在多個最優(yōu)策略。而對于最優(yōu)策略的收斂性,應滿足以下條件π≥π′ifVn(s)≥Vπ′(s),?s。

      進而通過對q*求最大化得到最優(yōu)策略:求解方法見公式(6)。

      該文采用策略迭代的方法進行策略求解。求解過程可以分為兩步:

      (1)策略評估:給定當前策略函數(shù)然后計算狀態(tài)價值函數(shù)V;

      (2)策略提升:對狀態(tài)價值函數(shù)V采用貪心算法[12]來提高策略函數(shù)。

      通過以上步驟,完成了MDP-IDS的模型構建。策略迭代過程如圖2所示。

      (7)

      (8)

      圖2 策略迭代過程示意圖

      1.4 信用度體系構建

      用戶信用度是對用戶可靠性的衡量指標。信用度較高表示該用戶為誠實用戶較高,反之則為惡意用戶。在信用度體系中使用模糊層次分析法(fuzzy analytic hierarchy process,F(xiàn)AHP)[13]對用戶信用度進行評估,模糊層次分析法及計算過程層次分析法(AHP)是一種定性與定量相結(jié)合的多目標決策方法,能夠有效分析目標準則體系層次間的非序列關系,有效地綜合測度決策者的判斷和比較。

      模糊層次分析法的基本思想是根據(jù)多目標評價問題的性質(zhì)和總目標,把問題本身按層次進行分解,構成一個由下而上的梯階層次結(jié)構。因此在運用AHP決策時,大體上可以可分為以下四個步驟:問題分析,確定系統(tǒng)中各因素之間的因果關系,對決策問題的各種要素建立多層次遞階結(jié)構模型;對同一等級的要素以上一級的要素為準則進行兩兩比較,并根據(jù)評定尺度確定其相對重要程度,最后據(jù)此建立模糊判斷矩陣;通過一定計算,確定各要素的相對重要度;通過綜合重要度的計算,對所有的替代方案進行優(yōu)先排序,從而為決策人選擇最優(yōu)方案提供科學的決策依據(jù)。再由Policy函數(shù)輸出當前用戶的信用度。首先將用戶行為進行細分,每個行為即是一個特性,再將特性進行分類,將用戶行為信用評估轉(zhuǎn)換成為信用加權問題。分為以下幾個步驟:

      (1)從構建的數(shù)據(jù)庫中獲得數(shù)據(jù)并且是初始數(shù)據(jù),為了便于數(shù)值計算和用戶信用度評估,將數(shù)據(jù)全部規(guī)范化,表示為矩陣E=(eij)mn。為了獲得初始判斷矩陣EQ=(eqij)m×m,有m個矩陣W=(w1,w2,…,wm)T,將矩陣集中在ei和ej進行對比:

      (9)

      (4)計算用戶行為特征的評估值矩陣,可根據(jù)E×WT得到特征值評估矩陣F=(f1,f2,…,fn);即可得到當前用戶的信用度為:

      (10)

      1.5 數(shù)據(jù)庫的構建

      此模型在入侵檢測服務器按照一定的概率f統(tǒng)計成功建立訪問連接的IP數(shù)據(jù)包的源地址,包含TCP、UDP、ICMP數(shù)據(jù)包,將數(shù)據(jù)包的源地址IP_Client_Source存入表中。

      在數(shù)據(jù)庫模塊中,按照以下的步驟建表。根據(jù)訪問用戶的歷史訪問記錄,為每個目的服務器建立一張表。在每個服務器的表中,依據(jù)源地址進行聚集[14]以完成不同用戶區(qū)分,完成用戶信息的錄入。其中數(shù)據(jù)庫表的各個字段見表1。

      表1 數(shù)據(jù)庫表字段

      MDP-IDS模型要求實時進行數(shù)據(jù)庫的更新,及時地把請求添加到數(shù)據(jù)庫中,以及對請求的相關字段數(shù)據(jù)的更新。為了盡早地將存在惡意入侵行為的用戶進行攔截,同時減小服務器的壓力加快檢測效率,在網(wǎng)絡中建立多個分布式入侵檢測服務器,各分布式服務器通過Raft[15]算法進行同步,進而保證數(shù)據(jù)的一致性。

      2 仿真分析

      該文在KDD CUP99[16]基礎上利用Matlab 2018a進行了仿真實驗,通過與基于支持向量機(support vector machine,SVM)[16]入侵檢測方法進行對比,驗證該方法的有效性。KDD99數(shù)據(jù)集共500余萬條,提供了10%的用于訓練的子集和測試的子集。首先采用one-hot[17]方法對10%的訓練集數(shù)據(jù)進行預處理,對數(shù)據(jù)的預處理結(jié)果會影響入侵檢測實驗的效果。利用Python3對訓練數(shù)據(jù)集進行預處理,即進行字符型特征與數(shù)值型的轉(zhuǎn)化。

      為了對文中所提方法進行衡量,定義TP(true positive)、FP(false positive)、FN(false negative)、TN(true negative),其中DR(detection rate)、FAR(false alarm rate)、DT(detection time)用于結(jié)果評價,DR是檢測出的已知攻擊數(shù)量與總數(shù)量的比率,F(xiàn)AR是誤判別攻擊數(shù)量與正常數(shù)量的比例[18],DT是檢測引擎處理任務所需要的時間。DR和FAR用以下公式來表示:

      (11)

      (12)

      檢測引擎分別對TCP、UDP、ICMP進行實驗分析,并與支持向量機的入侵檢測方法進行對比。對比實驗結(jié)果如表2所示。

      表2 DR數(shù)據(jù)對比 %

      表3 FAR數(shù)據(jù)對比 %

      表4 DT數(shù)據(jù)對比 S

      將該文提出的MDP-IDS模型與支持向量機的入侵檢測方法相比較,如上表所示,MDP-IDS方法在檢測率有明顯的優(yōu)勢,平均檢測率提高1.02%,平均誤報率下降0.08%,系統(tǒng)檢測時間效率提高15.8%。

      3 結(jié)束語

      該文研究了基于馬爾可夫決策過程的入侵檢測方法,為網(wǎng)絡入侵檢測提供了一種新的思路,建立了MDP-IDS模型。通過檢測引擎分析用戶信用度、行為等信息,利用馬爾可夫模型進行異常入侵行為自動決策,從而更好地區(qū)分合法用戶和惡意用戶。將用戶信用度引入到入侵檢測系統(tǒng)中,使用模糊層次分析法對用戶信用度進行設置,使得用戶信用度計算更加合理。實驗結(jié)果證明MDP-IDS模型能夠縮短入侵檢測時間,提高系統(tǒng)的整體性能。網(wǎng)絡異常行為檢測的結(jié)果通常將網(wǎng)絡行為分類兩大類:正常和異常,異常行為又可以分成很多小類,如DOS、Probe、U2R、R2L等常見攻擊類型,因此下一步工作可以針對網(wǎng)絡異常行為檢測的多分類問題進行深入研究。

      猜你喜歡
      信用度馬爾可夫決策
      分 析
      意林(2023年7期)2023-06-13 13:00:55
      為可持續(xù)決策提供依據(jù)
      決策為什么失誤了
      基于AHP和k-means算法的電力用戶信用度評價
      保費隨機且?guī)в屑t利支付的復合馬爾可夫二項模型
      基于聲譽的C2C電子商務信用評價模型研究
      基于SOP的核電廠操縱員監(jiān)視過程馬爾可夫模型
      應用馬爾可夫鏈對品牌手機市場占有率進行預測
      認知無線網(wǎng)絡中基于隱馬爾可夫預測的P-CSMA協(xié)議
      電視技術(2014年19期)2014-03-11 15:38:07
      可信社會網(wǎng)絡服務在電子商務中的應用
      灌阳县| 荥阳市| 南通市| 金溪县| 德阳市| 兴安县| 紫金县| 清水县| 大渡口区| 新晃| 富蕴县| 图木舒克市| 怀宁县| 英吉沙县| 腾冲县| 拉孜县| 蒲江县| 隆昌县| 中方县| 汕头市| 镇原县| 崇左市| 益阳市| 郧西县| 雷州市| 长阳| 荔浦县| 西宁市| 慈利县| 大埔区| 江源县| 厦门市| 金塔县| 怀远县| 汉中市| 崇左市| 南川市| 八宿县| 阜城县| 柳州市| 昭平县|