• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于數(shù)據(jù)挖掘的移動互聯(lián)網(wǎng)數(shù)據(jù)包安全檢測技術(shù)分析

      2022-09-09 02:16:20楊倩倩王龍張曉娜
      電子技術(shù)與軟件工程 2022年11期
      關(guān)鍵詞:決策樹貝葉斯數(shù)據(jù)包

      楊倩倩 王龍 張曉娜

      (晉中信息學(xué)院大數(shù)據(jù)學(xué)院 山西省晉中市 030800)

      隨著各種移動設(shè)備和物聯(lián)網(wǎng)技術(shù)的發(fā)展,人和物的數(shù)據(jù)都可以得到記錄與存儲,移動互聯(lián)網(wǎng)的特性就在于可以鎖定一個(gè)特殊用戶,進(jìn)而獲取用戶的地理位置信息,通過這一方式可以傳輸數(shù)據(jù)和信息。本文主要針對于移動互聯(lián)網(wǎng)上的數(shù)據(jù)包進(jìn)行分析,討論這一技術(shù)的安全水平。

      1 技術(shù)背景

      1.1 移動互聯(lián)網(wǎng)中的入侵檢測系統(tǒng)

      入侵檢測技術(shù)屬于一種安全檢測方式,這一技術(shù)被廣泛應(yīng)用在互聯(lián)網(wǎng)當(dāng)中用來進(jìn)行安全防護(hù),入侵檢測屬于一種通過收集信息來發(fā)現(xiàn)系統(tǒng)當(dāng)中違背安全策略或者直接對系統(tǒng)安全造成影響的行為,進(jìn)而尋找造成這種行為的數(shù)據(jù)包,這一技術(shù)主要分為異常入侵檢測以及誤用入侵檢測兩種。異常入侵檢測的概念是將正常行為與當(dāng)下的行為進(jìn)行對比分析,一旦出現(xiàn)異常就能夠找到。誤用入侵檢測屬于將一些惡意行為與當(dāng)下的行為進(jìn)行對比,一旦出現(xiàn)重合部分,就會進(jìn)一步檢測是否存在異常。

      入侵檢測技術(shù)在移動互聯(lián)網(wǎng)安全防護(hù)技術(shù)方面得到了廣泛的應(yīng)用與落實(shí),通過采集與分析設(shè)備實(shí)際特征,比如說發(fā)送數(shù)據(jù)包的數(shù)目以及運(yùn)行數(shù)目的程序等等,就可以使用數(shù)據(jù)挖掘方式來找出移動終端時(shí)候存在惡意數(shù)據(jù)包。

      然而在這一技術(shù)使用的過程中需要考慮到CPU、內(nèi)存、電池等等方面的限制,各種入侵檢測方式對于算法的時(shí)間和空間復(fù)雜度要求比較高,近些年來各項(xiàng)入侵檢測技術(shù)在移動互聯(lián)網(wǎng)當(dāng)中的應(yīng)用表明,各種安全檢測技術(shù)都針對于移動終端的內(nèi)存和電池產(chǎn)生不同程度的干擾與影響。只有主動發(fā)起安全檢測的用戶才能夠發(fā)現(xiàn)系統(tǒng)當(dāng)中存在的惡意數(shù)據(jù)包,因此如何建設(shè)自主防護(hù)的安全系統(tǒng)成為了當(dāng)下入侵檢測技術(shù)研究過程中面臨的重大問題。

      1.2 基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)

      數(shù)據(jù)挖掘?qū)儆谑褂媒y(tǒng)計(jì)、機(jī)器學(xué)習(xí)等等方式從大量的數(shù)據(jù)當(dāng)中尋找到自己需要的內(nèi)容,具體來說主要使用了數(shù)據(jù)處理、模型訓(xùn)練、知識發(fā)現(xiàn)、特征提取幾個(gè)部分。在近些年來發(fā)展的過程中,數(shù)據(jù)挖掘技術(shù)成為了入侵檢測技術(shù)當(dāng)中的主要技術(shù)支撐,想要達(dá)到這一目的與要求,首先需要具有良好的訓(xùn)練數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集當(dāng)中一般來說都會使用容易體現(xiàn)惡意程序行為模式的特征,比如說CPU 消耗大小、數(shù)據(jù)包數(shù)目、運(yùn)行程序權(quán)限查看等等。為了增加檢測準(zhǔn)確性,經(jīng)??紤]建立惡意行為規(guī)則來進(jìn)行檢測。本文主要收集了一部分的惡意移動數(shù)據(jù)包以及安全移動數(shù)據(jù)包,并且將數(shù)據(jù)包使用特征向量來進(jìn)行表示,隨后再填寫缺失值、歸一化、去重等等數(shù)據(jù)預(yù)處理工作,這樣就可以將這些數(shù)據(jù)用于挖掘建模。為了對學(xué)習(xí)的檢測模型進(jìn)行性能對比,本文在分析的過程中使用了樸素貝葉斯算法、決策樹算法。

      2 實(shí)驗(yàn)?zāi)P?/h2>

      2.1 模型框架

      使用數(shù)據(jù)挖掘技術(shù)來建設(shè)安全檢測技術(shù)當(dāng)中主要包括模型訓(xùn)練以及數(shù)據(jù)檢測兩方面部分,模型訓(xùn)練部分當(dāng)中則是包括特征向量化移動數(shù)據(jù)包、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘算法來學(xué)習(xí)檢測模型。數(shù)據(jù)檢測技術(shù)當(dāng)中包括特征向量化移動數(shù)據(jù)包、數(shù)據(jù)預(yù)處理和利用建設(shè)好的模型對全新移動數(shù)據(jù)包進(jìn)行安全檢測。訓(xùn)練模型的流程如下:首先安全移動數(shù)據(jù)包和惡意移動數(shù)據(jù)包一起開展特征獲取,而特征向量表示移動數(shù)據(jù)包,通過數(shù)據(jù)預(yù)處理之后將正好的數(shù)據(jù)經(jīng)過模型訓(xùn)練以及樸素貝葉斯算法和決策樹算法得出對應(yīng)的樸素貝葉斯模型以及決策樹模型,圖1為具體的實(shí)際流程圖。

      圖1:訓(xùn)練模型流程圖

      其次則是檢測模型流程圖,首先選擇移動數(shù)據(jù)包,通過特征探索來得到特征向量表示移動數(shù)據(jù)包,再經(jīng)過數(shù)據(jù)預(yù)處理之后,得到直接整理好的數(shù)據(jù)。在這些數(shù)據(jù)當(dāng)中進(jìn)行分類,使用兩種不同的模型來進(jìn)行分類,其中包括樸素貝葉斯模型以及決策樹模型。最后根據(jù)對應(yīng)的檢測結(jié)果,可以分析出數(shù)據(jù)包是惡意數(shù)據(jù)包還是正常的數(shù)據(jù)包。圖2為檢測模型流程圖。

      圖2:檢測模型流程圖

      2.2 特征向量化移動數(shù)據(jù)包

      在這一過程中,需要選擇有效的特征來對移動數(shù)據(jù)包進(jìn)行向量化處理,不合理的特征不僅僅無法準(zhǔn)確的刻畫數(shù)據(jù)包模型,同時(shí)也會可能得到的正確結(jié)果產(chǎn)生干擾以及影響。為了找到惡意行為的行為模型,需要收集到正確有效的特征來描述數(shù)據(jù)包。具體來說用于移動互聯(lián)網(wǎng)入侵檢測系統(tǒng)的數(shù)據(jù)可以分為兩種類型,首先是移動終端內(nèi)部數(shù)據(jù)包括系統(tǒng)狀態(tài)數(shù)據(jù)、軟件狀態(tài)數(shù)據(jù)等等,比如說電量消耗、運(yùn)行進(jìn)程數(shù)。而另一類則是屬于跨越移動終端類型,比如說聯(lián)網(wǎng)數(shù)據(jù)、藍(lán)牙數(shù)據(jù)等等。本文主要針對于移動數(shù)據(jù)包內(nèi)容進(jìn)行分析,無需收集到任何移動終端的數(shù)據(jù),因此屬于第二種類型的入侵檢測數(shù)據(jù)。

      本文在研究的過程中,參照了KDD CUP1999 數(shù)據(jù)集的特征以及在構(gòu)建入侵檢測系統(tǒng)方面的應(yīng)用,提取了15 個(gè)特征來描述每條移動數(shù)據(jù)包,這15 個(gè)特征主要包括基本特征以及統(tǒng)計(jì)特征兩種類型。

      首先是基本特征,這一特征可以從數(shù)據(jù)包當(dāng)中直接獲取到數(shù)據(jù)信息,主要涉及到的是與數(shù)據(jù)包相關(guān)的內(nèi)容特征,其中包括狀態(tài)響應(yīng)碼,請求類型,數(shù)據(jù)包長度等等7 種類型。

      其次這是統(tǒng)計(jì)特征,這一特征屬于針對于數(shù)據(jù)包當(dāng)中部分特征進(jìn)行統(tǒng)計(jì)與分析的特征,考慮到有些惡意行為特征與時(shí)間有關(guān),本文主要針對于具有相同IP 地址的移動終端進(jìn)行統(tǒng)計(jì),計(jì)算在一定時(shí)間當(dāng)中的統(tǒng)計(jì)特征,其中包括發(fā)送數(shù)據(jù)包數(shù)目、發(fā)送字節(jié)數(shù)目等等8 個(gè)特征。

      2.3 數(shù)據(jù)挖掘算法

      為了更好的明確選擇的特征時(shí)候針對于惡意數(shù)據(jù)和安全數(shù)據(jù)具有良好的區(qū)分性,本文主要使用了分類算法來對數(shù)據(jù)開展分類工作。首先需要將數(shù)據(jù)包劃分成為安全與惡意兩種類型,隨后根據(jù)設(shè)定的特征來將數(shù)據(jù)進(jìn)行特征向量化。由于需要考慮到樸素貝葉斯以及決策樹算法屬于應(yīng)用最廣泛的兩種分類算法,因此本文分別采用了樸素貝葉斯算法以及決策樹算法來對數(shù)據(jù)開展分類。

      2.3.1 樸素貝葉斯算法

      樸素貝葉斯算法屬于一種根據(jù)概率與統(tǒng)計(jì)的分類模型,整體核心實(shí)現(xiàn)屬于需要得到分類的樣本屬于各個(gè)類別的概率,將其劃分到概率較大的類別當(dāng)中可以實(shí)現(xiàn)分類,具體來說流程主要如下所示:

      假設(shè)有一條數(shù)據(jù)需要進(jìn)行分類,而數(shù)據(jù)當(dāng)中具有一個(gè)專屬的特征屬性,那么計(jì)算特征的重合內(nèi)容,就能夠完成分類。根據(jù)貝葉斯的公式可以發(fā)現(xiàn),出現(xiàn)各個(gè)特征的概率是分類的主要依據(jù),可以直接通過計(jì)算各個(gè)類別樣本的比例來得到。那么可以說在分類的過程中直接計(jì)算各個(gè)類別樣本比例就可以得到,在樸素貝葉斯分類算法當(dāng)中架設(shè)數(shù)據(jù)特征屬性之間相互獨(dú)立,那么就可以通過計(jì)算各個(gè)類別中各個(gè)屬性的概率,計(jì)算出對應(yīng)的概率數(shù)值,得到分類數(shù)據(jù)的實(shí)際類別狀態(tài)。

      2.3.2 決策樹算法

      決策樹算法與樸素貝葉斯算法之間有所不同,決策樹算法屬于一種基于信息熵的分類模型,使用分類樹可以作為一種更好的分類規(guī)則,使用這一分類規(guī)則進(jìn)行分類,可以達(dá)成更好的分類效果。決策樹算法屬于一種通過遞歸的方式來解決問題的主要方法,具體的方式是從上往下的遞歸算法。而決策樹的樹的節(jié)點(diǎn)可以選擇最好的分類屬性,直到?jīng)Q策樹可以對數(shù)據(jù)進(jìn)行分類,具體來說決策樹的操作步驟與操作方式如下所示:

      (1)需要對當(dāng)下所有的數(shù)據(jù)進(jìn)行計(jì)算,判斷數(shù)據(jù)集時(shí)候處于空的狀態(tài),如果數(shù)據(jù)集處于空的狀態(tài),則需要返回父節(jié)點(diǎn),屬于比較普遍的一種情況(根節(jié)點(diǎn)不會出現(xiàn)這種情況)。如果數(shù)據(jù)集不為空,那么就需要進(jìn)入下一個(gè)步驟。

      (2)在決策樹當(dāng)中的所有數(shù)據(jù)都需要進(jìn)行計(jì)算和分析,明確數(shù)據(jù)集的狀態(tài)。如果此時(shí)數(shù)據(jù)集狀態(tài)處于空的狀態(tài),那么需要將數(shù)據(jù)返回父節(jié)點(diǎn),這一方式屬于較為普遍的一種情況和策略。如果數(shù)據(jù)集此時(shí)不處于空的狀態(tài),那么可以將數(shù)據(jù)轉(zhuǎn)入到下一個(gè)步驟當(dāng)中。

      (3)在第二個(gè)步驟當(dāng)中需要將所有的數(shù)據(jù)屬性進(jìn)行劃分,將一些具有爭議的屬性進(jìn)行分類,選擇信息增益最大的屬性來劃分成為樹節(jié)點(diǎn)。

      (4)在這一過程中對于信息增益最大的數(shù)值需要進(jìn)行取值,取值相同的數(shù)據(jù)可以劃分成為一個(gè)子集當(dāng)中,對于子集的數(shù)據(jù)判斷主要如下所示:首先數(shù)據(jù)集屬性子集處于空的狀態(tài),那么此時(shí)需要返回?cái)?shù)據(jù)集中當(dāng)中比較普遍的一項(xiàng)類型。其次數(shù)據(jù)屬于同一種類型,那么就需要將數(shù)據(jù)歸納到一個(gè)子集當(dāng)中,并且將這一子集設(shè)置成為葉子節(jié)點(diǎn),最后一種可能則是數(shù)據(jù)不屬于同一種類型,那么就需要將數(shù)據(jù)歸納到第一個(gè)步驟當(dāng)中,開展遞歸算法。

      根據(jù)建設(shè)好的決策樹模型可以進(jìn)行分類,只需要從根節(jié)點(diǎn)到葉子節(jié)點(diǎn),從上到下遍歷樹即可,也就是對一條數(shù)據(jù),首先分析根節(jié)點(diǎn)的這一屬性,根據(jù)這一屬性走到不同的子樹上,最終得到一個(gè)帶有類別標(biāo)號的葉子節(jié)點(diǎn),這一類別標(biāo)號就是對這一數(shù)據(jù)的實(shí)際分析結(jié)果。

      3 實(shí)驗(yàn)及結(jié)果分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)選擇了30000 條安全數(shù)據(jù)以及4700 條惡意數(shù)據(jù),并且使用了五折交叉驗(yàn)證法進(jìn)行驗(yàn)證,表1為數(shù)據(jù)集的分析情況。

      表1:實(shí)驗(yàn)數(shù)據(jù)

      3.2 結(jié)果評估方法

      本文主要使用精度、召回率、正確率及錯誤率對分類結(jié)果進(jìn)行評價(jià),精度以及召回率屬于評價(jià)分類結(jié)果的一種常用方式,精度可以衡量檢測準(zhǔn)確的概率,而召回率則是可以衡量檢測的概率。通過計(jì)算安全數(shù)據(jù)包以及惡意數(shù)據(jù)包的數(shù)目和整體狀態(tài),就能夠得到更加準(zhǔn)確的數(shù)據(jù),從而得出對應(yīng)的正確率與錯誤率。同時(shí)針對于數(shù)據(jù)也需要分析精度和召回率,精度意味著對數(shù)據(jù)辨別的準(zhǔn)確度,而召回率意味著對數(shù)據(jù)的處理能力。除此之外,兩種模型分類方式的穩(wěn)定性也非常重要,穩(wěn)定性越高,表明分類方式越正確與穩(wěn)定,這也是一項(xiàng)非常重要的數(shù)據(jù)內(nèi)容。

      3.3 實(shí)驗(yàn)結(jié)果

      主要使用了五折交叉驗(yàn)證的方式,分別針對于樸素貝葉斯檢測模型以及決策樹檢測模型進(jìn)行測試,實(shí)驗(yàn)結(jié)果如表2表3所示。下表為使用樸素貝葉斯算法進(jìn)行計(jì)算的數(shù)據(jù)狀態(tài),分別包括精度、召回率、正確率、錯誤率。

      表2:樸素貝葉斯模型檢測結(jié)果

      表3:決策樹模型檢測結(jié)果

      3.4 實(shí)驗(yàn)結(jié)果分析

      從實(shí)驗(yàn)結(jié)果可以看出,使用樸素貝葉斯模型以及決策樹模型對數(shù)據(jù)的實(shí)際分類效果都比較好,總結(jié)表上來看,樸素貝葉斯模型檢測數(shù)據(jù)的錯誤率在5%左右,而決策樹模型的錯誤檢測率約在4%左右,決策樹模型要比樸素貝葉斯模型稍好一些。

      對于安全移動數(shù)據(jù)包,兩個(gè)檢測模型的精度以及準(zhǔn)確率在94%以上,然而對于惡意的移動數(shù)據(jù)包檢測結(jié)果有一定的不同,對于惡意的移動數(shù)據(jù)包,從檢測精度上來看兩個(gè)檢測模型的精度都在87%左右,這說明模型做出的判斷效果較為有效。然而從惡意移動數(shù)據(jù)檢測結(jié)果召回率角度上來看,樸素貝葉斯模型檢測得到的召回率約在65%左右,這表明使用這種分類方式只能夠有65%的成功率。決策樹模型檢測的召回率相對來說比較高,大約在80%左右,雖然召回成功率較高,但是每組數(shù)據(jù)的召回率波動比較大,最高可以達(dá)到99.81%,最低也有42.32%。這一數(shù)據(jù)說明訓(xùn)練數(shù)據(jù)對決策樹模型的影響比較大,樸素貝葉斯模型的檢測性能較為穩(wěn)定,決策樹模型檢測較為準(zhǔn)確,但是波動率較大。

      4 結(jié)束語

      本文提出了一個(gè)針對于移動數(shù)據(jù)包的入侵檢測方法,可以使用移動數(shù)據(jù)包具有的特征來對不同的數(shù)據(jù)進(jìn)行描述和分析,隨后,可以使用貝葉斯算法以及決策樹算法來對惡意移動數(shù)據(jù)包以及正常移動數(shù)據(jù)包的行為模式記性分析與計(jì)算。計(jì)算之后,通過使用五折交叉驗(yàn)證的方式,再通過數(shù)據(jù)挖掘的措施來學(xué)習(xí)移動數(shù)據(jù)包的相關(guān)特征,建立對應(yīng)的模型來對移動數(shù)據(jù)包狀態(tài)進(jìn)行檢測分析,這說明使用數(shù)據(jù)挖掘的方式開展數(shù)據(jù)安全分類屬于一種有效的方式與策略。這種方式主要針對于移動數(shù)據(jù)包的特征,通過分類的方式來對數(shù)據(jù)包進(jìn)行劃分,隨后進(jìn)行分別檢測,一方面降低了整體工作重復(fù)率,另一方面也提升了用戶對于安全意識的整體要求和限制。

      猜你喜歡
      決策樹貝葉斯數(shù)據(jù)包
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      SmartSniff
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      貝葉斯公式及其應(yīng)用
      基于決策樹的出租車乘客出行目的識別
      基于貝葉斯估計(jì)的軌道占用識別方法
      一種基于貝葉斯壓縮感知的說話人識別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      基于Libpcap的網(wǎng)絡(luò)數(shù)據(jù)包捕獲器的設(shè)計(jì)與實(shí)現(xiàn)
      IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
      抚顺市| 应城市| 蒙城县| 济宁市| 图片| 内乡县| 调兵山市| 普宁市| 青州市| 莫力| 南丹县| 丰县| 措勤县| 济南市| 金坛市| 青阳县| 商洛市| 天长市| 长宁县| 交口县| 通许县| 镇坪县| 农安县| 偏关县| 尤溪县| 吴忠市| 焉耆| 康保县| 宜阳县| 禄丰县| 博湖县| 威远县| 巴东县| 沂源县| 昌黎县| 泗阳县| 长岛县| 怀柔区| 苗栗县| 吴堡县| 凌源市|