• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多任務(wù)特征學(xué)習(xí)的網(wǎng)絡(luò)加密流量識(shí)別算法

      2021-07-06 02:14:52繆志敏李晨溪錢明遠(yuǎn)
      關(guān)鍵詞:多任務(wù)隨機(jī)性數(shù)據(jù)流

      孟 娟,孟 鵬,繆志敏,李晨溪,錢明遠(yuǎn)

      (1.解放軍31108部隊(duì),江蘇 南京 210016;2.湖北科技學(xué)院,湖北 咸寧 437000;3.解放軍陸軍工程大學(xué),江蘇 南京 210007)

      0 引 言

      隨著互聯(lián)網(wǎng)加密協(xié)議應(yīng)用越來越廣泛,網(wǎng)絡(luò)加密流量的識(shí)別問題日益引起人們的重視。網(wǎng)絡(luò)加密流量的有效識(shí)別,對(duì)保護(hù)用戶信息,監(jiān)管非法數(shù)據(jù),檢測(cè)網(wǎng)絡(luò)攻擊,維護(hù)網(wǎng)絡(luò)安全有著重要意義。

      盡管網(wǎng)絡(luò)加密流量識(shí)別問題屬于網(wǎng)絡(luò)流量識(shí)別的子問題,但是傳統(tǒng)的網(wǎng)絡(luò)流量識(shí)別方法,如基于端口匹配識(shí)別、深度包檢測(cè)、深入流檢測(cè)等難以直接應(yīng)用于網(wǎng)絡(luò)加密流量識(shí)別中。目前對(duì)網(wǎng)絡(luò)加密流量識(shí)別問題的研究多針對(duì)特定的加密協(xié)議,利用加密協(xié)議建立連接階段的明文特征,通過特征碼匹配來完成識(shí)別,或者利用加密協(xié)議建立連接階段的報(bào)文指紋特征,如特定的報(bào)文長(zhǎng)度、到達(dá)時(shí)間等來完成識(shí)別[1-7]。這些識(shí)別方法均針對(duì)某種特定的加密協(xié)議,并未給出一種通用的網(wǎng)絡(luò)加密流量識(shí)別方法。

      盡管網(wǎng)絡(luò)流量的具體加密協(xié)議細(xì)節(jié)各不相同,但好的加密算法的一個(gè)最基本的要求是要保證算法是安全的。算法的安全性體現(xiàn)在算法數(shù)學(xué)基礎(chǔ)的穩(wěn)健性、算法的抗攻擊性、算法的相對(duì)強(qiáng)度和算法輸出序列的隨機(jī)性。其中前3項(xiàng)因算法結(jié)構(gòu)的種類而異,而利用統(tǒng)計(jì)檢測(cè)原理來檢測(cè)算法輸出序列是否隨機(jī),只關(guān)心輸入輸出,在這種情況下,算法的具體結(jié)構(gòu)是被忽略的,因此,可以通過網(wǎng)絡(luò)流量的隨機(jī)性特征來識(shí)別網(wǎng)絡(luò)加密流量。

      利用網(wǎng)絡(luò)加密流量的隨機(jī)性特征,該文提出了一種基于多任務(wù)特征學(xué)習(xí)的網(wǎng)絡(luò)加密流量識(shí)別算法。該算法采用隨機(jī)性檢驗(yàn)獲取數(shù)據(jù)流的隨機(jī)性特征,提取多維隨機(jī)性特征值,然后基于2,1范式最小化對(duì)一組相關(guān)任務(wù)進(jìn)行聯(lián)合特征學(xué)習(xí)。最后針對(duì)網(wǎng)絡(luò)加密流量進(jìn)行實(shí)驗(yàn)分析,結(jié)果表明,該算法對(duì)網(wǎng)絡(luò)加密流量的識(shí)別精度可達(dá)到80%以上。

      1 網(wǎng)絡(luò)加密流量的隨機(jī)性特征

      1.1 隨機(jī)性度量

      隨機(jī)性度量是指通過判斷被測(cè)序列是否存在某些隨機(jī)序列的特定特征,進(jìn)而判斷其是否隨機(jī)。隨機(jī)性度量中需要對(duì)兩個(gè)問題進(jìn)行研究:第一個(gè)問題是如何檢驗(yàn),就是確定應(yīng)該對(duì)被測(cè)序列的哪些特征進(jìn)行統(tǒng)計(jì)分析,如頻數(shù)、游程、相關(guān)性、累積和等,在設(shè)計(jì)隨機(jī)性檢驗(yàn)方法時(shí),應(yīng)該選擇那些能反映隨機(jī)特性的方法,并盡可能反映更多特性,這樣通過較少的指標(biāo)就可以全面地評(píng)價(jià)其隨機(jī)性。第二個(gè)問題是如何對(duì)測(cè)試結(jié)果做出評(píng)估,就是用什么方法來對(duì)統(tǒng)計(jì)檢驗(yàn)得到的結(jié)果進(jìn)行準(zhǔn)確的評(píng)價(jià),評(píng)價(jià)方法有門限值、P-value等。評(píng)價(jià)方法要盡可能準(zhǔn)確。

      現(xiàn)已知的隨機(jī)性檢驗(yàn)方法達(dá)200多種。其中具有代表性的是美國(guó)商務(wù)部國(guó)家標(biāo)準(zhǔn)技術(shù)協(xié)會(huì)(NIST)在2001年5月公布的FIPS140-2標(biāo)準(zhǔn)[8]和SP800-22標(biāo)準(zhǔn)[9]、德國(guó)資訊安全聯(lián)合辦公室(BSI)在2001年9月公布的AIS31標(biāo)準(zhǔn)[10]。國(guó)內(nèi)也有隨機(jī)性檢驗(yàn)方法的相關(guān)研究[11-12]。

      讓一個(gè)隨機(jī)序列通過所有的隨機(jī)性檢驗(yàn),在時(shí)間、空間上需要很大的開支,同時(shí)有些檢驗(yàn)方法反映的是隨機(jī)序列同一方面的特性。對(duì)于網(wǎng)絡(luò)加密流量而言,采用具有權(quán)威代表性的NIST SP800-22標(biāo)準(zhǔn)中的15種檢驗(yàn)方法更加方便和準(zhǔn)確,15種檢驗(yàn)方法及其所針對(duì)的序列屬性簡(jiǎn)列如下:

      (1)單比特頻數(shù)檢驗(yàn)。序列中1的個(gè)數(shù)。

      (2)分組組內(nèi)頻數(shù)檢驗(yàn)。對(duì)序列分組后每個(gè)子序列中1的個(gè)數(shù)。

      (3)游程檢驗(yàn)。序列中的游程個(gè)數(shù)。

      (4)組內(nèi)最長(zhǎng)游程檢驗(yàn)。對(duì)序列分組后每個(gè)子序列的最長(zhǎng)游程長(zhǎng)度。

      (5)二進(jìn)制矩陣秩檢驗(yàn)。將序列構(gòu)造成N個(gè)矩陣,計(jì)算每個(gè)矩陣的秩。

      (6)離散傅里葉變換檢驗(yàn)。序列進(jìn)行傅里葉變換后的頻率幅值。

      (7)非重疊模式匹配檢驗(yàn)。某特定模式的出現(xiàn)次數(shù)。

      (8)重疊模式匹配檢驗(yàn)。某特定模式的出現(xiàn)次數(shù)。

      (9)Maurer通用統(tǒng)計(jì)檢驗(yàn)。特定長(zhǎng)度子序列的所有模式中,相同模式間間隔距離的位數(shù)。

      (10)線形復(fù)雜度檢驗(yàn)。用Berlekamp-Massey算法計(jì)算每個(gè)子序列的線形復(fù)雜度。

      (11)串行檢驗(yàn)。特定長(zhǎng)度模式出現(xiàn)的頻數(shù);

      (12)近似熵檢驗(yàn)。特定長(zhǎng)度模式出現(xiàn)頻率的熵值。

      (13)累加和檢驗(yàn)。序列累加和的最大值。

      (14)隨機(jī)游走檢驗(yàn)。隨機(jī)游走中各循環(huán)到達(dá)距離原點(diǎn)特定長(zhǎng)度位置的次數(shù)。

      (15)隨機(jī)游走變體檢驗(yàn)。隨機(jī)游走中到達(dá)距離原點(diǎn)特定長(zhǎng)度的位置的總次數(shù)。

      該標(biāo)準(zhǔn)建立在假設(shè)檢驗(yàn)的基礎(chǔ)上,統(tǒng)一采用P-value評(píng)價(jià)方式。每個(gè)隨機(jī)性檢驗(yàn)的核心是其使用的統(tǒng)計(jì)量和統(tǒng)計(jì)量所滿足的分布,每個(gè)統(tǒng)計(jì)量針對(duì)了一個(gè)特定的序列屬性。

      1.2 隨機(jī)性特征的相關(guān)性

      利用NIST SP800-22 隨機(jī)性檢驗(yàn)可構(gòu)建加密數(shù)據(jù)流的15類隨機(jī)性特征,根據(jù)不同的參數(shù)設(shè)置可提取不同維度的隨機(jī)性特征。按缺省設(shè)置運(yùn)行NIST后得到統(tǒng)計(jì)結(jié)果,從統(tǒng)計(jì)結(jié)果中提取188維隨機(jī)性特征值,其中單比特頻數(shù)特征、分組頻數(shù)特征關(guān)注的是序列中0和1出現(xiàn)的頻率,游程特征、組內(nèi)最長(zhǎng)游程特征關(guān)注的是序列中比特變化的特點(diǎn),離散傅里葉變換特征、非重疊模式匹配特征、重疊模式匹配特征、串行特征和近似熵特征關(guān)注的是序列中是否有某一個(gè)模式出現(xiàn)的頻率較高。Maurer通用統(tǒng)計(jì)特征和線性復(fù)雜度特征關(guān)注的是序列的壓縮性。累加和特征、隨機(jī)游動(dòng)特征和隨機(jī)游動(dòng)變體特征關(guān)注的是序列的隨機(jī)游動(dòng)特性。各個(gè)統(tǒng)計(jì)特征都各有其關(guān)注點(diǎn),從統(tǒng)計(jì)原理上來看,這些特征之間具有一定的聯(lián)系,但是,從統(tǒng)計(jì)原理上分析特征之間相關(guān)性并不容易,有時(shí)候兩個(gè)看起來差別很大的兩個(gè)特征也有可能具有較高的相關(guān)性,這里通過計(jì)算它們的互信息熵對(duì)這些隨機(jī)性特征進(jìn)行相關(guān)性分析。

      H(X/bj)=Hn(P(a1,bj),P(a2,bj),…,P(an,bj))=

      (1)

      (2)

      由上式可得:

      P(bj)]=

      H(X,Y)-H(Y)

      (3)

      H(X,Y)是聯(lián)合熵,H(X,Y)反映了X和Y這兩個(gè)統(tǒng)計(jì)量信息量的總和:

      (4)

      H(X)是X的信息熵,H(X/Y)是給定Y的條件下X的信息量,根據(jù)式(3)和式(4)可以計(jì)算出統(tǒng)計(jì)量間的互信息熵。

      I(X,Y)=H(X)-H(X/Y)=

      H(X)+H(Y)-H(X,Y)=

      I(Y,X)

      (5)

      互信息熵反映了兩個(gè)統(tǒng)計(jì)量之間信息量的相互影響,可利用概率分布來估計(jì)互信息熵:

      (6)

      其中,PX,Y(x,y)指X和Y的聯(lián)合概率密度分布,PX(x)·PY(y)指X和Y各自獨(dú)立時(shí)的概率分布。

      互信息熵反映了兩個(gè)統(tǒng)計(jì)量間的相互影響程度。當(dāng)互信息熵為零時(shí),這兩個(gè)統(tǒng)計(jì)量相互獨(dú)立,當(dāng)互信息熵增大時(shí),兩個(gè)統(tǒng)計(jì)量間的相關(guān)程度增強(qiáng)。

      2 多任務(wù)特征學(xué)習(xí)概率模型

      多任務(wù)特征學(xué)習(xí)[13-19]旨在學(xué)習(xí)多個(gè)相關(guān)任務(wù)的共同特征表示。在網(wǎng)絡(luò)加密流量識(shí)別中,將不同加密協(xié)議的網(wǎng)絡(luò)加密流量識(shí)別看作不同的任務(wù),盡管各個(gè)任務(wù)中網(wǎng)絡(luò)流量的加密協(xié)議不同,但加密流量都具有隨機(jī)性的特征,因此,可以通過多任務(wù)特征學(xué)習(xí)對(duì)多個(gè)任務(wù)的聯(lián)合特征進(jìn)行學(xué)習(xí),識(shí)別網(wǎng)絡(luò)加密流量。

      (7)

      其中,wj∈d是第j個(gè)任務(wù)的權(quán)重向量,全部t個(gè)任務(wù)的權(quán)重向量形成權(quán)重矩陣W=[w1,w2,…,wt]∈d×t。

      (8)

      記σ=[σ1,σ2,…,σt]T∈t,假定數(shù)據(jù){A,y}獨(dú)立于分布式(8),則似然函數(shù)可以寫成:

      為了捕獲任務(wù)間的相關(guān)性,定義先驗(yàn)W,W的第i行記為wi∈1×t,對(duì)應(yīng)所有任務(wù)的第i個(gè)特征,假設(shè)wi由以下指數(shù)先驗(yàn)產(chǎn)生:

      p(wi|δi)∝exp(-‖wi‖δi),i=1,2,…,d

      (10)

      其中,δi>0為超參數(shù),當(dāng)t=1時(shí),式(10)為拉普拉斯先驗(yàn)。假定δ=[δ1,δ2,…,δd]T∈d,w1,w2,…,wd獨(dú)立于先驗(yàn)(10),W的先驗(yàn)表示為:

      (11)

      W的后驗(yàn)正比于先驗(yàn)和似然函數(shù)的乘積,即:

      p(W|A,y,σ,δ)∝p(y|W,A,σ)p(W|δ)

      (12)

      取式(12)的負(fù)對(duì)數(shù)并結(jié)合式(7)~式(11),通過最小化式(13)可得到W的最大后驗(yàn)估計(jì)。

      (13)

      簡(jiǎn)單起見,假定σ=σj,?j=1,2,…,t,并且δ=δi,?i=1,2,…,d,由式(13)可得到2,1范式正則化的最小二乘回歸問題,即:

      (14)

      (15)

      其中,ρ>0為正則化參數(shù);loss(W)為凸光滑的損失函數(shù),如最小二乘損失或logistic損失。

      如果是單任務(wù),則式(10)為拉普拉斯先驗(yàn)分布,此時(shí)式(15)就是1范式正則化優(yōu)化問題。如果是多個(gè)任務(wù),第i個(gè)特征的權(quán)重通過wi的二范式分組聚集,因此,2,1范式正則化傾向于對(duì)多個(gè)任務(wù)進(jìn)行聯(lián)合特征學(xué)習(xí)。

      3 基于多任務(wù)特征學(xué)習(xí)的網(wǎng)絡(luò)加密流量識(shí)別算法

      利用網(wǎng)絡(luò)加密流量的隨機(jī)性特征,提出基于多任務(wù)特征學(xué)習(xí)的網(wǎng)絡(luò)加密流量識(shí)別算法。首先采集網(wǎng)絡(luò)數(shù)據(jù)流樣本,對(duì)數(shù)據(jù)流進(jìn)行預(yù)處理,獲取載荷信息作為有效數(shù)據(jù);然后,對(duì)有效數(shù)據(jù)進(jìn)行NIST SP800-22隨機(jī)性檢驗(yàn),獲取數(shù)據(jù)流的多維隨機(jī)性特征;最后對(duì)這些隨機(jī)性特征進(jìn)行多任務(wù)特征學(xué)習(xí),利用學(xué)習(xí)模型對(duì)未知樣本進(jìn)行加密流量識(shí)別。算法流程如圖1所示。

      圖1 基于多任務(wù)特征學(xué)習(xí)的網(wǎng)絡(luò)加密流量識(shí)別

      3.1 數(shù)據(jù)預(yù)處理

      對(duì)獲得的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)處理,獲取有效數(shù)據(jù),主要包括以下幾個(gè)步驟:首先,根據(jù)傳輸鏈路的類型判斷具體的鏈路層協(xié)議,丟棄無關(guān)內(nèi)容后對(duì)網(wǎng)絡(luò)層數(shù)據(jù)進(jìn)行提取;然后,根據(jù)網(wǎng)絡(luò)層數(shù)據(jù)協(xié)議類型分類處理,丟棄非IP協(xié)議報(bào)文,對(duì)IP協(xié)議報(bào)文去除報(bào)頭內(nèi)容后,將具有相同源、目的地址,相同源、目的端口以及相同協(xié)議的報(bào)文組成一個(gè)數(shù)據(jù)流;最后,對(duì)有效數(shù)據(jù)進(jìn)行提取。如果數(shù)據(jù)流中的報(bào)文載荷是TCP或UDP協(xié)議報(bào)文,則去除相應(yīng)的協(xié)議報(bào)頭后剩余的數(shù)據(jù)即是提取的有效數(shù)據(jù);如果數(shù)據(jù)流中的載荷不是TCP或UDP協(xié)議報(bào)文,則可直接將數(shù)據(jù)流中的報(bào)文載荷作為有效數(shù)據(jù)。

      3.2 隨機(jī)性特征提取

      對(duì)數(shù)據(jù)預(yù)處理后得到的有效數(shù)據(jù)進(jìn)行NIST SP800-22隨機(jī)性檢驗(yàn),利用NIST SP800-22的15種檢驗(yàn)方法,一共可提取15類隨機(jī)性特征,根據(jù)不同的參數(shù)設(shè)置可得到不同維度的隨機(jī)性特征值。該文按照缺省設(shè)置,得到188維隨機(jī)性特征值。

      3.3 多任務(wù)特征學(xué)習(xí)

      通過最小化如下目標(biāo)函數(shù)來求解W:

      ρ‖W‖2,1

      (16)

      利用加速梯度方法(accelerated gradient methods,AGM)[20]來求解此優(yōu)化問題。AGM不同于傳統(tǒng)的梯度方法,每次迭代使用前兩個(gè)點(diǎn)的線性組合作為搜索點(diǎn),而不是僅使用最新點(diǎn)。AGM收斂速度為O(1/k2),這是最優(yōu)的一階方法,AGM的關(guān)鍵子程序是計(jì)算鄰近算子。

      (17)

      式中,Ω(W,λ)為非平滑正則化項(xiàng);γ為步長(zhǎng),?L(·)為L(zhǎng)(·)的梯度;S為當(dāng)前搜索點(diǎn)。

      3.4 網(wǎng)絡(luò)加密流量識(shí)別

      對(duì)于測(cè)試樣本X,依據(jù)式(18)判斷其是否為加密數(shù)據(jù)流:

      y=sign(XTW+c)

      (18)

      4 實(shí)驗(yàn)與結(jié)果分析

      首先采集不同加密協(xié)議的網(wǎng)絡(luò)加密數(shù)據(jù)流和非加密數(shù)據(jù)流。作為研究對(duì)象的加密數(shù)據(jù)流取自網(wǎng)上銀行網(wǎng)站數(shù)據(jù)、VPN加密通信數(shù)據(jù)、TOR匿名通信和私有加密協(xié)議數(shù)據(jù),非加密數(shù)據(jù)流取自普通新聞?lì)惥W(wǎng)站數(shù)據(jù)和在線視音頻數(shù)據(jù),對(duì)網(wǎng)絡(luò)流量進(jìn)行預(yù)處理后得到有效載荷,對(duì)每一類數(shù)據(jù),取5 000個(gè)樣本,每個(gè)數(shù)據(jù)樣本長(zhǎng)度為1 000比特。然后對(duì)流量數(shù)據(jù)樣本進(jìn)行NIST SP800-22隨機(jī)性檢驗(yàn),測(cè)試中的參數(shù)均使用缺省值,每個(gè)樣本可得到188維隨機(jī)性特征值。將得到的實(shí)驗(yàn)數(shù)據(jù)集劃分為50%訓(xùn)練數(shù)據(jù)集和50%驗(yàn)證數(shù)據(jù)集。

      4.1 識(shí)別參數(shù)選擇

      表1 學(xué)習(xí)的聯(lián)合隨機(jī)性特征數(shù)隨參數(shù)ρ變化

      圖2 識(shí)別精度對(duì)比

      4.2 識(shí)別性能分析

      為了進(jìn)一步驗(yàn)證該文提出的基于多任務(wù)特征學(xué)習(xí)的網(wǎng)絡(luò)加密流量識(shí)別算法的有效性,與傳統(tǒng)的單任務(wù)特征學(xué)習(xí)算法進(jìn)行了對(duì)比。

      傳統(tǒng)的單任務(wù)特征學(xué)習(xí)算法不考慮任務(wù)之間的特征關(guān)聯(lián)關(guān)系,通過求解1范式正則化優(yōu)化問題來進(jìn)行單任務(wù)特征學(xué)習(xí):

      (19)

      其中[a1,a2,…,an]∈n×d是隨機(jī)性特征矩陣,yi是樣本標(biāo)簽,W是參數(shù)模型,c是偏置,單任務(wù)特征學(xué)習(xí)通過1正則化進(jìn)行特征學(xué)習(xí)。單任務(wù)特征學(xué)習(xí)和多任務(wù)特征學(xué)習(xí)算法的平均識(shí)別精度對(duì)比如圖3所示。由圖3可以看出,多任務(wù)特征學(xué)習(xí)的平均識(shí)別精度超過80%,單任務(wù)特征學(xué)習(xí)的平均識(shí)別精度明顯低于多任務(wù)特征學(xué)習(xí),但單任務(wù)特征學(xué)習(xí)的平均識(shí)別精度隨著特征數(shù)變化的穩(wěn)定性優(yōu)于多任務(wù)特征學(xué)習(xí)。

      圖3 平均識(shí)別精度對(duì)比

      5 結(jié)束語(yǔ)

      基于多任務(wù)特征學(xué)習(xí),將NIST SP800-22的15種隨機(jī)性檢驗(yàn)方法得到的檢驗(yàn)數(shù)值作為188維隨機(jī)性特征值,利用2,1正則化項(xiàng)對(duì)一組相關(guān)任務(wù)進(jìn)行聯(lián)合特征學(xué)習(xí),不僅能夠準(zhǔn)確識(shí)別已知加密協(xié)議流量,同時(shí)還對(duì)未知加密協(xié)議流量具有一定的識(shí)別能力。實(shí)驗(yàn)結(jié)果表明,提出的算法可以有效識(shí)別網(wǎng)絡(luò)加密流量,平均識(shí)別精度超過80%。

      猜你喜歡
      多任務(wù)隨機(jī)性數(shù)據(jù)流
      汽車維修數(shù)據(jù)流基礎(chǔ)(下)
      基于中心化自動(dòng)加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
      一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
      淺析電網(wǎng)規(guī)劃中的模糊可靠性評(píng)估方法
      基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
      電測(cè)與儀表(2016年5期)2016-04-22 01:13:46
      考慮負(fù)荷與分布式電源隨機(jī)性的配電網(wǎng)無功優(yōu)化
      適用于隨機(jī)性電源即插即用的模塊化儲(chǔ)能電池柜設(shè)計(jì)
      基于數(shù)據(jù)流聚類的多目標(biāo)跟蹤算法
      北醫(yī)三院 數(shù)據(jù)流疏通就診量
      珲春市| 加查县| 宝应县| 军事| 顺昌县| 陇川县| 无棣县| 大洼县| 郑州市| 海丰县| 长治县| 政和县| 富裕县| 自治县| 塔河县| 滨州市| 滦南县| 澳门| 和顺县| 滨海县| 康保县| 准格尔旗| 柳林县| 勃利县| 克什克腾旗| 永城市| 老河口市| 鄂州市| 安阳县| 安庆市| 衢州市| 青浦区| 晋中市| 阳西县| 新郑市| 临沂市| 舒兰市| 策勒县| 临湘市| 正镶白旗| 太湖县|