• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于在線學(xué)習(xí)的分布式流量實(shí)時(shí)分析系統(tǒng)設(shè)計(jì)

      2022-03-24 08:29:26陳紀(jì)龍張鴻宇張聰益宋子康
      技術(shù)與市場 2022年3期
      關(guān)鍵詞:加密預(yù)處理卷積

      陳紀(jì)龍,張鴻宇,張聰益,宋子康,涂 然

      (西南石油大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,四川 成都 610500)

      0 引言

      已知的主要流量類型為正常業(yè)務(wù)流量、網(wǎng)絡(luò)攻擊流量與病毒流量。這些流量分為加密流量與未加密流量。已有的研究重點(diǎn)關(guān)注流量的某些局部特征,然而忽視了特征之間的交叉和時(shí)序關(guān)系,并且對加密流量是不適用的。魯剛等利用手工特征工程對流量進(jìn)行特征提取,描述特征之間的關(guān)系[1]。張偉等設(shè)計(jì)了一個惡意流量實(shí)時(shí)識別引擎,然而其識別范圍僅限于傳輸層,具有較大的限制,且依賴于部分種類流量的專有特征,不利于推廣使用[2]。 駱子銘等對加密流量和非加密流量進(jìn)行了識別,但忽視了流量特征域之間的交叉和時(shí)序關(guān)系,且不利于處理高維稀疏特征[3]。

      針對以上研究現(xiàn)狀和啟發(fā),提出在系統(tǒng)中使用 CNN+LSTM 時(shí)空神經(jīng)網(wǎng)絡(luò),結(jié)合在線學(xué)習(xí)技術(shù)和虛擬化,保證模型的實(shí)時(shí)推斷性能和隔離容錯性。這樣的模型能夠在準(zhǔn)確地對流量進(jìn)行分類和識別的同時(shí),根據(jù)線上流量特性自行進(jìn)行動態(tài)調(diào)整,確保模型的及時(shí)更新。

      1 系統(tǒng)分析

      1.1 數(shù)據(jù)采集與特征選取

      數(shù)據(jù)集通過CyberFlood工具生成 TLS 加密與非加密的正常業(yè)務(wù)流量與網(wǎng)絡(luò)攻擊行為流量,再使用 Python 對指定的網(wǎng)絡(luò)端口抓取流量。對于非加密流量為了使用模型精度達(dá)到最大化,直接匹配其 URL 字段用于模型訓(xùn)練。對于 TLS 加密流量,本系統(tǒng)考慮在不解密加密流量的情況下,通過獲取數(shù)據(jù)流中的元數(shù)據(jù)特征,并將其導(dǎo)入至機(jī)器學(xué)習(xí)模型中進(jìn)行識別。

      1.2 數(shù)據(jù)預(yù)處理

      對于加密流量,利用Python的Pandas庫進(jìn)一步進(jìn)行處理,如對離散型特征進(jìn)行one-hot編碼來對每一個特征的多個可能值進(jìn)行處理轉(zhuǎn)變?yōu)槎鄠€二元特征,并對特征進(jìn)行歸一化、數(shù)值化等。

      對于非加密流量,由于流量特征為URL文本格式,讀取后得到的是一個文本數(shù)據(jù),設(shè)使用正則表達(dá)式解析預(yù)處理和分詞之后的流量數(shù)據(jù)為單詞-文本矩陣,m條流量的URL數(shù)據(jù)對應(yīng)m條文本,每條文本的向量空間為單詞向量空間(word vector space),即對每一條流量 URL 文本,用一個向量表示該文本的“語義”,向量的每一維對一個單詞,其數(shù)值為該單詞在該文本中出現(xiàn)的權(quán)值[4]。數(shù)據(jù)預(yù)處理流程如圖1所示。

      圖1 數(shù)據(jù)預(yù)處理流程

      1.3 模型訓(xùn)練

      將流量信息建模為行向量作為特征取值,列向量為不同流量的矩陣。使用CNN+LSTM時(shí)空神經(jīng)網(wǎng)絡(luò)模型[5]。CNN神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)流量的空間信息,LSTM神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)流量在時(shí)間方向的信息。

      在將文本用TF-IDF表示后可以獲得m×n矩陣,(m為流量條數(shù),n為當(dāng)前單詞表示所在的向量空間維度)。對每一個n維流量向量,都定義一個從Rn到Rp的線性映射:x→Tx,完成了詞嵌入。

      完成詞嵌入后,定義k為卷積核的大小,向量M∈Rk×p是卷積操作的卷積核,然后使M卷積核對窗口張量W(k-grams)的每一個位置j進(jìn)行卷積,產(chǎn)生多張?zhí)卣鲌Dcj∈Rm-k+1。對每一個Wj,可以將其重新以不同特征表示,即Wj=[c1c2…cq],q為卷積核個數(shù)。接著每一個Wj會被輸入LSTM模型,如圖2所示。

      圖2 CNN特征取示意圖

      這里采用標(biāo)準(zhǔn)LSTM架構(gòu)。在每一步中,模塊的輸出由一系列做為舊的隱藏層的ht-1和當(dāng)前時(shí)間輸入xt的共同控制。模型還包括遺忘門ft,輸入門it,輸出門ot。這些門共同決定如何更新當(dāng)前的記憶單元ct以及當(dāng)前的隱藏狀態(tài)ht。本文選擇在CNN之上增加LSTM學(xué)習(xí)更高特征序列中的時(shí)序依賴。

      將LSTM最后一步的最后一個隱藏狀態(tài)輸出視為流量的新的表示,添加一個softmax層,最終獲得不同分類標(biāo)簽的預(yù)測概率值。以最小化交叉熵?fù)p失的形式訓(xùn)練整個模型,并使用隨機(jī)梯度下降法(SGD)來學(xué)習(xí)模型參數(shù)。

      采用2種手段dropout和L2權(quán)重正則化來防止模型過擬合。在模型中,將流量序列輸入卷積層之前以及在將LSTM的輸出傳入softmax層之前,對流量向量使用dropout。L2正則化作用于softmax層的權(quán)值。

      2 實(shí)驗(yàn)結(jié)果

      2.1 評價(jià)指標(biāo)

      因?yàn)樵趯?shí)際線上環(huán)境中正常流量要遠(yuǎn)遠(yuǎn)多于惡意流量,故這是一個類別不平衡問題,評價(jià)分類器的標(biāo)準(zhǔn)包括AUC、查準(zhǔn)率(P)、查全率(R)和綜合評價(jià)(F1)。其中,查準(zhǔn)率、查全率和綜合評價(jià)代表分類器對每種類別的識別能力,AUC能反應(yīng)模型對樣本的排序的能力。

      2.2 評測結(jié)果

      從表1可以看出,模型在線下同時(shí)包括加密和非加密的流量驗(yàn)證集上的AUC為93.4%,查準(zhǔn)率為91.55%,查全率為92.25%,綜合評價(jià)得分為91.70%。

      表1 模型在不同數(shù)據(jù)集上的效果 單位:%

      3 結(jié)語

      本文運(yùn)用數(shù)據(jù)并行處理技術(shù),采用Hive分布式數(shù)據(jù)庫對原始流量數(shù)據(jù)進(jìn)行存儲。同時(shí)使用Spark批處理機(jī)制與Flink流式處理機(jī)制對流量數(shù)據(jù)進(jìn)行并行處理。在模型上,使用CNN+LSTM時(shí)空神經(jīng)網(wǎng),其中采用CNN對流量空間特征進(jìn)行提取,LSTM對流量時(shí)序特征進(jìn)行提取,能完成不同種類流量的準(zhǔn)確分類。最后在工程上結(jié)合在線學(xué)習(xí)與虛擬化技術(shù),既能滿足高實(shí)時(shí)性,同時(shí)具有高隔離性與容錯性,在工業(yè)界有較高的應(yīng)用價(jià)值。

      猜你喜歡
      加密預(yù)處理卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      一種基于熵的混沌加密小波變換水印算法
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
      淺談PLC在預(yù)處理生產(chǎn)線自動化改造中的應(yīng)用
      認(rèn)證加密的研究進(jìn)展
      絡(luò)合萃取法預(yù)處理H酸廢水
      基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
      基于ECC加密的電子商務(wù)系統(tǒng)
      崇阳县| 蓝田县| 集安市| 泗洪县| 景洪市| 马山县| 阿尔山市| 兴安盟| 天水市| 神木县| 高密市| 乌拉特前旗| 衡水市| 嵊州市| 尤溪县| 攀枝花市| 沿河| 乌拉特前旗| 雅安市| 连城县| 丰县| 万年县| 鹤峰县| 霍山县| 利津县| 大石桥市| 娱乐| 海淀区| 冕宁县| 江源县| 隆子县| 雅江县| 惠来县| 石泉县| 吉首市| 崇仁县| 白城市| 靖安县| 任丘市| 巩留县| 徐州市|