• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于相似度匹配的網(wǎng)絡協(xié)議語法分析方法

      2016-11-22 11:35:28郭亮羅森林潘麗敏
      北京理工大學學報 2016年5期
      關鍵詞:網(wǎng)絡協(xié)議字段數(shù)據(jù)包

      郭亮, 羅森林, 潘麗敏

      (北京理工大學 信息系統(tǒng)及安全對抗實驗中心, 北京 100081)

      ?

      基于相似度匹配的網(wǎng)絡協(xié)議語法分析方法

      郭亮, 羅森林, 潘麗敏

      (北京理工大學 信息系統(tǒng)及安全對抗實驗中心, 北京 100081)

      為解決網(wǎng)絡協(xié)議語法分析方法中,依賴人工干預、分析效率低下、分析范圍較小等問題,提出一種基于相似度匹配的網(wǎng)絡協(xié)議語法分析方法. 通過嗅探采集網(wǎng)絡原始數(shù)據(jù)包,解析基礎協(xié)議并對數(shù)據(jù)包進行預處理,提取9維不同角度的特征,建立了網(wǎng)絡協(xié)議語法相似分析模型,分析網(wǎng)絡協(xié)議細節(jié)語法特征. 通過將TCP協(xié)議作為已知協(xié)議,對UDP、DNS、QQ等3種不同類型的協(xié)議測試,結果表明這3類協(xié)議報頭中,33%以上的字段能在TCP協(xié)議中找到對應的相似語法,而且平均準確率均在96%以上,該方法不需人工干預,可以提高分析效率、減少限制條件、擴大分析范圍,并能較為有效地分析出網(wǎng)絡協(xié)議語法特征.

      協(xié)議語法分析;協(xié)議逆向;相似度匹配

      網(wǎng)絡協(xié)議語法分析在網(wǎng)絡安全中地位越來越重要,涉及到入侵檢測[1]、漏洞挖掘[2]、協(xié)議重用[3]等. 目前主要采用協(xié)議逆向分析的手段實現(xiàn)協(xié)議語法信息的提取,可分為兩類,基于流量跟蹤進行分析和基于指令執(zhí)行進行分析. PAN-Fan等[4]對這兩類方法進行了比較,后者逆向能力和準確度優(yōu)于前者,而前者限制條件和分析速度由于后者.

      基于流量跟蹤分析的協(xié)議逆向方法,最早是Marshall Beddoe[5]啟動的PI(protocol information)項目來分析未知或者未公開的網(wǎng)絡協(xié)議的結構. CUI等[6]提出一種Discoverer方案,采用聚類的方法,比PI中基于字節(jié)的方法,更有針對性,同時還針對標志、長度、偏移、cookie等語法,分別采用了一種啟發(fā)式識別規(guī)則. 但是該方法的無監(jiān)督聚類方法,并不能保證聚類結果完全可靠,而其使用的識別規(guī)則,針對性太強,識別結果較固定. Antunes等[7]提出一種以偏序比對算法為基礎,構建有窮自動機識別報文的方法,但該識別并不能識別具體語法,只能識別狀態(tài)變化等,只滿足協(xié)議識別的基本需求. 基于指令執(zhí)行分析的逆向方法研究也比較多. 比如應凌云等[8]提出惡意軟件網(wǎng)絡協(xié)議的語法和行為語義分析方法,這類方法有很高的準確性和可靠性,但其復雜度依賴于分析對象軟件的代碼復雜度,而且分析過程長,效率低.

      本文提出的基于相似度匹配的網(wǎng)絡協(xié)議語法分析方法是屬于流量跟蹤的分析方法. 該方法能夠提高協(xié)議分析效率,進行自動化協(xié)議分析,并且擴大了協(xié)議語法分析的范圍,能夠適用于更多類型的語法分析.

      1 網(wǎng)絡協(xié)議語法相似分析模型

      1.1 原理框架

      本文提出的網(wǎng)絡協(xié)議語法相似分析模型,原理圖如圖1所示.

      1.2 網(wǎng)絡數(shù)據(jù)采集

      對數(shù)據(jù)包進行主要采集依靠網(wǎng)絡嗅探技術,捕獲經(jīng)過網(wǎng)卡的所有數(shù)據(jù)包,解析已知的基礎協(xié)議,過濾掉非目標協(xié)議的所有數(shù)據(jù)包,只采集目標協(xié)議的網(wǎng)絡數(shù)據(jù)包. 本文所采用的訓練數(shù)據(jù)使用最為常見的TCP協(xié)議數(shù)據(jù),本文實驗所用到的測試數(shù)據(jù),主要包括UDP、DNS、QQ等協(xié)議數(shù)據(jù). 所采集數(shù)據(jù)均為原始數(shù)據(jù)包,每類數(shù)據(jù)均采集50 MB左右.

      1.3 數(shù)據(jù)預處理

      數(shù)據(jù)采集后,需要進行基礎協(xié)議解析、數(shù)據(jù)截斷等步驟. 基礎協(xié)議解析主要指將原始數(shù)據(jù)流依據(jù)基礎協(xié)議語法拆分成一個個獨立數(shù)據(jù)包,并且去掉基礎協(xié)議的報頭. 而數(shù)據(jù)截斷指設置一個數(shù)據(jù)截斷長度N,截斷所有長度大于N字節(jié)的數(shù)據(jù)包,丟棄掉所有長度小于N字節(jié)的數(shù)據(jù)包.

      將輸入的原始網(wǎng)絡數(shù)據(jù)轉化成c[N][M]的標準二維向量,其中N表示數(shù)據(jù)包長度,M表示參與統(tǒng)計特征提取的數(shù)據(jù)包個數(shù). 對于N的選取,原則上只需要覆蓋協(xié)議的報頭即可,本文選取的4類協(xié)議,報頭長度均在30以下,同時考慮到32位計算機中默認4字節(jié)對齊的問題,本文選取了N=32. 對于M的選取,本文采用網(wǎng)格法進行了多組實驗,選取了實驗結果最佳的M=300.

      1.4 特征提取

      特征提取是最核心的一步,為了選擇更有效的特征,本文從取值范圍、隨機性、統(tǒng)計參數(shù)等3個角度選取了9維特征. 在預處理之后,將其輸出的c[N][M]的數(shù)據(jù)包,按照單字節(jié)進行拆分,拆分成N個ci[M]序列,然后分別選取對每一組ci[M]序列進行統(tǒng)計特征提取,得到N組9維特征向量λi[N](i=1,2,…,9),對應的特征如表1所示.

      1.5 向量分組

      根據(jù)網(wǎng)絡協(xié)議的一般特征,協(xié)議報頭中相同偏移的字節(jié)語法相同,而不同偏移地址的字節(jié)也存在語法相同的情況. 本文選取的訓練協(xié)議TCP協(xié)議,根據(jù)其協(xié)議語義,對20位偏移地址進行分組,最終分組結果為:[1、3] [2、4] [5、9] [6、10] [7、11] [8、12] [13] [14] [15] [16] [17、18] [19、20]等12組. 將每一組數(shù)據(jù)輸入,均可得到N組特征向量λi[N](i=1,2,…,9),所有訓練數(shù)據(jù)根據(jù)這12類分組,計算其每組的質心向量,作為相似匹配的模型參數(shù).

      1.6 相似匹配

      提取出已知協(xié)議的特征向量質心模型之后,需要將未知協(xié)議特征向量與該模型進行相似匹配. 本文對歐幾里得距離函數(shù),Jffreys 距離,Manhattan 距離,相關系數(shù),余弦函數(shù)等5類相似度函數(shù)從時間性能和匹配成功率兩個角度進行了對比分析實驗(鑒于篇幅考慮,略去該實驗具體內容),選擇匹配率和時間性能較好的Jffreys距離作為相似度函數(shù),其公式為

      2 實驗及結果分析

      2.1 實驗目的

      將TCP協(xié)議數(shù)據(jù)作為訓練數(shù)據(jù),UDP、DNS、QQ協(xié)議等作為測試數(shù)據(jù),來驗證算法有效性.

      2.2 評價方法說明

      統(tǒng)計每一類協(xié)議中各字段所匹配結果中,概率最大的TCP匹配類別及其匹配概率,并且人為根據(jù)其語義判定是否相似,將相似類別的平均匹配概率作為準確率進行評價.

      2.3 實驗過程和參數(shù)說明

      本實驗選取TCP協(xié)議視為已知協(xié)議,UDP、DNS、QQ協(xié)議等視為未知協(xié)議. 首先分別選取50 MB的TCP、UDP、DNS、QQ協(xié)議數(shù)據(jù),每300個數(shù)據(jù)包為一組,并對所有數(shù)據(jù)進行預處理和特征提取. 將TCP協(xié)議數(shù)據(jù)提取出的特征向量進行分組,計算每一組的質心. 分別選取UDP、DNS、QQ協(xié)議數(shù)據(jù)提取出特征向量各100組,輸入相似匹配模塊,與TCP協(xié)議各組質心進行相似匹配,選取與該輸入Jffreys距離最小的質心,視為該組數(shù)據(jù)的匹配結果,并選擇匹配次數(shù)最多的質心,作為該類協(xié)議該字段的匹配最終結果.

      2.4 實驗結果及分析

      其中UDP相似匹配詳細結果如表2所示,從結果可以看出,UDP的字段1、3、7字段分別與TCP的1、1、11類字段相似,而從其字段含義也可以看出其語法相同,并且準確率很高,在98%以上.

      表2 UDP相似匹配結果

      此外,UDP其他字段,比如兩個端口號的第二字節(jié),分別匹配到了TCP的序列號的1、2字節(jié),雖然從字段含義中看不到其聯(lián)系,但通過分析其語法,也可以得到其語法相似的結果,不過本文結果并未采用這類隱藏較深的結果.

      鑒于篇幅原因,不將中間結果一一展示,實驗結果如表 3所示. 經(jīng)過UDP、DNS、QQ等3種不同類型的協(xié)議測試,分別有3、4、3個字段與TCP中對應字段有明顯相似關系. 而在這些相似語法字段的匹配中,平均準確率均在97%以上,說明了本文方法的有效性. 此外,從結果看出,與TCP協(xié)議越相似的協(xié)議,如UDP協(xié)議,有著越高的算法準確率.

      表3 UDP、DNS、QQ匹配結果

      本文選取了具有代表性的3類方法進行比較,包括CUI所用的Discoverer[6]方法、Antonio Trifil[7]所用方法和應凌云所用的Prama[9]方法進行了對比分析,其比較結果如表 4所示. 與同樣基于流量跟蹤方法的Discoverer方法和Antonio方法比較來看,本文方法能夠分析出更多的特征,并且自動分析能力和時間性能都比較優(yōu)秀. 而與基于指令執(zhí)行的Prama方法比較來看,可以進行實時、自動分析,并且分析范圍為相似特征,與Prama方法分析的行為特征各有優(yōu)劣,雖然在分析內容方面比Prama方法分析出的語義信息略有遜色,但本文方法在分析出字段語法之后,可以通過參考相似字段的語義信息,進行人工語義分析,一定程度地彌補該方法的不足.

      表4 本文方法與Discoverer、Antonio及Prama方法對比分析

      Tab.4 Comparison with Discoverer、 Antonio and Prama’s methods

      方法分析條件分析手段分析范圍分析內容分析時間本文方法流量跟蹤自動相似特征語法分析實時Discoverer流量跟蹤自動3類特征語法分析實時Antonio流量跟蹤半自動1類特征狀態(tài)分析略長Prama指令執(zhí)行人工行為特征語義分析較長

      綜上所述,相比Discoverer方法、Antonio方法和Prama方法,網(wǎng)絡協(xié)議語法相似分析方法不需人工干預,能提高分析效率、減少限制條件、擴大分析范圍,并能較為有效的分析出網(wǎng)絡協(xié)議語法特征.

      3 結 論

      本文提出了一種基于相似度匹配的網(wǎng)絡協(xié)議語法分析方法,并建立了網(wǎng)絡協(xié)議語法相似分析模型.

      通過實驗確定了各項參數(shù)指標,然后通過UDP、DNS、QQ等3種不同類型的語法分析實驗,結果表明這3類協(xié)議報頭中,33%以上的字段都能在TCP協(xié)議中找到對應的相似語法,而在這些相似語法字段的匹配中,平均準確率均在96%以上,說明了本文方法的有效性.

      與同類方法比,該方法不需人工干預,能提高分析效率、減少限制條件、擴大分析范圍,并能較為有效地分析出網(wǎng)絡協(xié)議語法特征,有較好的實用性.

      本文方法也存在一些缺點和不足. 首先該方法結果的準確率,依賴于用于訓練的已知協(xié)議的選取,不同于其他協(xié)議分析方法直接對目標協(xié)議進行分析. 其次本文所采用的特征,對于TCP、UDP、DNS等固定長度的協(xié)議有較好效果,但對于HTTP、XML等采用分隔符類的協(xié)議并不合適,對該類協(xié)議需要尋找一批新的特征,做進一步的研究工作.

      [1] Caballero J, Poosankam P, Kreibich C. Dispatcher: enabling active botnet infiltration using automatic protocol reverse engineering[C]∥Proceedings of the ACM Conference on Computer and Communications Security. [S.l.]: ACM, 2009:621-634.

      [2] Comparetti P M, Wondracek G, Kruegel C. Prospex Protocol specification extraction[C]∥Proceedings of 2009 30th IEEE Symposium on Security and Privacy (SP). [S.l.]: IEEE, 2009:110-125.

      [3] Brumley D, Caballero J, Liang Zhenkai. Towards automatic discovery of deviations in binaryimplementations with applications to error detection and fingerprint generation[C]∥16th USENIX Security Symposium.[S.l.]: USEMX Assaciation, 2007:213-228.

      [4] Pan Fan, Wu Lifa, Du Youxiang, et al. Overviews on protocol reverse engineering[J]. Application Research of Computers, 2011,28(8):2801-2806.

      [5] Beddoe M. Protocd information project[EB/OL]. [2004-01-02]. http://www.4tphi.net/~awalters/PI/PI.htrnl.

      [6] Cui Weidong, Paxson V, Weaver N C. Discoverer: automatic protocol reverse engineering from network traces[C]∥16th USENIX Security Symposium. [S.l.]: USENIX, 2008.

      [7] Jo?o Antunes, Nuno Neves, Paulo Verissimo. Reverse engineering of protocols from network traces[C]∥18th Working Conference on Reverse Engineering. [S.l.]: IEEE, 2011:169-178.

      [8] 應凌云,楊軼,馮登國,等.惡意軟件網(wǎng)絡協(xié)議的語法和行為語義分析方法[J].軟件學報,2011,22(7):1676-1689.

      Ying Lingyun, Yang Yi, Feng Dengguo, et al. Syntax and behavior semantics analysis of network protocol of malware[J]. Journal of Software, 2011,22(7):1676-1689. (in Chinese)

      (責任編輯:劉芳)

      Analysis of the Network Protocol Syntax Based on Similarity Matching

      GUO Liang, LUO Sen-lin, PAN Li-min

      (Information System and Security & Countermeasures Experimental Center,Beijing Institute of Technology, Beijing 100081, China)

      To solve the problems in analysis of the network protocol syntax, which are rely on human intervention, low efficiency and narrow scope, a method was proposed for analysis of network protocol syntax based on similarity matching. The main process of the method include collecting the raw packets by network sniffer, and then preprocessing the packets, using a variety of methods for 9 features extraction, establishing a network protocol syntax analysis model based on similarity matching method, to analyze the syntax feature of network protocol. Taking the TCP protocol as a known protocol, experiments were actualized with different types of protocols as UDP, DNS and QQ. The results show that in the three types of protocol header, more than 33% of the correct similar syntax fields can be found in TCP protocol, and the average accuracy rate was over 96%, the process needs not manual intervention, it can improve the analysis efficiency, reduce the constraints, expand the scope of the analysis, and analyze the network protocol syntax more effectively.

      analysis of the network protocol syntax; protocol reverse; similarity matching

      2014-03-24

      北京理工大學科技創(chuàng)新計劃重大項目(2011CX01015);國家“二四二”計劃項目(2005C48)

      郭亮(1986—),男,博士生,E-mail:liang4358@163.com.

      潘麗敏(1968—),女,碩士,實驗師,E-mail:panlimin@bit.edu.cn.

      TP 391

      A

      1001-0645(2016)05-0520-04

      10.15918/j.tbit1001-0645.2016.05.015

      猜你喜歡
      網(wǎng)絡協(xié)議字段數(shù)據(jù)包
      計算機網(wǎng)絡理論下的傳播研究結構模型:Communication一詞的兩種翻譯
      圖書館中文圖書編目外包數(shù)據(jù)質量控制分析
      SmartSniff
      一種藍牙多跳網(wǎng)絡協(xié)議的設計與研究
      電子制作(2018年17期)2018-09-28 01:56:52
      基于DPI技術的語音視頻流量監(jiān)控系統(tǒng)設計與實現(xiàn)
      芻議局域網(wǎng)中網(wǎng)絡協(xié)議的添加與配置
      科技資訊(2015年10期)2015-06-29 18:17:23
      CNMARC304字段和314字段責任附注方式解析
      無正題名文獻著錄方法評述
      基于Libpcap的網(wǎng)絡數(shù)據(jù)包捕獲器的設計與實現(xiàn)
      關于CNMARC的3--字段改革的必要性與可行性研究
      圖書館建設(2014年3期)2014-02-12 15:41:35
      张北县| 德兴市| 龙游县| 奉新县| 磐安县| 安达市| 澎湖县| 岑巩县| 教育| 崇信县| 开封县| 钟祥市| 诸城市| 紫金县| 乌拉特后旗| 通山县| 余庆县| 泸定县| 阳西县| 唐山市| 桂东县| 广平县| 三门县| 北辰区| 正宁县| 南木林县| 昌宁县| 纳雍县| 渝北区| 虹口区| 太谷县| 习水县| 通化县| 林周县| 临江市| 余姚市| 独山县| 赤峰市| 大厂| 大庆市| 米林县|