• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向移動(dòng)應(yīng)用識(shí)別的結(jié)構(gòu)化特征提取方法

      2020-06-01 10:58:12陳曙暉
      計(jì)算機(jī)應(yīng)用 2020年4期
      關(guān)鍵詞:誤報(bào)率查全率網(wǎng)絡(luò)流量

      沈 亮,王 鑫,陳曙暉

      (國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院,長(zhǎng)沙410073)

      (?通信作者電子郵箱shchen@nudt.edu.cn)

      0 引言

      隨著移動(dòng)互聯(lián)網(wǎng)基礎(chǔ)設(shè)施建設(shè)不斷優(yōu)化升級(jí)以及智能手機(jī)的快速普及,我國(guó)形成了全球最大的移動(dòng)互聯(lián)網(wǎng)應(yīng)用市場(chǎng)。中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center,CNNIC)發(fā)布的第43 次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2018年12月,我國(guó)市場(chǎng)上監(jiān)測(cè)到的移動(dòng)應(yīng)用程序在架數(shù)量為449萬(wàn)款[1]。面對(duì)數(shù)量龐大的移動(dòng)應(yīng)用,如何高效、準(zhǔn)確地識(shí)別這些應(yīng)用的流量,對(duì)于網(wǎng)絡(luò)運(yùn)營(yíng)和管理機(jī)構(gòu)具有重要的意義,這是研究差異性服務(wù)、流量控制、惡意應(yīng)用識(shí)別以及用戶行為分析的前提和基礎(chǔ)。

      網(wǎng)絡(luò)流量識(shí)別是指通過對(duì)網(wǎng)絡(luò)流量的分析,確定網(wǎng)絡(luò)流量對(duì)應(yīng)的應(yīng)用協(xié)議,并基于此對(duì)網(wǎng)絡(luò)流量進(jìn)行分類。在傳統(tǒng)的互聯(lián)網(wǎng)平臺(tái)上,主要通過端口識(shí)別[2]、深度包檢測(cè)(Deep Packet Inspection,DPI)[3-4]、基于主機(jī)行為或流量行為的識(shí)別技術(shù)[5-6]、協(xié)議逆向[7]和機(jī)器學(xué)習(xí)[8-10]等技術(shù)來(lái)實(shí)現(xiàn)。傳統(tǒng)網(wǎng)絡(luò)識(shí)別大多只能進(jìn)行粗粒度的流量識(shí)別,如網(wǎng)絡(luò)流對(duì)應(yīng)的應(yīng)用層協(xié)議、惡意流量識(shí)別、異常流量檢測(cè)等。

      在傳統(tǒng)網(wǎng)絡(luò)流量識(shí)別技術(shù)的基礎(chǔ)上,很多研究工作專門針對(duì)移動(dòng)應(yīng)用的特點(diǎn)提出了相應(yīng)的識(shí)別方法。當(dāng)前的主要研究方向是對(duì)應(yīng)用超文本傳輸協(xié)議(Hyper Text Transfer Protocol,HTTP)流的識(shí)別。這是因?yàn)榻^大部分移動(dòng)應(yīng)用都是通過HTTP 和超文本傳輸安全協(xié)議(Hyper Text Transfer Protocol over Secure socket layer,HTTPS)與服務(wù)器進(jìn)行通信[11],而這兩種協(xié)議的實(shí)現(xiàn)機(jī)制不同,需要分開研究。Xu等[12]通過提取移動(dòng)應(yīng)用網(wǎng)絡(luò)流量中的應(yīng)用標(biāo)識(shí)符(唯一標(biāo)識(shí)應(yīng)用的數(shù)字或字符串,如Youku、taobao_android 等)來(lái)識(shí)別應(yīng)用流量。他們根據(jù)互聯(lián)網(wǎng)服務(wù)提供商提供的網(wǎng)絡(luò)流量,對(duì)移動(dòng)應(yīng)用特征進(jìn)行了大規(guī)模研究,提出使用HTTP 報(bào)文中的User-Agent字段來(lái)識(shí)別應(yīng)用程序。但是,Tongaonkar 等[13]在對(duì)超過10 萬(wàn)個(gè)Android 和iOS 應(yīng)用程序研究后發(fā)現(xiàn),iOS 系統(tǒng)的許多應(yīng)用程序都遵循在User-Agent 字段放置應(yīng)用標(biāo)識(shí)符的規(guī)則,但Android系統(tǒng)的應(yīng)用程序并沒有強(qiáng)制遵循這一規(guī)則。因此,該方法并不適用于識(shí)別Android應(yīng)用。

      Dai 等[11]構(gòu)建了一個(gè)應(yīng)用特征生成系統(tǒng)NetworkProfiler。應(yīng)用特征有兩個(gè)組成部分:第一部分由主機(jī)名Host 組成;第二個(gè)部分是將HTTP請(qǐng)求行中的請(qǐng)求方法(Get/Post/Head 等)、請(qǐng)求路徑名和查詢關(guān)鍵字及其值域中的固定不變內(nèi)容轉(zhuǎn)換為狀態(tài)機(jī)。NetworkProfiler 只是獲取HTTP報(bào)文請(qǐng)求行中的固定字符串和Host 作為應(yīng)用的特征,存在以下兩個(gè)問題:1)當(dāng)前主流應(yīng)用朝著體系化、平臺(tái)化方向發(fā)展,應(yīng)用相互集成,如手機(jī)QQ 中集成了QQ 空間、微視、QQ 音樂、京東購(gòu)物等。當(dāng)多個(gè)關(guān)聯(lián)應(yīng)用從同一個(gè)服務(wù)器獲取數(shù)據(jù)時(shí),產(chǎn)生的報(bào)文在Host、請(qǐng)求行等位置可能完全一致,NetworkProfiler 忽略了其他位置可能存在的有用信息,難以有效識(shí)別關(guān)聯(lián)應(yīng)用的流量。2)為了對(duì)抗網(wǎng)絡(luò)監(jiān)聽和爬蟲,應(yīng)用開發(fā)人員引入可變路徑技術(shù),對(duì)請(qǐng)求行中的關(guān)鍵路徑段和參數(shù)值進(jìn)行編碼或加密,NetworkProfiler難以有效識(shí)別這類流量。

      Ranjan 等[14]將應(yīng)用安裝包進(jìn)行反編譯,從配置文件中獲取指定HTTP 消息報(bào)頭的值作為特征。這種方法不需要采集應(yīng)用流量,直接從應(yīng)用市場(chǎng)下載應(yīng)用安裝包即可獲得研究數(shù)據(jù)。但是也存在兩個(gè)比較突出的問題:1)不同應(yīng)用在開發(fā)時(shí)所遵循的規(guī)范不統(tǒng)一,面對(duì)數(shù)量龐大的應(yīng)用,難以形成有效的自動(dòng)化方法將應(yīng)用配置文件中的全部有用信息結(jié)合起來(lái);2)需要人工設(shè)計(jì)應(yīng)用特征的構(gòu)成,可能會(huì)忽略應(yīng)用自定義的HTTP報(bào)頭及其內(nèi)容,而這些信息是識(shí)別應(yīng)用流量的關(guān)鍵。

      也有研究者[15-16]嘗試?yán)镁矸e神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)進(jìn)行準(zhǔn)確的移動(dòng)應(yīng)用流量識(shí)別。將數(shù)據(jù)包轉(zhuǎn)換為固定長(zhǎng)度的向量,利用CNN 提取HTTP 中的抽象統(tǒng)計(jì)特征,并為每個(gè)應(yīng)用程序建立了一個(gè)檢測(cè)模型。這種做法的好處是實(shí)現(xiàn)了應(yīng)用HTTP 特征無(wú)關(guān)化,存在的主要問題有:1)需要較大的樣本集才能實(shí)現(xiàn)較好的效果;2)模型比較復(fù)雜,難以在網(wǎng)絡(luò)上進(jìn)行在線實(shí)時(shí)檢測(cè),更適合做離線處理;3)背景流量對(duì)分類器的性能影響較大。

      移動(dòng)應(yīng)用流量識(shí)別存在比較突出的難點(diǎn),就是沒有可用的移動(dòng)應(yīng)用網(wǎng)絡(luò)流量集。有研究者[17]使用移動(dòng)平臺(tái)上的虛擬專用網(wǎng)絡(luò)(Virtual Private Network,VPN)應(yīng)用程序編程接口(Application Programming Interface,API)來(lái)獲取應(yīng)用程序生成的網(wǎng)絡(luò)流量。這種方法能夠?qū)?yīng)用程序與網(wǎng)絡(luò)流相關(guān)聯(lián),可用于構(gòu)建移動(dòng)應(yīng)用的流量數(shù)據(jù)集。

      從以上研究可以看出,對(duì)移動(dòng)應(yīng)用流量識(shí)別主要采用兩種技術(shù):DPI 和機(jī)器學(xué)習(xí)。以上研究都能夠解決一定的問題,但是都存在局限性:1)DPI 和傳統(tǒng)的機(jī)器學(xué)習(xí)算法如支持向量機(jī)、隨機(jī)森林等,都需要預(yù)先設(shè)計(jì)特征,這樣會(huì)丟失應(yīng)用流量中廣泛存在的個(gè)性化信息,可能導(dǎo)致識(shí)別效果不理想;2)深度學(xué)習(xí)雖然實(shí)現(xiàn)了特征無(wú)關(guān)化,但是模型復(fù)雜,難以進(jìn)行在線實(shí)時(shí)檢測(cè),用于處理加密的HTTPS流量可能更加合適。

      由于HTTP 流中的字符可見,其中有足夠多的可用信息,關(guān)鍵是如何獲取這些信息來(lái)構(gòu)建有效的應(yīng)用流量特征。本文針對(duì)移動(dòng)應(yīng)用HTTP流量,提出了一種基于傳統(tǒng)DPI技術(shù)的移動(dòng)應(yīng)用HTTP 流結(jié)構(gòu)化特征提取方法。與現(xiàn)有工作的不同之處在于:1)不需要預(yù)先設(shè)計(jì)特征,對(duì)數(shù)據(jù)不作特殊處理,可以保留報(bào)文中的全部特征片段,直接采用HTTP 報(bào)文結(jié)構(gòu)作為聚類標(biāo)簽,適用于所有HTTP 流;2)在提取應(yīng)用特征前先進(jìn)行一次聚類,避免了對(duì)毫無(wú)關(guān)聯(lián)的流進(jìn)行操作,既便于保留報(bào)文中的共同點(diǎn),也便于發(fā)現(xiàn)不同點(diǎn);3)實(shí)驗(yàn)數(shù)據(jù)全部來(lái)自現(xiàn)實(shí)環(huán)境,結(jié)果更加可靠,通過開發(fā)一款基于Android 的流量采集工具,在設(shè)備端捕獲流量的同時(shí)精確地為每條數(shù)據(jù)流產(chǎn)生標(biāo)簽,此標(biāo)簽可以確定每一條流的歸屬,避免了其他流量獲取方法帶來(lái)的不確定性。

      1 結(jié)構(gòu)化特征提取系統(tǒng)框架

      本文構(gòu)建了一個(gè)基于DPI 的移動(dòng)應(yīng)用特征提取系統(tǒng),由流量采集、預(yù)處理、特征提取、特征篩選4 個(gè)模塊組成,如圖1所示。

      圖1 移動(dòng)應(yīng)用特征提取系統(tǒng)基本框架Fig.1 Basic framework of mobile application signature extraction system

      1)采集流量。從流量入手開展移動(dòng)應(yīng)用特征提取研究,首先要獲取移動(dòng)應(yīng)用的網(wǎng)絡(luò)流量。由于沒有標(biāo)準(zhǔn)的移動(dòng)應(yīng)用流量數(shù)據(jù)集可供使用,研究者要獨(dú)立采集移動(dòng)應(yīng)用的流量。采集流量必須要解決網(wǎng)絡(luò)流的實(shí)際歸屬問題,即采用一定的技術(shù)手段來(lái)準(zhǔn)確判定每條網(wǎng)絡(luò)流是由哪個(gè)應(yīng)用的產(chǎn)生的;否者,從不純凈的應(yīng)用流量中提取的特征將存在很大的誤差。本文將在2.1節(jié)介紹標(biāo)簽化的流量采集方法。

      2)預(yù)處理階段。根據(jù)報(bào)文的五元組信息將采集的混合網(wǎng)絡(luò)流量進(jìn)行重組,形成獨(dú)立的網(wǎng)絡(luò)流。在完成流重組后剔除非正常流以及利用HTTP 報(bào)文進(jìn)行DNS 查詢的數(shù)據(jù)流。正常的HTTP 流必須具有完整的TCP 連接建立過程,且服務(wù)器返回的狀態(tài)碼為“2XX”系列。最后獲取HTTP 請(qǐng)求報(bào)文的載荷信息,存入對(duì)應(yīng)的應(yīng)用程序流量庫(kù)中,每條載荷信息代表一條網(wǎng)絡(luò)流。

      3)特征提取階段。將每個(gè)應(yīng)用的流聚類成具有相同結(jié)構(gòu)的集合,并分別提取每個(gè)集合內(nèi)所有流的最長(zhǎng)公共子序列(Longest Common Sequence,LCS),最后替換掉LCS 中的可變字段和無(wú)關(guān)信息,就形成了每一類流的字符串特征。

      4)特征篩選階段。將多個(gè)關(guān)聯(lián)應(yīng)用的相同特征進(jìn)行篩選,根據(jù)該特征代表的網(wǎng)絡(luò)流在不同應(yīng)用中出現(xiàn)的頻率來(lái)判定特征最后的歸屬。

      2 關(guān)鍵技術(shù)實(shí)現(xiàn)

      2.1 標(biāo)簽化流量采集

      標(biāo)簽化流量采集就是通過一定的技術(shù)手段確定每一條網(wǎng)絡(luò)流的歸屬。由于不同的手機(jī)操作系統(tǒng)原理不同,目前我們開發(fā)了一款基于Android的免Root流量采集工具NetLog,通過Android4.0+提供的VPN Service 模塊監(jiān)聽設(shè)備上所有應(yīng)用的接口。NetLog 在開啟后會(huì)自動(dòng)記錄設(shè)備產(chǎn)生的網(wǎng)絡(luò)流量,每隔一定時(shí)間生成一個(gè)pcap 文件及相應(yīng)的網(wǎng)絡(luò)流標(biāo)簽文本,并壓縮上傳至服務(wù)器。流量標(biāo)簽如圖2 所示,包括開始的時(shí)間、應(yīng)用名稱、協(xié)議類型(TCP/UDP)、源IP地址、源端口號(hào)、目的IP地址、目的端口號(hào)。通過該標(biāo)簽,可以在后續(xù)的預(yù)處理階段對(duì)pcap 文件中的混合流量進(jìn)行精確的區(qū)分,從而得到純凈的應(yīng)用流量。

      圖2 Netlog流量標(biāo)簽Fig.2 Traffic labels of Netlog

      2.2 結(jié)構(gòu)化特征提取

      移動(dòng)應(yīng)用操作界面很多,功能十分豐富,為了實(shí)現(xiàn)每一個(gè)界面的每一種功能,應(yīng)用需要向?qū)?yīng)的服務(wù)器請(qǐng)求數(shù)據(jù)。針對(duì)這些功能,開發(fā)人員會(huì)在應(yīng)用中制定對(duì)應(yīng)的數(shù)據(jù)獲取計(jì)劃,在應(yīng)用運(yùn)行過程中觸發(fā)時(shí)就形成了不同類型的網(wǎng)絡(luò)流。網(wǎng)絡(luò)數(shù)據(jù)獲取計(jì)劃的內(nèi)容包括采取的數(shù)據(jù)傳輸協(xié)議(HTTP、HTTPS等)、請(qǐng)求路徑、各種參數(shù)名及參數(shù)值、各個(gè)字段的先后順序、不同字段之間的分隔符等。網(wǎng)絡(luò)數(shù)據(jù)獲取計(jì)劃相當(dāng)于構(gòu)建了一個(gè)流量框架,當(dāng)觸發(fā)時(shí)各個(gè)字段填充上相應(yīng)的數(shù)據(jù)就構(gòu)成了現(xiàn)實(shí)中的網(wǎng)絡(luò)流量。由于不同公司的應(yīng)用開發(fā)規(guī)范不同、不同開發(fā)人員的個(gè)人習(xí)慣不同,應(yīng)用每一種功能所對(duì)應(yīng)的網(wǎng)絡(luò)數(shù)據(jù)獲取計(jì)劃可能存在差異,這些差異最終會(huì)體現(xiàn)在報(bào)文中,而這正是流量特征。

      本節(jié)將介紹如何提取應(yīng)用HTTP流的結(jié)構(gòu)化特征。

      2.2.1 流聚類

      在對(duì)應(yīng)用流量進(jìn)行分析后發(fā)現(xiàn),應(yīng)用在獲取不同的數(shù)據(jù)時(shí)產(chǎn)生的HTTP 請(qǐng)求報(bào)文存在較大的差異。當(dāng)請(qǐng)求方法、報(bào)文結(jié)構(gòu)、服務(wù)器域名有任意一處不同時(shí),報(bào)文可能完全不同。本文期望在提取應(yīng)用流量特征時(shí)保留報(bào)文的結(jié)構(gòu),為此,需要將每個(gè)應(yīng)用的HTTP 流進(jìn)行聚類,使每一類流趨向于相同的數(shù)據(jù)獲取行為。在進(jìn)行多次聚類實(shí)驗(yàn)及效果評(píng)估后,制定了流聚類標(biāo)簽,聚類標(biāo)簽由HTTP 請(qǐng)求報(bào)文的請(qǐng)求方法、消息報(bào)頭及其先后順序、Host或路徑中的域名組成,這個(gè)標(biāo)簽適用于任何移動(dòng)應(yīng)用HTTP 流,當(dāng)兩條流的標(biāo)簽一致時(shí)則認(rèn)為是同一類流,具體流程如圖3所示。

      圖3 流聚類流程Fig.3 Traffic clustering process

      經(jīng)過聚類,每一類的數(shù)據(jù)流已經(jīng)高度相似。圖4 為兩臺(tái)不同設(shè)備上的愛奇藝產(chǎn)生的HTTP 請(qǐng)求報(bào)文,根據(jù)本文的聚類原則,這兩條數(shù)據(jù)流屬于一類。從圖4 可以觀察到這兩條請(qǐng)求報(bào)文的結(jié)構(gòu)完全一致,只有部分字段的值不同,可以在后續(xù)處理中提取出其中的報(bào)文結(jié)構(gòu)和固定字符串作為特征。

      2.2.2 特征生成

      應(yīng)用產(chǎn)生的HTTP 流經(jīng)過聚類后,得到了多個(gè)高度相似的集合。在提取特征時(shí),要將每一類流中的固定不變信息保留下來(lái)。本文提出的特征生成算法是:在應(yīng)用流聚類的基礎(chǔ)上,使用LCS 算法分別提取應(yīng)用的每一類HTTP 流的LCS。由于每一類HTTP 流具有相同的結(jié)構(gòu),為了減少不必要的計(jì)算,將HTTP 報(bào)文分成不同的行,即請(qǐng)求行、報(bào)文頭行、報(bào)文體行,再分別提取每一行的子LCS后并組合成最終的結(jié)果。

      圖4 愛奇藝HTTP流Fig.4 HTTP traffic of iQiYi

      LCS 算法實(shí)現(xiàn)簡(jiǎn)單,但存在結(jié)果碎片化的問題。為此,本文引入閾值Length_min 來(lái)解決碎片化問題。具體思路為:在生成兩個(gè)字符串的LCS狀態(tài)矩陣時(shí),當(dāng)前位置字符相同,且其前后共Length_min 個(gè)字符也相同時(shí)才計(jì)入結(jié)果。由于HTTP報(bào)文有明顯的結(jié)構(gòu),不同意義的字段由一定的間隔符分隔,最短的關(guān)鍵字可以是1 個(gè)字符,如“pt=0&t=6&tl=7&”中的關(guān)鍵字“t”加上前后兩個(gè)分隔符“&”“=”,所以Length_min取值最小應(yīng)為3。Length_min值越大,最后的結(jié)果越精簡(jiǎn)。詳細(xì)描述如算法1所示。

      根據(jù)本文的特征生成算法,提取圖4 中兩條愛奇藝HTTP流的LCS,其結(jié)果如圖5 所示??梢钥闯觯Y(jié)果保留了圖4 兩條HTTP 請(qǐng)求報(bào)文中符合本文要求的公共字符串序列,且保留了報(bào)文的結(jié)構(gòu),由于非連續(xù)處插入了特殊間隔符,可以在后續(xù)處理中剔除可變化的字段。

      圖5 圖4的LCS結(jié)果示例Fig.5 Result example of LCS for Fig.4

      2.2.3 字符替換

      將應(yīng)用的每一特征中存在的可變字段和無(wú)關(guān)項(xiàng)進(jìn)行替換,最后添加轉(zhuǎn)義符將特征轉(zhuǎn)化為正則表達(dá)式形式,可直接用正則匹配來(lái)識(shí)別應(yīng)用流量。

      1)替換可變字段。如前所述,在提取了每一組數(shù)據(jù)流的LCS 后,會(huì)在每一個(gè)不連續(xù)處插入特殊間隔符,而HTTP 報(bào)文具有明顯的結(jié)構(gòu),可依據(jù)常用間隔符如空格、換行,以及“/”“,”“=”“&”“;”等劃分成不同的字段,如果某一字段中存在特殊間隔符,則將當(dāng)前字段替換為“(.*)”。

      2)替換無(wú)關(guān)項(xiàng)。應(yīng)用程序的流中通常具有某些與應(yīng)用程序無(wú)關(guān)的字段,如“WIFI”“4G”“G4”“LTE”“NONE”“NULL”等,將這些字段替換為“(.*)”。

      3)轉(zhuǎn)義字符替換。最后保留“(.*)”不變,將各個(gè)轉(zhuǎn)義字符前添加轉(zhuǎn)義符“”,需要轉(zhuǎn)義的字符包括“.”“*”“?”“(”“)”等。

      圖6為圖5所示的LCS經(jīng)過字符替換后的結(jié)果,其中存在變化的字段和無(wú)關(guān)項(xiàng)已替換為正則表達(dá)式中代表任意字符的“(.*)”。當(dāng)網(wǎng)絡(luò)流量來(lái)源比較廣泛時(shí),就可以排除出所有的可變換字段,剩下的固定不變字段即為該類網(wǎng)絡(luò)流的特征。

      2.3 特征篩選

      由于移動(dòng)應(yīng)用的開放性,不同應(yīng)用可以從相同的服務(wù)器獲取數(shù)據(jù),所以可能存在不同應(yīng)用產(chǎn)生完全相同的HTTP 請(qǐng)求報(bào)文,即提取的特征無(wú)法有效識(shí)別數(shù)據(jù)流的源頭。這類完全相同的流,主要涉及一些系統(tǒng)功能相關(guān)的數(shù)據(jù),包括獲取服務(wù)器時(shí)間、網(wǎng)絡(luò)測(cè)試、上傳日志等。如圖7 所示,飛豬、閑魚、手機(jī)淘寶、手機(jī)天貓和優(yōu)酷視頻都能提取到這樣一條特征。對(duì)于這種不能明確地區(qū)分?jǐn)?shù)據(jù)流歸屬的特征,依據(jù)其在應(yīng)用數(shù)據(jù)流中出現(xiàn)的頻率來(lái)判定,如果在某一應(yīng)用中出現(xiàn)的頻率明顯高于其他應(yīng)用,則將此特征歸為出現(xiàn)頻率較高的應(yīng)用;如果在各個(gè)應(yīng)用中出現(xiàn)的頻率沒有明顯的差異,則將此特征刪除。

      本文設(shè)置臨界頻率倍數(shù)閾值P,P代表了對(duì)提取的應(yīng)用特征誤報(bào)率的容忍度。P=0 表明完全接受應(yīng)用特征產(chǎn)生的誤識(shí)別;P 值越大,則本文方法提取的特征在實(shí)際流量識(shí)別中的誤報(bào)率越低。本文將P設(shè)置為5,現(xiàn)實(shí)意義為如果特征A代表的流在應(yīng)用1中所占比率高于其他應(yīng)用5倍,則特征A歸屬于應(yīng)用1,其他應(yīng)用中的特征A 刪除。5 是一個(gè)經(jīng)驗(yàn)值,在實(shí)驗(yàn)中已經(jīng)可以達(dá)到較好的效果。

      圖6 愛奇藝特征示例Fig.6 Signature example of iQiYi

      圖7 多種應(yīng)用的共同特征Fig.7 Common signature of multiple applications

      3 實(shí)驗(yàn)及結(jié)果分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)采集

      為了評(píng)估本文的特征提取方法,在多臺(tái)設(shè)備上安裝采集工具NetLog,并收集2019 年5 月20 日—6 月30 日產(chǎn)生的流量。其中6 月15 日前的流量作為樣本集,用于提取應(yīng)用的特征;6月16日—30日的數(shù)據(jù)作為測(cè)試集,用于測(cè)試實(shí)驗(yàn)提取的特征的識(shí)別效果。為了排除設(shè)備型號(hào)對(duì)應(yīng)用特征的影響,挑選出其中至少出現(xiàn)在兩臺(tái)不同設(shè)備上的42 種應(yīng)用所產(chǎn)生的HTTP流作為實(shí)驗(yàn)數(shù)據(jù)。樣本集共含有117 772條HTTP流,其詳細(xì)分布見表1;測(cè)試集共含有50 387 條HTTP 流,其詳細(xì)分布見表2。

      表1 樣本集應(yīng)用及HTTP流分布Tab. 1 Applications and HTTP traffic distribution in sample dataset

      3.2 評(píng)價(jià)標(biāo)準(zhǔn)

      表2 測(cè)試集應(yīng)用及HTTP流分布Tab. 2 Applications and HTTP traffic distribution in test dataset

      表3 混淆矩陣Tab. 3 Confusion matrix

      3.3 實(shí)驗(yàn)結(jié)果

      為驗(yàn)證本文提出的應(yīng)用特征提取方法的有效性,使用該方法提取樣本集中42 種應(yīng)用的HTTP 流特征,并使用這些特征去識(shí)別測(cè)試集中的應(yīng)用流量,得出每個(gè)應(yīng)用特征的TP、FP、FN、TN 值,并計(jì)算每個(gè)應(yīng)用的特征在測(cè)試集上的查全率、準(zhǔn)確率和誤報(bào)率。由于提取的特征是正則表達(dá)式形式的字符串,識(shí)別時(shí)直接使用正則匹配的方法將每一個(gè)特征同應(yīng)用的HTTP 請(qǐng)求報(bào)文進(jìn)行匹配即可。評(píng)估結(jié)果見表4。由表4 可見,本文提出的應(yīng)用特征提取方法具有良好的識(shí)別效果,其中平均準(zhǔn)確率ACC 達(dá)99%以上,單個(gè)應(yīng)用最大誤報(bào)率為QQ 空間的0.52%,查全率最低為71%、最高為99%,平均查全率為90.63%。

      由表4 也可得出,本文方法可以有效區(qū)分具有關(guān)聯(lián)性的同一體系的應(yīng)用。如騰訊公司的QQ 空間、QQ 瀏覽器、手機(jī)QQ、企鵝電競(jìng)、騰訊視頻、微視、微信,阿里巴巴旗下的淘寶、天貓、淘票票、口碑、飛豬、餓了么、聚劃算、閑魚,字節(jié)跳動(dòng)公司的今日頭條、抖音短視頻、火山小視頻、西瓜視頻等。同一公司開發(fā)的應(yīng)用具有明顯的關(guān)聯(lián)性,功能相互集成,本文方法可以以極低的誤報(bào)率取得較高的查全率。

      表4 應(yīng)用特征在測(cè)試集上的評(píng)估Tab. 4 Evaluation of application signatures on test dataset

      3.4 對(duì)比實(shí)驗(yàn)

      本節(jié)進(jìn)行兩組對(duì)比實(shí)驗(yàn):第一組,通過改變特征篩選階段的閾值P,觀察它對(duì)識(shí)別結(jié)果的影響;第二組,選取其他已發(fā)表文獻(xiàn)的應(yīng)用特征提取技術(shù)與本文方法進(jìn)行對(duì)比。

      3.4.1 對(duì)比實(shí)驗(yàn)1

      本文在特征篩選階段設(shè)置了閾值P=5,即將多個(gè)應(yīng)用出現(xiàn)的相同特征歸屬于流占比高于其他應(yīng)用5 倍的應(yīng)用,該閾值可以較低的誤報(bào)率獲得較高的查全率。在對(duì)比實(shí)驗(yàn)1 中,將閾值P設(shè)置為無(wú)窮大,其現(xiàn)實(shí)意義為:如果多個(gè)應(yīng)用具有一個(gè)相同的特征,則排除此特征,從而使得在樣本集上獲取的特征可以唯一指向某一個(gè)應(yīng)用。對(duì)比實(shí)驗(yàn)同樣使用樣本集提取特征,用測(cè)試集來(lái)驗(yàn)證識(shí)別效果,對(duì)比結(jié)果見表5。從表5 可見,能夠容忍一定程度誤報(bào)率的P 取值為5,與完全不容忍誤報(bào)率的P 取值為無(wú)窮大相比,平均查全率由88.21%提高到90.63%,但平均誤報(bào)率僅由0.01%提高為0.05%。表6 列出了三種結(jié)果差異較大的應(yīng)用,查全率有較大幅度的提升,但誤報(bào)率最高僅為0.52%。由此可見,在容忍一定誤報(bào)率的前提下,可以大幅提高部分應(yīng)用流量的查全率。

      表5 對(duì)比實(shí)驗(yàn)1結(jié)果 單位:%Tab. 5 Result of comparative experiment 1 unit:%

      表6 對(duì)比實(shí)驗(yàn)1詳細(xì)結(jié)果 單位:%Tab. 6 Details of comparative experiment 1 unit:%

      3.4.2 對(duì)比實(shí)驗(yàn)2

      本節(jié)選取其他三種特征提取技術(shù)來(lái)評(píng)估本文方法:1)基于HTTP 頭 字 段 中 的 顯 式 應(yīng) 用 標(biāo) 識(shí) 符[12];2)基 于NetworkProfiler 方法[11]的URL 狀態(tài)機(jī)及Host 組合;3)應(yīng)用逆向的方法[14]。前兩種方法與本文方法都是從應(yīng)用流量入手,根據(jù)原文的思路進(jìn)行復(fù)現(xiàn),從樣本集中提取特征,并測(cè)試所提取的特征在測(cè)試集中的識(shí)別效果;第三種應(yīng)用逆向的方法,由于不具備復(fù)現(xiàn)的能力,本文根據(jù)文獻(xiàn)[14]的實(shí)現(xiàn)機(jī)制和實(shí)驗(yàn)數(shù)據(jù)進(jìn)行對(duì)比分析。

      由表7 可見,本文方法與應(yīng)用標(biāo)識(shí)符的方法相比,平均查全率提高了47%,平均誤報(bào)率僅為0.05%。與NetworkProfiler的方法相比,平均查全率提高了22%,平均誤報(bào)率不足NetworkProfiler 方法的1/25。由此可見,本文方法與其他從應(yīng)用流量入手的方法相比,具有較高的查全率和較低的誤報(bào)率。

      表7 對(duì)比實(shí)驗(yàn)2結(jié)果 單位:%Tab. 7 Result of comparative experiment 2 unit:%

      最后,對(duì)應(yīng)用逆向的方法進(jìn)行對(duì)比分析。文獻(xiàn)[14]對(duì)應(yīng)用安裝包進(jìn)行反編譯,從配置文件中獲取特定的字符串(例如服務(wù)器域名、User-Agent 等)填充到統(tǒng)一構(gòu)建的特征框架中,從而形成應(yīng)用流量特征。此方法無(wú)須采集應(yīng)用流量,直接利用應(yīng)用安裝包構(gòu)建應(yīng)用流量特征,其優(yōu)勢(shì)是便于開展大規(guī)模的應(yīng)用特征提取,缺點(diǎn)是統(tǒng)一的特征框架難以充分利用配置文件中的關(guān)鍵信息,造成特征不夠精細(xì),難以有效區(qū)分同體系的應(yīng)用流量。文獻(xiàn)[14]的實(shí)驗(yàn)結(jié)果表明,安卓應(yīng)用的整體流覆蓋率為40.76%,引入“Application Families”概念(將具有一定關(guān)聯(lián)性的應(yīng)用作為一個(gè)整體)后整體流覆蓋率提升為81%。由此可見,本文提出的方法對(duì)于識(shí)別具有關(guān)聯(lián)性的應(yīng)用流量具有明顯的優(yōu)勢(shì)。

      4 結(jié)語(yǔ)

      本文提出了一種提取移動(dòng)應(yīng)用HTTP 流結(jié)構(gòu)化特征的方法,避免了預(yù)先設(shè)計(jì)特征帶來(lái)的識(shí)別精度底、適用性差的問題,能夠有效識(shí)別存在數(shù)據(jù)關(guān)聯(lián)性的應(yīng)用的流量。本文方法不需要對(duì)數(shù)據(jù)做特殊處理,適合開展大規(guī)模、高吞吐量的實(shí)時(shí)在線檢測(cè)。

      本文方法存在兩點(diǎn)不足:1)采集流量需要人工運(yùn)行應(yīng)用程序完成;2)流聚類還不夠精細(xì),造成聚類后的類別較多。下一步的主要工作包括:1)優(yōu)化聚類算法,在不影響特征精度的前提下,盡可能減少特征的數(shù)量;2)與應(yīng)用自動(dòng)化運(yùn)行工具相結(jié)合,構(gòu)建一個(gè)全自動(dòng)的移動(dòng)應(yīng)用HTTP特征提取系統(tǒng)。

      猜你喜歡
      誤報(bào)率查全率網(wǎng)絡(luò)流量
      基于GRU-LSTM算法的物聯(lián)網(wǎng)數(shù)據(jù)入侵檢測(cè)分析
      基于SSA-SVM的網(wǎng)絡(luò)入侵檢測(cè)研究
      基于多元高斯分布的網(wǎng)絡(luò)流量異常識(shí)別方法
      家用燃?xì)鈭?bào)警器誤報(bào)原因及降低誤報(bào)率的方法
      煤氣與熱力(2021年6期)2021-07-28 07:21:40
      基于神經(jīng)網(wǎng)絡(luò)的P2P流量識(shí)別方法
      海量圖書館檔案信息的快速檢索方法
      基于詞嵌入語(yǔ)義的精準(zhǔn)檢索式構(gòu)建方法
      AVB網(wǎng)絡(luò)流量整形幀模型端到端延遲計(jì)算
      神經(jīng)網(wǎng)絡(luò)技術(shù)在網(wǎng)絡(luò)入侵檢測(cè)模型及系統(tǒng)中的應(yīng)用
      網(wǎng)絡(luò)流量監(jiān)控對(duì)網(wǎng)絡(luò)安全治理的重要性
      河南科技(2014年23期)2014-02-27 14:18:43
      高碑店市| 阿巴嘎旗| 周口市| 游戏| 梁山县| 清水县| 临沂市| 明水县| 绍兴县| 沙湾县| 博乐市| 丹凤县| 巴东县| 万荣县| 东丰县| 纳雍县| 莒南县| 朝阳区| 池州市| 益阳市| 阳原县| 凤冈县| 民丰县| 越西县| 永福县| 莱阳市| 那曲县| 安国市| 清涧县| 盱眙县| 安达市| 澎湖县| 花莲县| 西昌市| 剑河县| 东明县| 阳高县| 井冈山市| 公主岭市| 房山区| 方正县|