陶曉玲,韋 毅,王 勇,3
(1. 桂林電子科技大學(xué)認(rèn)知無(wú)線(xiàn)電與信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室 廣西 桂林 541004;2. 桂林電子科技大學(xué)廣西高校云計(jì)算與復(fù)雜系統(tǒng)重點(diǎn)實(shí)驗(yàn)室 廣西 桂林 541004;3. 桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室 廣西 桂林 541004)
一種基于本體的并行網(wǎng)絡(luò)流量分類(lèi)方法
陶曉玲1,2,韋 毅2,王 勇2,3
(1. 桂林電子科技大學(xué)認(rèn)知無(wú)線(xiàn)電與信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室 廣西 桂林 541004;2. 桂林電子科技大學(xué)廣西高校云計(jì)算與復(fù)雜系統(tǒng)重點(diǎn)實(shí)驗(yàn)室 廣西 桂林 541004;3. 桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室 廣西 桂林 541004)
海量網(wǎng)絡(luò)流量數(shù)據(jù)的處理與單一節(jié)點(diǎn)的計(jì)算能力瓶頸這一矛盾導(dǎo)致數(shù)據(jù)分類(lèi)效率低,無(wú)法滿(mǎn)足現(xiàn)實(shí)需求。為解決這一問(wèn)題,結(jié)合本體與MapReduce技術(shù)各自在海量異構(gòu)數(shù)據(jù)描述與處理方面的優(yōu)勢(shì),提出一種基于本體的并行網(wǎng)絡(luò)流量分類(lèi)方法。該方法基于MapReduce并行計(jì)算架構(gòu),根據(jù)網(wǎng)絡(luò)流量本體結(jié)構(gòu),對(duì)網(wǎng)絡(luò)流量本體并行化構(gòu)建;通過(guò)并行知識(shí)推理完成基于流量統(tǒng)計(jì)特征的網(wǎng)絡(luò)流量分類(lèi)。實(shí)驗(yàn)結(jié)果表明,集群環(huán)境下基于MapReduce的網(wǎng)絡(luò)流量本體構(gòu)建效率明顯高于單機(jī)環(huán)境,而且適當(dāng)增加計(jì)算節(jié)點(diǎn)使得加速比線(xiàn)性提升;并行知識(shí)推理的分類(lèi)方法能夠有效地提高大規(guī)模網(wǎng)絡(luò)流量的分類(lèi)效率。
知識(shí)推理; MapReduce; 網(wǎng)絡(luò)流量分類(lèi); 本體; 并行化
作為管理和優(yōu)化各類(lèi)網(wǎng)絡(luò)資源的關(guān)鍵技術(shù),網(wǎng)絡(luò)流量分類(lèi)[1]廣泛應(yīng)用于網(wǎng)絡(luò)監(jiān)控、服務(wù)質(zhì)量(quality of service, QoS)管理、網(wǎng)絡(luò)安全、態(tài)勢(shì)分析等領(lǐng)域,是高效實(shí)現(xiàn)網(wǎng)絡(luò)管理、流量控制以及安全檢測(cè)的重要環(huán)節(jié)。隨著Web技術(shù)的發(fā)展和企業(yè)信息化需求的不斷提高,許多新型網(wǎng)絡(luò)應(yīng)用模式和需求應(yīng)運(yùn)而生,網(wǎng)絡(luò)環(huán)境也升級(jí)為高速、大規(guī)模、復(fù)雜網(wǎng)絡(luò),隨之而來(lái)的網(wǎng)絡(luò)流量數(shù)據(jù)呈現(xiàn)出新的特點(diǎn):海量(數(shù)量驚人、信息豐富)、多源(數(shù)據(jù)源分布在離散的,彼此可以通信的多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)上)、異構(gòu)(格式異構(gòu)、語(yǔ)法異構(gòu)、語(yǔ)義異構(gòu)),致使網(wǎng)絡(luò)流量分類(lèi)面臨嚴(yán)峻的挑戰(zhàn)。
其一,各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)傳感器使用不同的流量采集系統(tǒng)收集網(wǎng)絡(luò)數(shù)據(jù)包,在數(shù)據(jù)生成方式、存放方式和處理方式上呈現(xiàn)多樣化,出現(xiàn)網(wǎng)絡(luò)流量數(shù)據(jù)格式不一,類(lèi)型不同,且不同數(shù)據(jù)存在語(yǔ)義區(qū)分等問(wèn)題。因此,多個(gè)數(shù)據(jù)源提供的異構(gòu)網(wǎng)絡(luò)流量數(shù)據(jù)之間會(huì)存在數(shù)據(jù)不一致性問(wèn)題,從而影響網(wǎng)絡(luò)流量分類(lèi)結(jié)果的準(zhǔn)確性。
其二,目前主流的網(wǎng)絡(luò)流量分類(lèi)方法是基于流量統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)方法[2],因?yàn)榇祟?lèi)方法需提取高維的流量統(tǒng)計(jì)特征,通過(guò)復(fù)雜的計(jì)算構(gòu)造分類(lèi)模型,面對(duì)海量的網(wǎng)絡(luò)流量數(shù)據(jù),處理時(shí)間開(kāi)銷(xiāo)較大,分類(lèi)效率不高,這使得其不能滿(mǎn)足高速網(wǎng)絡(luò)流量分類(lèi)的需求。
本體[3]在信息系統(tǒng)中被定義為一種能在語(yǔ)義和知識(shí)層次上描述特定知識(shí)領(lǐng)域的形式化技術(shù),具有良好的概念層次結(jié)構(gòu),對(duì)邏輯推理無(wú)縫支持,為信息資源規(guī)范、無(wú)二義性和可擴(kuò)展性描述問(wèn)題提供了有效的解決途徑。文獻(xiàn)[4]提出采用本體作為網(wǎng)絡(luò)流量信息資源的統(tǒng)一描述的思路。
并行處理技術(shù)MapReduce能夠?yàn)榭蓜澐值拇笠?guī)模數(shù)據(jù)并行計(jì)算處理問(wèn)題提供充分的并行計(jì)算語(yǔ)義,已經(jīng)被普遍接受。該技術(shù)為提高網(wǎng)絡(luò)流量分類(lèi)中海量數(shù)據(jù)處理效率問(wèn)題提供了新方法。因此,基于文獻(xiàn)[4],本文借助并行處理技術(shù)MapReduce,提出一種基于本體的并行網(wǎng)絡(luò)流量分類(lèi)方法。該方法將發(fā)揮MapReduce在海量異構(gòu)數(shù)據(jù)處理方面的優(yōu)勢(shì),為本體的構(gòu)建、知識(shí)管理及推理提供計(jì)算資源,用于海量網(wǎng)絡(luò)流量數(shù)據(jù)并行處理、分類(lèi),為高速大規(guī)模復(fù)雜網(wǎng)絡(luò)環(huán)境下的網(wǎng)絡(luò)流量分類(lèi)提供新思路和理論方法依據(jù)。
1.1 本體及其應(yīng)用
本體本質(zhì)上是針對(duì)一個(gè)特定領(lǐng)域,對(duì)領(lǐng)域知識(shí)的標(biāo)準(zhǔn)化描述,以便相關(guān)領(lǐng)域?qū)W者在概念層面上達(dá)成共識(shí),相互之間實(shí)現(xiàn)知識(shí)共享。本體作為一種知識(shí)表達(dá)的工具[5]逐漸成為國(guó)內(nèi)外的研究熱點(diǎn)。文獻(xiàn)[6-8]主要集中在利用本體進(jìn)行信息資源描述的模型一致性、邏輯一致性和關(guān)系一致性三方面。由此可見(jiàn),本體為異構(gòu)數(shù)據(jù)提供了統(tǒng)一的概念接口,并且獨(dú)立于數(shù)據(jù)模式,可以對(duì)異構(gòu)數(shù)據(jù)進(jìn)行豐富的語(yǔ)義描述。
本體也被應(yīng)用于決策支持系統(tǒng)中管理領(lǐng)域知識(shí),并被許多推理機(jī)支持,用于實(shí)現(xiàn)知識(shí)推理[9]。目前,基于本體的知識(shí)推理功能也被應(yīng)用于分類(lèi)問(wèn)題。文獻(xiàn)[10]提出了一個(gè)基于本體的海洋衛(wèi)星圖像分類(lèi)模型,構(gòu)建了基于決策樹(shù)和專(zhuān)家定制規(guī)則的圖像本體分類(lèi)器,該模型的分類(lèi)準(zhǔn)確率達(dá)到92.49%;文獻(xiàn)[11]將本體應(yīng)用于輕度認(rèn)知障礙(MCI)診斷,提出一種本體驅(qū)動(dòng)的利用磁共振成像(MRI)自動(dòng)診斷MCI的方法,并通過(guò)對(duì)比發(fā)現(xiàn)決策樹(shù)算法更適用于構(gòu)建推理規(guī)則集。
近年來(lái),有少量研究者已嘗試將本體應(yīng)用于網(wǎng)絡(luò)流的定義及分類(lèi)模型的建立。文獻(xiàn)[12]構(gòu)建了一個(gè)基于本體范例的分類(lèi)樹(shù),首次嘗試?yán)帽倔w對(duì)網(wǎng)絡(luò)流量類(lèi)別進(jìn)行標(biāo)準(zhǔn)化定義。文獻(xiàn)[13]設(shè)計(jì)了一個(gè)基于流輪廓和本體的在線(xiàn)、自學(xué)習(xí)網(wǎng)絡(luò)流量分類(lèi)模型,此模型比較復(fù)雜,文中也未給出該模型的具體實(shí)現(xiàn)。
1.2 海量數(shù)據(jù)并行處理技術(shù)
面向海量數(shù)據(jù)的處理問(wèn)題,考慮到單一節(jié)點(diǎn)的計(jì)算能力瓶頸,研究者們紛紛采用分布式或并行處理的方式來(lái)解決此類(lèi)問(wèn)題,其中基于并行處理技術(shù)MapReduce的海量數(shù)據(jù)處理方面的工作頗有成效。文獻(xiàn)[14-15]分別提出了一種基于MapReduce的分布式ELM學(xué)習(xí)模型及訓(xùn)練框架,實(shí)驗(yàn)證明,在大數(shù)據(jù)的學(xué)習(xí)及訓(xùn)練方面是有效的。
MapReduce技術(shù)也被研究者們用于解決海量數(shù)據(jù)的分類(lèi)問(wèn)題。文獻(xiàn)[16]提出一種基于類(lèi)別的集成技術(shù)用于分類(lèi)概念漂移數(shù)據(jù)流,采用了基于MapReduce的技術(shù)提高分類(lèi)方法的效率和魯棒性。文獻(xiàn)[17]指出MapReduce具有易于開(kāi)發(fā)的可擴(kuò)展性和容錯(cuò)性,進(jìn)而提出了一種基于MapReduce的隨機(jī)森林方法來(lái)處理非平衡大數(shù)據(jù)的分類(lèi)問(wèn)題。
復(fù)雜網(wǎng)絡(luò)環(huán)境下,網(wǎng)絡(luò)鏈路中不斷增加的待處理數(shù)據(jù)與基于單機(jī)的計(jì)算機(jī)系統(tǒng)處理能力的矛盾日益突出,有少數(shù)的國(guó)內(nèi)外學(xué)者也將MapReduce技術(shù)應(yīng)用于網(wǎng)絡(luò)流量的處理。文獻(xiàn)[18]提出了一個(gè)基于Hadoop平臺(tái)的網(wǎng)絡(luò)流量分流并行處理結(jié)構(gòu),實(shí)驗(yàn)驗(yàn)證對(duì)于大數(shù)據(jù)進(jìn)行分流時(shí),該結(jié)構(gòu)優(yōu)勢(shì)顯著。文獻(xiàn)[19]提出基于高斯混合模型-隱馬爾可夫模型的網(wǎng)絡(luò)流量分類(lèi)方法,模型使用了兩個(gè)數(shù)據(jù)包級(jí)屬性來(lái)構(gòu)建,實(shí)現(xiàn)了一個(gè)基于MapReduce的并行分類(lèi)架構(gòu),并驗(yàn)證了模型具有靈活性。
本文采用文獻(xiàn)[4]設(shè)計(jì)的分層的網(wǎng)絡(luò)流量本體結(jié)構(gòu)。首層包括網(wǎng)絡(luò)流量采集節(jié)點(diǎn)信息和流量信息。其中,流量采集節(jié)點(diǎn)的下一層記錄流量采集節(jié)點(diǎn)的相關(guān)信息,包括網(wǎng)絡(luò)軟硬件設(shè)備信息、流量采集工具及節(jié)點(diǎn)的配置參數(shù);流量采集工具的下一層記錄各流量采集節(jié)點(diǎn)的各種流量采集工具名稱(chēng)以及流量采集信息格式。而流量信息的下一層記錄網(wǎng)絡(luò)流量的相關(guān)信息,包括網(wǎng)絡(luò)流量實(shí)例集合、流量統(tǒng)計(jì)特征集合、流量所屬應(yīng)用類(lèi)型及協(xié)議;流量所屬應(yīng)用類(lèi)型的下一層描述各種應(yīng)用類(lèi)型。
2.1 網(wǎng)絡(luò)流量本體并行構(gòu)建模型
MapReduce的任務(wù)分解規(guī)約的分布式計(jì)算模式在Google系統(tǒng)上得到很好的驗(yàn)證,而且以MapReduce思想設(shè)計(jì)的語(yǔ)義推理算法也已經(jīng)被證明是有效的[20]。因此,面向海量的網(wǎng)絡(luò)流量數(shù)據(jù)本體構(gòu)建,本文采用MapReduce作為并行處理技術(shù),實(shí)現(xiàn)實(shí)時(shí)、在線(xiàn)的網(wǎng)絡(luò)流量數(shù)據(jù)并行集成。基于MapReduce的并行化網(wǎng)絡(luò)流量本體構(gòu)建模型如圖1所示。采用基于MapReduce的語(yǔ)義映射方法,根據(jù)網(wǎng)絡(luò)流量本體結(jié)構(gòu),實(shí)現(xiàn)網(wǎng)絡(luò)結(jié)點(diǎn)流量數(shù)據(jù)到本體的完整映射,為網(wǎng)絡(luò)流量分類(lèi)模塊提供訪問(wèn)和操作數(shù)據(jù)的統(tǒng)一接口。
圖1 基于MapReduce的網(wǎng)絡(luò)流量本體構(gòu)建模型
2.2 方法的設(shè)計(jì)與實(shí)現(xiàn)
為實(shí)現(xiàn)從網(wǎng)絡(luò)流量信息采集到流量信息資源本體描述流程一體化,依照MapReduce的架構(gòu),將Map函數(shù)設(shè)計(jì)成流量信息采集器,Combiner設(shè)計(jì)成流量過(guò)濾與整合器,將Reduce函數(shù)設(shè)計(jì)成網(wǎng)絡(luò)流量本體構(gòu)建器,通過(guò)整個(gè)MapReduce完成從網(wǎng)絡(luò)采集節(jié)點(diǎn)到網(wǎng)絡(luò)流量本體的完整映射,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)流量本體構(gòu)建并行化。
該方法實(shí)現(xiàn)的具體步驟如下。
令Ni(1≤i≤n)表示第i個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)ID,IPi表示第i個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的IP,Ii表示第i個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的相關(guān)信息,F(xiàn)j(1≤j≤m)表示第j條網(wǎng)絡(luò)流量標(biāo)識(shí),Oj表示第j條網(wǎng)絡(luò)流量的本體。MNF表示從網(wǎng)絡(luò)節(jié)點(diǎn)流量數(shù)據(jù)到網(wǎng)絡(luò)流量的映射,RFO表示從網(wǎng)絡(luò)流量到網(wǎng)絡(luò)流量本體的映射。
1) 根據(jù)每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)啟動(dòng)對(duì)應(yīng)的Map函數(shù),其中,每個(gè)Map函數(shù)以鍵值對(duì) 2) Map函數(shù)根據(jù)IPi操作網(wǎng)絡(luò)節(jié)點(diǎn),收集網(wǎng)絡(luò)節(jié)點(diǎn)相關(guān)信息Ii,并調(diào)用網(wǎng)絡(luò)流量采集工具捕獲網(wǎng)絡(luò)數(shù)據(jù)包,然后將采集到的所有資源傳入Combiner中間結(jié)果; 3) Combiner根據(jù)過(guò)濾規(guī)則提取所需網(wǎng)絡(luò)流量信息,并將數(shù)據(jù)包整合成網(wǎng)絡(luò)流量Fj,以鍵值對(duì) 4) Reduce函數(shù)根據(jù)接收到的鍵值對(duì)計(jì)算流量統(tǒng)計(jì)特征,并用本體語(yǔ)言O(shè)WL做統(tǒng)一資源描述,借助本體建模工具Protégé的API,完成網(wǎng)絡(luò)流量本體的構(gòu)建。該步驟實(shí)現(xiàn)網(wǎng)絡(luò)流量到網(wǎng)絡(luò)流量本體的映射RFO:Fj→Oj。 3.1 知識(shí)推理的并行分類(lèi)框架 針對(duì)上一節(jié)構(gòu)建的網(wǎng)絡(luò)流量本體,提出一種基于知識(shí)推理的并行網(wǎng)絡(luò)流量分類(lèi)方法。該方法利用本體支持知識(shí)推理的特性,通過(guò)知識(shí)推理挖掘出本體中概念、屬性間的隱含關(guān)系;考慮到大規(guī)模復(fù)雜網(wǎng)絡(luò)下網(wǎng)絡(luò)流量是海量的,要實(shí)現(xiàn)在線(xiàn)流量實(shí)時(shí)分類(lèi),則必須借助并行處理技術(shù),建立基于MapReduce的并行知識(shí)推理引擎,實(shí)現(xiàn)網(wǎng)絡(luò)流量實(shí)例與所屬應(yīng)用類(lèi)型之間的對(duì)應(yīng)關(guān)系,即對(duì)網(wǎng)絡(luò)流量進(jìn)行分類(lèi)。該方法的框架如圖2所示。 圖2 基于知識(shí)推理的并行網(wǎng)絡(luò)流量分類(lèi)框架 由圖2可以看出,方法采用的知識(shí)推理是一種基于規(guī)則的推理。首先通過(guò)機(jī)器學(xué)習(xí)算法訓(xùn)練傳統(tǒng)分類(lèi)模型,接著分析分類(lèi)模型的內(nèi)部結(jié)構(gòu),將其轉(zhuǎn)換成可供本體做知識(shí)推理的規(guī)則集形式,然后以網(wǎng)絡(luò)流量本體作為推理對(duì)象,將本體和規(guī)則集一并輸入并行知識(shí)推理引擎,使得本體基于規(guī)則集做出推理,自動(dòng)對(duì)本體中流量實(shí)例的應(yīng)用類(lèi)型進(jìn)行標(biāo)注,最終得出分類(lèi)結(jié)果。 3.2 并行知識(shí)推理引擎的設(shè)計(jì)與實(shí)現(xiàn) 為了能處理海量的網(wǎng)絡(luò)流量本體推理,高效地執(zhí)行推理過(guò)程,將采用MapReduce并行處理技術(shù)構(gòu)建并行知識(shí)推理引擎。該引擎可以直接處理網(wǎng)絡(luò)流量本體,即以未被標(biāo)記應(yīng)用類(lèi)型的網(wǎng)絡(luò)流量本體為輸入,通過(guò)結(jié)合推理規(guī)則集對(duì)本體進(jìn)行推理,得到網(wǎng)絡(luò)流量的應(yīng)用類(lèi)型,最終將屬于同一應(yīng)用類(lèi)型的網(wǎng)絡(luò)流量作為輸出,完成網(wǎng)絡(luò)流量本體到網(wǎng)絡(luò)流量類(lèi)別的映射,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)流量的分類(lèi)。 并行知識(shí)推理的實(shí)現(xiàn)步驟如下。 令Oj(1≤j≤n)表示第j個(gè)網(wǎng)絡(luò)流量本體分片,F(xiàn)Il(1≤l≤p)表示第l個(gè)網(wǎng)絡(luò)流量實(shí)例標(biāo)識(shí)(對(duì)應(yīng)于第l條網(wǎng)絡(luò)流量Fl),S表示推理引擎中的規(guī)則集,Lk(1≤k≤m)表示第k類(lèi)(指應(yīng)用類(lèi)別)流量標(biāo)簽,Ck表示第k類(lèi)已分類(lèi)流量集。MROC表示從網(wǎng)絡(luò)流量本體到網(wǎng)絡(luò)流量類(lèi)別的完整映射。 1) 根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)的性能以及網(wǎng)絡(luò)流量本體中所描述的網(wǎng)絡(luò)流量實(shí)例的數(shù)據(jù)規(guī)模,對(duì)已構(gòu)建好的網(wǎng)絡(luò)流量本體進(jìn)行分割,得到多個(gè)網(wǎng)絡(luò)流量本體分片Oj,將網(wǎng)絡(luò)流量本體分片上傳至Hadoop分布式文件系統(tǒng),并對(duì)每一個(gè)網(wǎng)絡(luò)流量本體分片中描述的網(wǎng)絡(luò)流量實(shí)例標(biāo)記為FIl,以鍵值對(duì) 2) 啟動(dòng)多個(gè)Map函數(shù)并行地調(diào)用Jena推理機(jī),推理機(jī)利用規(guī)則集S中的各條規(guī)則對(duì)網(wǎng)絡(luò)流量本體分片Oj中描述的與網(wǎng)絡(luò)流量實(shí)例FIl有關(guān)的各種信息資源進(jìn)行知識(shí)推理,得出FIl的類(lèi)標(biāo)簽Lk,將 3) Reduce函數(shù)根據(jù)Lk按類(lèi)型合并Fj,形成已分類(lèi)流量集Ck,至此完成流量本體集到已分類(lèi)流量集的映射MROC:Oj→Ck。 4.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù) 本實(shí)驗(yàn)建立在Apache的開(kāi)源項(xiàng)目Hadoop[21]系統(tǒng)之上,搭建的Hadoop平臺(tái)由4臺(tái)機(jī)器(即4個(gè)節(jié)點(diǎn))構(gòu)成。節(jié)點(diǎn)配置信息如下:4核CPU(Intel I7-3770,3.4 GHz)、4 G內(nèi)存、1 TB硬盤(pán),運(yùn)行64位Ubuntu系統(tǒng)。 采用文獻(xiàn)[22]采集并公開(kāi)的真實(shí)網(wǎng)絡(luò)流量數(shù)據(jù)集作為本文的實(shí)驗(yàn)數(shù)據(jù),稱(chēng)之為摩爾數(shù)據(jù)集。摩爾數(shù)據(jù)集中的每個(gè)網(wǎng)絡(luò)流量樣本都是完備的傳輸控制協(xié)議(TCP)雙向流量,共有248個(gè)網(wǎng)絡(luò)流量統(tǒng)計(jì)特征。 4.2 加速比 為了能較精確地衡量提出的方法采用并行化技術(shù)MapReduce所帶來(lái)的性能方面的提升,使用加速比R作為評(píng)價(jià)指標(biāo): 式中,Ts表示單機(jī)環(huán)境下方法的運(yùn)行時(shí)間;Tp表示并行環(huán)境下方法的運(yùn)行時(shí)間。 4.3 網(wǎng)絡(luò)流量本體并行化構(gòu)建效率評(píng)估實(shí)驗(yàn) 為驗(yàn)證網(wǎng)絡(luò)流量本體構(gòu)建采用MapReduce并行化處理執(zhí)行效率,針對(duì)不同網(wǎng)絡(luò)流量數(shù)據(jù)規(guī)模,在單機(jī)和多臺(tái)機(jī)情況下對(duì)比網(wǎng)絡(luò)流量本體構(gòu)建時(shí)間,對(duì)比結(jié)果如圖3所示。 圖3 單機(jī)環(huán)境和集群環(huán)境下網(wǎng)絡(luò)流量本體的構(gòu)建時(shí)間對(duì)比 從圖3可以看出,當(dāng)網(wǎng)絡(luò)流量樣本數(shù)較少時(shí),不同個(gè)數(shù)的計(jì)算節(jié)點(diǎn)構(gòu)建網(wǎng)絡(luò)流量本體所需的時(shí)間差距不大。隨著網(wǎng)絡(luò)流量樣本數(shù)據(jù)規(guī)模的增大,網(wǎng)絡(luò)流量本體構(gòu)建所需的時(shí)間幾乎呈線(xiàn)性增長(zhǎng)。由此可知,本體構(gòu)建時(shí)間與網(wǎng)絡(luò)流量樣本數(shù)據(jù)規(guī)模呈線(xiàn)性關(guān)系,不受流量樣本間相互關(guān)系的影響,比較適合并行化處理。另外,圖3也顯示多臺(tái)機(jī)環(huán)境下比單機(jī)環(huán)境下的網(wǎng)絡(luò)流量本體構(gòu)建時(shí)間少,也說(shuō)明本方法體現(xiàn)了并行化處理的優(yōu)勢(shì)。 圖4給出了當(dāng)集群環(huán)境分別為采用2、3、4臺(tái)機(jī),即計(jì)算節(jié)點(diǎn)分別為2、3、4時(shí),本方法的加速比曲線(xiàn)圖。 如圖4所示,從3條加速比曲線(xiàn)之間的間隔變化來(lái)看,每增加一個(gè)計(jì)算節(jié)點(diǎn),加速比都會(huì)有相應(yīng)幅度的提升,且提升幅度較為穩(wěn)定,這意味著集群中的計(jì)算節(jié)點(diǎn)可以平衡地分擔(dān)本體構(gòu)建任務(wù),不同的計(jì)算節(jié)點(diǎn)均獨(dú)立完成構(gòu)建任務(wù),各節(jié)點(diǎn)完成自身任務(wù)時(shí)相互之間不需要進(jìn)行信息資源交互。因此,適當(dāng)增加計(jì)算節(jié)點(diǎn)可以得到與節(jié)點(diǎn)個(gè)數(shù)成比例的加速比提升。綜上所述,MapReduce并行處理技術(shù)可以有效地提高網(wǎng)絡(luò)流量本體構(gòu)建的效率。 圖4 加速比曲線(xiàn) 4.4 并行知識(shí)推理的分類(lèi)執(zhí)行效率評(píng)估實(shí)驗(yàn) 文獻(xiàn)[4]證明了采用決策樹(shù)算法建立分類(lèi)模型并轉(zhuǎn)化成知識(shí)推理規(guī)則集,能夠很好地繼承決策樹(shù)算法在網(wǎng)絡(luò)流量分類(lèi)上的性能優(yōu)勢(shì),實(shí)驗(yàn)表明在準(zhǔn)確率、召回率、F1-Measure 3個(gè)性能評(píng)價(jià)指標(biāo)均優(yōu)于SVM、BP神經(jīng)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò),從而獲得更佳的網(wǎng)絡(luò)流量分類(lèi)性能。 為驗(yàn)證并行知識(shí)推理的分類(lèi)方法的執(zhí)行效率,采用不同網(wǎng)絡(luò)流量數(shù)據(jù)規(guī)模,對(duì)單機(jī)環(huán)境和集群環(huán)境下知識(shí)推理分類(lèi)時(shí)間進(jìn)行對(duì)比,對(duì)比結(jié)果如圖5所示。 圖5 單機(jī)環(huán)境和集群環(huán)境下網(wǎng)絡(luò)流量分類(lèi)時(shí)間對(duì)比 從圖5中可看出,當(dāng)網(wǎng)絡(luò)流量實(shí)例個(gè)數(shù)較少時(shí),集群環(huán)境下的分類(lèi)時(shí)間與單機(jī)環(huán)境的分類(lèi)時(shí)間差距較小。在流量樣本數(shù)只有6萬(wàn)條的小規(guī)模分類(lèi)任務(wù)中,單機(jī)環(huán)境所需分類(lèi)時(shí)間甚至低于只開(kāi)啟了兩個(gè)節(jié)點(diǎn)的集群環(huán)境,逼近于開(kāi)啟了3個(gè)節(jié)點(diǎn)的集群環(huán)境,這是因?yàn)楫?dāng)數(shù)據(jù)量較少時(shí),MapReduce的過(guò)程中調(diào)度任務(wù)以及分割和重組數(shù)據(jù)等步驟需要耗費(fèi)一定的時(shí)間,由此可知對(duì)于小規(guī)模數(shù)據(jù)的處理,hadoop平臺(tái)的優(yōu)勢(shì)無(wú)法展現(xiàn)。隨著網(wǎng)絡(luò)流量樣本數(shù)的增長(zhǎng),單機(jī)與集群環(huán)境的分類(lèi)方法運(yùn)行時(shí)間的差距也越來(lái)越大,此時(shí)MapReduce的額外開(kāi)銷(xiāo)逐步趨于穩(wěn)定,方法中并行處理的優(yōu)勢(shì)就逐漸顯現(xiàn)出來(lái),體現(xiàn)了并行模型的高效性。 圖6給出了當(dāng)集群環(huán)境采用2、3、4臺(tái)機(jī),即計(jì)算節(jié)點(diǎn)分別為2、3、4時(shí),本方法的加速比曲線(xiàn)圖。 圖6 加速比曲線(xiàn) 如圖6所示,當(dāng)流量樣本數(shù)一定時(shí),隨著計(jì)算節(jié)點(diǎn)的增加,其加速比呈現(xiàn)階躍式變化;隨著樣本數(shù)的增加,加速比在增大到一個(gè)最大值之后減小,之后趨于穩(wěn)定。經(jīng)過(guò)對(duì)各個(gè)節(jié)點(diǎn)運(yùn)行狀態(tài)的觀測(cè)與分析可知,當(dāng)流量樣本數(shù)較小時(shí),集群的資源利用率不高,各計(jì)算節(jié)點(diǎn)的資源沒(méi)有被有效利用;隨著樣本數(shù)的增加,加速比呈現(xiàn)上揚(yáng)趨勢(shì),逐漸增加到最大值,此時(shí)集群的資源利用率達(dá)到最高,集群中各個(gè)節(jié)點(diǎn)的資源均能被很好地調(diào)度;隨著樣本數(shù)繼續(xù)增加,加速比慢慢減小,然后趨于平穩(wěn),這是因?yàn)榧嘿Y源的利用已達(dá)到瓶頸,集群的調(diào)度器開(kāi)始調(diào)整調(diào)度策略,最終達(dá)到一個(gè)穩(wěn)態(tài)。 綜上可知,并行知識(shí)推理的分類(lèi)方法采用MapReduce并行架構(gòu)能夠有效地提高大規(guī)模網(wǎng)絡(luò)流量的分類(lèi)效率。 針對(duì)海量、多源、異構(gòu)網(wǎng)絡(luò)流量的分類(lèi),本文結(jié)合了本體和云計(jì)算技術(shù)的優(yōu)勢(shì),提出了一種基于本體的并行網(wǎng)絡(luò)流量分類(lèi)方法。該方法建立在MapReduce并行計(jì)算架構(gòu)之上,結(jié)合網(wǎng)絡(luò)流量本體結(jié)構(gòu),設(shè)計(jì)基于MapReduce的網(wǎng)絡(luò)流量本體構(gòu)建方法,及并行知識(shí)推理的網(wǎng)絡(luò)流量分類(lèi)方法。實(shí)驗(yàn)表明,MapReduce并行處理技術(shù)可以有效地提高網(wǎng)絡(luò)流量本體構(gòu)建的效率及網(wǎng)絡(luò)流量的分類(lèi)效率。下一步我們將研究對(duì)未知網(wǎng)絡(luò)流量的描述以及本體知識(shí)庫(kù)的自我管理與更新,實(shí)現(xiàn)在線(xiàn)的網(wǎng)絡(luò)流量本體并行化構(gòu)建方法和網(wǎng)絡(luò)流量的實(shí)時(shí)并行分類(lèi)方法,以適應(yīng)大規(guī)模復(fù)雜網(wǎng)絡(luò)流量的實(shí)時(shí)、準(zhǔn)確分類(lèi)。 [1] WANG Yu, XIANG Yang, ZHANG Jun, et al. Internet traffic classification using constrained clustering[J]. IEEE Transactions on Parallel and Distributed Systems, 2014,25(11): 2932-2943. [2] CARELA-ESPA?OL V, BARLET-ROS P, MULA-VALLS O, et al. An autonomic traffic classification system for network operation and management[J]. Journal of Network and Systems Management, 2015, 23(3): 401-419. [3] 劉凱鵬, 方濱興.基于社會(huì)性標(biāo)注的本體學(xué)習(xí)方法[J]. 計(jì)算機(jī)學(xué)報(bào), 2010, 33(10): 1823-1834. LIU Kai-peng, FANG Bin-xing. Ontology induction based on social annotations[J]. Chinese Journal of Computers,2010, 33(10): 1823-1834. [4] 陶曉玲, 韋毅, 孔德艷, 等. 基于本體的網(wǎng)絡(luò)流量分類(lèi)方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2016, 37(1): 31-36. TAO Xiao-ling, WEI Yi, KONG De-yan, et al. Network traffic classification method based on ontology[J]. Computer Engineering and Design, 2016, 37(1): 31-36. [5] HAUG P J, FERRARO J P, HOLMEN J, et al. An ontology-driven, diagnostic modeling system[J]. Journal of the American Medical Informatics Association, 2013, 20(e1):e102-e110. [6] OELLRICH A, WALLS R L, CANNON E K S, et al. An ontology approach to comparative phenomics in plants[J]. Plant Methods, 2015, 11(1): 10. [7] AZEVEDO C L B, IACOB M E, ALMEIDA J P A, et al. Modeling resources and capabilities in enterprise architecture: a well-founded ontology-based proposal for archimate[J]. Information Systems, 2015, 54(12): 235-262. [8] EBRAHIMIPOUR V, YACOUT S. Ontology-based schema to support maintenance knowledge representation with a case study of a pneumatic valve[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2015, 45(4):702-712. [9] Gene Ontology Consortium. Gene ontology annotations and resources[J]. Nucleic Acids Research, 2013, 41(D1):D530-D535. [10] ALMENDROS-JIMENEZ J M, DOMENE L, PIEDRAFERNANDEZ J A. A framework for ocean satellite image classification based on ontologies[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2013, 6(2): 1048-1063. [11] ZHANG Xiao-wei, HU Bin, MA Xu, et al. Ontology driven decision support for the diagnosis of mild cognitive impairment[J]. Computer Methods and Programs in Biomedicine, 2013, 113(3): 781-791. [12] PIETRZYK M, JANOWSKI L, URVOY-KELLER G,Toward systematic methods comparison in traffic classification[C]//Wireless Communications and Mobile Computing Conference(IWCMC), 2011 7th International. Istanbul : IEEE, 2011:1022-1027. [13] GU Cheng-jie, ZHANG Shun-yi, XUE Xiao-zhen. Online self-learning internet traffic classification based on profile and ontology[J]. Journal of Convergence Information Technology, 2011, 6(4): 81-91. [14] XIN Jun-chang, WANG Zhi-qiong, CHEN Chen, et al. ELM*: Distributed extreme learning machine with map reduce[J]. World Wide Web, 2014, 17(5): 1189-1204. [15] CHEN Jiao-yan, CHEN Hua-jun, WAN Xiang-yi, et al. MR-ELM: a map reduce-based framework for large-scale elm training in big data era[J]. Neural Computing and Applications, 2016, 27(1): 101-110. [16] Al-KHATEEB T M, MASUD M M, KHAN L, et al. Cloud guided stream classification using class-based ensemble[C]//Proceedings of 2012 IEEE 5th International Conference on Cloud Computing (CLOUD). Honolulu, HI,USA: [s.n.], 2012: 694- 701. [17] SARA DEL RíO, VICTORIA LóPEZ, JOSé MANUEL BENíTEZ, et al. On the use of map reduce for imbalanced big data using random forest[J]. Information Sciences,2014, 258(11): 112-137. [18] 鄭天紅. 基于Hadoop的網(wǎng)絡(luò)流量分流并行化設(shè)計(jì)[D].呼和浩特: 內(nèi)蒙古大學(xué), 2012. ZHENG Tian-hong. Design and Implementation of the parallelization based on hadoop model network traffic diversion[D]. Huhehaote: Inner Mongolia University,2012 . [19] MU Xue-feng, WU Wen-jun. A parallelized network traffic classification based on hidden markov model[C]// Proceedings of 2011 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery. Beijing: [s.n.], 2011: 107-112. [20] DAI Chao-fan, FENG Yang-he, ZHANG Peng-cheng. Retracted article: Research of ontology-based model representation method[C]//Proceedings of 2010 Second International Conference on Information Technology and Computer Science. Kiev, Ukraine: [s.n.], 2010: 364-367. [21] The Apache software foundation. Hadoop[EB/OL].[2015-10-22]. http://hadoop.apache.org/. [22] MOORE A W, ZUEV D. Internet traffic classification using bayesian analysis techniques [EB/OL]. [2015-11-11]. http://www.cl.cam.ac.uk/research/srg/netos/nprobe/data/pa pers/sigmetrics/index.html. 編 輯 蔣 曉 An Ontology Based Parallel Network Traffic Classification Method TAO Xiao-ling1,2, WEI Yi2, and WANG Yong2,3 The contradiction between the processing of mass network traffic data and the computing bottleneck of a single node leads to low efficiency of data classification. To address this challenge, we propose an ontology based parallel network traffic classification method by integrating the advantage of ontology and MapReduce in dealing with the description and processing of mass heterogeneous data. Our approach makes use of MapReduce, a framework of parallel computing. Firstly, it uses the ontology to describe and manage network traffic data, and constructs the layered and parallel network traffic ontology. Then it builds the classification model by employing the decision tree algorithm, by which the inference rule set is generated. Network traffic classification based on traffic statistical features is completed by utilizing parallel knowledge reasoning. Implementation results show that data classification efficiency of the proposed approach in group environment is higher than in stand-alone scenario. The speedup ratio increases linearly when increasing the quantity of compute nodes. In addition, the new method is able to improve the classification efficiency of large-scale network traffic significantly. knowledge reasoning; MapReduce; network traffic classification; ontology; parallelization TP393 A 10.3969/j.issn.1001-0548.2016.02.0018 2015 - 11 - 21; 2016 - 03 - 15 國(guó)家自然科學(xué)基金(61163058, 61363006);廣西可信軟件重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題(KX201306);廣西高校云計(jì)算與復(fù)雜系統(tǒng)重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題(14104) 陶曉玲(1977 - ),女,副研究員,主要從事云計(jì)算、網(wǎng)絡(luò)安全及機(jī)器學(xué)習(xí)方面的研究.3 基于知識(shí)推理的并行分類(lèi)方法
4 實(shí)驗(yàn)與結(jié)果分析
5 結(jié) 束 語(yǔ)
(1. Key Laboratory of Cognitive Radio and Information Processing, Guilin University of Electronic Technology Guilin Guangxi 541004;2. Guangxi Colleges and Universities Key Laboratory of Cloud Computing and Complex Systems,Guilin University of Electronic Technology Guilin Guangxi 541004;3. Guangxi Key Laboratory of Trusted Software, Guilin University of Electronic Technology Guilin Guangxi 541004)