黃琳凱
【摘要】 早期,有人就提議了一個可以避免因為人多導(dǎo)致流量受到干擾的方法,就是實時監(jiān)控,并對流量進行分類的方法,這種方法在最早的時候才用的是DPI技術(shù)進行對信息流的分類,這為以后的聚類算法起到了奠基的作用,通過對OPTICS聚類算法思想的應(yīng)用,使用數(shù)據(jù)點的個數(shù)對流量進行稠密程度劃分,以此來完善信息的聚類,并有針對性的對各個用戶提供相應(yīng)的服務(wù)。
【關(guān)鍵詞】 OPTICS 聚類算法 網(wǎng)絡(luò)流量
引言:隨著科技的逐漸發(fā)展,越來越多的人們開始走向互聯(lián)網(wǎng)時代,隨之而來的是網(wǎng)絡(luò)業(yè)務(wù)的繁多。為了能提高網(wǎng)絡(luò)的服務(wù)質(zhì)量和服務(wù)的速度,更多的研究與如何構(gòu)建客戶關(guān)心的服務(wù)為起點的新型的網(wǎng)絡(luò)構(gòu)架。不一樣的業(yè)務(wù)內(nèi)容,需要不同的服務(wù)水平,而網(wǎng)絡(luò)流量是對客戶的運動進行記錄和報告的重要的一項東西。進行流量分類的研究,可以讓網(wǎng)絡(luò)的每個業(yè)務(wù)內(nèi)容有不一樣的服務(wù)內(nèi)容,這樣可以使網(wǎng)絡(luò)或者某些系統(tǒng)進行快速的業(yè)務(wù)布置,以此提高網(wǎng)絡(luò)的承受能力,同時改變網(wǎng)絡(luò)的服務(wù)質(zhì)量。
一、OPTICS算法
本文首先將域數(shù)據(jù)流特點有關(guān)系的信息相結(jié)合,然后在對其采取方案,但是各個網(wǎng)絡(luò)流的內(nèi)容不同,那么在對其進行分析的時候要將數(shù)據(jù)包的特征進行檢測,就會發(fā)現(xiàn)不同的數(shù)據(jù)包流量。根據(jù)上述的一些特點,在對數(shù)據(jù)包進行抽選的時候,選擇深度的檢測進行識別。根據(jù)圖1所示,要想獲得更多的特點向量,就要使用OPTICS算法進行聚類,然后對無法識別的數(shù)據(jù)更具聚類算法將其分類到相應(yīng)的業(yè)務(wù)當(dāng)中。
二、改進的OPTICS算法
1、改進算法思想。OPTICS聚類算法不是根據(jù)參數(shù)值進行運算,而是對數(shù)據(jù)對象的順序進行排列,在每一個業(yè)務(wù)當(dāng)中,數(shù)據(jù)都根據(jù)核心距離和可達距離進行排列,在依據(jù)其數(shù)據(jù)點的稠密度進行聚類,這樣可以完成自動與互動的聚類解析。這種算法的對象是隨機篩選的,以他為起點,朝著最密集的地方發(fā)展,最后將所有的數(shù)據(jù)排列整齊。以O(shè)PTICS算法收藏對象的核心距離以及可達距離,隨機聚類,然后根據(jù)這些的參數(shù)金額Min P ts不敏感進行收集。在這種策略的奠基上,對對流量特點進行算法的調(diào)整,由此形成了OPTICS聚類算法。根據(jù)第一個數(shù)據(jù)流為基礎(chǔ),計算一他未開始向后的所有數(shù)據(jù)流與第一個特征向量的可達距離,并確定數(shù)據(jù)點的方位;同時記錄距離基礎(chǔ)點的每個數(shù)據(jù)位置,經(jīng)過這些計算之后,將相同距離的數(shù)據(jù)流放到一起,在將其他的有落差的放在一起。
2、算法步驟。提取完信息流之后,根據(jù)其產(chǎn)生的向量,類似一個空間的數(shù)據(jù)點,通過它對OPTICS進行改進,如圖2所示。1.將向量作為開始,和核心。2.計算新的數(shù)據(jù)流的流向特征向量和基本點的向量之間的可達到距離,運用公式對其僅從確定距離的遠近,設(shè)流量數(shù)據(jù)點Q的方向,是據(jù)點根據(jù)原始點的距離遠近進行從低到高的排列順序,并用公式對其進行向量距離的記錄;3.同時運用數(shù)組CUN{N11,N12...},N11表示激勵原始點的最近的激勵的特向向量的數(shù)量,N12是代表原始點的近距離的特征向量的數(shù)量;4.參考最開始的原始點數(shù)的DPI的聚類個數(shù),對CUN{N11,N12...}進行分析,并確認(rèn)和記錄他的臨界點。5.分別計算臨界點和相鄰的兩種相差的數(shù),然后在進行分析,對于邊緣點的類似程度的大小進行分類,以此來完成聚類。選擇每個聚類的中心數(shù)據(jù)點,并在該點上的最小數(shù)放到這個數(shù)據(jù)點上,到達完整的覆蓋。
三、實驗結(jié)果
為了證明這回總算發(fā)的實用性,在不同的時間和地點利用Netmate工具收集運營網(wǎng)絡(luò)中的數(shù)據(jù)流,整理看多有完整的數(shù)據(jù)包的采集,Netmata工具可以算出屬性特征,把相同的IP地址、源代碼、目的地址/端號口等進行分組,分到一起形成1個流,然后運用DPI技術(shù)對采集到的數(shù)據(jù)進行識別。
針對這三組數(shù)據(jù),可以看出具體的業(yè)務(wù)流70.63%、61.48%、85%,無負載的流量分別占總流量的16.7%、25.1%\9.63%;識別不出的業(yè)務(wù)分別占總流量的8.36%、13.48%、9.64%,還有些業(yè)務(wù)是無法識別的,對其進行了加密。
從表2看出,DPI的初次檢測,大部分的信息流都是可以確認(rèn)的類型,但是對于加密的數(shù)據(jù)流量還是沒有辦法查看,但是運用了聚類算法之后就可以對其分類,OPTICS聚類算法可以進行分類和改進,下面的表3、4是運用聚類算法后的答案,通過這兩個表格可以看出改進后的OPTICS一種算法上有所提高。
結(jié)論:本文運用的方法是之前使用過的DPI技術(shù),他對數(shù)據(jù)流進行檢測識別,然后進行辨別數(shù)據(jù)流的業(yè)務(wù)類型,為以后的聚類個數(shù)進行指導(dǎo)。對未識別的數(shù)據(jù)流,通過OPTICS算法進行聚類,從而對無法識破的數(shù)據(jù)流的業(yè)務(wù)類型進行識別,到該方法的最后階段,聚類算法不在因為人為因素和之前的聚類中心和數(shù)據(jù)順序的干擾。這個方法在之前的識別業(yè)務(wù)類別的時候可以為以后的聚類有個良好的奠基,還能檢查出這種方法的有效性和穩(wěn)定性。
參 考 文 獻
[1]張建偉 王玲艷 姚云磊 一種基于OPTICS聚類的流量分類算法[J] 2012.11
[2]邱密 陽愛民 劉永定 使用貝葉斯學(xué)習(xí)算法分類網(wǎng)絡(luò)流量[J]計算機工程與應(yīng)用2010.05
[3]李衛(wèi) 邊江 王盈 動態(tài)網(wǎng)絡(luò)流量分類研究[J]電子科技大學(xué)學(xué)報 2007.12