姜明星,王 璽,郭忠文,王進(jìn)新
(1.中國海洋大學(xué)基礎(chǔ)教學(xué)中心,山東 青島 266100;2.中國海洋大學(xué)信息科學(xué)與工程學(xué)院,山東 青島 266100)
隨著以IEEE802.11為代表的無線通信技術(shù)的發(fā)展,WiFi相關(guān)的無線設(shè)備逐步滲透到人類社會的每個角落,生活中無線設(shè)備的種類和數(shù)量也隨之迅速增長。這些無線設(shè)備只要處于開機(jī)狀態(tài)并且打開了WiFi開關(guān),就會一直發(fā)送WiFi數(shù)據(jù)包,我們?nèi)粘I钏幍沫h(huán)境里充斥著無數(shù)這樣的數(shù)據(jù)包。與之而來的一個問題就是日益增長的無線網(wǎng)絡(luò)流量,無線設(shè)備的網(wǎng)絡(luò)流量將在2019年超過有線設(shè)備,占據(jù)所有IP流量的66%,這一數(shù)字比2013年幾乎翻了一倍,彼時只有33%的網(wǎng)絡(luò)流量來自無線設(shè)備[1]。
基于這些原因,學(xué)術(shù)界對無線設(shè)備尤其是WiFi設(shè)備的研究熱情從未消減,關(guān)于WiFi設(shè)備網(wǎng)絡(luò)流量的跟蹤和分析更是引起了眾多研究者的興趣。同時由于WiFi設(shè)備種類繁多,不同類型設(shè)備的技術(shù)參數(shù)和物理特性各不相同:如設(shè)備大小、是否有穩(wěn)定電源、電池容量、操作系統(tǒng)等,這導(dǎo)致它們對應(yīng)的網(wǎng)絡(luò)流量也不盡相同,因此對網(wǎng)絡(luò)流量模型的分析要基于特定的設(shè)備類型才有意義[2]。了解WiFi設(shè)備的類型、跟蹤分析不同設(shè)備類型的網(wǎng)絡(luò)流量模型,這樣才能更好的優(yōu)化網(wǎng)絡(luò)配置,提供更有針對性的網(wǎng)絡(luò)增值服務(wù)[3-5]。目前對WiFi信號的監(jiān)測方法主要有兩種:一種是利用專用的探測設(shè)備主動監(jiān)測,另外一種是非侵入的被動監(jiān)測。主動監(jiān)測方面,一些研究利用beacon節(jié)點進(jìn)行室內(nèi)行人或WiFi設(shè)備的定位跟蹤,但部署beacon節(jié)點成本較高[6-7]。于是人們轉(zhuǎn)向了對WiFi信號被動監(jiān)測的研究。
文獻(xiàn)[8]通過WiFi被動監(jiān)測,融合WiFi信號、手機(jī)傳感器以及室內(nèi)拓?fù)溥M(jìn)行室內(nèi)行人的導(dǎo)航。文獻(xiàn)[9]和文獻(xiàn)[3]分別利用了WiFi通信時的探測請求幀和信道狀態(tài)信息來評估人群擁擠程度。文獻(xiàn)[10]通過采集包含在Probe幀里的SSID(Service Set Identifier)列表信息構(gòu)建指紋庫,以此判斷兩個設(shè)備的用戶是否存在社會關(guān)系。文獻(xiàn)[11]和文獻(xiàn)[12]都采用了相似的方法分析基于用戶行為的時空相似度,進(jìn)而推測用戶之間的社交關(guān)系。文獻(xiàn)[13]構(gòu)建了一個可以在超市賣場實現(xiàn)對用戶按游覽區(qū)域分類的系統(tǒng)GruMon,該系統(tǒng)主要利用了手機(jī)自帶傳感器的數(shù)據(jù),如重力加速度傳感器、指南針、氣壓計等,這篇文獻(xiàn)做的工作與本文的設(shè)備分類有相似之處,但本文主要關(guān)注的是WiFi被動監(jiān)測的數(shù)據(jù),這種分類方式無需從用戶手機(jī)上獲取相關(guān)的傳感器信息,是一種非入侵、低成本的方法。文獻(xiàn)[14]通過長時間被動監(jiān)測手機(jī)WiFi通信中的參數(shù)來發(fā)現(xiàn)用戶發(fā)生的地點相關(guān)事件,進(jìn)而推測他們的社交關(guān)系,文中采集數(shù)據(jù)的方式及處理的數(shù)據(jù)與本文中比較相似,但本文更關(guān)注設(shè)備的分類及設(shè)備之間的關(guān)系。本文提出了一種基于非入侵WiFi信號監(jiān)測的設(shè)備自動分類機(jī)制,該機(jī)制可以快速準(zhǔn)確的識別設(shè)備類型。
通過普通的WiFi探測工具可以不間斷的獲取設(shè)備無線通信中的相關(guān)信息,比如接收信號強(qiáng)度RSS、發(fā)送設(shè)備(源)MAC地址、時間戳等。我們把這些可以長期獲取并且穩(wěn)定可靠的通訊參數(shù)記錄下來,分析特定設(shè)備在一定時間范圍內(nèi)的接收信號強(qiáng)度變化趨勢和規(guī)律,提取每類設(shè)備的特征,用于構(gòu)建相應(yīng)的特征向量,再使用監(jiān)督學(xué)習(xí)的方法訓(xùn)練不同的分類器,從而實現(xiàn)諸多不同類型設(shè)備的分類。圖1是一個手機(jī)、一臺筆記本電腦和一臺無線路由器一天接收信號強(qiáng)度的變化圖,不難看出這三種設(shè)備每天的接收信號強(qiáng)度變化趨勢是不一樣的并且有一些各自獨有的特征。
圖1 三種典型WiFi設(shè)備每日接收信號強(qiáng)度變化圖Fig.1 Daily RSS variations of 3 typical WiFi devices
由于WiFi探測設(shè)備只能獲取附近一定范圍內(nèi)的無線設(shè)備信號,所以監(jiān)測范圍內(nèi)的無線設(shè)備數(shù)量,在不同時間段內(nèi)也不盡相同。我們關(guān)注的是那些持續(xù)且穩(wěn)定的無線信號,即那些經(jīng)常出現(xiàn)在監(jiān)測范圍內(nèi)的設(shè)備,為此我們專門設(shè)計一個過濾器來篩選出這些“??汀薄o線設(shè)備篩選工作是基于對設(shè)備長期監(jiān)測數(shù)據(jù)的分析,圖2顯示了訪客和??鸵恢軆?nèi)的在線情況(即有信號的時段),訪客對應(yīng)的在線時間明顯少于???。實際篩選時,我們統(tǒng)計每個設(shè)備接收信號強(qiáng)度的平均值、設(shè)備累計在線天數(shù)和設(shè)備每天在線時長,具體統(tǒng)計規(guī)則為:
圖2 一周時間內(nèi)各類設(shè)備的在線情況圖Fig.2 Active span for different devices during a week
(1)接收信號強(qiáng)度均值:統(tǒng)計某設(shè)備在所有監(jiān)測時間內(nèi)接收信號強(qiáng)度的平均值。
(2)在線天數(shù):如果一天之內(nèi)監(jiān)測到來自某設(shè)備的信號,則該設(shè)備當(dāng)天在線。
(3)在線時長:如果在連續(xù)的5 min之內(nèi)監(jiān)測到了某設(shè)備的信號,則認(rèn)為該設(shè)備這5 min在線,以此5 min為單位,統(tǒng)計該設(shè)備一天的累計在線時長。
根據(jù)經(jīng)驗,我們會篩除那些統(tǒng)計周期內(nèi)累計在線天數(shù)小于5天和每天在線時長小于5 min的設(shè)備,因為這些數(shù)據(jù)基本來自于那些不經(jīng)常出現(xiàn)在監(jiān)測范圍內(nèi)的設(shè)備,設(shè)備對應(yīng)的用戶也很可能是一些訪客。此外,我們還會篩除那些接收信號強(qiáng)度平均值小于-110 dB的設(shè)備,因為這些設(shè)備即使能長期獲取監(jiān)測數(shù)據(jù),但是由于距離監(jiān)測設(shè)備太遠(yuǎn),接收信號強(qiáng)度變化規(guī)律不明顯,很難提取有效特征。
盡管部分無線WiFi設(shè)備的類型,可以通過調(diào)用網(wǎng)上一些基于MAC地址的查詢服務(wù)來獲取,但實際上大多數(shù)的設(shè)備類型信息并不能據(jù)此方法準(zhǔn)確得出,究其原因大致有兩種情況:(1)部分設(shè)備制造商沒有對他們不同類型的產(chǎn)品采用特定的MAC地址分類策略;(2)另外一些設(shè)備制造商出于商業(yè)保密的考慮故意混淆或隱藏他們的MAC地址分類策略。所以要實現(xiàn)準(zhǔn)確的無線設(shè)備類型分類,完全依靠網(wǎng)上現(xiàn)有的查詢服務(wù)無法實現(xiàn)。
本節(jié)主要通過分析長期監(jiān)測的無線設(shè)備的信號數(shù)據(jù),提取不同類型設(shè)備的特征,使用機(jī)器學(xué)習(xí)的方法,完成設(shè)備分類。這種方法的好處是不需要主動讀取無線設(shè)備的數(shù)據(jù)即可完成高精度的分類。這里我們根據(jù)WiFi無線設(shè)備的特征,把它們分成3類:智能手機(jī)類Mobile Phone,簡稱MP類;筆記本或平板電腦LapTop,簡稱LT類;和靜止的WiFi設(shè)備Stationary Machine,如無線路由器或使用WiFi聯(lián)網(wǎng)的臺式機(jī),簡稱SM類。
本節(jié)提到的三種WiFi設(shè)備,來自相同類型設(shè)備的數(shù)據(jù)包在很多方面是相似的?;诖耍覀兎治鎏崛∶糠N類型設(shè)備的特征用于對設(shè)備分類,主要特征如下:
2.1.1 在線率 統(tǒng)計每個MAC地址對應(yīng)的設(shè)備每天的在線率α。在線率即每天累計在線時間除以24 h,如公式1所示。我們截取了兩周時間的監(jiān)測數(shù)據(jù)計算三種設(shè)備的在線率。如圖3所示,可以看出,不同類型設(shè)備的在線率存在明顯差異,對于靜止的無線設(shè)備(SM類),它們的在線率一般接近100%,而其他兩類設(shè)備在線率一般在40%~60%之間。在線時間To的統(tǒng)計方法為:以5 min為單位,監(jiān)測是否收到該設(shè)備的數(shù)據(jù)包,如果收到則記該設(shè)備這5 min在線,否則記為離線。以此統(tǒng)計設(shè)備一天(24 h,即288個單位時間)的在線時間。如公式2所示,pi代表第i個時間段內(nèi),設(shè)備是否在線,其值為0或1。
圖3 兩周時間內(nèi)各類設(shè)備的在線率情況Fig.3 Daily online rate of different devices during 2 weeks
α=To/288。
(1)
(2)
2.1.2 接收信號強(qiáng)度(RSS) 接收信號強(qiáng)度反映了探測設(shè)備接收到數(shù)據(jù)包的能量,主要和發(fā)送方與接收方的距離有關(guān),還有一些其他因素,諸如是否存在障礙物、天線角度等??梢灶A(yù)見地,可移動無線設(shè)備接收信號強(qiáng)度在時域的波動率一般要高于筆記本電腦類的,而這兩類無線設(shè)備的波動率要高于那些靜止的WiFi設(shè)備。我們引入接收信號強(qiáng)度的標(biāo)準(zhǔn)差σr和極差R作為分類特征,具體計算方法有如下公式:
(3)
R=rmax-rmin。
(4)
圖4 三類設(shè)備接收信號強(qiáng)度標(biāo)準(zhǔn)差CDFFig.4 CDF of the standard deviation of the RSS for different devices
(5)
(6)
這里記來自同一設(shè)備的數(shù)據(jù)包的接收時間為序列T={t1,t2,…,tN},則數(shù)據(jù)包間隔pi=ti+1-ti,考慮到一天內(nèi)手機(jī)和筆記本電腦的數(shù)據(jù)包或有間斷,當(dāng)實際計算發(fā)送周期的均值和標(biāo)準(zhǔn)差時,過濾掉相鄰時間點間隔大于5 min的數(shù)據(jù)點。
由于提取的三類設(shè)備的特征并非各自獨立,為了達(dá)到更好的分類效果,本文采用層次化分類方法,具體過程為:首先設(shè)計靜態(tài)設(shè)備(SM、LT類)和移動設(shè)備(MP類)分類器,用于識別數(shù)據(jù)樣本來源于靜態(tài)設(shè)備(無線路由設(shè)備)還是移動設(shè)備(手機(jī)、筆記本電腦);然后在第一次分類的基礎(chǔ)上對移動設(shè)備進(jìn)行二次分類,設(shè)計用于識別數(shù)據(jù)樣本是手機(jī)還是筆記本電腦的分類器。針對兩次分類,分別選擇不同的特征構(gòu)建特征向量。實驗證明這種層次化分類方法比直接對無線設(shè)備進(jìn)行三分類的平均準(zhǔn)確率要高。
本實驗通過WiFi探針進(jìn)行數(shù)據(jù)采集,采集地點為普通房間,房間內(nèi)有若干辦公臺位。以天為單位,進(jìn)行數(shù)據(jù)采集并存儲。采集持續(xù)32 d,記錄采集時間、MAC地址以及接收信號強(qiáng)度,本次采集原始數(shù)據(jù)共計5 218條。進(jìn)行分析前,首先對數(shù)據(jù)進(jìn)行了過濾,過濾標(biāo)準(zhǔn)如下:保留以天為單位的完整數(shù)據(jù)(全天只有一類設(shè)備的數(shù)據(jù)、全天沒有數(shù)據(jù)、全天只有半天的數(shù)據(jù),以上這三種類型的數(shù)據(jù)去除),過濾后剩余數(shù)據(jù)666條。經(jīng)過數(shù)據(jù)預(yù)處理階段,得到最終的實驗樣本共計369條。
樣本標(biāo)簽設(shè)置:第一次分類:0表示無線路由器,1表示手機(jī)和筆記本;第二次分類:2表示筆記本,3表示手機(jī)。
訓(xùn)練平臺:采用Matlab R2016a以及其軟件自帶分類工具箱,參數(shù)默認(rèn),并采用十折交叉驗證方式。
3.2.1 層次化分類 每次選用不同特征集對標(biāo)簽數(shù)據(jù)進(jìn)行分類,最后得出層次化分類的平均準(zhǔn)確率。訓(xùn)練算法:Fine Gaussian SVM(FG-SVM),Cubic KNN(C-KNN),Simple Tree(S-Tree),Linear Discriminant(LD)。
第一次分類實驗:
(1) 本次實驗主要對過濾后樣本集進(jìn)行訓(xùn)練,從而實現(xiàn)靜態(tài)設(shè)備和移動設(shè)備的分類。實驗使用了5個特征,分別為時間在線率(Online Time Rate,OTR),信息發(fā)送時間間隔的平均值(Average Sending Time Interval,A-STI),信息發(fā)送時間間隔的標(biāo)準(zhǔn)差(Sending Time Interval Standard Deviation,STI-SD),接收信號強(qiáng)度的標(biāo)準(zhǔn)差(RSS Standard Deviation,RSS-SD),接收信號強(qiáng)度的極差(RSS Range,RSSR)。
(2) 將得到的全部設(shè)備的上述特征以及標(biāo)簽文件導(dǎo)入到Matlab R2016a中,進(jìn)行分類。
(3) 在分類的過程中,首先進(jìn)行特征驗證,單個特征對應(yīng)的分類準(zhǔn)確率如表1所示。
表1 單個特征驗證結(jié)果Table 1 Verification results of single feature
從表中可以看出,分類用到的五個特征準(zhǔn)確率均達(dá)到70%以上,可見所選特征都是有效特征。接下來使用這五個特征構(gòu)建特征向量進(jìn)行分類,結(jié)果如表2所示。
表2 五個特征驗證結(jié)果Table 2 Verification results of all features
第二次分類實驗:
(4)針對第一次分類中被歸類為移動設(shè)備的數(shù)據(jù)集進(jìn)行再訓(xùn)練,以實現(xiàn)手機(jī)和筆記本電腦的分類。這次實驗使用了另外5個特征,分別為信息發(fā)送時間間隔的平均值(Average Sending Time Interval,A-STI)、信息發(fā)送時間間隔的標(biāo)準(zhǔn)差(Sending Time Interval Standard Deviation,STI-SD),時間間隔標(biāo)準(zhǔn)差/時間間隔平均值(STI-SD/A-STI),接收信號強(qiáng)度的標(biāo)準(zhǔn)差(RSS Standard Deviation,RSS-SD),接收信號強(qiáng)度的極差(RSS Range,RSSR)。
(5)將得到的全部設(shè)備的上述特征以及標(biāo)簽文件導(dǎo)入到Matlab R2016a中,進(jìn)行分類。
(6)在分類的過程中,首先進(jìn)行特征驗證,單個特征驗證對應(yīng)的分類準(zhǔn)確率如表3所示。
表3 單個特征驗證結(jié)果(第二次分類)Table 3 Verification results of single feature in the second classification
從表中可以看出,分類用到的五個特征準(zhǔn)確率均達(dá)到70%以上,所選特征即為有效特征。接下來使用這個5個特征構(gòu)建特征向量進(jìn)行二次分類,結(jié)果如表4所示。
表4 五個特征驗證結(jié)果(第二次分類)Table 4 Verification results of all featuresin(the second classification)
由于樣本數(shù)據(jù)不均衡,因此本工作采用平均準(zhǔn)確率作為本文分類工作的評價標(biāo)準(zhǔn),在兩次實驗的基礎(chǔ)上,求出平均準(zhǔn)確率,具體的方法如下:
(1) 第二次實驗手機(jī)分類準(zhǔn)確率=提取出手機(jī)的準(zhǔn)確條數(shù)/提取出手機(jī)的總條數(shù)。
(2) 第二次實驗筆記本電腦分類準(zhǔn)確率=提取出筆記本電腦的準(zhǔn)確條數(shù)/提取出筆記本電腦的總條數(shù)。
(3)第一次實驗移動設(shè)備分類準(zhǔn)確率=提取出移動設(shè)備的準(zhǔn)確條數(shù)/提取出移動設(shè)備的總條數(shù)。
(4)第一次實驗無線路由器分類準(zhǔn)確率=提取出無線路由器的準(zhǔn)確條數(shù)/提取出無線路由器的總條數(shù)。
(5)平均準(zhǔn)確率=((第二次實驗手機(jī)分類準(zhǔn)確率+第二次實驗筆記本電腦分類準(zhǔn)確率)*第一次實驗移動設(shè)備分類準(zhǔn)確率+第一次實驗無線路由器分類準(zhǔn)確率)/3。
在此過程中,分別使用SVM、KNN、Decision Tree(DT)、Discriminant Analysis(DA)等算法進(jìn)行了平均準(zhǔn)確率的計算,其結(jié)果如表5所示。
表5 層次化分類平均準(zhǔn)確率Table 5 Average accuracy of hierarchical classification
3.2.2 層次化分類有效性驗證 為了驗證本文提出的層次化分類策略,現(xiàn)將層次化分類中兩次分類用到特征的并集作為三分類算法的特征集,使用和層次化分類相同的數(shù)據(jù)集合,逐一訓(xùn)練分類得出每種三分類算法的平均準(zhǔn)確率,這里平均準(zhǔn)確率等于三種設(shè)備準(zhǔn)確率的平均值(見表6)。
表6 三分類及層次化分類平均準(zhǔn)確率Table 6 Average accuracy of 3-class classification and hierarchical classification
從上表可見使用本文提出的層次化分類機(jī)制,不論采用哪種分類算法,都能得到更高的平均準(zhǔn)確率。
本文通過對無線通信技術(shù)中最常見的WiFi接收信號強(qiáng)度的長期非入侵式監(jiān)測,探究具體無線設(shè)備的物理屬性,應(yīng)用機(jī)器學(xué)習(xí)的成熟算法,實現(xiàn)了無線設(shè)備的識別及分類。本文提出的設(shè)備類型識別機(jī)制可以應(yīng)用在無線網(wǎng)絡(luò)負(fù)載分析、網(wǎng)絡(luò)部署優(yōu)化等方面,有助于部署更具個性化的無線網(wǎng)絡(luò)增值服務(wù)。本文的工作為今后無線網(wǎng)絡(luò)的管理優(yōu)化提供了必要條件,為探索物聯(lián)網(wǎng)設(shè)備間的關(guān)聯(lián)性做出了有益嘗試。