張 立,汪卓越,王春東,馬云飛,向朝參
(1.重慶工商大學(xué) 融智學(xué)院,重慶 401320; 2.天津理工大學(xué) 教育部計(jì)算機(jī)視覺與系統(tǒng)省部共建重點(diǎn)實(shí)驗(yàn)室,天津 300384;3.陸軍后勤部 戰(zhàn)勤計(jì)劃局,北京 100043; 4.重慶大學(xué) 計(jì)算機(jī)學(xué)院,重慶 400044)
隨著物聯(lián)網(wǎng)技術(shù)及應(yīng)用的迅猛發(fā)展,物聯(lián)網(wǎng)本身的安全問題也日趨嚴(yán)峻。物聯(lián)網(wǎng)安全涉及感知、傳輸與應(yīng)用等多級層次,包含感知安全[1]、節(jié)點(diǎn)安全[2]、傳輸安全[3]、防御安全[4]、邊緣安全[5]等諸多內(nèi)容,各層級的安全防御技術(shù)共同構(gòu)筑物聯(lián)網(wǎng)的整體安全防御體系。
作為物聯(lián)網(wǎng)整體安全態(tài)勢感知與安全體系構(gòu)建的基礎(chǔ),感知層的物聯(lián)網(wǎng)終端智能識別尤為關(guān)鍵。形態(tài)各異的設(shè)備、模塊以獨(dú)立或嵌入式方式接入物聯(lián)網(wǎng),感知并響應(yīng)環(huán)境變化,統(tǒng)稱為物聯(lián)網(wǎng)終端。不同于傳統(tǒng)Internet主機(jī),物聯(lián)網(wǎng)終端形態(tài)的多樣性、特征的復(fù)雜性,使得智能識別成為難題[6]。
黑客們往往利用非法接入的物聯(lián)網(wǎng)終端攻擊或入侵服務(wù)器與其他合法設(shè)備,從而挑戰(zhàn)整個(gè)物聯(lián)網(wǎng)安全體系[7-8]。
傳統(tǒng)物聯(lián)網(wǎng)終端易仿冒的根源在于終端識別信息的靜態(tài)性。常規(guī)的物流網(wǎng)終端識別方案通常采用設(shè)備ID、用戶ID、IP地址、媒體訪問控制(media access control,MAC)地址等信息進(jìn)行識別。設(shè)備ID、用戶ID的靜態(tài)性,IP地址、MAC地址的開放性,均使得上述識別信息容易被黑客掃描、讀取并仿冒。設(shè)備指紋[9]將靜態(tài)的設(shè)備信息與動(dòng)態(tài)的用戶行為數(shù)據(jù)結(jié)合,構(gòu)造了更為動(dòng)態(tài)復(fù)雜的標(biāo)識信息組合,為物聯(lián)網(wǎng)智能終端的準(zhǔn)確識別提供了新的思路。例如,將IP地址、操作系統(tǒng)版本、端口狀態(tài)、入網(wǎng)位置等信息組合即構(gòu)成了一種動(dòng)態(tài)的、標(biāo)識設(shè)備當(dāng)前狀態(tài)的設(shè)備指紋。
設(shè)備指紋引入了動(dòng)態(tài)性,同時(shí)也引入了設(shè)備識別的復(fù)雜性,即一種設(shè)備可能在不同時(shí)刻對應(yīng)著不同的設(shè)備指紋實(shí)例,并隨時(shí)可能產(chǎn)生新的設(shè)備指紋實(shí)例。因此,傳統(tǒng)的以服務(wù)器端數(shù)據(jù)庫靜態(tài)標(biāo)識記錄對比進(jìn)行設(shè)備識別的方法失去了效用,需要開發(fā)新的設(shè)備識別技術(shù),該技術(shù)應(yīng)該包括設(shè)備指紋實(shí)例的自動(dòng)萃取與設(shè)備指紋的智能分類功能。機(jī)器學(xué)習(xí)為建立在已知數(shù)據(jù)集上的分類識別問題提供了方法參考,尤其是決策樹、邏輯回歸與樸素貝葉斯等機(jī)器學(xué)習(xí)算法,為物聯(lián)網(wǎng)設(shè)備指紋數(shù)據(jù)的訓(xùn)練,分類器的構(gòu)建以及分類預(yù)測提供了依據(jù)。采用Nmap掃描方法萃取物聯(lián)網(wǎng)終端指紋,以其為基礎(chǔ),利用基于機(jī)器學(xué)習(xí)的智能分類器,即可為物聯(lián)網(wǎng)終端識別提供一種相對安全且高效的智能識別方案。
針對物聯(lián)網(wǎng)終端指紋的自動(dòng)萃取與智能分類問題,文章建立了一種基于機(jī)器學(xué)習(xí)的物聯(lián)網(wǎng)終端智能識別系統(tǒng)。該系統(tǒng)以物聯(lián)網(wǎng)終端指紋為識別基礎(chǔ),其業(yè)務(wù)流程貫穿終端檢測、模型訓(xùn)練以及智能識別等功能模塊,較好支持了物聯(lián)網(wǎng)終端的智能識別。其中,模型訓(xùn)練模塊分別采用了決策樹方法、邏輯回歸方法與樸素貝葉斯算法進(jìn)行分類器訓(xùn)練。最后,應(yīng)用Python語言實(shí)現(xiàn)實(shí)驗(yàn)系統(tǒng)并進(jìn)行數(shù)據(jù)仿真與對比分析。
本文是對物聯(lián)網(wǎng)終端智能識別問題的系統(tǒng)性求解研究,主要工作包括:①利用設(shè)備指紋的概念對物聯(lián)網(wǎng)終端的屬性特征進(jìn)行定義與標(biāo)識;②利用Nmap掃描方法自動(dòng)采集物聯(lián)網(wǎng)終端設(shè)備指紋;③分別利用決策樹、邏輯回歸與樸素貝葉斯等方法對分類器進(jìn)行設(shè)計(jì)與數(shù)據(jù)仿真;④構(gòu)建了物聯(lián)網(wǎng)終端智能識別系統(tǒng)。由于將設(shè)備指紋與機(jī)器學(xué)習(xí)方法結(jié)合以解決物聯(lián)網(wǎng)終端智能識別的文獻(xiàn)還相對稀少,未曾檢索到基于機(jī)器學(xué)習(xí)的物聯(lián)網(wǎng)終端智能識別系統(tǒng)的具體設(shè)計(jì)與實(shí)現(xiàn),因此,本研究具有領(lǐng)域應(yīng)用的創(chuàng)新性與實(shí)用性。
當(dāng)前對于物聯(lián)網(wǎng)終端的智能識別問題已經(jīng)引起了國內(nèi)外學(xué)者的關(guān)注,主要包括基于設(shè)備靜態(tài)標(biāo)識的識別方法和基于設(shè)備指紋的識別方法,如表1。
基于設(shè)備靜態(tài)標(biāo)識的識別方法主要是指利用設(shè)備的某個(gè)或某些唯一標(biāo)識作為特征進(jìn)行識別,如IP地址、MAC地址、設(shè)備ID等。鄒宇馳等[10]從物聯(lián)網(wǎng)設(shè)備協(xié)議分析的角度,從設(shè)備協(xié)議搜索的過程中提取產(chǎn)品屬性信息,構(gòu)建了包含物聯(lián)網(wǎng)設(shè)備靜態(tài)屬性的信息庫,并提出了對具體設(shè)備進(jìn)行分級識別和標(biāo)定的方法。任春林等[11]從Web協(xié)議特征分析的角度,利用信息增益模型提取特定類型終端的設(shè)備標(biāo)識特征,并利用正樣本和無標(biāo)記樣本的機(jī)器學(xué)習(xí)方法(positive and unlabeled learning, PUL)進(jìn)行設(shè)備的識別與分類?;谠O(shè)備靜態(tài)標(biāo)識的識別方法因?yàn)殪o態(tài)的、相對簡單的終端標(biāo)識,存在被黑客分析、仿冒或篡改的安全風(fēng)險(xiǎn)。
表1 當(dāng)前研究與本文工作的比較
為了解決上述問題,基于設(shè)備指紋的識別方法被提出,即將多種標(biāo)識信息組合以提高身份仿冒的壁壘。Lin等[9]提出了設(shè)備指紋思想并應(yīng)用產(chǎn)品動(dòng)態(tài)屬性集建立了設(shè)備指紋實(shí)例。肖清旺等[12]分析了現(xiàn)有安全機(jī)制中設(shè)備標(biāo)識過于簡單而極易被盜用身份的現(xiàn)象,提出了利用設(shè)備特征集合的識別策略與識別步驟,建立了物聯(lián)網(wǎng)智能終端特征集合。由于設(shè)備指紋遠(yuǎn)比靜態(tài)設(shè)備ID復(fù)雜多樣且具有動(dòng)態(tài)性,其智能識別的難度更大,如何自動(dòng)采集設(shè)備指紋并進(jìn)行智能分類以識別物聯(lián)網(wǎng)終端成為了難題。機(jī)器學(xué)習(xí)為物聯(lián)網(wǎng)終端的自動(dòng)分類提供了新的思路。Meidan等[13]通過網(wǎng)絡(luò)數(shù)據(jù)分析與基于監(jiān)督學(xué)習(xí)的分類器訓(xùn)練應(yīng)用梯度提升樹(gradient boosting machine, GBM),隨機(jī)森林(random forest, RF),極端梯度提升(extreme gradient boosting, XGBoost)等機(jī)器學(xué)習(xí)模型建立物聯(lián)網(wǎng)設(shè)備分類器,取得了較好的物聯(lián)網(wǎng)終端的分類識別效果。Miettinen等[14]建立了物聯(lián)網(wǎng)終端自動(dòng)識別系統(tǒng)IoT Sentinel,通過MAC地址與設(shè)備ID結(jié)合進(jìn)行設(shè)備識別,并驗(yàn)證了IoT Sentinel的識別能力與性能開銷。
上述基于設(shè)備指紋的識別工作僅僅討論分類方法的概念設(shè)計(jì)與仿真,未曾從系統(tǒng)的角度考慮識別系統(tǒng)的設(shè)計(jì)與構(gòu)建,也未曾對所應(yīng)用的機(jī)器學(xué)習(xí)分類方法的適用性進(jìn)行對比分析。因此,在實(shí)用性方面存在一定欠缺。與之不同,本文采用基于設(shè)備指紋的識別方法,從實(shí)際系統(tǒng)出發(fā),研究和提出了面向?qū)嶋H應(yīng)用的設(shè)備指紋識別技術(shù)和系統(tǒng)實(shí)現(xiàn)。
物聯(lián)網(wǎng)終端智能識別系統(tǒng)用于自動(dòng)識別物聯(lián)網(wǎng)中具體設(shè)備或終端的類型。授權(quán)用戶(人、智能體、WEB程序、手機(jī)APP等)通過瀏覽器(或程序)向終端檢測模塊提交對特定聯(lián)網(wǎng)終端的識別請求;終端檢測模塊通過Namp技術(shù)掃描對應(yīng)設(shè)備并獲取終端設(shè)備指紋;然后,智能識別模塊通過調(diào)用機(jī)器學(xué)習(xí)算法訓(xùn)練的智能分類器對設(shè)備指紋進(jìn)行分類識別,從而檢測并返回設(shè)備的類型。
2.1.1 應(yīng)用場景
位于服務(wù)器端的主控程序首先調(diào)用終端檢測模塊自動(dòng)掃描并采集對應(yīng)終端的指紋數(shù)據(jù),進(jìn)而調(diào)用智能識別模塊判斷聯(lián)網(wǎng)終端的具體設(shè)備類型,最后將聯(lián)網(wǎng)終端的識別結(jié)果返回給用戶。圖1是物聯(lián)網(wǎng)智能識別系統(tǒng)的使用場景。
圖1 智能識別系統(tǒng)使用場景Fig.1 Scenario of intelligent recognition system
2.1.2 總體流程
當(dāng)授權(quán)用戶輸入所要查詢的終端IP時(shí),系統(tǒng)先判斷該IP地址是否存在。如果存在,則進(jìn)行Nmap掃描該IP的操作系統(tǒng)以及開放的端口號,之后將得到的數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫[13]。通過對已經(jīng)導(dǎo)入到數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行分類訓(xùn)練生成訓(xùn)練模型,并以該訓(xùn)練模型為基礎(chǔ)進(jìn)行終端設(shè)備指紋智能識別或預(yù)測[14]。系統(tǒng)總體流程如圖2。
圖2 智能識別總體流程Fig.2 Overall flow of intelligent identification system
2.1.3 設(shè)備指紋定義
物聯(lián)網(wǎng)終端智能識別的基礎(chǔ)是提取設(shè)備指紋。Nmap嗅探到的信息包括終端在線狀態(tài)、開放端口、服務(wù)協(xié)議(如域名服務(wù)器 (domain name server,DNS), 超文本傳輸協(xié)議(hypertext transfer protocol,HTTP), Telnet)、應(yīng)用程序名(如ISC Bind,Apache httpd,Solaris telnetd)、版本號、主機(jī)名、設(shè)備類型(如 打印機(jī),路由器),操作系統(tǒng)家族 (如Windows,Linux)以及其他的細(xì)節(jié)。設(shè)備指紋的定義主要是為了唯一地識別具體終端,例如:將設(shè)備類型、操作系統(tǒng)或開放端口、操作系統(tǒng)進(jìn)行組合均可以較好地識別設(shè)備。本系統(tǒng)采用自定義設(shè)備指紋的機(jī)制,用戶可以根據(jù)識別的目標(biāo)進(jìn)行信息的特定組合定義。實(shí)驗(yàn)中的設(shè)備指紋主要采用設(shè)備類型、開放端口與操作系統(tǒng)的組合進(jìn)行定義。
終端檢測模塊利用Nmap工具對所要檢測的物聯(lián)網(wǎng)終端設(shè)備進(jìn)行批量嗅探。主要功能包括對文件中的IP行進(jìn)行讀?。蛔詣?dòng)掃描IP對應(yīng)的終端;提取設(shè)備指紋(特征信息)并導(dǎo)入數(shù)據(jù)庫,其檢測過程如圖3。
模型訓(xùn)練模塊的主要功能是訓(xùn)練分類器。通過對所采集設(shè)備特征信息進(jìn)行選取及預(yù)處理,將規(guī)范化后的設(shè)備指紋訓(xùn)練集導(dǎo)入分類算法模塊,從而創(chuàng)建分類訓(xùn)練模型,工作流程如圖4。
圖3 終端檢測模塊工作流程Fig.3 Flow of terminal detection module
圖4 模型訓(xùn)練模塊工作流程Fig.4 Flow of model training module
在分類模型訓(xùn)練模塊中,分類器的構(gòu)建是關(guān)鍵,而構(gòu)建分類器的機(jī)器學(xué)習(xí)算法多樣,不同方法具有不同的分類效果。在本系統(tǒng)研究中我們選用了典型的決策樹、邏輯回歸與樸素貝葉斯算法進(jìn)行實(shí)現(xiàn),并通過實(shí)驗(yàn)對比其在物聯(lián)網(wǎng)終端指紋識別上的效能,具體算法的原理與實(shí)現(xiàn)簡述如下。
2.3.1 決策樹分類原理
決策樹分類算法使用樹形結(jié)構(gòu)來制定決策與結(jié)果的序列,其結(jié)構(gòu)由測試點(diǎn)和分支點(diǎn)組成,其中分支表示作出的決策,沒有下一級分支的節(jié)點(diǎn)叫做葉子節(jié)點(diǎn),葉子節(jié)點(diǎn)返回的是分類結(jié)果。在某些實(shí)現(xiàn)中,葉子節(jié)點(diǎn)返回每種分類的概率值。最終獲得的決策樹能夠用一組決策規(guī)則來表示。決策樹算法核心就是信息增益,首先計(jì)算各個(gè)節(jié)點(diǎn)的信息增益的大小,通過信息增益的大小考慮各節(jié)點(diǎn)上用什么特征,最后用信息增益最大的特征來建立決策樹的當(dāng)前節(jié)點(diǎn)。
2.3.2 邏輯回歸分類原理
邏輯回歸算法既可以用于二分類決策問題,也可以運(yùn)用到多分類決策問題中。邏輯回歸分類算法基于邏輯函數(shù)g(z),表示為
(1)
隨著z值的增加,結(jié)果發(fā)生的概率也會(huì)增加。邏輯函數(shù)的取值為(0,1),所以十分適合用來模擬特定結(jié)果發(fā)生的概率。
2.3.3 樸素貝葉斯分類原理
樸素貝葉斯是一種按照概率的分類算法,它基于貝葉斯定理,如(2)式。
(2)
(2)式中:C∈{C1,C2,C3,…,CK}表示類型;D=(w1,w2,…,wn)表示特征集;P(C|D)為后驗(yàn)概率,表示特征數(shù)據(jù)D屬于C的概率;P(C)為先驗(yàn)概率,表示C類樣本數(shù)量占總樣本數(shù)量的比例;P(D)在此是常數(shù)。因此,P(C|D)與P(C)P(D|C)成正比,得到樸素貝葉斯分類,表示為
Ci=max(P(Ci|D))=argmax{P(Ci)P(D|Ci)}
(3)
2.3.4 分類器的實(shí)現(xiàn)
PythonSklearn模塊集成了上述3種機(jī)器學(xué)習(xí)算法,其調(diào)用實(shí)現(xiàn)步驟類似。以決策樹算法生成分類器為例,具體步驟如下。
1)導(dǎo)入sklearn.datasets類,加載設(shè)備指紋作為數(shù)據(jù)集;
2)將設(shè)備指紋分為特征數(shù)據(jù)與分類數(shù)據(jù);
3)導(dǎo)入model_selection.train_test_split函數(shù),將數(shù)據(jù)集細(xì)分為訓(xùn)練集特征,測試集特征,訓(xùn)練集目標(biāo)值,特征值目標(biāo)值;
4)導(dǎo)入sklearn.tree.DecisionTreeClassifier函數(shù),將決策樹分類器導(dǎo)入;
5)使用訓(xùn)練集訓(xùn)練模型;
6)導(dǎo)入sklearn.metrics.accuracy_score評估計(jì)算方法來查看預(yù)測結(jié)果的準(zhǔn)確度;
7)導(dǎo)入sklearn.externals.joblib類用于導(dǎo)出訓(xùn)練模型。
該模塊通過訓(xùn)練后的分類器來判斷設(shè)備的類型,主要包括設(shè)備指紋信息收集,將得到的特征信息用訓(xùn)練模型行進(jìn)檢測,得出判斷結(jié)果,步驟如圖5。
圖5 智能識別模塊流程圖Fig.5 Flow of intelligent identification module
掃描目標(biāo)IP收集終端設(shè)備指紋的部分調(diào)用終端檢測模塊。之后,利用Python Sklearn中joblib子類中l(wèi)oad( )方法將得到的分類器訓(xùn)練模型導(dǎo)入,并用該模型對掃描得到的信息進(jìn)行預(yù)測,得到判斷結(jié)果。
該模塊的主要功能是記錄系統(tǒng)中發(fā)生的事件。用戶可以通過它來檢查錯(cuò)誤發(fā)生的原因,同時(shí),日志數(shù)據(jù)也可以作為數(shù)據(jù)挖掘的基礎(chǔ)。
日志文件是包括數(shù)據(jù)庫系統(tǒng)在內(nèi)的任何計(jì)算系統(tǒng)的重要產(chǎn)品。它們包含大量的歷史數(shù)據(jù)。日志文件通常用來跟蹤執(zhí)行過程,記載執(zhí)行活動(dòng)與執(zhí)行者,從而能重現(xiàn)或恢復(fù)計(jì)算執(zhí)行場景。對于數(shù)據(jù)庫系統(tǒng),文件中的事務(wù)信息可以用于恢復(fù)任何數(shù)據(jù)庫事務(wù)失敗以及滾動(dòng)數(shù)據(jù)庫返回到其以前的一致狀態(tài)。日志文件通常是平面文件,其主要內(nèi)容包括時(shí)間戳、事件標(biāo)識符、有關(guān)已執(zhí)行事件的信息等。日志文件提供了事務(wù)歷史和用戶事件,通過日志文件可以挖掘隱藏信息,例如識別頻繁項(xiàng)查詢,識別數(shù)據(jù)聚類,以及識別搜索頻率查詢等。
首先選擇需要檢測的txt文件,文件中包含IP地址以及所對應(yīng)的設(shè)備類別,為了分類器數(shù)據(jù)格式的要求,對設(shè)備類別進(jìn)行數(shù)字化處理,其中,物聯(lián)網(wǎng)設(shè)備標(biāo)為1,傳統(tǒng)主機(jī)標(biāo)為0,部分信息如圖6。
圖6 部分待檢測設(shè)備IPFig.6 Part IP of terminal device
根據(jù)設(shè)備指紋定義設(shè)計(jì)的指紋特征訓(xùn)練表如表2。其字段包括OS,Port1,Port2,Type等,其中,OS表示設(shè)備操作系統(tǒng)類型;Port1,Port2表示掃描到的2個(gè)任意開放端口號;Type表示設(shè)備類別。
表2 部分設(shè)備指紋
通過Python的csv模塊,完成指紋數(shù)據(jù)到文件的導(dǎo)入、轉(zhuǎn)換以及導(dǎo)出。將操作系統(tǒng)類型進(jìn)行數(shù)字化,導(dǎo)出到csv文件,以便之后進(jìn)行訓(xùn)練,文件的顯示效果如表3。
表3 部分訓(xùn)練數(shù)據(jù)
對已生成的csv文件中的數(shù)據(jù)進(jìn)行訓(xùn)練。先將全部的數(shù)據(jù)分成2部分,90%數(shù)據(jù)作為訓(xùn)練集;10%作為測試集,用來驗(yàn)證生成模型的準(zhǔn)確率。將生成的模型導(dǎo)出作為分類器模型,以此為基礎(chǔ)對后續(xù)的設(shè)備指紋進(jìn)行檢測識別。
利用決策樹、邏輯回歸、樸素貝葉斯等3種不同的分類算法分別構(gòu)建智能識別分類器,以同一訓(xùn)練數(shù)據(jù)集進(jìn)行模型訓(xùn)練,并用訓(xùn)練集與驗(yàn)證集分別驗(yàn)證分類器效果。3種分類器的識別精確度比較如圖7。
圖7 3種分類器精確度比較Fig.7 Accuracy comparison of the three classifiers
由圖7可以看出,決策樹訓(xùn)練出的分類器無論在訓(xùn)練數(shù)據(jù)集還是驗(yàn)證數(shù)據(jù)集的分類處理上都有著相對較高的精確度,其平均精確度達(dá)到98.1%;與之相比,邏輯回歸算法得到的分類器則有著較低的精確度,其平均精確度為94.0%;樸素貝葉斯分類器雖然在訓(xùn)練數(shù)據(jù)集上有著很好的模擬結(jié)果,但在驗(yàn)證數(shù)據(jù)集上的精確度相對偏低,其平均精確度為96.8%。
改變訓(xùn)練集與驗(yàn)證集數(shù)據(jù)比例,將訓(xùn)練集指紋數(shù)據(jù)比例由90%降至85%,用來訓(xùn)練分類器;提高測試驗(yàn)證集指紋數(shù)據(jù)比例至15%,用來評估分類器的分類效果。圖8為物聯(lián)網(wǎng)設(shè)備和非物聯(lián)網(wǎng)設(shè)備的識別率。其中,決策樹分類器的識別率為98.7%,邏輯回歸分類器的識別率為95.0%,樸素貝葉斯分類器的識別率為94.9%。
由于不同的物聯(lián)網(wǎng)設(shè)備具有不同的指紋特征信息,同一分類器對不同的物聯(lián)網(wǎng)設(shè)備的識別率也有不同。圖9顯示了不同物聯(lián)網(wǎng)設(shè)備的識別率。其中,決策樹分類器的識別率為98.2%,邏輯回歸分類器的識別率為94.5%,樸素貝葉斯分類器的識別率為95.9%。
圖8 物聯(lián)網(wǎng)與非物聯(lián)網(wǎng)設(shè)備識別率Fig.8 Identification rate between IoT device and other device
圖9 不同物聯(lián)網(wǎng)終端設(shè)備識別率Fig.9 Identification rate in different type of IoT device
從以上分類器的識別效果數(shù)據(jù)比較中可以得出如下結(jié)論:①在包括訓(xùn)練集與測試集在內(nèi)的整體設(shè)備指紋數(shù)據(jù)集上的識別率方面,決策樹方法優(yōu)于樸素貝葉斯方法,樸素貝葉斯方法優(yōu)于邏輯回歸方法;②在對物聯(lián)網(wǎng)與非物聯(lián)網(wǎng)設(shè)備的識別率方面,決策樹方法優(yōu)于樸素貝葉斯方法,樸素貝葉斯方法與邏輯回歸方法相差無幾;③在具體物聯(lián)網(wǎng)設(shè)備識別率方面,決策樹方法優(yōu)于樸素貝葉斯方法,樸素貝葉斯方法略優(yōu)于邏輯回歸方法。
綜上,可以認(rèn)為,決策樹分類器在對于物聯(lián)網(wǎng)終端指紋的識別上具有較高精確度,是分類器構(gòu)造的優(yōu)選方法。
本文針對物聯(lián)網(wǎng)終端設(shè)備的智能識別問題,提出了一種基于設(shè)備指紋與機(jī)器學(xué)習(xí)的識別方法,并設(shè)計(jì)了相應(yīng)的智能識別仿真系統(tǒng)。該系統(tǒng)通過Nmap技術(shù)采集設(shè)備指紋,通過機(jī)器學(xué)習(xí)方法分析指紋,識別設(shè)備。在設(shè)備指紋數(shù)據(jù)集上采用決策樹、邏輯回歸與樸素貝葉斯等3種不同的分類算法構(gòu)造分類器并評估識別系統(tǒng)準(zhǔn)確性。結(jié)果表明,決策樹分類器具有顯著優(yōu)勢。
由于防火墻與安全防護(hù)的升級,基于Nmap技術(shù)的設(shè)備指紋采集并不完全可靠。因此,下一步研究中需要考慮如何提升指紋采集的可靠性問題。另外,本文提出的決策樹方法還應(yīng)與更多的分類方法如聚類方法、神經(jīng)網(wǎng)絡(luò)方法、支持向量機(jī)方法等進(jìn)行實(shí)驗(yàn)性能對比和分析,這也將在后續(xù)研究中進(jìn)行研究和完善。