李莉,張軍,李妍,張棟
(1.石家莊學院電氣信息工程系,河北石家莊 050035;2.河北工業(yè)大學計算機科學與軟件學院,天津 300401;3.河北工業(yè)大學研究生院,天津 300401)
基于匯轉(zhuǎn)控制技術(shù)的物聯(lián)網(wǎng)信息識別
李莉1,張軍2,李妍2,張棟3
(1.石家莊學院電氣信息工程系,河北石家莊 050035;2.河北工業(yè)大學計算機科學與軟件學院,天津 300401;3.河北工業(yè)大學研究生院,天津 300401)
隨著物聯(lián)網(wǎng)規(guī)模的增大和應用種類的增多,物聯(lián)網(wǎng)中的信息量呈現(xiàn)出海量增長的趨勢,對這些信息進行識別和管理成為了當前物聯(lián)網(wǎng)技術(shù)應用中必須解決的問題.應用可信信息匯轉(zhuǎn)控制技術(shù)對物聯(lián)網(wǎng)信息進行表達、量化、提取、共享和處理,使異構(gòu)信息匯聚后實現(xiàn)信息共享.仿真測試的結(jié)果表明可信信息匯轉(zhuǎn)控制算法的準確率和平均使用時間滿足應用需求,為物聯(lián)網(wǎng)信息的有效管理和數(shù)據(jù)處理提供了參考.
可信信息;物聯(lián)網(wǎng);匯轉(zhuǎn);控制;技術(shù)
隨著科技發(fā)展的智能化和信息時代的發(fā)展,對虛擬網(wǎng)絡中的設備、物品進行識別和管理受到人們的廣泛關(guān)注[1].物聯(lián)網(wǎng)(Internetof Things,IoT)是一種對互聯(lián)網(wǎng)中的設備、物品和數(shù)據(jù)進行通信的虛擬網(wǎng)絡.社會對物聯(lián)網(wǎng)中設備、數(shù)據(jù)的識別、管理、共享和通信的需求日益增強[2].如何在信息產(chǎn)業(yè)化下實現(xiàn)物聯(lián)網(wǎng)信息的控制,成為物聯(lián)網(wǎng)的一個研究方面.通過對以上物聯(lián)網(wǎng)中的關(guān)鍵技術(shù)和關(guān)鍵參數(shù)進行分析,采用匯轉(zhuǎn)控制技術(shù)對物聯(lián)網(wǎng)信息進行表達、量化、提取,經(jīng)仿真實驗證明了匯轉(zhuǎn)控制技術(shù)對物聯(lián)網(wǎng)信息識別和管理的有效性.研究對于加快物聯(lián)網(wǎng)系統(tǒng)的開發(fā)進程、解決我國目前在物聯(lián)網(wǎng)環(huán)境下應用中所存在的信息量大、難識別、難管理問題具有一定的實際意義.
1.1 概述
1999年,美國麻省理工大學KevinAshton教授提出了物聯(lián)網(wǎng)的概念.在隨后的幾年時間里,歐洲EpoSS在2005年發(fā)布“ITU歐洲互聯(lián)網(wǎng)報告2005:物聯(lián)網(wǎng)”報告,使物聯(lián)網(wǎng)成為研究的熱點,并于2008年5月發(fā)布了“2020年歐洲物聯(lián)網(wǎng)規(guī)劃”.2009年9月提出物聯(lián)網(wǎng)發(fā)展路線圖.2010年提出無線傳感器網(wǎng)絡(Wireless Sensor Networks,WSN)的概念,并將此網(wǎng)絡與RFID進行相關(guān)研究.
2005年的報告闡述和規(guī)劃了基于RFID的物聯(lián)網(wǎng)技術(shù),以及物聯(lián)網(wǎng)在貨物運輸、智能家居、交通管理、銷售管理、醫(yī)藥衛(wèi)生等行業(yè)的應用前景.2009年對物聯(lián)網(wǎng)進行了定義,對技術(shù)領(lǐng)域進行了規(guī)劃,并將“物”進行擴充,可以指虛擬“物體”或傳感器、執(zhí)行器等.這時,WSN以及WSN中的信息互操作等內(nèi)容成為人們關(guān)注的問題,業(yè)內(nèi)人士認為,物聯(lián)網(wǎng)將掀起全球的第3次信息產(chǎn)業(yè)革命[3].2009年,隨著IBM提出“智慧地球”的概念,隨后各國對物聯(lián)網(wǎng)的關(guān)注逐漸提高.
1.2 物聯(lián)網(wǎng)信息智能識別和管理
隨著第3次信息產(chǎn)業(yè)革命的到來,物聯(lián)網(wǎng)研究的側(cè)重點從不同環(huán)境應用性能和數(shù)據(jù)通信轉(zhuǎn)移到信息融合、語義互操作方面[4-5].物聯(lián)網(wǎng)中“物”的種類很多,有傳感器、執(zhí)行器、虛擬物體、視頻感知器、RFID射頻卡等,物體所采集到的信息種類也很多,不同“物”的計算、處理、存儲和傳輸能力也不同,這就提出了對物聯(lián)網(wǎng)信息進行智能識別和管理[6-7].其中一個很大的難題是對這些信息進行表達、存儲、檢索、共享和處理.隨著物聯(lián)網(wǎng)應用種類、規(guī)模增大,將信息處理分為前臺處理和后臺處理兩種,但前臺和后臺中都涉及到信息計算處理和信息存儲,這成為信息處理的又一研究問題.
物聯(lián)網(wǎng)“物體”的計算、存儲與處理能力各異,“物體”種類從簡單的到具有較強能力的.收集到的信息也各不相同,如何合理處理信息是物聯(lián)網(wǎng)需研究的問題.對物聯(lián)網(wǎng)而言,隨著應用規(guī)模的增大和應用種類的增多,信息處理成為物聯(lián)網(wǎng)迫切需要解決的問題,我們將可信信息匯轉(zhuǎn)控制技術(shù)應用到信息計算處理和信息存儲中,解決信息的表達、存儲、檢索、共享和處理.當前智能信息處理的研究主要集中在動態(tài)貝葉斯網(wǎng)絡、擴展的卡爾曼濾波、D-S(Dempster-Shafer Theory)證據(jù)理論和粗集理論[8-9].這些都沒有考慮物聯(lián)網(wǎng)具有能量限制的特點,系統(tǒng)的計算開銷沒有得到很好的減小.隨著數(shù)據(jù)傳輸量的增多,信息傳輸?shù)墓囊矔兇螅枰獙⒕W(wǎng)絡規(guī)模、信息傳輸、網(wǎng)絡功耗有效的結(jié)合.基于動態(tài)貝葉斯網(wǎng)絡的智能信息處理是從貝葉斯網(wǎng)絡演變而來,動態(tài)貝葉斯網(wǎng)絡在原有貝葉斯網(wǎng)絡的基礎上新增了時間軸.動態(tài)貝葉斯網(wǎng)絡屬于一個稍微復雜的動態(tài)空間模型,與之相似但較為簡單的還有隱馬爾科夫鏈和卡曼濾波模型.
2.1 信息獲取
在以物聯(lián)網(wǎng)中“物”為載體的信息量中隱藏著許多可以為商業(yè)、科研等活動的決策提供所需要的知識.在對信息進行分類挖掘之前,建立一個描述已知數(shù)據(jù)集類別或概念的模型,對數(shù)據(jù)集合中的信息進行獲取是信息處理的基礎.
在進行分類之前,首先準備好挖掘數(shù)據(jù).一般需要對數(shù)據(jù)進行以下預處理:數(shù)據(jù)清洗、相關(guān)分析、數(shù)據(jù)轉(zhuǎn)換,這些處理幫助提高分類的準確性、效率和可擴展性.
對數(shù)據(jù)集中的噪聲和異常數(shù)據(jù),采用數(shù)據(jù)清洗幫助除去數(shù)據(jù)中的噪聲,由于數(shù)據(jù)集中的許多屬性與挖掘任務本身可能是無關(guān)的.這樣能有效減少學習過程中學習相互矛盾的問題.見表1.
例如:記錄貨物運輸信息時,以5個屬性溫度、濕度、通信、功耗、狀態(tài)作為研究對象,此外有些屬性也可能是冗余的.從數(shù)據(jù)分析和獲取考慮,使無關(guān)屬性在學習階段消除,或在數(shù)據(jù)處理過程作為冗余屬性.首先要對需要泛化到更高層次的數(shù)值進行轉(zhuǎn)換,例如:屬性“濕度”的數(shù)值就可以被泛化為3個離散區(qū)間,這里采用low、medium和high來表示.
2.2 信息表達
表1 系統(tǒng)數(shù)據(jù)庫Tab.1 System Database
對獲取到的信息采用屬性值的方式進行表達,采用對獲取的信息按照屬性進行分類的方法,這樣可以使對象分類的次數(shù)減少.對于生成每個結(jié)點時所采用的合適屬性使用信息增益方法來確定.這里對獲得的信息作為一個集合,統(tǒng)稱為樣本集.對集合中數(shù)據(jù)信息進行劃分時,每一次劃分都選擇信息增益最大的屬性作為劃分的依據(jù).將信息增益最大的屬性稱作當前測試分類值.通過每次劃分對增益屬性的選擇,在分類過程中分類成功率大.分類后的樣本中錯亂和混合的屬性減少.
在劃分之前對得到的5個屬性進行增益計算,按照信息增益的大小進行排列.選取中期最大的作為這次劃分的測試分類值.分類后對所產(chǎn)生的結(jié)點進行相應屬性的標記,將不同類數(shù)據(jù)分成不同集合,并以分支的形勢進行表示.每一個分支表示不同的集合.
設D為一個包含d個數(shù)據(jù)樣本的集合,集合的取值有m種.每種取值對應一個類屬性值,所得到的類屬性值為Vi,i{1,2,3…,m}.假設di為類屬性值Vi中的個數(shù),那么對于所獲得的信息進行分類需要的信息量為
其中:Pi數(shù)據(jù)集合中的對象在類屬性值Vi的概率;計算方式可以為di/D.而其中的log是以2為底的函數(shù).
設一個屬性A取n個不同的值{a1,a2,…an}.根據(jù)A可以將集合D劃分為n個子集{D1,D2,…Dn},其中Dj包含了D集合中A屬性為aj值的數(shù)據(jù)樣本.若A這是作為本次劃分的分類屬性,設dij是子集合Dj中屬于Vi類別的總數(shù).用當前分類屬性A作為劃分依據(jù),對數(shù)據(jù)集合劃分所需要的信息熵計算如下
其中:d1j+…+dmj/d項是屬于第j個子集的權(quán)值.對于子集中屬性為A,并且取值等于aj的所有子集之和,除以集合D中的總數(shù)得到的.用E A來表示劃分結(jié)果的好壞,所得到的值越大表示分類劃分結(jié)果越不好,越小則效果越好.而對于一個給定子集Dj,它的信息熵為
這樣根據(jù)當前分類屬性(A)劃分后得到的分類增益為
設Gain(A)為信息熵減少量.它是根據(jù)當前分類屬性(A)的值進行集合劃分所得到的.對每個屬性計算信息增益,從計算結(jié)果中選擇分類增益最大的屬性作為當前測試分類屬性.對集合D中的數(shù)據(jù)進行分類,并根據(jù)不同類別產(chǎn)生不同的分支結(jié)點,所產(chǎn)生的結(jié)點被標記為相應的屬性,并根據(jù)這一屬性的不同取值劃分樣本子集.
對于非類別屬性,在信息增益超過類別屬性,信息增益不能作為唯一的判斷條件,需要對屬性的權(quán)值進行重新計算,根據(jù)事后概率取最大原則,調(diào)整權(quán)值更新信息的增益.信息分類不是由類別屬性的信息增益決定,而是由此次屬性的權(quán)值決定.
定義1:設屬性An為非類別屬性,{p c1,c2,…cn}為出現(xiàn)概率,其中{c1,c2,…,cn}為n個不同的待確定的類,則權(quán)值q為:
2.3 信息量化和提取
對切割成若干分類的數(shù)據(jù),需要進行信息的量化和提取,這里采用等價類進行劃分,劃分出的等價類就是一組分類;進一步分析每個分類所具備的特征,就可得到分類特征規(guī)則.這樣的分析具有實際意義,例如:通過對大量狀態(tài)數(shù)據(jù)分析,可得出各種狀態(tài)數(shù)據(jù)及反應特征.
用一個四元組進行分類特征規(guī)則的描述,lw=<T,S,C,G>,其中T是一組對象(或事例)的有限集合,稱為論域,設有n個對象,則T可表示為:T={t1,t2,,tn};S表示有限個屬性的結(jié)合,設有m個屬性,則S可表示為:S={s1,s2,,sm};C是屬性的值域集,C可表示為:C={c1,c2,,cm},值域c1= {ci1,ci2,,cik};G是t和s的函數(shù),cij=f ti,si.
假設集合T中有14個元素,即表中的14個記錄;集合S中有5個元素,即表中的5個字段名,s1='rid';c21=f t2,s1='<00.
定義2:設D是一個數(shù)據(jù)庫,P是總記錄數(shù),X是基于S'S'S的等價類,Sx是X的記錄個數(shù),則稱P' =Sx/P是等價類X的分類支持度.
對于上例,做基于通信的劃分,可分為:通信=no,即E1={r1,r2,r3,r4,r8,r12,r14};通信=yes,即E2={r5,r6,r7,r9,r10,r11,r13}兩個分類,分類支持度分別為7和7.
在定義過程中關(guān)心的是分類支持度較大(大于一定閾值)的數(shù)據(jù)分類及它們中特征置信度較大的特征.可以把這樣的分類特征定義為分類特征規(guī)則.
分類特征規(guī)則可描述為B Y│(Sx│St〕,其中B為類別;Y為特征;Sx為分類支持度;St為特征置信度.上例通信分類中,不通信的特征置信度為7/7,分類特征規(guī)則可表示為通信→不通信︱(7,7).
3.1 可信控制分類算法
對信息進行處理,采用基于屬性的可信控制分類算法,根據(jù)用戶數(shù)據(jù)挖掘請求挖掘關(guān)系數(shù)據(jù)庫中定性描述.
設定系統(tǒng)有6種輸入分別為:1)獲得的信息數(shù)據(jù)庫Dxin;2)采用數(shù)據(jù)挖掘命令;3)計算分類屬性值;4)對計算的屬性ai采用泛化處理,計算5個屬性ai的屬性泛化閾值;5)屬性權(quán)值調(diào)整;6)數(shù)據(jù)分類操作.
輸出的信息為Ff包含基于分類屬性值集的分支集合.
算法描述如下:
首先get Dxin(數(shù)據(jù)挖掘命令,Dxin,屬性泛化閾值);
其次scan 5個屬性的屬性閾值to計算不同屬性的當前分類值;//獲得每個屬性不同值個數(shù),當屬性取多個值需進行分析,對屬性進行消減
3.2 算法測試
針對以上提出的算法,在學習樣本訓練后,通過測試樣本測試.測試的樣本集合如下所示,例如一個冷鏈物流的數(shù)據(jù)庫如表2.
對給定測試樣本濕度進行分類所需要的信息為
計算屬性的信息熵,當濕度為high時,
表2 測試情況庫Tab.2 The testcase library
當濕度為medium時,
當濕度為low時,
則屬性的信息增益
同理可得到溫度的信息增益為0. 245;通信的信息增益為0. 3425;功耗的信息增益為0.048.這里通信的信息增益最大,首先根據(jù)通信的信息增益對數(shù)據(jù)進行分類,之后根據(jù)溫度的信息增益進行分類.
當需要進行進一步劃分時出現(xiàn)了異常數(shù)據(jù),即當溫度大于15°時不能根據(jù)功耗進行進一步分類,根據(jù)等價類事后概率最大的原則,重新調(diào)整屬性的權(quán)重,根據(jù)功耗為fair時所計算的權(quán)重為0.033,根據(jù)功耗為high時所計算的權(quán)重為0.011,經(jīng)比較取權(quán)重大的作為分類依據(jù).
下面例出10次循環(huán)和20次循環(huán)后的因子效度,通過圖可以看出經(jīng)過多次循環(huán)后,因子的效度有顯著增加,對分類的影響度也增加.見圖1,圖2.
應用上述算法,對系統(tǒng)數(shù)據(jù)庫中信息進行數(shù)據(jù)挖掘,系統(tǒng)處理信息的準確率從73.6%增加到80.1%,查全率從76.2%增加到91.3%.見圖3,圖4.
圖1 10次循環(huán)Fig.1 The 10 cycles
圖2 20次循環(huán)Fig.2 The 20 cycles
在信息計算處理和信息存儲方面,對物聯(lián)網(wǎng)中的信息進行信息獲取、表達、量化、提取、推理.以現(xiàn)有信息處理方法研究為基礎結(jié)合物聯(lián)網(wǎng)中信息的特點,分析物聯(lián)網(wǎng)信息識別和管理的關(guān)鍵技術(shù)和關(guān)鍵參數(shù),采用數(shù)據(jù)挖掘、重新設置權(quán)重、因子效度分析結(jié)合的方法處理數(shù)據(jù)中的正常和異常數(shù)據(jù),并用可信信息匯轉(zhuǎn)控制分類算法進行相關(guān)仿真,仿真測試的結(jié)果表明可信信息匯轉(zhuǎn)控制算法的準確率和平均使用時間滿足應用需求,為物聯(lián)網(wǎng)信息的有效管理和數(shù)據(jù)處理提供了參考.
圖3 系統(tǒng)準確率Fig.3 The system precision
圖4 系統(tǒng)查全率Fig.4 The system recall
[1]朱洪波,楊龍祥,于全.物聯(lián)網(wǎng)的技術(shù)思想與應用策略研究[J].通信學報,2010,31(11):2-9.
[2]馬愛民,胡玥明,王冠宇.物聯(lián)網(wǎng)技術(shù)在工業(yè)自動化中的應用與研究[J].自動化技術(shù)與應用,2013,32(6):117-119.
[3]俞文彬,謝康林,張忠能.基于屬性分類的數(shù)據(jù)挖掘方法[J].小型微型計算機系統(tǒng),2000,21(3):305-308.
[4]全巧梅.云計算環(huán)境下WEB數(shù)據(jù)挖掘的研究[J].信息技術(shù)與信息化,2012(5):248-249.
[5]陳章良.基于數(shù)據(jù)挖掘的預測決策模型應用與研究[J].中國管理信息化,2009,12(1):57-59.
[6]劉志杰.物聯(lián)網(wǎng)技術(shù)的研究綜述[J].軟件,2013,34(5):164-168.
[7]ZHandong,Z Lin.Internetof things:key technology,architectureand challenging problems[C]//IEEE international conferenceon computerscienceand autom ation engineering(CSAE),2011:507-512.
[8]Jia B,Yang Y,Sun Y,etal.An activeservicemodel for Internetof things[J].Journalof com putational information systems,2012,8(23):9865-9872.
[9]Kopetz H.Internetof Things[J].Real-time systems,2011(1):307-323.
[責任編輯 代俊秋]
The information identify of internetof things based on exchange control technology
LILi1,ZHANG Jun2,LIYan2,ZHANG Dong3
(1.Electrical and Information Engineering Department,Shijiazhuang Institute,Hebei Shijiazhuang 050035,China;2.School of Computer Science and Software,HebeiUniversity of Technology,Tianjin 300401,China;3.Graduate School,HebeiUniversity of Technology,Tianjin 300401,China)
W ith the expansion in scale and the app lication types of Internet of Things,information from the Internet of Things grow s enormously.To identify and manage well such information has become necessary in current Internet of Things technology application.In thispaper,the trusted information exchange control technology dealsw ith expression, quantification,extraction,sharing and processing about the Internetof Things information,w hich canachieve information sharingafteraggregation of theheterogeneous information.Simulationand testing resultsshow thattheaccuracy and average timeof trusted information exchange control algorithms is tomeet the application requirement,which provides a reference for theeffectivemanagementof Internetof Things information and data processing
trusted information;internetof things;exchange;control;technology
TN919.72
A
1007-2373(2014)01-0019-05
2013-09-26
河北省自然科學基金(12210318);河北省教育科學基金(13041904);河北省高等學校科學研究計劃(QN 20132023);石家莊市科技基金(131130641A)
李莉(1979-),女(漢族),講師,博士.