瞿霞 華建祥
摘要:針對常規(guī)有效信息過濾算法對數據間關聯(lián)規(guī)則識別能力較弱等問題,提出物聯(lián)網環(huán)境下大數據流中有效信息過濾算法。該算法根據數據權重向量維度,通過余弦夾角構建目標相似的大數據推薦模型;設置表層關聯(lián)與隱含關聯(lián)預測規(guī)則,利用預測函數確定數據間的關聯(lián)程度;按照數據間的銜接性質,將數據集合劃分成若干子集,模糊聚類物聯(lián)網中的有效信息;根據用戶主觀傾向設置偏好函數,以協(xié)同過濾方式,得到有效信息過濾算法。實驗結果表明,與常規(guī)有效信息過濾算法相比,該算法對數據關聯(lián)規(guī)則識別能力提升14.97%,滿足當前物聯(lián)網大數據流中對有效數據的過濾要求。
關鍵詞:物聯(lián)網;大數據流;有效信息過濾算法
DOI:10.11907/rjdk.201413 開放科學(資源服務)標識碼(OSID):
中圖分類號:TP312文獻標識碼:A 文章編號:1672-7800(2020)006-0214-04
0 引言
物聯(lián)網利用局部網絡或互聯(lián)網等通信技術,將傳感器、控制器、機器、人員和物品之間建立有效連接,形成一個人與物、物與物之間相關聯(lián)的智能化網絡信息通訊平臺,產生了數量龐大的網絡數據信息?,F階段稱之為大數據,其本身具有體量龐大、運行處理快速、類型多樣、價值密度低及真實性高等特點。因此,針對大數據中的海量信息,按照順序將這些數據設置為只讀數據序列,形成規(guī)律性的大數據流。
圍繞相關問題,很多學者進行了研究。文獻首先分析聚類算法具體過程,判斷結果是否有效,并表達數據集,根據數據集構建多維高斯核密度估計方法,使其能夠分析數據集本身特性,然后結合聚類有效性分析方法,進行聚類結果探討,最后驗證其方法合理性與有效性;文獻提出基于Storm的P-HT并行化算法,該算法以滿足Storm流處理平臺為基礎,首先設置滑動窗口機制,然后替代子樹機制,進行并行化處理,體現出較好的靈活性和通用性,利用物聯(lián)網進行數據處理與分類時具有更大吞吐量和更快處理速度。但以上算法對數據之間關聯(lián)規(guī)則劃分能力不足,數據隱含關聯(lián)挖掘能力較弱,因此過濾后的信息并不理想。為此,對文獻算法予以優(yōu)化,提出物聯(lián)網環(huán)境下大數據流中有效信息過濾算法。本文算法從文獻算法中存在的問題人手,著重研究大數據流內數據之間的關聯(lián)規(guī)則,過濾方式更加詳細,滿足當前物聯(lián)網對有效信息的過濾要求。
1 物聯(lián)網大數據流有效信息過濾算法
1.1 目標相似的大數據推薦模型構建
考慮到物聯(lián)網中大數據流類型的多樣性,構建一個推薦模型,該模型主要對類型不同、目標相似的數據信息實施推薦。模型構建需要考慮不同數據之間的目標相似程度,該程度可用余弦夾角衡量。假設大數據流中的數據類型有a1,a2,…,an,每一數據的權重指數分別為qa1,qa2,…,qan,權重向量維度用T表示,則數據之間的目標相似度如式(1)所示。
式中,i表示大數據流數據量,fi(an)表示i個數據量下的類型函數,gi(qan)表示i個數據量下的權重函數。此時,數據之間的目標相似度曲線如圖l所示。
圖1中的曲線是3個類型完全不同的目標相似數據,根據曲線走向及曲線弧度可知,雖然數據類型完全不同,但這些數據之間具有共同目標,因此其走勢相似,只是作用價值不同,產生了價值差異。根據式(1)得出相似度結果,設置大數據推薦模型,該模型計算表達式如式(2)所示。
1.2 數據關聯(lián)程度預測
根據上述得到的推薦數據Fm,預測F1,F2,…,Fm之間的關聯(lián)性,預測規(guī)則如圖2所示。
通過上述預測規(guī)則可知,根據多個預測條件,設置不同的預測方式,抓住其中表層關聯(lián)及隱含關聯(lián),得到分化詳細的關聯(lián)程度值。建立一個集合R,令該集合R={F1,F2,…,Fm};設置k1,k2,…,km是與推薦數據F1,F2,…Fm相對應的預測條件,則預測系數計算表達式如式(3)所示。
式中,Kn表示設置的n個預測系數,ωm表示預測約束條件,gm(Fm)表示對推薦數據Fm的m次預測,gm-1(Fm-1)表示對于預測數據Fm的m-1次預測,ks表示每次預測時,在預測強度s影響下的調整指標。根據計算所得預測系數,對推薦數據的關聯(lián)程度進行預測,當該結果為正數時,說明得出的關聯(lián)性指標可靠,該關聯(lián)預測表達式如式(4)所示。
式中,pred(Fm)表示對推薦數據的預測函數,IDEN(u,v)表示關聯(lián)規(guī)則鑒別函數,ζ表示調和指數,ζ表示調和平均值,u表示表層關聯(lián)指標,v表示遞進的隱含關聯(lián)指標。根據上述預測表達式,得到不同類型數據之間的關聯(lián)規(guī)則,根據關聯(lián)規(guī)則取值不同,可以確定物聯(lián)網中大數據之間的聯(lián)系強度。
1.3 有效信息模糊聚類
將具有關聯(lián)規(guī)則的數據,按照一定順序排列,利用模糊聚類分析方法獲取數據特征,匹配并劃分客觀有效的數據。該數據劃分形式以圖3所示的劃分集合為例,按照數據特征,將不同類型的關聯(lián)數據分配到不同集合中。
由圖3可知,原始數據集只有一個,不利于數據之間的特征分析,因此利用模糊聚類,將原有集合轉換成圖3(b)所示的分類子集,通過數據分類,提取出數據特征量。將集合及模糊聚類,得到n個數據子集,用rn表示。將子集中的數據按照銜接性質分類,該分類規(guī)則如式(5)所示。