陸興華,劉文林,吳宏裕,馮飛龍
(廣東工業(yè)大學(xué)華立學(xué)院,廣東 廣州 511325)
隨著云計算技術(shù)和物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,在物聯(lián)網(wǎng)環(huán)境中通過云存儲方式進行海量散亂點云數(shù)據(jù)的集成處理,通過模糊聚類方法實現(xiàn)散亂點云數(shù)據(jù)的信息融合和自適應(yīng)調(diào)度,提高云計算和云組合服務(wù)的質(zhì)量。海量散亂點云數(shù)據(jù)的準確挖掘和分類管理是保障云服務(wù)質(zhì)量的關(guān)鍵,采用智能挖掘和信息處理算法進行海量散亂點云數(shù)據(jù)的優(yōu)化挖掘和調(diào)度,提高用戶進行數(shù)據(jù)檢索和管理的能力,并根據(jù)海量散亂點云數(shù)據(jù)的挖掘結(jié)果,構(gòu)成最優(yōu)的服務(wù)組合,提高數(shù)據(jù)檢索和調(diào)度的準確性[1]。
對海量散亂點云數(shù)據(jù)的挖掘是建立在對大規(guī)模數(shù)據(jù)集的特征提取和關(guān)聯(lián)規(guī)則特征分析基礎(chǔ)上的。根據(jù)網(wǎng)絡(luò)傳輸?shù)牧髁刻卣鬟M行海量散亂點云數(shù)據(jù)挖掘,采用相關(guān)的信息處理和數(shù)據(jù)檢測方法,提高海量散亂點云數(shù)據(jù)挖掘的準確性和抗干擾能力[2]。傳統(tǒng)方法中,對海量散亂點云數(shù)據(jù)的挖掘主要采用分集檢測和譜分析方法[3],采用自相關(guān)特征譜分解方法進行海量散亂點云數(shù)據(jù)的信息融合和相關(guān)性檢測,結(jié)合模糊數(shù)值分析和簇聚類方法實現(xiàn)海量散亂點云數(shù)據(jù)挖掘。根據(jù)上述原理,相關(guān)人員進行了數(shù)據(jù)挖掘算法研究。文獻[4]中提出一種基于簡化梯度算法的海量散亂點云數(shù)據(jù)挖掘模型,采用相關(guān)檢測器進行3D云數(shù)據(jù)的干擾濾波,結(jié)合簡化梯度算法進行云數(shù)據(jù)的輸出信道均衡設(shè)計,提高數(shù)據(jù)挖掘的抗干擾能力,但該方法存在帶寬受限和維數(shù)較大等問題;文獻[5]中提出一種基于模糊指向性聚類的海量散亂點云數(shù)據(jù)挖掘方法,采用模糊K質(zhì)心方法進行海量散亂點云數(shù)據(jù)的模糊加權(quán),在保留海量散亂點云數(shù)據(jù)集內(nèi)在的不確定性的條件下實現(xiàn)數(shù)據(jù)優(yōu)化聚類,提高數(shù)據(jù)挖掘的模糊決策性,但該方法存在計算開銷較大和復(fù)雜度較高的問題。
針對上述問題,文中提出一種基于支持向量機的大數(shù)據(jù)分類挖掘技術(shù)。首先采用分段向量量化編碼技術(shù)進行海量散亂點云數(shù)據(jù)空間存儲結(jié)構(gòu)分析,結(jié)合閉頻繁項集檢測方法進行海量散亂點云數(shù)據(jù)的信息融合處理,然后對高維融合數(shù)據(jù)進行語義特征分析和關(guān)聯(lián)規(guī)則特征提取,結(jié)合尺度分解方法對分類輸出的海量散亂點云數(shù)據(jù)進行降維處理,采用模糊聚類方法實現(xiàn)對海量散亂點云數(shù)據(jù)的分類挖掘。最后通過仿真證明了該方法的有效性。
為了實現(xiàn)對海量散亂點云數(shù)據(jù)的優(yōu)化挖掘,首先分析海量散亂點云數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)和相似度特征信息。采用C4.5決策樹模型,構(gòu)建海量散亂點云數(shù)據(jù)的分類決策模型[6],進行海量散亂點云數(shù)據(jù)的相似度分解,如圖1所示。
圖1 海量散亂點云數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)分解決策樹模型
根據(jù)圖1的決策樹模型,對海量散亂點云數(shù)據(jù)進行模糊特征識別和數(shù)據(jù)分類,構(gòu)造海量散亂點云數(shù)據(jù)的混合屬性模糊分類模型[7],根據(jù)數(shù)據(jù)的混合分類屬性進行相似度分析,對模糊信息的分段屬性集X進行奇異值(SVD)分解:
X=UDVT
(1)
(2)
(3)
其中,AH、AHB和θH、θHB分別是前p個元素是數(shù)值屬性值以及系統(tǒng)函數(shù)H(z)和HB(z)的離散化數(shù)值屬性和向量量化特征量。
求得海量散亂點云數(shù)據(jù)的語義概念集的分布矩陣XTX,取非零特征值作為訓(xùn)練子集,進行數(shù)據(jù)信息流模型重構(gòu)。采用混合相似度特征分析方法,對海量散亂點云數(shù)據(jù)進行特征重組和向量量化分析,得到云數(shù)據(jù)特征重組后輸出的平均互信息特征表達式為:
(4)
其中,psq(si,qj)表示海量散亂點云數(shù)據(jù)的語義本體概念集si和數(shù)據(jù)概念集qj的聯(lián)合分布概率。
定義海量散亂點云數(shù)據(jù)的簇中的信息分布模型為[s,q]=[x(t),x(t+τ)],得到模糊信息的閉頻繁項,結(jié)合閉頻繁項集檢測方法進行海量散亂點云數(shù)據(jù)的信息融合處理[8]。
xn=x(t0+nΔt)=h[z(t0+nΔt)]+ωn
(5)
其中,h(·)為海量散亂點云數(shù)據(jù)分布式時間序列,表示為一個具有多維數(shù)據(jù)結(jié)構(gòu)模型的函數(shù);ωn為大數(shù)據(jù)的測量誤差。
構(gòu)建海量散亂點云數(shù)據(jù)分布的時態(tài)結(jié)構(gòu)模型,將挖掘的海量散亂點云數(shù)據(jù)按照五元組進行關(guān)聯(lián)規(guī)則項特征重建,海量散亂點云數(shù)據(jù)的分布結(jié)構(gòu)模型的分布函數(shù)描述式為:
Xp(u)=
(6)
其中,p為分布式海量散亂點云數(shù)據(jù)存儲結(jié)構(gòu)的階數(shù);α為統(tǒng)計信息采樣的頻繁項集。
采用統(tǒng)計回歸分析方法進行海量散亂點云數(shù)據(jù)的閉頻繁項檢測[10],檢測模型表達如下:
(7)
結(jié)合閉頻繁項集檢測方法進行海量散亂點云數(shù)據(jù)的信息融合處理,構(gòu)造海量散亂點云數(shù)據(jù)挖掘的線性規(guī)劃模型[11]。
在采用分段向量量化編碼技術(shù)進行海量散亂點云數(shù)據(jù)空間存儲結(jié)構(gòu)分析的基礎(chǔ)上,對高維融合數(shù)據(jù)進行語義特征分析和關(guān)聯(lián)規(guī)則特征提取和模糊聚類處理。采用分段向量量化編碼技術(shù)進行海量散亂點云數(shù)據(jù)空間存儲結(jié)構(gòu)分析和關(guān)聯(lián)規(guī)則特征提取[12],構(gòu)建需要挖掘的海量點云數(shù)據(jù)的量化編碼分析模型:
(8)
(9)
根據(jù)數(shù)據(jù)的不同屬性在聚類的差異性,進行海量散亂點云數(shù)據(jù)特征識別[13]。數(shù)值屬性特征和分類屬性特征分別為:
RβX=U{E∈U/R|c(E,X)≤β}
(10)
RβX=U{E∈U/R|c(E,X)≤1-β}
(11)
(12)
(13)
Si=Sb+Sω
(14)
其中,p(ωi)為數(shù)據(jù)挖掘的分配規(guī)則向量集;μ=E(x)為散亂點云數(shù)據(jù)的分布稀疏度。
文中提出一種基于支持向量機的大數(shù)據(jù)分類挖掘技術(shù),采用自適應(yīng)加權(quán)算法,得到支持向量機進行大數(shù)據(jù)特征分類器的加權(quán)系數(shù)為:
(15)
采用支持向量機的學(xué)習(xí)算法[14],得到海量散亂點云數(shù)據(jù)分類的自適應(yīng)學(xué)習(xí)過程為:
(16)
在B?D,A∩B?D等規(guī)則約束項下,得到海量散亂點云數(shù)據(jù)模糊挖掘的量化參數(shù)滿足:
(17)
數(shù)據(jù)的統(tǒng)計量化集為(u,v)∈E,設(shè)A?V,B?V且A∩B=?,采用支持向量機分類器進行模式識別,實現(xiàn)對海量散亂點云數(shù)據(jù)重組和數(shù)據(jù)結(jié)構(gòu)重排。對高維融合數(shù)據(jù)進行語義特征分析和關(guān)聯(lián)規(guī)則特征提取,對提取的海量散亂點云數(shù)據(jù)的關(guān)聯(lián)規(guī)則采用支持向量機分類器進行模式識別[15],數(shù)據(jù)準確挖掘的概率密度函數(shù)為:
其中,λS為在采樣時刻進行數(shù)據(jù)采集的相似度系數(shù);p2D為簇中的信息分布概率密度。
海量散亂點云數(shù)據(jù)簇中心之間的相異度為:
(19)
其中,Dis(A)表示聚類中心的歐氏距離;Dis(B)表示語義本體集。
采用基于模糊質(zhì)心相異性度量方法構(gòu)建海量散亂點云數(shù)據(jù)的分類模糊集。根據(jù)上述分析,實現(xiàn)了海量散亂點云數(shù)據(jù)的模糊聚類挖掘。
通過仿真實驗測試文中方法在實現(xiàn)海量散亂點云數(shù)據(jù)優(yōu)化挖掘中的應(yīng)用性能。實驗采用Matlab設(shè)計,測試數(shù)據(jù)集選用KTT數(shù)據(jù)集,實驗中的大數(shù)據(jù)樣本庫采用Olivetti-Oracle Research Lab (ORL)海量散亂點云數(shù)據(jù)庫,每個高維融合數(shù)據(jù)子塊閾值YHW=0.15,對海量散亂點云數(shù)據(jù)采樣的占空比為0.34,樣本訓(xùn)練集規(guī)模為26 kbps,海量散亂點云測試集為100 kbps,稀疏度為0.56。根據(jù)上述仿真環(huán)境和參數(shù)設(shè)定,進行海量散亂點云數(shù)據(jù)模糊聚類和挖掘仿真,得到數(shù)據(jù)采樣的時域分布如圖2所示。
采用分段向量量化編碼技術(shù)進行海量散亂點云數(shù)據(jù)的信息融合,實現(xiàn)數(shù)據(jù)模糊聚類和挖掘,得到的挖掘結(jié)果輸出如圖3所示。
圖2 數(shù)據(jù)采樣的時域分布
圖3 數(shù)據(jù)模糊聚類挖掘輸出
分析圖3得知,采用文中方法能有效實現(xiàn)對海量散亂點云數(shù)據(jù)的分類挖掘,特征的聚類性較好。測試不同方法進行數(shù)據(jù)挖掘的召回率,得到的對比結(jié)果如圖4所示。
圖4 數(shù)據(jù)挖掘的召回性對比
分析圖4得知,文中方法進行數(shù)據(jù)挖掘的召回率較高,說明數(shù)據(jù)挖掘精度較高,挖掘的收斂性較好,具有很好的模糊聚類挖掘性能。
文中提出一種基于支持向量機的大數(shù)據(jù)分類挖掘技術(shù)。采用分段向量量化編碼技術(shù)進行海量散亂點云數(shù)據(jù)空間存儲結(jié)構(gòu)分析,結(jié)合閉頻繁項集檢測方法進行海量散亂點云數(shù)據(jù)的信息融合處理,對高維融合數(shù)據(jù)進行語義特征分析和關(guān)聯(lián)規(guī)則特征提取。對提取的海量散亂點云數(shù)據(jù)的關(guān)聯(lián)規(guī)則采用支持向量機分類器進行模式識別,結(jié)合尺度分解方法對分類輸出的海量散亂點云數(shù)據(jù)進行降維處理,采用模糊聚類方法實現(xiàn)對海量散亂點云數(shù)據(jù)的分類挖掘。仿真結(jié)果表明,該方法進行數(shù)據(jù)挖掘的召回性能較好,挖掘精度較高。