覃兵文
摘 要: 為了提高大數(shù)據(jù)的分類識別和檢索性能,需要進行大數(shù)據(jù)優(yōu)化挖掘,故提出一種基于弱關聯(lián)性指數(shù)特征分布提取的大數(shù)據(jù)分類挖掘方法。對大數(shù)據(jù)信息流采用稀疏性融合方法進行聚類空間劃分,通過自相關特征匹配方法進行大數(shù)據(jù)高維分形特征重組,采用向量量化方法進行大數(shù)據(jù)的基元分類的收斂性控制,提取大數(shù)據(jù)信息流的弱關聯(lián)性指數(shù)特征,實現(xiàn)大數(shù)據(jù)的優(yōu)化分類和挖掘。仿真結果表明,采用該方法進行大數(shù)據(jù)分類挖掘,提高了大數(shù)據(jù)挖掘檢索的查準性和查全性,挖掘的準確性較高,抗干擾能力較好。
關鍵詞: 大數(shù)據(jù); 信息融合; 分類挖掘; 聚類空間劃分; 特征提取
中圖分類號: TN911?34; TP311 文獻標識碼: A 文章編號: 1004?373X(2017)24?0034?03
Abstract: As big data optimization mining is needed to improve classification recognition and retrieval performance of big data, a big data classification mining method based on distributional extraction of weak correlation index features is proposed. The sparse fusion method is adopted to perform clustering space division for big data flow. The high?dimensional fractal features of big data are reorganized by using the self?correlation feature matching method. The vector quantification method is adopted for convergence control of base element classification of big data. The weak correlation index features of big data information flow are extracted to realize optimization classification and mining of big data. The simulation results show that the method for data classification and mining improves the precision and recall performance of big data mining and retrieval, and has high mining accuracy and good anti?interference capability.
Keywords: big data; information fusion; classification mining; clustering space division; feature extraction
0 引 言
隨著網(wǎng)絡空間的不斷擴容以及網(wǎng)絡信息技術的發(fā)展,在網(wǎng)絡云存儲數(shù)據(jù)庫中,大數(shù)據(jù)存在較大的差異性特征,需要對大數(shù)據(jù)進行分類挖掘,提高對大數(shù)據(jù)信息庫的檢索和分類識別能力,研究大數(shù)據(jù)分類挖掘技術,在提高大數(shù)據(jù)檢索、訪問、調(diào)度和特征提取能力方面具有重要意義,相關的數(shù)據(jù)分類挖掘方法研究受到人們的極大重視[1]。當前主要采用主成分挖掘方法、粒子群分布式挖掘方法以及統(tǒng)計特征提取的大數(shù)據(jù)挖掘方法[2]。通過自適應分布式學習算法實現(xiàn)大數(shù)據(jù)挖掘,把網(wǎng)絡分布式云存儲大數(shù)據(jù)時間序列解析模型分解為含有多個非線性成分的統(tǒng)計量,進行數(shù)據(jù)的分布式特征重構,提高數(shù)據(jù)挖掘的抗干擾能力。但是隨著數(shù)據(jù)規(guī)模的擴大,挖掘的準確性不好,提出基于弱關聯(lián)性指數(shù)特征分布提取的大數(shù)據(jù)分類挖掘方法,首先進行大數(shù)據(jù)分布的統(tǒng)計特征分析,然后進行特征提取和數(shù)據(jù)分類算法設計,最后進行數(shù)據(jù)挖掘仿真實驗,得出有效性結論。
1 大數(shù)據(jù)的統(tǒng)計性特征分析
1.1 大數(shù)據(jù)的稀疏性融合
為了實現(xiàn)對大數(shù)據(jù)的分類挖掘優(yōu)化,首先采用統(tǒng)計特征分析方法進行大數(shù)據(jù)特征提取和信息重構,對大數(shù)據(jù)信息流采用稀疏性融合方法進行聚類空間劃分。本文研究的大數(shù)據(jù)對象為網(wǎng)絡分布式云存儲大數(shù)據(jù)。用圖表示網(wǎng)絡分布式云存儲大數(shù)據(jù)的輸入模型,統(tǒng)計特征分布的向量量化邊集為,單個存儲分布節(jié)點的信息覆蓋域為r,設,且,得到網(wǎng)絡分布式云存儲大數(shù)據(jù)的信息融合支持向量集為:
式中:和分別表示網(wǎng)絡分布式云存儲大數(shù)據(jù)的時域和頻域分布結構特征;和分別表示大數(shù)據(jù)的采樣時間間隔和波束分布間隔。采用觀測或?qū)嶒炇侄潍@得網(wǎng)絡分布式云存儲采樣的先驗知識[3],通過對數(shù)據(jù)的多元信息融合處理得到網(wǎng)絡分布式云存儲并行調(diào)度和重構的特征分布向量定義為:
式中:為網(wǎng)絡分布式云存儲特征分布矩陣的對角元素值;為測量誤差。通過大數(shù)據(jù)的稀疏性融合,得到網(wǎng)絡分布式云存儲重構的約束指標分布向量集,以此為特征基礎進行向量量化分析和數(shù)據(jù)重構。
1.2 大數(shù)據(jù)分類挖掘的聚類空間劃分
基于奈奎斯特采樣定理[4],結合大數(shù)據(jù)稀疏性融合結果,進行大數(shù)據(jù)分類挖掘聚類空間劃分,對大數(shù)據(jù)信息流特征重組模型進行歸一化處理,得數(shù)據(jù)分類挖掘指向性維數(shù)滿足:
式中,為對取模。對大數(shù)據(jù)聚類空間劃分,進行大數(shù)據(jù)信息流時頻分解,得分解式為:
式中,表示數(shù)據(jù)弱關聯(lián)指向性分布函數(shù),將提取指向性特征輸入到大數(shù)據(jù)分類挖掘傳輸信道中,進行向量量化分解。假設為時間窗函數(shù),通過構建大數(shù)據(jù)分類挖掘知識庫模型,得到數(shù)據(jù)的副本信息融合嵌入維數(shù)m滿足:endprint
通過自相關特征匹配方法進行大數(shù)據(jù)高維分形特征重組,假設分類特征重組的傳遞函數(shù),采用一個二維的連續(xù)函數(shù)進行大數(shù)據(jù)聚類的收斂性控制,得到大數(shù)據(jù)分類挖掘的極大熵的判決特征函數(shù)式為:
當網(wǎng)絡分布式云存儲數(shù)據(jù)是局部平穩(wěn)的,通過構造數(shù)據(jù)集的規(guī)則向量集,得到大數(shù)據(jù)分類挖掘的聚類空間為:
結合訓練數(shù)據(jù)集的規(guī)則向量子集解向量分布融合結果[5],得到大數(shù)據(jù)分類挖掘聚類空間分布的指向性函數(shù)為:
2 大數(shù)據(jù)分類挖掘?qū)崿F(xiàn)
在對大數(shù)據(jù)信息流采用稀疏性融合方法進行聚類空間劃分的基礎上,進行數(shù)據(jù)分類特征提取和挖掘過程優(yōu)化,本文提出一種基于弱關聯(lián)性指數(shù)特征分布提取的大數(shù)據(jù)分類挖掘方法,采用向量量化方法進行大數(shù)據(jù)的基元分類的收斂性控制[6],向量量化的特征函數(shù)為:
式中:表示大數(shù)據(jù)特征序列的相關性指數(shù)系數(shù);表示先驗點簇;表示信息融合的深度;為數(shù)據(jù)的關聯(lián)維。
利用數(shù)據(jù)集的相似性分布式重建方法,得到數(shù)據(jù)的時頻分解的變換定義為:
經(jīng)自相關特征匹配,則數(shù)據(jù)聚類目標函數(shù)為:
式中,為數(shù)據(jù)特征分布子帶信息。采用向量量化方法進行大數(shù)據(jù)的基元分類的收斂性控制[7],提取數(shù)據(jù)的能量密度譜(Spectrogram,SPEC)為:
基于模糊聚類方法進行數(shù)據(jù)分類挖掘,數(shù)據(jù)分類挖掘的特征空間的維數(shù)滿足: (14)
網(wǎng)絡分布式云存儲重構的誤差項滿足高斯?馬爾科夫假設。將網(wǎng)絡分布式云存儲重構的約束指標矩陣改寫為邊緣分布矩陣為:
式中:為的關聯(lián)維向量;為的云數(shù)據(jù)的聚類指向性分布矩陣;為的參數(shù)向量;為的網(wǎng)絡分布式云存儲聚類的誤差向量。提取大數(shù)據(jù)信息流的弱關聯(lián)性指數(shù)特征,得到關聯(lián)數(shù)據(jù)的線性組合為:
利用IFFT變換進行大數(shù)據(jù)的弱關聯(lián)性特征估計,得到:
分析上述提取的特征估計結果得知,由于大數(shù)據(jù)分類挖掘的過程受到大數(shù)據(jù)的基元分類的收斂性控制,所以大數(shù)據(jù)分類挖掘的收斂性較好,準確性得以提高。
3 實驗分析
對大數(shù)據(jù)分類挖掘的仿真實驗建立在Matlab仿真環(huán)境基礎上,大數(shù)據(jù)為網(wǎng)絡分布式云存儲大數(shù)據(jù),實驗仿真環(huán)境為:Intel Core3?530 1 GB內(nèi)存,操作系統(tǒng)為Windows 7,大數(shù)據(jù)分布的陣元數(shù)目為64,初始采樣的信噪比定為8 dB,數(shù)據(jù)特征分布的隨機點個數(shù)為3,數(shù)據(jù)分布的頻帶為4~25 kHz。根據(jù)上述仿真設定,得大數(shù)據(jù)的原始分布時域波形如圖1所示。
以圖1給出的大數(shù)據(jù)為研究對象,進行分類挖掘,提取大數(shù)據(jù)信息流的弱關聯(lián)性指數(shù)特征,實現(xiàn)大數(shù)據(jù)分類挖掘。圖2給出了采用本文方法和傳統(tǒng)的統(tǒng)計特征分析方法進行數(shù)據(jù)分類挖掘的準確性對比。分析得知,采用本文方法進行大數(shù)據(jù)挖掘檢索的查準性和查全性較高,提高了大數(shù)據(jù)挖掘的準確性。
4 結 語
本文提出一種基于弱關聯(lián)性指數(shù)特征分布提取的大數(shù)據(jù)分類挖掘方法,對大數(shù)據(jù)信息流采用稀疏性融合方法進行聚類空間劃分。通過自相關特征匹配方法進行大數(shù)據(jù)高維分形特征重組,采用向量量化方法進行大數(shù)據(jù)的基元分類的收斂性控制,提取大數(shù)據(jù)信息流的弱關聯(lián)性指數(shù)特征,實現(xiàn)大數(shù)據(jù)的優(yōu)化分類和挖掘。研究得知,采用該方法進行大數(shù)據(jù)分類挖掘,提高了大數(shù)據(jù)挖掘檢索的查準性和查全性,挖掘的準確性較高,抗干擾能力較好,具有很好的應用價值。
參考文獻
[1] 王變琴,余順爭.自適應網(wǎng)絡應用特征發(fā)現(xiàn)方法[J].通信學報,2013,34(4):127?137.
[2] 何力,丁兆云,賈焰,等.大規(guī)模層次分類中的候選類別搜索[J].計算機學報,2014,37(1):41?49.
[3] 李保利.基于類別層次結構的多層文本分類樣本擴展策略[J].北京大學學報(自然科學版),2015,51(2):357?366.
[4] HE Y, ZHANG C S, TANG X M, et al. Coherent integration loss due to pulses loss and phase modulation in passive bistatic radar [J]. Digital signal processing, 2013, 23(4): 1265?1276.
[5] HAO H. Multi component LFM signal detection and parameter estimation based on EEMD?FRFT [J]. International journal for light and electron optics, 2013, 124(23): 6093?6096.
[6] GOVONI M A, LI H, KOSINSKI J A. Range?doppler resolution of the linear?FM noise radar waveform [J]. IEEE transactions on aerospace and electronic systems, 2013, 49(1): 658?664.
[7] 狄嵐,于曉瞳,梁久禎.基于信息濃縮的隱私保護支持向量機分類算法[J].計算機應用,2016,36(2):392?396.endprint