楊海鵬
(吉林工程技術(shù)師范學(xué)院 信息工程學(xué)院,長(zhǎng)春 130052)
通過(guò)構(gòu)建大數(shù)據(jù)挖掘模型,提高對(duì)云計(jì)算環(huán)境下大數(shù)據(jù)挖掘和查詢的精度,進(jìn)行大數(shù)據(jù)特征信息采樣,能實(shí)現(xiàn)對(duì)大數(shù)據(jù)的遠(yuǎn)程信息探測(cè)和自適應(yīng)調(diào)度,為了提高大數(shù)據(jù)的分類融合和特征識(shí)別能力,需要進(jìn)行大數(shù)據(jù)的粗糙集挖掘,建立相關(guān)粗糙集連續(xù)屬性離散數(shù)據(jù)的特征提取模型,在提高大數(shù)據(jù)的挖掘和自適應(yīng)分類能力方面具有重要意義[1].
對(duì)粗糙集連續(xù)屬性離散數(shù)據(jù)的特征提取是建立在對(duì)數(shù)據(jù)的聚類屬性分析基礎(chǔ)上,采用自適應(yīng)特征分類方法,進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)檢測(cè),采用特征標(biāo)注方法構(gòu)建粗糙集連續(xù)屬性分布 的特征辨識(shí)模型[2],結(jié)合關(guān)聯(lián)規(guī)則挖掘方法,實(shí)現(xiàn)粗糙集連續(xù)屬性離散檢驗(yàn).傳統(tǒng)方法中,對(duì)粗糙集連續(xù)屬性離散檢驗(yàn)方法主要有關(guān)聯(lián)規(guī)則挖掘方法、模糊特征提取方法和C 均值聚類方法,建立粗糙集連續(xù)屬性離散分布模型[3],采用相關(guān)均衡控制方法,進(jìn)行粗糙集連續(xù)屬性離散檢驗(yàn).文獻(xiàn)[4]中提出一種基于梯度提升回歸樹(shù)的粗糙集連續(xù)屬性離散數(shù)據(jù)信息熵離散檢驗(yàn)?zāi)P?,?gòu)建粗糙集連續(xù)屬性離散數(shù)據(jù)的特征權(quán)重分布式檢測(cè)模型,采用融合相關(guān)性聚類分析方法實(shí)現(xiàn)數(shù)據(jù)回歸分析,提高數(shù)據(jù)的信息熵離散檢驗(yàn)識(shí)別能力,但該方法的計(jì)算開(kāi)銷較大,對(duì)粗糙集連續(xù)屬性分布檢驗(yàn)的實(shí)時(shí)性不好.文獻(xiàn)[5]中提出基于關(guān)聯(lián)特征分布檢測(cè)的粗糙集連續(xù)屬性離散數(shù)據(jù)離散檢驗(yàn)方法,提取粗糙集連續(xù)屬性離散數(shù)據(jù)的關(guān)聯(lián)特征分布集和屬性集,根據(jù)粗糙集連續(xù)屬性離散數(shù)據(jù)的屬性分布實(shí)現(xiàn)特征提取和離散檢驗(yàn),但該方法進(jìn)行數(shù)據(jù)特征離散檢驗(yàn)的模糊度較大,收斂性不太好.
針對(duì)上述問(wèn)題,提出基于信息熵的粗糙集連續(xù)屬性離散檢驗(yàn)算法,采用特征空間重組方法進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)的模糊特征重構(gòu),提取粗糙集連續(xù)屬性離散數(shù)據(jù)的信息熵;并對(duì)所提取的信息熵進(jìn)行聚類分析,建立連續(xù)屬性分布數(shù)據(jù)的信息熵提取模型,采用模糊聚類方法實(shí)現(xiàn)對(duì)粗糙集連續(xù)屬性的離散特征挖掘和聚類分析;最后根據(jù)粗糙集連續(xù)屬性的融合結(jié)果,實(shí)現(xiàn)離散檢驗(yàn)和數(shù)據(jù)挖掘.
為了實(shí)現(xiàn)粗糙集連續(xù)屬性離散數(shù)據(jù)信息熵離散檢驗(yàn),首先構(gòu)建粗糙集連續(xù)屬性離散數(shù)據(jù)的分布式存儲(chǔ)結(jié)構(gòu)模型,采用顯著性區(qū)域調(diào)度方法進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)的信息融合處理;再構(gòu)建粗糙集連續(xù)屬性離散數(shù)據(jù)優(yōu)化調(diào)度和特征提取模型,進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)的自適應(yīng)離散檢驗(yàn)[6];分析粗糙集連續(xù)屬性離散數(shù)據(jù)的離散空間調(diào)度模型,采用模糊鏈路控制方法,進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)的融合調(diào)度,得到粗糙集連續(xù)屬性離散自適應(yīng)加權(quán)權(quán)重為
通過(guò)對(duì)粗糙集連續(xù)屬性特征分析,構(gòu)建粗糙集連續(xù)屬性離散數(shù)據(jù)的統(tǒng)計(jì)特征分布樣本集為
其中,k為粗糙集連續(xù)屬性離散數(shù)據(jù)的灰度空間分布權(quán)重.采用離散序列調(diào)度方法,構(gòu)建粗糙集連續(xù)屬性離散數(shù)據(jù)的特征匹配模型[7],根據(jù)多分量檢測(cè)方法進(jìn)行粗糙集信息離散檢驗(yàn),實(shí)現(xiàn)粗糙集連續(xù)屬性離散檢測(cè),得到檢測(cè)統(tǒng)計(jì)量為
根據(jù)特征譜的聚類權(quán)重進(jìn)行模糊自適應(yīng)聚類處理,構(gòu)建粗糙集連續(xù)屬性離散數(shù)據(jù)分布的有限數(shù)據(jù)集模型[8],得到粗糙集連續(xù)屬性離散調(diào)度的關(guān)聯(lián)特征為
在分散子空間中進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)的特征重構(gòu)[9],構(gòu)建粗糙集連續(xù)屬性離散數(shù)據(jù)的統(tǒng)計(jì)分布序列特征矩陣滿足
采用決策樹(shù)模型,構(gòu)建粗糙集連續(xù)屬性離散數(shù)據(jù)的空間聚類模型.
根據(jù)上述分析,可得到粗糙集連續(xù)屬性離散數(shù)據(jù)分布結(jié)構(gòu)模型如圖1 所示.
圖1 粗糙集連續(xù)屬性離散數(shù)據(jù)分布結(jié)構(gòu)模型
采用特征空間重組方法進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)的模糊特征重構(gòu),提取粗糙集連續(xù)屬性離散數(shù)據(jù)的信息熵,采用決策樹(shù)算法進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)信息熵離散檢驗(yàn),得到量化特征分布集定義為D,D={S i,j(t) ,Ti,j(t) ,U i,j(t)}.其中,S i,j(t)表示粗糙集連續(xù)屬性離散數(shù)據(jù)特征權(quán)重的重復(fù)因素;Ti,j(t)表示粗糙集連續(xù)屬性離散數(shù)據(jù)信息熵離散檢驗(yàn)的輸出量因素;U i,j(t)表示相似度(相關(guān)性)模型.對(duì)粗糙集連續(xù)屬性的離散數(shù)據(jù)特征權(quán)重關(guān)聯(lián)規(guī)則特征量進(jìn)行量化回歸分析,定義為
提取粗糙集連續(xù)屬性離散數(shù)據(jù)的信息熵特征量,根據(jù)信息熵特征提取結(jié)果,進(jìn)行粗糙集連續(xù)屬性大數(shù)據(jù)挖掘,得到粗糙集連續(xù)屬性離散數(shù)據(jù)的閉繁項(xiàng)關(guān)聯(lián)分析度量值為
其中,p i,j(t)為粗糙集連續(xù)屬性離散數(shù)據(jù)信息熵離散檢驗(yàn)的互信息量;sp i,j(t)為粗糙集連續(xù)屬性離散數(shù)據(jù)特征權(quán)重檢測(cè)的分叉度重復(fù)量;Δp(t)為增益系數(shù);z i(t),z j(t)表示為粗糙集連續(xù)屬性離散數(shù)據(jù)特征權(quán)重檢測(cè)的模糊度函數(shù).
由此建立粗糙集連續(xù)屬性離散數(shù)據(jù)的特征提取和信息融合處理方法,并采用模糊C 均值聚類分析方法構(gòu)建粗糙集連續(xù)屬性的離散特征分析模型,利用隨機(jī)數(shù)檢測(cè)方法進(jìn)行粗糙集連續(xù)屬性的離散檢驗(yàn)[10].
在云計(jì)算環(huán)境下進(jìn)行粗糙集連續(xù)屬性大數(shù)據(jù)挖掘,采用特征空間重組方法進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)的模糊特征重構(gòu),對(duì)粗糙集連續(xù)屬性離散檢驗(yàn)優(yōu)化,主要分為2 個(gè)步驟:1)采用粗糙集連續(xù)屬性關(guān)聯(lián)挖掘方法,進(jìn)行離散數(shù)據(jù)特征權(quán)重的回歸分析,對(duì)粗糙集解結(jié)構(gòu)重組;2)提取粗糙集連續(xù)屬性離散數(shù)據(jù)的信息熵,對(duì)所提取信息熵進(jìn)行聚類分析,得到粗糙集連續(xù)屬性離散數(shù)據(jù)的信息熵特征提取結(jié)果,構(gòu)建粗糙集連續(xù)屬性離散數(shù)據(jù)集的特征匹配函數(shù),在數(shù)據(jù)聚類中心得到優(yōu)化的粗糙集連續(xù)屬性離散數(shù)據(jù)檢驗(yàn)輸出.
采用相空間重構(gòu)方法進(jìn)行模糊特征重構(gòu).用一個(gè)四元組(Ei,E j,d,t)來(lái)表示粗糙集連續(xù)屬性離散數(shù)據(jù)特征權(quán)重的統(tǒng)計(jì)分布特征量,其中:Ei,Ej是粗糙集連續(xù)屬性離散數(shù)據(jù)特征權(quán)重的實(shí)體集(即節(jié)點(diǎn)i和j);d為粗糙集連續(xù)屬性離散數(shù)據(jù)特征權(quán)重的交互性統(tǒng)計(jì)數(shù)據(jù);t為粗糙集連續(xù)屬性離散數(shù)據(jù)信息熵離散檢驗(yàn)的時(shí)間延遲.采用粗糙集特征重構(gòu)方法[11],進(jìn)行統(tǒng)計(jì)時(shí)間序列分析,得到粗糙集連續(xù)屬性離散數(shù)據(jù)特征權(quán)重的決策樹(shù)分布特征量化集為
采用一個(gè)1×N的矩陣進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)特征權(quán)重分類,用離散檢驗(yàn)分析方法確定粗糙集連續(xù)屬性離散數(shù)據(jù)特征權(quán)重的離散檢驗(yàn)時(shí)間窗口值N,構(gòu)建多維熵矩陣.在相空間重構(gòu)模型中,建立粗糙集連續(xù)屬性離散數(shù)據(jù)的特征權(quán)重分析模型[12],建立窄時(shí)域窗TLX和TLY,得到粗糙集連續(xù)屬性離散數(shù)據(jù)特征權(quán)重的模糊特征提取模型為
設(shè)粗糙集連續(xù)屬性離散數(shù)據(jù)特征權(quán)重的分布為m,先用信息熵特征分析方法得到粗糙集屬性集為 *jN,再采用粗糙集連續(xù)屬性關(guān)聯(lián)挖掘方法進(jìn)行離散數(shù)據(jù)特征權(quán)重的回歸分析,得到粗糙集連續(xù)屬性離散數(shù)據(jù)空間重組為
根據(jù)粗糙集連續(xù)屬性挖掘結(jié)果,進(jìn)行離散數(shù)據(jù)特征分類檢測(cè),構(gòu)建粗糙集連續(xù)屬性離散調(diào)度模型,進(jìn)行粗糙集解結(jié)構(gòu)重組[13].
建立粗糙集連續(xù)屬性離散數(shù)據(jù)的信息融合模型,采用大數(shù)據(jù)挖掘方法進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)空間重組的信息融合,其輸出為
大數(shù)據(jù)集在節(jié)點(diǎn)si處的能量譜密度,采用主成分分析方法構(gòu)建粗糙集連續(xù)屬性離散數(shù)據(jù)特征權(quán)重的回歸分析模型,采用特征空間重組方法進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)的模糊特征重構(gòu)和聚類處理,待檢驗(yàn)的粗糙集連續(xù)屬性離散數(shù)據(jù)按照五元組離散檢驗(yàn),得到粗糙集連續(xù)屬性離散數(shù)據(jù)信息熵的分布概率密度特征為
根據(jù)粗糙集連續(xù)屬性離散數(shù)據(jù)的屬性分布構(gòu)建統(tǒng)計(jì)分布量化函數(shù),粗糙集連續(xù)屬性離散數(shù)據(jù)特征權(quán)重分布的互信息量為
采用關(guān)聯(lián)規(guī)則分層調(diào)度方法,進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)的信息熵離散檢驗(yàn)和可靠性評(píng)估,得到可靠性評(píng)價(jià)函數(shù)表述為
建立核函數(shù),采用自適應(yīng)加權(quán)控制方法進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)的信息熵特征提取,采用離散檢驗(yàn)分析方法進(jìn)行模糊聚類,可得到聚類中心表示為
對(duì)粗糙集連續(xù)屬性離散檢驗(yàn)的調(diào)度函數(shù)為
構(gòu)建粗糙集連續(xù)屬性離散數(shù)據(jù)集的特征匹配函數(shù),在數(shù)據(jù)聚類中心,得到優(yōu)化的粗糙集連續(xù)屬性離散數(shù)據(jù)檢驗(yàn)輸出為
其中,m為粗糙集連續(xù)屬性離散數(shù)據(jù)信息熵離散檢驗(yàn)的適應(yīng)度函數(shù);(dik)2為樣本xk與特征聚類中心與樣本Vi的測(cè)度距離.
綜上分析,根據(jù)粗糙集連續(xù)屬性的融合結(jié)果,可以實(shí)現(xiàn)離散檢驗(yàn)和數(shù)據(jù)挖掘.
為了驗(yàn)證本文方法在實(shí)現(xiàn)粗糙集連續(xù)屬性離散檢驗(yàn)中的性能,進(jìn)行軟件仿真實(shí)驗(yàn).采用Matlab 和C++進(jìn)行算法設(shè)計(jì),粗糙集連續(xù)屬性的大數(shù)據(jù)采樣樣本為1 200,粗糙集連續(xù)屬性離散數(shù)據(jù)采樣樣本個(gè)數(shù)為2 000,特征分布的權(quán)重系數(shù)為0.34,對(duì)粗糙集連續(xù)屬性離散數(shù)據(jù)信息采樣周期T=0.45 s,粗糙集屬性信息干擾強(qiáng)度SNR=(-20~0) dB.根據(jù)上述仿真環(huán)境和參數(shù)設(shè)定,進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)檢驗(yàn),得到粗糙集連續(xù)屬性離散數(shù)據(jù)的大數(shù)據(jù)集采樣時(shí)域分布如圖2 所示.
圖2 粗糙集連續(xù)屬性離散數(shù)據(jù)采樣
以圖2 的數(shù)據(jù)為研究對(duì)象,提取粗糙集連續(xù)屬性離散數(shù)據(jù)的信息熵特征,結(jié)果如圖3 所示.
圖3 粗糙集連續(xù)屬性離散數(shù)據(jù)的信息熵特征
分析圖3 得知,采用本文方法進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)特征提取的聚集性較好.測(cè)試不同方法下進(jìn)行的粗糙集連續(xù)屬性離散數(shù)據(jù)離散性檢驗(yàn),所得結(jié)果如圖4 所示.
圖4 不同方法下粗糙集連續(xù)屬性離散數(shù)據(jù)檢驗(yàn)
由圖4 可知,按本文方法進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)信息熵離散檢驗(yàn)的收斂能力較好.為進(jìn)一步分析不同檢驗(yàn)方法的收斂性,整理出實(shí)驗(yàn)數(shù)據(jù)結(jié)果如表1 所示.
表1 不同檢驗(yàn)方法的收斂度對(duì)比 %
根據(jù)表1 可知,隨著迭代次數(shù)的增加,4 種方法的收斂程度均有所下降,但本文所提方法收斂程度最高;在迭代次數(shù)為400 時(shí),本文方法離散檢驗(yàn)的收斂程度為0.265%,遠(yuǎn)高于其它方法,證明本文方法進(jìn)行粗糙集連續(xù)屬性離散數(shù)據(jù)檢驗(yàn)的誤分類率較低,收斂性較好.
通過(guò)提取粗糙集連續(xù)屬性離散數(shù)據(jù)的信息熵,得到粗糙集連續(xù)屬性離散數(shù)據(jù)所分布的序列特征,對(duì)其進(jìn)行模糊聚類分析,獲取離散數(shù)據(jù)閉繁項(xiàng)關(guān)聯(lián)分析度量;再對(duì)粗糙集連續(xù)屬性離散數(shù)據(jù)進(jìn)行空間重組和信息融合,優(yōu)化離散檢驗(yàn)輸出,以提高大數(shù)據(jù)粗糙集的分類融合和特征識(shí)別能力.仿真結(jié)果表明,采用本文方法進(jìn)行粗糙集連續(xù)屬性離散檢驗(yàn)的數(shù)據(jù)聚類性較好,其收斂程度優(yōu)于常見(jiàn)的3 種聚類算法,且在迭代次數(shù)為400 時(shí),收斂程度仍高達(dá)0.265%.