龐天杰
(太原師范學(xué)院 計算機系,山西 晉中 030619)
?
基于模糊改進(jìn)聚類分析的數(shù)據(jù)挖掘模型
龐天杰
(太原師范學(xué)院 計算機系,山西 晉中 030619)
針對對海量數(shù)據(jù)庫中的大數(shù)據(jù)進(jìn)行優(yōu)化挖掘,可以提高數(shù)據(jù)特征的提取和檢測能力.傳統(tǒng)方法采用模糊C均值聚類的數(shù)據(jù)挖掘算法,當(dāng)數(shù)據(jù)在層次聚類過程中空間特征的相似度差異性較小時,數(shù)據(jù)挖掘的準(zhǔn)確度不高.提出一種基于粒子群混沌差分訓(xùn)練對模糊C均值聚類算法進(jìn)行改進(jìn),建立數(shù)據(jù)挖掘優(yōu)化模型.首先提出了數(shù)據(jù)聚類據(jù)挖掘模型的總體構(gòu)架,采用非線性時間序列分析方法進(jìn)行數(shù)據(jù)信息流擬合,對數(shù)據(jù)信息流進(jìn)行高階累積量特征提取,采用粒子群混沌差分訓(xùn)練實現(xiàn)模糊C均值聚類算法改進(jìn).以改進(jìn)的模糊聚類算法對提取的高階累積量特征進(jìn)行聚類分析,以分析結(jié)果為依據(jù)對數(shù)據(jù)挖掘模型進(jìn)行優(yōu)化.仿真結(jié)果表明,該數(shù)據(jù)挖掘模型能有效實現(xiàn)海量數(shù)據(jù)的優(yōu)化聚類和特征提取,數(shù)據(jù)挖掘的精度較高,性能較好,避免挖掘過程陷入局部收斂.
模糊C均值聚類;數(shù)據(jù)挖掘;混沌;粒子群
隨著網(wǎng)絡(luò)大數(shù)據(jù)信息處理技術(shù)的不斷發(fā)展以及云計算的深入應(yīng)用,海量的大數(shù)據(jù)通過云存儲分布在網(wǎng)絡(luò)空間中,如何能從海量的大數(shù)據(jù)中提取有用的信息特征,實現(xiàn)信息檢索和分離,成為相關(guān)領(lǐng)域?qū)<已芯康闹攸c.?dāng)?shù)據(jù)挖掘又稱為數(shù)據(jù)探勘、數(shù)據(jù)采礦,是建立在對海量數(shù)據(jù)的信息特征提取和時間序列分析模型構(gòu)建的基礎(chǔ)上,進(jìn)行數(shù)據(jù)聚類分析和特征檢測的關(guān)鍵技術(shù),數(shù)據(jù)挖掘可以實現(xiàn)對海量數(shù)據(jù)信息特征的可靠性檢測和感興趣數(shù)據(jù)的統(tǒng)計和在線分析處理,通過構(gòu)建專家信息庫,實現(xiàn)專家系統(tǒng)構(gòu)建和機器學(xué)習(xí)等,是解決上述問題的有效途徑之一,同時,優(yōu)化的數(shù)據(jù)挖掘模型將在模式識別、故障診斷和情報檢索等領(lǐng)域具有較高的應(yīng)用價值.
對海量數(shù)據(jù)進(jìn)行挖掘是建立在數(shù)據(jù)信息流的時間序列分析的基礎(chǔ)上,通過對數(shù)據(jù)信息流的特征信息提取,實現(xiàn)數(shù)據(jù)的聚類挖掘,傳統(tǒng)方法進(jìn)行數(shù)據(jù)挖掘主要采用基于時頻分析的數(shù)據(jù)挖掘方法、基于粒子群聚類的數(shù)據(jù)挖掘算法、基于語義特征提取的數(shù)據(jù)挖掘算法、基于波束形成的數(shù)據(jù)挖掘算法和基于支持向量機的數(shù)據(jù)挖掘算法等[1-4],根據(jù)以上算法原理,相關(guān)學(xué)者進(jìn)行了數(shù)據(jù)挖掘算法的研究與改進(jìn),其中,文獻(xiàn)[5]提出一種基于自相關(guān)特征匹配的數(shù)據(jù)挖掘算法,對海量級聯(lián)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行自相關(guān)波束形成,通過波束形成提高數(shù)據(jù)的聚焦性能,結(jié)合功率譜密度特征提取實現(xiàn)數(shù)據(jù)優(yōu)化聚類和挖掘,但是該算法的缺點是計算開銷過大,海量數(shù)據(jù)挖掘的實時性不好;文獻(xiàn)[6]提出一種基于文本檢測法的網(wǎng)絡(luò)數(shù)據(jù)庫中關(guān)聯(lián)特征數(shù)據(jù)挖掘算法,在云計算環(huán)境下,采用層次聚類法以及文本檢測進(jìn)行數(shù)據(jù)的非線性特征空間重構(gòu),在此基礎(chǔ)上進(jìn)行語義關(guān)聯(lián)特征檢索和特征濾波匹配,提高了數(shù)據(jù)挖掘和數(shù)據(jù)庫優(yōu)化訪問的性能,但該算法在干擾較大的情況下降低了數(shù)據(jù)檢測和挖掘的準(zhǔn)確性;文獻(xiàn)[7]采用模糊C均值聚類方法實現(xiàn)數(shù)據(jù)挖掘,當(dāng)數(shù)據(jù)在層次聚類過程中空間特征的相似度差異性較小時,數(shù)據(jù)挖掘的準(zhǔn)確度不高.
針對上述問題,提出一種基于粒子群混沌差分訓(xùn)練對模糊C均值聚類算法進(jìn)行改進(jìn),建立數(shù)據(jù)挖掘優(yōu)化模型.首先提出了數(shù)據(jù)聚類據(jù)挖掘模型的總體構(gòu)架,進(jìn)行數(shù)據(jù)結(jié)構(gòu)分析,采用非線性時間序列分析方法進(jìn)行數(shù)據(jù)信息流擬合,以數(shù)據(jù)信息流為研究對象提取數(shù)據(jù)的高階累積量特征,描述了模糊C均值聚類(Fuzzy C means clustering,FCM)算法原理,采用粒子群混沌差分訓(xùn)練方法進(jìn)行模糊C均值聚類算法改進(jìn),針對海量的高階累積量數(shù)據(jù)特征,采用改進(jìn)的模糊C均值聚類算法實現(xiàn)數(shù)據(jù)挖掘模型優(yōu)化,最后通過仿真實驗進(jìn)行了性能測試,展示了本文設(shè)計的聚類算法的優(yōu)越性能.
1.1 數(shù)據(jù)挖掘的總體模型構(gòu)架
(1)
在(1)式中,i=1,2,…,S,Nc,Nre和Ned分別表示數(shù)據(jù)挖掘的迭代次數(shù)、單位步長下數(shù)據(jù)個體前進(jìn)趨化次數(shù)和后綴項表個數(shù).
Xi(j+1,k,l)=Xi(j,k,l)+θi×step×φ(i)
(2)
(3)
在上式中,step表示迭代步長,φ(i)表示屬性值的集合階數(shù),Xrand(j,k,l)為當(dāng)前數(shù)據(jù)分布節(jié)點在Xi(j,k,l)處的先驗概率,數(shù)據(jù)分布結(jié)構(gòu)進(jìn)行調(diào)整后的空間狀態(tài)矢量特征聚類中心的距離滿足:
DS=‖Xi(j,k,l)-Xrand(j,k,l)‖
(4)
圖1 數(shù)據(jù)庫中海量數(shù)據(jù)挖掘的總體流程
假設(shè)頻繁模式下數(shù)據(jù)粗糙集ai的屬性值為{c1,c2,…,ck}.利用上述獲取的特征聚類中心對數(shù)據(jù)粗糙集ai的屬性值進(jìn)行不斷篩選,直到尋找符合頻繁模式的候選數(shù)據(jù)集合,通過數(shù)據(jù)的信息特征表達(dá)模式,實現(xiàn)數(shù)據(jù)挖掘,根據(jù)上述分析,得到對數(shù)據(jù)庫中海量數(shù)據(jù)挖掘的總體流程如圖1所示.
1.2 數(shù)據(jù)信息流優(yōu)化模型構(gòu)建
在上述數(shù)據(jù)挖掘總體設(shè)計的基礎(chǔ)上,為了實現(xiàn)數(shù)據(jù)挖掘模型的優(yōu)化,需要建立數(shù)據(jù)信息流模型,首先假設(shè)X和Y為的數(shù)據(jù)流微簇分類屬性集合,采用非線性時間序列分析方法建立數(shù)據(jù)流微簇模型,將其作為研究對象,采用滑動時間窗口采樣方法提取大數(shù)據(jù)信息流的高階累積量特征[8-10],以此為基礎(chǔ),獲取階累積量特征向量量化所需的時間序列為{x(t0+iΔt)},i=0,1,…,N-1,在向量量化分布空間中海量數(shù)據(jù)的標(biāo)記符中心CF記為CF=〈F,Q,n,RT1,RT2,RW〉,數(shù)據(jù)流時間采樣的滑動窗口總數(shù)為n,數(shù)據(jù)特征的平均測度為ε,當(dāng)ε滿足2-λt<ε,λ>0的條件時,利用公式(5)建立數(shù)據(jù)信息流模型:
X=[x(t0),x(t0+Δt),…,x(t0+(K-1)Δt)]=
(5)
在(5)式中,x(t)表示不同時間和頻率下的數(shù)據(jù)采樣時間序列,J是局部均值,m是時移不變性特征函數(shù).假設(shè)在數(shù)據(jù)存儲空間內(nèi),由于數(shù)據(jù)分布的非連續(xù)層次性,導(dǎo)致在數(shù)據(jù)挖掘中產(chǎn)生位置和聚類屬性偏移,數(shù)據(jù)時頻分布的標(biāo)量時間序列為x(t),t=0,1,…,n-1,對數(shù)據(jù)的語義狀態(tài)特征進(jìn)行量化編碼,利用公式(6)對數(shù)據(jù)信息流模型進(jìn)行優(yōu)化:
u=[u1,u2,…,uN]∈RmN
(6)
其中,m,n分別是在數(shù)據(jù)的模糊聚類矢量空間中的嵌入為維數(shù)和深度,根據(jù)上述描述,構(gòu)建數(shù)據(jù)信息流模型,以此為基礎(chǔ)進(jìn)行數(shù)據(jù)挖掘改進(jìn)設(shè)計.
2.1 模糊C均值數(shù)據(jù)聚類及改進(jìn)
(7)
當(dāng)滿足梯度特征差異度顯著、聚類中心初始值一定的情況下,以不同的關(guān)聯(lián)指向性特征為依據(jù),提取非連續(xù)層次數(shù)據(jù)的模糊聚類中心,對數(shù)據(jù)聚類過程進(jìn)行自適應(yīng)訓(xùn)練,訓(xùn)練過程分別表示為:
(8)
(9)
(10)
X={x1,x2,…,xn}?Rs
(11)
利用上述的粒子群混沌差分訓(xùn)練方法,對語義本體模型集進(jìn)行禁忌搜索,完成種群樣本xi,i=1,2,…,n的優(yōu)化,并利用公式(12)獲取種群樣本的最大趨化算子:
xi=(xi1,xi2,…,xis)T
(12)
在利用粒子群混沌差分訓(xùn)練執(zhí)行算子后,把有限數(shù)據(jù)集合X分為c類,利用公式(13)獲取挖掘模糊聚類中心矩陣:
V={vij|i=1,2,…,c,j=1,2,…,s}
(13)
在(13)式中,Vi為數(shù)據(jù)特征分解的第i個矢量.
對優(yōu)化后的種群粒子進(jìn)行判斷,確定是否達(dá)到最大趨化,將達(dá)到最大趨化海量數(shù)據(jù)進(jìn)行交叉編譯,利用公式(14)輸出的編譯結(jié)果:
引入={μik=1,2,…,c,k=1,2,…,n}
(14)
引入混沌擾動量對編譯結(jié)果進(jìn)行不斷更新,結(jié)合公式(13),利用公式(15)獲取數(shù)據(jù)挖掘的聚類目標(biāo)函數(shù):
(15)
在(15)式中,m為粒子種群大小,(dik)2為采樣的海量數(shù)據(jù)樣本xk與Vi的測度距離,利用公式(16)進(jìn)行計算:
(dik)2=‖xk-Vi‖2
(16)
滿足
(17)
假設(shè)Nc,Nre和Ned分別表示粒子的趨向性運動次數(shù)、粒子復(fù)制次數(shù)和粒子遷徙次數(shù),根據(jù)混沌差分進(jìn)化算法的全局搜索性尋找聚類目標(biāo)函數(shù)進(jìn)行求解,利用公式(18)求得粒子群混沌差分訓(xùn)練后的優(yōu)化數(shù)據(jù)聚類目標(biāo)函數(shù)的最優(yōu)解,提高數(shù)據(jù)聚類算法的尋優(yōu)能力,完成模糊C均值數(shù)據(jù)聚類的改進(jìn):
(18)
2.2 特征提取及數(shù)據(jù)挖掘算法實現(xiàn)
利用上述改進(jìn)的模糊C均值聚類算法,進(jìn)行數(shù)據(jù)挖掘模型優(yōu)化設(shè)計,詳細(xì)實現(xiàn)過程描述如下:假設(shè)數(shù)據(jù)信息流中時域窗TLX,TLY,利用公式(19)獲取二維平面(m,n)上數(shù)據(jù)信息流的空間軌跡:
(19)
假設(shè)在兩個離散采樣網(wǎng)格參數(shù)內(nèi)的高階累積量密度譜為amn,采用Gabor基函數(shù)對數(shù)據(jù)信息流的空間軌跡進(jìn)行自適應(yīng)誤差修正,修正值為:
(20)
以自適應(yīng)誤差修正后的數(shù)據(jù)信息流空間軌跡為依據(jù),利用選擇特定的窗函數(shù),通過積分變換核得到輸出的數(shù)據(jù)信息流的高階累積量為:
(21)
(22)
數(shù)據(jù)編碼后,為了反映出數(shù)據(jù)類群的多樣性特征,按照差分進(jìn)化(DE,differential evolution)算法流程進(jìn)行數(shù)據(jù)挖掘,在聚類中心的輻射半徑內(nèi),得到NP個數(shù)據(jù)的混沌序列:
xn+1=4xn(1-xn)n=1,2,…,NP
(23)
獲取混沌序列中非連續(xù)層次數(shù)據(jù)的擾動變量,通過高階累積量特征提取,把特征數(shù)據(jù)加入到擾動變量中,結(jié)合混沌分量的伴隨跟蹤性,獲取數(shù)據(jù)挖掘的迭代方程為:
Δxi=a+(b-a)xnn=1,2,…,NP
(24)
數(shù)據(jù)挖掘迭代方程可以使數(shù)據(jù)之間的交叉項之間產(chǎn)生衰減,避免了在數(shù)據(jù)挖掘過程中陷入局部最優(yōu),利用公式(25)建立數(shù)據(jù)挖掘的優(yōu)化模型:
(25)
為了測試本文算法在實現(xiàn)數(shù)據(jù)模糊改進(jìn)聚類和優(yōu)化挖掘中的性能,進(jìn)行仿真實驗.實驗采用Matlab仿真軟件進(jìn)行數(shù)據(jù)挖掘算法的編程設(shè)計,參數(shù)設(shè)計中,粒子個體10 000,最大種群數(shù)S=59 023,迭代次數(shù)K1=456,K2=240.設(shè)置r1=r2=1,p1=2,m=12,L2=12,粒子位置的閾值設(shè)為μ=10,數(shù)據(jù)的采樣的間隔為0.26 ms,大數(shù)據(jù)信息采樣的歸一化初始頻率f1=0.8,大數(shù)據(jù)聚類中粒子群混沌差分?jǐn)_動的交叉概率取值為[0,1],離散采樣率為fs=10*f0Hz=10 KHz,帶寬B=1 000 Hz.根據(jù)上述仿真環(huán)境和參數(shù)設(shè)定,以大型網(wǎng)絡(luò)Web數(shù)據(jù)庫Deepweb2015中的數(shù)據(jù)為采樣對象,進(jìn)行數(shù)據(jù)優(yōu)化聚類和挖掘仿真,首先進(jìn)行數(shù)據(jù)信息流的原始時域波形采樣,得到采樣結(jié)果如圖2所示.
以上述采樣數(shù)據(jù)為研究對象,進(jìn)行數(shù)據(jù)聚類分析,取其中的兩段樣本為測試對象,提取高階累積量特征,高階累積量特征在時間-頻率面上的分布結(jié)果如圖3所示.
圖2 數(shù)據(jù)信息流時域采樣波形
圖3 海量數(shù)據(jù)的高階累積量特征提取結(jié)果
針對海量的高階累積量數(shù)據(jù)特征,采用改進(jìn)的模糊C均值聚類算法實現(xiàn)數(shù)據(jù)挖掘,得到聚類結(jié)果如圖4所示.
圖4 數(shù)據(jù)聚類輸出
分析圖4可知,采用本文改進(jìn)的FCM聚類算法進(jìn)行大數(shù)據(jù)優(yōu)化聚類,能有效分別數(shù)據(jù)的種類屬性,實現(xiàn)數(shù)據(jù)優(yōu)化挖掘,為了定量分析算法性能,采用本文方法和傳統(tǒng)方法,以數(shù)據(jù)挖掘的精度為測試指標(biāo),得到對比結(jié)果如圖5所示.分析圖5可知,采用本文算法進(jìn)行數(shù)據(jù)挖掘的準(zhǔn)確挖掘概率高于傳統(tǒng)方法,展示了本文方法的優(yōu)越性能.
圖5 數(shù)據(jù)準(zhǔn)確挖掘概率對比分析
本文提出一種基于粒子群混沌差分訓(xùn)練的模糊C均值改進(jìn)聚類算法實現(xiàn)數(shù)據(jù)挖掘模型優(yōu)化,首先構(gòu)建了數(shù)據(jù)聚類據(jù)挖掘模型的總體結(jié)構(gòu),進(jìn)行數(shù)據(jù)結(jié)構(gòu)分析,采用非線性時間序列分析方法進(jìn)行數(shù)據(jù)信息流擬合,采用粒子群混沌差分訓(xùn)練方法進(jìn)行模糊C均值聚類算法改進(jìn),針對海量的高階累積量數(shù)據(jù)特征,采用改進(jìn)的模糊C均值聚類算法實現(xiàn)數(shù)據(jù)挖掘模型優(yōu)化.研究結(jié)果表明,采用本文算法進(jìn)行數(shù)據(jù)聚類和挖掘,性能較好,精度較高,功能指標(biāo)優(yōu)于傳統(tǒng)方法,展示了較高的應(yīng)用價值.
[1] 劉經(jīng)南,方 媛,郭 遲,等.位置大數(shù)據(jù)的分析處理研究進(jìn)展[J].武漢大學(xué)學(xué)報·信息科學(xué)版,2014,39(4):379-385
[2] 余曉東,雷英杰,岳韶華,等.基于粒子群優(yōu)化的直覺模糊核聚類算法研究[J].通信學(xué)報,2015(5):2015099
[3] 李 鵬,劉思峰.基于灰色關(guān)聯(lián)分析和D-S證據(jù)理論的區(qū)間直覺模糊決策方法[J].自動化學(xué)報,2011,37(8):993-999
[4] 劉 俊,劉 瑜,何 友,等.雜波環(huán)境下基于全鄰模糊聚類的聯(lián)合概率數(shù)據(jù)互聯(lián)算法[J].電子與信息學(xué)報,2016,38(6):1438-1445
[5] BAE S H,YOON K J.Robust online multiobject tracking with data association and track management[J].IEEE Transactions on Image Processing,2014,23(7):2820-2833
[6] JIANG X,HARISHAN K,THAMARASA R,et al.Integrated track initialization and maintenance in heavy clutter using probabilistic data association[J].Signal Processing,2014,94:241-250
[7] 陸興華,陳平華.基于定量遞歸聯(lián)合熵特征重構(gòu)的緩沖區(qū)流量預(yù)測算法[J].計算機科學(xué),2015,42(4):68-71
[8] 王躍飛,于 炯,魯 亮.面向內(nèi)存云的數(shù)據(jù)塊索引方法[J].計算機應(yīng)用,2016,36(5):1222-1227
[9] 吳鴻華,穆 勇,屈忠鋒,等.基于面板數(shù)據(jù)的接近性和相似性關(guān)聯(lián)度模型[J].控制與決策,2016,31(3):555-558
[10] 閻 芳,李元章,張全新,等.基于對象的OpenXML復(fù)合文件去重方法研究[J].計算機研究與發(fā)展,2015,52(7):1546-1557
Data Mining Model Based on Fuzzy Improved Clustering Analysis
PANG Tianjie
(Department of Computer Science,Taiyuan Normal University,Jinzhong 030619, China)
To optimize the massive big data in the database mining, can improve the data feature extraction and detection ability. Traditional method using fuzzy c-means clustering data mining algorithm, when the data in the process of hierarchical clustering space characteristics of similarity difference is small, the accuracy of data mining is not high. In this paper, a chaos particle swarm optimization difference training to improve the fuzzy c-means clustering algorithm, establish the optimization model for data mining. First puts forward the data clustering according to the overall architecture of the mining model, data structure analysis, nonlinear time series analysis method is adopted to improve the flow of information data fitting, higher-order cumulant features of data streams are extracted, using particle swarm chaos difference fuzzy c-means clustering algorithm to improve the training implementation. With the improved fuzzy clustering algorithm to extract the higher-order cumulant features for clustering analysis, based on the results of the analysis of the data mining model optimization. The simulation results show that the data mining model can effectively realize the optimization of huge amounts of data clustering and feature extraction, data mining of high precision, good performance, avoid digging into local convergence.
fuzzy C means clustering; data mining; chaos; particle swarm optimization
2016-03-13
龐天杰(1980-),男,山西太谷人,碩士,太原師范學(xué)院計算機系講師,主要從事數(shù)據(jù)挖掘與機器學(xué)習(xí)研究.
1672-2027(2016)02-0040-06
TP391
A