韓冬 韓春慶
摘 要: 針對(duì)在協(xié)同云計(jì)算下差異區(qū)域數(shù)據(jù)挖掘偏差較大,準(zhǔn)確度不高的問(wèn)題,提出基于非線性時(shí)間序列分析且分層調(diào)度控制的差異區(qū)域數(shù)據(jù)挖掘方法。首先構(gòu)建協(xié)同云計(jì)算下差異區(qū)域數(shù)據(jù)的信息傳輸模型,進(jìn)行數(shù)據(jù)信息流的時(shí)間序列采樣分析;然后采用非線性時(shí)間序列分析方法重構(gòu)特征空間,在重構(gòu)的特征相空間進(jìn)行自適應(yīng)分層調(diào)度控制,提取關(guān)聯(lián)規(guī)則特征,有效挖掘數(shù)據(jù);最后進(jìn)行仿真測(cè)試,結(jié)果表明該方法的數(shù)據(jù)挖掘精度較高,抗擾性能較強(qiáng)。
關(guān)鍵詞: 協(xié)同云計(jì)算; 數(shù)據(jù)挖掘; 調(diào)度控制; 平臺(tái)設(shè)計(jì)
中圖分類號(hào): TN915?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)05?0118?04
Abstract: Since the difference area data mining has large deviation and low accuracy under collaborative cloud computing, a difference area data mining method based on nonlinear time series analysis and hierarchical scheduling control is proposed. The information transmission model of the difference area data under collaborative cloud computing was constructed to analyze the time series sampling of the data information stream. The nonlinear time series analysis method is used to reconstruct the feature space, in which the adaptive hierarchical scheduling control was conducted to extract the characteristics of the association rules and mine the data effectively. The method was performed with simulation test. The results show that the method has high data mining precision, and strong interference resistance.
Keywords: collaborative cloud computing; data mining; scheduling control; platform design
0 引 言
協(xié)同云計(jì)算平臺(tái)是一個(gè)高度開放、異構(gòu)、分布的信息空間,由于資源信息的特征差異性以及干擾作用,出現(xiàn)差異區(qū)域數(shù)據(jù),對(duì)協(xié)同云計(jì)算下差異區(qū)域數(shù)據(jù)挖掘是進(jìn)行云計(jì)算資源調(diào)度和優(yōu)化分區(qū)學(xué)習(xí)的重要環(huán)節(jié),研究協(xié)同云計(jì)算下差異區(qū)域數(shù)據(jù)挖掘方法具有重要意義[1]。
在以往的協(xié)同云計(jì)算差異區(qū)域數(shù)據(jù)挖掘中,采用子圖同構(gòu)檢測(cè)技術(shù),結(jié)合頻繁項(xiàng)挖掘方法加強(qiáng)信息語(yǔ)義特征,提高數(shù)據(jù)挖掘的數(shù)據(jù)導(dǎo)向性。協(xié)同云計(jì)算下的差異區(qū)域數(shù)據(jù)具有非線性、自耦合性等特點(diǎn)[2],傳統(tǒng)方法需要建立學(xué)習(xí)資源本體,采用非線性特征分析和自耦合控制進(jìn)行信息特征空間采樣和重構(gòu),結(jié)合特征壓縮設(shè)計(jì),降低數(shù)據(jù)挖掘的開銷[3?4]。美國(guó)Washington大學(xué)開發(fā)的PROMPT數(shù)據(jù)挖掘平臺(tái),通過(guò)本體匹配方法構(gòu)建協(xié)同云計(jì)算的資源本體匹配,結(jié)合數(shù)據(jù)核心集DCMS進(jìn)行差異數(shù)據(jù)挖掘[5?6]。
為了提高協(xié)同云計(jì)算下差異區(qū)域數(shù)據(jù)挖掘的精度,提出一種基于非線性時(shí)間序列分析和分層調(diào)度控制的差異區(qū)域數(shù)據(jù)挖掘方法,通過(guò)仿真實(shí)驗(yàn)進(jìn)行性能測(cè)試,驗(yàn)證了本文方法的優(yōu)越性。
1 協(xié)同云計(jì)算的差異區(qū)域數(shù)據(jù)采樣模型
在協(xié)同云計(jì)算環(huán)境下,差異區(qū)域數(shù)據(jù)采用區(qū)間概念格中的節(jié)點(diǎn)模型進(jìn)行存儲(chǔ)機(jī)制構(gòu)架,采用有向圖模型[G1=Mα1,Mβ1,Y1,][G2Mα2,Mβ2,Y2]描述差異區(qū)域數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)分布式層次模型,[G1?G2?Y1?Y2。]令[A=a1,a2,…,an]為信息采樣時(shí)間序列,數(shù)據(jù)挖掘本體結(jié)構(gòu)為一個(gè)五元組[O=(C,I,P,Hc,R,A0)],其中,[C]為數(shù)據(jù)語(yǔ)義本體模型的階數(shù),[I]是字符串實(shí)例集,協(xié)同云計(jì)算下差異區(qū)域數(shù)據(jù)挖掘的總體結(jié)構(gòu)模型如圖1所示。
3 性能測(cè)試
實(shí)驗(yàn)訓(xùn)練集和測(cè)試集協(xié)同云計(jì)算平臺(tái)下的兩個(gè)區(qū)域性特征大數(shù)據(jù)集,訓(xùn)練集記為set1,測(cè)試集記為set2,set1采用分區(qū)間隔特征頻率為12.5 Hz,區(qū)域分區(qū)數(shù)據(jù)包大小為15.2 MB,初始校驗(yàn)頻率[B=1 000]Hz,CSLOGS為實(shí)際數(shù)據(jù)集,包括兩個(gè)大小為4.24 MB的分區(qū)。首先進(jìn)行協(xié)同云計(jì)算下的差異區(qū)域數(shù)據(jù)采樣,采樣點(diǎn)[N=1 024],采樣通道為3通道,得到協(xié)同云計(jì)算中出現(xiàn)差異區(qū)域數(shù)據(jù)時(shí)的特征采樣結(jié)果如圖3所示。
將訓(xùn)練樣本輸入到本文構(gòu)建的協(xié)同云計(jì)算下差異區(qū)域數(shù)據(jù)挖掘平臺(tái)中,圖4為本文方法和傳統(tǒng)方法在set1和set2數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘時(shí)隨不同數(shù)據(jù)點(diǎn)數(shù)變化的平均運(yùn)行時(shí)間性能對(duì)比結(jié)果。從圖4可知,兩種方法的運(yùn)行時(shí)間曲線均隨差異區(qū)域數(shù)據(jù)點(diǎn)數(shù)的增大而增大,但本文方法運(yùn)行時(shí)間隨數(shù)據(jù)規(guī)模的增大相對(duì)平緩,運(yùn)行時(shí)間的差異性隨著數(shù)據(jù)規(guī)模的增大而增加,說(shuō)明本文方法更適用于大數(shù)據(jù)規(guī)模下的差異區(qū)域數(shù)據(jù)挖掘。
見(jiàn)本文方法和傳統(tǒng)方法隨著數(shù)據(jù)維數(shù)變化的運(yùn)行時(shí)間對(duì)比結(jié)果見(jiàn)圖5。從圖5可知,隨著數(shù)據(jù)維數(shù)的增大,運(yùn)行時(shí)間增長(zhǎng),這是因?yàn)樵诟呔S狀態(tài)下,數(shù)據(jù)點(diǎn)相對(duì)分散,數(shù)據(jù)挖掘的計(jì)算開銷較大,本文方法的運(yùn)行時(shí)間低于傳統(tǒng)方法,可高效完成數(shù)據(jù)的處理。
4 結(jié) 語(yǔ)
本文提出了一種基于非線性時(shí)間序列分析和分層調(diào)度控制的差異區(qū)域數(shù)據(jù)挖掘方法,構(gòu)建協(xié)同云計(jì)算下差異區(qū)域數(shù)據(jù)的信息傳輸模型,采用非線性時(shí)間序列分析方法重構(gòu)特征空間,在重構(gòu)的特征相空間進(jìn)行自適應(yīng)分層調(diào)度控制,實(shí)現(xiàn)關(guān)聯(lián)規(guī)則特征提取。結(jié)果說(shuō)明,本文方法可以實(shí)現(xiàn)對(duì)差異區(qū)域數(shù)據(jù)的準(zhǔn)確挖掘,效率較高,且具有較強(qiáng)的魯棒性。
參考文獻(xiàn)
[1] 鄭海雁,王遠(yuǎn)方,熊政,等.標(biāo)簽集約束近似頻繁模式的并行挖掘[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(9):135?141.
[2] 邢長(zhǎng)征,劉劍.基于近鄰傳播與密度相融合的進(jìn)化數(shù)據(jù)流聚類算法[J].計(jì)算機(jī)應(yīng)用,2015,35(7):1927?1932.
[3] 楊來(lái),史忠植,梁帆,等.基于Hadoop云平臺(tái)的并行數(shù)據(jù)挖掘方法[J].系統(tǒng)仿真學(xué)報(bào),2013,25(5):936?944.
[4] 張國(guó)良,姚二亮,湯文俊,等.一種自適應(yīng)的GraphSLAM魯棒閉環(huán)算法[J].信息與控制,2015,44(3):316?320.
[5] AGUILA?CAMACHO N, DUARTE?MERMOUD M A, GALLEGOS J A. Lyapunov functions for fractional order systems [J]. Communications in nonlinear science and numerical simulation, 2014, 19(9): 2951?2957.
[6] 張博雅,胡曉輝.一種基于全域子空間分解挖掘的QoS準(zhǔn)確預(yù)測(cè)方法[J].計(jì)算機(jī)科學(xué),2014,41(1):217?224.
[7] 孫超,楊春曦,范莎,等.能量高效的無(wú)線傳感器網(wǎng)絡(luò)分布式分簇一致性濾波算法[J].信息與控制,2015,44(3):379?384.
[8] 竇慧晶,王千龍,張雪.基于小波閾值去噪和共軛模糊函數(shù)的時(shí)頻差聯(lián)合估計(jì)算法[J].電子與信息學(xué)報(bào),2016,38(5):1123?1128.
[9] 余曉東,雷英杰,岳韶華,等.基于粒子群優(yōu)化的直覺(jué)模糊核聚類算法研究[J].通信學(xué)報(bào),2015,36(5):74?80.
[10] 黃國(guó)順,文翰.基于邊界域和知識(shí)粒度的粗糙集不確定性度量[J].控制與決策,2016,31(6):983?989.