孫柳
(廣東工業(yè)大學(xué) 華立學(xué)院,廣州 511325)
隨著云存儲空間多維資源分布數(shù)據(jù)庫存儲和信息傳輸技術(shù)的發(fā)展,云存儲空間多維資源分布數(shù)據(jù)庫的數(shù)據(jù)信息維數(shù)越來越多,需要結(jié)合大數(shù)據(jù)和云信息處理技術(shù),構(gòu)建云存儲空間多維資源分布數(shù)據(jù)庫的大數(shù)據(jù)并行聚類模型,提高云存儲空間多維資源分布數(shù)據(jù)庫數(shù)據(jù)的檢測和識別能力。通過云存儲空間多維資源數(shù)據(jù)并行聚類和特征分析,構(gòu)建云存儲空間多維資源數(shù)據(jù)聚類分析模型[1],提高云存儲空間多維資源分布數(shù)據(jù)庫的信息管理能力。相關(guān)的并行聚類方法研究,在云存儲和資源分布數(shù)據(jù)庫的組網(wǎng)設(shè)計(jì)和大數(shù)據(jù)信息管理中具有重要意義[2]。
對云存儲空間多維資源數(shù)據(jù)并行聚類是建立在對數(shù)據(jù)的候選特征分析基礎(chǔ)上,通過貝葉斯關(guān)聯(lián)規(guī)則分析,進(jìn)行云存儲空間多維資源數(shù)據(jù)并行聚類[3]。傳統(tǒng)方法中,對云存儲空間多維資源數(shù)據(jù)并行聚類方法主要有:基于模糊信息檢測的云存儲空間多維資源數(shù)據(jù)并行聚類方法[4]、基于統(tǒng)計(jì)分析的云存儲空間多維資源數(shù)據(jù)并行聚類方法[5]、基于粗糙集特征匹配的云存儲空間多維資源數(shù)據(jù)并行聚類方法[6]等。由于傳統(tǒng)方法進(jìn)行云存儲空間多維資源數(shù)據(jù)并行聚類存在適應(yīng)度水平不高,抗干擾性不好等問題。對此,本文提出基于多種群協(xié)同進(jìn)化算法的云存儲空間多維資源數(shù)據(jù)并行聚類方法。首先構(gòu)建云存儲空間多維資源數(shù)據(jù)的參數(shù)采集模型,對采集的云存儲空間多維資源數(shù)據(jù)進(jìn)行模糊并行特征分布式重組,提取云存儲空間多維資源數(shù)據(jù)聚類特征參數(shù)集,采用關(guān)聯(lián)粗糙集特征分析方法進(jìn)行云存儲空間多維資源數(shù)據(jù)的多尺度小波結(jié)構(gòu)分解,然后采用多種群協(xié)同控制的方法,建立云存儲空間多維資源數(shù)據(jù)的并行聚類模型。通過關(guān)聯(lián)協(xié)同濾波檢測方法,進(jìn)行云存儲空間多維資源數(shù)據(jù)的分組特征檢測和融合聚類處理,利用差分進(jìn)化方法進(jìn)行云存儲空間多維資源數(shù)據(jù)的聚類中心尋優(yōu),遍歷云存儲空間多維資源數(shù)據(jù)聚類區(qū)域的候選目標(biāo)集,實(shí)現(xiàn)對云存儲空間多維資源數(shù)據(jù)的并行關(guān)聯(lián)規(guī)則聚類和可靠性挖掘。經(jīng)仿真測試分析,展示了本文方法在提高云存儲空間多維資源數(shù)據(jù)并行聚類能力方面的優(yōu)越性能。
為了實(shí)現(xiàn)基于多種群協(xié)同進(jìn)化算法的云存儲空間多維資源數(shù)據(jù)并行聚類,構(gòu)建云存儲空間多維資源數(shù)據(jù)的參數(shù)采集和優(yōu)化存儲結(jié)構(gòu)模型,采用多維特征空間融合和匹配調(diào)度的方法,進(jìn)行云存儲空間多維資源數(shù)據(jù)的傳輸結(jié)構(gòu)分析,通過信道轉(zhuǎn)換和均衡配置,進(jìn)行云存儲空間多維資源數(shù)據(jù)融合[7],得到云存儲空間多維資源數(shù)據(jù)存儲結(jié)構(gòu)模型如圖1 所示。
圖1 云存儲空間多維資源數(shù)據(jù)存儲結(jié)構(gòu)模型Fig.1 Cloud storage space multi-dimensional resource data storage structure model
在云存儲空間多維資源數(shù)據(jù)存儲結(jié)構(gòu)模型中,采用演化貝葉斯準(zhǔn)參數(shù)估計(jì)方法,構(gòu)造云存儲空間多維資源數(shù)據(jù)的分類存儲器,通過多維信息重組和分塊區(qū)域重構(gòu),進(jìn)行云存儲空間多維資源數(shù)據(jù)的網(wǎng)格分塊區(qū)域調(diào)度[8]。在臨近區(qū)域中,邊緣特征融合測度作為云存儲空間多維資源數(shù)據(jù)挖掘的候選區(qū)域,遍歷這些區(qū)域獲得云存儲空間多維資源數(shù)據(jù)的聚類中心子集,在候選目標(biāo)集中,得到云存儲空間多維資源數(shù)據(jù)聚類信息熵為:
采用熵函數(shù)聚類方法,進(jìn)行云存儲空間多維資源數(shù)據(jù)分布式概率密度重組,得到云存儲空間多維資源數(shù)據(jù)聚類的隨機(jī)概率密度條件p(vi |y=1)、p(vi |y=0),其滿足高斯分布:
式中,μ1、σ1和μ0、σ0分別為云存儲空間多維資源數(shù)據(jù)的目標(biāo)樣本數(shù)據(jù)和標(biāo)準(zhǔn)信息差。
采用多維特征分解方法,進(jìn)行云存儲空間多維資源數(shù)據(jù)信息特征重構(gòu),得到云存儲空間多維資源數(shù)據(jù)的模糊信息聚類樣本分布為:
式中,α <ζ <β,l(z)為云存儲空間多維資源數(shù)據(jù)樣本位置;lt為云存儲空間多維資源數(shù)據(jù)聚類區(qū)域位置;Dα和Dζ,β分別為正樣本和負(fù)樣本。根據(jù)云存儲空間多維資源數(shù)據(jù)的結(jié)構(gòu)參數(shù)分析,進(jìn)行云存儲空間多維資源數(shù)據(jù)的優(yōu)化聚類和挖掘[9]。
采用關(guān)聯(lián)粗糙集特征分析方法進(jìn)行云存儲空間多維資源數(shù)據(jù)的多尺度小波結(jié)構(gòu)分解,結(jié)合特征收斂性控制的方法,通過云存儲空間多維資源分布數(shù)據(jù)庫多屬性樣本重組[10],得到云存儲空間多維資源數(shù)據(jù)的模糊相關(guān)系數(shù):
結(jié)合灰度特征重組和語義分布式融合方法,得到云存儲空間多維資源數(shù)據(jù)聚類的隨機(jī)概率密度分布集。云存儲空間多維資源數(shù)據(jù)的多維概率密度函數(shù)為:
采用機(jī)器學(xué)習(xí)的分類學(xué)習(xí)方法,得到云存儲空間多維資源數(shù)據(jù)的聯(lián)合特征分布參數(shù)φ和θ。采用重采樣策略,得到云存儲空間多維資源分布數(shù)據(jù)庫的特征分配概率P(zi=j(luò)|z-i,wi)的算式為:
綜上分析,構(gòu)建了云存儲空間的多維資源數(shù)據(jù)融合模型,結(jié)合特征檢測方法,實(shí)現(xiàn)數(shù)據(jù)并行聚類分析[11]。
采用多種群協(xié)同控制的方法,建立云存儲空間多維資源數(shù)據(jù)的并行聚類模型,通過關(guān)聯(lián)協(xié)同濾波檢測方法[12],得到云存儲空間多維資源數(shù)據(jù)聚類的更新規(guī)則約束參量的解:
根據(jù)云存儲空間多維資源數(shù)據(jù)的屬性分布進(jìn)行模糊聚類,得到云存儲空間多維資源數(shù)據(jù)的差分進(jìn)化約束的相關(guān)性因子為:
其中,云存儲空間多維資源數(shù)據(jù)融合的特征分布矩陣為R=(rij,aij)m ×n,基于數(shù)據(jù)層面構(gòu)建大數(shù)據(jù)分類模型,得到云存儲空間多維資源數(shù)據(jù)分類的聯(lián)合特征解為:
獲取原始數(shù)據(jù)集,引入云存儲空間多維資源數(shù)據(jù)的互信息熵,即:
以P為云存儲空間多維資源分布數(shù)據(jù)庫多屬性分布的概率密度為:
根據(jù)云存儲空間多維資源數(shù)據(jù)的融合參數(shù)應(yīng)滿足:
用Ui,j(t) 表示的云存儲空間多維資源數(shù)據(jù)動態(tài)特征分布信息熵。
基于決策邊界的類樣本分析方法[13],得到共享的通道數(shù)為P,構(gòu)建云存儲空間多維資源數(shù)據(jù)聚類的聯(lián)合關(guān)聯(lián)決策函數(shù)為:
其中,d(omi,rmi)表示聯(lián)合度評估系數(shù)。充分利用數(shù)據(jù)空間的類間指數(shù)分布,采用差分進(jìn)化方法,基于高斯概率分布方法,云存儲空間多維資源分布數(shù)據(jù)庫多屬性特征融合輸出為Ek∈E(k=1,2,…,t)。根據(jù)類別的不同屬性,得到云存儲空間多維資源分布數(shù)據(jù)庫多屬性數(shù)據(jù)特征融合模型為Pi∈P(i=1,2,…,m)。
綜上分析,采用差分進(jìn)化方法,進(jìn)行云存儲空間多維資源分布數(shù)據(jù)庫多屬性參數(shù)識別和聚類[14]。
其中,Vi為云存儲空間多維資源數(shù)據(jù)的關(guān)聯(lián)分析度量值,使用聯(lián)合特征分布式進(jìn)化方法,得到云存儲空間多維資源數(shù)據(jù)并行聚類的聯(lián)合公式為:
在非線性可分的數(shù)據(jù)集中,得到云存儲空間多維資源分布數(shù)據(jù)庫多屬性并行聚類輸出的相似度系數(shù)為:
其中:p為云存儲空間多維資源數(shù)據(jù)的分布集,f為云存儲空間多維資源數(shù)據(jù)分布的聯(lián)合特征參數(shù)分布集。用4 元組(Ei,Ej,d,t) 來表示云存儲空間多維資源數(shù)據(jù)的主特征量,采用決策樹調(diào)度和多屬性差分進(jìn)化方法,得到并行聚類輸出的聯(lián)合特征量:
式中,m為云存儲空間多維資源數(shù)據(jù)并行聚類的進(jìn)化維數(shù),(dik)2為非線性數(shù)據(jù)集。
綜上分析,通過差分進(jìn)化方法進(jìn)行云存儲空間多維資源數(shù)據(jù)的聚類中心尋優(yōu),實(shí)現(xiàn)對云存儲空間多維資源數(shù)據(jù)的并行關(guān)聯(lián)規(guī)則聚類和可靠性挖掘。
對云存儲空間多維資源數(shù)據(jù)采集的樣本長度為1024,云存儲空間的特征分布維數(shù)為3,嵌入維數(shù)為125,數(shù)據(jù)分類的屬性為6,多種群迭代的部署為24,差分進(jìn)化的迭代數(shù)為100。根據(jù)上述參數(shù)設(shè)定,得到云存儲空間多維資源數(shù)據(jù)統(tǒng)計(jì)特征量分布如圖2 所示。
圖2 云存儲空間多維資源數(shù)據(jù)統(tǒng)計(jì)特征量分布Fig.2 Distribution of statistical characteristics of multi-dimensional resource data in cloud storage space
根據(jù)圖2 大數(shù)據(jù)檢測結(jié)果,實(shí)現(xiàn)云存儲空間多維資源數(shù)據(jù)聚類,得到并行聚類預(yù)測值如圖3 所示。
圖3 數(shù)據(jù)并行聚類預(yù)測值Fig.3 Data parallel clustering predicted value
分析圖3 得知,本文方法進(jìn)行云存儲空間多維資源數(shù)據(jù)的特征并行聚類的聚斂度水平較高,數(shù)據(jù)聚類融合性較好。測試數(shù)據(jù)分類的準(zhǔn)確率,得到聚類誤差收斂結(jié)果如圖4 所示。
圖4 數(shù)據(jù)聚類收斂曲線Fig.4 Data clustering convergence curve
分析圖4 得知,本文方法對云存儲空間多維資源數(shù)據(jù)分類的正確率較高。在不同的數(shù)據(jù)聚類中心,測試云存儲空間多維資源數(shù)據(jù)挖掘的識別率,得到測試結(jié)果如圖5 所示。
圖5 數(shù)據(jù)并行聚類的識別率Fig.5 Recognition rate of data parallel clustering
根據(jù)圖5 仿真結(jié)果得知,本文方法進(jìn)行云存儲空間多維資源數(shù)據(jù)并行聚類處理,提高了數(shù)據(jù)的識別率。
本文提出基于多種群協(xié)同進(jìn)化算法的云存儲空間多維資源數(shù)據(jù)并行聚類方法,采用多維特征空間融合和匹配調(diào)度,進(jìn)行云存儲空間多維資源數(shù)據(jù)的傳輸結(jié)構(gòu)分析,結(jié)合灰度特征重組和語義分布式融合方法,得到云存儲空間多維資源數(shù)據(jù)聚類的隨機(jī)概率密度分布集?;跊Q策邊界的多數(shù)類樣本分析方法,充分利用數(shù)據(jù)空間的類間指數(shù)分布,采用差分進(jìn)化方法,遍歷云存儲空間多維資源數(shù)據(jù)聚類區(qū)域的候選目標(biāo)集,實(shí)現(xiàn)對云存儲空間多維資源數(shù)據(jù)的并行關(guān)聯(lián)規(guī)則聚類和可靠性挖掘。研究得知,本文方法進(jìn)行云存儲空間多維資源數(shù)據(jù)聚類的收斂性較好,并行關(guān)聯(lián)規(guī)則聚類性較強(qiáng),提高了數(shù)據(jù)的檢測識別率。