劉先花
摘 要: 針對傳統(tǒng)基于PSO聚類的大數(shù)據(jù)存儲(chǔ)系統(tǒng)進(jìn)行數(shù)據(jù)聚類時(shí)容易陷入局部最佳解,收斂效率低,數(shù)據(jù)存儲(chǔ)性能差,設(shè)計(jì)一種基于群體協(xié)同智能聚類的大數(shù)據(jù)存儲(chǔ)系統(tǒng)?;谌后w協(xié)同智能聚類系統(tǒng)的層次結(jié)構(gòu),設(shè)計(jì)大數(shù)據(jù)存儲(chǔ)系統(tǒng)的層次模型,并依據(jù)群體協(xié)同智能聚類的特征,設(shè)計(jì)大數(shù)據(jù)存儲(chǔ)系統(tǒng)的體系結(jié)構(gòu)。該系統(tǒng)采用的群體協(xié)同智能聚類方法在PSO算法中融入多種群協(xié)同進(jìn)化的方案,避免出現(xiàn)局部最優(yōu)解問題,將總體種群劃分成多個(gè)子種群,各子種群獨(dú)立進(jìn)化,對共享信息實(shí)施周期性調(diào)控,獲取最佳的數(shù)據(jù)聚類結(jié)果,提高數(shù)據(jù)聚類的效率和精度,增強(qiáng)大數(shù)據(jù)存儲(chǔ)性能。實(shí)驗(yàn)結(jié)果說明所設(shè)計(jì)系統(tǒng)收斂性能高,并且具有較高的數(shù)據(jù)讀寫性能和分析性能。
關(guān)鍵詞: 群體協(xié)同; 智能聚類; 大數(shù)據(jù); 存儲(chǔ)
中圖分類號(hào): TN911.1?34; TP391.72 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)23?0130?04
Abstract: The traditional large data storage system based on PSO clustering is easy to fall into the local optimal solution for data clustering, and has low convergence efficiency and poor data storage performance. Therefore, a large data storage system based on swarm collaboration intelligent clustering was designed. On the basis of the hierarchical structure of the swarm collaboration intelligent clustering system, the hierarchical model of the large data storage system was designed. According to the features of the swarm collaboration intelligent clustering, the system architecture of the large data storage system was designed. The swarm collaboration intelligent clustering method is used in the system to fuse the multi?population coevolution scheme into PSO algorithm to avoid the local optimal solution problem. The total populations are divided into several sub populations. Each sub?population is evolved independently to perform the periodic regulation for the shared information, get the best data clustering result, improve the efficiency and accuracy of data clustering, and enhance the large data storage performance. The experimental results show that the designed system has high convergence performance, high data read and write performance, and perfect analysis performance.
Keywords: swarm collaboration; intelligent clustering; large data; storage
0 引 言
隨著計(jì)算機(jī)網(wǎng)絡(luò)和數(shù)據(jù)庫技術(shù)的快速發(fā)展,當(dāng)前社會(huì)的信息化進(jìn)程逐漸加快,管理人員需要對海量信息實(shí)施決策。大數(shù)據(jù)存儲(chǔ)系統(tǒng)是基于數(shù)據(jù)分析輔助決策的策略。聚類是分析數(shù)據(jù)并從中采集有價(jià)值信息的合理方案,通過聚類能夠獲取全局的分布模式和數(shù)據(jù)屬性間有價(jià)值的關(guān)系,是一種重要的數(shù)據(jù)挖掘方法[1]。而傳統(tǒng)基于PSO聚類的大數(shù)據(jù)存儲(chǔ)系統(tǒng)進(jìn)行數(shù)據(jù)聚類時(shí)容易陷入局部最佳解,收斂效率低,數(shù)據(jù)存儲(chǔ)性能差。群體智能是一種高性能的計(jì)算機(jī)技術(shù),具備生物系統(tǒng)高效的操作方案和特征,能夠有效處理大數(shù)據(jù)的全局優(yōu)化問題。因此,本文設(shè)計(jì)基于群體協(xié)同智能聚類的大數(shù)據(jù)存儲(chǔ)系統(tǒng),增強(qiáng)數(shù)據(jù)的存儲(chǔ)質(zhì)量。
1 群體協(xié)同智能聚類的大數(shù)據(jù)存儲(chǔ)系統(tǒng)
1.1 群體協(xié)同智能聚類系統(tǒng)的層次模型
基于層次模型,將群體協(xié)同智能聚類系統(tǒng)劃分成應(yīng)用層、任務(wù)層、功能層以及物理層[2]。通過4種方法實(shí)現(xiàn)四個(gè)層次,分別是應(yīng)用層的控制論方法、任務(wù)層的任務(wù)框架法、功能層的模型集成法以及物理層的GDISS描述語言法。
應(yīng)用層用于描述問題求解活動(dòng)在群體協(xié)同智能聚類系統(tǒng)中的語義描述,對系統(tǒng)的環(huán)境、問題以及用戶解決問題的過程實(shí)施描述。應(yīng)用層可描述成:應(yīng)用層=<<環(huán)境>,<用戶>,<問題描述>,<問題求解過程表述>>。
任務(wù)層在計(jì)算機(jī)中實(shí)現(xiàn)對應(yīng)用層的描述,其可描述成:任務(wù)層=<<任務(wù)結(jié)構(gòu)>,<任務(wù)控制過程>>。
功能層是實(shí)現(xiàn)任務(wù)層的支撐結(jié)構(gòu),由相應(yīng)的功能軟件構(gòu)成。采用模型集成法實(shí)現(xiàn)功能層,該方法中的復(fù)合模型由簡單子模型構(gòu)成,為群體協(xié)同智能聚類系統(tǒng)的實(shí)現(xiàn)提供模型[3]。endprint
物理層用于描述群體協(xié)同智能聚類系統(tǒng)的計(jì)算機(jī)應(yīng)用實(shí)現(xiàn),對功能層的實(shí)現(xiàn)實(shí)施支撐。
1.2 大數(shù)據(jù)存儲(chǔ)系統(tǒng)的層次模型
大數(shù)據(jù)存儲(chǔ)系統(tǒng)是群體協(xié)同智能聚類系統(tǒng)的關(guān)鍵部分,塑造數(shù)據(jù)存儲(chǔ)系統(tǒng)前需要明確用戶需求,再采用語義層將業(yè)務(wù)問題映射成不同類型的分析模型以及挖掘模型,并通過系統(tǒng)內(nèi)的數(shù)據(jù)得到最終的解[4]。本文基于層次模型法和群體協(xié)同智能聚類系統(tǒng)的層次模型,將大數(shù)據(jù)存儲(chǔ)系統(tǒng)劃分成應(yīng)用層、功能層、語義層、設(shè)計(jì)層以及數(shù)據(jù)層,具體結(jié)構(gòu)如圖1所示。
(1) 應(yīng)用層是大數(shù)據(jù)存儲(chǔ)系統(tǒng)的頂層,是群體協(xié)同智能聚類系統(tǒng)的應(yīng)用層以及任務(wù)層在大數(shù)據(jù)存儲(chǔ)系統(tǒng)部件中的映射,可以進(jìn)行問題的描述、劃分以及任務(wù)的分配[5]。問題的描述以及劃分可得到合理的求解策略,任務(wù)劃分是得到不同決策人員需要處理的問題。該層中的關(guān)鍵成員是用戶和問題。
(2) 功能層是實(shí)現(xiàn)應(yīng)用層的支撐結(jié)構(gòu),包括相關(guān)的功能軟件。其對應(yīng)于群體協(xié)同智能聚類系統(tǒng)功能層內(nèi)的相關(guān)功能,從大數(shù)據(jù)存儲(chǔ)系統(tǒng)中采集有價(jià)值的數(shù)據(jù),并且對數(shù)據(jù)進(jìn)行發(fā)行,確保用戶實(shí)現(xiàn)數(shù)據(jù)的高效訪問[6]。其是數(shù)據(jù)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中同用戶工具間進(jìn)行交互的橋梁。
(3) 語義層是一種語義轉(zhuǎn)換過程,實(shí)現(xiàn)設(shè)計(jì)層的數(shù)據(jù)模型到功能層的業(yè)務(wù)轉(zhuǎn)換,將設(shè)計(jì)層的數(shù)據(jù)模型采用用戶可理解的業(yè)務(wù)術(shù)語進(jìn)行描述。群體協(xié)同智能聚類系統(tǒng)中的成員基于語義層中的語義轉(zhuǎn)換功能,對相關(guān)功能實(shí)施處理時(shí),可采用常用的手段對底層數(shù)據(jù)模型實(shí)施處理。
(4) 設(shè)計(jì)層基于用戶需求,采用信息包圖設(shè)置主題內(nèi)容以及關(guān)鍵檢測指標(biāo)間的關(guān)系,通過數(shù)據(jù)模型的可視化描述塑造便于檢索的星形圖,實(shí)時(shí)響應(yīng)大數(shù)據(jù)系統(tǒng)用戶的檢索需求,基于數(shù)據(jù)和實(shí)體間的關(guān)聯(lián)性,塑造屬性化的數(shù)據(jù)模型,確保其可對信息包進(jìn)行全面和細(xì)微的描述。
(5) 數(shù)據(jù)層基于商務(wù)要求,通過系統(tǒng)控制事件的模式對數(shù)據(jù)實(shí)施組織。數(shù)據(jù)層對大數(shù)據(jù)存儲(chǔ)系統(tǒng)中的源數(shù)據(jù)進(jìn)行訪問,實(shí)現(xiàn)源數(shù)據(jù)的提取、匯總等操作,其存儲(chǔ)被設(shè)計(jì)成可支持查詢的關(guān)系數(shù)據(jù)庫結(jié)構(gòu)。
1.3 大數(shù)據(jù)存儲(chǔ)系統(tǒng)的體系結(jié)構(gòu)
設(shè)計(jì)的基于群體協(xié)同智能聚類的大數(shù)據(jù)存儲(chǔ)系統(tǒng)體系結(jié)構(gòu)如圖2所示。
圖2描述的體系結(jié)構(gòu)定義了大數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)倉庫服務(wù)器、數(shù)據(jù)接口標(biāo)準(zhǔn)、語義變換方案、數(shù)據(jù)存儲(chǔ)系統(tǒng)接口、ETL以及應(yīng)用服務(wù)器等內(nèi)容。其中,數(shù)據(jù)存儲(chǔ)系統(tǒng)接口、應(yīng)用服務(wù)器以及數(shù)據(jù)倉庫服務(wù)器都采用數(shù)據(jù)存儲(chǔ)系統(tǒng)運(yùn)行規(guī)范實(shí)現(xiàn)數(shù)據(jù)的互通。ETL可采集不同類型數(shù)據(jù)源的外部以及內(nèi)部數(shù)據(jù)進(jìn)入數(shù)據(jù)存儲(chǔ)倉庫。系統(tǒng)用戶采用數(shù)據(jù)存儲(chǔ)系統(tǒng)接口同數(shù)據(jù)存儲(chǔ)系統(tǒng)進(jìn)行互動(dòng),數(shù)據(jù)存儲(chǔ)系統(tǒng)接口由數(shù)據(jù)挖掘應(yīng)用、語義變換方法、Web展示等應(yīng)用接口構(gòu)成。
2 群體協(xié)同的智能聚類方法
傳統(tǒng)PSO聚類算法在進(jìn)化時(shí),容易出現(xiàn)局部最佳解問題,使得算法過早終止,不能繼續(xù)進(jìn)化,算法收斂性能大大降低。為了提高海量數(shù)據(jù)的聚類效率,本文設(shè)計(jì)的大數(shù)據(jù)存儲(chǔ)系統(tǒng)采用群體協(xié)同智能聚類方法在PSO算法中融入多種群協(xié)同進(jìn)化的方案,避免出現(xiàn)局部最優(yōu)解問題[7],其將總體種群劃分成多個(gè)子種群,各子種群獨(dú)立進(jìn)化,對共享信息實(shí)施周期性調(diào)控。
將協(xié)同進(jìn)化思想融入粒子群算法內(nèi),協(xié)同進(jìn)化將解空間內(nèi)的群體分割成多個(gè)子群體,各子群體用于描述求解問題的子目標(biāo),各個(gè)體用于描述求解問題的一個(gè)解,全部子群體在對應(yīng)的解區(qū)域?qū)嵤┆?dú)立的局部檢索,相隔一段周期將檢索到的局部最佳解當(dāng)成可在差異子種群間傳輸?shù)墓蚕硇畔ⅰ?/p>
群體協(xié)同智能聚類方法是一種群體協(xié)同進(jìn)化的PSO算法,其將粒子數(shù)為[N]的種群劃分成[M]個(gè)子種群,各子種群采用規(guī)范的PSO算法實(shí)施局部檢索,在檢索時(shí)持續(xù)調(diào)整子種群內(nèi)部粒子的效率以及位置。如果進(jìn)化到第[R](修正周期)代,則第一個(gè)子種群會(huì)獲取局部最佳解[Pg1,]并將該解傳遞給第二個(gè)子種群,用[Pg1]更新第二個(gè)子種群內(nèi)具有最低適應(yīng)度函數(shù)的粒子,此時(shí)第二個(gè)子種群實(shí)施[R]周期的進(jìn)化,獲取的局部最佳解是[Pg2。]再向第三個(gè)子種群傳遞[Pg2,]循環(huán)運(yùn)行上述過程。最終一個(gè)子種群向首個(gè)子種群傳遞[PgM。]每次迭代之前將即刻最佳位置反饋給后續(xù)子種群過程中,應(yīng)對即刻的局部最佳解[Pgi(i=1,2,…,M)]是否符合精度需求進(jìn)行分析,如果符合則終止進(jìn)化,否則繼續(xù)進(jìn)化[8]。各子種群的間隔是[R]代,相鄰種群間可進(jìn)行信息交互,循環(huán)進(jìn)化,直至算法停止,具體過程如圖3所示。
進(jìn)化達(dá)到修正周期[R]時(shí),前各子種群向后續(xù)子種群反饋即刻的局部最佳解,后續(xù)子種群基于共享信息實(shí)施進(jìn)化,確保各子種群中的粒子處于最優(yōu)解位置,增強(qiáng)算法的收斂效率。該群體協(xié)同智能聚類方法可確保各子種群同不同子種群間基于少量的局部信息完成交互[9],實(shí)現(xiàn)解區(qū)域中某個(gè)子區(qū)域的檢索,運(yùn)算代價(jià)小,并且子種群間的粒子變換能夠完成遠(yuǎn)距離的信息共享。
3 實(shí)驗(yàn)結(jié)果和分析
實(shí)驗(yàn)檢測數(shù)據(jù)集是Iris,實(shí)驗(yàn)分別采用基于PSO聚類算法的大數(shù)據(jù)存儲(chǔ)系統(tǒng)和本文設(shè)計(jì)的基于群體協(xié)同智能聚類的大數(shù)據(jù)存儲(chǔ)系統(tǒng)對Iris數(shù)據(jù)集實(shí)施檢測,分析兩種系統(tǒng)進(jìn)行大數(shù)據(jù)存儲(chǔ)時(shí)的性能優(yōu)劣。
3.1 系統(tǒng)收斂性能的對比
在相同的實(shí)驗(yàn)環(huán)境中,慣性權(quán)重[ω]隨迭代次數(shù)的提升而線性降低,原始值是1.0,線性降低到0.6,最高的降低速度[Vmax=0.4],實(shí)驗(yàn)分別采用本文系統(tǒng)和PSO存儲(chǔ)系統(tǒng)對Iris數(shù)據(jù)庫內(nèi)的1 000組數(shù)據(jù)實(shí)施聚類,獲取兩個(gè)系統(tǒng)隨迭代次數(shù)提升的收斂性能對比曲線,如圖4所示。
從圖4中能夠得出,達(dá)到相同的聚類效果時(shí),本文系統(tǒng)的收斂度最高,而PSO系統(tǒng)的收斂度低于本文系統(tǒng),并且其適應(yīng)度函數(shù)未達(dá)到最高值,聚類質(zhì)量較差。
3.2 系統(tǒng)讀寫性能分析
大數(shù)據(jù)存儲(chǔ)系統(tǒng)的存儲(chǔ)速度是用戶考慮的重點(diǎn),實(shí)驗(yàn)對本文大數(shù)據(jù)存儲(chǔ)系統(tǒng)和基于PSO聚類算法的大數(shù)據(jù)存儲(chǔ)系統(tǒng)的讀寫性能進(jìn)行檢測,結(jié)果如圖5和圖6所示。能夠看出,本文系統(tǒng)寫入數(shù)據(jù)時(shí)的吞吐率和響應(yīng)時(shí)間都優(yōu)于PSO存儲(chǔ)系統(tǒng),主要是因?yàn)閭鹘y(tǒng)PSO聚類算法存在容易陷入局部最佳解問題,對數(shù)據(jù)的寫入效率較低。而本文存儲(chǔ)系統(tǒng)采用的群體協(xié)同智能聚類算法融入多種群協(xié)同進(jìn)化的方案,避免出現(xiàn)局部最優(yōu)解問題,具有較高的收斂效率,能夠?qū)崿F(xiàn)大數(shù)據(jù)的高效率寫入操作。
3.3 系統(tǒng)數(shù)據(jù)分析性能檢測
為了檢測不同大數(shù)據(jù)存儲(chǔ)系統(tǒng)對數(shù)據(jù)的分析性能,實(shí)驗(yàn)面向MapReduce程序中的數(shù)據(jù)進(jìn)行分析,分別檢測本文系統(tǒng)和PSO系統(tǒng)對10列數(shù)據(jù)和20列數(shù)據(jù)在7 000萬條數(shù)據(jù)中進(jìn)行數(shù)據(jù)分析的情況,數(shù)據(jù)量級(jí)在100 GB左右,結(jié)果分別如圖7和圖8所示。能夠看出,隨著數(shù)據(jù)量級(jí)的逐漸增加,相對于PSO系統(tǒng),本文系統(tǒng)下的程序運(yùn)行時(shí)間更低,說明本文系統(tǒng)可對數(shù)據(jù)進(jìn)行有效處理,具有較高的數(shù)據(jù)分析性能。
4 結(jié) 論
本文設(shè)計(jì)了基于群體協(xié)同智能聚類的大數(shù)據(jù)存儲(chǔ)系統(tǒng),實(shí)驗(yàn)結(jié)果說明,所設(shè)計(jì)系統(tǒng)收斂性能高,并且具有較高的數(shù)據(jù)讀寫性能和分析性能,為增強(qiáng)大數(shù)據(jù)存儲(chǔ)的質(zhì)量和效率提供了保障。
參考文獻(xiàn)
[1] 錢曉東,曹陽.基于社區(qū)極大類發(fā)現(xiàn)的大數(shù)據(jù)并行聚類算法[J].南京理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,40(1):117?123.
[2] 崔建華.大數(shù)據(jù)環(huán)境下云存儲(chǔ)數(shù)據(jù)安全探析[J].信息安全與技術(shù),2015,6(5):31?33.
[3] 趙偉,周建輝.基于模糊C均值聚類算法的音樂噴泉智能識(shí)別[J].控制工程,2015,22(6):1057?1062.
[4] 李甜甜,王智,宋杰.大數(shù)據(jù)存儲(chǔ)系統(tǒng)中負(fù)載均衡的數(shù)據(jù)遷移算法[J].中興通訊技術(shù),2016,22(2):28?32.
[5] 楊文暉,李國強(qiáng),苗放.面向海量空間數(shù)據(jù)存儲(chǔ)的元數(shù)據(jù)管理機(jī)制[J].計(jì)算機(jī)應(yīng)用,2015,35(5):1276?1279.
[6] 武霞,董增壽,孟曉燕.基于大數(shù)據(jù)平臺(tái)hadoop的聚類算法K值優(yōu)化研究[J].太原科技大學(xué)學(xué)報(bào),2015,36(2):92?96.
[7] 康杰華,羅章璇.基于圖形數(shù)據(jù)庫Neo4j的RDF數(shù)據(jù)存儲(chǔ)研究[J].信息技術(shù),2015(6):115?117.
[8] 冷泳林,申華,魯富宇.基于P?Rank的RDF有向圖的分布式存儲(chǔ)[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,29(1):91?95.
[9] 楊錫慧,林鵬,周國強(qiáng).基于灰色關(guān)聯(lián)度聚類的協(xié)同過濾推薦算法[J].軟件導(dǎo)刊,2015,14(10):29?34.endprint