樸承哲
(遼寧民族師范高等??茖W(xué)校 民族文化與職業(yè)教育系,遼寧 沈陽 110032)
隨著大數(shù)據(jù)處理技術(shù)的發(fā)展,網(wǎng)絡(luò)中的數(shù)據(jù)量快速增加,使得數(shù)據(jù)規(guī)模持續(xù)增大,所以加大了大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲難度.為了解決這一問題,需要構(gòu)建優(yōu)化的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲結(jié)構(gòu)模型,以此提高大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的優(yōu)化管理能力,所以對于大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方法的研究受到人們的極大關(guān)注[1].
現(xiàn)階段,對大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲研究主要是建立在對數(shù)據(jù)融合和特征提取基礎(chǔ)上,構(gòu)建大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲的聚類和壓縮模型,通過網(wǎng)格分塊區(qū)域聚類方法進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲設(shè)計[2],傳統(tǒng)的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方法主要有以NoSQL為代表的非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方式[3]、基于Spark的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方法[4]、基于信息分散算法的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方法等[5].這些方法均是通過提取大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的特征量,通過關(guān)聯(lián)信息融合聚類分析進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲設(shè)計,結(jié)合壓縮感知方法實現(xiàn)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲,但是采用傳統(tǒng)方法進行非結(jié)構(gòu)化數(shù)據(jù)分布式存儲的自適應(yīng)性不好,數(shù)據(jù)壓縮精度不高,所用的存儲開銷較高,且存儲耗時較長,其數(shù)據(jù)存儲性能并不好.
針對上述問題,本文提出基于空間網(wǎng)格聚類的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方法,并通過仿真測試進行性能驗證,展示了本文方法在大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲能力方面的優(yōu)越性能.
為了實現(xiàn)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲優(yōu)化設(shè)計,需要定義類簇之間的距離參數(shù)分布[6],以此為基礎(chǔ)構(gòu)建大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)多維空間分布式信息融合模型.首先采用全局分布特征融合的方法,分析大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的交互特征空間分布集,通過模糊度參數(shù)特征重組的方法[7],得到第t次迭代后大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)多維空間分布式信息融合模型為
(1)
其中,A(t)為大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的分布包絡(luò)數(shù)值量,θ(t)為大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)調(diào)制分量.計算第k+1次迭代后大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的模糊關(guān)聯(lián)信息分量,并根據(jù)的密度樣本分布信息[8],得到網(wǎng)絡(luò)輸入元素的自相關(guān)矩陣R為
(2)
設(shè)定Q(k)表示第k個大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)聚類中心的量化參數(shù)集,ε表示聚類中心與數(shù)據(jù)集分布的線性閥值,則存在以下關(guān)系式,
Q(k+1)≥ε-Q(k),
(3)
其中,Q(k+1)表示第k+1個大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)聚類中心的量化參數(shù)集[9].
采用模糊中心權(quán)重的方法得構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)的交互訪問控制模型,該模型具體如圖1所示.
圖1 大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的交互訪問控制模型
根據(jù)上述交互訪問控制模型,進行非結(jié)構(gòu)化數(shù)據(jù)簇內(nèi)線性加權(quán)控制處理.在此過程中,需要先對加權(quán)系數(shù)進行計算,則其最小值可以通過公式(4)計算得出.
(4)
根據(jù)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的特征空間分布集,采用密度最大的點作為進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)管理和自適應(yīng)檢測,大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)融合的檢測統(tǒng)計量為
(5)
對大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲特征分量進行線性融合處理,尋找初始聚類中心.通過線性融合和二元規(guī)劃設(shè)計的方法,進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)重建[10],并在初始聚類中心構(gòu)建大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的信息融合模型
(6)
根據(jù)數(shù)據(jù)融合處理結(jié)果進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方法的設(shè)計.通過樣本擴展和密度融合的方法進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)特征提取[11-13],采用選擇隨機性特征分析方法,對易混淆的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)進行去重處理,以此獲取大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)關(guān)聯(lián)維特分布特征量及相似度的關(guān)系為
(7)
其中,D(A)表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲的額外能量開銷.對大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)進行連續(xù)特征分解處理,假設(shè)
(8)
其中,pi為大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的所有樣本元素的權(quán)重,通過上述結(jié)果得到大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)融合的復(fù)合遷移特征量為:
(9)
當(dāng)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的密度聚斂性參數(shù)滿足[δ1,δ2,…,δN],通過狀態(tài)結(jié)構(gòu)重組,得到大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的密度特征分布集
(10)
其中,|Rg|表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的密度參數(shù)融合量.結(jié)合狀態(tài)尋優(yōu)控制和多??臻g壓縮的方法[14],得到大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的聚類中心尋優(yōu)控制模型為
(11)
其中,si表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的概念集,qj表示模糊空間特征匹配集.根據(jù)聚類中心的樣本元素的權(quán)重分布獲取權(quán)重學(xué)習(xí)參數(shù)
(12)
其中,WjT(n)表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲空間主元j的統(tǒng)計結(jié)果;Yj(n)表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)模糊狀態(tài)線性空間輸出值.
根據(jù)上述分析,構(gòu)建大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)特征提取模型為
(13)
其中,ajT(n)表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)重組的線性加權(quán)值,Yj-1(n)表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲分布的反饋輸入.
綜上所述,實現(xiàn)了大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)特征提取,下一步需要結(jié)合自相關(guān)融合聚類分析,進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲結(jié)構(gòu)的優(yōu)化設(shè)計,以此實現(xiàn)數(shù)據(jù)分布式存儲.
根據(jù)特征提取結(jié)果進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)融合和特征空間劃分,采用自相關(guān)融合聚類分析方法[15],得到大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)樣本空間分布為
(14)
根據(jù)樣本空間分布對大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的個體結(jié)構(gòu)信息重組,得到數(shù)據(jù)的優(yōu)化存儲的模糊空間分布為
(15)
根據(jù)數(shù)據(jù)預(yù)處理結(jié)果以及模糊空間分布,求大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲空間的占用期望值為
(16)
假設(shè)wj(n)為學(xué)習(xí)權(quán)重,得到存儲空間中大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的簇內(nèi)緊密度為
(17)
其中,θjk(n)為類間相異性參數(shù).結(jié)合簇內(nèi)緊密度計算結(jié)果,對大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的存儲空間容量進行估計,結(jié)果為:
(18)
(19)
為了驗證本文方法在實現(xiàn)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲優(yōu)化中的應(yīng)用性能,進行實驗測試分析,具體的實驗環(huán)境如下:操作系統(tǒng)為Windows7,CPU為Intel Core i5-7300HQ,內(nèi)存為32 G,硬盤為500 GB,運行內(nèi)存為8 G,主頻為2.1 GHz,仿真軟件為Matlab R2014a.
利用網(wǎng)絡(luò)爬蟲技術(shù)抓取網(wǎng)絡(luò)中的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù),并對采集到的數(shù)據(jù)進行歸一化處理,將處理好的數(shù)據(jù)作為實驗樣本數(shù)據(jù).其中,樣本數(shù)據(jù)采集頻率120 Hz,數(shù)據(jù)融合聚類的運行迭代次數(shù)為50次,數(shù)據(jù)屬性間的區(qū)分度為0.46.
根據(jù)上述實驗設(shè)定,構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)分布式存儲,比較應(yīng)用前后的非結(jié)構(gòu)化數(shù)據(jù)分布式存儲的有效計算比如圖2所示.
圖2 有效計算比
分析圖2得知,與應(yīng)用前相比,大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方法應(yīng)用后,數(shù)據(jù)分布式存儲過程中的有效計算比較高,說明利用該方法在進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方面具有較高的存儲能力.
為了進一步驗證本文方法的應(yīng)用性能,將以NoSQL為代表的存儲方法(文獻[3]方法)、基于Spark的存儲方法(文獻[4]方法)、基于信息分散算法的存儲方法(文獻[5]方法)作為對比方法,通過比較不同的實驗指標(biāo)來驗證不同方法的綜合性能.
測試不同方法的執(zhí)行時間,得到對比結(jié)果如圖3所示.
分析圖3得知,文獻[3]方法的執(zhí)行時間在88 ms~110 ms之間,文獻[4]方法的執(zhí)行時間在70 ms~92 ms之間,文獻[5]方法的執(zhí)行時間在57 ms~77 ms之間,而本文方法的執(zhí)行時間在40 ms~52 ms之間,說明采用這種方法進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲的執(zhí)行時間較短,提高了數(shù)據(jù)存儲的實時性.
圖3 執(zhí)行時間測試
在此基礎(chǔ)上,測試不同方法的數(shù)據(jù)存儲的融合聚類準(zhǔn)確性,得到對比結(jié)果如圖4所示.
圖4 數(shù)據(jù)聚類準(zhǔn)確性測試
分析圖4得知,文獻[3]方法的數(shù)據(jù)聚類準(zhǔn)確性在39%~68%之間,文獻[4]方法的數(shù)據(jù)聚類準(zhǔn)確性在66%~82%之間,文獻[5]方法的數(shù)據(jù)聚類準(zhǔn)確性在68%~85%之間,而本文方法的數(shù)據(jù)聚類準(zhǔn)確性在87%~94%之間,說明采用這種方法進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲,具有較高的數(shù)據(jù)聚類準(zhǔn)確率,且明顯高于其他傳統(tǒng)方法.
本文提出基于空間網(wǎng)格聚類的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方法.構(gòu)建大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)多維空間分布式融合模型,采用模糊中心權(quán)重聚類的方法進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)簇內(nèi)特征線性加權(quán)控制處理,采用壓縮感知控制方法,得到數(shù)據(jù)存儲的交互結(jié)構(gòu)模型,通過線性融合和二元規(guī)劃設(shè)計的方法,進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)重建,根據(jù)數(shù)據(jù)預(yù)處理結(jié)果,求大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲空間的占用期望值,得到類間相異性參數(shù),計算大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的簇內(nèi)分布狀態(tài)特征量,實現(xiàn)數(shù)據(jù)存儲優(yōu)化設(shè)計.研究得知,本文方法進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲的計算開銷較小,降低了存儲空間,提高了數(shù)據(jù)聚類準(zhǔn)確性.