大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的分布式存儲方法

2021-09-08 03:46:00樸承哲

太原師范學(xué)院學(xué)報(自然科學(xué)版) 2021年3期

樸承哲

(遼寧民族師范高等?？茖W(xué)校民族文化與職業(yè)教育系，遼寧沈陽 110032)

隨著大數(shù)據(jù)處理技術(shù)的發(fā)展，網(wǎng)絡(luò)中的數(shù)據(jù)量快速增加，使得數(shù)據(jù)規(guī)模持續(xù)增大，所以加大了大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲難度.為了解決這一問題，需要構(gòu)建優(yōu)化的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲結(jié)構(gòu)模型，以此提高大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的優(yōu)化管理能力，所以對于大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方法的研究受到人們的極大關(guān)注[1].

現(xiàn)階段，對大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲研究主要是建立在對數(shù)據(jù)融合和特征提取基礎(chǔ)上，構(gòu)建大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲的聚類和壓縮模型，通過網(wǎng)格分塊區(qū)域聚類方法進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲設(shè)計[2]，傳統(tǒng)的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方法主要有以NoSQL為代表的非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方式[3]、基于Spark的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方法[4]、基于信息分散算法的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方法等[5].這些方法均是通過提取大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的特征量，通過關(guān)聯(lián)信息融合聚類分析進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲設(shè)計，結(jié)合壓縮感知方法實現(xiàn)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲，但是采用傳統(tǒng)方法進行非結(jié)構(gòu)化數(shù)據(jù)分布式存儲的自適應(yīng)性不好，數(shù)據(jù)壓縮精度不高，所用的存儲開銷較高，且存儲耗時較長，其數(shù)據(jù)存儲性能并不好.

針對上述問題，本文提出基于空間網(wǎng)格聚類的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方法，并通過仿真測試進行性能驗證，展示了本文方法在大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲能力方面的優(yōu)越性能.

1 大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)線性加權(quán)控制及融合

1.1 大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的線性加權(quán)控制

為了實現(xiàn)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲優(yōu)化設(shè)計，需要定義類簇之間的距離參數(shù)分布[6]，以此為基礎(chǔ)構(gòu)建大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)多維空間分布式信息融合模型.首先采用全局分布特征融合的方法，分析大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的交互特征空間分布集，通過模糊度參數(shù)特征重組的方法[7]，得到第t次迭代后大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)多維空間分布式信息融合模型為

(1)

其中，A(t)為大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的分布包絡(luò)數(shù)值量，θ(t)為大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)調(diào)制分量.計算第k+1次迭代后大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的模糊關(guān)聯(lián)信息分量，并根據(jù)的密度樣本分布信息[8]，得到網(wǎng)絡(luò)輸入元素的自相關(guān)矩陣R為

(2)

設(shè)定Q(k)表示第k個大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)聚類中心的量化參數(shù)集，ε表示聚類中心與數(shù)據(jù)集分布的線性閥值，則存在以下關(guān)系式，

Q(k+1)≥ε-Q(k)，

(3)

其中，Q(k+1)表示第k+1個大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)聚類中心的量化參數(shù)集[9].

采用模糊中心權(quán)重的方法得構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)的交互訪問控制模型，該模型具體如圖1所示.

圖1 大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的交互訪問控制模型

根據(jù)上述交互訪問控制模型，進行非結(jié)構(gòu)化數(shù)據(jù)簇內(nèi)線性加權(quán)控制處理.在此過程中，需要先對加權(quán)系數(shù)進行計算，則其最小值可以通過公式(4)計算得出.

(4)

1.2 數(shù)據(jù)融合

根據(jù)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的特征空間分布集，采用密度最大的點作為進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)管理和自適應(yīng)檢測，大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)融合的檢測統(tǒng)計量為

(5)

對大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲特征分量進行線性融合處理，尋找初始聚類中心.通過線性融合和二元規(guī)劃設(shè)計的方法，進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)重建[10]，并在初始聚類中心構(gòu)建大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的信息融合模型

(6)

2 大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲

2.1 數(shù)據(jù)特征提取

根據(jù)數(shù)據(jù)融合處理結(jié)果進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方法的設(shè)計.通過樣本擴展和密度融合的方法進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)特征提取[11-13]，采用選擇隨機性特征分析方法，對易混淆的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)進行去重處理，以此獲取大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)關(guān)聯(lián)維特分布特征量及相似度的關(guān)系為

(7)

其中，D(A)表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲的額外能量開銷.對大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)進行連續(xù)特征分解處理，假設(shè)

(8)

其中，pi為大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的所有樣本元素的權(quán)重，通過上述結(jié)果得到大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)融合的復(fù)合遷移特征量為：

(9)

當(dāng)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的密度聚斂性參數(shù)滿足[δ1,δ2,…,δN]，通過狀態(tài)結(jié)構(gòu)重組，得到大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的密度特征分布集

(10)

其中，|Rg|表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的密度參數(shù)融合量.結(jié)合狀態(tài)尋優(yōu)控制和多?？臻g壓縮的方法[14]，得到大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的聚類中心尋優(yōu)控制模型為

(11)

其中，si表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的概念集，qj表示模糊空間特征匹配集.根據(jù)聚類中心的樣本元素的權(quán)重分布獲取權(quán)重學(xué)習(xí)參數(shù)

(12)

其中，WjT(n)表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲空間主元j的統(tǒng)計結(jié)果；Yj(n)表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)模糊狀態(tài)線性空間輸出值.

根據(jù)上述分析，構(gòu)建大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)特征提取模型為

(13)

其中，ajT(n)表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)重組的線性加權(quán)值，Yj-1(n)表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲分布的反饋輸入.

綜上所述，實現(xiàn)了大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)特征提取，下一步需要結(jié)合自相關(guān)融合聚類分析，進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲結(jié)構(gòu)的優(yōu)化設(shè)計，以此實現(xiàn)數(shù)據(jù)分布式存儲.

2.2 數(shù)據(jù)分布式存儲實現(xiàn)

根據(jù)特征提取結(jié)果進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)融合和特征空間劃分，采用自相關(guān)融合聚類分析方法[15]，得到大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)樣本空間分布為

(14)

根據(jù)樣本空間分布對大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的個體結(jié)構(gòu)信息重組，得到數(shù)據(jù)的優(yōu)化存儲的模糊空間分布為

(15)

根據(jù)數(shù)據(jù)預(yù)處理結(jié)果以及模糊空間分布，求大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲空間的占用期望值為

(16)

假設(shè)wj(n)為學(xué)習(xí)權(quán)重，得到存儲空間中大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的簇內(nèi)緊密度為

(17)

其中，θjk(n)為類間相異性參數(shù).結(jié)合簇內(nèi)緊密度計算結(jié)果，對大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的存儲空間容量進行估計，結(jié)果為：

(18)

(19)

3 仿真實驗與結(jié)果分析

為了驗證本文方法在實現(xiàn)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲優(yōu)化中的應(yīng)用性能，進行實驗測試分析，具體的實驗環(huán)境如下：操作系統(tǒng)為Windows7，CPU為Intel Core i5-7300HQ，內(nèi)存為32 G，硬盤為500 GB，運行內(nèi)存為8 G，主頻為2.1 GHz，仿真軟件為Matlab R2014a.

利用網(wǎng)絡(luò)爬蟲技術(shù)抓取網(wǎng)絡(luò)中的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)，并對采集到的數(shù)據(jù)進行歸一化處理，將處理好的數(shù)據(jù)作為實驗樣本數(shù)據(jù).其中，樣本數(shù)據(jù)采集頻率120 Hz，數(shù)據(jù)融合聚類的運行迭代次數(shù)為50次，數(shù)據(jù)屬性間的區(qū)分度為0.46.

根據(jù)上述實驗設(shè)定，構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)分布式存儲，比較應(yīng)用前后的非結(jié)構(gòu)化數(shù)據(jù)分布式存儲的有效計算比如圖2所示.

圖2 有效計算比

分析圖2得知，與應(yīng)用前相比，大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方法應(yīng)用后，數(shù)據(jù)分布式存儲過程中的有效計算比較高，說明利用該方法在進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方面具有較高的存儲能力.

為了進一步驗證本文方法的應(yīng)用性能，將以NoSQL為代表的存儲方法(文獻[3]方法)、基于Spark的存儲方法(文獻[4]方法)、基于信息分散算法的存儲方法(文獻[5]方法)作為對比方法，通過比較不同的實驗指標(biāo)來驗證不同方法的綜合性能.

測試不同方法的執(zhí)行時間，得到對比結(jié)果如圖3所示.

分析圖3得知，文獻[3]方法的執(zhí)行時間在88 ms～110 ms之間，文獻[4]方法的執(zhí)行時間在70 ms～92 ms之間，文獻[5]方法的執(zhí)行時間在57 ms～77 ms之間，而本文方法的執(zhí)行時間在40 ms～52 ms之間，說明采用這種方法進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲的執(zhí)行時間較短，提高了數(shù)據(jù)存儲的實時性.

圖3 執(zhí)行時間測試

在此基礎(chǔ)上，測試不同方法的數(shù)據(jù)存儲的融合聚類準(zhǔn)確性，得到對比結(jié)果如圖4所示.

圖4 數(shù)據(jù)聚類準(zhǔn)確性測試

分析圖4得知，文獻[3]方法的數(shù)據(jù)聚類準(zhǔn)確性在39%～68%之間，文獻[4]方法的數(shù)據(jù)聚類準(zhǔn)確性在66%～82%之間，文獻[5]方法的數(shù)據(jù)聚類準(zhǔn)確性在68%～85%之間，而本文方法的數(shù)據(jù)聚類準(zhǔn)確性在87%～94%之間，說明采用這種方法進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲，具有較高的數(shù)據(jù)聚類準(zhǔn)確率，且明顯高于其他傳統(tǒng)方法.

4 結(jié)語

本文提出基于空間網(wǎng)格聚類的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲方法.構(gòu)建大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)多維空間分布式融合模型，采用模糊中心權(quán)重聚類的方法進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)簇內(nèi)特征線性加權(quán)控制處理，采用壓縮感知控制方法，得到數(shù)據(jù)存儲的交互結(jié)構(gòu)模型，通過線性融合和二元規(guī)劃設(shè)計的方法，進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)重建，根據(jù)數(shù)據(jù)預(yù)處理結(jié)果，求大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲空間的占用期望值，得到類間相異性參數(shù)，計算大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的簇內(nèi)分布狀態(tài)特征量，實現(xiàn)數(shù)據(jù)存儲優(yōu)化設(shè)計.研究得知，本文方法進行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲的計算開銷較小，降低了存儲空間，提高了數(shù)據(jù)聚類準(zhǔn)確性.