莊銀霞
【摘? ?要】? ?為提升分布式大數(shù)據(jù)的存儲能力,實(shí)現(xiàn)大數(shù)據(jù)的定向遷移與應(yīng)用,提出基于網(wǎng)格技術(shù)的分布式大數(shù)據(jù)混合云存儲方法。采用網(wǎng)格技術(shù)設(shè)計Hadoop型云框架、大數(shù)據(jù)調(diào)度模塊、信息互感平臺,完成分布式存儲結(jié)構(gòu)搭建。在此基礎(chǔ)上,通過劃分大數(shù)據(jù)存儲關(guān)系,定義混合云存儲的具體格式,實(shí)現(xiàn)分布式大數(shù)據(jù)混合云存儲方法設(shè)計。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)分級信息存儲方法相比,研究方法的大數(shù)據(jù)定向遷移速率達(dá)到4.5×107 T/h,存儲容量的上限也明顯提升,能夠充分滿足分布式大數(shù)據(jù)存儲需求。
【關(guān)鍵詞】? ?網(wǎng)格技術(shù);分布式大數(shù)據(jù);混合云存儲;調(diào)度模塊;互感平臺;存儲依賴度;定向遷移;
Research on Distributed Big Data Hybrid Cloud Storage Based on Grid Technology
ZHUANG Yin-xia
(Quanzhou University of Information Engineering,Quanzhou 362000,China)
【Abstract】 In order to improve the storage capacity of distributed big data and realize the directional migration and application of big data, a hybrid cloud storage method based on grid technology is proposed. Using grid technology to design Hadoop cloud framework, big data scheduling module, information mutual inductance platform, to complete the construction of distributed storage structure. On this basis, through the division of big data storage relationship, the specific format of hybrid cloud storage is defined to realize the design of hybrid cloud storage method for distributed big data. The experimental results show that compared with the traditional hierarchical information storage method, the directed migration rate of big data of the research method is 4.5×107 T/h, and the upper limit of storage capacity is also significantly improved, which can fully meet the requirements of distributed big data storage.
【Key words】 grid technology; distributed big data; hybrid cloud storage; scheduling module; mutual inductance platform; storage dependency; directional migration;
〔中圖分類號〕? TP393 ? ? ? ? ? ? 〔文獻(xiàn)標(biāo)識碼〕? A ? ? ? ? ? ? ?〔文章編號〕 1674 - 3229(2021)01- 0000 - 00
0? ? ?引言
網(wǎng)格是一種具備超強(qiáng)存儲能力與處理能力的新型IT網(wǎng)絡(luò),能夠應(yīng)對云環(huán)境下所有臨時信息存儲請求。在共享網(wǎng)絡(luò)的支持下網(wǎng)格可直接統(tǒng)計不同連接處的計算機(jī)從屬關(guān)系,從而建立完全虛擬化的超級計算機(jī)系統(tǒng)。在數(shù)據(jù)處理過程中,網(wǎng)格將各個計算機(jī)的多余處理器結(jié)合在一起,不僅提升了信息處理效率,也避免了復(fù)雜信息間套疊關(guān)系的出現(xiàn)[1]。網(wǎng)格技術(shù)以TCP/IP協(xié)議作為核心,與其它信息互聯(lián)手段相比,這種方法可以在構(gòu)建網(wǎng)格映射關(guān)系的同時,定義標(biāo)準(zhǔn)服務(wù)環(huán)境下的數(shù)據(jù)關(guān)系,不僅增強(qiáng)了計算機(jī)系統(tǒng)中對象管理效果,也解決了因不良網(wǎng)絡(luò)服務(wù)而造成的信息干擾問題。
隨著網(wǎng)絡(luò)環(huán)境中待處理信息總量的提升,如何定義大數(shù)據(jù)的定向遷移與應(yīng)用關(guān)系,已經(jīng)成為了一種亟待解決的問題。為實(shí)現(xiàn)上述目標(biāo),傳統(tǒng)分級信息存儲手段在無監(jiān)督自動數(shù)據(jù)清洗指令的支持下,分析大數(shù)據(jù)之間的邏輯權(quán)重關(guān)系,再借助DeepDive平臺完成已存儲大數(shù)據(jù)的定向遷移與處置。但在既定存儲空間內(nèi),這種方法存儲容量相對較低,且很難在單一方向上實(shí)現(xiàn)關(guān)聯(lián)大數(shù)據(jù)的高效率轉(zhuǎn)移?;诖艘刖W(wǎng)格技術(shù),聯(lián)合Hadoop型框架、信息互感平臺等多個硬件設(shè)備,設(shè)計一種新型的分布式大數(shù)據(jù)混合云存儲方法,并通過對比實(shí)驗(yàn)的方式,驗(yàn)證這種方法的實(shí)際應(yīng)用價值。
1? ? ?基于網(wǎng)格技術(shù)的分布式存儲結(jié)構(gòu)
基于網(wǎng)格技術(shù)的分布式存儲結(jié)構(gòu)由Hadoop型云框架、大數(shù)據(jù)調(diào)度模塊、信息互感平臺三部分共同組成,具體搭建方法如下。
1.1? ?Hadoop型云框架
Hadoop型云框架是大數(shù)據(jù)分布式存儲結(jié)構(gòu)的建立基礎(chǔ),由大數(shù)據(jù)存儲中心、上層信息網(wǎng)格、中間信息網(wǎng)格、下層信息網(wǎng)格共同組成。在在云節(jié)點(diǎn)呈現(xiàn)數(shù)據(jù)流持續(xù)輸出的情況下,大數(shù)據(jù)存儲中心可直接提取分布式數(shù)據(jù)庫中的待處理數(shù)據(jù)參量,再借助信息互感匹配通路,將所有大數(shù)據(jù)傳輸至下級應(yīng)用平臺中。上層信息網(wǎng)格、中間信息網(wǎng)格、下層信息網(wǎng)格按照從上至下的順序排列,待存儲的大數(shù)據(jù)首先經(jīng)由調(diào)配通道進(jìn)入頂層云接口中,再按照網(wǎng)格化應(yīng)用需求,將滿足信息利用條件的大數(shù)據(jù)傳輸至中層接口,最后聯(lián)合所有未存儲數(shù)據(jù)參量,完成由分布式大數(shù)據(jù)到網(wǎng)格化結(jié)構(gòu)體的轉(zhuǎn)化[2-3]。Hadoop框架是一種上下兩端高度對稱的云存儲結(jié)構(gòu),可在滿足網(wǎng)格信息分級應(yīng)用需求的同時,實(shí)現(xiàn)數(shù)據(jù)參量的同步整合與調(diào)度。
1.2? ?大數(shù)據(jù)調(diào)度模塊
大數(shù)據(jù)調(diào)度模塊作為Hadoop型云框架的下級附屬模塊,由服務(wù)器層、交換處理層、客戶端層三個網(wǎng)格單元組成。其中,服務(wù)器層包含大數(shù)據(jù)服務(wù)器、云存儲服務(wù)器兩個核心設(shè)備,前者能夠直接感知混合型大數(shù)據(jù)的隨機(jī)變化,再將符合需求的大數(shù)據(jù)傳輸至頂層存儲主機(jī)中;后者作為大數(shù)據(jù)存儲指令的既定生成元件,可接收來自大數(shù)據(jù)網(wǎng)格的所有應(yīng)用信息,并將其轉(zhuǎn)化為鏡像式信息結(jié)構(gòu)體[4]。交換處理層包含鏡像信息處理設(shè)備、網(wǎng)格交換機(jī)、分布式交換機(jī)、存儲路由器、大數(shù)據(jù)防火墻五類元件。其中,鏡像信息處理設(shè)備負(fù)責(zé)接收云存儲服務(wù)器中的鏡像式信息結(jié)構(gòu)體,在存儲路由器的支持下,將待存儲的分布式大數(shù)據(jù)信息首先轉(zhuǎn)換成“H型”存儲結(jié)構(gòu)、再轉(zhuǎn)換成“R型”存儲結(jié)構(gòu),且在整個執(zhí)行處理過程中,網(wǎng)格交換機(jī)與分布式交換機(jī)始終保持著連接狀態(tài)[5-6]。大數(shù)據(jù)防火墻具備較為穩(wěn)定的防入侵能力,也是執(zhí)行云存儲指令的安全性保障元件??蛻舳藢影粋€調(diào)度交換機(jī)和多個底層云存儲執(zhí)行設(shè)備,前者僅負(fù)責(zé)接收與信息結(jié)構(gòu)體相關(guān)的調(diào)度處置指令,而后者作為指令執(zhí)行者必須時刻與分布式大數(shù)據(jù)節(jié)點(diǎn)保持相同的變化趨勢。
1.3? ?信息互感平臺
信息互感平臺與大數(shù)據(jù)調(diào)度模塊直接相連,向上接收來自Hadoop型云框架的網(wǎng)格數(shù)據(jù)參量,向下執(zhí)行由混合數(shù)據(jù)庫定義的應(yīng)用調(diào)度指令,以Query table芯片和Capacity table芯片作為核心設(shè)備。其中,Query table芯片作為上層分級元件,可借助云存儲信道建立與客戶端的連接。在大數(shù)據(jù)調(diào)度模塊保持著連續(xù)大數(shù)據(jù)輸出的情況下,信息互感平臺立刻進(jìn)入連接狀態(tài),然而隨著大數(shù)據(jù)調(diào)度速率的增加,芯片所承載的傳輸壓力也會不斷提升,直至信道內(nèi)的所有網(wǎng)格數(shù)據(jù)存儲完成后,互感平臺才會接受再次連接申請,保證傳輸?shù)姆€(wěn)定性[7]。Capacity table芯片作為下層分級元件,借助云傳輸通路與混合數(shù)據(jù)庫建立連接。通常情況下,Hadoop型云框架不會影響信息互感平臺內(nèi)的信息傳輸速率,而該結(jié)構(gòu)在功能方面與數(shù)據(jù)存儲調(diào)節(jié)器類似,只能緩解因信息處理不及時而造成的數(shù)據(jù)堆積情況,并不能從根本上增強(qiáng)平臺內(nèi)部元件的互感共通能力。
2? ? ?分布式大數(shù)據(jù)混合云存儲方法設(shè)計
在分布式存儲結(jié)構(gòu)的支持下,按照大數(shù)據(jù)存儲關(guān)系劃分、混合存儲格式定義、已存儲信息格式有效性計算等過程,完成基于網(wǎng)格技術(shù)的分布式大數(shù)據(jù)混合云存儲方法的設(shè)計。
2.1? ?大數(shù)據(jù)存儲關(guān)系劃分
大數(shù)據(jù)存儲關(guān)系劃分是在分布式存儲結(jié)構(gòu)的支持下,確定特征網(wǎng)格節(jié)點(diǎn)的從屬執(zhí)行能力,從而計算分布式數(shù)據(jù)庫的處理能力。在不考慮分布式信息網(wǎng)格干擾的前提下,大數(shù)據(jù)存儲關(guān)系中的最大處理能力也被稱為云參量的上限存儲極值條件,主要受到起始分布式權(quán)限與混合信息標(biāo)度參量的影響[8-9]。假設(shè)起始分布式權(quán)限常用[r1]表示,在既定存儲時間內(nèi),開放權(quán)限可加快大數(shù)據(jù)的傳輸速率,對云參量上限存儲極值條件起到正向促進(jìn)作用。起始混合信息標(biāo)度參量常為[i1],可作為評估大數(shù)據(jù)結(jié)構(gòu)體存儲有效性的物理指標(biāo),在網(wǎng)格技術(shù)的影響下,始終與起始分布式權(quán)限系數(shù)保持相同的物理作用。大數(shù)據(jù)存儲關(guān)系中的最小處理能力也叫云參量的下限存儲極值條件,受到終止分布式權(quán)限與結(jié)束混合信息標(biāo)度參量的同時作用影響。終止分布式權(quán)限為[r2],在既定存儲時間內(nèi),終止權(quán)限則不能實(shí)現(xiàn)大數(shù)據(jù)的傳輸調(diào)度,對云參量平均存儲數(shù)值水平起到反作用。終止混合信息標(biāo)度參量為[i2]。聯(lián)立上述物理量,可將大數(shù)據(jù)存儲關(guān)系表述為:
[q=0∞r(nóng)12χ1×yi1dyq=0∞i2r2χ2×udu]? ? (1)
其中,[χ1]代表分布式大數(shù)據(jù)的起始傳輸速率,[χ2]代表分布式大數(shù)據(jù)的終止傳輸速率,[y]代表網(wǎng)格數(shù)據(jù)信息的一般存儲條件,[u]代表已存儲大數(shù)據(jù)信息的平均轉(zhuǎn)化條件。
2.2? ?混合存儲格式定義
大數(shù)據(jù)混合存儲格式分為并列型、聯(lián)合型、遞進(jìn)型、交互型四類。
(1)并列型大數(shù)據(jù)存儲格式指的是起始節(jié)點(diǎn)與終止節(jié)點(diǎn)類型完全相同的信息結(jié)構(gòu)體,在分布式網(wǎng)格中,可在無互感節(jié)點(diǎn)配合的情況下,實(shí)現(xiàn)由散點(diǎn)信息到束狀結(jié)構(gòu)體的轉(zhuǎn)化[10]。
(2)聯(lián)合型大數(shù)據(jù)存儲格式指的是起始節(jié)點(diǎn)質(zhì)量明顯高于終止節(jié)點(diǎn)質(zhì)量的信息結(jié)構(gòu)體,在分布式網(wǎng)格中,這類信息結(jié)構(gòu)體的傳輸速率始終保持在2000bit/s-2500 bit/s之間,也只有在互感節(jié)點(diǎn)的配合下,才能實(shí)現(xiàn)由散點(diǎn)信息到束狀結(jié)構(gòu)體的轉(zhuǎn)化。
(3)遞進(jìn)型大數(shù)據(jù)存儲格式指的是終止節(jié)點(diǎn)質(zhì)量明顯高于起始節(jié)點(diǎn)質(zhì)量的信息結(jié)構(gòu)體,在分布式網(wǎng)格中,這類信息結(jié)構(gòu)體的傳輸速率始終保持在2500bit/s-3000 bit/s之間,有無互感節(jié)點(diǎn)配合,都能實(shí)現(xiàn)由散點(diǎn)信息到束狀結(jié)構(gòu)體的轉(zhuǎn)化。
(4)交互型大數(shù)據(jù)存儲格式指的是起始節(jié)點(diǎn)與終止節(jié)點(diǎn)類型完全不相同的信息結(jié)構(gòu)體,在分布式網(wǎng)格中,這類信息結(jié)構(gòu)體的傳輸速率極慢,低于2000 bit/s,必須在互感節(jié)點(diǎn)配合的情況下,才能實(shí)現(xiàn)由散點(diǎn)信息到束狀結(jié)構(gòu)體的轉(zhuǎn)化[11-12]。完整的混合存儲格式定義原理如表1所示。
分布式大數(shù)據(jù)云存儲可根據(jù)大數(shù)據(jù)參量的上下限劃分關(guān)系,確定已存儲信息格式有效性,并以此為依據(jù),進(jìn)行大數(shù)據(jù)云存儲[13]。在不考慮數(shù)據(jù)過量遷移行為的情況下,云存儲效果受到網(wǎng)格作用系數(shù)、分布式信息量化條件的影響。設(shè)網(wǎng)格作用系數(shù)為[β],具備明顯的時間行為特性,在既定存儲周期內(nèi),該項(xiàng)物理指標(biāo)會隨大數(shù)據(jù)傳輸總量的增加而不斷上升。分布式信息量化條件為[f],具備較強(qiáng)的承載穩(wěn)定性,在大數(shù)據(jù)存儲空間[[q,q]]內(nèi),該項(xiàng)物理指標(biāo)始終保持不變。聯(lián)立公式(1),可將云存儲結(jié)果表示為:
[ε=2βk2-k1+qqf?lx2lnD2D1]? ?(2)
其中,[k2]代表大數(shù)據(jù)指標(biāo)的最大化表現(xiàn)行為量,[k1]代表大數(shù)據(jù)指標(biāo)的最小化表現(xiàn)行為量,[l]代表分布式大數(shù)據(jù)的混合存儲周期,[x]代表待存儲信息的分布描述參量,[D2]代表最大量化處理系數(shù),[D1]代表最小量化處理系數(shù)。
3? ? ?實(shí)驗(yàn)設(shè)計與結(jié)果分析
為突出說明基于網(wǎng)格技術(shù)的分布式大數(shù)據(jù)混合云存儲方法的實(shí)際應(yīng)用價值,設(shè)計如下對比實(shí)驗(yàn)。截取兩段波長相同、頻率相等的大數(shù)據(jù)作為實(shí)驗(yàn)對象,分別以搭載研究方法和傳統(tǒng)分級信息存儲手段的分析主機(jī)作為實(shí)驗(yàn)組、對照組,在既定時間內(nèi),根據(jù)指標(biāo)數(shù)值的走向趨勢,研究大數(shù)據(jù)的定向遷移速率與數(shù)據(jù)儲存容量的具體變化情況。
3.1? ?實(shí)際檢測環(huán)境搭建
將兩段大數(shù)據(jù)信息分別導(dǎo)入不同的分析主機(jī)中,在相同實(shí)驗(yàn)環(huán)境下,根據(jù)顯示器中指標(biāo)參量的實(shí)際變化,繪制實(shí)驗(yàn)指標(biāo)變動曲線。
3.2? ?定向遷移速率
以80 min作為既定檢測時長,分別記錄在該段時間內(nèi),實(shí)驗(yàn)組、對照組大數(shù)據(jù)的定向遷移速率的具體變化情況,實(shí)驗(yàn)詳情如圖5、圖6所示。
對比圖4、圖5可知,在整個檢測過程中,實(shí)驗(yàn)組關(guān)聯(lián)信息的定向遷移速率基本保持上升、下降交替出現(xiàn)的變化趨勢,對照組關(guān)聯(lián)信息的定向遷移速率在大幅下降后,開始小幅度的波動式下降,前者最大值達(dá)到4.5×107T/h,而后者最大值僅達(dá)到3.8×107T/h,低于實(shí)驗(yàn)組數(shù)值水平。綜上可知,應(yīng)用基于網(wǎng)格技術(shù)分布式大數(shù)據(jù)混合云存儲方法,可實(shí)現(xiàn)提升關(guān)聯(lián)信息定向遷移速率的目的。
3.3? ?數(shù)據(jù)存儲容量
下表反應(yīng)了80min的檢測時間內(nèi),實(shí)驗(yàn)組、對照組數(shù)據(jù)存儲容量的具體變化情況。
對比表2、表3可知,在整個檢測過程中,實(shí)驗(yàn)組數(shù)據(jù)存儲容量保持先上升、再穩(wěn)定的變化趨勢,對照組數(shù)據(jù)存儲容量前期始終保持穩(wěn)定,后期開始大幅下降,前者最大值達(dá)到8.9×107T,而后者最大值僅達(dá)到4.3×107T,遠(yuǎn)低于實(shí)驗(yàn)組。綜上可知,應(yīng)用基于網(wǎng)格技術(shù)分布式大數(shù)據(jù)混合云存儲方法,能夠從根本上解決數(shù)據(jù)擴(kuò)展空間不達(dá)標(biāo)的問題。
4? ? ?結(jié)束語
隨著網(wǎng)格應(yīng)用技術(shù)的不斷普及,傳統(tǒng)分級信息存儲手段雖能明確大數(shù)據(jù)結(jié)構(gòu)之間的邏輯權(quán)重關(guān)系,但始終難以實(shí)現(xiàn)分布式大數(shù)據(jù)的定向遷移與應(yīng)用。為解決該問題,本文提出基于網(wǎng)格技術(shù)的分布式大數(shù)據(jù)混合云存儲方法,通過設(shè)計Hadoop型云框架、信息互感平臺等多個硬件設(shè)備,在劃分大數(shù)據(jù)存儲關(guān)系,定義混合云存儲的具體格式后進(jìn)行數(shù)據(jù)云存儲,不僅大大提升了大數(shù)據(jù)的定向遷移速率,也充分?jǐn)U展了額定空間內(nèi)的數(shù)據(jù)存儲容量,具有較高的實(shí)際應(yīng)用價值。
[參考文獻(xiàn)]
[1] 王海濤,李戰(zhàn)懷,張曉,等. 一種基于LSM樹的鍵值存儲系統(tǒng)性能優(yōu)化方法[J]. 計算機(jī)研究與發(fā)展,2019,56(8):1792-1802.
[2] 徐曉霞,姜春茂,黃春梅. 一種基于三支決策的移動云任務(wù)節(jié)能卸載方法[J]. 南京理工大學(xué)學(xué)報(自然科學(xué)版),2019,43(4):447-454.
[3] 任曉莉,楊建衛(wèi),李乃乾. 云計算中基于動態(tài)虛擬化電子流密碼的安全存儲[J]. 計算機(jī)科學(xué)與探索,2019,22(8):1331-1340.
[4] 季一木. HOS:一種基于HBase的分布式存儲系統(tǒng)設(shè)計與實(shí)現(xiàn)[J]. 南京郵電大學(xué)學(xué)報:自然科學(xué)版,2019,39(5):63-71.
[5] 楊茜. 基于盲數(shù)BM模型的配電網(wǎng)諧波數(shù)據(jù)存儲安全控制方法[J]. 電網(wǎng)與清潔能源,2019,35(12):43-48.
[6] 金光. 基于IFC4的電氣化鐵路接觸網(wǎng)BIM數(shù)據(jù)存儲標(biāo)準(zhǔn)研究[J]. 鐵道標(biāo)準(zhǔn)設(shè)計,2018,62(8):132-137.
[7] 韓文軍,余春生. 面向輸變電工程數(shù)據(jù)存儲管理的分布式數(shù)據(jù)存儲架構(gòu)[J]. 沈陽工業(yè)大學(xué)學(xué)報,2019,41(4):366-371.
[8] 徐毅,王建民,黃向東,等. 一種基于最大流的分布式存儲系統(tǒng)中查詢?nèi)蝿?wù)最優(yōu)分配算法[J]. 計算機(jī)學(xué)報,2019,25(8):1858-1872.
[9] 溫振蕙,樊永生,余紅英. 基于Thrift的HBase數(shù)據(jù)存儲機(jī)制優(yōu)化[J]. 科學(xué)技術(shù)與工程,2019,19(6):185-189.
[10] 吳燦強(qiáng),芮曄,潘東梅. 基于YAFFS2文件系統(tǒng)的分區(qū)管理對載荷數(shù)據(jù)存儲效率的研究[J]. 電子設(shè)計工程,2018,26(23):42-47.
[11] 王平,杜永成,楊立,等. 基于重疊網(wǎng)格技術(shù)和VOF模型的潛艇熱尾流浮升擴(kuò)散規(guī)律的數(shù)值與實(shí)驗(yàn)研究[J]. 紅外與激光工程,2019,18(4):38-46.
[12] 孫健飛,李巖松,韓東,等. 基于多重網(wǎng)格技術(shù)的含蠟原油管道析蠟速率三維數(shù)值模擬研究[J]. 工程熱物理學(xué)報,2019,14(8):1913-1920.
[13] 王啟明,車愛蘭. 基于CT探測技術(shù)的不良地質(zhì)構(gòu)造三維網(wǎng)格模型重構(gòu)方法[J]. 巖石力學(xué)與工程學(xué)報,2019,38(6):1222-1232.