常 濤 周愛(ài)華 朱韻攸 朱力鵬 饒 瑋 鄧 松
1(國(guó)網(wǎng)重慶市電力公司 重慶 400014)2(國(guó)網(wǎng)智能電網(wǎng)研究院 江蘇 南京 210003)3(國(guó)網(wǎng)重慶市電力公司信息通信分公司 重慶 401121)4(南京郵電大學(xué)先進(jìn)技術(shù)研究院 江蘇 南京 210023)
?
基于網(wǎng)格服務(wù)的電力海量數(shù)據(jù)分布式恢復(fù)算法
常 濤1周愛(ài)華2*朱韻攸3朱力鵬2饒 瑋2鄧 松4
1(國(guó)網(wǎng)重慶市電力公司 重慶 400014)2(國(guó)網(wǎng)智能電網(wǎng)研究院 江蘇 南京 210003)3(國(guó)網(wǎng)重慶市電力公司信息通信分公司 重慶 401121)4(南京郵電大學(xué)先進(jìn)技術(shù)研究院 江蘇 南京 210023)
傳統(tǒng)的基于糾錯(cuò)碼的數(shù)據(jù)恢復(fù)算法既提高了數(shù)據(jù)存儲(chǔ)的可靠性,又增加了數(shù)據(jù)恢復(fù)的計(jì)算時(shí)間。為了解決這個(gè)問(wèn)題,首先對(duì)整個(gè)樣本數(shù)據(jù)采用粗糙集進(jìn)行約簡(jiǎn),然后基于網(wǎng)格服務(wù)思想,提出基于網(wǎng)格服務(wù)的電力海量數(shù)據(jù)分布式恢復(fù)算法DR-GSPMD(Distributed Recovery based on Grid Service for Power Mass Data)。仿真實(shí)驗(yàn)表明針對(duì)所有測(cè)試數(shù)據(jù)集,隨著校驗(yàn)碼個(gè)數(shù)的增加,整個(gè)系統(tǒng)的最大容錯(cuò)率和數(shù)據(jù)恢復(fù)時(shí)間也隨著增加。同時(shí)針對(duì)約簡(jiǎn)后的數(shù)據(jù)集隨著計(jì)算節(jié)點(diǎn)數(shù)的增加,算法降低了計(jì)算復(fù)雜度,加快了范德蒙矩陣運(yùn)算的速度,減少了整個(gè)數(shù)據(jù)恢復(fù)的時(shí)間。
數(shù)據(jù)恢復(fù) 網(wǎng)格服務(wù) 屬性約簡(jiǎn)
隨著云計(jì)算、物聯(lián)網(wǎng)等新型信息通信技術(shù)在智能電網(wǎng)中的不斷深入應(yīng)用,智能電網(wǎng)發(fā)電、輸電、變電、配電、用電及調(diào)度等各個(gè)環(huán)節(jié)的業(yè)務(wù)系統(tǒng)數(shù)據(jù)呈幾何級(jí)數(shù)增長(zhǎng)[1,2]。如何保證這些數(shù)據(jù)存儲(chǔ)的安全可靠性是需要解決的一個(gè)重要問(wèn)題。為了解決這個(gè)問(wèn)題,各類(lèi)分布式存儲(chǔ)系統(tǒng)應(yīng)運(yùn)而生。這些基于分布式環(huán)境的存儲(chǔ)系統(tǒng)最終目標(biāo)就是要使得用戶能連續(xù)且高可靠地訪問(wèn)存儲(chǔ)數(shù)據(jù),尤其是當(dāng)存儲(chǔ)數(shù)據(jù)被外部攻擊或者損壞時(shí),業(yè)務(wù)系統(tǒng)仍能正常運(yùn)行,保證用戶的最大服務(wù)質(zhì)量,這對(duì)智能電網(wǎng)業(yè)務(wù)系統(tǒng)運(yùn)行,特別是與外部因特網(wǎng)環(huán)境直接連接的業(yè)務(wù)系統(tǒng)至關(guān)重要。
副本技術(shù)[3-6]就是一種通過(guò)創(chuàng)建數(shù)據(jù)的完整或者部分的備份,然后分布式存儲(chǔ)在各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)中的一種技術(shù)。這種技術(shù)具有提高數(shù)據(jù)訪問(wèn)效率(可以就近訪問(wèn))、增強(qiáng)數(shù)據(jù)可用性、改善數(shù)據(jù)冗余性等優(yōu)勢(shì)。左方等提出一種基于蟻群算法的云存儲(chǔ)副本動(dòng)態(tài)選擇算法,實(shí)現(xiàn)了副本的有效分發(fā)和虛擬機(jī)集群的負(fù)載均衡[7]。針對(duì)服務(wù)質(zhì)量比較敏感的用戶,文獻(xiàn)[8]提出一種基于QoS 偏好感知的副本選擇策略。李功麗等提出一種云計(jì)算數(shù)據(jù)副本動(dòng)態(tài)管理策略[9],通過(guò)基于用戶需求來(lái)確定副本數(shù)目以此確定副本的位置,降低平均響應(yīng)時(shí)間。
但現(xiàn)有電力行業(yè)中的數(shù)據(jù)由于采集手段和采樣頻率的多樣化,各業(yè)務(wù)系統(tǒng)所包含的數(shù)據(jù)集大部分都是比較龐大的,維度較高,完全復(fù)制會(huì)帶來(lái)相當(dāng)高的帶寬和存儲(chǔ)空間需求。在不考慮存儲(chǔ)經(jīng)濟(jì)性的前提下,直接利用數(shù)據(jù)完全副本進(jìn)行數(shù)據(jù)恢復(fù)的前提是該副本本身是完整可靠的,為了解決這個(gè)問(wèn)題,很多研究者借鑒了信號(hào)處理領(lǐng)域的冗余容錯(cuò)技術(shù)[10-12],提出利用Erasure編碼來(lái)解決數(shù)據(jù)恢復(fù)問(wèn)題,但是隨著數(shù)據(jù)量的呈幾何級(jí)數(shù)增加以及數(shù)據(jù)的高維特征,直接利用Erasure code進(jìn)行編碼和解碼將耗費(fèi)大量的計(jì)算時(shí)間,從而大大影響了整個(gè)數(shù)據(jù)恢復(fù)的時(shí)間,最終會(huì)影響到對(duì)實(shí)時(shí)性要求較高的電力業(yè)務(wù)系統(tǒng)運(yùn)行。因此,本文針對(duì)電力海量數(shù)據(jù)安全存儲(chǔ)的實(shí)際需求,為了提高Erasure Code的編碼和解碼速度,結(jié)合屬性約簡(jiǎn)和網(wǎng)格服務(wù)的思想,提出了基于網(wǎng)格服務(wù)的電力海量數(shù)據(jù)分布式恢復(fù)算法DR-GSPMD。
Erasure Code是一種典型的糾錯(cuò)碼技術(shù)[10],具有良好的容錯(cuò)性和安全性。它的實(shí)現(xiàn)形式有很多類(lèi)型,由于基于范德蒙矩陣的編碼簡(jiǎn)單、易實(shí)現(xiàn)等特點(diǎn),本文重點(diǎn)研究該RS編碼中基于范德蒙矩陣的數(shù)據(jù)恢復(fù)技術(shù)。首先給出相關(guān)的概念[10]。
定義1對(duì)于n塊子數(shù)據(jù)塊和m個(gè)校驗(yàn)塊,構(gòu)造如下的矩陣:
(1)
則稱式(1)為范德蒙矩陣,其中ai,i∈[1,n]可以為任意自然數(shù)。
但隨著云計(jì)算、物聯(lián)網(wǎng)在智能電網(wǎng)中的廣泛應(yīng)用,越來(lái)越多的智能電網(wǎng)業(yè)務(wù)系統(tǒng)數(shù)據(jù)維度越來(lái)越高,數(shù)據(jù)量越來(lái)越大,使得在分布式存儲(chǔ)過(guò)程中直接基于Erasure Code進(jìn)行數(shù)據(jù)恢復(fù)的時(shí)間復(fù)雜度過(guò)大,從而影響后臺(tái)業(yè)務(wù)系統(tǒng)所提供的服務(wù)質(zhì)量。為了更快地基于Erasure Code進(jìn)行數(shù)據(jù)恢復(fù),首先需要對(duì)電力高維海量數(shù)據(jù)進(jìn)行屬性降維,其方法主要包括主成份分析方法,奇異值分解法,以及粗糙集等。前兩種方法不可避免地會(huì)造成原始數(shù)據(jù)信息的部分丟失,而基于粗糙集的屬性約簡(jiǎn)在降維的同時(shí),并沒(méi)有改變約簡(jiǎn)后數(shù)據(jù)的決策規(guī)則。因此本文提出基于粗糙集和Erasure Code的數(shù)據(jù)恢復(fù)算法DR-RSEC(Data Recovery algorithm based on Rough Set and Erasure Code),首先利用粗糙集對(duì)待恢復(fù)的海量高維數(shù)據(jù)進(jìn)行屬性約簡(jiǎn),降低其數(shù)據(jù)自身復(fù)雜度,然后再通過(guò)Erasure Code進(jìn)行數(shù)據(jù)恢復(fù)計(jì)算,這樣在不改變數(shù)據(jù)本身決策能力的前提下,提高數(shù)據(jù)恢復(fù)的效率。
在介紹DR-RSEC算法之前,首先給出相關(guān)基于粗糙集的屬性約簡(jiǎn)的定義[13]。
定義3樣本決策表SDT。設(shè)T=,其中U為樣本數(shù)據(jù)的研究對(duì)象集合,C∪D=R為樣本數(shù)據(jù)的屬性集合,C={c1,c2,…,cn}為樣本數(shù)據(jù)的條件屬性集合,D={d1,d2,…,dm}為樣本數(shù)據(jù)的決策屬性集合,V=∪vr,r∈R是樣本數(shù)據(jù)屬性值的集合,vr表示某一個(gè)屬性r∈R的屬性值范圍,f:U×R→V定義一個(gè)信息函數(shù),它指定U中每一對(duì)象x的屬性值,即對(duì)于?r∈R,x∈U,有f(x,r)∈vr。稱滿足上述條件的T為樣本決策表。
定義4對(duì)于?P?R,且x,y∈U,當(dāng)且僅當(dāng)對(duì)于?r∈P,f(x,r)=f(y,r)時(shí),x和y是不可分辨的,也即:IND(P)={(x,y)∈U|?r∈P,f(x,r)=f(y,r)}。
定義5設(shè)樣本決策表T=,對(duì)于相同的條件屬性值,其對(duì)應(yīng)的決策屬性值也相同,則稱樣本決策表T是協(xié)調(diào)的。
整個(gè)基于粗糙集和Erasure Code的數(shù)據(jù)恢復(fù)算法DR-RSEC的形式化描述如算法1所示。
算法1DR-RSEC
Input: 原始數(shù)據(jù)集Odata,n個(gè)數(shù)據(jù)塊,校驗(yàn)碼個(gè)數(shù)m;
Output: 恢復(fù)后的數(shù)據(jù)RData;
Begin
1. 針對(duì)原始數(shù)據(jù)集Odata,構(gòu)造樣本決策表T=;
2. for (c∈C) {
3. if (rC-{c}(D)=1)C=C-{c};}
4. 得到約簡(jiǎn)后的T=;
5. 將約簡(jiǎn)后的樣本數(shù)據(jù)集分割為n塊;
6. 根據(jù)分割塊數(shù)n和校驗(yàn)碼個(gè)數(shù)m,分別構(gòu)造范得蒙矩陣Fm×n以及分割后的數(shù)據(jù)矩陣Dn×1;
7. 校驗(yàn)碼矩陣Cm×1=Fm×n×Dn×1;
9. if (n塊數(shù)據(jù)子塊中有p塊受損) {
10. if (p<=m) {
12. RData==Merger(Dn×1);}
13. else {print (“不可恢復(fù)!”)}
14. Return RData.
算法1的時(shí)間復(fù)雜度為O(n(m+n)+|U||C|),主要集中在屬性約簡(jiǎn)和矩陣運(yùn)算中。隨著數(shù)據(jù)量和數(shù)據(jù)維度的增大,以及分割塊數(shù)和校驗(yàn)碼個(gè)數(shù)的增加,整個(gè)算法的時(shí)間復(fù)雜度將會(huì)急劇增加,這勢(shì)必將影響到數(shù)據(jù)恢復(fù)的時(shí)間。
2.1 算法思想
為了解決傳統(tǒng)的Erasure code的海量計(jì)算的問(wèn)題,本文在算法1的基礎(chǔ)上,結(jié)合網(wǎng)格服務(wù)的思想,提出了基于網(wǎng)格服務(wù)的電力海量數(shù)據(jù)分布式恢復(fù)算法DR-GSPMD。通過(guò)網(wǎng)格服務(wù),來(lái)構(gòu)造并行分布式計(jì)算平臺(tái),大大減少了計(jì)算的時(shí)間,提高了數(shù)據(jù)恢復(fù)的效率。
DR-GSPMD算法的主要思想就是首先利用粗糙集對(duì)原始數(shù)據(jù)集進(jìn)行屬性約簡(jiǎn);然后根據(jù)分割塊數(shù)和校驗(yàn)碼個(gè)數(shù)來(lái)分別構(gòu)造范得蒙矩陣、分割后的數(shù)據(jù)矩陣以及計(jì)算恢復(fù)所需的其他矩陣,接著把按照行對(duì)每一個(gè)矩陣進(jìn)行分解,然后把分解后的各個(gè)子矩陣分別傳輸?shù)礁鱾€(gè)網(wǎng)格節(jié)點(diǎn)中;其次編寫(xiě)相關(guān)矩陣的乘運(yùn)算以及求逆運(yùn)算的網(wǎng)格服務(wù),并把該網(wǎng)格服務(wù)部署到相應(yīng)的服務(wù)端;然戶分別把相應(yīng)矩陣運(yùn)算網(wǎng)格服務(wù)所需的參數(shù)通過(guò)數(shù)據(jù)傳輸服務(wù)傳輸?shù)街付ǖ姆?wù)端;最后客戶端通過(guò)門(mén)戶并行地調(diào)用和執(zhí)行各網(wǎng)格服務(wù),并把處理后的最終結(jié)果返回給客戶端。
2.2 算法描述
基于網(wǎng)格服務(wù)的分布式數(shù)據(jù)恢復(fù)算法主要就是把數(shù)據(jù)恢復(fù)中的有關(guān)矩陣運(yùn)算進(jìn)行分解,然后利用網(wǎng)格服務(wù)來(lái)并行化處理這些計(jì)算,從而提高計(jì)算的效率。整個(gè)算法的描述如下所示:
算法2基于網(wǎng)格服務(wù)的電力海量數(shù)據(jù)分布式恢復(fù)算法DR-GSPMD
Input: 原始數(shù)據(jù)集Odata,n個(gè)數(shù)據(jù)塊,校驗(yàn)碼個(gè)數(shù)m;
Output: 恢復(fù)后的數(shù)據(jù)RData;
Begin {
1. 客戶端首先根據(jù)原始數(shù)據(jù)集,基于粗糙集進(jìn)行屬性約簡(jiǎn),求解得到約簡(jiǎn)后的待分割數(shù)據(jù)集;
2. 基于約簡(jiǎn)后的待分割數(shù)據(jù)集,根據(jù)分割塊數(shù)和校驗(yàn)碼個(gè)數(shù),分別構(gòu)造范得蒙矩陣Fm×n以及分割后的數(shù)據(jù)矩陣Dn×1;
3. 根據(jù)部署矩陣乘算法網(wǎng)格服務(wù)的節(jié)點(diǎn)個(gè)數(shù),分解Fm×n和Dn×1,然后把分解后的各個(gè)子矩陣分別傳送到各個(gè)算法服務(wù)的節(jié)點(diǎn)上;
4. 對(duì)于每一個(gè)網(wǎng)格服務(wù)節(jié)點(diǎn),并行進(jìn)行矩陣相乘,最后傳輸?shù)娇蛻舳诉M(jìn)行合并成校驗(yàn)碼矩陣Cm×1;
6. if (n塊數(shù)據(jù)子塊中有p塊受損) {
7. if (p<=m) {
8. 將p個(gè)數(shù)據(jù)子塊對(duì)應(yīng)的矩陣A(n+m)×n和E(n+m)×1中的行刪除掉,得到新的矩陣A(n+m-p)×n和E(n+m-p)×1;
11. 對(duì)于每一個(gè)網(wǎng)格服務(wù)節(jié)點(diǎn),并行進(jìn)行矩陣相乘,最后傳輸?shù)娇蛻舳诉M(jìn)行合并成數(shù)據(jù)矩陣Dn×1;
12. RData=Merger (Dn×1);}
13. Return RData;
算法2的通信開(kāi)銷(xiāo)主要集中在各個(gè)網(wǎng)格節(jié)點(diǎn)之間傳輸數(shù)據(jù)子矩陣、各個(gè)矩陣相乘的耗時(shí),同時(shí)由于對(duì)各個(gè)矩陣分解后利用網(wǎng)格服務(wù)進(jìn)行并行運(yùn)算,故整個(gè)算法的時(shí)間復(fù)雜度大大減少。整個(gè)恢復(fù)過(guò)程是利用矩陣乘算法服務(wù)以及矩陣求逆算法服務(wù)協(xié)同工作,大大提高了矩陣求解的效率,節(jié)約了數(shù)據(jù)恢復(fù)的時(shí)間。
為了證明DR-GSPMD算法的有效性,本文在實(shí)驗(yàn)室環(huán)境下做了仿真實(shí)驗(yàn)分析。整個(gè)實(shí)驗(yàn)平臺(tái)為P4 1.8 GHz+512 MB+Java+Windows XP+WS-Core 4.0.2,所有的程序由Java語(yǔ)言實(shí)現(xiàn)。其中包括5臺(tái)計(jì)算節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)配置為2×E5-2620v2 CPU,128 GB內(nèi)存以及2×4 TB硬盤(pán)。為了說(shuō)明算法的有效性,本文的數(shù)據(jù)源主要包括隨機(jī)產(chǎn)生大小分別為100 MB、500 MB、1 GB和50G的三個(gè)數(shù)據(jù)集和來(lái)自國(guó)家電網(wǎng)公司某業(yè)務(wù)系統(tǒng)2006年-2012年的網(wǎng)絡(luò)安全日志數(shù)據(jù)約1.5 GB。整個(gè)實(shí)驗(yàn)數(shù)據(jù)的屬性如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)1針對(duì)表1中所示的實(shí)驗(yàn)數(shù)據(jù)集,表2給出了屬性約簡(jiǎn)后的各個(gè)數(shù)據(jù)集的屬性個(gè)數(shù)。圖1給出了當(dāng)數(shù)據(jù)分割塊數(shù)固定時(shí),隨著產(chǎn)生校驗(yàn)碼個(gè)數(shù)的增加,數(shù)據(jù)集最大容錯(cuò)率的變化情況。圖2則給出了當(dāng)數(shù)據(jù)塊數(shù)為5,隨著校驗(yàn)碼個(gè)數(shù)的增加,上述5個(gè)數(shù)據(jù)集約簡(jiǎn)前的恢復(fù)算法的計(jì)算耗時(shí)的變化情況。圖3給出了當(dāng)數(shù)據(jù)分割塊數(shù)為5,校驗(yàn)碼個(gè)數(shù)為3時(shí),約簡(jiǎn)前后的數(shù)據(jù)恢復(fù)算法的計(jì)算耗時(shí)比較。
表2 基于粗糙集的數(shù)據(jù)集屬性約簡(jiǎn)前后條件屬性個(gè)數(shù)變化
圖1 不同數(shù)據(jù)塊條件下最大容錯(cuò)率隨著校驗(yàn)碼數(shù)變化的情況
圖2 不同校驗(yàn)碼個(gè)數(shù)條件下五個(gè)數(shù)據(jù)集的數(shù)據(jù)恢復(fù)算法耗時(shí)
圖3 約簡(jiǎn)前后的數(shù)據(jù)恢復(fù)算法的計(jì)算耗時(shí)比較
從表2中可以看出針對(duì)表1中的5個(gè)測(cè)試數(shù)據(jù)集而言,約簡(jiǎn)后的條件屬性個(gè)數(shù)分別下降了62.5%、54.55%、75%、84.09%、72.73%。從圖1中可以看出,隨著校驗(yàn)碼個(gè)數(shù)的增加,整個(gè)系統(tǒng)的最大容錯(cuò)率也隨著增加,而最大容錯(cuò)率的增加表明了整個(gè)恢復(fù)系統(tǒng)的可靠性增加,允許有更多的數(shù)據(jù)子塊的丟失。而圖2則表明當(dāng)數(shù)據(jù)塊數(shù)為5時(shí),隨著校驗(yàn)碼個(gè)數(shù)的增加,表1中五個(gè)數(shù)據(jù)集的數(shù)據(jù)恢復(fù)算法平均計(jì)算耗時(shí)分別增加了27.42、51.07、21.93、21.17、21.81倍。這是因?yàn)殡S著校驗(yàn)碼個(gè)數(shù)和數(shù)據(jù)集大小的增加,構(gòu)造的范得蒙矩陣、數(shù)據(jù)矩陣以及校驗(yàn)碼矩陣的復(fù)雜度也隨之增加,從而使得整個(gè)算法花費(fèi)大量的時(shí)間在矩陣的運(yùn)算中。圖3則顯示當(dāng)數(shù)據(jù)分割塊數(shù)為5,校驗(yàn)碼個(gè)數(shù)為3時(shí),通過(guò)對(duì)表1中所示的五個(gè)數(shù)據(jù)集進(jìn)行屬性約簡(jiǎn),大大降低了表1中五個(gè)數(shù)據(jù)集恢復(fù)算法的計(jì)算耗時(shí)。
實(shí)驗(yàn)2由實(shí)驗(yàn)1可以看出,較多的校驗(yàn)碼個(gè)數(shù)可以保證數(shù)據(jù)存儲(chǔ)的高可靠性,但同時(shí)也增加了數(shù)據(jù)恢復(fù)的計(jì)算耗時(shí)。為了很好地解決這個(gè)問(wèn)題,實(shí)驗(yàn)2利用網(wǎng)格服務(wù)設(shè)計(jì)并行數(shù)據(jù)恢復(fù)算法DR-GSPMD,在保證數(shù)據(jù)存儲(chǔ)高可靠性的同時(shí),也極大地降低了數(shù)據(jù)恢復(fù)的時(shí)間。圖4表明了當(dāng)分割塊數(shù)n=5,校驗(yàn)碼個(gè)數(shù)m=4時(shí),隨著節(jié)點(diǎn)數(shù)目的增加,數(shù)據(jù)恢復(fù)的計(jì)算耗時(shí)變化情況。
圖4 不同計(jì)算節(jié)點(diǎn)個(gè)數(shù)條件下5個(gè)數(shù)據(jù)集恢復(fù)的平均耗時(shí)
從圖4中可以看出,在分割塊數(shù)為5,校驗(yàn)碼個(gè)數(shù)為4的條件下,隨著計(jì)算節(jié)點(diǎn)的增加,五個(gè)隨機(jī)數(shù)據(jù)集的平均恢復(fù)時(shí)間分別最大降低56.88%、43.19%、26.08%、62.28%、46.58%。這主要是因?yàn)樵诜指顗K數(shù)和校驗(yàn)碼個(gè)數(shù)確定的情況下,恢復(fù)所有的計(jì)算都集中在矩陣的乘法和求逆運(yùn)算,而DR-GSPMD算法利用網(wǎng)格服務(wù)使得矩陣的乘法和求逆計(jì)算并行化,加快了整個(gè)矩陣的運(yùn)算,最終導(dǎo)致整個(gè)恢復(fù)時(shí)間的下降。
本文在傳統(tǒng)基于Erasure code的數(shù)據(jù)恢復(fù)算法基礎(chǔ)上,結(jié)合網(wǎng)格服務(wù)和屬性約簡(jiǎn)的思想,提出了基于網(wǎng)格服務(wù)的電力海量數(shù)據(jù)分布式恢復(fù)算法DR-GSPMD。首先利用屬性約簡(jiǎn)降低原始數(shù)據(jù)維度從而減少數(shù)據(jù)恢復(fù)算法的計(jì)算耗時(shí);同時(shí)對(duì)于數(shù)據(jù)恢復(fù)算法中的大量的矩陣乘法和求逆運(yùn)算,DR-GSPMD設(shè)計(jì)了相應(yīng)的網(wǎng)格服務(wù),使得數(shù)據(jù)恢復(fù)中的各種矩陣運(yùn)算并行化。仿真實(shí)驗(yàn)表明,隨著節(jié)點(diǎn)的增加,DR-GSPMD算法加快了矩陣計(jì)算的速度,減少了整個(gè)數(shù)據(jù)恢復(fù)的時(shí)間。
[1] 秦立軍, 馬其燕. 智能配電網(wǎng)及其關(guān)鍵技術(shù)[M].北京:中國(guó)電力出版社, 2010.
[2] Nouredine Hadjsaid.有源智能配電網(wǎng)[M].陶順, 肖湘寧, 彭騁,譯.北京:中國(guó)電力出版社, 2013.
[3] Ranganathan K, Foster I. Identifying Dynamic Replication Strategies for a High Performance Data Grid[C]//Proceeding of the Second International workshop on Grid Computing, Denver, November, 2001:75-86.
[4] 楊濤.數(shù)據(jù)網(wǎng)絡(luò)中復(fù)制管理研究[D].北京:中國(guó)科學(xué)技術(shù)大學(xué),2007.
[5] Rahman R M, Alhajj R, Barker K. Replica selection strategies in data grid[J].Journal of Parallel and Distributed Computing, 2008,68(12):1561-1574.
[6] Al Mistarihi H H E, Yong C H. On fairness, optimizing replica selection in data grids[J].IEEE Transactions on Parallel and Distributed Systems, 2009,20(8):1102-1111.
[7] 左方, 何欣. 一種基于蟻群算法的云存儲(chǔ)副本動(dòng)態(tài)選擇機(jī)制研究[J].計(jì)算機(jī)應(yīng)用研究,2015,32(11):3368-3370,3374.
[8] 熊潤(rùn)群, 羅軍舟, 宋愛(ài)波,等.云計(jì)算環(huán)境下QoS偏好感知的副本選擇策略[J]. 通信學(xué)報(bào), 2011,32(7):93-102.
[9] 李功麗, 趙曉焱, 劉慧.一種云計(jì)算數(shù)據(jù)副本動(dòng)態(tài)管理策略[J].河南師范大學(xué)學(xué)報(bào):自然科學(xué)版,2015, 43(4):138-143.
[10] 羅象宏, 舒繼武.存儲(chǔ)系統(tǒng)中的糾刪碼研究綜述[J].計(jì)算機(jī)研究與發(fā)展, 2012,49(1):1-11.
[11] 毛波, 葉閣焰, 藍(lán)琰佳,等.一種基于重復(fù)數(shù)據(jù)刪除技術(shù)的云中云存儲(chǔ)系統(tǒng)[J].計(jì)算機(jī)研究與發(fā)展,2015,52(6):1278-1287.
[12] 潘利偉,谷建華,朱靖飛,等.基于Erasure Code 的分布式文件存儲(chǔ)系統(tǒng)[J].計(jì)算機(jī)工程,2010,36(17):45-47.
[13] Pawlak Z. Rough sets[J].International Journal of Computer and Information Sciences,1982,11(5):341-356.
DISTRIBUTED RECOVERY ALGORITHM FOR MASSIVE POWER DATA BASED ON GRID SERVICE
Chang Tao1Zhou Aihua2*Zhu Yunyou3Zhu Lipeng2Rao Wei2Deng Song4
1(State Grid Chongqing Electric Power Company, Chongqing 400014, China)2(State Grid Smart Grid Research Institute, Nanjing 210003,Jiangsu, China)3(State Grid Chongqing Information and Telecommunication Company, Chongqing 401121, China)4(Nanjing University of Posts and Telecommunications, Nanjing 210023,Jiangsu, China)
Traditional error-correcting code-based data recovery algorithm improves the reliability of data storage but increases the computational time of data recovery as well. To solve this problem, we first employed the rough set to carry out reduction on entire sample data, and then proposed the grid service-based distributed recovery algorithm for massive power data (DR-GSPMD), which is based on the idea of grid services. Simulation experiments showed that for all test datasets, the maximum error rate and data recovery time of whole system increases along with the augment in numbers of check node. Meanwhile, aiming at the problem that the reduced datasets increases along with the augment in numbers of computational nodes, DR-GSPMD reduces the computing complexity, speeds up the calculation of Vandermonde matrix and decreases the time of entire data recovery.
Data recovery Grid service Attribution reduction
2015-09-24。國(guó)家自然科學(xué)基金項(xiàng)目(51507084)。常濤,高工,主研領(lǐng)域:電力信息化。周愛(ài)華,工程師。朱韻攸,工程師。朱力鵬,工程師。饒瑋,工程師。鄧松,高工。
TP3
A
10.3969/j.issn.1000-386x.2016.11.047