孫建剛,高 穎,楊慶甫,常雨竹,董耀眾,李偉良
(國(guó)家電網(wǎng)有限公司信息通信分公司,北京 100761)
隨著云計(jì)算技術(shù)在電力行業(yè)的廣泛普及,電力行業(yè)主體單位依托主流的互聯(lián)網(wǎng)云技術(shù),構(gòu)建了新一代信息基礎(chǔ)設(shè)施,用于承載服務(wù)于各類業(yè)務(wù)的數(shù)字化轉(zhuǎn)型應(yīng)用。因此,保障云平臺(tái)自身的安全、穩(wěn)定是提高信息系統(tǒng)連續(xù)運(yùn)行能力和業(yè)務(wù)持續(xù)運(yùn)營(yíng)能力的基礎(chǔ),也是防范數(shù)據(jù)資產(chǎn)泄露、丟失、破壞或不正當(dāng)使用,進(jìn)而充分挖掘資產(chǎn)使用價(jià)值的充分保障。
近年來(lái)開展了云平臺(tái)的容災(zāi)建設(shè),通過(guò)保障云平臺(tái)的高可用,從而實(shí)現(xiàn)云上業(yè)務(wù)的連續(xù)性。而容災(zāi)建設(shè)僅是主備環(huán)境之間采用數(shù)據(jù)同步方式,無(wú)法應(yīng)對(duì)數(shù)據(jù)丟失與誤操作等場(chǎng)景。同時(shí),也無(wú)法在發(fā)生機(jī)房故障、地域性自然災(zāi)害等場(chǎng)景時(shí)實(shí)現(xiàn)對(duì)核心數(shù)據(jù)的保護(hù)。因此需要開展平臺(tái)級(jí)的數(shù)據(jù)備份,但是目前各行業(yè)均沒有對(duì)云平臺(tái)的備份設(shè)置的標(biāo)準(zhǔn),無(wú)法進(jìn)行有效參考開展實(shí)施工作。有鑒于此,本文對(duì)云平臺(tái)備份的關(guān)鍵內(nèi)容進(jìn)行了一個(gè)體系化的梳理與設(shè)計(jì)。希望能夠?yàn)殡娏π袠I(yè)、政府、金融以及其他采用互聯(lián)網(wǎng)云技術(shù)搭建的私有云平臺(tái),提供可供參考借鑒的理論方法。
平臺(tái)備份體系設(shè)計(jì)主要包括數(shù)據(jù)分級(jí)分類、數(shù)據(jù)備份策略設(shè)計(jì)、數(shù)據(jù)恢復(fù)及安全策略設(shè)計(jì)、數(shù)據(jù)備份驗(yàn)證四部分。
平臺(tái)組件備份的最終目標(biāo)是保障云上業(yè)務(wù)的連續(xù)性,組件的備份恢復(fù)情況,需要結(jié)合業(yè)務(wù)備份恢復(fù)要求。參照行業(yè)的整體要求,將云上業(yè)務(wù)劃分為一類、二類、三類系統(tǒng)。在此基礎(chǔ)上,進(jìn)一步結(jié)合《信息安全技術(shù)網(wǎng)絡(luò)安全等級(jí)保護(hù)定級(jí)指南》,按照信息系統(tǒng)的重要程度進(jìn)一步劃分為等保三級(jí)、等保二級(jí)、等保一級(jí)系統(tǒng),如表1所示[1]。
表1 業(yè)務(wù)系統(tǒng)分類分級(jí)定義
參照行業(yè)的整體要求,其中一類系統(tǒng)RTO<8小時(shí),二類系統(tǒng)RTO<12小時(shí),三類系統(tǒng)RTO<24小時(shí),所有系統(tǒng)RPO 為24 小時(shí)。在此基礎(chǔ)上,考慮到等保三級(jí)系統(tǒng)的重要性,將等保三級(jí)系統(tǒng)的RPO<24 小時(shí)要求提升為RPO<12小時(shí),如表2所示。
表2 業(yè)務(wù)系統(tǒng)備份要求 單位:小時(shí)
為滿足多業(yè)務(wù)、多場(chǎng)景、海量數(shù)據(jù)、數(shù)千級(jí)的應(yīng)用建設(shè)需求,云平臺(tái)進(jìn)行模塊化的設(shè)計(jì),基于技術(shù)路線與框架結(jié)構(gòu),構(gòu)建了不同用途的平臺(tái)組件。根據(jù)組件數(shù)據(jù)丟失對(duì)平臺(tái)和業(yè)務(wù)的影響范圍、影響程度劃分一級(jí)組件、二級(jí)組件、三級(jí)組件,如表3所示[2-3]。
表3 組件數(shù)據(jù)丟失影響內(nèi)容
按照組件功能,將組件運(yùn)行過(guò)程中產(chǎn)生的數(shù)據(jù)劃分為成元數(shù)據(jù)、配置數(shù)據(jù)、日志數(shù)據(jù)。
元數(shù)據(jù):存儲(chǔ)了運(yùn)行該組件的基本信息,通常用來(lái)描述該組件包含的其他數(shù)據(jù)的結(jié)構(gòu)、存儲(chǔ)位置、訪問(wèn)權(quán)限、用戶結(jié)構(gòu)等。丟失會(huì)影響平臺(tái)或業(yè)務(wù)可用性。
配置數(shù)據(jù):存儲(chǔ)了該組件各個(gè)進(jìn)程的環(huán)境、調(diào)用文件等,用來(lái)支撐各個(gè)進(jìn)程的正常啟動(dòng)與運(yùn)行。丟失會(huì)影響平臺(tái)或業(yè)務(wù)可用性。
日志數(shù)據(jù):存儲(chǔ)了該組件運(yùn)行過(guò)程中產(chǎn)生的所有操作事件、狀態(tài)、告警、故障原因等。丟失會(huì)影響平臺(tái)或業(yè)務(wù)的優(yōu)化[4]。
考慮到云平臺(tái)故障以及元數(shù)據(jù)、配置數(shù)據(jù)丟失的影響,參考一類系統(tǒng)的RTO 和RPO 指標(biāo)要求設(shè)計(jì),將一級(jí)、二級(jí)組件中的RPO<24小時(shí)要求提升為RPO<12小時(shí),如表4所示[4-5]。
表4 業(yè)務(wù)系統(tǒng)備份要求 單位:小時(shí)
備份策略是備份工作開展的基礎(chǔ),在進(jìn)行備份策略設(shè)計(jì)時(shí),需要明確備份數(shù)據(jù)存放的具體地點(diǎn)、備份方式、備份頻率、備份窗口,以及具體的保留周期[5-6]。
備份數(shù)據(jù)存放方式有本地云上、本地云下、異地云上三種,如表5所示。
表5 備份數(shù)據(jù)存放方式
根據(jù)備份對(duì)象與數(shù)據(jù)訪問(wèn)特性,將備份方式分為完全備份、增量備份、差異備份,如表6所示。
表6 備份方式
基于系統(tǒng)分級(jí)分類中的PRO 指標(biāo)要求,設(shè)置合理的備份頻率。例如生產(chǎn)系統(tǒng)的PRO 指標(biāo)要求為24 小時(shí),應(yīng)當(dāng)至少每24 小時(shí)執(zhí)行一次備份。對(duì)于變化頻率不高的數(shù)據(jù)(如軟件配置類數(shù)據(jù)),可在發(fā)生變更前后各執(zhí)行一次備份[7-8]。
備份窗口即發(fā)起備份作業(yè)的具體時(shí)間或執(zhí)行一次備份作業(yè)所需的時(shí)間范圍。應(yīng)結(jié)合生產(chǎn)系統(tǒng)的業(yè)務(wù)活動(dòng)特性進(jìn)行備份窗口的設(shè)置,避免在業(yè)務(wù)活動(dòng)頻繁的時(shí)間段發(fā)起備份,如表7所示。
表7 備份窗口評(píng)估與建議
應(yīng)結(jié)合備份對(duì)象的業(yè)務(wù)活動(dòng)特性與訪問(wèn)需求設(shè)置備份數(shù)據(jù)的保留周期。保留周期的設(shè)計(jì)需要考慮到備份對(duì)象的最長(zhǎng)保留期限,以及備份存儲(chǔ)介質(zhì)的空間占用情況。對(duì)于備份數(shù)據(jù)訪問(wèn)頻率較低但不能進(jìn)行刪除的,可根據(jù)需要轉(zhuǎn)儲(chǔ)至離線存儲(chǔ)介質(zhì)中長(zhǎng)期保留[9?10]。
云組件備份策略如表8所示。
表8 云組件備份策略
數(shù)據(jù)備份的目的是進(jìn)行有效的恢復(fù),為了保障國(guó)網(wǎng)云數(shù)據(jù)恢復(fù)過(guò)程的安全與有效,本章節(jié)主要針對(duì)數(shù)據(jù)恢復(fù)時(shí)的注意事項(xiàng)與恢復(fù)方式提出基本要求。
在進(jìn)行數(shù)據(jù)恢復(fù)時(shí),需要明確以下內(nèi)容:
(1)明確各類數(shù)據(jù)的恢復(fù)對(duì)象與適用場(chǎng)景。
(2)確認(rèn)數(shù)據(jù)的恢復(fù)時(shí)間點(diǎn)滿足業(yè)務(wù)訪問(wèn)與運(yùn)行需求。
(3)發(fā)布檢修/停機(jī)窗口時(shí),數(shù)據(jù)恢復(fù)所需的時(shí)間應(yīng)包括數(shù)據(jù)傳輸?shù)臅r(shí)間,以及數(shù)據(jù)恢復(fù)后進(jìn)行配置的時(shí)間。
(4)采用最小化恢復(fù)原則,盡量避免恢復(fù)與業(yè)務(wù)運(yùn)行無(wú)關(guān)的數(shù)據(jù),能夠選擇部分?jǐn)?shù)據(jù)恢復(fù)時(shí),不要進(jìn)行完全恢復(fù)。
(5)數(shù)據(jù)恢復(fù)時(shí)需要考慮恢復(fù)對(duì)象之間的關(guān)聯(lián)性與優(yōu)先級(jí),并設(shè)置分步恢復(fù)策略。
(6)數(shù)據(jù)完成恢復(fù)與配置后,需要進(jìn)行灰度發(fā)布確認(rèn)數(shù)據(jù)一致性與有效性。
在進(jìn)行數(shù)據(jù)的備份與恢復(fù)期間,需要基于安全策略確保生產(chǎn)系統(tǒng)(云上業(yè)務(wù)與云平臺(tái)組件)、備份系統(tǒng)、備份數(shù)據(jù)傳輸、備份數(shù)據(jù)存儲(chǔ)等維度的安全,如表9所示。
表9 備份安全策略設(shè)計(jì)
在行業(yè)數(shù)字化轉(zhuǎn)型的背景下,電力行業(yè)穩(wěn)定快速發(fā)展的需求對(duì)數(shù)據(jù)備份的管理提出了更高、更全面的要求,數(shù)據(jù)備份的范圍不單單要涵蓋信息系統(tǒng),對(duì)于底層的基礎(chǔ)設(shè)施也有同樣的要求。本文重點(diǎn)針對(duì)私有云備份這一課題,提出了體系設(shè)計(jì)理論研究?jī)?nèi)容,填補(bǔ)了行業(yè)內(nèi)該領(lǐng)域的空白。希望這些理論能夠?yàn)槠渌袠I(yè)的私有云的數(shù)據(jù)完整性建設(shè)提供有價(jià)值的參考。