楊 珺
(中國(guó)鐵路信息科技集團(tuán)有限公司 網(wǎng)信技術(shù)處,北京 100038)
隨著信息系統(tǒng)建設(shè)的飛速發(fā)展,各行各業(yè)對(duì)利用信息系統(tǒng)處理事物和數(shù)據(jù)分析的依賴性越來(lái)越大,越來(lái)越多的企業(yè)認(rèn)識(shí)到信息系統(tǒng)安全運(yùn)行的重要性。2019年發(fā)布的《信息系統(tǒng)安全等級(jí)保護(hù)基本要求》(簡(jiǎn)稱:等級(jí)保護(hù)2.0)中對(duì)不同的等級(jí)系統(tǒng)需采用的災(zāi)備方式提出了要求,其中,等級(jí)保護(hù)二級(jí)信息系統(tǒng)需實(shí)現(xiàn)異地?cái)?shù)據(jù)備份功能,等級(jí)保護(hù)三級(jí)信息系統(tǒng)需實(shí)現(xiàn)提供異地實(shí)時(shí)備份功能,等級(jí)保護(hù)四級(jí)系統(tǒng)則需實(shí)現(xiàn)業(yè)務(wù)應(yīng)用的實(shí)時(shí)切換。因此,災(zāi)備技術(shù)的研究對(duì)構(gòu)筑信息系統(tǒng)堅(jiān)實(shí)的防線十分重要。
恢復(fù)時(shí)間目標(biāo)(RTO,Recovery Time Objective),指系統(tǒng)從中斷恢復(fù)到企業(yè)可接受的運(yùn)行狀態(tài)所需的時(shí)間。RTO值越小表示系統(tǒng)恢復(fù)能力越強(qiáng)。
恢復(fù)點(diǎn)目標(biāo)(RPO,Recovery Point Objective),指為支撐系統(tǒng)恢復(fù)進(jìn)行所需數(shù)據(jù)的備份時(shí)間點(diǎn),表示系統(tǒng)恢復(fù)后需修復(fù)或追補(bǔ)的數(shù)據(jù)量。RPO值越小代表系統(tǒng)數(shù)據(jù)丟失越少。
實(shí)現(xiàn)業(yè)務(wù)連續(xù)性是信息系統(tǒng)災(zāi)備的最終目標(biāo),也是災(zāi)備方案價(jià)值的具體體現(xiàn)。為保障災(zāi)難發(fā)生時(shí)的業(yè)務(wù)連續(xù)性,系統(tǒng)需進(jìn)行網(wǎng)絡(luò)切換和應(yīng)用切換,保障業(yè)務(wù)系統(tǒng)能夠在備用數(shù)據(jù)中心繼續(xù)安全運(yùn)行,從而最大限度地保障企業(yè)利益。
數(shù)據(jù)的完整性和連續(xù)性是保障業(yè)務(wù)連續(xù)性的關(guān)鍵,在本地一般采用獨(dú)立磁盤冗余陣列(RAID,Redundant Arrays of Independent Disks)技術(shù)來(lái)保障,而在異地則需采用數(shù)據(jù)復(fù)制技術(shù)來(lái)實(shí)現(xiàn)。
通信網(wǎng)絡(luò)的質(zhì)量直接影響災(zāi)難恢復(fù)的效率,包括網(wǎng)絡(luò)的數(shù)據(jù)傳輸帶寬、網(wǎng)絡(luò)傳輸通道的冗余性。
國(guó)家《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》[1]規(guī)定了信息系統(tǒng)的容災(zāi)級(jí)別,并分別給出了應(yīng)對(duì)措施,如表1所示。
表1 《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》規(guī)定的容災(zāi)級(jí)別及其應(yīng)對(duì)措施
實(shí)際應(yīng)用中,從系統(tǒng)的保護(hù)程度來(lái)分,災(zāi)備大體上可以分為數(shù)據(jù)級(jí)、應(yīng)用級(jí)、業(yè)務(wù)級(jí)這3個(gè)災(zāi)備等級(jí),如圖1所示。
圖1 災(zāi)備的3個(gè)等級(jí)
數(shù)據(jù)級(jí)災(zāi)備的重點(diǎn)在數(shù)據(jù)的備份和恢復(fù),采用人工或工具將數(shù)據(jù)保存到異地,如數(shù)據(jù)的復(fù)制、備份和恢復(fù)等。災(zāi)難發(fā)生后利用備份數(shù)據(jù)將用戶數(shù)據(jù)的丟失或者破壞降到最低,是所有災(zāi)備工作的基礎(chǔ)。
應(yīng)用級(jí)災(zāi)備強(qiáng)調(diào)應(yīng)用的功能接管,是在數(shù)據(jù)級(jí)災(zāi)備的基礎(chǔ)上再構(gòu)建一套應(yīng)用支撐系統(tǒng),如數(shù)據(jù)備份系統(tǒng)、備用數(shù)據(jù)處理系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)等。在生產(chǎn)中心發(fā)生故障的情況下,由災(zāi)備中心提供業(yè)務(wù)的接管。此方式提供比數(shù)據(jù)級(jí)災(zāi)備更高級(jí)別的業(yè)務(wù)恢復(fù)能力,同時(shí)也是業(yè)務(wù)級(jí)災(zāi)備的基礎(chǔ)。
業(yè)務(wù)級(jí)災(zāi)備是最高級(jí)別的災(zāi)備模式,對(duì)業(yè)務(wù)有更強(qiáng)的支撐能力,不僅提供支撐系統(tǒng)繼續(xù)服務(wù)的能力,還提供備用辦公場(chǎng)所、辦公人員等其他非業(yè)務(wù)方面的備份。
結(jié)合災(zāi)難恢復(fù)需求,參照等級(jí)標(biāo)準(zhǔn)給出的恢復(fù)時(shí)間、恢復(fù)時(shí)間點(diǎn)目標(biāo)參考值,計(jì)算出應(yīng)用系統(tǒng)的災(zāi)難恢復(fù)需求,即應(yīng)用系統(tǒng)的RTO、RPO值。災(zāi)難恢復(fù)需求參照等級(jí)標(biāo)準(zhǔn)作為計(jì)算應(yīng)用系統(tǒng)的RTO、RPO值的參考模型,制定過(guò)程需要結(jié)合行業(yè)災(zāi)備領(lǐng)先實(shí)踐、災(zāi)備技術(shù)發(fā)展水平、行業(yè)特征以及對(duì)應(yīng)用系統(tǒng)的依賴程度等因素制定。災(zāi)難恢復(fù)需求參照等級(jí)標(biāo)準(zhǔn),如表2所示。
表2 災(zāi)難恢復(fù)需求參照等級(jí)標(biāo)準(zhǔn)
在推導(dǎo)應(yīng)用系統(tǒng)的災(zāi)難恢復(fù)需求時(shí),還需要考慮以下因素:(1)分析應(yīng)用系統(tǒng)是否與其他系統(tǒng)相關(guān)聯(lián),如果應(yīng)用系統(tǒng)作為其他應(yīng)用系統(tǒng)災(zāi)難恢復(fù)的基礎(chǔ)時(shí),其RTO、RPO值應(yīng)該參照關(guān)聯(lián)系統(tǒng)的災(zāi)難恢復(fù)需求;(2)是否存在對(duì)應(yīng)用系統(tǒng)的災(zāi)難恢復(fù)有特定的管理規(guī)范,應(yīng)用系統(tǒng)的災(zāi)難恢復(fù)需求應(yīng)滿足管理規(guī)范要求;(3)承載信息系統(tǒng)運(yùn)行的數(shù)據(jù)中心采用的基礎(chǔ)平臺(tái)的技術(shù)特征,采用傳統(tǒng)的架構(gòu)搭建的數(shù)據(jù)中心,災(zāi)難恢復(fù)需求較高,采用云架構(gòu)搭建的數(shù)據(jù)中心,由于云架構(gòu)本身具備的高可用和靈活性,災(zāi)難恢復(fù)要求可較上表適當(dāng)降低。
業(yè)務(wù)連續(xù)性保障策略有通常有應(yīng)用雙活、熱備、暖備、冷備等方式。
(1)應(yīng)用雙活方式
應(yīng)用雙活是在主數(shù)據(jù)中心與備用數(shù)據(jù)中心均配置同等級(jí)的資源,使部署的應(yīng)用集群實(shí)現(xiàn)業(yè)務(wù)同時(shí)在兩個(gè)數(shù)據(jù)中心運(yùn)行,并根據(jù)一定的規(guī)則進(jìn)行業(yè)務(wù)負(fù)載分擔(dān),實(shí)現(xiàn)自動(dòng)業(yè)務(wù)切換。
(2)應(yīng)用熱備方式
應(yīng)用熱備是在備用數(shù)據(jù)中心提前部署軟硬件和業(yè)務(wù)數(shù)據(jù)。當(dāng)災(zāi)難發(fā)生時(shí),災(zāi)備系統(tǒng)可自動(dòng)接替主站點(diǎn)生產(chǎn)系統(tǒng)運(yùn)行,主要通過(guò)跨數(shù)據(jù)中心集群或負(fù)載平衡方式實(shí)現(xiàn)。此方式需要較高的運(yùn)營(yíng)水平,數(shù)據(jù)的實(shí)時(shí)性取決于數(shù)據(jù)恢復(fù)方法。
(3)應(yīng)用暖備方式
應(yīng)用暖備是在備用數(shù)據(jù)中心配置恢復(fù)系統(tǒng)所必須的資源,提前部署軟件。當(dāng)災(zāi)難發(fā)生時(shí),應(yīng)用暖備需要在備份站點(diǎn)進(jìn)行業(yè)務(wù)數(shù)據(jù)恢復(fù),并人工將網(wǎng)絡(luò)切換到備份站點(diǎn)之后,備份系統(tǒng)才可接替生產(chǎn)運(yùn)行,此方式要求保證備用數(shù)據(jù)中心資源處于活動(dòng)狀態(tài)。
(4)應(yīng)用冷備方式
應(yīng)用冷備則是在數(shù)據(jù)中心配置滿足數(shù)據(jù)存儲(chǔ)和應(yīng)用運(yùn)行所必需的硬件資源。當(dāng)災(zāi)難發(fā)生時(shí),應(yīng)用冷備需要在備用場(chǎng)地進(jìn)行系統(tǒng)重建工作,從而在備份數(shù)據(jù)中心恢復(fù)業(yè)務(wù)運(yùn)行。
(5)策略分析
應(yīng)用雙活方式可以做到RTO趨近于0,基本達(dá)到數(shù)據(jù)的零丟失。應(yīng)用熱備方式RTO一般為分鐘級(jí)/小時(shí)級(jí),會(huì)損失主數(shù)據(jù)中心正在處理的部分?jǐn)?shù)據(jù)。應(yīng)用暖備方式RTO一般為小時(shí)級(jí),會(huì)損失主系統(tǒng)宕機(jī)后至備用啟動(dòng)前的所有數(shù)據(jù)。應(yīng)用冷備方式RTO一般以天計(jì)算,同樣會(huì)損失主系統(tǒng)宕機(jī)后至備用啟動(dòng)前的所有數(shù)據(jù)。
RTO決定了應(yīng)用系統(tǒng)連續(xù)性保障策略的選擇,同時(shí)RTO值越小,所需的投資也就越多。根據(jù)業(yè)務(wù)影響分析結(jié)論,可根據(jù)系統(tǒng)能夠忍受的數(shù)據(jù)丟失程度結(jié)合投資采取相應(yīng)的應(yīng)用系統(tǒng)連續(xù)性保障策略,具體如表3所示。
表3 應(yīng)用系統(tǒng)連續(xù)性保障策略
3.2.1 數(shù)據(jù)復(fù)制方式
災(zāi)備數(shù)據(jù)復(fù)制方式包括數(shù)據(jù)同步復(fù)制、數(shù)據(jù)異步復(fù)制、數(shù)據(jù)定時(shí)復(fù)制、數(shù)據(jù)離線備份[2-3]。
(1)數(shù)據(jù)同步復(fù)制
數(shù)據(jù)同步復(fù)制是生產(chǎn)系統(tǒng)的I/O寫入主數(shù)據(jù)中心盤陣時(shí),同步寫到備用數(shù)據(jù)中心后,才開(kāi)始處理下一次I/O,但是高的I/O 應(yīng)用限制了主數(shù)據(jù)中心和備用數(shù)據(jù)中心間的距離,通常要求兩中心的距離不超過(guò)100 km。
(2)數(shù)據(jù)異步復(fù)制
數(shù)據(jù)異步復(fù)制是生產(chǎn)系統(tǒng)的I/O寫入主數(shù)據(jù)中心盤陣時(shí),同時(shí)發(fā)送到備用數(shù)據(jù)中心,生產(chǎn)系統(tǒng)不用等到I/O寫入到備用數(shù)據(jù)中心完成,就開(kāi)始處理下一I/O,可以遠(yuǎn)距離傳輸?shù)遣荒鼙WC數(shù)據(jù)復(fù)制是按照順序進(jìn)行。
(3)數(shù)據(jù)定時(shí)復(fù)制
數(shù)據(jù)定時(shí)復(fù)制指生產(chǎn)數(shù)據(jù)定時(shí)從主數(shù)據(jù)中心復(fù)制到備份數(shù)據(jù)中心,復(fù)制到備份數(shù)據(jù)中心的數(shù)據(jù)是生產(chǎn)系統(tǒng)一段時(shí)間內(nèi)最終變化的數(shù)據(jù)。
(4)數(shù)據(jù)離線復(fù)制
數(shù)據(jù)離線復(fù)制按照離線流程,實(shí)現(xiàn)數(shù)據(jù)從磁盤到磁帶的定期備份,并進(jìn)行異地保存。
數(shù)據(jù)同步復(fù)制方式?jīng)]有事務(wù)性數(shù)據(jù)丟失;數(shù)據(jù)異步復(fù)制方式RPO達(dá)到秒級(jí)或分鐘級(jí),能夠基本保障數(shù)據(jù)的完整性和即時(shí)性。數(shù)據(jù)定時(shí)復(fù)制方式RPO一般為小時(shí)級(jí)(最高達(dá)24 h),雖然能夠保障一段時(shí)間內(nèi)的最終數(shù)據(jù)得到復(fù)制,但是過(guò)程數(shù)據(jù)等沒(méi)有備份無(wú)法追溯。數(shù)據(jù)離線復(fù)制方式RPO一般為12 h以上甚至數(shù)天,從上次備份到備份系統(tǒng)運(yùn)行期間產(chǎn)生的數(shù)據(jù)將丟失。
RPO和數(shù)據(jù)中心間的距離決定了災(zāi)備數(shù)據(jù)復(fù)制方式的選擇。基于業(yè)務(wù)影響分析的結(jié)論與數(shù)據(jù)中心距離,可選擇相應(yīng)的應(yīng)用系統(tǒng)災(zāi)備數(shù)據(jù)復(fù)制方式,具體如表4所示。
表4 應(yīng)用系統(tǒng)災(zāi)備數(shù)據(jù)復(fù)制方式
3.2.2 數(shù)據(jù)復(fù)制技術(shù)
目前,通常采用的數(shù)據(jù)復(fù)制技術(shù)有基于操作系統(tǒng)和存儲(chǔ)(包括虛擬存儲(chǔ))、基于數(shù)據(jù)庫(kù)及基于中間件和應(yīng)用層這3種模式。
(1)基于操作系統(tǒng)和存儲(chǔ)的數(shù)據(jù)復(fù)制技術(shù)
基于底層的物理卷、數(shù)據(jù)塊,通過(guò)存儲(chǔ)存儲(chǔ)虛擬化等技術(shù)實(shí)現(xiàn)數(shù)據(jù)復(fù)制。這種數(shù)據(jù)復(fù)制技術(shù)的主要優(yōu)點(diǎn)是支持所有類型的數(shù)據(jù),可以在不影響生產(chǎn)存儲(chǔ)數(shù)據(jù)的情況下進(jìn)行靈活的各種數(shù)據(jù)管理,如存儲(chǔ)快照等。這種復(fù)制技術(shù)的主要問(wèn)題是數(shù)據(jù)需要集中存儲(chǔ),所以進(jìn)行災(zāi)備復(fù)制前可能需要進(jìn)行數(shù)據(jù)遷移,數(shù)據(jù)耦合度高,依賴存儲(chǔ)類型或操作系統(tǒng),數(shù)據(jù)可用性校驗(yàn)較差。
(2)基于數(shù)據(jù)庫(kù)的數(shù)據(jù)復(fù)制技術(shù)
大部分?jǐn)?shù)據(jù)庫(kù)軟件都提供數(shù)據(jù)復(fù)制技術(shù),包括商數(shù)據(jù)庫(kù)業(yè)和開(kāi)源數(shù)據(jù)庫(kù),實(shí)現(xiàn)數(shù)據(jù)的物理和邏輯復(fù)制復(fù)制。這種復(fù)制技術(shù)的主要優(yōu)點(diǎn)是效率高、網(wǎng)絡(luò)帶寬占用少、同時(shí)可利用軟件自身的檢測(cè)功能,增加數(shù)據(jù)壞塊的檢驗(yàn),提高數(shù)據(jù)的可用性。這種復(fù)制技術(shù)的主要不足是只針對(duì)數(shù)據(jù)庫(kù)數(shù)據(jù),不能提供應(yīng)用數(shù)據(jù)的復(fù)制。
(3)基于中間件和應(yīng)用層的數(shù)據(jù)復(fù)制技術(shù)
基于中間件和應(yīng)用層的數(shù)據(jù)復(fù)制技術(shù)采用中間件或者應(yīng)用層面的雙寫,通過(guò)應(yīng)用架構(gòu)設(shè)計(jì)實(shí)現(xiàn)數(shù)據(jù)復(fù)制。這種復(fù)制技術(shù)的主要優(yōu)點(diǎn)在于可以根據(jù)業(yè)務(wù)需求來(lái)自行定制、自主可控性高。這種復(fù)制技術(shù)的主要缺點(diǎn)是應(yīng)用設(shè)計(jì)復(fù)雜,根據(jù)特定應(yīng)用場(chǎng)景定制,普遍推廣性差,一般情況下應(yīng)用需要改造,不適用于高頻更新、一致性要求高的場(chǎng)景。
根據(jù)2.4節(jié)中不同的災(zāi)難恢復(fù)需求等級(jí),可以采用不同的災(zāi)備策略,對(duì)于評(píng)估分值高于8的系統(tǒng),可采用最高級(jí)別的業(yè)務(wù)級(jí)災(zāi)備,對(duì)于評(píng)估分值為4~8的系統(tǒng),可采用應(yīng)用級(jí)災(zāi)備。對(duì)于評(píng)估分值低于4的系統(tǒng),信息系統(tǒng)災(zāi)備方案可采用數(shù)據(jù)級(jí)災(zāi)備。
一般是在主數(shù)據(jù)中心部署應(yīng)用,并在本地實(shí)現(xiàn)數(shù)據(jù)備份的基礎(chǔ)上,將需要備份的數(shù)據(jù)通過(guò)人工方式定時(shí)運(yùn)輸或通過(guò)數(shù)據(jù)復(fù)制工具采用異步方式保存到異地。當(dāng)主中心出現(xiàn)故障時(shí),數(shù)據(jù)級(jí)災(zāi)備方案利用災(zāi)備中心的備份數(shù)據(jù)可完成數(shù)據(jù)恢復(fù),待將用戶請(qǐng)求切換到災(zāi)備中心后即可恢復(fù)業(yè)務(wù)運(yùn)行。
應(yīng)用級(jí)災(zāi)備一般采用雙中心主備或雙活模式部署,應(yīng)用以主中心為生產(chǎn)環(huán)境、災(zāi)備中心為備份環(huán)境。同一業(yè)務(wù)系統(tǒng)同時(shí)只能在某一個(gè)數(shù)據(jù)中心提供讀寫,另一個(gè)數(shù)據(jù)中心熱備,通過(guò)負(fù)載均衡設(shè)備實(shí)現(xiàn)請(qǐng)求分發(fā),應(yīng)用數(shù)據(jù)庫(kù)在本地實(shí)現(xiàn)高可用,同時(shí)向備份環(huán)境進(jìn)行單向同步數(shù)據(jù)復(fù)制,其中,數(shù)據(jù)復(fù)制技術(shù)均可采用。當(dāng)應(yīng)用在主中心發(fā)生故障時(shí),應(yīng)用級(jí)災(zāi)備方案通過(guò)負(fù)載均衡將請(qǐng)求分發(fā)至災(zāi)備中心。災(zāi)備中心數(shù)據(jù)庫(kù)變?yōu)橹饔脭?shù)據(jù)庫(kù),向主數(shù)據(jù)中心數(shù)據(jù)庫(kù)同步數(shù)據(jù),從而實(shí)現(xiàn)在災(zāi)備中心接管應(yīng)用,提高業(yè)務(wù)連續(xù)性[4-5]。
業(yè)務(wù)級(jí)災(zāi)備除了必要的信息系統(tǒng)相關(guān)技術(shù),還要求具備全部的基礎(chǔ)設(shè)施能力,即非信息技術(shù)系統(tǒng)的備份(如電話、辦公地點(diǎn))。當(dāng)災(zāi)難發(fā)生后,業(yè)務(wù)級(jí)災(zāi)備方案除了在災(zāi)備中心恢復(fù)數(shù)據(jù)和應(yīng)用外,還能在備份工作場(chǎng)所開(kāi)展的正常業(yè)務(wù),讓用戶應(yīng)用的服務(wù)請(qǐng)求能夠透明地繼續(xù)運(yùn)行,保證信息系統(tǒng)提供的服務(wù)完整、可靠、安全[6]。
不同災(zāi)備模式的對(duì)比如表5所示。
表5 不同災(zāi)備模式對(duì)比
本文從災(zāi)難恢復(fù)考慮因素、災(zāi)備等級(jí)劃分、災(zāi)備技術(shù)分析、信息系統(tǒng)災(zāi)備方案設(shè)計(jì)等方面進(jìn)行了詳細(xì)的論述,并對(duì)不同災(zāi)備模式進(jìn)行了對(duì)比,旨在提升業(yè)務(wù)應(yīng)用系統(tǒng)的連續(xù)性、穩(wěn)定性和可用性,信息系統(tǒng)據(jù)此選擇適合的的災(zāi)備方案能夠以恰當(dāng)?shù)囊?guī)模、合理的資源利用率及適當(dāng)?shù)倪\(yùn)維模式實(shí)現(xiàn)信息系統(tǒng)災(zāi)備效果,從而達(dá)到保障企業(yè)安全穩(wěn)定生產(chǎn)的目的。未來(lái),將進(jìn)一步研究信息系統(tǒng)災(zāi)備的具體技術(shù)手段和實(shí)現(xiàn)方案,實(shí)現(xiàn)信息系統(tǒng)安全可靠運(yùn)行的目標(biāo)。