楊波 李桂倫 柴仁文
為了使獲取的數(shù)據(jù)全面、快捷、有效,誕生了大數(shù)據(jù)業(yè)務(wù),建立數(shù)據(jù)中心,將數(shù)據(jù)集中存放、集中處理,這種新的數(shù)據(jù)管理模式可以很容易實(shí)現(xiàn)數(shù)據(jù)共享、新業(yè)務(wù)的開發(fā)和降低計(jì)算中心的運(yùn)營(yíng)成本。然而,單一數(shù)據(jù)中心運(yùn)行的這種模式也有一個(gè)致命的缺陷:一旦數(shù)據(jù)中心發(fā)生災(zāi)難,受到影響的將是整個(gè)業(yè)務(wù),于是容災(zāi)備份系統(tǒng)應(yīng)運(yùn)而生。
1.容災(zāi)備份系統(tǒng)簡(jiǎn)介
容災(zāi)備份是利用一定的容災(zāi)機(jī)制,當(dāng)災(zāi)難發(fā)生后,它能夠最大限度地恢復(fù)信息系統(tǒng)及數(shù)據(jù)的正常運(yùn)行,可分為數(shù)據(jù)備份和應(yīng)用備份。數(shù)據(jù)備份需要保證用戶數(shù)據(jù)的完整性、可靠性和一致性,它是容災(zāi)系統(tǒng)的基礎(chǔ),也是容災(zāi)系統(tǒng)能夠正常工作的保障,當(dāng)主站點(diǎn)發(fā)生災(zāi)難時(shí),備份站點(diǎn)仍然保存著數(shù)據(jù)的副本,從而達(dá)到保護(hù)數(shù)據(jù)的目的;應(yīng)用備份是容災(zāi)系統(tǒng)的建設(shè)目標(biāo),它建立在數(shù)據(jù)備份的基礎(chǔ)之上,通過應(yīng)用系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)等各種資源之間的良好協(xié)調(diào)來實(shí)現(xiàn)。一旦主站點(diǎn)發(fā)生災(zāi)難,將由備份站點(diǎn)接管整個(gè)應(yīng)用系統(tǒng),繼續(xù)對(duì)外提供服務(wù),它不僅要保存數(shù)據(jù),而且要保證業(yè)務(wù)系統(tǒng)的連續(xù)性。
根據(jù)IBM公司SHARE78標(biāo)準(zhǔn),容災(zāi)技術(shù)可以分為7個(gè)層次,從無(wú)任何容災(zāi)備份措施,到將備份的磁帶存儲(chǔ)在異地,再到建立應(yīng)用系統(tǒng)實(shí)時(shí)切換的異地容災(zāi)備份中心,數(shù)據(jù)和應(yīng)用的恢復(fù)時(shí)間從數(shù)天到幾個(gè)小時(shí)甚至幾秒不等。一個(gè)完整的容災(zāi)備份系統(tǒng)包括本地?cái)?shù)據(jù)備份、遠(yuǎn)程數(shù)據(jù)復(fù)制和異地備份中心。設(shè)計(jì)一個(gè)容災(zāi)備份系統(tǒng),需要考慮多方面的因素,如備份數(shù)據(jù)量大小、應(yīng)用數(shù)據(jù)中心和備份數(shù)據(jù)中心之間的距離、傳輸方式、災(zāi)難發(fā)生時(shí)所需要的恢復(fù)時(shí)間等。根據(jù)這些因素和不同的應(yīng)用場(chǎng)合,可將容災(zāi)備份分為以下四個(gè)等級(jí):
第0級(jí):沒有備援中心。這一級(jí)容災(zāi)備份,實(shí)際上沒有災(zāi)難恢復(fù)能力,它只在本地進(jìn)行數(shù)據(jù)備份,并且被備份的數(shù)據(jù)只在本地保存,沒有送往異地。
第1級(jí):本地磁帶備份,異地保存。在本地將關(guān)鍵數(shù)據(jù)備份,然后送往異地保存。災(zāi)難發(fā)生后,按預(yù)定數(shù)據(jù)恢復(fù)程序恢復(fù)系統(tǒng)和數(shù)據(jù)。
第2級(jí):熱備份站點(diǎn)備份。在異地建立一個(gè)熱備份站點(diǎn),通過承載網(wǎng)絡(luò)以同步或異步方式進(jìn)行數(shù)據(jù)備份,把主站點(diǎn)的數(shù)據(jù)備份到備份站點(diǎn)。當(dāng)主站點(diǎn)工作正常時(shí),備份站點(diǎn)只進(jìn)行數(shù)據(jù)備份;當(dāng)主站點(diǎn)出現(xiàn)災(zāi)難時(shí),備份站點(diǎn)立即接替主站點(diǎn)業(yè)務(wù),從而保證業(yè)務(wù)運(yùn)行的連續(xù)性。
第3級(jí):活動(dòng)備援中心。在相隔較遠(yuǎn)的地方分別建立兩個(gè)數(shù)據(jù)中心,它們都處于工作狀態(tài),并進(jìn)行相互的數(shù)據(jù)備份。當(dāng)某個(gè)數(shù)據(jù)中心發(fā)生災(zāi)難時(shí),另一個(gè)數(shù)據(jù)中心接替其工作任務(wù)。這種級(jí)別的備份根據(jù)實(shí)際要求和投入的資金多少,又可分為兩種:一是兩個(gè)數(shù)據(jù)中心之間只限于關(guān)鍵數(shù)據(jù)的相互備份;二是兩個(gè)數(shù)據(jù)中心之間互為鏡像,即零數(shù)據(jù)丟失。零數(shù)據(jù)丟失是目前要求最高的一種容災(zāi)備份方式,它要求不管發(fā)生什么災(zāi)難,系統(tǒng)都能保證數(shù)據(jù)的安全。所以,它需要配置復(fù)雜的管理軟件和硬件設(shè)施。
2.容災(zāi)備份系統(tǒng)分析
2.1容災(zāi)備份系統(tǒng)組成
容災(zāi)網(wǎng)絡(luò)分為內(nèi)部局域網(wǎng)和外連網(wǎng)。內(nèi)部局域網(wǎng)采用統(tǒng)一交換技術(shù)體制,建立統(tǒng)一網(wǎng)絡(luò)交換平臺(tái),并組成冗余熱備結(jié)構(gòu),存儲(chǔ)設(shè)備、容災(zāi)設(shè)備應(yīng)采用兩條以上冗余鏈路接入,按照服務(wù)級(jí)別、安全管理、運(yùn)維管理以及服務(wù)保障需要,劃分為容災(zāi)服務(wù)區(qū)1~n、安全管理區(qū)、運(yùn)維管理區(qū)、服務(wù)保障區(qū)等多個(gè)分區(qū);外連網(wǎng)采用動(dòng)態(tài)OSPF路由協(xié)議分別接入所屬區(qū)域網(wǎng)絡(luò)的主干節(jié)點(diǎn)。
數(shù)據(jù)存儲(chǔ)系統(tǒng)分為同步存儲(chǔ)和異步存儲(chǔ)。同步存儲(chǔ)的存儲(chǔ)設(shè)備為雙機(jī)熱備結(jié)構(gòu),異步的存儲(chǔ)設(shè)備可單機(jī)運(yùn)行,結(jié)合網(wǎng)絡(luò)分區(qū),進(jìn)行存儲(chǔ)分區(qū),并具備無(wú)縫擴(kuò)展能力。
容災(zāi)備份系統(tǒng)應(yīng)具備快照保護(hù)功能、同步鏡像功能、異步復(fù)制功能、分布式冗余保護(hù)功能和數(shù)據(jù)備份功能??煺毡Wo(hù)功能為容災(zāi)備份實(shí)施提供數(shù)據(jù)支撐;同步鏡像功能為用戶信息系統(tǒng)建立同步數(shù)據(jù)容災(zāi)機(jī)制;異步復(fù)制功能為用戶信息系統(tǒng)建立異步數(shù)據(jù)容災(zāi)機(jī)制;分布式冗余保護(hù)功能建立容災(zāi)備份中心之間分布式數(shù)據(jù)容災(zāi)機(jī)制;數(shù)據(jù)備份功能提供用戶容災(zāi)數(shù)據(jù)在容災(zāi)備份中心再次備份保護(hù)。
安全保密系統(tǒng)應(yīng)從網(wǎng)絡(luò)安全、存儲(chǔ)安全、容災(zāi)備份安全等方面進(jìn)行整體安全防護(hù)。應(yīng)具備網(wǎng)絡(luò)訪問控制、入侵檢測(cè)預(yù)警、容災(zāi)協(xié)議增強(qiáng)等網(wǎng)絡(luò)防護(hù)機(jī)制;還應(yīng)具備數(shù)據(jù)卷完整性保護(hù)、面向用戶的存儲(chǔ)加密、敏感數(shù)據(jù)防泄漏等存儲(chǔ)保護(hù)機(jī)制和身份認(rèn)證、訪問控制權(quán)限、數(shù)據(jù)一致性、完整性校驗(yàn)、分布式冗余等容災(zāi)備份保護(hù)機(jī)制。
運(yùn)維管理系統(tǒng)應(yīng)具備配置管理功能、拓?fù)涔芾砉δ?、故障管理功能、性能管理功能、資源管理功能和系統(tǒng)管理功能。配置管理功能提供各類設(shè)備和系統(tǒng)配置信息的提取下載、關(guān)聯(lián)展現(xiàn)和查詢統(tǒng)計(jì);拓?fù)涔芾砉δ芴峁┰O(shè)備發(fā)現(xiàn)、拓?fù)渥R(shí)別、可視化展現(xiàn)以及運(yùn)行狀態(tài)的實(shí)時(shí)監(jiān)控;故障管理功能提供各類設(shè)備和系統(tǒng)運(yùn)行故障的檢測(cè)、告警、定位、分析和處理;性能管理功能提供各類設(shè)備和系統(tǒng)的流量監(jiān)控、采集、分析和查詢統(tǒng)計(jì);資源管理功能提供系統(tǒng)所有設(shè)施和存儲(chǔ)資源(包括設(shè)備配備、系統(tǒng)部署、物理空間、邏輯空間、出入庫(kù)磁帶介質(zhì)等)的統(tǒng)一管理、關(guān)聯(lián)展現(xiàn)以及各種資源信息的查詢統(tǒng)計(jì);系統(tǒng)管理功能提供系統(tǒng)的維護(hù)和管理,包括系統(tǒng)定制、日志管理、操作員管理等。
2.2容災(zāi)備份系統(tǒng)對(duì)業(yè)務(wù)系統(tǒng)的影響分析
數(shù)據(jù)復(fù)制操作的發(fā)起來自業(yè)務(wù)系統(tǒng),因此無(wú)論來自系統(tǒng)的計(jì)算層、網(wǎng)絡(luò)層還是存儲(chǔ)層,肯定會(huì)影響到業(yè)務(wù)系統(tǒng)的性能。對(duì)于那些高性能的業(yè)務(wù)系統(tǒng)或者已經(jīng)是高負(fù)荷運(yùn)行的業(yè)務(wù)系統(tǒng),必須分析建立容災(zāi)系統(tǒng)對(duì)業(yè)務(wù)系統(tǒng)性能的影響。不同容災(zāi)技術(shù)對(duì)業(yè)務(wù)系統(tǒng)性能的影響不同,比如,一個(gè)采用同步數(shù)據(jù)復(fù)制技術(shù)的容災(zāi)解決方案,如果備份中心與業(yè)務(wù)中心距離超過100km以上,需要考慮數(shù)據(jù)傳輸時(shí)延對(duì)業(yè)務(wù)系統(tǒng)I/O性能造成的影響,距離越遠(yuǎn),業(yè)務(wù)系統(tǒng)I/O性能下降速度越快。
容災(zāi)備份系統(tǒng)運(yùn)行平穩(wěn)后,需要對(duì)備份數(shù)據(jù)的可用性進(jìn)行檢查。正常情況下,備份中心的數(shù)據(jù)是不能打開使用的,只有在業(yè)務(wù)系統(tǒng)工作中斷,或者切斷容災(zāi)進(jìn)程的情況下,才能夠?qū)浞輸?shù)據(jù)的可用性進(jìn)行檢查,這樣勢(shì)必對(duì)業(yè)務(wù)系統(tǒng)正常運(yùn)行產(chǎn)生影響。由于網(wǎng)絡(luò)傳輸擁塞或者中斷等原因,數(shù)據(jù)復(fù)制同樣會(huì)造成業(yè)務(wù)系統(tǒng)性能下降甚至業(yè)務(wù)運(yùn)行中斷,當(dāng)?shù)却齻鬏數(shù)臄?shù)據(jù)溢出數(shù)據(jù)復(fù)制發(fā)起端的緩沖區(qū)時(shí),有可能造成數(shù)據(jù)的丟失,或者數(shù)據(jù)傳輸次序的混亂,破壞備份數(shù)據(jù)庫(kù)的一致性,造成數(shù)據(jù)庫(kù)不可恢復(fù)。
3.建設(shè)容災(zāi)備份系統(tǒng)應(yīng)該注意的問題
(1)系統(tǒng)應(yīng)該具有開放性,不依賴特定硬件系統(tǒng)。
(2)應(yīng)支持廣泛的傳輸介質(zhì)。
(3)考慮到容災(zāi)能力和對(duì)應(yīng)用系統(tǒng)性能的影響,容災(zāi)方案不僅要支持近距離、同步的數(shù)據(jù)容災(zāi)方式,還必須支持遠(yuǎn)程的、異步的數(shù)據(jù)容災(zāi)。
(4)對(duì)于異步數(shù)據(jù)容災(zāi),數(shù)據(jù)復(fù)制技術(shù)不僅要求在異地有一份數(shù)據(jù)拷貝,而且必須保證異地?cái)?shù)據(jù)的完整性、可用性。
(5)容災(zāi)系統(tǒng)本身應(yīng)具備各種容錯(cuò)考慮。
(6)應(yīng)支持靈活多樣的容災(zāi)結(jié)構(gòu)。
(7)完善的容災(zāi)系統(tǒng)應(yīng)該考慮使用的災(zāi)難恢復(fù)手段。