黎斌 胡?!±钫m榮
摘要:這些年在經(jīng)歷了地震、海嘯等重大自然災(zāi)害的洗禮后,很多政府或是企業(yè)把數(shù)據(jù)的安全保護(hù)和備份工作提到了前所未有的高度。一些有條件的企業(yè),比如金融行業(yè),已經(jīng)采取“兩地三中心”的備份和數(shù)據(jù)恢復(fù)方案,更有甚者,還選擇在不同的地震帶上做備份和數(shù)據(jù)恢復(fù)。
關(guān)鍵詞:災(zāi)備;地震數(shù)據(jù);系統(tǒng)設(shè)計;備份恢復(fù)
中圖分類號:TN311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2013)08-1745-04
隨著區(qū)域地震數(shù)據(jù)量的不斷增長以及專業(yè)數(shù)據(jù)庫的應(yīng)用, 無法預(yù)知的IT硬件設(shè)備損壞、黑客攻擊、自然災(zāi)害及系統(tǒng)人員誤操作等造成數(shù)據(jù)丟失或業(yè)務(wù)突然中斷帶來了巨大安全隱患,使得對數(shù)據(jù)安全性提出了越來越高的要求。該文主要從數(shù)據(jù)災(zāi)備現(xiàn)狀與需求,策略制定,系統(tǒng)設(shè)計,到災(zāi)備建設(shè)設(shè)想做些初步性探討,從而實(shí)現(xiàn)關(guān)鍵數(shù)據(jù)不丟失的情況下,保證整個數(shù)據(jù)業(yè)務(wù)系統(tǒng)運(yùn)行的連續(xù)性。
1 區(qū)域地震數(shù)據(jù)災(zāi)備現(xiàn)狀與需求
1.1現(xiàn)狀
目前,區(qū)域地震數(shù)據(jù)中心已經(jīng)建立了基于SAN架構(gòu)的數(shù)據(jù)災(zāi)備存儲平臺,管理著測震、前兆、信息、應(yīng)急等業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源。數(shù)據(jù)存儲設(shè)備由兩臺磁盤陣列構(gòu)成,分別是EMCCX3-20和基于HDS的Thunder 9500V系列的磁盤陣列,由兩臺交換機(jī)與各主機(jī)、數(shù)據(jù)庫服務(wù)器和磁帶庫組成網(wǎng)絡(luò)層體系,通過數(shù)據(jù)庫服務(wù)器的oracle平臺直接實(shí)現(xiàn)數(shù)據(jù)的存儲與故障切換,從而保證數(shù)據(jù)庫系統(tǒng)的高效穩(wěn)定的運(yùn)行。
1.2需求
隨著災(zāi)備技術(shù)的快速發(fā)展,特別是近幾年一系列災(zāi)害事件的頻發(fā)(地震、火災(zāi)等),國內(nèi)的各級政府單位都充分認(rèn)識到了災(zāi)備的必要性。結(jié)合現(xiàn)階段區(qū)域地震數(shù)據(jù)實(shí)際情況,既要滿足數(shù)據(jù)的安全性,同時也要滿足業(yè)務(wù)系統(tǒng)的連續(xù)性,于是考慮以同城雙中心保證業(yè)務(wù)數(shù)據(jù)的連續(xù)性,外加異地災(zāi)備中心保證災(zāi)難發(fā)生時數(shù)據(jù)的有效性。
2 災(zāi)備策略制定
策略制定是整個容災(zāi)建設(shè)過程中非常重要的階段,包含有確定災(zāi)難恢復(fù)級別、站點(diǎn)選擇、確定站點(diǎn)類型、數(shù)據(jù)復(fù)制技術(shù)和其它相關(guān)技術(shù)選擇及方案總體成本效益分析等內(nèi)容。
首先,需要根據(jù)業(yè)務(wù)分析的結(jié)果,確定自身的災(zāi)備級別,需要達(dá)到數(shù)據(jù)級還是應(yīng)用級的容災(zāi)。目前大多數(shù)用戶考慮的不是自身所需要的災(zāi)備級別,而是一味地追求容災(zāi)的最高級別,也即是應(yīng)用級自動切換,以致忽略了自身的很多約束件,如自身網(wǎng)絡(luò)環(huán)境、投資預(yù)算、人員配置等。因此,在確定災(zāi)備級別時,用戶需要理智地選擇數(shù)據(jù)級容災(zāi)和應(yīng)用級容災(zāi),從自身實(shí)際情況出發(fā),選擇合適的災(zāi)備級別作為自己的實(shí)現(xiàn)目標(biāo)。
其次,需要進(jìn)行災(zāi)備中心的選址及確定站點(diǎn)的類型。選址的主要依據(jù)是看預(yù)防哪一類災(zāi)難。如果是防水災(zāi),則災(zāi)備中心距離數(shù)據(jù)中心只需要幾百米就可以;如果是防水災(zāi),則要求它們之間的距離在幾公里以上;如果是防地震的話,則需要保持幾百公里的距離。于是,用戶可以根據(jù)自身不同的地域選擇不同的需求。站點(diǎn)類型主要是指工作模式,比如有冷備、熱備、雙中心工作等。
再是,數(shù)據(jù)復(fù)制技術(shù)選擇,它是整個容災(zāi)系統(tǒng)中最核心的部分,作為信息化建設(shè)的核心是數(shù)據(jù),數(shù)據(jù)從數(shù)據(jù)中心到災(zāi)備中心必須利用復(fù)制技術(shù)才能實(shí)現(xiàn)。根據(jù)復(fù)制技術(shù)的實(shí)現(xiàn)層次不同,分為主機(jī)層復(fù)制、SAN網(wǎng)絡(luò)層復(fù)制和陣列式復(fù)制三個物理層次,將操作系統(tǒng)層、應(yīng)用程序?qū)雍蛿?shù)據(jù)庫層統(tǒng)歸為主機(jī)復(fù)制層。
最后,在應(yīng)用級災(zāi)備系統(tǒng)建設(shè)時,需要考慮兩站點(diǎn)間的網(wǎng)絡(luò)切換技術(shù)和應(yīng)用切換技術(shù)。網(wǎng)絡(luò)切換技術(shù)通??刹捎没诟覫P地址切換、基于DNS切換、基于4~7層交換機(jī)切換和基于應(yīng)用切換四種切換技術(shù)。而應(yīng)用切換通過結(jié)合兩站點(diǎn)應(yīng)用系統(tǒng)集群軟件,可實(shí)現(xiàn)自動切換或半自動切換的方式。
3 區(qū)域地震數(shù)據(jù)災(zāi)備系統(tǒng)設(shè)計
作為一個典型的數(shù)據(jù)災(zāi)備系統(tǒng)應(yīng)該具備發(fā)下特征:首先,應(yīng)具有開放性,不依賴特定硬件系統(tǒng),支持多種傳輸介質(zhì);另外,考慮到災(zāi)備能力和應(yīng)用系統(tǒng)性能的影響,災(zāi)備方案不僅要支持近距離的同步數(shù)據(jù)容災(zāi),還必須能支持運(yùn)程的異步數(shù)據(jù)容災(zāi);第三,完善的容災(zāi)系統(tǒng)應(yīng)該包括各種實(shí)用的災(zāi)難恢復(fù)手段;最后,也是最重要的,要有完善的容災(zāi)制度和人力保障,定期進(jìn)行災(zāi)備演練。
下面從災(zāi)備中心基礎(chǔ)設(shè)施、網(wǎng)絡(luò)通信系統(tǒng)、數(shù)據(jù)存儲備份系統(tǒng)、災(zāi)難恢復(fù)計劃四個部分對區(qū)域地震數(shù)據(jù)災(zāi)備系統(tǒng)設(shè)計作個初步探討。
3.1災(zāi)備中心基礎(chǔ)設(shè)施
災(zāi)備場所要滿足避免災(zāi)難同時發(fā)生的條件,在災(zāi)備建設(shè)時要注意場地通信條件、電力供應(yīng)、消防保障和后勤保障條件等。
1)通信保障應(yīng)具備與運(yùn)營商形成必要的通信設(shè)施和足夠的網(wǎng)絡(luò)帶寬,以保證恢復(fù)工作有效開展。
2)電力保障系統(tǒng)應(yīng)采用雙路市電、雙路冗余UPS和專用柴油發(fā)電機(jī)系統(tǒng)供電方式。完全實(shí)現(xiàn)電路的冗余及充分的后備電源設(shè)計。
3)災(zāi)備中心應(yīng)設(shè)立專用鋼瓶間并配備高效能七氟丙烷氣體消防系統(tǒng)。通過先進(jìn)的聯(lián)動聲光火災(zāi)自動報警系統(tǒng)及FM200環(huán)保型氣體滅火系統(tǒng),充分保障消防安全。
4)后勤保障條件也要細(xì)致考慮,如交通、安全、飲食和住宿等。
此外,災(zāi)備機(jī)房要有足夠的空間來安裝災(zāi)難恢復(fù)系統(tǒng)的各種設(shè)備,同時也要考慮在災(zāi)難發(fā)生時工作人員的操作等問題。
3.2網(wǎng)絡(luò)通信系統(tǒng)
建立“兩地三中心”的災(zāi)備模式,即地震數(shù)據(jù)中心、同城災(zāi)備中心和異地災(zāi)備中心。地震數(shù)據(jù)中心與2個災(zāi)備中心節(jié)點(diǎn)分別采用2條SDH 2M電路連接,同時,通過政務(wù)信息網(wǎng)專線接入Internet,通過VPN加密隧道在因特網(wǎng)上建立VPN傳輸線路,實(shí)現(xiàn)主鏈路(SDH傳輸專網(wǎng))的備份,以保障整體鏈路的可靠性,減低單鏈路的故障率,組網(wǎng)如圖1所示。
3.3數(shù)據(jù)存儲備份系統(tǒng)
3.4災(zāi)難恢復(fù)計劃
災(zāi)難恢復(fù)計劃是一個全面的狀態(tài),它包括事前、事中和事后三個方面。事前主要針對災(zāi)難計劃確定工作組及各自職能,事中是對緊急事件的應(yīng)對過程中能及時地提供后備操作,而事后主要是處理數(shù)整的整理和恢復(fù)工作。
3.4.1明確災(zāi)難恢復(fù)小組及其職能
1)管理組:統(tǒng)籌規(guī)劃,指揮各小組按照既定計劃進(jìn)行執(zhí)行。
2)計算機(jī)恢復(fù)組:負(fù)責(zé)對全公司范圍內(nèi)的計算機(jī)故障進(jìn)行排除、恢復(fù)范圍包括系統(tǒng)、必備辦公軟件。
3)損壞評估組:負(fù)責(zé)對公司損失的重要數(shù)據(jù)、財務(wù)進(jìn)行總體評估。并針對相應(yīng)損失的財產(chǎn)進(jìn)行匯總并結(jié)合擁有的保險進(jìn)行申報。
4)安全組:負(fù)責(zé)災(zāi)難發(fā)生后的人員、數(shù)據(jù)、財務(wù)的安全進(jìn)行保護(hù)。并制定相應(yīng)的安全策略。
5)設(shè)備支持組:負(fù)責(zé)對公司服務(wù)器、網(wǎng)絡(luò)設(shè)備、交換機(jī)的故障進(jìn)行排除,制定相應(yīng)解決重建方案。
6)數(shù)據(jù)恢復(fù)組:負(fù)責(zé)對地震數(shù)據(jù)進(jìn)行恢復(fù),并制定相應(yīng)數(shù)據(jù)恢復(fù)方案。
3.4.2制定詳細(xì)的業(yè)務(wù)數(shù)據(jù)災(zāi)難恢復(fù)方案
主要針對的是由自然災(zāi)害造成的數(shù)據(jù)恢復(fù)流程,當(dāng)然,這些數(shù)據(jù)恢復(fù)方案的前提是需要有可實(shí)施性強(qiáng)的監(jiān)測技術(shù)做保障,否則僅依賴人為來發(fā)現(xiàn)故障,遠(yuǎn)遠(yuǎn)不能滿足數(shù)據(jù)業(yè)務(wù)實(shí)時性的需求。故障或是災(zāi)難發(fā)生時主要通過以下兩方面實(shí)現(xiàn)數(shù)據(jù)的恢復(fù):
1)同城兩中心的任何一中心發(fā)生不可預(yù)見的故障導(dǎo)致業(yè)務(wù)中斷時,馬上可以通過集群軟件實(shí)現(xiàn)應(yīng)急切換,保證數(shù)據(jù)業(yè)務(wù)的連續(xù)運(yùn)行。由于數(shù)據(jù)中心與同城災(zāi)備中心采用的是同步復(fù)制,也即數(shù)據(jù)中心陣列接收到數(shù)據(jù)后,通過陣列間的同步復(fù)制數(shù)據(jù)會復(fù)制到同城災(zāi)備中心,兩中心基本實(shí)現(xiàn)同步。
2)當(dāng)同城中心發(fā)生自然災(zāi)害時,此時異地災(zāi)備中心就可以通過備份數(shù)據(jù)對業(yè)務(wù)數(shù)據(jù)進(jìn)行后期的搶救恢復(fù)。異地災(zāi)備中心與同城災(zāi)備中心采用的是異步復(fù)制技術(shù)定期將數(shù)據(jù)進(jìn)行復(fù)制備份。
3.4.3災(zāi)難恢復(fù)的幾點(diǎn)考慮
1)單點(diǎn)故障的風(fēng)險。在避免信息系統(tǒng)單點(diǎn)故障方面,目前已經(jīng)采取了必要措施,重要系統(tǒng)應(yīng)用服務(wù)器采用WEBLIGIC集群方式,數(shù)據(jù)庫的部署采用ORACLE RAC方式,數(shù)據(jù)存儲采用RAID0+1或RAID5保護(hù)方式。但是,仍然存在單點(diǎn)故障的風(fēng)險,如存儲設(shè)備本身和數(shù)據(jù)中心機(jī)房。
2)本地磁帶庫進(jìn)行數(shù)據(jù)備份、恢復(fù)的風(fēng)險。目前數(shù)據(jù)備份做法是對本地數(shù)據(jù)通過TSM每天進(jìn)行兩次增量備份,每周進(jìn)行兩次全量備份,每天的備份磁帶復(fù)制一份通過郵遞方式異地存放。這種做法存在風(fēng)險包括:磁帶備份的數(shù)據(jù)恢復(fù)時間較長;當(dāng)機(jī)房出現(xiàn)重大自然災(zāi)害后異地存放的磁帶無法進(jìn)行數(shù)據(jù)恢復(fù);磁帶庫備份策略無法快速、靈活的恢復(fù)由人為操作失誤造成的數(shù)據(jù)丟失。
4 地震數(shù)據(jù)災(zāi)備關(guān)鍵技術(shù)
說到災(zāi)備技術(shù),固然首先要明確災(zāi)備的級別,它分為數(shù)據(jù)級災(zāi)備和應(yīng)用級災(zāi)備,由于容災(zāi)方案的技術(shù)復(fù)雜性和多樣性,也分為離線式災(zāi)備和在線式災(zāi)備,離線式災(zāi)備主要依靠備份技術(shù)來實(shí)現(xiàn),它的缺點(diǎn)是實(shí)時性低,優(yōu)點(diǎn)是備份范圍廣、長期保存、投資較少等,而在線式災(zāi)備最關(guān)鍵是實(shí)現(xiàn)數(shù)據(jù)的復(fù)制,它的優(yōu)點(diǎn)是實(shí)時性高、數(shù)據(jù)丟失少或零丟失、容災(zāi)恢復(fù)快,但是投資較高,較適合對數(shù)據(jù)連續(xù)性較高的大型單位或企業(yè)。本節(jié)主要介紹災(zāi)備技術(shù)的各實(shí)現(xiàn)層次的優(yōu)劣對比。
4.1主機(jī)層
劣勢:總體成本較高;對主機(jī)平臺過于依賴,需在災(zāi)備中心駕構(gòu)多套主機(jī)與業(yè)務(wù)數(shù)據(jù)中心對應(yīng);與服務(wù)器OS、FS相關(guān),對備用服務(wù)器配置要求高,升級維護(hù)較復(fù)雜;數(shù)據(jù)傳輸占據(jù)較大帶寬;RTO、RPO為數(shù)小時。優(yōu)勢:支持異構(gòu)存儲系統(tǒng)環(huán)境,與應(yīng)用結(jié)合度較高。
4.2網(wǎng)絡(luò)層
劣勢:各設(shè)備間會存在性能和擴(kuò)展性的瓶頸。優(yōu)勢:對目前網(wǎng)絡(luò)環(huán)境改動小,易于實(shí)施;可實(shí)現(xiàn)復(fù)制數(shù)據(jù)的邏輯一致性;增量復(fù)制,降低帶寬要求;主機(jī)和陣列擴(kuò)展靈活;RTO、RPO為分鐘級。
4.3存儲層
局限性:光纖直連受距離限制,網(wǎng)絡(luò)成本高;兩端陣列須為同一品牌,不適用于異構(gòu)存儲環(huán)境;卷層次的數(shù)據(jù)鏡像,無法保證一致性問題;RTO、RPO為小時級;優(yōu)勢:對主機(jī)應(yīng)用系統(tǒng)沒有影響,架構(gòu)簡單。
4.4應(yīng)用層
局限性:總體成本較高;異構(gòu)服務(wù)器實(shí)施、升級和維護(hù)較難;此層只針對特定的數(shù)據(jù)庫應(yīng)用,局限性較大。優(yōu)勢:能快速保證數(shù)據(jù)一致性;數(shù)據(jù)量傳輸量較小,帶寬要求不高;RTO、RPO為分鐘至小時之間。
5 結(jié)束語
從以上幾個方面,介紹了下關(guān)于區(qū)域地震數(shù)據(jù)災(zāi)備系統(tǒng)建設(shè)的一個簡要流程,結(jié)合目前單位已有架構(gòu),分別從現(xiàn)狀與需求、策略制定、系統(tǒng)設(shè)計、各層次對比、方案選型等方面做了些探討,以更加穩(wěn)定可靠的方式來保證我們數(shù)據(jù)的安全高效運(yùn)行,使災(zāi)害損失降到最低,最后希望本文能給同行業(yè)在數(shù)據(jù)災(zāi)備系統(tǒng)建設(shè)方面提供些參考。
參考文獻(xiàn):
[1] 張晨.省級地震數(shù)據(jù)容災(zāi)備份技術(shù)初探[J].防災(zāi)減災(zāi)學(xué)報,2012,28(2):79-83.
[2] 何琳.地震應(yīng)急系統(tǒng)數(shù)據(jù)存儲容災(zāi)備份機(jī)制的研究[J].電腦知識與技術(shù),2011,7(11):9692-9694.
[3] 數(shù)據(jù)中心災(zāi)備系統(tǒng)建設(shè)方案大全[EB/OL]. http://wenku.baidu.com/view/8809C99a51e79b8968022687.html.
[4] 華為災(zāi)備解決方案[EB/OL].http://www.huaweisymantec.com.