陳炎
(江蘇省農(nóng)村信用社聯(lián)合社 江蘇 南京 210019)
隨著金融服務(wù)范圍和渠道的不斷擴大,銀行IT系統(tǒng)架構(gòu)不斷復(fù)雜,金融監(jiān)管要求越來越嚴(yán)格。建立高效、實用的“兩地三中心“整體容災(zāi)體系是每家銀行面臨的實際問題,本文以南方省級農(nóng)商銀行為例,介紹了該行在IBM大型機平臺建設(shè)“兩地三中心”的過程和運維探索。
核心銀行系統(tǒng)向客戶提供存款、貸款、支付等最基礎(chǔ)的銀行服務(wù),為所有重要業(yè)務(wù)提供帳務(wù)處理,是銀行系統(tǒng)的基礎(chǔ)和核心,也是銀行最重要的系統(tǒng)。該農(nóng)商銀行采用大型機作為核心銀行系統(tǒng)的硬件基礎(chǔ)平臺,于2011年隨新一代綜合業(yè)務(wù)系統(tǒng)投產(chǎn)上線。
上線初期,改行采用六臺IBM Z10-BC主機構(gòu)建一套SYSPLEX集群,其中四臺主機均衡的承擔(dān)業(yè)務(wù)的運行,一臺外置CF負(fù)責(zé)并行耦合環(huán)境的交互,當(dāng)集群內(nèi)仍一節(jié)點發(fā)生故障,業(yè)務(wù)會自動分發(fā)至其他三節(jié)點運行,實現(xiàn)同一站點集群內(nèi)的高可用和負(fù)載均衡。
同時在建設(shè)中充分考慮了災(zāi)備建設(shè)的需求,實現(xiàn)了核心系統(tǒng)同城數(shù)據(jù)級災(zāi)備,即在30KM里外的災(zāi)備中心放置一臺備份存儲和一臺備份磁帶庫,雙中心通過DWDM設(shè)備級聯(lián)。主生產(chǎn)機房的主機可通過兩臺SAN交換機訪問本地DS8700存儲和TS3500帶庫,也可以通過DWDM級聯(lián)的方式訪問災(zāi)備機房DS8700存儲和TS3500帶庫。且對生產(chǎn)環(huán)境的存儲實施PPRC同步復(fù)制技術(shù),將數(shù)據(jù)實時的拷貝到災(zāi)備站點的存儲上,同時利用IBM GDPS/PPRC方案實時監(jiān)控并及時捕捉通知災(zāi)難發(fā)生的觸發(fā)器信號,當(dāng)存儲發(fā)生災(zāi)難時自動觸發(fā)切換。
隨著業(yè)務(wù)的發(fā)展和監(jiān)管的要求,改行于2012年啟動系統(tǒng)級同城災(zāi)備建設(shè),在災(zāi)備中心采購一臺大容量災(zāi)備主機,日常模式下該主機處于待機狀態(tài),當(dāng)發(fā)生故障導(dǎo)致生產(chǎn)中心整體無法對外提供服務(wù)時,可臨時激活災(zāi)備中心主機容量,并在災(zāi)備主機上啟動生產(chǎn)系統(tǒng)以繼續(xù)對外提供服務(wù)。
關(guān)鍵技術(shù):
PPRC技術(shù)
保證數(shù)據(jù)一致性。PPRC是以存儲為基礎(chǔ)的、實時的數(shù)據(jù)遠(yuǎn)程鏡像功能。PPRC災(zāi)難備份方案將確保如果備份卷不能被更新,那么即使源卷更新成功,整個寫操作也會返回失敗--徹底保證源卷和目的卷的數(shù)據(jù)徹底一致。
操作性強。PPRC實現(xiàn)相對簡單,其操作可在存儲上或操作系統(tǒng)上完成,且可配合GDPS等自動化工具方便操作。
應(yīng)用透明性。PPRC是一種同步協(xié)議,它允許數(shù)據(jù)從一個邏輯單元(Logical Unit)到另一個邏輯單元進(jìn)行實時的鏡像。PPRC是與應(yīng)用無關(guān)的。由于該復(fù)制功能是在磁盤系統(tǒng)級發(fā)生的,應(yīng)用根本不知道PPRC的存在。
GDPS技術(shù)
改行災(zāi)備恢復(fù)方案采用了GDPS技術(shù),它是基于主機SA和NETVIEW開發(fā)的,實現(xiàn)了災(zāi)難備份與恢復(fù)的自動化。其主要特點有:
與PPRC有機結(jié)合。GDPS可以完成對所有PPRC備份和恢復(fù)的集中控制,通過GDPS SYSPLEX的K系統(tǒng),有效地實現(xiàn)災(zāi)備系統(tǒng)的集中管理。
備份與恢復(fù)流程自動化。使用GDPS,可以很方便地實現(xiàn)磁盤數(shù)據(jù)復(fù)制的自動化、數(shù)據(jù)恢復(fù)自動化、災(zāi)難備份系統(tǒng)管理自動化等功能,保證系統(tǒng)的可恢復(fù)性。
保證災(zāi)難恢復(fù)時間。由于實現(xiàn)了備份和恢復(fù)的自動化、流程化,經(jīng)過充分演練后的災(zāi)難恢復(fù)流程可以準(zhǔn)確保證災(zāi)難恢復(fù)時間。
易于開發(fā)實施??梢岳肎DPS提高的各種SCRIPTS,方便地實現(xiàn)各種自動化工作,可開發(fā)性強,操作簡便。
按照銀監(jiān)會《商業(yè)銀行數(shù)據(jù)中心監(jiān)管指引》,總資產(chǎn)規(guī)模一千億元人民幣以上且跨省設(shè)立分支機構(gòu)的法人商業(yè)銀行,及省級農(nóng)村信用聯(lián)合社應(yīng)設(shè)立異地模式災(zāi)備中心,重要信息系統(tǒng)災(zāi)難恢復(fù)能力應(yīng)達(dá)到《 信息安全技術(shù)信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》 中定義的災(zāi)難恢復(fù)等級第5級(含)以上,改行于2015年啟動核心系統(tǒng)異地數(shù)據(jù)級災(zāi)備建設(shè)項目。
本次異地數(shù)據(jù)級災(zāi)備項目建設(shè)中核心系統(tǒng)的數(shù)據(jù)將被傳輸?shù)疆惖貫?zāi)備中心,在發(fā)生重大自然災(zāi)害造成生產(chǎn)中心和同城災(zāi)備中心機器都癱瘓的情況下,將在一定程度上保證核心系統(tǒng)的數(shù)據(jù)不丟失。但由于傳輸距離遠(yuǎn),且選擇異步傳輸?shù)姆绞?,?shù)據(jù)的傳輸會有一定程度的滯后。
根據(jù)現(xiàn)有同城災(zāi)備架構(gòu)及實現(xiàn)異地數(shù)據(jù)級復(fù)制的目標(biāo),在考慮到今后將異地災(zāi)備完善成系統(tǒng)級災(zāi)備乃至實現(xiàn)雙活的因素下,項目采用Global Mirror技術(shù)實現(xiàn)異地數(shù)據(jù)復(fù)制,生產(chǎn)中心產(chǎn)生的數(shù)據(jù)在實時地同步到同城災(zāi)備中心的同時,再由同城災(zāi)備中心異步地同步到異地災(zāi)備中心。在帶寬充裕的前提下,采用Global Mirror實現(xiàn)異地數(shù)據(jù)復(fù)制的RPO約為3-10秒。
如上圖所示:Global Mirror是基于PPRC-XD(異步數(shù)據(jù)傳輸)和Flash Copy(數(shù)據(jù)快照)的異步數(shù)據(jù)復(fù)制技術(shù),同時可以確保異地磁盤的數(shù)據(jù)一致性。數(shù)據(jù)采用PPRC-XD技術(shù)由主盤(A盤)傳輸?shù)疆惖乇P,同時定期在主盤(A盤)創(chuàng)建“一致性組”( Consistency Group),該一致性組是由一系列“位圖”(Bitmaps)來記錄數(shù)據(jù)同步情況。當(dāng)一致性組中的所有磁盤都完成了未同步數(shù)據(jù)的傳輸,在異地磁盤執(zhí)行Flash Copy(B盤到C盤),這樣就保留了一套一致的數(shù)據(jù)。
由于原有冷備模式,災(zāi)備恢復(fù)的過程人工干預(yù)較多,恢復(fù)時間受人員到位情況和熟練度影響較高。目前同城災(zāi)備的RTO(災(zāi)難恢復(fù)時間)為4小時,在發(fā)生機房級故障時災(zāi)難恢復(fù)時間無法滿足監(jiān)管機構(gòu)相關(guān)要求。
為進(jìn)一步提高核心系統(tǒng)服務(wù)能力,滿足業(yè)務(wù)連續(xù)性和相關(guān)監(jiān)管機構(gòu)要求,該行于2018啟動核心系統(tǒng)主機同城溫備建設(shè)。在生產(chǎn)六臺主機各新增兩塊IFB板卡用于和災(zāi)備主機進(jìn)行遠(yuǎn)程IFB 1X互聯(lián),在災(zāi)備主機上新增一套災(zāi)備管理系統(tǒng)和第五節(jié)點系統(tǒng)P105,并于原有系統(tǒng)構(gòu)建一個跨雙中心的Parallel Sysplex高可用系統(tǒng),同時采用GDPS/PPRC HyperSwap, 確保災(zāi)難發(fā)生后生產(chǎn)系統(tǒng)和數(shù)據(jù)能快速切換到災(zāi)備主機和備份磁盤,實現(xiàn)生產(chǎn)系統(tǒng)災(zāi)難接管。當(dāng)發(fā)生計劃內(nèi)切,換時,RTO(災(zāi)難恢復(fù)時間)大概為5分鐘。
為進(jìn)一步檢驗大型機核心業(yè)務(wù)系統(tǒng)在真實災(zāi)難場景下所能承載的處理能力,該行于2019年11月某日凌晨將核心業(yè)務(wù)系統(tǒng)切換至同城災(zāi)備中心運行,核心業(yè)務(wù)系統(tǒng)在同城災(zāi)備平穩(wěn)運行兩個日間業(yè)務(wù)時段和兩個夜間批量業(yè)務(wù)時段后順利回切至生產(chǎn)中心。
經(jīng)過不斷的建設(shè)與完善,該行基于大型機的兩地三中心災(zāi)備架構(gòu)滿足了監(jiān)管機構(gòu)對于災(zāi)備建設(shè)的相關(guān)監(jiān)管要求,也提升了自身業(yè)務(wù)連續(xù)性管理能力,同時提高了災(zāi)備中心資源利用率。但在移動互聯(lián)網(wǎng)、線上支付、電子商務(wù)飛速發(fā)展的時代,推動信息系統(tǒng)從傳統(tǒng)集中式架構(gòu)為主的架構(gòu)體系,向集中式和分布式架構(gòu)有機融合的架構(gòu)體系進(jìn)行轉(zhuǎn)型也是未來有待探索和實現(xiàn)的道路。