劉郁恒+楊龍剛
【摘 要】為了解決移動互聯(lián)網(wǎng)時(shí)代業(yè)務(wù)運(yùn)營支撐系統(tǒng)容災(zāi)支撐能力不足的問題,通過分析業(yè)務(wù)運(yùn)營支撐系統(tǒng)對雙活容災(zāi)建設(shè)的需求,采用雙活、大二層網(wǎng)絡(luò)架構(gòu)等先進(jìn)技術(shù),提出了網(wǎng)絡(luò)層雙活、存儲層雙活、數(shù)據(jù)庫層雙活、應(yīng)用層雙活及系統(tǒng)組網(wǎng)高可靠性的雙活容災(zāi)建設(shè)方案,從而有效提升業(yè)務(wù)運(yùn)營支撐系統(tǒng)的可靠性和健壯性。
【關(guān)鍵詞】業(yè)務(wù)運(yùn)營支撐系統(tǒng) 雙活并行 容災(zāi) 大二層網(wǎng)絡(luò) DNS集群
Research on Active-Active Disaster Recovery Construction Scheme of Business Operation Support System
[Abstract] In order to solve the problem of the insufficient disaster recovery capacity of the business operations support system in the era of mobile Internet, the requirement of the business operations support system for the active-active disaster recovery construction was analyzed. Advanced techniques of active-active and Large Layer 2 network architecture were adopted to propose a highly reliable active-active disaster recovery construction scheme, in which the active-active is applied to the network layer, storage layer and database layer. It can effectively enhance the reliability and the robustness of the business operations support system.
[Key words]business operation support system active-active in parallel disaster recovery Large Layer 2 networkDNS cluster
1 引言
隨著移動互聯(lián)網(wǎng)時(shí)代的快速發(fā)展、信息化的不斷加深和信息量的飛速增長,信息本身已經(jīng)成為企業(yè)生存和競爭的核心價(jià)值所在。同時(shí),在云計(jì)算和大數(shù)據(jù)技術(shù)的催生下,信息集中度越來越高,隨之而來的風(fēng)險(xiǎn)也將不斷升級,這種社會技術(shù)環(huán)境的變化對業(yè)務(wù)運(yùn)營支撐系統(tǒng)的數(shù)據(jù)災(zāi)難備份能力提出了新的挑戰(zhàn)與機(jī)遇。由于地震、颶風(fēng)、暴風(fēng)雪或其他自然災(zāi)害的影響,業(yè)務(wù)運(yùn)營支撐系統(tǒng)出現(xiàn)重大軟、硬件故障或發(fā)生重大自然災(zāi)害和突發(fā)事件,會造成生產(chǎn)完全中斷且在短時(shí)間不能恢復(fù)。
為了應(yīng)對這種災(zāi)難性的突發(fā)事件,可以通過建設(shè)雙活的災(zāi)備系統(tǒng)來滿足業(yè)務(wù)連續(xù)性要求。在災(zāi)備中心對核心生產(chǎn)系統(tǒng)的數(shù)據(jù)進(jìn)行實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的復(fù)制,同時(shí)可以建立一個(gè)應(yīng)用的運(yùn)行環(huán)境。當(dāng)災(zāi)難性的突發(fā)事件發(fā)生后,在保證核心業(yè)務(wù)數(shù)據(jù)完整性的基礎(chǔ)之上,可以利用應(yīng)用運(yùn)行環(huán)境將核心業(yè)務(wù)迅速切換到災(zāi)備系統(tǒng),恢復(fù)關(guān)鍵系統(tǒng)運(yùn)行,以達(dá)到業(yè)務(wù)不中斷的目的。
2 總體架構(gòu)研究
從系統(tǒng)架構(gòu)的角度分析,目前容災(zāi)系統(tǒng)主要有主備、雙中心互備和雙活并行三種建設(shè)方案,如圖1所示。目前采用的前兩種系統(tǒng)架構(gòu)模式的RTO(Recovery Time Objective,恢復(fù)時(shí)間目標(biāo))均不為0,容災(zāi)端平時(shí)不可用,需要相應(yīng)技術(shù)和流程保證系統(tǒng)切換,而雙活并行模式理論上在災(zāi)難發(fā)生時(shí),可以做到在不影響業(yè)務(wù)的前提下滿足“0”切換要求。
和傳統(tǒng)主備方式不同,完善的業(yè)務(wù)運(yùn)營支撐系統(tǒng)雙活容災(zāi)解決方案需要對整個(gè)系統(tǒng)的架構(gòu)進(jìn)行深入改造,從網(wǎng)絡(luò)、存儲、數(shù)據(jù)庫和應(yīng)用耦合等方面形成一套完整的建設(shè)方案,如圖2所示。
具體如下:
(1)網(wǎng)絡(luò)層:雙活容災(zāi)系統(tǒng)兩個(gè)生產(chǎn)中心之間采用大二層網(wǎng)絡(luò)技術(shù)、光傳輸波分復(fù)用技術(shù)、虛擬化應(yīng)用集群的心跳網(wǎng)絡(luò)及防腦裂技術(shù);
(2)接入層:借助DNS(Domain Name System,域名系統(tǒng))和全局負(fù)載均衡技術(shù)實(shí)現(xiàn)雙活接入及高可用保障;
(3)應(yīng)用層:應(yīng)用集群技術(shù),彈性、云化部署應(yīng)用;
(4)數(shù)據(jù)庫層:采用數(shù)據(jù)庫集群的高可用、異構(gòu)數(shù)據(jù)庫的復(fù)制能力與技術(shù);
(5)存儲層:存儲的陣列復(fù)制技術(shù)、雙活集群可讀可寫技術(shù)等保障故障切換能力。
3 關(guān)鍵技術(shù)研究
3.1 網(wǎng)絡(luò)層雙活
為保障業(yè)務(wù)運(yùn)營支撐系統(tǒng)雙活建設(shè)方案的可靠性,本文采用數(shù)據(jù)傳輸鏈路與心跳鏈路分離設(shè)計(jì)的原則,通過VLAN(Virtual Local Area Network,虛擬局域網(wǎng))或VRF(Virtual Routing Forwarding,VPN路由轉(zhuǎn)發(fā)表)隔離端到端的流量,同時(shí)分配獨(dú)立的物理互聯(lián)鏈路,做到業(yè)務(wù)流量與集群心跳流量的隔離。
在跨雙活生產(chǎn)中心進(jìn)行傳輸時(shí),采用FC(Fibre Channel,光纖通道)鏈路實(shí)現(xiàn)雙活中心間的數(shù)據(jù)實(shí)時(shí)同步,同時(shí)承載存儲集群心跳網(wǎng)絡(luò);采用二層以太網(wǎng)絡(luò)實(shí)現(xiàn)雙活生產(chǎn)中心間的主機(jī)應(yīng)用集群的心跳及同步互聯(lián)鏈路通信。為保證應(yīng)用以及數(shù)據(jù)庫的時(shí)延要求,兩個(gè)中心之間采用OTN(Optical Transport Network,光傳送網(wǎng))波分設(shè)備來構(gòu)建網(wǎng)絡(luò),兩個(gè)中心內(nèi)部的以太網(wǎng)交換機(jī)和FC交換機(jī)分別同時(shí)連接到OTN波分設(shè)備,兩個(gè)數(shù)據(jù)中心的OTN波分設(shè)備裸光纖直接級聯(lián),并冗余采用2對光纖,其網(wǎng)絡(luò)拓?fù)淙鐖D3所示:
3.2 存儲層雙活
存儲層是業(yè)務(wù)運(yùn)營支撐雙活容災(zāi)系統(tǒng)建設(shè)的核心之一,其雙活技術(shù)在整個(gè)架構(gòu)中起到關(guān)鍵作用。目前存儲雙活架構(gòu)按照物理形態(tài),可以分為基于虛擬化網(wǎng)關(guān)和基于磁盤陣列兩種架構(gòu);按照業(yè)務(wù)能力,可以分為A/A(Active/Active,雙活)模式雙活和A/P(Active/Positive,主備)模式雙活。
本文采用跨站點(diǎn)的雙活集群技術(shù)實(shí)現(xiàn)存儲層雙活架構(gòu),如圖4所示。集群卷向應(yīng)用服務(wù)器提供無差異的并行訪問,同時(shí)處理應(yīng)用服務(wù)器的I/O(Input/Output,輸入/輸出端口)請求;各控制器間互為備份,均衡負(fù)載,控制器故障后,其承接的業(yè)務(wù)自動切換到正??刂破?,以保證系統(tǒng)的可靠性及業(yè)務(wù)的連續(xù)性。集群間的通信支持多種網(wǎng)絡(luò)協(xié)議,可降低組網(wǎng)的復(fù)雜度,提高系統(tǒng)的可靠性。
3.3 數(shù)據(jù)庫層雙活
(1)基于Oracle Extended RAC架構(gòu)實(shí)現(xiàn)雙活
Oracle RAC(Oracle Real Application Cluster,真正應(yīng)用集群)作為一種集群數(shù)據(jù)庫技術(shù),以共享存儲為基礎(chǔ),通過共享的存儲資源實(shí)現(xiàn)各節(jié)點(diǎn)對數(shù)據(jù)庫的并行訪問,且在單個(gè)節(jié)點(diǎn)出現(xiàn)故障時(shí),業(yè)務(wù)能自動切換到正常節(jié)點(diǎn),從而保證數(shù)據(jù)庫系統(tǒng)的高可用性。Oracle Extended RAC以跨中心共享存儲為基礎(chǔ),通過共享存儲資源和Oracle Clusterware數(shù)據(jù)庫集群管理,實(shí)現(xiàn)各個(gè)中心節(jié)點(diǎn)對數(shù)據(jù)庫的并行訪問。
本文采用Oracle ASM(Automatic Storage Management,自動存儲管理)存儲卷管理,在兩個(gè)生產(chǎn)中心分別部署一套存儲,各提供一套LUN(Logical Unit Number,邏輯單元號)設(shè)備給全部數(shù)據(jù)庫主機(jī),實(shí)現(xiàn)數(shù)據(jù)的雙向?qū)崟r(shí)復(fù)制,在第3個(gè)站點(diǎn)部署用于RAC的第3個(gè)投票盤,使用NFS(Network File System,網(wǎng)絡(luò)文件系統(tǒng))的方式掛載到所有數(shù)據(jù)庫主機(jī),各節(jié)點(diǎn)間采用冗余光纖鏈接以保證可靠性,如圖5所示。ASM支持對本地磁盤的優(yōu)先讀取,可避免跨數(shù)據(jù)中心的數(shù)據(jù)讀取,以提高I/O性能并減少網(wǎng)絡(luò)流量。
(2)內(nèi)存數(shù)據(jù)庫雙活技術(shù)實(shí)現(xiàn)
內(nèi)存庫將數(shù)據(jù)常駐在內(nèi)存中直接操作,相比從磁盤上訪問極大地提高了應(yīng)用的性能。在業(yè)務(wù)運(yùn)營支撐系統(tǒng)中,內(nèi)存庫已被廣泛用于實(shí)時(shí)計(jì)費(fèi)。內(nèi)存庫集群部署主要有HA模式、雙活模式、線性拆分和分布式集群四種模式。本文采用分布式集群模式,具體如圖6所示。
該模式采用分布式內(nèi)存數(shù)據(jù)庫,具備對數(shù)據(jù)自動分布式加載和路由能力,內(nèi)存庫集群自動建立路由表,將數(shù)據(jù)以冗余的方式加載到集群中不同節(jié)點(diǎn)的內(nèi)存庫中,支持多個(gè)內(nèi)存庫同時(shí)進(jìn)行讀寫。對外提供統(tǒng)一的訪問接口,數(shù)據(jù)的分布對應(yīng)用完全不透明。支持在線擴(kuò)展,路由自動調(diào)整,便于維護(hù)。
3.4 應(yīng)用層雙活
應(yīng)用層是中間件交易層,主要部署后臺處理邏輯。要實(shí)現(xiàn)一個(gè)生產(chǎn)中心故障時(shí)服務(wù)不中斷的雙活方案,需要在每個(gè)生產(chǎn)中心分別部署一套完整的且完全相同的云化服務(wù)和應(yīng)用,平時(shí)每個(gè)中心均為生產(chǎn),并具備接管全部業(yè)務(wù)的能力。同時(shí)對數(shù)據(jù)訪問,所有交易中間件針對每套數(shù)據(jù)庫同時(shí)建立多個(gè)連接指向跨中心的數(shù)據(jù)庫節(jié)點(diǎn),確保單中心故障時(shí)數(shù)據(jù)庫的高可用。
3.5 組網(wǎng)高可靠性研究
傳統(tǒng)應(yīng)用采用基于IP的配置連接方式,需要分散到很多設(shè)備中進(jìn)行管理連接關(guān)系,造成IT架構(gòu)復(fù)雜,在配置變更時(shí)工作量很大。同時(shí),在業(yè)務(wù)運(yùn)營支撐系統(tǒng)應(yīng)急容災(zāi)切換時(shí),需要涉及大量系統(tǒng)配置變更,造成切換時(shí)間過長、可靠性低等問題。而引入DNS可以有效地提高業(yè)務(wù)運(yùn)營支撐系統(tǒng)的可靠性。
本文采用負(fù)載均衡器,基于大二層網(wǎng)絡(luò)構(gòu)建跨中心的DNS集群?;赩RRP(Virtual Router Redundancy Protocol,虛擬路由冗余協(xié)議)協(xié)議,實(shí)現(xiàn)實(shí)時(shí)切換和業(yè)務(wù)運(yùn)營支撐系統(tǒng)連接關(guān)系的集中化管理維護(hù)。在兩個(gè)中心分別部署了兩臺負(fù)載均衡設(shè)備,其中容災(zāi)端的兩臺負(fù)載均衡和生產(chǎn)端的其中一臺負(fù)載均衡形成一個(gè)VRRP組,VRRP組的虛地址是提供DNS服務(wù)的IP地址,該跨站點(diǎn)集群作為主用DNS,另一臺容災(zāi)生產(chǎn)中心的負(fù)載均衡設(shè)備作為單獨(dú)的備用DNS服務(wù)器。DNS集群通過浮動IP提供DNS解析服務(wù),平時(shí)浮動IP位于A中心主用設(shè)備。當(dāng)A中心主用設(shè)備出現(xiàn)故障時(shí),服務(wù)由A中心另一臺備用設(shè)備接管;當(dāng)A中心兩臺設(shè)備不可用或中心網(wǎng)絡(luò)無法訪問時(shí),B中心的備用設(shè)備接管服務(wù),從而實(shí)現(xiàn)跨中心的負(fù)載均衡冗余,如圖7所示。
4 結(jié)束語
本文通過大二層網(wǎng)絡(luò)架構(gòu)等先進(jìn)技術(shù)的應(yīng)用,對網(wǎng)絡(luò)層雙活、存儲層雙活、數(shù)據(jù)庫層雙活、應(yīng)用層雙活及組網(wǎng)高可靠等雙活關(guān)鍵技術(shù)進(jìn)行研究,實(shí)現(xiàn)了一套業(yè)務(wù)運(yùn)營支撐系統(tǒng)雙活容災(zāi)建設(shè)方案,為系統(tǒng)提供了風(fēng)險(xiǎn)預(yù)防機(jī)制和災(zāi)難恢復(fù)措施,在確保數(shù)據(jù)安全的基礎(chǔ)上提高業(yè)務(wù)連續(xù)運(yùn)行能力,降低企業(yè)運(yùn)營風(fēng)險(xiǎn),將業(yè)務(wù)損失降低到可接受的程度,以提升服務(wù)質(zhì)量和服務(wù)水平,增強(qiáng)企業(yè)競爭力。但該建設(shè)方案也存在一定的局限性,如未考慮兩個(gè)生產(chǎn)中心處理能力不對等、存儲差異對數(shù)據(jù)同步的影響等。因此,業(yè)務(wù)運(yùn)營支撐系統(tǒng)雙活容災(zāi)建設(shè)方案還有很大的研究空間,未來將通過全面深入的研究使建設(shè)方案更完善、可靠。
參考文獻(xiàn):
[1] 王樹鵬,云曉春,余翔湛,等. 容災(zāi)的理論與關(guān)鍵技術(shù)分析[J]. 計(jì)算機(jī)工程與應(yīng)用, 2004(28): 54-58.
[2] 李宏偉,肖偉. 存儲虛擬化技術(shù)在雙活數(shù)據(jù)中心中的應(yīng)用[J]. 郵電設(shè)計(jì)技術(shù), 2013(9): 9-13.
[3] 朱智達(dá). “分布式雙活”模式在校園數(shù)據(jù)備份中的應(yīng)用研究[J]. 電腦與電信, 2013(9): 61-62.
[4] 廖鋒,喻朝新,張國祥. 關(guān)于利用虛擬化技術(shù)實(shí)現(xiàn)業(yè)務(wù)支撐系統(tǒng)容災(zāi)保障的思路探討[J]. 數(shù)據(jù)通信, 2013(1): 38-41.
[5] 孫罡. 云數(shù)據(jù)中心——資源管理與調(diào)度技術(shù)[M]. 北京: 科學(xué)出版社, 2016.
[6] 康楠. 數(shù)據(jù)中心系統(tǒng)工程及應(yīng)用[M]. 北京: 人民郵電出版社, 2013.
[7] 俞科峰. 中國電信多媒體智能客服系統(tǒng)的研究與實(shí)現(xiàn)[J]. 移動通信, 2015,39(1): 91-96.
[8] 吳禮樂. 基于雙活容災(zāi)存儲技術(shù)的云計(jì)算數(shù)據(jù)中心的設(shè)計(jì)及應(yīng)用[J]. 電子設(shè)計(jì)工程, 2015(6): 190-192.
[9] 李雪鋒. 多校區(qū)數(shù)據(jù)中心雙活容災(zāi)方案研究[J]. 中國教育信息化, 2015(9): 59-61.
[10] 王云芳. 云計(jì)算資源池容災(zāi)中心建設(shè)解決方案研究[J]. 互聯(lián)網(wǎng)天地, 2015(2): 1-7.