孔明軍++李芹++王瑜
摘 要:由于醫(yī)院業(yè)務(wù)的特殊性,任何人為或自然因素所導(dǎo)致的應(yīng)用或系統(tǒng)中斷或數(shù)據(jù)丟失,都會(huì)造成醫(yī)院巨大的經(jīng)濟(jì)損失。醫(yī)院需要一套完善的容災(zāi)保護(hù)方案來(lái)實(shí)現(xiàn)數(shù)據(jù)和應(yīng)用系統(tǒng)的雙活,當(dāng)出現(xiàn)任意一臺(tái)服務(wù)器、存儲(chǔ)的災(zāi)難性事件時(shí)都不會(huì)造成業(yè)務(wù)中斷,同時(shí)需要將應(yīng)用環(huán)境中的虛擬化平臺(tái)、數(shù)據(jù)庫(kù)、操作系統(tǒng)等進(jìn)行自動(dòng)備份,從而達(dá)到保護(hù)數(shù)據(jù)、快速恢復(fù)業(yè)務(wù)系統(tǒng)的目的。該文以山東省泰安市中心醫(yī)院建設(shè)以虛擬化存儲(chǔ)網(wǎng)關(guān)為核心的雙活容災(zāi)備份系統(tǒng)為例,詳細(xì)介紹了可行的技術(shù)方案供同行實(shí)施時(shí)參考和交流。
關(guān)鍵詞:醫(yī)院信息雙活 容災(zāi)備份 存儲(chǔ)網(wǎng)關(guān)
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2017)03(a)-0129-02
1 項(xiàng)目背景
山東省泰安市中心醫(yī)院是一家規(guī)模較大的三級(jí)甲等綜合性醫(yī)院,作為本地區(qū)醫(yī)療行業(yè)的龍頭單位,經(jīng)過(guò)多年來(lái)信息化的逐步發(fā)展和擴(kuò)充,建成了HIS、CIS系統(tǒng)、LIS系統(tǒng)、EMR系統(tǒng)、PACS系統(tǒng)等核心業(yè)務(wù)系統(tǒng),由這些系統(tǒng)構(gòu)成的整個(gè)醫(yī)院信息系統(tǒng)具有數(shù)據(jù)量大、數(shù)據(jù)類型復(fù)雜、事務(wù)并發(fā)多且實(shí)時(shí)的特點(diǎn)。在實(shí)施雙活容災(zāi)備份系統(tǒng)之前,HIS、CIS、EMR系統(tǒng)運(yùn)行在MSCS雙機(jī)上,PACS系統(tǒng)運(yùn)行在3臺(tái)DELL R920搭建的VMware5.5集群上,雙機(jī)和VMware集群后端掛接一臺(tái)EMC VNX5400存儲(chǔ);LIS系統(tǒng)運(yùn)行在另一套MSCS雙機(jī)上,病例翻拍、運(yùn)維等其他系統(tǒng)運(yùn)行在6臺(tái)服務(wù)器搭建的VMware虛擬化集群上,后端共用一臺(tái)HP EVA P6350存儲(chǔ)。改造前核心系統(tǒng)及數(shù)據(jù)存儲(chǔ)設(shè)備拓?fù)鋱D如圖1。
由拓?fù)鋱D可以看到,醫(yī)院各應(yīng)用系統(tǒng)的數(shù)據(jù)都保存在單存儲(chǔ)器上,依靠數(shù)據(jù)庫(kù)本身的備份機(jī)制進(jìn)行數(shù)據(jù)庫(kù)副本的冷備,存在極大的數(shù)據(jù)安全隱患,因此醫(yī)院通過(guò)多次規(guī)劃和論證,確立了建設(shè)雙活容災(zāi)備份體系的實(shí)施方案。
2 建設(shè)目標(biāo)
實(shí)現(xiàn)醫(yī)院信息系統(tǒng)雙活數(shù)據(jù)容災(zāi)備份, RPO與RTO趨向于零,支持任意時(shí)間點(diǎn)內(nèi)數(shù)據(jù)回滾(預(yù)防數(shù)據(jù)邏輯錯(cuò)誤),徹底解決任何單點(diǎn)故障問(wèn)題,當(dāng)設(shè)備或鏈路出現(xiàn)故障時(shí)做到自動(dòng)切換,無(wú)需人工干預(yù),實(shí)現(xiàn)醫(yī)院信息系統(tǒng)業(yè)務(wù)不間斷、數(shù)據(jù)不丟失。
實(shí)現(xiàn)在兩個(gè)數(shù)據(jù)中心之間實(shí)時(shí)同步的保留兩份數(shù)據(jù),并且可以實(shí)現(xiàn)兩個(gè)數(shù)據(jù)中心的兩份同樣的數(shù)據(jù)都是活動(dòng)的狀態(tài),即可讀可寫(xiě)的;當(dāng)生產(chǎn)機(jī)房的存儲(chǔ)故障后,通過(guò)生產(chǎn)機(jī)房的主機(jī)(或者容災(zāi)機(jī)房的主機(jī))通過(guò)光纖鏈路訪問(wèn)到容災(zāi)機(jī)房的數(shù)據(jù),整個(gè)過(guò)程無(wú)需人工操作,業(yè)務(wù)不受任何影響。容災(zāi)機(jī)房存儲(chǔ)出現(xiàn)故障時(shí),反之亦然;原有HIS、LIS等系統(tǒng)雙機(jī)集群狀態(tài)保持不變,服務(wù)器分別放在兩個(gè)機(jī)房:生產(chǎn)機(jī)房的主機(jī)和容災(zāi)機(jī)房的主機(jī)同時(shí)對(duì)同一數(shù)據(jù)庫(kù)應(yīng)用進(jìn)行讀寫(xiě)操作,而且生產(chǎn)機(jī)房訪問(wèn)本機(jī)房的存儲(chǔ)上的數(shù)據(jù),容災(zāi)機(jī)房訪問(wèn)容災(zāi)機(jī)房的數(shù)據(jù),通過(guò)緩存一致性技術(shù)保證數(shù)據(jù)的一致性。任何一個(gè)機(jī)房的主機(jī)、存儲(chǔ)發(fā)生故障的時(shí)候,應(yīng)用可以由另外一個(gè)機(jī)房繼續(xù)提供服務(wù),用戶不會(huì)有任何感覺(jué);可以實(shí)現(xiàn)任何一個(gè)機(jī)房的任何一個(gè)部件失敗,包括:服務(wù)器、存儲(chǔ)、虛擬化網(wǎng)關(guān)、交換機(jī)甚至整個(gè)機(jī)房癱瘓,另外一個(gè)機(jī)房都可以無(wú)縫的接管所有工作,業(yè)務(wù)不會(huì)停、也不需要人為干預(yù);RPO與RTO趨向于零,支持任意時(shí)間點(diǎn)內(nèi)數(shù)據(jù)回滾(預(yù)防數(shù)據(jù)邏輯錯(cuò)誤);實(shí)現(xiàn)對(duì)現(xiàn)有醫(yī)院信息系統(tǒng)乃至未來(lái)上線業(yè)務(wù)系統(tǒng)的數(shù)據(jù)、應(yīng)用等做整體的容災(zāi)備份。
3 技術(shù)方案
按照對(duì)系統(tǒng)的分析,考慮到整個(gè)系統(tǒng)安全架構(gòu),筆者經(jīng)過(guò)對(duì)比目前市場(chǎng)上多家相關(guān)軟硬件系統(tǒng)的優(yōu)缺點(diǎn),選用了比較經(jīng)濟(jì)的國(guó)產(chǎn)虛擬化存儲(chǔ)網(wǎng)關(guān)產(chǎn)品進(jìn)行部署,設(shè)計(jì)出了醫(yī)院容災(zāi)的規(guī)劃方案,拓?fù)鋱D如圖2所示。
兩臺(tái)容災(zāi)網(wǎng)關(guān)通過(guò)與光纖交換機(jī)連接,以數(shù)據(jù)卷方式對(duì)外(應(yīng)用服務(wù)器)提供存儲(chǔ)服務(wù)。為了保護(hù)數(shù)據(jù)鏈路的可用性,使用兩臺(tái)光纖交換機(jī)構(gòu)建冗余鏈路。兩臺(tái)容災(zāi)網(wǎng)關(guān)之間通過(guò)光纖鏈接進(jìn)行數(shù)據(jù)鏡像同步。該方案的最大優(yōu)勢(shì)在于其對(duì)業(yè)務(wù)連續(xù)性的保護(hù)。生產(chǎn)數(shù)據(jù)從應(yīng)用服務(wù)器端寫(xiě)入存儲(chǔ)網(wǎng)關(guān)容災(zāi)網(wǎng)關(guān)后,容災(zāi)網(wǎng)關(guān)之間將自動(dòng)對(duì)數(shù)據(jù)進(jìn)行在線鏡像到另外一臺(tái)容災(zāi)網(wǎng)關(guān)中。當(dāng)存儲(chǔ)系統(tǒng)中任何一個(gè)環(huán)節(jié)(容災(zāi)網(wǎng)關(guān)或鏈路)出現(xiàn)故障時(shí),存儲(chǔ)路徑將自動(dòng)切換到另外一臺(tái)容災(zāi)網(wǎng)關(guān)上,存儲(chǔ)服務(wù)完全不受影響。應(yīng)用服務(wù)器上的業(yè)務(wù)將無(wú)縫地繼續(xù)運(yùn)行,業(yè)務(wù)完全不會(huì)受到中斷。
3.1 主機(jī)層
目前HIS、CIS、EMR系統(tǒng)使用兩臺(tái)HP DL980服務(wù)器,一臺(tái)EMC VNX5400存儲(chǔ),通過(guò)MSCS集群技術(shù)組成雙機(jī)主備集群;LIS系統(tǒng)使用兩臺(tái)HP DL388G9服務(wù)器,一臺(tái)HP P6350存儲(chǔ),通過(guò)MSCS集群技術(shù)組成雙機(jī)主備集群。目前兩套雙機(jī)系統(tǒng)均采用共享存儲(chǔ)方式提高數(shù)據(jù)安全性和數(shù)據(jù)響應(yīng)速度。此次方案設(shè)計(jì)保留HIS、LIS等系統(tǒng)MSCS雙機(jī)集群,將HIS、LIS等系統(tǒng)備機(jī)遷移到容災(zāi)機(jī)房,如果主機(jī)房服務(wù)器故障,容災(zāi)機(jī)房系統(tǒng)備機(jī)自動(dòng)接管應(yīng)用,無(wú)須人工干預(yù),HIS、LIS業(yè)務(wù)系統(tǒng)使用不會(huì)受到影響。
OA服務(wù)器、手術(shù)麻醉服務(wù)器、超聲服務(wù)器在內(nèi)的周邊業(yè)務(wù)系統(tǒng),目前通過(guò)6臺(tái)HP DL388服務(wù)器和一臺(tái)HP P6350存儲(chǔ)組建VMware虛擬化平臺(tái),此次新增4臺(tái)HP388G9,并入原有的VMware虛擬化平臺(tái)中,兩個(gè)機(jī)房各放置5臺(tái)服務(wù)器,實(shí)現(xiàn)周邊業(yè)務(wù)系統(tǒng)主備機(jī)房一側(cè)設(shè)備或鏈路出現(xiàn)故障時(shí),虛擬機(jī)業(yè)務(wù)自動(dòng)遷移,業(yè)務(wù)系統(tǒng)使用不會(huì)受到影響。
3.2 網(wǎng)絡(luò)層
新的交換機(jī),存儲(chǔ),服務(wù)器,存儲(chǔ)虛擬化網(wǎng)關(guān)上線業(yè)務(wù)切換交割,為減少現(xiàn)有HIS、LIS等業(yè)務(wù)系統(tǒng)的停機(jī)時(shí)間,此次對(duì)于現(xiàn)有的4臺(tái)光纖交換機(jī)不做位置的更改,新機(jī)房新購(gòu)兩臺(tái)光纖交換機(jī),與原有機(jī)房的4臺(tái)光纖交換機(jī)三三級(jí)聯(lián),組成一個(gè)大的存儲(chǔ)SAN網(wǎng)絡(luò),任意光纖交換機(jī)故障或任意機(jī)房出現(xiàn)災(zāi)難性事件,主機(jī)訪問(wèn)存儲(chǔ)均不受影響,業(yè)務(wù)系統(tǒng)使用不會(huì)受到影響。
3.3 存儲(chǔ)網(wǎng)關(guān)
在兩個(gè)機(jī)房中分別部署一臺(tái)存儲(chǔ)虛擬化網(wǎng)關(guān),在容災(zāi)機(jī)房中部署一臺(tái)與原核心存儲(chǔ)相同型號(hào)的EMC VNX5400高性能存儲(chǔ),使用新增的EMC VNX5400存儲(chǔ)作為容災(zāi)機(jī)房HIS、LIS及虛擬化平臺(tái)的后端存儲(chǔ),為前端虛擬化平臺(tái)及HIS、LIS等業(yè)務(wù)系統(tǒng)提供存儲(chǔ)數(shù)據(jù)存儲(chǔ)雙活服務(wù)。利用虛擬化網(wǎng)關(guān)將兩個(gè)機(jī)房的3臺(tái)存儲(chǔ)統(tǒng)一管理起來(lái),建立虛擬的存儲(chǔ)池,通過(guò)虛擬鏡像卷技術(shù),保證數(shù)據(jù)在寫(xiě)入主機(jī)房HP P6350或EMC VNX5400的時(shí)候同時(shí)寫(xiě)入容災(zāi)機(jī)房的EMC VNX5400存儲(chǔ)中,可確保存儲(chǔ)數(shù)據(jù)保持時(shí)刻同步,并同時(shí)對(duì)外提供服務(wù),實(shí)現(xiàn)存儲(chǔ)雙活,滿足存儲(chǔ)高可用的特性,并且能提供雙活的負(fù)載均衡功能。如果遇到斷電、火災(zāi)或其它故障,導(dǎo)致生產(chǎn)機(jī)房存儲(chǔ)設(shè)備出現(xiàn)故障后,可立即由備用機(jī)房存儲(chǔ)設(shè)備來(lái)接管、繼續(xù)對(duì)外提供服務(wù),從而可以保證存儲(chǔ)出現(xiàn)物理故障時(shí)的業(yè)務(wù)連續(xù)性。
通過(guò)HIS、LIS雙機(jī)、服務(wù)器虛擬化軟件和存儲(chǔ)方面的配合,當(dāng)生產(chǎn)機(jī)房故障無(wú)法提供服務(wù)時(shí),可由容災(zāi)機(jī)房自動(dòng)接管業(yè)務(wù),對(duì)外提供服務(wù),保證業(yè)務(wù)不中斷和數(shù)據(jù)的連續(xù)性,實(shí)現(xiàn)雙活數(shù)據(jù)中心的功能。為預(yù)防邏輯錯(cuò)誤,通過(guò)連續(xù)數(shù)據(jù)保護(hù)系統(tǒng)實(shí)現(xiàn)存儲(chǔ)層的CDP保護(hù),不需要在主機(jī)層安裝任何軟件即可對(duì)存儲(chǔ)實(shí)現(xiàn)CDP保護(hù),若出現(xiàn)邏輯故障時(shí),可將狀態(tài)恢復(fù)至14天的任意時(shí)間點(diǎn)數(shù)據(jù)。
3.4 后臺(tái)備份
新增一臺(tái)一體化的備份存儲(chǔ)機(jī),不改變現(xiàn)有網(wǎng)絡(luò)架構(gòu),分配私有IP地址,通過(guò)網(wǎng)絡(luò)(路由器、防火墻將地址與相應(yīng)服務(wù)端口放開(kāi))與需保護(hù)服務(wù)器互通即可。備份存儲(chǔ)機(jī)的客戶端會(huì)按照設(shè)置的備份策略,將重要數(shù)據(jù)源源不斷地同步到到內(nèi)置的備份存儲(chǔ)上,管理員可以在統(tǒng)一的備份恢復(fù)管理平臺(tái)上進(jìn)行物理環(huán)境和虛擬化環(huán)境的數(shù)據(jù)備份恢復(fù)任務(wù)管理和操作。
4 實(shí)施效果
通過(guò)服務(wù)器虛擬化集群、MSCS雙機(jī)集群軟件及虛擬化網(wǎng)關(guān)等實(shí)現(xiàn)核心業(yè)務(wù)系統(tǒng)的雙活,無(wú)論出現(xiàn)任何硬件、網(wǎng)絡(luò)、系統(tǒng)及軟件故障,抑或是任一機(jī)房發(fā)生斷電、火災(zāi)、地震等災(zāi)難時(shí),均不會(huì)影響業(yè)務(wù)系統(tǒng)正常運(yùn)行,無(wú)須人工介入干預(yù)。通過(guò)存儲(chǔ)層連續(xù)數(shù)據(jù)保護(hù)系統(tǒng)實(shí)現(xiàn)存儲(chǔ)層的CDP保護(hù),實(shí)現(xiàn)14天內(nèi)任意時(shí)間點(diǎn)數(shù)據(jù)回滾,預(yù)防數(shù)據(jù)邏輯錯(cuò)誤。通過(guò)備份一體機(jī)實(shí)現(xiàn)對(duì)現(xiàn)有醫(yī)院信息系統(tǒng)乃至未來(lái)系統(tǒng)數(shù)據(jù)的容災(zāi)備份。該方案可平滑升級(jí)兩地三中心方案,在雙活容災(zāi)的基礎(chǔ)上,后續(xù)只需很小的投資可建設(shè)該城市異地的第三容災(zāi)中心,為與該院將來(lái)新建的分院區(qū)做好了連接準(zhǔn)備。
參考文獻(xiàn)
[1] 史子靜.雙活數(shù)據(jù)中心的搭建[J].信息與電腦,2016(14):21-122.