陳榮山,姚 婕,吳 昊
(泰興市中醫(yī)院,江蘇 泰興 225400)
受制于泰興中醫(yī)院原大慶路院區(qū)數(shù)據(jù)中心規(guī)模的限制,信息化建設僅依靠單服務器支撐醫(yī)院信息系統(tǒng)運行,隨著醫(yī)院整體規(guī)模和醫(yī)療服務能力的不斷擴大,現(xiàn)有的信息化服務能力已顯得捉襟見肘。同時,根據(jù)數(shù)據(jù)安全以及等保測評的要求,醫(yī)院雙活數(shù)據(jù)中心建設勢在必行。
如何利用當前的IT基礎架構先進技術,搭建多活應用場景,以滿足醫(yī)院高速發(fā)展的信息化建設要求,建設穩(wěn)定、可靠、高效的信息基礎支撐平臺和服務平臺,成為泰興中醫(yī)院信息化建設至關重要的問題。
“雙活數(shù)據(jù)中心”中的“雙活”一詞源于圍棋中的術語,在中國圍棋里有一個術語叫做雙活,終局時,經雙方確認,不能被提取的棋都是活棋,這時候雙方是有些勢均力敵的,最后要以生存于棋盤的總子數(shù)來判斷勝負,其中包括雙活棋的子數(shù)多少。從圍棋上理解雙活,那就是有兩方或者兩邊都是有作戰(zhàn)能力,能都獨立運行。
在數(shù)據(jù)中心的基礎架構建設中,還存在諸多專業(yè)詞匯,比如:熱備、冷備、RPO和RTO等。
熱備,當主部件或者設備發(fā)生故障時,通過設置的熱備能夠自動頂替,對業(yè)務毫無影響的故障切換,這就叫熱備,最常見的比如磁盤陣列(RAID)在做完RAID以后,會針對不同的磁盤設置熱備盤(hotspare),以保證當RAID中的磁盤發(fā)生故障后,熱備盤能夠及時地替換掉那塊故障硬盤,保證RAID的完整性。
冷備,相比熱備而言,冷備不像熱備那么及時自動地解決問題,需要人為干預,這中間的過程可能會造成業(yè)務的不可用甚至數(shù)據(jù)丟失。
RPO(Recovery Point Object),是衡量災難發(fā)生后會丟失多少生產數(shù)據(jù)的指標,簡單點說就是數(shù)據(jù)持有人或者使用者所能容忍的最大數(shù)據(jù)丟失量。
RTO(Recovery Time Objective),是恢復時間目標,指在故障或災難發(fā)生之后,應用系統(tǒng)停止工作的最高可承受時間。
雙活,在IT基礎架構中,雙活的分類有很多,比如應用雙活、數(shù)據(jù)庫雙活和存儲雙活等,從前端的業(yè)務系統(tǒng),再到底層的基礎架構,從上至下的全套冗余設計,可被認為是本地或者異地的雙活數(shù)據(jù)中間設計。當其中一個數(shù)據(jù)中心發(fā)生軟、硬件故障或者災難時,另外一個數(shù)據(jù)中心能夠在無需人工干預的情況下,自動、快速、安全地將應用、網絡流量切換過來,保證業(yè)務前端應用無感知,業(yè)務零停頓,應用零影響,保證醫(yī)院業(yè)務的連續(xù)性。
雙活數(shù)據(jù)中心建設的目的就是當我們碰到一些系統(tǒng)故障,或者自然災害的時候能夠有很強的抵抗性,保證整套業(yè)務系統(tǒng)的高可用性。高可用性可以用以下指標來衡量。
平均故障間隔MTBF(Mean Time Between Failure):表示2次故障的間隔時間,也就是系統(tǒng)正常運行的平均時間,這個時間越長,說明系統(tǒng)穩(wěn)定性越高。
故障恢復時間MTTR(Mean Time To Repair):表示系統(tǒng)發(fā)生故障后“恢復的時間”,這個值越小,故障對用戶的影響越小。
還有一個常說的詞匯就是系統(tǒng)可用性,就是通過平均故障間隔和故障恢復時間這2個值換算得來的。系統(tǒng)可用(Availability)=MTBF/(MTBF+MTTR)×100%,這也是很多IT廠家對外宣傳的“N個9”高可用。見表1。
表1 系統(tǒng)可用性說明
故障時間越短,整個系統(tǒng)的可靠性就越高,每提升一個9需要對系統(tǒng)的建設有更高的要求,往往也要增加很多的軟硬件設備,更多的成本投入。
隨著信息技術的不斷進步,IT基礎架構也在不斷演進,以滿足客戶對容量、性能以及可用性的多重需求。
1.2.1 服務器單機模式
單機模式顧名思義只有一臺服務器運行一套乃至所有的應用系統(tǒng),相當于一臺配置很高的個人PC。醫(yī)院里所有的應用系統(tǒng)都跑在單臺服務器上,如果機房發(fā)生斷電或者有火災等意外情況,應用服務器就會停止工作,進而醫(yī)院各個業(yè)務系統(tǒng)都不可用。
當然,作為醫(yī)院支撐的核心業(yè)務系統(tǒng)不會選擇這種不太可靠的方式,一定要做到關鍵業(yè)務獨立系統(tǒng),并采取一定的備份措施。服務器單機模式是最傳統(tǒng)的IT架構模式,系統(tǒng)可用性較低,且易造成存儲和計算資源浪費,僅適用于剛起步的微小型企業(yè)或者應用系統(tǒng)數(shù)量極少的IT建設。
由于業(yè)務量較小、業(yè)務系統(tǒng)簡單,泰興市中醫(yī)院原有數(shù)據(jù)中心采用的就是這種服務器單機模式,配備了2臺4路服務器運行醫(yī)院信息系統(tǒng)(HIS)、實驗室信息系統(tǒng)(LIS)、影像歸檔和通信系統(tǒng)(PACS)系統(tǒng),配備了1臺2路服務器用于備份核心數(shù)據(jù)庫文件。
1.2.2 服務器集群模式
當1臺服務器承載著多套應用后,一旦這臺服務器發(fā)生系統(tǒng)故障就會造成所有應用失效。這時就需要把業(yè)務分散到多臺服務器上,同時把數(shù)據(jù)集中在獨立的存儲設備上,這就需要應用服務器集群技術。
服務器集群系統(tǒng)是應用集群技術(Cluster)將多臺相互獨立的服務器在網絡中虛擬化成統(tǒng)一計算資源池,通過集群可以讓多臺服務器運行同一個或多個計算任務,提供更加強大的運算能力以及容錯能力,并解決以下幾個問題:
1)集群系統(tǒng)中服務器硬件故障。多個獨立服務器虛擬化成統(tǒng)一計算資源池后集群系統(tǒng)中運行的操作系統(tǒng)不再受限于服務器的自身資源,包括其硬件和部署在上面的軟件。當有服務器發(fā)生硬件問題宕機無法提供服務時,其他服務器能夠自動承擔故障服務器的應用要求,分流業(yè)務壓力,保證業(yè)務不中斷。
2)集群系統(tǒng)中軟件故障。集群系統(tǒng)中的服務器硬件上都可運行各種操作系統(tǒng),比如windows、linux等,在操作系統(tǒng)上再部署各種業(yè)務軟件,當業(yè)務軟件發(fā)生故障時,對應的部署操作系統(tǒng)、硬件也無法提供對外服務,則應用中斷。如果我們在服務器操作系統(tǒng)層部署了類似于VMware HA、RoseHA等產品,借助該類軟件的冗余策略,會將業(yè)務虛擬機或者業(yè)務系統(tǒng)自動切換到集群中其他的服務器上,繼續(xù)運行對外提供服務。
3)集群系統(tǒng)中人為誤操作問題。除了軟硬件的問題,我們還會碰到一些計劃外的問題,比如人為失誤。在使用有管理權限賬號操作下,非專業(yè)的人為誤操作會引起不必要的業(yè)務停頓。因此有效的安全冗余機制,回滾機制就尤為重要。重現(xiàn)故障,業(yè)務系統(tǒng)回滾至故障的前一秒,避免人為失誤帶來的損失。
1.2.3 超融合模式
時下還有一種熱門的服務器集群搭建模式的就是超融合(HCI)模式。在超融合模式下,沒有單獨的存儲系統(tǒng),都是服務器。通過超融合軟件將所有服務器串在一起,組件成一個大的集群。在集群中每臺服務器就是一個節(jié)點(Node),通過副本技術在整個集群中分散著2份以上的數(shù)據(jù),任意一個Node發(fā)生故障都不會影響整個系統(tǒng)的正常運行。
超融合的優(yōu)勢在于以x86標準服務器硬件設備和虛擬化管理軟件、分布式存儲軟件相結合,相較于傳統(tǒng)服務器集群系統(tǒng),超融合將存儲也虛化成存儲資源池,數(shù)據(jù)不再集中在某一臺存儲上了,當我們需要擴容或者數(shù)據(jù)遷移,設備新舊更替時只要增加或者刪除節(jié)點就可以了,操作更加敏捷,資源交付更有彈性。
醫(yī)療行業(yè)一般把業(yè)務分為穩(wěn)態(tài)和敏態(tài)兩大類。穩(wěn)態(tài)業(yè)務一般包括HIS、EMR、LIS、集成平臺等應用,穩(wěn)態(tài)業(yè)務一般使用傳統(tǒng)三層架構方式(服務器+交換機+存儲)來部署。敏態(tài)業(yè)務比如“互聯(lián)網+”醫(yī)療創(chuàng)新業(yè)務,提升患者就醫(yī)體驗、惠民服務類,如醫(yī)院微信公眾號、預約叫號、線上問診、遠程醫(yī)療等。這些業(yè)務敏態(tài)業(yè)務的建設都需要有靈活、高效、彈性的底層平臺支撐,超融合服務器架構也就成為了這類應用的首選。通過使用超融合解決方案可以幫助醫(yī)院快速上線業(yè)務系統(tǒng),在系統(tǒng)敏捷性、穩(wěn)定性、靈活性和可擴展性方面均具有很大優(yōu)勢。
1.2.4 雙活數(shù)據(jù)中心
在上一節(jié)中我們提到集群模式下的三層架構,數(shù)據(jù)是存放在存儲設備上,因此存儲的可靠性就尤為重要。在數(shù)據(jù)中心基礎架構建設中常見的存儲雙活有兩種,一種是本地雙活,在一個數(shù)據(jù)中心搭建2套存儲,存儲設備之間無主次之分,同時提供IO讀寫。另外一種是異地雙活,2套設備分布在2個機房,機房之間無主次之分,任一機房發(fā)生故障都不會影響前端業(yè)務。
本地機房雙活系統(tǒng)的搭建相對來說比較簡單,只要考慮存儲設備之間的性能平衡,鏈路之間的冗余、負載均衡等即可。如圖1所示。
圖1 本地機房雙活系統(tǒng)
異地雙活機房建設除了本地雙活建設考慮要求,還要考慮到2個機房之間的網絡建設,包括機房之間的鏈路延時RTT(無線傳輸技術),鏈路的冗余等等,同時還需要考慮到第三方站點仲裁的設立,防止出現(xiàn)雙活腦裂的現(xiàn)象發(fā)生。
存儲雙活的建設根據(jù)各大IT廠商的方案主要分為2類,一類是通過存儲自帶軟件雙活,比如華為、HDS和Netapp等,還有一類是通過存儲雙活網關來實現(xiàn),比如DELLEMC、IBM等。
第一類中,比如華為,華為存儲雙活是借助于存儲付費軟件HyperMetro來實現(xiàn)的。2套同樣型號、配置的存儲,通過HyperMetro來實現(xiàn)本地或者異地的數(shù)據(jù)實時同步。做了雙活的2臺存儲沒有主備之分,2個站點可以同時對外提供讀寫服務,并且借助第三方仲裁,對2臺存儲的服務能力實時監(jiān)控,當任意一臺存儲發(fā)生故障時,通過仲裁的判斷自動將所有業(yè)務安全快速地切換到運行正常的存儲中去,保證業(yè)務連續(xù)性。
另外一類,比如DELLEMC的存儲雙活網關Vplex,能夠將DELLEMC和其他廠商存儲通過網關異構整合,虛擬化為統(tǒng)一的存儲資源池,實現(xiàn)異構存儲雙活。Vplex雙活方案有Vplex Local(本地數(shù)據(jù)中心)和Vplex metro(異地數(shù)據(jù)中心)2種方案,異地數(shù)據(jù)中心方案由2個站點的2套Vplex集群系統(tǒng)組成,每個站點的Vplex集群都有自己專屬的本地存儲陣列,通過創(chuàng)建分布式鏡像卷為跨集群的鏡像卷,提供Vplex Access Anywhere功能,2個站點的Vplex集群各有1個卷,2個卷的ID一樣。
借助于DELLEMC Vplex的縱向、橫向擴展能力,可以從獨立的雙活控制器起步,擴展至異地最多16個控制器,保證一或多的控制故障冗余;同時借助于控制器硬件獨有的緩存作用,加大數(shù)據(jù)在分布式緩存中的讀命中率,以及IO的共享負載均衡,快速支撐可以跨越上百公里的數(shù)據(jù)中心雙活建設。
不同的存儲雙活建設方案也有各自的優(yōu)缺點,比如軟件雙活,優(yōu)點在于單一OS,同構設備,結構簡單,故障點少,軟件功能豐富,基于磁盤基本的鏡像,對讀寫性能影響極小,且不增加延遲。往往同時支持SAN(存儲局域網)和NAS(網絡附屬存儲)的雙活,建設成本也較低。缺點在于軟件雙活往往會使用存儲控制器本身的資源,而且只能是同品牌甚至同型號之間的存儲才能做軟件雙活,有些無法做到雙活的橫向擴展。
而硬件雙活優(yōu)點在于支持異構多品牌的存儲產品做雙活設計,不用被單一存儲品牌綁定,可以利舊原有設備。并且網關硬件往往會自帶高內存,有助提升整體系統(tǒng)性能。缺點在于投入更多的硬件成本來搭建雙活系統(tǒng),增加鏈路設計的復雜性。在不同的業(yè)務場景,例如NAS場景下,像DELLME Vplex還不支持NAS的雙活。
因此在選擇存儲雙活建設方案時需要考慮的方面有很多,不僅要考慮存儲雙活方案帶來的成本投入,還要考慮自身的現(xiàn)有的IT建設情況,是否需要設備利舊,多個機房的鏈路帶寬,以及不同應用(針對SAN和NAS應用場景)雙活建設需求等等。
隨著人民對健康的需求愈加迫切,泰興市中醫(yī)院業(yè)務量逐年穩(wěn)步增長,原有以收費為核心的業(yè)務系統(tǒng)已不能滿足需求,醫(yī)院業(yè)務系統(tǒng)重心必須向服務臨床傾斜,建設以電子病歷為核心的業(yè)務系統(tǒng),同時升級數(shù)據(jù)中心以承載數(shù)量龐大的業(yè)務子系統(tǒng)。升級后的數(shù)據(jù)中心以虛擬化+雙活存儲為主要架構,以4臺2路服務器虛擬化、搭載2套DELLEMC雙活存儲運行前端應用程序,以2臺4路服務器HA(雙機集群系統(tǒng))模式運行數(shù)據(jù)庫,兼顧了應用擴展的靈活性和數(shù)據(jù)庫的物理安全,從單機模式直接跨越到本地雙活數(shù)據(jù)中心模式,實現(xiàn)了數(shù)據(jù)中心建設的彎道超車。
泰興市中醫(yī)院新院區(qū)啟用后,數(shù)據(jù)中心建設再次提速升級,應用超融合技術建設了容災機房,配置了8個節(jié)點的全閃節(jié)點,使用VEEAM軟件對虛擬機進行定時備份,實現(xiàn)DSG數(shù)據(jù)庫備份軟件對核心數(shù)據(jù)庫實施同步,保證主機房完全故障時,容災機房可以迅速拉起業(yè)務,保障核心業(yè)務連續(xù)與數(shù)據(jù)完整。
數(shù)字化醫(yī)療是我國現(xiàn)階段醫(yī)療信息化建設的主要方向,結合醫(yī)療行業(yè)業(yè)務系統(tǒng)的要求,借助當今世界熱門IT技術來不斷滿足日益增長的就醫(yī)需求,面對多變環(huán)境下的醫(yī)療疾病挑戰(zhàn),需要建設一個高水平、高質量、高穩(wěn)定性的智慧數(shù)據(jù)中心,以承載醫(yī)院日益復雜的內部業(yè)務系統(tǒng)以及互聯(lián)網+應用,以高水平的服務提升廣大人民群眾的就醫(yī)體驗,不斷增強人民群眾就醫(yī)滿足度、安全感、幸福感,推動醫(yī)療服務高質量發(fā)展。