王 剛
(陜西省漢中市郵政局,陜西 漢中 723000)
商業(yè)銀行金融信息系統(tǒng)已全部完成了邏輯大集中,系統(tǒng)運(yùn)行的穩(wěn)定性和高可用性至關(guān)重要。根據(jù)人民銀行和銀監(jiān)局統(tǒng)計(jì)造成金融信息系統(tǒng)故障的主要方面是硬件問題占40%、軟件問題占30%、人為因素占20%、環(huán)境因素占10%。因此,穩(wěn)定性和高可用性設(shè)計(jì)應(yīng)盡可能地考慮到上述因素。金融信息系統(tǒng)的穩(wěn)定性和可用性將取決于內(nèi)部的應(yīng)用系統(tǒng)、主機(jī)、存儲、數(shù)據(jù)庫、網(wǎng)絡(luò)和基礎(chǔ)設(shè)施環(huán)境等。穩(wěn)定性策略和高可用性設(shè)計(jì)是確保系統(tǒng)穩(wěn)定運(yùn)行和故障快速恢復(fù)的關(guān)鍵。
銀行金融信息系統(tǒng)在應(yīng)用軟件架構(gòu)設(shè)計(jì)中應(yīng)從渠道層、渠道管理層、業(yè)務(wù)處理層等不同層面通過多種措施和策略的綜合設(shè)計(jì)來提高應(yīng)用系統(tǒng)的高可用性和穩(wěn)定性[1]。
應(yīng)用軟件負(fù)載均衡通過多個層次上不同的負(fù)載均衡策略一起實(shí)現(xiàn)整體的負(fù)載均衡,設(shè)計(jì)思路是將大量的并發(fā)訪問分擔(dān)到多臺節(jié)點(diǎn)設(shè)備上分別處理,從而提高服務(wù)響應(yīng)速度,避免服務(wù)請求集中于單一節(jié)點(diǎn)導(dǎo)致?lián)砣?/p>
應(yīng)用軟件構(gòu)建在面向服務(wù)的架構(gòu)、設(shè)計(jì)思想上,應(yīng)用服務(wù)具有較高的可靈活部署性。通過這種靈活性,結(jié)合系統(tǒng)基礎(chǔ)設(shè)施的規(guī)劃、部署可以實(shí)現(xiàn)應(yīng)用軟件的失效備援。失效備援是在應(yīng)用管理框架中實(shí)現(xiàn)應(yīng)用服務(wù)的冗余部署,利用硬件負(fù)載均衡設(shè)備或應(yīng)用軟件負(fù)載均衡可以在需要時將服務(wù)請求切換到相應(yīng)的冗余服務(wù)設(shè)備。
流量控制是通過應(yīng)用軟件對系統(tǒng)實(shí)施控制的功能。流量控制基于系統(tǒng)邏輯架構(gòu),依據(jù)系統(tǒng)、子系統(tǒng)、渠道等不同層面的交易流量、交易狀態(tài)和確定的控制策略、控制規(guī)則,對系統(tǒng)實(shí)施控制[2]。 應(yīng)用系統(tǒng)具有的功能:(1)流量數(shù)據(jù)采集;(2)流量值計(jì)算;(3)交易流量控制;(4)渠道流量控制;(5)控制策略及規(guī)則管理。
在應(yīng)用軟件系統(tǒng)發(fā)生故障時,通過故障隔離把故障造成的危害控制在最小范圍內(nèi),提高系統(tǒng)對外服務(wù)的整體能力。應(yīng)用系統(tǒng)故障隔離具有的功能:(1)按渠道的故障隔離;(2)按子系統(tǒng)的故障隔離;(3)支持異常服務(wù)的故障隔離;(4)按交易的故障隔離。
在柜面網(wǎng)點(diǎn)前置系統(tǒng)側(cè),應(yīng)采用硬件負(fù)載均衡器對網(wǎng)點(diǎn)終端連接到網(wǎng)點(diǎn)前置的負(fù)載均衡,利用負(fù)載均衡器的連接狀態(tài)檢查和負(fù)載均衡策略可以靈活地調(diào)整終端的連接指向,屏蔽因網(wǎng)點(diǎn)前置機(jī)故障導(dǎo)致的終端操作異常,提高網(wǎng)點(diǎn)前置系統(tǒng)的可用性。
主機(jī)系統(tǒng)作為各應(yīng)用系統(tǒng)的運(yùn)行平臺,其可用性和穩(wěn)定性是業(yè)務(wù)系統(tǒng)能夠持續(xù)、穩(wěn)定運(yùn)行的前提。其高可用性和穩(wěn)定性可從以下幾方面加以保障。
主機(jī)采用高度冗余設(shè)計(jì),可充分保障自身的運(yùn)行可靠性。主機(jī)采用多種容錯技術(shù),可有效提升自身的可靠性。
為確保主機(jī)運(yùn)行的可靠性和穩(wěn)定性,系統(tǒng)主機(jī)的所有關(guān)鍵部件均采用冗余配置,以消除主機(jī)自身的單點(diǎn)故障,其中包括:(1)配置熱插拔N+1或N+N冗余電源、風(fēng)扇;(2)配置冗余系統(tǒng)盤,并通過操作系統(tǒng)進(jìn)行系統(tǒng)盤的RAID1鏡像保護(hù);(3)配置冗余網(wǎng)卡,并采用多網(wǎng)卡綁定技術(shù),實(shí)現(xiàn)多網(wǎng)卡間的自動冗余和流量的負(fù)載均衡;(4)配置冗余光纖通道HBA卡和InfinibandHCA卡,通過多路徑軟件來實(shí)現(xiàn)多HBA/HCA卡的自動冗余;(5)配置冗余的主機(jī)管理處理器,能夠在線配置、管理主機(jī)并監(jiān)控主機(jī)狀態(tài),同時支持透明接管和在線更換管理處理器。
在主機(jī)設(shè)計(jì)上采用電氣隔離的動態(tài)硬件分區(qū)技術(shù),同時各分區(qū)采用相互獨(dú)立、冗余的I/O配置以實(shí)現(xiàn)自身的高可靠性。硬件分區(qū)技術(shù)在優(yōu)化主機(jī)資源利用的同時,可在同一主機(jī)硬件內(nèi)全面隔離分區(qū)故障。如果一個分區(qū)中的操作系統(tǒng)、軟件或甚至是硬件出現(xiàn)問題,運(yùn)行在其他分區(qū)中的操作系統(tǒng)和軟件均不受影響。通過各分區(qū)相互獨(dú)立的I/O接入數(shù)據(jù)網(wǎng)絡(luò)、心跳網(wǎng)絡(luò)和存儲網(wǎng)絡(luò),從而確保主機(jī)系統(tǒng)整體的高可用性。
主機(jī)系統(tǒng)的可恢復(fù)性從一定程度決定了系統(tǒng)出現(xiàn)故障時是否能夠自動修復(fù)和快速恢復(fù),應(yīng)通過主機(jī)系統(tǒng)的備份與容災(zāi)設(shè)計(jì)來確保其高可恢復(fù)性。主要包括:(1)對主機(jī)系統(tǒng)盤將定期進(jìn)行自動化克隆備份;(2)銀行金融信息系統(tǒng)應(yīng)采用兩地三中心+同址備援的容災(zāi)體系設(shè)計(jì)。即同城容災(zāi)、異地容災(zāi)、同址備援。
通過上述設(shè)計(jì),主機(jī)系統(tǒng)中將不會存在單點(diǎn)故障隱患,保證了主機(jī)系統(tǒng)的穩(wěn)定性;同時,主機(jī)能夠在線進(jìn)行故障硬件更換、在線擴(kuò)充、不停機(jī)進(jìn)行軟件和補(bǔ)丁升級,有效避免了主機(jī)的計(jì)劃內(nèi)停機(jī)。
數(shù)據(jù)是所有應(yīng)用系統(tǒng)運(yùn)行的基礎(chǔ),而儲存這些數(shù)據(jù)的存儲系統(tǒng)的可用性與穩(wěn)定性對于整個系統(tǒng)來說至關(guān)重要。存儲系統(tǒng)的可用性和穩(wěn)定性需要從以下幾方面加以保障。
無論是高端存儲還是中低端存儲應(yīng)采用高度冗余的高可靠結(jié)構(gòu)設(shè)計(jì),充分保障自身的運(yùn)行可靠性,如:中低端存儲的共享總線或交換總線、高端存儲的交換矩陣和直連矩陣、多存儲控制器架構(gòu)、冗余后端磁盤路徑/雙端口物理磁盤等;同時,存儲可采用高速緩存鏡像寫保護(hù)、多個前端主機(jī)端口并行訪問、高速緩存電池后備保護(hù)等措施。
為確保存儲運(yùn)行的可靠性和穩(wěn)定性,系統(tǒng)存儲的所有關(guān)鍵部件應(yīng)采用冗余配置,以消除存儲自身的單點(diǎn)故障,其中包括:(1)配置N+1冗余存儲控制器,避免因控制器故障造成存儲無法訪問;(2)每個控制器上均配置多個主機(jī)接口,同時分別連接不同的光纖交換機(jī),構(gòu)成全冗余的存儲網(wǎng)絡(luò)環(huán)境;(3)內(nèi)部磁盤均配置為雙端口企業(yè)級磁盤,兩個端口分別連接后端的存儲控制器,以確保后端磁盤訪問路徑的可達(dá)性;(4)在根據(jù)容量需求和RAID方式進(jìn)行磁盤配置的同時,在存儲中為應(yīng)用按需配置全局熱備盤,進(jìn)一步加強(qiáng)存儲的可用性。
在存儲系統(tǒng)中,需要依據(jù)各應(yīng)用系統(tǒng)的容量和性能需求來分配存儲資源,同時根據(jù)應(yīng)用數(shù)據(jù)所需的安全可靠性等級來定義其磁盤組的RAID保護(hù)級別。對于關(guān)鍵數(shù)據(jù)和重要數(shù)據(jù),應(yīng)采用RAID0+1進(jìn)行保護(hù),對于次重要數(shù)據(jù)可采用RAID6或RAID5進(jìn)行保護(hù)。
存儲系統(tǒng)的可恢復(fù)能力將直接體現(xiàn)在數(shù)據(jù)的可持續(xù)應(yīng)用方面,需要通過數(shù)據(jù)備份與存儲容災(zāi)設(shè)計(jì)來確保存儲的高可恢復(fù)性。主要包括:(1)系統(tǒng)的全國數(shù)據(jù)中心和災(zāi)備中心應(yīng)采用自動化備份管理工具對關(guān)鍵數(shù)據(jù)進(jìn)行定時、按策略的自動D2D(磁盤到磁盤)備份,并實(shí)現(xiàn)D2D2T(磁盤到磁盤,再到磁帶)多重備份,從而確保數(shù)據(jù)的高可用性。在存儲的數(shù)據(jù)發(fā)生丟失時,通過備份管理工具按故障時間點(diǎn)進(jìn)行數(shù)據(jù)恢復(fù);(2)銀行金融信息系統(tǒng)應(yīng)采用兩地三中心+同址備援的容災(zāi)體系設(shè)計(jì)。即同城容災(zāi)、異地容災(zāi)、同址備援[3]。
為了避免數(shù)據(jù)庫主機(jī)、數(shù)據(jù)庫存儲或數(shù)據(jù)庫邏輯錯誤等引起的數(shù)據(jù)庫故障,應(yīng)保障數(shù)據(jù)庫提供7*24小時的對外服務(wù),Oracle提供了一個高可用性、高可靠性和高可擴(kuò)展性的數(shù)據(jù)庫環(huán)境。Oracle數(shù)據(jù)庫提供數(shù)據(jù)庫集群RAC(Real Application Cluster)、Data Guard、 自 動 存 儲 管 理 ASM (Automaic Storage Management) 故障組鏡像、 閃回技術(shù) Flashback、Stream、RMAN快速備份和恢復(fù)等技術(shù)來保障數(shù)據(jù)庫的高可用性和穩(wěn)定性等功能[4]。應(yīng)充分采用Oracle數(shù)據(jù)庫技術(shù)保證高系統(tǒng)的穩(wěn)定性和可用性。
邏輯集中系統(tǒng)從網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)連接和訪問策略等幾個方面對網(wǎng)絡(luò)進(jìn)行了全面的容錯保障設(shè)計(jì),使網(wǎng)絡(luò)系統(tǒng)可提供實(shí)時的、不間斷的網(wǎng)絡(luò)訪問服務(wù),滿足其所承載的邏輯集中系統(tǒng)的高可用和持續(xù)穩(wěn)定的運(yùn)行要求。
全國數(shù)據(jù)中心應(yīng)按照業(yè)務(wù)安全級別進(jìn)行網(wǎng)絡(luò)安全域劃分,用防火墻、網(wǎng)閘等設(shè)備完成的網(wǎng)絡(luò)隔離;采用VPN、SSL等保證通訊安全和數(shù)據(jù)傳輸安全。提出了“網(wǎng)絡(luò)隔離、數(shù)據(jù)落地”的安全原則,即按照業(yè)務(wù)特征、安全要求、風(fēng)險(xiǎn)大小將網(wǎng)絡(luò)隔離成多個不同的安全域,采用訪問控制、路由隔斷、防火墻等技術(shù)措施進(jìn)行“網(wǎng)絡(luò)隔離”,將金融核心系統(tǒng)部署在安全級別最高的安全域中,拒絕直接訪問,所有進(jìn)出該域的數(shù)據(jù)都要存檔備查、所有對系統(tǒng)的訪問都要登記日志備查,做到“數(shù)據(jù)落地”。
依照此原則,邏輯集中系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)必須按照系統(tǒng)所實(shí)現(xiàn)功能和安全防護(hù)需求的不同進(jìn)行區(qū)域劃分。在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)中,通過功能區(qū)域的劃分可充分提高各區(qū)域之間的獨(dú)立性,強(qiáng)化區(qū)域安全性,隔離網(wǎng)絡(luò)故障且便于分級管理;同時,模塊化的區(qū)域劃分可提高各區(qū)域的可用性,屏蔽各區(qū)域間的差異性,將各區(qū)域間的相互影響降到最小;此外,區(qū)域劃分可以使網(wǎng)絡(luò)層次化更加清晰,復(fù)雜度降低,同時也便于各功能區(qū)域的內(nèi)部縱向擴(kuò)充(Scaleup)和網(wǎng)絡(luò)系統(tǒng)整體的橫向可擴(kuò)展性(Scaleout)。將網(wǎng)絡(luò)系統(tǒng)按功能應(yīng)用進(jìn)行模塊化區(qū)域的劃分,形成性能更高、安全性和擴(kuò)展性更強(qiáng)的層次化、模塊化的并行結(jié)構(gòu),并通過區(qū)域間的故障隔離機(jī)制來提升網(wǎng)絡(luò)系統(tǒng)總體的可靠性和運(yùn)行穩(wěn)定性[5]。
金融信息系統(tǒng)設(shè)備級的穩(wěn)定性和可靠性主要是通過冗余的備份設(shè)備和模塊來實(shí)現(xiàn)的。設(shè)備的備份特別是核心設(shè)備的備份對網(wǎng)絡(luò)的可靠運(yùn)行是非常必要的,設(shè)備的備份要求多臺互為備份的設(shè)備在硬件和軟件(操作系統(tǒng)和配置參數(shù))兩方面均必須一致和對稱。因此,對網(wǎng)絡(luò)中的關(guān)鍵設(shè)備,如各級平臺的核心交換機(jī)、路由器等設(shè)備,原則上都要采取雙機(jī)熱備或負(fù)載均衡方式,并要求有冗余電源、風(fēng)扇、端口和線路,啟用設(shè)備保護(hù)機(jī)制提高設(shè)備的可靠性。按照系統(tǒng)7*24的高可用服務(wù)需求,在系統(tǒng)建設(shè)時要進(jìn)行冗余設(shè)備和冗余線路的建設(shè),在網(wǎng)絡(luò)設(shè)計(jì)時要滿足當(dāng)進(jìn)行設(shè)備停機(jī)維護(hù)、配置變更、軟硬件升級等操作時不能影響業(yè)務(wù)系統(tǒng)的運(yùn)行。
網(wǎng)絡(luò)層面的穩(wěn)定性和可靠性要對網(wǎng)絡(luò)架構(gòu)進(jìn)行冗余設(shè)計(jì),包括物理的冗余和相關(guān)協(xié)議的配置和優(yōu)化。原則包括:(1)使用網(wǎng)絡(luò)設(shè)備本身的故障檢測和恢復(fù)機(jī)制來提供更快速和可預(yù)測的故障恢復(fù)時間,而不是采用設(shè)備之間的協(xié)商機(jī)制;(2)在網(wǎng)絡(luò)系統(tǒng)中靈活部署多方位的故障檢測和恢復(fù)機(jī)制;(3)確保網(wǎng)絡(luò)設(shè)計(jì)能抵抗抖動和故障的蔓延,例如配置路由匯總等來確保故障影響的范圍最小。
機(jī)房的電源、制冷散熱等基礎(chǔ)設(shè)施環(huán)境是支撐硬件設(shè)備穩(wěn)定運(yùn)行的前提和基礎(chǔ)。為確保系統(tǒng)硬件設(shè)備的運(yùn)行穩(wěn)定性,對于機(jī)房的基礎(chǔ)設(shè)施環(huán)境應(yīng)提供高可用性方面的保障。
大部分銀行的全國數(shù)據(jù)中心機(jī)房采用了高可靠的雙路雙總線(2N)UPS為機(jī)房內(nèi)設(shè)備供電,同時配備了發(fā)電機(jī)(2+1組柴油機(jī))提供應(yīng)急后備保護(hù);在同城災(zāi)備中心也采用了并聯(lián)冗余(N+1)的UPS進(jìn)行供電。因此,在UPS容量足夠的前提下,現(xiàn)有機(jī)房的電力基礎(chǔ)設(shè)施環(huán)境完全能夠保障系統(tǒng)硬件設(shè)備的穩(wěn)定、可靠運(yùn)行。
6.2.1 機(jī)房制冷散熱控制
全國數(shù)據(jù)中心和同城災(zāi)備中心的機(jī)房空調(diào)應(yīng)采用冗余配置模式,并提供了30%-50%的冗余。在部分空調(diào)設(shè)備損壞的情況下,仍可有效控制機(jī)房內(nèi)的溫度。在系統(tǒng)的實(shí)際部署中,可進(jìn)一步通過機(jī)房制冷散熱與布局優(yōu)化設(shè)計(jì)來優(yōu)化機(jī)房空間布局,節(jié)省空間并避免產(chǎn)生局部“熱點(diǎn)”,同時最大化的降低散熱產(chǎn)生的能源消耗。
6.2.2 機(jī)房濕度控制
非正常范圍內(nèi)的相對濕度,不僅影響設(shè)備的穩(wěn)定性、可靠性和壽命,而且會對人員造成生理損害。通常,數(shù)據(jù)中心環(huán)境的最佳相對濕度范圍是45%~50%。為了避免濕度過高或過低造成設(shè)備故障,全國數(shù)據(jù)中心和同城災(zāi)備中心機(jī)房的相對濕度應(yīng)采用機(jī)房除濕機(jī)或機(jī)房加濕器等方式控制在B級 (40%-70%)的正常范圍內(nèi)。
為避免因環(huán)境異常變化產(chǎn)生的設(shè)備故障隱患,在全國數(shù)據(jù)中心和同城災(zāi)備中心機(jī)房應(yīng)對機(jī)房溫度、濕度、UPS、配電等方面進(jìn)行實(shí)時監(jiān)測,從而及時發(fā)現(xiàn)、快速解決機(jī)房運(yùn)行環(huán)境中的問題。
本文遵循軟件工程的原則,對銀行金融信息系統(tǒng)的應(yīng)用系統(tǒng)、主機(jī)、存儲、數(shù)據(jù)庫、網(wǎng)絡(luò)和基礎(chǔ)設(shè)施等進(jìn)行分析研究,提出了保障信息系統(tǒng)高穩(wěn)定性和可靠性的技術(shù)措施。在金融信息系統(tǒng)投入運(yùn)行后,需要可靠的售后服務(wù)體系、專業(yè)的服務(wù)團(tuán)隊(duì)和高質(zhì)量的運(yùn)維管理流程的支撐[6],以提高運(yùn)維工作效率,提升客戶滿意度。
[1] 王剛,馮雨明.商行信息系統(tǒng)應(yīng)用軟件架構(gòu)研究[J].金融科技時代,2013(10):100-104.
[2] 王珍珍.網(wǎng)絡(luò)控制系統(tǒng)的穩(wěn)定與控制[D].江南大學(xué),2008:6-17.
[3] 王剛.商業(yè)銀行容災(zāi)系統(tǒng)建設(shè)方案[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2013(11):70-73.
[4] 林樹澤,歷鐵帥.ORACLE數(shù)據(jù)庫管理之道[M].北京,清華大學(xué)出版社,2012:73-97.
[5] 王稼祥.國家審計(jì)署辦公自動化系統(tǒng)穩(wěn)定性的實(shí)現(xiàn)[D].大連理工學(xué)院,2009:42-46.
[6] 王剛,周靖華.商業(yè)銀行信息系統(tǒng)開發(fā)項(xiàng)目質(zhì)量管理的研究[J].福建電腦,2013,29(5):55-58.