• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于鐵路主數(shù)據(jù)中心建設(shè)的災(zāi)備管理系統(tǒng)框架研究

      2020-07-24 07:35:42劉天宇
      鐵路計算機(jī)應(yīng)用 2020年7期
      關(guān)鍵詞:災(zāi)備災(zāi)難演練

      岳 陽,劉 洋,劉天宇

      (中國鐵路信息科技集團(tuán)有限公司 運行維護(hù)與生產(chǎn)調(diào)度部,北京 100844)

      中國國家鐵路集團(tuán)有限公司(簡稱:國鐵集團(tuán))的鐵路主數(shù)據(jù)中心,定位為中國鐵路最高級別的信息中心和數(shù)據(jù)處理中心,是實現(xiàn)國鐵集團(tuán)信息化總體規(guī)劃的核心,承載著中國鐵路集中應(yīng)用系統(tǒng)部署及數(shù)據(jù)資源存儲的任務(wù)。隨著鐵路信息化的不斷發(fā)展,國鐵集團(tuán)初步建設(shè)“國鐵集團(tuán)-鐵路局集團(tuán)”兩級、“國鐵集團(tuán)-鐵路局集團(tuán)有限公司(簡稱:鐵路局)-站段”三級信息系統(tǒng)運維體系,組建了相應(yīng)的人才隊伍[1]。目前,鐵路主數(shù)據(jù)中心仍處于建設(shè)階段,雖然已上線的各重大信息系統(tǒng)依托前期的運維管理系統(tǒng)框架建立了相關(guān)災(zāi)備管理系統(tǒng),但是鐵路主數(shù)據(jù)中心級災(zāi)備管理還處于各大信息系統(tǒng)各自為政的狀態(tài),沒有統(tǒng)一的管理且缺乏自動化工具。災(zāi)備管理系統(tǒng)建設(shè)并不是技術(shù)堆疊和數(shù)據(jù)堆積,而是災(zāi)備中心在真正需要時能得用上。因此不僅要有技術(shù)體系,還要有持續(xù)性的管理機(jī)制[2]。本文從災(zāi)備日常管理、災(zāi)備運維管理和災(zāi)備恢復(fù)預(yù)案3 部分研究建設(shè)災(zāi)備管理系統(tǒng)框架。希望可以改善主數(shù)據(jù)中心的災(zāi)備管理系統(tǒng)缺乏統(tǒng)一化、自動化的狀況。

      1 災(zāi)備日常管理

      1.1 災(zāi)備預(yù)案管理

      災(zāi)備預(yù)案文檔管理電子化,可通過梳理在業(yè)務(wù)受到威脅或發(fā)生災(zāi)難時需要采取的一系列關(guān)鍵步驟,包括業(yè)務(wù)應(yīng)急預(yù)案、系統(tǒng)切換恢復(fù)預(yù)案等,在平臺中可以對相關(guān)預(yù)案及腳本進(jìn)行儲存、查閱和管理。

      1.2 應(yīng)用系統(tǒng)等級管理

      應(yīng)用系統(tǒng)等級管理的目的是為應(yīng)用系統(tǒng)生產(chǎn)、災(zāi)備系統(tǒng)建設(shè)和運維等提供標(biāo)準(zhǔn)。對于同時支撐多個應(yīng)用系統(tǒng)的平臺,如果應(yīng)用系統(tǒng)不可獨立部署,則支撐平臺以其中最高的應(yīng)用系統(tǒng)等級作為平臺的等級;如果應(yīng)用系統(tǒng)可以獨立部署,則該應(yīng)用系統(tǒng)單獨評級,支撐平臺則以其余應(yīng)用系統(tǒng)中最高的應(yīng)用系統(tǒng)等級作為平臺的等級。

      應(yīng)用系統(tǒng)一直處在不斷發(fā)展變化中,為了保證災(zāi)備系統(tǒng)的有效性,應(yīng)用管理員需要定期對災(zāi)備中心的應(yīng)用版本進(jìn)行一致性檢查和管理。災(zāi)備中心信息系統(tǒng)隨時可用是災(zāi)備中心具備業(yè)務(wù)接管能力的必要條件。運維人員應(yīng)定期檢查應(yīng)用服務(wù)器運行狀態(tài),確保應(yīng)用環(huán)境穩(wěn)定、應(yīng)用系統(tǒng)可隨時啟用。定期對應(yīng)用程序版本、系統(tǒng)軟件版本、固件程序版本、關(guān)鍵配置參數(shù)等與鐵路主數(shù)據(jù)中心信息系統(tǒng)進(jìn)行對比與核查,確保災(zāi)備系統(tǒng)與生產(chǎn)系統(tǒng)同步。

      1.3 災(zāi)備切換指標(biāo)管理

      鑒于故障的客觀存在性和故障恢復(fù)需要時間,信息系統(tǒng)的不可用性會導(dǎo)致業(yè)務(wù)的中斷,在市場競爭激烈的信息時代,由于業(yè)務(wù)中斷所付出的代價非常巨大,如何保證業(yè)務(wù)在數(shù)據(jù)遭受災(zāi)難時及時恢復(fù)生產(chǎn),是一個企業(yè)面對和亟待解決的問題[3]。在災(zāi)備管理各項工作中,關(guān)鍵在于如何保障災(zāi)備中心快速穩(wěn)定的切換及切換后持久平穩(wěn)的接管,需要建立切換和接管兩類關(guān)鍵指標(biāo),衡量切換能力和接管能力高低,并用于總體評價災(zāi)備體系支撐能力水平。切換指標(biāo)包括數(shù)據(jù)復(fù)制的延遲情況、突發(fā)事件響應(yīng)決策速度、突發(fā)事件處理速度等。接管指標(biāo)包括接管后持續(xù)的時長、用戶感知的接管效果、應(yīng)急容災(zāi)資源性能配比等。

      1.4 災(zāi)備演練管理

      災(zāi)備演練的目的是為了檢驗各科技、業(yè)務(wù)和支持保障部門聯(lián)合應(yīng)對災(zāi)難事件的能力,檢驗重要信息系統(tǒng)災(zāi)備環(huán)境和應(yīng)急切換流程的有效性[4],提高相關(guān)人員的臨場應(yīng)急處置能力和相關(guān)風(fēng)險意識。

      1.4.1 災(zāi)備演練分類

      災(zāi)備演練分類,如圖1 所示。災(zāi)備演練包括桌面演練、模擬演練和實戰(zhàn)演練。桌面演練只需要沙盤推演,演練過程工作量小,易于實施;模擬演練要在模擬環(huán)境下做模擬演練,演練對技術(shù)要求高,對生產(chǎn)系統(tǒng)沒有影響;實戰(zhàn)演練需要在真實環(huán)境下演練,演練成本高,易于發(fā)現(xiàn)潛在問題。

      圖1 災(zāi)備演練分類

      1.4.2 災(zāi)備演練流程

      在演練過程中,災(zāi)備切換自動通過預(yù)定義的切換步驟編排,實現(xiàn)各業(yè)務(wù)系統(tǒng)或各故障場景一鍵自動切換(包括自動化的切換演練),并實現(xiàn)切換流程可視化,即災(zāi)備流程可進(jìn)行可視化編輯和編排,可生成標(biāo)準(zhǔn)化災(zāi)備流程模版,如圖2 所示。

      圖2 災(zāi)備演練管理及流程

      1.4.3 災(zāi)備演練總結(jié)

      災(zāi)備演練總結(jié)由演練發(fā)起人負(fù)責(zé),演練總結(jié)的目的是分析問題,總結(jié)經(jīng)驗,完善災(zāi)備系統(tǒng),提高災(zāi)難恢復(fù)能力??偨Y(jié)報告應(yīng)包括取得成績、發(fā)現(xiàn)問題和優(yōu)化建議等內(nèi)容。

      在演練實施結(jié)束后,項目組根據(jù)演練過程記錄對本次演練進(jìn)行回顧和總結(jié),分析演練中所遇到的問題,提出改進(jìn)建議,并對災(zāi)難恢復(fù)預(yù)案進(jìn)行修訂,以保障災(zāi)難恢復(fù)系統(tǒng)的可用性和有效性。

      2 災(zāi)備運維管理

      2.1 日常運維管理

      為保障災(zāi)備中心部署的業(yè)務(wù)系統(tǒng)隨時具備業(yè)務(wù)接管能力,落實災(zāi)備系統(tǒng)“數(shù)據(jù)同步,應(yīng)用可用,網(wǎng)絡(luò)連通”的技術(shù)要求,應(yīng)遵循以下災(zāi)備系統(tǒng)運維要求:災(zāi)備中心物理設(shè)施符合鐵路主數(shù)據(jù)中心運行條件,日常運維管理根據(jù)信息系統(tǒng)運行維護(hù)相關(guān)規(guī)定,結(jié)合現(xiàn)有的運維管理體系,形成災(zāi)備系統(tǒng)日常管理規(guī)范。

      2.1.1 設(shè)備管理

      災(zāi)備機(jī)房是指同城數(shù)據(jù)中心機(jī)房和異地災(zāi)備中心機(jī)房,參照原機(jī)房管理辦法運行管理。

      (1)設(shè)立災(zāi)備應(yīng)急場所(EOC),作為進(jìn)行災(zāi)難恢復(fù)指揮和操作工作的場所。由運行管理員負(fù)責(zé)災(zāi)備應(yīng)急場所的日常維護(hù),以及內(nèi)部設(shè)施、檔案和辦公用品的管理;需定期進(jìn)行災(zāi)備應(yīng)急場所檢查。

      (2)運行管理員負(fù)責(zé)災(zāi)備中心運行情況監(jiān)控,內(nèi)容主要包括CPU 使用率、內(nèi)存使用率、文件系統(tǒng)、磁盤空間、數(shù)據(jù)復(fù)制狀態(tài)和備份等。

      (3)運行管理員應(yīng)做好記錄,發(fā)現(xiàn)問題及時提交事件單并進(jìn)行處理。機(jī)房管理員配合及協(xié)助設(shè)備廠商或集成商例行設(shè)備巡檢,以保障災(zāi)備中心基礎(chǔ)設(shè)置、主機(jī)、存儲、帶庫等的穩(wěn)定運行。

      (4)巡檢結(jié)束后做好巡檢報告等材料的管理,并將巡檢報告等材料發(fā)送至災(zāi)備管理員進(jìn)行歸檔。災(zāi)備系統(tǒng)事件、變更和問題管理參照生產(chǎn)系統(tǒng)相關(guān)流程和制度。

      2.1.2 網(wǎng)絡(luò)管理

      確保鐵路主數(shù)據(jù)中心與災(zāi)備中心之間、災(zāi)備中心與外部單位之間數(shù)據(jù)交換安全通暢,是災(zāi)備中心具備業(yè)務(wù)接管能力的重要前提。運維人員應(yīng)定期檢查網(wǎng)絡(luò)運行狀態(tài),驗證災(zāi)備中心與鐵路主數(shù)據(jù)中心之間、災(zāi)備中心與用戶單位之間的網(wǎng)絡(luò)雙向連通性。

      (1)定期進(jìn)行外連網(wǎng)絡(luò)雙向測試,確保應(yīng)用層網(wǎng)絡(luò)連通性;保證用戶單位網(wǎng)絡(luò)瀏覽工具已添加災(zāi)備中心地址為信任站點。

      (2)定期進(jìn)行應(yīng)用登陸測試,模擬業(yè)務(wù)流程。確保災(zāi)備系統(tǒng)啟用后,用戶單位可正常訪問。

      2.1.3 數(shù)據(jù)管理

      災(zāi)備中心與鐵路主數(shù)據(jù)中心信息系統(tǒng)保持?jǐn)?shù)據(jù)同步一致,是災(zāi)備中心具備業(yè)務(wù)接管能力的基礎(chǔ)條件,數(shù)據(jù)備份需要保證數(shù)據(jù)的完整性、可靠性和一致性[5]。運維人員應(yīng)嚴(yán)格制定系統(tǒng)部署及變更管理流程,確保與鐵路主數(shù)據(jù)中心系統(tǒng)配置一致。

      (1)定期檢查數(shù)據(jù)庫服務(wù)器運行狀態(tài),確保數(shù)據(jù)庫服務(wù)器穩(wěn)定可用,做到災(zāi)備系統(tǒng)數(shù)據(jù)庫可以隨時啟用。

      (2)實時監(jiān)測數(shù)據(jù)復(fù)制通道或數(shù)據(jù)備份系統(tǒng)的運行狀態(tài),檢查業(yè)務(wù)數(shù)據(jù)同步情況,確保災(zāi)備系統(tǒng)啟動后關(guān)鍵業(yè)務(wù)系統(tǒng)數(shù)據(jù)丟失量小于恢復(fù)點目標(biāo)(RPO)指標(biāo)。

      2.2 災(zāi)備自動化工具

      通過災(zāi)備自動化工具,提高災(zāi)備管理的能力和水平,減少突發(fā)事件對業(yè)務(wù)的影響,滿足業(yè)務(wù)對信息系統(tǒng)可用率的要求,可以實現(xiàn)將原有需要的多工種配合、全人工操作的容災(zāi)切換過程通過一個集中化、圖形化的界面(工具)進(jìn)行,簡化操作,降低容災(zāi)切換的復(fù)雜度,提高容災(zāi)切換的成功率。實現(xiàn)“一鍵式”容災(zāi)切換,節(jié)省切換時間,降低總體恢復(fù)時間目標(biāo)(RTO)。對自動化工具的應(yīng)用可以有效地做好災(zāi)難恢復(fù)準(zhǔn)備工作、實現(xiàn)演練自動化、提高可視化、降低運維成本等[6]。

      3 災(zāi)備恢復(fù)預(yù)案

      災(zāi)難恢復(fù)流程,也叫災(zāi)難事件應(yīng)急響應(yīng)流程,是在重大事件即將發(fā)生或已經(jīng)發(fā)生后,將要影響或已經(jīng)影響業(yè)務(wù)運營時,指導(dǎo)相關(guān)人員遵從災(zāi)備恢復(fù)預(yù)案進(jìn)行的恢復(fù)流程,災(zāi)備預(yù)案的制定,如圖3 所示。災(zāi)難恢復(fù)不僅是恢復(fù)計算機(jī)系統(tǒng)和網(wǎng)絡(luò)等環(huán)境,還涉及到風(fēng)險評估、業(yè)務(wù)影響程度分析、災(zāi)難恢復(fù)策略的制定以及策略實施等方面。災(zāi)難恢復(fù)是一項系統(tǒng)性、專業(yè)性的工作[7]。災(zāi)難恢復(fù)流程明確災(zāi)難恢復(fù)響應(yīng)的階段劃分、每階段的行動內(nèi)容及負(fù)責(zé)人,更有效地進(jìn)行系統(tǒng)恢復(fù),使應(yīng)對突發(fā)事件的響應(yīng)更加及時、有序、有效,從而避免或減少損失。

      圖3 災(zāi)備恢復(fù)預(yù)案

      3.1 災(zāi)備流程設(shè)計

      災(zāi)備流程設(shè)計目標(biāo)是為了提高災(zāi)難事件的應(yīng)對處理效率,進(jìn)行科學(xué)的決策,按照既定的計劃實施災(zāi)難恢復(fù)工作,災(zāi)難應(yīng)急處理流程主要包括出現(xiàn)災(zāi)難事件后的響應(yīng)、升級、決策、人員召集、以及災(zāi)難恢復(fù)和回切等步驟。主要是在災(zāi)難事件發(fā)生后或者演練開始時根據(jù)流程來逐步進(jìn)行,從而實現(xiàn)最佳效果。

      3.2 災(zāi)備管理組織

      管理是保證組織有效運行所不可少的條件。組織越大,構(gòu)成越復(fù)雜,管理的重要性也越加突出[8],通過完備的組織架構(gòu)可以實現(xiàn)集中決策,提高災(zāi)難恢復(fù)工作對高效決策的要求,實現(xiàn)統(tǒng)一的管理與協(xié)調(diào),整合生產(chǎn)和災(zāi)備運營的管理質(zhì)量體系,使得分布在各級信息技術(shù)部門的技術(shù)人員能夠參與到災(zāi)難恢復(fù)工作當(dāng)中,承擔(dān)相應(yīng)的災(zāi)備工作,如圖4 所示。

      圖4 災(zāi)備組織架構(gòu)

      3.3 災(zāi)備恢復(fù)策略選擇

      災(zāi)備項目的設(shè)計目標(biāo)是為了確保重大災(zāi)難發(fā)生后,災(zāi)備系統(tǒng)可以安全、有效、及時地接管生產(chǎn)系統(tǒng),將核心業(yè)務(wù)系統(tǒng)從位于生產(chǎn)中心切換到位于同城災(zāi)備中心,繼續(xù)對外開展業(yè)務(wù),使關(guān)鍵業(yè)務(wù)可以在短時間內(nèi)恢復(fù),把災(zāi)難事件造成的影響降到最低。當(dāng)出現(xiàn)同城兩個數(shù)據(jù)中心同時故障時,切換到異地災(zāi)備中心。

      數(shù)據(jù)中心系統(tǒng)災(zāi)難恢復(fù)解決方案和策略如下:

      (1)鐵路主數(shù)據(jù)中心,作為核心業(yè)務(wù)系統(tǒng)的運行中心,負(fù)責(zé)整體的核心業(yè)務(wù)的數(shù)據(jù)處理。

      (2)同城災(zāi)備中心,配置了災(zāi)難恢復(fù)所需的處理設(shè)備、通信網(wǎng)絡(luò)和場地,并且與主數(shù)據(jù)中心的生產(chǎn)數(shù)據(jù)保持?jǐn)?shù)據(jù)同步。一旦主數(shù)據(jù)中心災(zāi)難發(fā)生,將啟用同城災(zāi)備中心接替主中心恢復(fù)核心業(yè)務(wù)系統(tǒng)運行。

      (3)異地災(zāi)備中心,配置與同城災(zāi)備中心一致。一旦同城災(zāi)難發(fā)生,將啟用異地災(zāi)備中心接替同城恢復(fù)核心業(yè)務(wù)系統(tǒng)運行。

      (4)一旦災(zāi)難發(fā)生造成主辦公場地?zé)o法提供正常服務(wù),災(zāi)難應(yīng)急指揮組將選擇本地應(yīng)急指揮中心的緊急工作區(qū)域。 信息部辦公場所將作為第2 備選的緊急工作區(qū)域。位于異地的信息部辦公場所將作為第3 備選的緊急工作區(qū)域。

      4 結(jié)束語

      災(zāi)備中心目前已經(jīng)是各行業(yè)數(shù)據(jù)中心必不可少的建設(shè)環(huán)節(jié),其相應(yīng)的管理系統(tǒng)也得到了更多企業(yè)的重視。本文研究的基于鐵路主數(shù)據(jù)中心建設(shè)的災(zāi)備管理系統(tǒng)框架包括災(zāi)備日常管理、災(zāi)備運維管理、災(zāi)備恢復(fù)預(yù)案等[9],實現(xiàn)了災(zāi)備的規(guī)范運維流程、統(tǒng)一數(shù)據(jù)備份管理,處理異常和故障等報警等,有效地規(guī)范了災(zāi)備運維工作流程,提高了災(zāi)備運維工作效率,是災(zāi)備工作不可或缺的一部分。保障信息系統(tǒng)安全穩(wěn)定運行和提升災(zāi)備管理效能是災(zāi)備管理兩大主要目標(biāo)[10],災(zāi)備系統(tǒng)為信息系統(tǒng)提供了一個能夠應(yīng)對各種突發(fā)災(zāi)難的保障。隨著鐵路主數(shù)據(jù)中心建設(shè)的不斷完善和異地災(zāi)備中心的建設(shè),可以繼續(xù)探討鐵路主數(shù)據(jù)中心災(zāi)備管理與災(zāi)備中心災(zāi)備管理的結(jié)合,進(jìn)一步提升鐵路信息化災(zāi)備管理水平。

      猜你喜歡
      災(zāi)備災(zāi)難演練
      首次演練
      雷擊災(zāi)難
      災(zāi)難報道常見問題及反思
      新聞傳播(2018年12期)2018-09-19 06:26:46
      統(tǒng)計知識綜合演練B卷
      未雨綢繆演練忙
      企業(yè)級信息系統(tǒng)應(yīng)用級災(zāi)備建設(shè)與應(yīng)用
      廣西電力(2016年4期)2016-07-10 10:23:38
      軌道交通清分系統(tǒng)災(zāi)備升級方案研究
      深藍(lán)云海“云災(zāi)備”正式上線
      災(zāi)難不是“假想敵”
      應(yīng)用級災(zāi)備系統(tǒng)的研究與設(shè)計
      河南科技(2014年5期)2014-02-27 14:08:39
      洛隆县| 普洱| 台州市| 华宁县| 拜泉县| 资中县| 沙河市| 繁昌县| 武穴市| 略阳县| 呼伦贝尔市| 延安市| 克拉玛依市| 虎林市| 临江市| 闸北区| 东辽县| 内丘县| 临澧县| 福清市| 桐乡市| 佳木斯市| 榆树市| 牙克石市| 奇台县| 宁强县| 铜陵市| 肇东市| 金昌市| 衡水市| 昌都县| 梅州市| 集贤县| 祁阳县| 乌兰察布市| 宽城| 新兴县| 牙克石市| 潜山县| 浮梁县| 丘北县|