◆馬昭君 陳星
新形勢下數(shù)據(jù)中心自動化運維管理策略
◆馬昭君1陳星2
(1. 31121部隊 江蘇 210000;2. 31121部隊 江蘇 214000)
數(shù)據(jù)中心的建設離不開運維管理,隨著大數(shù)據(jù)技術的廣泛應用,為了實現(xiàn)智能化操作,引進了自動化運維技術,大幅度提升了數(shù)據(jù)中心運維管理效率。在新的信息技術發(fā)展趨勢下,如何充分發(fā)揮自動化運維技術的優(yōu)勢,采取相應的管理策略,對于數(shù)據(jù)中心未來發(fā)展至關重要。本文數(shù)據(jù)中心自動化運維技術為核心,以自動化運維管理的核心功能為主要內(nèi)容,通過探究其建設原則、構(gòu)建方式,從平臺、功能、人才、監(jiān)控、效率五個方面,提出數(shù)據(jù)中心自動化運維管理的建議。
數(shù)據(jù)中心;自動化運維管理;監(jiān)控功能
信息時代的來臨,大數(shù)據(jù)技術的普及,對企業(yè)和機構(gòu)的經(jīng)營管理造成了重大影響。人們通過信息系統(tǒng)的引進、平臺的建設、技術的應用,數(shù)據(jù)中心不斷提升自動化運維管理水平,來促進管理的系統(tǒng)化。相對于傳統(tǒng)管理方式來說,基于信息系統(tǒng)的數(shù)據(jù)中心自動化運維管理,能夠存儲海量信息,保障信息的安全、可靠、可利用。由于系統(tǒng)內(nèi)的信息數(shù)量不斷增加,數(shù)據(jù)中心的運維管理難度不斷攀升,傳統(tǒng)人為操作容易出現(xiàn)漏洞,從而對信息數(shù)據(jù)造成不可磨滅的影響,為企業(yè)或者機構(gòu)帶來損失[1]。因此,加強自動化運維技術的升級和優(yōu)化,不僅能夠解決動態(tài)數(shù)據(jù)變更問題,更能夠豐富系統(tǒng)功能,完善平臺建設,推動數(shù)據(jù)中心自動化運維管理向著智能化的方向發(fā)展。
在大數(shù)據(jù)技術發(fā)展的影響下,數(shù)據(jù)中心自動化運維管理涉及的設備和技術復雜,運維管理難度進一步升級。為了順應時代的趨勢,數(shù)據(jù)中心自動化運維管理應秉持以下原則:一是安全性、可靠性原則,數(shù)據(jù)中心的首要目標是確保信息的安全與可靠,尤其是數(shù)據(jù)監(jiān)控、數(shù)據(jù)分析、數(shù)據(jù)利用,真實可靠的數(shù)據(jù)是信息挖掘的基石。二是實時性原則,數(shù)據(jù)中心自動化運維管理的主要內(nèi)容大多以數(shù)據(jù)流的形式進行,在運行穩(wěn)定的基礎上,應確保數(shù)據(jù)傳輸效率,管理人員應及時對工作狀態(tài)進行監(jiān)督和檢測,防范數(shù)據(jù)流降低的風險。三是先進性原則,為了發(fā)揮信息技術優(yōu)勢,在技術引進和升級時,應注重科學應用,加強技術評估,使得自動化運維管理不僅具有較高的適用性,更符合技術創(chuàng)新趨勢[2]。
數(shù)據(jù)中心自動化運維管理的基本實現(xiàn)過程有四步:一是平臺的構(gòu)建,自動化運維技術是加持在平臺之上,在對平臺中的信息數(shù)據(jù)管理時識別風險。一旦識別風險,則發(fā)出預警,并提出修復方案。通常情況下,數(shù)據(jù)量越大,信息監(jiān)控技術越加復雜,數(shù)據(jù)分析效率也會受到影響。二是故障觸發(fā)流程的設定,需根據(jù)實際平臺的信息管理需求,對故障信息進行掃描和統(tǒng)計,上報給管理人員。根據(jù)不同的風險標準,通??芍苯訉︼L險等級進行評估,便于管理人員依據(jù)等級逐一排查。三是事件跟蹤流的設計,為了防止人為操作對自動化運維管理造成過大影響,應在自動化信息比對分析的基礎上,針對每個事件構(gòu)建完整指令,防止人為干預風險。四是關鍵流程的控制,在實際自動化運維管理過程中,部分流程需單獨進行管理,容易出現(xiàn)披露,針對容易出現(xiàn)的風險需制定各種處理規(guī)劃,為管理人員提供建議,一旦出現(xiàn)關鍵流程風險,則可及時采取應對機制,防止造成過大影響[3]。
在日常運維中如若未能及時地發(fā)現(xiàn)風險,可能會造成不可挽回的損失與后果,為避免這類事情的發(fā)生,就需要自動化運維監(jiān)控系統(tǒng)的幫助,這類系統(tǒng)可以直接提升數(shù)據(jù)分析效率,可將運維環(huán)節(jié)中存在的風險做出評估與分析。工作管理人員通過對運維系統(tǒng)給出的結(jié)果進行分析,可及時地進行應對并給出針對性措施。
運維工作相比其他工作較為復雜,在擁有復雜的系統(tǒng)的同時,還對運維工作人員有著極高的職業(yè)素養(yǎng)要求,日常運維管理工作時,需要運維平臺針對任務進行歸類,并按照嚴格的規(guī)章流程進行。但在日常工作應用中,自動化運維平臺極其容易出現(xiàn)故障,一旦發(fā)生故障,自動化運維平臺就會迅速向運維工作人員發(fā)出提醒警告,并給予運維工作人員指導與幫助,輔助其準確處理故障,有效提高了工作效率。
隨著運維工作內(nèi)容的增加,在軟件配置方面極其容易出現(xiàn)遺漏情況。自動配置變更功能的實現(xiàn)與安裝,將會使得運維工作人員通過遠程控制,做到軟件配置方面的檢查,如若發(fā)現(xiàn)使用軟件信息與預先配置不符,則可通過遠程進行配置變更。
在日常運維工作時,需要將每次不同的信息進行詳細的整理記錄,這也使得對運維系統(tǒng)溯源功能要求較高。運維工作人員在日常檢查工作中,需要對數(shù)據(jù)進行整理和記錄,通過長期的數(shù)據(jù)累積歸納,可使得運維管理系統(tǒng)中存在的不足之處得以被了解,當問題故障發(fā)生時,運維工作人員可通過相關記錄進行比對分析,將問題找出并對故障進行處理,從而可快速解決問題故障,增加運維平臺的穩(wěn)定性以及可靠性。
針對數(shù)據(jù)中心自動化運維管理的核心內(nèi)容與功能,筆者結(jié)合自身的工作經(jīng)驗,從平臺、功能、人才、監(jiān)控、效率五個方面,分別采取相應的管理策略,具體分析如下。
每個信息系統(tǒng)的數(shù)據(jù)特點有所不同,在實際數(shù)據(jù)中心自動化運維平臺的建設和管理過程中,還需結(jié)合技術、數(shù)據(jù)庫、來源等加以分析,細化自動化運維的管理方式和領域,提高平臺的整體建設質(zhì)量,從而為自動化運維技術的優(yōu)化升級打好基礎。如,設備管理、軟件管理、操作管理等方面,優(yōu)化平臺分層,應對具體可操作性的管理內(nèi)容進行明確,了解操作規(guī)范,對各項功能能夠達到的預期標準進行了解,并歸納總結(jié)操作經(jīng)驗,提高整體管理質(zhì)量與水平[4]。
風險識別與預警功能是自動化運維平臺的核心,還需在該方面加大力度,加強數(shù)據(jù)對比分析的效率,優(yōu)化流程設計,使其更加科學合理。注重風險識別與預警的及時性,尤其是突發(fā)故障、大型風險等,應在自動化運維管理的基礎上,進一步結(jié)合管理經(jīng)驗,根據(jù)信息和預案采取針對性的措施,防止問題頻發(fā),強化預警功能的可靠性。
隨著時代快速的進步與發(fā)展,運維自動化管理水平也隨之提高,運維系統(tǒng)也逐漸朝著自動化方向擴展,這也使得運維高端人才需求市場不斷增加。運維工作在人才需求方面數(shù)量較大,需加強運維人才的招募與隊伍建設,提升運維工作人員的職業(yè)素養(yǎng)。加強運維管理人員的培訓與考核機制,以此來提高運維工作人員的學習意愿,鼓勵人才提干選拔,調(diào)動工作人員的積極性以及責任心。通過定期的考核對運維工作人員進行水平劃分,根據(jù)能力來安排各自的工作與崗位。增加賞罰機制,對表現(xiàn)優(yōu)異的工作人員進行獎賞,提供公平的晉升空間,并對能力出眾的工作人員制定職業(yè)規(guī)劃,以此來激發(fā)運維管理人員的上進心。
數(shù)據(jù)監(jiān)控效率和管理模式,在一定程度上直接影響著數(shù)據(jù)中心自動化運維管理工作的先進性。在實際監(jiān)控和管理過程中,應引進動態(tài)管理理念,將歸納總結(jié)后的信息及時傳輸給管理人員,采取針對性的軟件技術分析后,進一步識別深度風險,察覺不容易發(fā)覺的故障問題。此外,還需進一步關注自動化運維管理的創(chuàng)新發(fā)展,注重技術升級和優(yōu)化,根據(jù)技術和管理實際,改善管理模式,搭建管理體系,將具體的管理工作落實到各個部門,從而更加高效、快速、可靠地解決問題,提高數(shù)據(jù)中心自動化運維管理的整體水平。
在以上平臺功能與管理模式的不斷完善基礎上,應注重提高自動化運維管理效率,效率越高,其整體監(jiān)控和管理效果越好。因此,在實際工作中,可提高本地、異地數(shù)據(jù)庫同步監(jiān)控,將管理的重點內(nèi)容傾斜到監(jiān)控部分,從根本上保障自動化運維管理的安全可靠。高效監(jiān)控和高效操作能夠更快對故障或風險作出反應,盡可能早處理好問題,防止問題擴散增加工作量。例如,借助互聯(lián)網(wǎng)工具和其他技術,加大監(jiān)控信息的傳輸,盡量實現(xiàn)遠程同步監(jiān)控,以此來便于管理人員快速排查故障點,推動自動化運維管理效率的不斷提高。
綜上所述,通過對數(shù)據(jù)中心自動化運維管理的指導性、實時性、可靠性原則進行分析,以及了解了數(shù)據(jù)中心自動化運維管理和建設的各項步驟,能夠看出,隨著企業(yè)或機構(gòu)對信息系統(tǒng)要求的增加,自動化運維技術也不斷發(fā)展和升級,使得功能更加豐富、細化。在大數(shù)據(jù)時代,數(shù)據(jù)中心自動化運維管理應從平臺、功能等方面加大建設,細化管理領域,強化數(shù)據(jù)分析和利用,積極培育綜合型人才,改善運維管理模式,引進先進的動態(tài)管理理念,從而推動數(shù)據(jù)中心自動化運維管理向著智能化、多元化的方向發(fā)展。
[1]陳曉宇,項顥,賈琨,等.基于數(shù)據(jù)融合的數(shù)據(jù)中心智能運維平臺研究[J].電子元器件與信息技術,2021,5(03):168-169+174.
[2]李步宵.大數(shù)據(jù)時代下的數(shù)據(jù)中心運維管理[J].電子技術與軟件工程,2020,(24):152-153.
[3]王鯤.數(shù)據(jù)中心智能化運維探索與實踐[J].中國金融電腦,2020(07):61-65.
[4]張夏明,許定乾.數(shù)據(jù)中心的發(fā)展前景與建設進路[J].新經(jīng)濟導刊,2020(02):33-37.