陳瀚
隨著信息化建設(shè)不斷地發(fā)展進(jìn)步,無論是企事業(yè)單位還是學(xué)校、政府機(jī)關(guān)都開始運(yùn)用信息系統(tǒng)進(jìn)行日常管理。
眾所周知,信息系統(tǒng)是一個復(fù)雜龐大的工程,無論設(shè)計和建設(shè)時思慮周全,在實(shí)際的應(yīng)用場景和運(yùn)行過程中信息系統(tǒng)還是會存在這樣那樣的問題。無論信息系統(tǒng)運(yùn)行過程中出現(xiàn)了硬件還是軟件的問題,都需要運(yùn)維工程師及時發(fā)現(xiàn)問題所在并快速準(zhǔn)確的將故障排除,保證整套系統(tǒng)正常平穩(wěn)運(yùn)行。
運(yùn)維工程師該如何高效的處理各種問題,做好系統(tǒng)運(yùn)維?筆者認(rèn)為應(yīng)該在平時做好優(yōu)化,同時面對還沒出現(xiàn)的問題未雨綢繆地做好對策。下文將就信息系統(tǒng)運(yùn)維模式及其優(yōu)化對策進(jìn)行簡單的闡述。
(一)系統(tǒng)故障由運(yùn)維工程師解決(被動式運(yùn)維模式)
在平時的運(yùn)維過程中,有一種最普遍的運(yùn)維模式,那就是被動式運(yùn)維。這種被動式運(yùn)維在故障處理中是最為常見的一種。
通常,這種運(yùn)維模式是由使用者發(fā)現(xiàn)系統(tǒng)故障,使用者聯(lián)系運(yùn)維工程師,運(yùn)維工程師對故障進(jìn)行處理,最終解決問題完成該次信息系統(tǒng)的運(yùn)維動作。這樣的運(yùn)維模式和解決方法最直觀,但是卻是一種效率低下的被動式運(yùn)維模式。
因?yàn)檫@樣的運(yùn)維模式“反射弧”太長,面對故障的響應(yīng)時間存在延遲。從發(fā)現(xiàn)問題到解決問題的過程往往拖沓耗時,甚至可能因此直接影響到整個信息系統(tǒng)的正常運(yùn)轉(zhuǎn)。在這種運(yùn)維模式中,系統(tǒng)出現(xiàn)了問題和故障且具體影響到系統(tǒng)使用或正常生產(chǎn)活動。這時,相關(guān)使用者發(fā)現(xiàn)后,才將其上報給運(yùn)維工程師,運(yùn)維工程師再對問題和故障進(jìn)行處理。
其實(shí)這個問題和故障可能早就顯現(xiàn),也可能更快更高效的解決掉。因?yàn)?,在系統(tǒng)發(fā)生某些嚴(yán)重的問題和故障前,可能早就已經(jīng)已經(jīng)存在某些小的問題,但由于并沒有影響到具體使用,于是作為非專業(yè)人員的使用者,對此類故障一般不會注意到或是得過且過的忽略掉這些問題。須知,千里之堤毀于蟻穴,正是這些被忽視的小問題,不斷累積放大,最終發(fā)展成為影響正常使用的故障。
(二)系統(tǒng)故障由使用者和運(yùn)維工程師共同解決(干預(yù)式運(yùn)維模式)
隨著各類信息化系統(tǒng)的應(yīng)用日益廣泛和普及,使用者在使用的過程中或多或少地接觸過故障,甚至解決過簡單的系統(tǒng)問題和故障;亦或通過自身學(xué)習(xí)進(jìn)而掌握了部分故障的處理方法。于是,在工作時發(fā)現(xiàn)系統(tǒng)中的小故障以后,使用者會先嘗試自行處理和解決,在解決問題和故障的同時進(jìn)行上報知會運(yùn)維工程師。如故障無法解決時,運(yùn)維工程師已經(jīng)有了前期的報備和了解,再進(jìn)行處理會減少故障處理的延遲。
這樣的模式,筆者稱之為干預(yù)式運(yùn)維模式:由接觸系統(tǒng)最多的相關(guān)使用者作為最早發(fā)現(xiàn)系統(tǒng)問題和故障的“前端運(yùn)維工程師”。作為第一線的系統(tǒng)使用者,面對系統(tǒng)中存在的問題和故障會比運(yùn)維工程師發(fā)現(xiàn)得更早更快,由他們在初期對問題和故障進(jìn)行處理大大縮短了故障解決的響應(yīng)時間。
這樣的模式要比傳統(tǒng)的動式運(yùn)維模式高效,也容易將小的問題和故障扼殺在搖籃里,提高整個系統(tǒng)的健康度和運(yùn)維效率。
(三)系統(tǒng)故障由監(jiān)控報警運(yùn)維工程師第一時間解決(預(yù)警式運(yùn)維模式)
如果想要比人更快發(fā)現(xiàn)問題和故障,那么就需要在系統(tǒng)本身上做文章。一套成熟的監(jiān)控系統(tǒng)在信息系統(tǒng)運(yùn)維過程中至關(guān)重要!
為了解決故障發(fā)現(xiàn)到解決的時效性的問題,通常會開發(fā)相關(guān)監(jiān)控系統(tǒng)配合主系統(tǒng)運(yùn)行,這套監(jiān)控系統(tǒng)會實(shí)時監(jiān)控主系統(tǒng)中部分關(guān)鍵項(xiàng)目,一旦發(fā)現(xiàn)故障和問題的端倪立刻記錄并報警。這樣的報警監(jiān)控系統(tǒng)會讓運(yùn)維工程更快獲取到故障信息,縮短故障處理的時長。而這樣的運(yùn)維方法可以稱之為預(yù)警式運(yùn)維模式。
筆者根據(jù)自身在工作中的經(jīng)驗(yàn)和不斷的學(xué)習(xí)歸納出了一些想法和優(yōu)化策略。主要從以下這些方面完善和優(yōu)化。
(一)轉(zhuǎn)換思想,從保姆式管理(被動式)向主動干預(yù)式管理轉(zhuǎn)變
很多公司的管理層對運(yùn)維的理解比較單一,他們認(rèn)為運(yùn)維就是:使用者在工作中使用系統(tǒng)時出現(xiàn)了問題,進(jìn)行匯報,隨后由運(yùn)維工程師進(jìn)行處理。殊不知,這樣的思想和運(yùn)維模式最容易在使用者中滋生出坐、等、靠的不良習(xí)慣。只要是系統(tǒng)出現(xiàn)的問題,不管問題多小多簡單,都必須由運(yùn)維來處理。甚至有的員工因此產(chǎn)生惰性,滋生“系統(tǒng)出現(xiàn)問題剛好可以磨洋工,等待運(yùn)維解決期間趁機(jī)休息偷懶”的不良現(xiàn)象。
雖然,運(yùn)維解決單個簡單問題的時間不會太長,但隨著網(wǎng)點(diǎn)數(shù)量增加、故障上報數(shù)量也會隨之增加、造成的單據(jù)排隊(duì)等待解決的狀況將不可避免,直接導(dǎo)致等待時長的大幅增加。這樣的結(jié)果就是:正常業(yè)務(wù)運(yùn)行受到影響、問題等待處理時長增加、運(yùn)維工程師資源浪費(fèi);進(jìn)而造成一線網(wǎng)點(diǎn)顧客(或相關(guān)人員)投訴事件增多(直接影響公司、單位的美譽(yù)度和口碑)、對員工上班熱情和積極性產(chǎn)生不良影響。
要改變這一現(xiàn)象,筆者認(rèn)為,應(yīng)當(dāng)由上至下進(jìn)行思想轉(zhuǎn)變。首先,我們可以將簡單的、不涉及到經(jīng)營基礎(chǔ)數(shù)據(jù)的故障處理方法教給使用者,讓其自行排查解決。同時為了避免使用者的不專業(yè)造成“越幫越忙,越修越亂”的狀況,對系統(tǒng)使用者進(jìn)行適當(dāng)?shù)呐嘤?xùn)。
具體方案是組織力量,將簡單故障處理的方法以文檔、視頻等方式進(jìn)行匯編、培訓(xùn),切實(shí)提升使用者處理問題的能力。 不再做使用者的保姆,事無巨細(xì)什么都出手;而是讓他們成為“第一線的前端運(yùn)維工程師”,及時發(fā)現(xiàn)問題,一邊解決一邊報備,實(shí)在解決不了再由運(yùn)維工程師出手解決。
(二)轉(zhuǎn)變管理,做好主動運(yùn)維
俗話說得好,“進(jìn)攻是最好的防守”,面對問題主動出擊,將小問題和故障扼殺在搖籃里,無疑是提高運(yùn)維效率的捷徑;而對于信息系統(tǒng)中的問題和故障,比使用者更清楚的是“系統(tǒng)自己”。
在監(jiān)控系統(tǒng)方面,首先,運(yùn)維團(tuán)隊(duì)可以從日常故障中總結(jié)、歸納出隱患型故障,針對這些隱患項(xiàng),有的放矢的開發(fā)監(jiān)控平臺或監(jiān)控手段。同時完善工作職責(zé),將監(jiān)控與故障隱患報警處理合并,首問負(fù)責(zé),這樣更有利于高效徹底地處理每一條報警信息涉及的故障隱患。
其次,建立健全數(shù)據(jù)備份機(jī)制,對于關(guān)鍵數(shù)據(jù)、軟件、甚至服務(wù)器配置等,要盡可能做到實(shí)時備份。只要我們做到了這兩步,就是對系統(tǒng)故障和問題最有力的防守,這種以攻代守的主動防御模式會在問題出現(xiàn)前就“解決問題”或是做好準(zhǔn)備。而且,完善的備份機(jī)制是應(yīng)對突發(fā)災(zāi)難性故障的重要保障。
(三)利用機(jī)器學(xué)習(xí)技術(shù),實(shí)現(xiàn)智能運(yùn)維
隨著科技的不斷發(fā)展與進(jìn)步,各個領(lǐng)域都有了革命性的變革。對于系統(tǒng)運(yùn)維來說更是科技的前沿和尖端。這個時代,各個企業(yè)的服務(wù)器規(guī)模、虛擬化節(jié)點(diǎn)、計算存儲性能都在成百倍的增長。在這種情況下,但靠傳統(tǒng)的人工運(yùn)維,越來越無法滿足運(yùn)維需求。
這時候,利用機(jī)器學(xué)習(xí)技術(shù),實(shí)現(xiàn)智能運(yùn)維把AI帶入運(yùn)維里是未來最高效的運(yùn)維方式和途徑。就拿監(jiān)控的報警信息來舉例,傳統(tǒng)的逐個遠(yuǎn)程處理已遠(yuǎn)遠(yuǎn)不能滿足需求,未來,運(yùn)維工程師們應(yīng)針對報警處理方式進(jìn)行探索,利用機(jī)器學(xué)習(xí)等技術(shù)、實(shí)現(xiàn)故障自動診斷自動處理以及風(fēng)險操作遠(yuǎn)程觸發(fā)處理等,只有這樣才能適應(yīng)現(xiàn)代企業(yè)信息化高速發(fā)展的腳步。
讓機(jī)器學(xué)習(xí)的目的就是實(shí)現(xiàn)“智”。怎么樣讓機(jī)器獲得這個“智”呢?在系統(tǒng)運(yùn)行中,故障和問題會以各種千奇百怪的方式出現(xiàn),我們首先可以通過不斷地對歷史數(shù)據(jù)中的故障場景分類和詳細(xì)標(biāo)注讓機(jī)器進(jìn)行學(xué)習(xí),當(dāng)機(jī)器能自主進(jìn)行較細(xì)致的劃分和標(biāo)注后我們可以讓其不停地在這種模塊化的數(shù)據(jù)中進(jìn)一步識別和學(xué)習(xí)運(yùn)維工程師的處理方式。之后再讓機(jī)器在各種新發(fā)事件中尋得一次次耦合,完成其判斷體系最終讓機(jī)器可以自行做出精準(zhǔn)的判斷和處理。
這就是未來最高效的運(yùn)維模式。弱化對運(yùn)維工程師的需求,增強(qiáng)機(jī)器的能力,讓機(jī)器做到面對故障和問題精準(zhǔn)的做出自我判斷和解決處理方案。
信息系統(tǒng)作為輔助工具,已日益深入各行各業(yè)的生產(chǎn)經(jīng)營活動中,運(yùn)維工作也將成為一個炙手可熱的職業(yè)。在這樣良好的環(huán)境中,運(yùn)維工程師需要立足自身、不斷學(xué)習(xí)、勇于創(chuàng)新、推進(jìn)產(chǎn)業(yè)與技術(shù)的相互融合才能有力的推動信息系統(tǒng)業(yè)務(wù)應(yīng)用更上一層樓。讓信息系統(tǒng)的運(yùn)維工作越來越優(yōu)質(zhì)是每一個運(yùn)維工程師的光榮使命!
作者單位:中國石油天然氣股份有限公司廣西銷售分公司