文/張智龍 宮劍 陸春 黃杰
IT運(yùn)維促進(jìn)信息化良性循環(huán)
文/張智龍 宮劍 陸春 黃杰
上海財經(jīng)大學(xué)IT運(yùn)維管理體系以基于ITIL V3的服務(wù)運(yùn)營流程為主線,以服務(wù)管理、服務(wù)改進(jìn)為輔助,配合一系列的管理制度與技術(shù)工具的支撐,使原有相對雜亂、重復(fù)的運(yùn)維工作轉(zhuǎn)向分工清晰、職責(zé)明確、快速響應(yīng)、安全可信的良性循環(huán)。
隨著上海財經(jīng)大學(xué)數(shù)字化校園建設(shè)的進(jìn)一步開展,信息系統(tǒng)的覆蓋范圍越來越廣,信息化建設(shè)和運(yùn)維的復(fù)雜度不斷提升,一方面需要繼續(xù)深化信息系統(tǒng)建設(shè),實現(xiàn)業(yè)務(wù)支持到?jīng)Q策支持的轉(zhuǎn)變;另一方面需要加強(qiáng)信息系統(tǒng)運(yùn)維管理,確保信息系統(tǒng)的穩(wěn)定運(yùn)行和可持續(xù)發(fā)展。
面對新的挑戰(zhàn),上海財經(jīng)大學(xué)遵循PPT(People、Process、Technology)原則,即受到良好培訓(xùn)的人員,通過執(zhí)行明確定義的、以技術(shù)驅(qū)動的流程,為所支持的業(yè)務(wù)提供高質(zhì)量服務(wù),同時借鑒ITIL最佳實踐體系,依據(jù)本校實際情況,開展IT運(yùn)維管理體系的建設(shè)實踐,形成具有上海財經(jīng)大學(xué)特色的信息化運(yùn)維管理體系。
圖1 IT運(yùn)維管理體系框架
上海財經(jīng)大學(xué)IT運(yùn)維管理體系以基于ITIL V3的服務(wù)運(yùn)營流程為主線,以服務(wù)管理、服務(wù)改進(jìn)為輔助,配合一系列的管理制度與技術(shù)工具的支撐,使原有相對雜亂、重復(fù)的運(yùn)維工作轉(zhuǎn)向分工清晰、職責(zé)明確、快速響應(yīng)、安全可信的良性循環(huán)。上海財經(jīng)大學(xué)IT運(yùn)維管理體系框架如圖1所示。
上海財經(jīng)大學(xué)運(yùn)維管理體系的主體由服務(wù)臺、服務(wù)支持流程和服務(wù)持續(xù)改進(jìn)三部分組成,其內(nèi)容既相對獨立又相互關(guān)聯(lián)。服務(wù)臺針對用戶進(jìn)行管理,對用戶的咨詢和需求進(jìn)行統(tǒng)一處理,為服務(wù)支持流程提供服務(wù);服務(wù)支持流程作為運(yùn)維工作的核心,一方面以日常運(yùn)維中的服務(wù)運(yùn)營和服務(wù)轉(zhuǎn)移為抓手,通過相關(guān)服務(wù)流程和支持工具為用戶提供服務(wù),快速響應(yīng)用戶需求,另一方面從服務(wù)設(shè)計出發(fā),通過工具的支撐和管理流程的控制,提高系統(tǒng)的可用性、系統(tǒng)和數(shù)據(jù)的安全性以及服務(wù)的持續(xù)性;服務(wù)持續(xù)改進(jìn),通過對服務(wù)支持流程體系中的問題進(jìn)行階段性的總結(jié)和分析,以及對用戶的系統(tǒng)使用情況的調(diào)查和整理,發(fā)現(xiàn)運(yùn)維工作中存在的問題并及時進(jìn)行調(diào)整,實現(xiàn)對運(yùn)維工作的持續(xù)改進(jìn)。
在運(yùn)維管理體系的主體之外,運(yùn)維組織與制度和運(yùn)維開發(fā)與管理工具也是貫穿在運(yùn)維管理過程中的不可或缺的部分,是高效開展運(yùn)維工作的基礎(chǔ)。在多年的實踐中,上海財經(jīng)大學(xué)制定一系列對運(yùn)維的標(biāo)準(zhǔn)化工作進(jìn)行指導(dǎo)的制度,使得運(yùn)維工作有理所依、有條不紊地進(jìn)行;此外,通過對各類系統(tǒng)管理工具和開發(fā)工具的不斷調(diào)查和使用,也找出一套適用于自身情況的IT工具,使得開發(fā)和管理工作事半功倍。
圖2 服務(wù)臺工作流程
服務(wù)臺扮演和用戶交流的角色,主要負(fù)責(zé)接收和管理用戶的咨詢和服務(wù)請求,第一時間了解用戶反映的問題并準(zhǔn)確記錄,為后期的問題處理和事件處理的快速準(zhǔn)確打下基礎(chǔ)。
目前,我們已在服務(wù)臺開辟多種渠道與用戶進(jìn)行實時交流,包括:面向全校用戶的7×24小時電話服務(wù)和E-Mail服務(wù),針對學(xué)生的BBS信息化答疑板塊,針對行政部門的即時反饋QQ、MSN服務(wù)群。除此之外,針對目前較為流行的微博,也即將開通“上海財經(jīng)大學(xué)信息化問題反饋官方微博”,通過多種形式的溝通機(jī)制保障用戶反映問題的暢通性。
除了多路徑的問題采集方式外,問題的順利流轉(zhuǎn)很大程度上依賴于問題記錄工作。學(xué)校運(yùn)維部門通過開源問題跟蹤工具M(jìn)antis來監(jiān)控整個問題的生命周期,使得一個問題經(jīng)歷從記錄到問題處理流程,到變更、發(fā)布部署的完整流程。圖2為一個典型的服務(wù)臺問題記錄流程。
問題被完整記錄后便完成其在服務(wù)臺的生命周期,處理過程將進(jìn)入服務(wù)支持流程。
服務(wù)支持流程體系的內(nèi)容
服務(wù)支持流程體系,從運(yùn)維工作所屬的不同職能的角度,可劃分為兩部分內(nèi)容。
一部分歸屬應(yīng)用管理的職能,直接處理從服務(wù)臺引入的服務(wù)事件和問題,根據(jù)事件處理所處的不同生命周期,分為服務(wù)運(yùn)營和服務(wù)轉(zhuǎn)移兩方面內(nèi)容。服務(wù)運(yùn)營包括ITIL框架中的事件管理、問題管理、訪問管理以及知識管理等流程,服務(wù)轉(zhuǎn)移涵蓋配置管理、變更管理、發(fā)布管理等流程。
服務(wù)支持流程體系的另外一部分內(nèi)容是服務(wù)設(shè)計,它屬于IT運(yùn)維管理和技術(shù)管理的職能,既包括對系統(tǒng)運(yùn)行狀態(tài)、數(shù)據(jù)庫使用狀態(tài)、數(shù)據(jù)質(zhì)量和用戶權(quán)限等IT運(yùn)行核心指標(biāo)的實時監(jiān)控,又包括對它們的事后審計,同時涵蓋數(shù)據(jù)和系統(tǒng)的備份和恢復(fù)方案以及后臺數(shù)據(jù)申請的日常工作流程,從系統(tǒng)可用性、IT服務(wù)連續(xù)性和信息安全管理等方面予以支撐。
通過這些標(biāo)準(zhǔn)化流程的約束,避免運(yùn)維階段的混亂局面,使工作人員的工作有理所依。同時這些流程也并非是割裂的部分,而是共同組成一個整體的服務(wù)支持流程體系。服務(wù)運(yùn)營和服務(wù)轉(zhuǎn)移對用戶進(jìn)行快速響應(yīng),解決在運(yùn)營狀態(tài)中出現(xiàn)的各種問題,及時準(zhǔn)確地進(jìn)行處理。服務(wù)設(shè)計是系統(tǒng)正常穩(wěn)定運(yùn)行的基礎(chǔ),保證系統(tǒng)和信息的安全性。
運(yùn)維的核心
服務(wù)運(yùn)營和服務(wù)轉(zhuǎn)移是運(yùn)維日常工作中的核心內(nèi)容。它們包括以下幾個典型的主流程:事件管理,問題處理,變更管理,發(fā)布管理,最后記錄進(jìn)入知識庫。每一步驟都對應(yīng)著相應(yīng)的流程文檔,并作為配置管理中的配置項信息,保證IT服務(wù)的不斷持續(xù)循環(huán),達(dá)到運(yùn)維管理的可持續(xù)發(fā)展目標(biāo)。一個典型的服務(wù)處理流程如圖3所示。
1. 事件管理與問題處理
在一個問題接受、問題處理到問題解決的過程中,問題的流轉(zhuǎn)通過Mantis問題記錄單來完成,它監(jiān)控整個時間的生命周期。記錄單中的記錄內(nèi)容包括問題的接收時間、報告人,問題的整個指派和流轉(zhuǎn)過程、處理過程中的詳細(xì)處理方法以及配置項變更信息、發(fā)布與部署信息等。
為防止系統(tǒng)更改對現(xiàn)有系統(tǒng)的運(yùn)行產(chǎn)生影響,上海財經(jīng)大學(xué)信息辦制定一套嚴(yán)格的涉及運(yùn)行維護(hù)員、發(fā)布管理員、配置管理員、運(yùn)維部長等多個角色的發(fā)布流程,整個發(fā)布流程整合到Mantis記錄單中,同時發(fā)布確認(rèn)單也作為一項重要的配置項進(jìn)行管理。發(fā)布流程與變更管理這兩個功能對任何配置項的變更進(jìn)行嚴(yán)格把關(guān),加強(qiáng)質(zhì)量控制和審核。
3. 配置管理
配置管理作為ITIL中的一個核心,在整個流程體系中有著舉足輕重的作用。信息化辦公室定制配置管理規(guī)范。規(guī)范內(nèi)容分為軟件配置管理和CMDB管理。軟件配置管理的目標(biāo)配置項主要包括信息系統(tǒng)項目文檔、源代碼、數(shù)據(jù)庫腳本、可執(zhí)行程序及其他相關(guān)資料。CMDB管理的目標(biāo)配置項主要包括所有硬件設(shè)備、應(yīng)用服務(wù)、數(shù)據(jù)庫系統(tǒng)及其相應(yīng)的用戶、權(quán)限、相關(guān)部門、責(zé)任人等元素。所有軟件配置管理和CMDB中的配置項的變更,都能夠關(guān)聯(lián)到具體的問題記錄單,做到從問題記錄單到配置項,以及從配置項到問題記錄單的雙向追溯。
服務(wù)設(shè)計
在高校信息化應(yīng)用日益深化的今天,信息和資源的整合日益密切,如何保障信息系統(tǒng)的持續(xù)穩(wěn)定運(yùn)行,確保信息安全是亟待解決的關(guān)鍵問題。服務(wù)設(shè)計主要包含兩方面內(nèi)容:第一,保障系統(tǒng)的可用性和持續(xù)性。通過對網(wǎng)絡(luò)、主機(jī)、應(yīng)用系統(tǒng)、數(shù)據(jù)庫的運(yùn)行狀態(tài)和性能指標(biāo)進(jìn)行實時監(jiān)控,保證系統(tǒng)的不間斷運(yùn)行;第二,確保系統(tǒng)安全與數(shù)據(jù)安全。通過對用戶賬號與權(quán)限的監(jiān)控以及系統(tǒng)安全檢測和事后審計等措施,保障系統(tǒng)和數(shù)據(jù)安全。
1. 權(quán)限變更的規(guī)范化流程與審計
系統(tǒng)中的數(shù)據(jù)查看和管理職能幾乎都是建立在系統(tǒng)的角色和權(quán)限的基礎(chǔ)上,所以權(quán)限問題尤為重要,權(quán)限的泛濫將嚴(yán)重危害到系統(tǒng)數(shù)據(jù)的安全,有意或無意的誤操作都將對系統(tǒng)數(shù)據(jù)造成嚴(yán)重危害。學(xué)校運(yùn)維部門制定一套權(quán)限申請審核流程,要求用戶的權(quán)限變更必須提交權(quán)限變更申請表,通過權(quán)限變更流程,審批后,再進(jìn)行權(quán)限的修改。除此之外,運(yùn)維部定期開展系統(tǒng)的權(quán)限審計工作,要求各部門對本部門的人員角色和系統(tǒng)權(quán)限進(jìn)行確認(rèn),并遞交給信息化辦公室進(jìn)行審核,如發(fā)現(xiàn)有超出權(quán)限范圍的功能或數(shù)據(jù)查看權(quán),立即停用。
2. 數(shù)據(jù)質(zhì)量
隨著業(yè)務(wù)的逐年運(yùn)行,信息系統(tǒng)中的數(shù)據(jù)量越發(fā)龐大,不可避免地產(chǎn)生大量不符合系統(tǒng)標(biāo)準(zhǔn)的垃圾數(shù)據(jù),這些數(shù)據(jù)極有可能造成系統(tǒng)不正常運(yùn)行。為了避免此種情況發(fā)生,我們制定一系列針對各信息系統(tǒng)情況的數(shù)據(jù)錄入維護(hù)規(guī)范,同時,運(yùn)維部門還根據(jù)數(shù)據(jù)錄入維護(hù)規(guī)范,制定日常數(shù)據(jù)質(zhì)量檢查工作機(jī)制,定期通過技術(shù)手段對系統(tǒng)數(shù)據(jù)進(jìn)行監(jiān)控檢查,確認(rèn)數(shù)據(jù)是否符合各業(yè)務(wù)、數(shù)據(jù)接口的標(biāo)準(zhǔn),同時給出數(shù)據(jù)質(zhì)量檢查報告,針對存在問題的數(shù)據(jù),查找數(shù)據(jù)源頭,進(jìn)行數(shù)據(jù)重新修正錄入,以滿足系統(tǒng)要求。
網(wǎng)絡(luò)上的東西更新速度快,出于對網(wǎng)絡(luò)的迷戀,大多數(shù)高校大學(xué)生喜歡通過網(wǎng)絡(luò)去學(xué)習(xí)一些自己感興趣的知識,不斷豐富著自己的大腦,使自己開闊眼界,運(yùn)用自己的判斷力對某一觀點進(jìn)行評判,從而不愿意被動地接受教育者機(jī)械似的灌輸和教育,思想政治教育者的權(quán)威地位就會受到威脅。
圖3 服務(wù)運(yùn)營流程
3. 系統(tǒng)環(huán)境備份
對所有的系統(tǒng)分別搭建4套系統(tǒng)環(huán)境:開發(fā)環(huán)境、測試環(huán)境、模擬環(huán)境和生產(chǎn)環(huán)境。通過4套環(huán)境的有機(jī)結(jié)合,最大程度地減少發(fā)布風(fēng)險,滿足系統(tǒng)擴(kuò)展開發(fā)的需求。
4. 系統(tǒng)安全檢測
為確保主機(jī)安全和信息安全,運(yùn)維部定期進(jìn)行安全檢測和掃描,具體內(nèi)容有:使用開源漏洞掃描工具掃描所有服務(wù)器主機(jī),生成主機(jī)安全等級報告,對高級和中級安全漏洞進(jìn)行專家分析和處理,確保主機(jī)運(yùn)行于低安全風(fēng)險;使用商業(yè)漏洞掃描工具掃描全校應(yīng)用系統(tǒng),生成應(yīng)用安全等級報告,針對高風(fēng)險安全漏洞進(jìn)行分析和處理,確保Web應(yīng)用沒有較高的安全漏洞。
5. 異常登錄監(jiān)控
系統(tǒng)賬號作為認(rèn)定責(zé)任人的最重要的手段,一旦被盜用,將引起重大的糾紛。為了保證在校的近2萬用戶的權(quán)利不被侵犯,我們對重要系統(tǒng)的賬號登錄情況進(jìn)行監(jiān)控。監(jiān)控內(nèi)容包括每天登錄各信息系統(tǒng)的賬號、登錄的時間、注銷的時間、每次登錄的IP地址等。通過這些信息的統(tǒng)計挖掘,對可疑的登錄信息進(jìn)行調(diào)查、確認(rèn)及核實。
服務(wù)持續(xù)改進(jìn)
通過對服務(wù)支持流程體系中的問題進(jìn)行階段性的總結(jié)、分析和處理,實現(xiàn)對運(yùn)維工作的持續(xù)改進(jìn)。
1. 事件管理分析
事件管理分析工作,本著規(guī)范流程、提升管理水平、降低事件發(fā)生率、提高工作效率的目標(biāo),通過對各季度和學(xué)期的各應(yīng)用系統(tǒng)事件數(shù)進(jìn)行總結(jié)與分析,制定出運(yùn)維事件階段性總結(jié)處理指導(dǎo)文檔。目前,運(yùn)維部門將問題歸為12大類,基本囊括運(yùn)維中的所有常見問題。事件分析會對各類問題所占的百分比進(jìn)行統(tǒng)計,總結(jié)出本時間周期里的問題的特點和共性,對今后的運(yùn)維工作進(jìn)行指導(dǎo)。
2. 調(diào)查問卷和系統(tǒng)運(yùn)行情況分析
運(yùn)維部門定期對學(xué)生、教師發(fā)布系統(tǒng)使用的調(diào)查問卷,定期舉辦用戶討論座談會,獲取用戶對系統(tǒng)、運(yùn)維服務(wù)的各類意見和建議,找出工作盲點,為運(yùn)行維護(hù)的規(guī)范化提供依據(jù),還定期采用專門工具對各系統(tǒng)的訪問日志、操作日志進(jìn)行分析,獲取用戶使用偏好和使用習(xí)慣,為給用戶提供更優(yōu)質(zhì)的服務(wù)提供參考。
3. 安全應(yīng)急演練
應(yīng)急演練是在事先虛擬的事件(事故)條件下,應(yīng)急指揮體系中各個組成部門、單位或群體的人員針對假設(shè)的特定情況,執(zhí)行實際突發(fā)事件發(fā)生時各自職責(zé)和任務(wù)的活動,是一種模擬突發(fā)事件發(fā)生的應(yīng)對演習(xí)。運(yùn)維部門對應(yīng)急演練制定合理的演練周期,對頻率較高的突發(fā)事件增加演練頻次,本著演練內(nèi)容可控、不能影響生產(chǎn)系統(tǒng)正常運(yùn)行的原則使演練逼真。演練的過程遵循有重點、有層次、先易后難的策略展開。演練結(jié)束后,演練工作小組對演練方案執(zhí)行及演練過程和結(jié)果進(jìn)行總結(jié),針對發(fā)現(xiàn)的問題,及時修改應(yīng)急預(yù)案,并應(yīng)用到實際工作中。
上海財經(jīng)大學(xué)信息辦系統(tǒng)運(yùn)維部結(jié)合本校自身的信息化開展情況,通過對ITIL管理流程的裁剪,制定出一套適合學(xué)校自身特點的運(yùn)維管理規(guī)范體制,并在實踐中取得令人滿意的成效。但目前標(biāo)準(zhǔn)化流程還無法覆蓋運(yùn)維的全部環(huán)節(jié),且隨著信息化建設(shè)的不斷深入,運(yùn)維工作還將面臨越來越多的挑戰(zhàn),運(yùn)維工作任重而道遠(yuǎn)。下一步,我們將進(jìn)一步加強(qiáng)對ITIL理念的研究和實踐,促進(jìn)對人員技術(shù)水平和管理能力的提升,配合數(shù)字化校園的深入建設(shè),使運(yùn)維管理與服務(wù)更上新臺階。