文/劉建峰 朱亦寧
南京大學:IT服務(wù)提升校園網(wǎng)運維效率
文/劉建峰 朱亦寧
如何提高校園網(wǎng)絡(luò)的運維管理效率,切實保障應(yīng)用系統(tǒng)可靠、穩(wěn)定、高效地運行,以進一步提升用戶的滿意度,是高校網(wǎng)絡(luò)信息中心長期的追求。南京大學網(wǎng)絡(luò)從平臺架構(gòu)、運行監(jiān)控及服務(wù)理念等方面進行了系列實踐。
作為基礎(chǔ)設(shè)施的校園網(wǎng)絡(luò)管理,已經(jīng)逐步實現(xiàn)從被動式用戶報障服務(wù),轉(zhuǎn)變到要求能夠主動發(fā)現(xiàn)問題,以流程貫穿整個管理過程,提高運維管理的效率,切實保障應(yīng)用系統(tǒng)可靠、穩(wěn)定、高效地運行,提高用戶的滿意度,全面提升校園網(wǎng)的服務(wù)質(zhì)量。
雖然通過學校的信息化系統(tǒng)的整合,部分實現(xiàn)運維系統(tǒng)功能的集成和數(shù)據(jù)的統(tǒng)一,但此前南京大學的網(wǎng)絡(luò)運維在資源管理、任務(wù)調(diào)度、故障處理、任務(wù)分發(fā)等方面依舊采取傳統(tǒng)的方式,缺少運維服務(wù)流程管理的網(wǎng)絡(luò)化、自動化,無法及時跟蹤故障情況,不能有效利用歷史故障的發(fā)生頻率、發(fā)生類型、處理情況、解決辦法等知識的經(jīng)驗,對于故障的處理無法進行效率評估和考核;技術(shù)人員忙于應(yīng)付突發(fā)事件和處理問題,工作效率不高。為此,我?;谛@網(wǎng)運維管理與服務(wù)的具體實踐,提出有效提升運維管理效率的方法。
優(yōu)化網(wǎng)絡(luò)架構(gòu)
傳統(tǒng)的大學校園網(wǎng)普遍采用三層架構(gòu)模式,即核心、匯聚、接入的三層交換網(wǎng)絡(luò)架構(gòu),就一般校園應(yīng)用而言,傳統(tǒng)的三層架構(gòu)適應(yīng)校園網(wǎng)在不斷擴展階段的高帶寬內(nèi)部互聯(lián)互通的需求。但是,三層交換模式存在這樣一些問題:支持新業(yè)務(wù)難,故障點定位慢,無法實現(xiàn)精細化管理,用戶端的安全問題導致全網(wǎng)受影響等等。以上這些問題將隨著校園網(wǎng)規(guī)模的逐步擴大、多業(yè)務(wù)應(yīng)用模式的疊加、用戶數(shù)的不斷增加和流量的爆發(fā)式增長而顯得越來越突出,校園網(wǎng)整體的穩(wěn)定性和可靠性降低,管理維護成本越來越大。
通過國內(nèi)高校多次學校調(diào)研及專家論證,廣泛借鑒運營商的大規(guī)模網(wǎng)絡(luò)建設(shè)與運維管理的思路,南京大學校園網(wǎng)絡(luò)在體系架構(gòu)上一改傳統(tǒng)的思路和模式,即采用以純路由為核心的扁平化的校園網(wǎng)絡(luò)架構(gòu)模式,全網(wǎng)實現(xiàn)精細化的用戶管理。扁平化的網(wǎng)絡(luò)架構(gòu),并非將網(wǎng)絡(luò)物理層面變?yōu)閮蓪?,而是從網(wǎng)絡(luò)中設(shè)備所承擔的功能上進行區(qū)分,將網(wǎng)絡(luò)劃分為業(yè)務(wù)控制層和寬帶接入層。寬帶接入層由匯聚和接入層設(shè)備構(gòu)成,僅提供基本的用戶高帶寬接入功能和相互之間的VLAN二層隔離功能;業(yè)務(wù)控制層則由核心層設(shè)備構(gòu)成,提供網(wǎng)絡(luò)中的用戶接入控制、業(yè)務(wù)功能實現(xiàn)等復雜功能。這樣進行功能劃分后,網(wǎng)絡(luò)的層次更加清晰,更有利于全網(wǎng)的管理維護。
精細化管理
以純路由為核心的扁平化的校園網(wǎng)絡(luò)架構(gòu)模式可以實現(xiàn)對校園網(wǎng)進行精細化的管理控制。
通過網(wǎng)絡(luò)中的寬帶接入層面實現(xiàn)VLAN 的細分功能,VLAN的劃分可以細致到每個接入層交換機的接入端口,這樣能夠?qū)崿F(xiàn)任意端口之間的二層VLAN隔離功能,避免相互的干擾和影響,做到可細分、可隔離;當端口數(shù)量超過4K時,需要采用QinQ的方案,實現(xiàn)VLAN支持能力的擴展,提供全網(wǎng)4K×4K的VLAN支持。
對用戶的各種信息,如用戶賬號、MAC地址、IP地址、上線時間及其訪問行為的識別和記錄,做到可跟蹤、可追查。
實現(xiàn)基于用戶身份的行為控制,對諸如可訪問的資源權(quán)限、對網(wǎng)絡(luò)帶寬的占用等方面,做到可控制、可管理。
網(wǎng)絡(luò)應(yīng)用的精細化管理,實現(xiàn)完善的流量識別和控制能力,保障重要應(yīng)用系統(tǒng)的網(wǎng)絡(luò)承載,包括安全性、帶寬保障、可靠性等方面,做到可識別、可保障。
此前我校網(wǎng)絡(luò)信息中心的部門設(shè)置,是采用縱向一條龍的管理模式,即從規(guī)劃、調(diào)研、建設(shè)、管理到維護都是由一個部門負責到底。在網(wǎng)絡(luò)規(guī)模不大、應(yīng)用相對簡單的情況下,此種管理維護模式可以保證最快速度、最高效率的運行。在網(wǎng)絡(luò)規(guī)模擴大、應(yīng)用系統(tǒng)增多而高校網(wǎng)絡(luò)中心運維管理人員數(shù)量增長較低的情況下,常常因為應(yīng)急性的事務(wù)而忽略了很多細節(jié),如分管設(shè)備的巡檢和數(shù)據(jù)備份,數(shù)據(jù)中心機房的公共設(shè)施的健康狀況等。從用戶的角度來講,出現(xiàn)的問題是各式各樣的,涉及網(wǎng)絡(luò)、安全、應(yīng)用系統(tǒng)等各種情況。
顯然,傳統(tǒng)應(yīng)付式的運維服務(wù)方式,已經(jīng)無法滿足用戶的需求。參考國外大學設(shè)定的專門的服務(wù)管理機構(gòu)ITSC(Information Technology Services Center),以及學習國內(nèi)高校的經(jīng)驗,我校網(wǎng)絡(luò)信息中心成立系統(tǒng)運行部,對內(nèi)負責數(shù)據(jù)中心環(huán)境及各種應(yīng)用服務(wù)系統(tǒng),對外負責用戶綜合信息咨詢及故障處理,有統(tǒng)一的服務(wù)電話,工作人員登記信息至運維管理系統(tǒng)以進行流轉(zhuǎn),負責監(jiān)控的流程將最終信息反饋給用戶,同時處理結(jié)果,形成經(jīng)驗保存為經(jīng)驗庫,作為后續(xù)維護參考。系統(tǒng)運行部促進了組織業(yè)務(wù)流程與服務(wù)管理基礎(chǔ)架構(gòu)集成,協(xié)調(diào)用戶和IT服務(wù)人員之間的聯(lián)系,為提升運維管理效率做好體制保障。
源自于英國的ITIL(Information Technology Infrastructure Library,信息技術(shù)基礎(chǔ)架構(gòu)庫)管理理論是IT基礎(chǔ)架構(gòu)運維管理最佳實踐的集合。許多企業(yè)多年的實踐證明,ITIL的良好應(yīng)用可以幫助企業(yè)優(yōu)化IT服務(wù)管理流程,提高內(nèi)外部客戶的滿意度,提升IT服務(wù)管理水平,幫助企業(yè)降低IT服務(wù)成本,提高管理效率,ITIL也就成為事實上IT服務(wù)管理的國際標準。
采用ITIL標準的網(wǎng)絡(luò)運維服務(wù)體系包括:建立符合ITIL標準的統(tǒng)一信息架構(gòu),建立服務(wù)臺,建設(shè)標準的配置管理數(shù)據(jù)庫和知識庫,規(guī)范工作流程,明確工作職責,實現(xiàn)進度可視化,由角色分工向流程分工轉(zhuǎn)變,實行績效管理。
建立自動化運維管理平臺
IT運維自動化管理建設(shè)的第一步是建立IT運維的自動化監(jiān)控和管理平臺。通過監(jiān)控工具實現(xiàn)對用戶操作規(guī)范的約束和對IT資源的實時監(jiān)控,包括服務(wù)器、數(shù)據(jù)庫、中間件、存儲備份、網(wǎng)絡(luò)、安全、機房、業(yè)務(wù)應(yīng)用和客戶端等,通過自動監(jiān)控管理平臺實現(xiàn)故障或問題綜合處理和集中管理。例如在自定義周期內(nèi)進行自動觸發(fā),完成對IT運維的例行巡檢,形成檢查報告,包括自動運行維護、數(shù)據(jù)備份、病毒查殺等。
智能告警,提高效率
建立共享數(shù)據(jù)庫,把各個監(jiān)控系統(tǒng)的信息采集到同一數(shù)據(jù)平臺,進行數(shù)據(jù)分析挖掘,變被動查詢?yōu)橹鲃臃治?。同時根據(jù)全面的數(shù)據(jù)采集和智能化的分析手段,對告警信息進行標準化、壓縮、歸并關(guān)聯(lián)處理,將重復的告警信息進行合并處理之后,提煉出事件的主要故障排除人員和輔助故障排除人員,將智能化之后的告警事件指派到具體負責人和協(xié)助人員,并分配不同的任務(wù),運維人員必須在指定時間內(nèi)完成流程所規(guī)定的環(huán)節(jié)與工作,以提高運維響應(yīng)問題的效率。
流程跟蹤,保障進度
IT運維自動化管理建設(shè)時,需要建立故障和事件處理跟蹤流程,利用表格工具或知識庫等記錄故障及其處理情況,以建立運維日志,并定期回顧,從中辨識和發(fā)現(xiàn)問題的線索和根源。事實證明可以減少運維操作的隨意性和強化執(zhí)行力度,在很大程度上降低故障發(fā)生的概率。同時,用戶也可以通過開放的頁面隨時追蹤該用戶故障請求的處理狀態(tài)。
等級劃分,保障核心業(yè)務(wù)
針對不同的運維流程和不同的業(yè)務(wù)系統(tǒng),設(shè)定不同的優(yōu)先級,在設(shè)置自動化流程時要引入優(yōu)先處理原則,例行的事件按常規(guī)處理,特別事件要按優(yōu)先級次序處理,優(yōu)先級高的優(yōu)先處理,這可以最大限度地保障核心和關(guān)鍵業(yè)務(wù)的正常服務(wù)。
利用外包服務(wù),優(yōu)化資源配置
就數(shù)字化校園運維來講,外包是指將具有基礎(chǔ)性的、非核心、耗時耗力的大量簡單重復性的運行維護工作外包給其他企業(yè)來完成,使高校網(wǎng)絡(luò)信息中心能優(yōu)化資源配置,讓有限的技術(shù)人員從事網(wǎng)絡(luò)技術(shù)的研究、應(yīng)用系統(tǒng)的開發(fā)等高層次工作。南京大學自2008年到現(xiàn)在,采用將重復、基礎(chǔ)性的校園網(wǎng)維護維修工作承包給專業(yè)公司的模式,取得了很好的效果,解決了高校網(wǎng)絡(luò)信息中心人手不足、多校區(qū)校園網(wǎng)維護困難的狀況。
采用“校園網(wǎng)維護維修外包,中心工作人員接聽報修電話,登記在報修系統(tǒng),給外包人員派單”的方式,充分融合了人員、技術(shù)設(shè)施和流程這三大關(guān)鍵因素,形成統(tǒng)一的整體,在相關(guān)規(guī)則的作用下,形成對運維事件的快速響應(yīng)、流程化處理,實現(xiàn)事件處理的高效性、效果可重復性和服務(wù)質(zhì)量可期性,切實有效地提高高校師生的滿意度。
目前數(shù)字化校園關(guān)注的重心慢慢地從“以數(shù)據(jù)為中心”、“以系統(tǒng)為中心”轉(zhuǎn)移為“以用戶為中心”。系統(tǒng)運行部以用戶為中心,不斷調(diào)整服務(wù)體系的組織結(jié)構(gòu)、工作內(nèi)容、工作方式、工作方法、工作流程和工作范圍,全力保障網(wǎng)絡(luò)和應(yīng)用系統(tǒng)安全、高效、穩(wěn)定地運行,為用戶提供優(yōu)質(zhì)服務(wù)。
統(tǒng)一服務(wù)平臺
打破時間及地域限制,提供開放式的網(wǎng)絡(luò)服務(wù)、一站式服務(wù)和緊急故障電話24小時服務(wù),同時保證每天14小時的現(xiàn)場服務(wù),在服務(wù)過程中注重服務(wù)態(tài)度和細節(jié)。
“以網(wǎng)相連,用心溝通”的服務(wù)理念
秉承“以網(wǎng)相連,用心溝通”的服務(wù)理念,南京大學網(wǎng)絡(luò)信息中心多次開展“請進來,走出去”的活動,與用戶進行溝通交流。一方面把用戶請到中心來,給用戶介紹網(wǎng)絡(luò)與數(shù)字化校園建設(shè)情況,讓用戶更加了解數(shù)字化校園建設(shè),了解IT服務(wù)人員的具體工作環(huán)境、方式、方法,并聽取用戶的合理化建議,并融入后期的工作中。另一方面,我們變被動服務(wù)為主動服務(wù),到院系部門單位中去主動幫他們解決在網(wǎng)絡(luò)和應(yīng)用系統(tǒng)中遇到的問題,并聽取部門用戶對網(wǎng)絡(luò)建設(shè)和應(yīng)用建設(shè)的需求和意見,共建共享合理、優(yōu)化的數(shù)字化校園。
南京大學網(wǎng)絡(luò)信息中心在采用了扁平化架構(gòu)及上述IT服務(wù)管理方法后,校園網(wǎng)絡(luò)運維變得更加順暢、更加高效和富有針對性。新的實施方案提升了校園網(wǎng)絡(luò)服務(wù)質(zhì)量,在師生中贏取了較高的美譽度。
(作者單位為南京大學網(wǎng)絡(luò)信息中心)