王萬福
(中央廣播電視總臺(tái)技術(shù)局,北京 100866)
目前,中央廣播電視總臺(tái)的業(yè)務(wù)生產(chǎn)系統(tǒng)離不開信息系統(tǒng)設(shè)備的應(yīng)用。中央廣播電視總臺(tái)的業(yè)務(wù)生產(chǎn)環(huán)節(jié)有制作系統(tǒng)、播出系統(tǒng)、媒資系統(tǒng)等,在很多生產(chǎn)環(huán)節(jié)中,信息系統(tǒng)是主要的支撐系統(tǒng)。信息系統(tǒng)的特點(diǎn)是自動(dòng)化程度高、IP化、數(shù)據(jù)化,幾乎所有的硬件設(shè)備、業(yè)務(wù)流程都可以通過相應(yīng)的技術(shù)手段進(jìn)行實(shí)時(shí)監(jiān)測(cè)。為了提高工作效率,運(yùn)維工作一般會(huì)使用監(jiān)測(cè)系統(tǒng)進(jìn)行集中監(jiān)測(cè),監(jiān)測(cè)系統(tǒng)聯(lián)動(dòng)運(yùn)維系統(tǒng),實(shí)現(xiàn)運(yùn)維工作的快速反應(yīng)。
一個(gè)基本的業(yè)務(wù)監(jiān)測(cè)系統(tǒng)的分層圖如圖1所示,主要包括硬件層、系統(tǒng)層以及業(yè)務(wù)層。
圖1 系統(tǒng)分層圖
(1)最下層是硬件層的狀態(tài)監(jiān)測(cè),包括對(duì)服務(wù)器、交換機(jī)、存儲(chǔ)等硬件設(shè)備的狀態(tài)監(jiān)測(cè)。這些硬件狀態(tài)數(shù)據(jù)由各個(gè)硬件廠商通過標(biāo)準(zhǔn)接口直接提供,一般包括電源健康狀態(tài)、CPU使用率、內(nèi)存占有率、存儲(chǔ)容量、數(shù)據(jù)轉(zhuǎn)發(fā)率等相應(yīng)的數(shù)據(jù)。
(2)中間層是系統(tǒng)層的監(jiān)測(cè),包括對(duì)操作系統(tǒng)、數(shù)據(jù)庫(kù)及中間件的監(jiān)測(cè)。好的監(jiān)測(cè)系統(tǒng)可以直接對(duì)系統(tǒng)進(jìn)程、數(shù)據(jù)庫(kù)的表進(jìn)行實(shí)時(shí)監(jiān)測(cè),以便快速發(fā)現(xiàn)異常、快速處理。
(3)最上層是對(duì)業(yè)務(wù)層的監(jiān)測(cè)。與下面兩層的監(jiān)測(cè)不同,下面兩層(硬件層、系統(tǒng)層)的監(jiān)測(cè)是對(duì)統(tǒng)一設(shè)備、統(tǒng)一系統(tǒng)軟件的監(jiān)測(cè),監(jiān)測(cè)信息數(shù)據(jù)標(biāo)準(zhǔn)基本一致,實(shí)施難度不大[1]。但對(duì)最上層的業(yè)務(wù)系統(tǒng)監(jiān)測(cè)而言,由于各個(gè)行業(yè)、用戶的業(yè)務(wù)系統(tǒng)不一樣,存在很多的個(gè)性化使用場(chǎng)景,因此對(duì)于業(yè)務(wù)監(jiān)測(cè)的需求不一樣。即使是同一個(gè)行業(yè),因采用的業(yè)務(wù)系統(tǒng)軟件的廠商不同,監(jiān)測(cè)的實(shí)施情況也會(huì)不太一致。在監(jiān)測(cè)系統(tǒng)的實(shí)施中,一般業(yè)務(wù)層的監(jiān)測(cè)是重點(diǎn)、難點(diǎn),也是呈現(xiàn)亮點(diǎn)的地方,只有做到對(duì)業(yè)務(wù)系統(tǒng)的準(zhǔn)確監(jiān)測(cè),監(jiān)測(cè)系統(tǒng)的整體功效才能得到很好的發(fā)揮,才能為業(yè)務(wù)的維護(hù)起到實(shí)質(zhì)性的推動(dòng)作用。如果監(jiān)測(cè)系統(tǒng)針對(duì)業(yè)務(wù)層的系統(tǒng)監(jiān)測(cè)沒有做好、或者沒有做,那整體的監(jiān)測(cè)系統(tǒng)就不夠完善。
實(shí)施業(yè)務(wù)層監(jiān)測(cè)系統(tǒng)時(shí),首先要明確需求,即明確用戶關(guān)心什么、想要看到什么。例如,在播出系統(tǒng)中,用戶想掌握發(fā)播后的數(shù)據(jù)到位情況,尤其是在自動(dòng)(機(jī)器處理)環(huán)節(jié),在預(yù)計(jì)的時(shí)間內(nèi)工作是否完成,各個(gè)客戶端與服務(wù)端的數(shù)據(jù)同步是否正常,用戶人員是否按規(guī)定時(shí)間編單及發(fā)播了節(jié)目等信息;在制作系統(tǒng)中,用戶關(guān)注制作的節(jié)目是否按預(yù)定時(shí)間發(fā)到播出系統(tǒng),對(duì)于各用戶下處于審核的節(jié)目信息,要能夠快速查詢到制作流程中的節(jié)目信息等;在媒資系統(tǒng)中,用戶需要監(jiān)測(cè)到在編目、轉(zhuǎn)碼、發(fā)布各個(gè)環(huán)節(jié)的節(jié)目流程信息。同時(shí),因同一節(jié)目會(huì)在制作、播出、媒資等系統(tǒng)中流動(dòng),還要做到跨系統(tǒng)的流程追蹤和對(duì)接。
確定好需求后,需要設(shè)計(jì)監(jiān)測(cè)業(yè)務(wù)系統(tǒng)信息接口,通過統(tǒng)一的接口標(biāo)準(zhǔn),由各個(gè)業(yè)務(wù)系統(tǒng)在各自的業(yè)務(wù)節(jié)點(diǎn)向監(jiān)測(cè)系統(tǒng)發(fā)送監(jiān)測(cè)信息。監(jiān)測(cè)系統(tǒng)收集到各個(gè)業(yè)務(wù)系統(tǒng)的狀態(tài)數(shù)據(jù)后,完成系統(tǒng)跨流程對(duì)接、閾值設(shè)定、異常報(bào)警以及事件日志輸出 等工作[2]。
以制作系統(tǒng)為例,制播流程如圖2所示。
圖2 制播流程示意圖
用戶完成制作后,節(jié)目在發(fā)送時(shí),制作系統(tǒng)應(yīng)向監(jiān)測(cè)系統(tǒng)發(fā)送節(jié)目制作完成信息,其中應(yīng)包括節(jié)目代碼、節(jié)目名稱、用戶名及節(jié)點(diǎn)信息等相關(guān)信息;節(jié)目在一審?fù)瓿蓪徍撕?,制作系統(tǒng)應(yīng)向監(jiān)測(cè)系統(tǒng)發(fā)送節(jié)目一審?fù)瓿尚畔ⅲ划?dāng)節(jié)目在二審?fù)瓿蓪徍?,制作系統(tǒng)應(yīng)向監(jiān)測(cè)系統(tǒng)發(fā)送節(jié)目二審?fù)瓿尚畔?;制作后的?jié)目進(jìn)入播出庫(kù)后,播出系統(tǒng)應(yīng)向監(jiān)測(cè)系統(tǒng)發(fā)送該節(jié)目入庫(kù)的信息;節(jié)目播出完畢,播出系統(tǒng)應(yīng)向監(jiān)測(cè)系統(tǒng)發(fā)送該節(jié)目已播出的信息。同時(shí),監(jiān)測(cè)系統(tǒng)需在各個(gè)節(jié)點(diǎn)設(shè)置相應(yīng)的閾值,如果在閾值范圍內(nèi)未完成規(guī)定動(dòng)作(工作),應(yīng)觸發(fā)異態(tài)消息,及時(shí)通知運(yùn)維人員,進(jìn)行快速處理[3]。
按照這樣的監(jiān)測(cè)流程,業(yè)務(wù)層的相關(guān)業(yè)務(wù)流轉(zhuǎn)信息就能被及時(shí)抓取,能夠做到業(yè)務(wù)節(jié)點(diǎn)和相應(yīng)的硬件層設(shè)備與系統(tǒng)層軟件進(jìn)行匹配,在業(yè)務(wù)節(jié)點(diǎn)出問題時(shí)可以及時(shí)匹配到相關(guān)的硬件和系統(tǒng),以便排查故障,提高運(yùn)維響應(yīng)效率。如果業(yè)務(wù)層的軟件冗余/備份做的足夠完善,甚至可能在用戶無感知的情況下完成業(yè)務(wù)層故障處理。
有了監(jiān)測(cè)系統(tǒng)后,需要使監(jiān)測(cè)系統(tǒng)能夠觸發(fā)異態(tài)信息,關(guān)聯(lián)后期運(yùn)維工作。在監(jiān)測(cè)系統(tǒng)出現(xiàn)異常報(bào)警信息后,一般都需要運(yùn)維人員干預(yù)處理,處理的異常問題、處理的步驟記錄、處理時(shí)長(zhǎng)等,均是運(yùn)維管理人員關(guān)心的要素。因此監(jiān)測(cè)系統(tǒng)還應(yīng)和運(yùn)維系統(tǒng)關(guān)聯(lián)[4]。監(jiān)測(cè)信息接口如圖3所示。
圖3 監(jiān)測(cè)信息接口示意圖
運(yùn)維系統(tǒng)在日常工作時(shí),可接收由監(jiān)測(cè)系統(tǒng)傳送的異態(tài)信息,自動(dòng)生成工單,如果條件允許,可通過App將生成的異態(tài)報(bào)警信息推送到運(yùn)維移動(dòng)端,做到報(bào)警信息及時(shí)提醒。運(yùn)維人員完成異態(tài)處理后,可由監(jiān)測(cè)信息發(fā)出恢復(fù)信息(也可人工操作),消除異態(tài)報(bào)警信息[4]。在日常巡檢工作中,可由監(jiān)測(cè)系統(tǒng)采集各個(gè)系統(tǒng)的登錄記錄,生成巡檢記錄,發(fā)送到運(yùn)維系統(tǒng),作為日常巡檢工作崗位審計(jì)的一項(xiàng)內(nèi)容依據(jù)。
運(yùn)維系統(tǒng)的主要用戶角色是運(yùn)維人員和運(yùn)維管理人員。運(yùn)維系統(tǒng)可使運(yùn)維人員和運(yùn)維管理人員對(duì)系統(tǒng)的認(rèn)識(shí)深度、狀態(tài)情況的了解處于同一層面,可以消除對(duì)系統(tǒng)運(yùn)行情況了解不對(duì)稱的情況,因此不同用戶對(duì)系統(tǒng)運(yùn)維的關(guān)鍵點(diǎn)、改進(jìn)點(diǎn)、故障點(diǎn)的認(rèn)識(shí)可以取得大致統(tǒng)一。除此之外,運(yùn)維系統(tǒng)還能讓運(yùn)維人員之間、運(yùn)維人員和運(yùn)維管理人員之間的工作溝通、交流更加便利、透明。這使得系統(tǒng)管理人員在系統(tǒng)運(yùn)維工作方面,對(duì)于人員的管理、工作的分配、更新計(jì)劃的制定等,更貼近于系統(tǒng)待解決的問題和遠(yuǎn)期面臨的問題,也更易得到一線運(yùn)維人員的認(rèn)可和支持。一線運(yùn)維人員工作的自主執(zhí)行力將更強(qiáng)。
運(yùn)維系統(tǒng)可以形成一個(gè)運(yùn)維工作的平臺(tái),主要功能模塊如表1所示。
表1 運(yùn)維工作平臺(tái)功能模塊
(1)任務(wù)管理。對(duì)系統(tǒng)的日常巡檢、月度巡檢、BUG修改等任務(wù)的管理,包括任務(wù)統(tǒng)計(jì)、任務(wù)評(píng)分以及任務(wù)完成情況追蹤等記錄。
(2)故障管理。對(duì)系統(tǒng)內(nèi)故障進(jìn)行記錄(有手工填寫、系統(tǒng)生成等方式),并以故障單為載體,可將故障處理單在不同崗位間流轉(zhuǎn),填報(bào)處理記錄、追蹤處理情況,直至故障處理完畢,關(guān)閉故障單[5]。
(3)升級(jí)流程。進(jìn)行軟硬件升級(jí)時(shí),需要填寫操作申請(qǐng)單、操作單,對(duì)申請(qǐng)單、操作單進(jìn)行各個(gè)相關(guān)崗位的審核。審核通過后升級(jí)進(jìn)入執(zhí)行階段,執(zhí)行完成后由執(zhí)行人填寫操作結(jié)果——升級(jí)是否成功以及升級(jí)中出現(xiàn)的需要特殊說明的情況。
(4)文件送達(dá)。對(duì)上級(jí)下發(fā)的相關(guān)系統(tǒng)設(shè)置的文件掃描后,進(jìn)入運(yùn)維系統(tǒng),可由相關(guān)管理人員填寫辦理意見并送達(dá)到執(zhí)行人,同時(shí)也可傳閱給相關(guān)人員。
(5)資產(chǎn)信息。涉及資產(chǎn)變更的操作由資產(chǎn)管理員初審,完善填報(bào)資產(chǎn)變更信息,在升級(jí)完成后,資產(chǎn)管理員在監(jiān)測(cè)系統(tǒng)中修改資產(chǎn)信息。實(shí)現(xiàn)在日常運(yùn)維中,資產(chǎn)發(fā)生變化時(shí),資產(chǎn)信息能得到及時(shí)更新[6]。
(6)排班管理。針對(duì)運(yùn)維人員24時(shí)3班倒的工作模式,建立排班管理模板,實(shí)現(xiàn)排班安排、換班申請(qǐng)等功能。
監(jiān)測(cè)、運(yùn)維工作主要涉及監(jiān)測(cè)系統(tǒng)和運(yùn)維系統(tǒng)兩個(gè)功能平臺(tái)。監(jiān)測(cè)系統(tǒng)是對(duì)信息系統(tǒng)的網(wǎng)絡(luò)設(shè)備、主機(jī)設(shè)備等硬件狀態(tài)信息及時(shí)監(jiān)測(cè),對(duì)操作系統(tǒng)、數(shù)據(jù)庫(kù)軟件、中間件等系統(tǒng)軟件的狀態(tài)及時(shí)監(jiān)測(cè)以及對(duì)業(yè)務(wù)層軟件的流程狀態(tài)、工作狀態(tài)及時(shí)監(jiān)測(cè)。運(yùn)維系統(tǒng)是對(duì)系統(tǒng)運(yùn)維操作的集中管理平臺(tái),通過運(yùn)維平臺(tái)將監(jiān)測(cè)系統(tǒng)和運(yùn)維人員緊密貼合在一起,使運(yùn)維人員對(duì)各個(gè)業(yè)務(wù)系統(tǒng)的運(yùn)行情況了解得更準(zhǔn)確,能夠更好地維護(hù)各個(gè)業(yè)務(wù)系統(tǒng),故障處理更加及時(shí)。