王新國,高文燕,張 霞,許 林
新型冠狀病毒肺炎(簡稱新冠肺炎)疫情的不斷蔓延對醫(yī)院信息化建設(shè)、數(shù)字化轉(zhuǎn)型提出了更高的要求,防控工作的常態(tài)化迫切需要人力、資金、防護(hù)物品等戰(zhàn)略資源的持續(xù)精準(zhǔn)供應(yīng),做到科學(xué)防疫、精準(zhǔn)防疫。建立統(tǒng)一信息集成系統(tǒng)、推動(dòng)數(shù)據(jù)開放共享成為確保疫情防控工作落實(shí)到位的重要支撐;另一方面,在線問診、協(xié)同辦公、遠(yuǎn)程醫(yī)療等各類應(yīng)用信息系統(tǒng)數(shù)量、規(guī)模的持續(xù)擴(kuò)大,各系統(tǒng)間的高度集成、耦合使得不同系統(tǒng)的軟硬件故障相互牽制與影響越來越多,潛在風(fēng)險(xiǎn)也不斷增加,對信息集成系統(tǒng)的運(yùn)維管理帶來愈加嚴(yán)峻的挑戰(zhàn)[1,2]。在新冠肺炎疫情的常態(tài)化防控態(tài)勢下,為了能夠?qū)Ω餍畔⑾到y(tǒng)的運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)控,對各類系統(tǒng)故障做到有源追溯、高效運(yùn)營、閉環(huán)管理,并在第一時(shí)間采取有效措施,確保各信息系統(tǒng)業(yè)務(wù)的連續(xù)性,迫切需要一個(gè)智慧化集成運(yùn)維監(jiān)控平臺(tái),將以技術(shù)、設(shè)備為導(dǎo)向的運(yùn)維轉(zhuǎn)變?yōu)橐苑?wù)、流程為導(dǎo)向的智慧運(yùn)維[3],這也成為打贏此次疫情防控戰(zhàn)的關(guān)鍵環(huán)節(jié)。
隨著疫情防控態(tài)勢下互聯(lián)網(wǎng)+等各類智慧醫(yī)療業(yè)務(wù)的推進(jìn),智慧化醫(yī)院IT 構(gòu)架不斷拓展,各業(yè)務(wù)系統(tǒng)運(yùn)行需要依賴和調(diào)用的軟硬件資源種類和數(shù)量越來越多[4,5],系統(tǒng)運(yùn)維面臨以下幾方面的挑戰(zhàn)。
1.1 煙囪式的信息資源配置模式使運(yùn)維難度增加醫(yī)院信息系統(tǒng)多是分批分期建設(shè),軟硬件設(shè)備雖是捆綁式增加,但各系統(tǒng)多是彼此獨(dú)立的煙囪式分布,這種離散式系統(tǒng)架構(gòu)使故障定位與分析排除日益復(fù)雜;同時(shí),業(yè)務(wù)系統(tǒng)迭代速度加快,升級(jí)更新頻繁,對運(yùn)維管理和響應(yīng)時(shí)間提出了更高要求。
軟件方面,除了內(nèi)網(wǎng)中部署的傳統(tǒng)醫(yī)院信息管理系統(tǒng)、電子病歷系統(tǒng)、醫(yī)學(xué)影像系統(tǒng)、檢驗(yàn)系統(tǒng)外,基于物聯(lián)網(wǎng)技術(shù)實(shí)現(xiàn)患者與醫(yī)務(wù)人員、醫(yī)療機(jī)構(gòu)、醫(yī)療設(shè)備之間信息交互的系統(tǒng)也在大量增加,特別是疫情防控期間在線問診、遠(yuǎn)程會(huì)診等各類應(yīng)用信息系統(tǒng)數(shù)量、規(guī)模持續(xù)擴(kuò)大,這些系統(tǒng)通常需要通過部署在醫(yī)院的前置機(jī)實(shí)現(xiàn)醫(yī)院內(nèi)網(wǎng)數(shù)據(jù)與外網(wǎng)進(jìn)行信息轉(zhuǎn)換、數(shù)據(jù)集成,醫(yī)療信息系統(tǒng)從醫(yī)院內(nèi)部的局域網(wǎng)擴(kuò)展到了互聯(lián)網(wǎng)網(wǎng)絡(luò)范圍。硬件方面,醫(yī)療業(yè)務(wù)系統(tǒng)的運(yùn)行環(huán)境也從傳統(tǒng)的網(wǎng)絡(luò)設(shè)備、服務(wù)器、PC 機(jī),擴(kuò)展到虛擬機(jī)、云平臺(tái)、手機(jī)APP、微信平臺(tái)、智能終端等,還包括LED 顯示、分診呼叫、分屏顯示、公告視頻、監(jiān)控宣教等顯示和語音設(shè)備,這些系統(tǒng)多采用大屏幕電視或液晶顯示器顯示隊(duì)列、監(jiān)控宣教信息,它們與醫(yī)療業(yè)務(wù)系統(tǒng)的集成融合越來越緊密,但經(jīng)常處于無人值守狀態(tài),一旦出現(xiàn)問題會(huì)極大地影響患者就診體驗(yàn),加大了對整個(gè)醫(yī)療業(yè)務(wù)系統(tǒng)監(jiān)管監(jiān)控的要求和難度。
1.2 缺乏有效的運(yùn)維流程應(yīng)用眾多、系統(tǒng)分散、管理困難的運(yùn)維現(xiàn)狀要求信息科工作人員定期對各業(yè)務(wù)系統(tǒng)進(jìn)行巡檢,評估在用資源、系統(tǒng)性能、并消除故障隱患,特別是臨床醫(yī)療工作依賴的關(guān)鍵性業(yè)務(wù)系統(tǒng)更需要做到運(yùn)行狀態(tài)的實(shí)時(shí)監(jiān)控、及時(shí)報(bào)警或提示。傳統(tǒng)運(yùn)維系統(tǒng)多側(cè)重于對網(wǎng)絡(luò)設(shè)備、服務(wù)器、數(shù)據(jù)庫的監(jiān)控,對醫(yī)院的語音呼叫、顯示展示設(shè)備則只能通過人工定時(shí)巡檢監(jiān)控系統(tǒng)的運(yùn)行狀態(tài),耗時(shí)耗力,且難以及時(shí)發(fā)現(xiàn)故障隱患。因此,智慧運(yùn)維平臺(tái)要既能通過對運(yùn)營平臺(tái)各組件的集中式管理實(shí)現(xiàn)業(yè)務(wù)運(yùn)行環(huán)境的監(jiān)控,又要能通過日志分析反饋系統(tǒng)運(yùn)行狀態(tài)給運(yùn)維人員,才能真正方便運(yùn)維人員及時(shí)響應(yīng)各類故障請求,提升運(yùn)維效率。
筆者通過分析整合醫(yī)院業(yè)務(wù)運(yùn)維需求設(shè)計(jì)開發(fā)了智慧運(yùn)維平臺(tái),主要包括兩個(gè)方面內(nèi)容,一是綜合運(yùn)用各類監(jiān)控技術(shù)及顯示屏畫面分享技術(shù)拓展監(jiān)控范圍,將硬件資源的監(jiān)測信號(hào)通過多個(gè)展示屏集成顯示,通過對硬件資源的定時(shí)檢測和遠(yuǎn)程桌面管理實(shí)現(xiàn)對業(yè)務(wù)運(yùn)行環(huán)境的監(jiān)控;二是通過開源ELK 系統(tǒng)實(shí)現(xiàn)集中式日志管理,將各業(yè)務(wù)系統(tǒng)日志定時(shí)收集、處理并產(chǎn)生分析報(bào)告,實(shí)現(xiàn)業(yè)務(wù)應(yīng)用狀態(tài)的監(jiān)控管理。智慧運(yùn)維平臺(tái)通過一體化監(jiān)控和智能化運(yùn)維,將以技術(shù)、設(shè)備為導(dǎo)向的被動(dòng)故障應(yīng)對轉(zhuǎn)變?yōu)橐苑?wù)、流程為導(dǎo)向的主動(dòng)運(yùn)維服務(wù),使原來孤立分散的事務(wù)管理轉(zhuǎn)變?yōu)獒t(yī)院范圍內(nèi)統(tǒng)一的、標(biāo)準(zhǔn)化的流程管理,確保業(yè)務(wù)系統(tǒng)的可用性和連續(xù)性。
2.1 業(yè)務(wù)運(yùn)行環(huán)境的運(yùn)維監(jiān)控(1)資源監(jiān)控。是對各種網(wǎng)絡(luò)設(shè)備、各服務(wù)器硬件環(huán)境的監(jiān)控,通過定時(shí)檢測服務(wù)器、網(wǎng)絡(luò)節(jié)點(diǎn)、網(wǎng)關(guān)等網(wǎng)絡(luò)設(shè)備的請求響應(yīng)是否正常,以確認(rèn)各網(wǎng)絡(luò)設(shè)備工作是否正常,發(fā)現(xiàn)異常,則消息提醒。(2)服務(wù)監(jiān)控。是對 web服務(wù)、云平臺(tái)系統(tǒng)各項(xiàng)服務(wù)的監(jiān)控,通過定時(shí)請求相關(guān)的服務(wù)是否能正常響應(yīng),發(fā)現(xiàn)異常,則消息提醒。(3)遠(yuǎn)程桌面顯示管理。是對各業(yè)務(wù)系統(tǒng)的顯示設(shè)備進(jìn)行監(jiān)控,如手術(shù)麻醉系統(tǒng)的手術(shù)進(jìn)度展示、排隊(duì)叫號(hào)系統(tǒng)的外屏顯示等。這些展示屏幕的監(jiān)控?zé)o法通過網(wǎng)絡(luò)端口或日志系統(tǒng)實(shí)現(xiàn),筆者選用低延遲、高幀速率屏幕共享VNC 服務(wù)器,通過多屏顯示及分屏技術(shù),將重點(diǎn)業(yè)務(wù)系統(tǒng)的顯示屏信息集成到一臺(tái)或多臺(tái)顯示器組成的監(jiān)控平臺(tái)實(shí)現(xiàn)遠(yuǎn)程顯示桌面管理,通過自動(dòng)比對發(fā)現(xiàn)系統(tǒng)異常情形。監(jiān)控平臺(tái)僅使用一臺(tái)或多臺(tái)顯示終端就可以實(shí)現(xiàn)多個(gè)以至數(shù)十個(gè)系統(tǒng)或桌面的監(jiān)控,集成度高,可定制性強(qiáng),運(yùn)行成本低,擴(kuò)展性強(qiáng),支持 vnc、rdp、http 協(xié)議,可捕捉桌面或獨(dú)立窗口系統(tǒng)的顯示界面,并支持進(jìn)一步集成聲音、短信報(bào)警等多種提醒方式,達(dá)到預(yù)警閾值后及時(shí)通知運(yùn)維技術(shù)人員。
目前該監(jiān)控平臺(tái)集成了遠(yuǎn)程會(huì)診系統(tǒng)、手術(shù)麻醉系統(tǒng)、省、市醫(yī)保自助機(jī)、排隊(duì)叫號(hào)、運(yùn)維監(jiān)測、數(shù)據(jù)庫、服務(wù)器時(shí)間、短信服務(wù)器等各業(yè)務(wù)系統(tǒng)顯示屏,如圖1 所示。值班人員可隨時(shí)監(jiān)測各個(gè)系統(tǒng)的運(yùn)行狀態(tài),一旦發(fā)現(xiàn)異??梢匝杆俣ㄎ患皶r(shí)修復(fù),有力保障了醫(yī)療業(yè)務(wù)工作的連續(xù)性。
圖1 運(yùn)維中心監(jiān)控平臺(tái)
2.2 業(yè)務(wù)應(yīng)用狀態(tài)的運(yùn)維監(jiān)控應(yīng)用狀態(tài)的監(jiān)控是通過日志分析實(shí)現(xiàn)對各項(xiàng)業(yè)務(wù)應(yīng)用的監(jiān)控。所有業(yè)務(wù)系統(tǒng)運(yùn)行所依賴的網(wǎng)絡(luò)設(shè)備、服務(wù)器、操作系統(tǒng)均通過日志分散地存儲(chǔ)在不同的機(jī)器上,如果依次登錄每臺(tái)機(jī)器去查閱日志,效率低下且難以進(jìn)行分析和檢索。筆者使用開源的ELK(ElasticSearch、Logstash 和Kiabana) 系統(tǒng)構(gòu)建了集中式日志平臺(tái),通過Logstash 工具對所有網(wǎng)絡(luò)設(shè)備、服務(wù)器、應(yīng)用系統(tǒng)的日志進(jìn)行定期收集、過濾,匯總后存放到ElasticSearch 集群中,Kibana 工具則對 Logstash 和ElasticSearch 提供各類Web 界面格式的日志分析圖表報(bào)告,幫助運(yùn)維人員匯總、分析和搜索重要數(shù)據(jù),從而快速定位錯(cuò)誤,提前預(yù)知風(fēng)險(xiǎn)。日志可分為系統(tǒng)日志、應(yīng)用日志以及業(yè)務(wù)日志,系統(tǒng)日志給運(yùn)維人員使用,應(yīng)用日志給研發(fā)人員使用,業(yè)務(wù)日志給業(yè)務(wù)操作人員使用,通過對日志分析、統(tǒng)計(jì)分析、基線管理確定整個(gè)系統(tǒng)運(yùn)行的正常指標(biāo)范圍,當(dāng)發(fā)現(xiàn)指標(biāo)性能偏移正常許可范圍時(shí),系統(tǒng)進(jìn)行預(yù)警提示,提醒值班人員及時(shí)干預(yù)處理,解決可能存在的故障隱患。
智慧運(yùn)維監(jiān)控平臺(tái)強(qiáng)化主動(dòng)監(jiān)控,通過線上與線下相結(jié)合,實(shí)現(xiàn)7×24 h 自動(dòng)巡檢,做到事前預(yù)警,所有故障提前感知、智能定位、智能解決,消除被動(dòng)服務(wù),快速排查問題根源,縮短處理時(shí)間,真正做到智能高效運(yùn)維。通過智慧化集成運(yùn)維監(jiān)控平臺(tái)實(shí)現(xiàn)運(yùn)維流程化、主動(dòng)性管理以來,有效防止了計(jì)劃外停機(jī)故障的發(fā)生。通過建立一體化監(jiān)控和智能化運(yùn)維服務(wù)平臺(tái),提高了IT 部門的工作效率和管理水平,提升了臨床、醫(yī)技科室在信息化使用方面的滿意度。
隨著智慧化醫(yī)院建設(shè)的飛速發(fā)展,疫情防控工作的常態(tài)化運(yùn)行,醫(yī)院智慧運(yùn)維的要求會(huì)越來越高,運(yùn)維平臺(tái)還需要不斷完善,更加精細(xì)、人性化的后續(xù)功能仍在開發(fā)實(shí)施中。系統(tǒng)可改善之處主要包括運(yùn)維流程改造[6,7]、運(yùn)維部門的精細(xì)化管理[8,9]等,需要與應(yīng)用部門進(jìn)一步磨合并持續(xù)改進(jìn)某些煩瑣流程,應(yīng)用大數(shù)據(jù)分析技術(shù)對運(yùn)維工作量按照不同顆粒度進(jìn)行趨勢分析、輔助管理決策等,借助信息化建立更加有效的運(yùn)維管理和評價(jià)機(jī)制,提高IT部門的工作效率和管理水平。