張貴川
摘 要:防汛調(diào)度決策系統(tǒng),作為水電廠的一套重要的基礎(chǔ)系統(tǒng),對(duì)電廠的安全生產(chǎn)和經(jīng)濟(jì)運(yùn)行有著十分重要的作用。本文針對(duì)防汛調(diào)度決策系統(tǒng)內(nèi)網(wǎng)采集服務(wù)器出現(xiàn)的一系列故障現(xiàn)象,分析了故障出現(xiàn)的原因和處理過程,以及讓系統(tǒng)恢復(fù)正常運(yùn)行的臨時(shí)應(yīng)急處理措施,為水電廠此類故障的分析、處理及防范提供參考。
關(guān)鍵詞:決策系統(tǒng);采集服務(wù)器;數(shù)據(jù)采集;故障
青溪水電廠防汛調(diào)度決策系統(tǒng)是一個(gè)集實(shí)時(shí)數(shù)據(jù)采集與處理、水務(wù)計(jì)算與管理、水文資料整編、水庫水文預(yù)報(bào)、水庫防洪調(diào)度、水庫優(yōu)化調(diào)度、防汛業(yè)務(wù)管理等功能于一體的專用自動(dòng)化系統(tǒng)。整個(gè)系統(tǒng)由數(shù)據(jù)庫、內(nèi)網(wǎng)采集、內(nèi)網(wǎng)通訊、外網(wǎng)通訊、外網(wǎng)web 5臺(tái)服務(wù)器組成,其中內(nèi)網(wǎng)采集服務(wù)器包含有水情數(shù)據(jù)采集、機(jī)組數(shù)據(jù)采集、水務(wù)計(jì)算、數(shù)據(jù)處理、實(shí)時(shí)數(shù)據(jù)處理等功能。
該系統(tǒng)于2007年4月30日投運(yùn),設(shè)計(jì)使用壽命為5年,從2012年底開始,系統(tǒng)故障率明顯增高,由于采集服務(wù)器承擔(dān)的系統(tǒng)工作任務(wù)多,發(fā)生故障的概率也高于其他四臺(tái)服務(wù)器。
1. 故障經(jīng)過及現(xiàn)象
值班員在值班過程中,發(fā)現(xiàn)內(nèi)網(wǎng)工作站上青溪水電廠的水情數(shù)據(jù)和機(jī)組出力數(shù)據(jù)中斷。隨后進(jìn)行遠(yuǎn)程桌面連接進(jìn)行查看,但是從工作站遠(yuǎn)程連接內(nèi)網(wǎng)采集服務(wù)器未能成功,且此時(shí)工作站的故障現(xiàn)象更加嚴(yán)重,所有防汛調(diào)度決策系統(tǒng)相關(guān)的軟件均無法運(yùn)行。
隨后,青溪水庫調(diào)度班技術(shù)員到廠區(qū)對(duì)服務(wù)器進(jìn)行仔細(xì)檢查,經(jīng)過對(duì)5臺(tái)服務(wù)器進(jìn)行檢查,除內(nèi)網(wǎng)采集服務(wù)器故障以外,其余四臺(tái)服務(wù)器運(yùn)行正常,內(nèi)網(wǎng)采集服務(wù)器故障現(xiàn)象,如圖1所示。
在第1次和第2次對(duì)該服務(wù)器進(jìn)行重啟時(shí),系統(tǒng)均順利啟動(dòng),但在進(jìn)行一些操作之后,很快又進(jìn)入圖1所示畫面狀態(tài)。
當(dāng)?shù)谌沃貑r(shí),系統(tǒng)已經(jīng)無法進(jìn)入,彈出故障畫面,如圖2所示。
2. 故障原因分析及應(yīng)對(duì)措施
當(dāng)發(fā)現(xiàn)最初的故障時(shí),青溪水電廠水情數(shù)據(jù)和機(jī)組數(shù)據(jù)同時(shí)中斷,水情數(shù)據(jù)采集軟件(ACSCOMM.EXE)和機(jī)組數(shù)據(jù)采集軟件(CommuniProtocol.exe),均運(yùn)行在內(nèi)網(wǎng)采集服務(wù)器上,初步判斷是由于該服務(wù)器上的數(shù)據(jù)服務(wù)程序(Dbsrv2000.exe)卡死造成以上兩個(gè)數(shù)據(jù)采集軟件均無法正常運(yùn)行。針對(duì)這一故障,進(jìn)行初步處理:遠(yuǎn)程登錄內(nèi)網(wǎng)采集服務(wù)器重啟數(shù)據(jù)服務(wù)程序。但遠(yuǎn)程連接失敗。
當(dāng)工作站上的相關(guān)程序均無法打開,無法遠(yuǎn)程連接采集服務(wù)器,且網(wǎng)絡(luò)正常的情況下,可以判斷是采集服務(wù)器處于死機(jī)狀態(tài)。在進(jìn)入廠區(qū)檢查后,對(duì)死機(jī)狀態(tài)下的采集服務(wù)器進(jìn)行重啟,兩次重啟操作,均在進(jìn)入系統(tǒng)后一段時(shí)間后跳到藍(lán)屏死機(jī)狀態(tài)(如圖1),隨即把相關(guān)情況匯報(bào)給領(lǐng)導(dǎo),并聯(lián)系南瑞技術(shù)人員。
在南瑞技術(shù)人員的指導(dǎo)下,對(duì)采集服務(wù)器進(jìn)行了安全模式下的重啟,但是啟動(dòng)失敗,并跳到黑屏死機(jī)狀態(tài)(如圖2)。此時(shí),南瑞技術(shù)人員下了初步結(jié)論:硬件故障。
采集服務(wù)器死機(jī)時(shí),硬盤指示燈均不亮,在南瑞技術(shù)人員的建議下,檢查硬盤是否出現(xiàn)接觸不良狀況。隨即向領(lǐng)導(dǎo)申請(qǐng),暫時(shí)停掉防汛調(diào)度決策系統(tǒng)的一切工作,對(duì)5臺(tái)服務(wù)器實(shí)施關(guān)機(jī)操作。
整個(gè)系統(tǒng)停掉后,取出了采集服務(wù)器所有硬盤,所有硬盤均被厚厚的灰塵所包裹住,在進(jìn)行清潔處理后,對(duì)采集服務(wù)器進(jìn)行再次重啟,但重啟仍然失敗。
綜上,此次故障的原因?yàn)椋翰杉?wù)器硬件老化,已經(jīng)超出使用壽命年限;采集服務(wù)器運(yùn)算量大,且對(duì)服務(wù)器保養(yǎng)不夠到位。
經(jīng)過多方確認(rèn),最終的結(jié)論是:采集服務(wù)器硬件損壞,已無法啟動(dòng)。由公司領(lǐng)導(dǎo)、公司技術(shù)人員、南瑞技術(shù)人員組成的團(tuán)隊(duì)進(jìn)行了緊急協(xié)商,并提出了以下建議和措施:第一,公司必須立即采購防汛調(diào)度決策系統(tǒng)新的服務(wù)器,并對(duì)該系統(tǒng)進(jìn)行整體改造;第二,防汛調(diào)度決策系統(tǒng)作為水力發(fā)電廠重要的基礎(chǔ)系統(tǒng),必須立即采取措施,讓防汛調(diào)度決策系統(tǒng)在整體改造前,能夠正常運(yùn)行,以支持水電廠安全生產(chǎn)的需要。
3 .該重大缺陷應(yīng)急處理措施
青溪水電廠技術(shù)人員與南瑞技術(shù)人員充分溝通之后,得出了恢復(fù)系統(tǒng)正常運(yùn)行的應(yīng)急處理方案:把運(yùn)行在采集服務(wù)器上的所有程序轉(zhuǎn)移到內(nèi)網(wǎng)通信服務(wù)器或者數(shù)據(jù)庫服務(wù)器上,由于考慮到數(shù)據(jù)庫及決策系統(tǒng)的安全,最終方案是把采集服務(wù)器上的所有程序轉(zhuǎn)移到內(nèi)網(wǎng)通信服務(wù)器中。具體應(yīng)急處理措施如下:
第一步,在方案確定后,完成了對(duì)涉及采集服務(wù)器的所有布線(特別是連接機(jī)組監(jiān)控系統(tǒng)與水情采集系統(tǒng)的布線)的重新梳理,避免在維護(hù)過程中因?yàn)檎`碰導(dǎo)致故障擴(kuò)大。通過在內(nèi)網(wǎng)通訊服務(wù)器上搭建無線網(wǎng)絡(luò),建立起了南瑞技術(shù)人員遠(yuǎn)程協(xié)助的網(wǎng)絡(luò)通道。
第二步,在把之前備份的采集服務(wù)器相關(guān)文件拷貝到內(nèi)網(wǎng)通信服務(wù)器后,首先進(jìn)行恢復(fù)的是水情數(shù)據(jù)采集功能,在恢復(fù)過程中遇到眾多問題,最典型的問題是水情數(shù)據(jù)采集軟件無法與采集平臺(tái)接通,經(jīng)過反復(fù)調(diào)試后發(fā)現(xiàn)是由于無線網(wǎng)卡與本地網(wǎng)卡沖突。
第三步,恢復(fù)機(jī)組數(shù)據(jù)采集功能,經(jīng)過多番嘗試,機(jī)組數(shù)據(jù)采集軟件始終無法連接到監(jiān)控系統(tǒng),無法正常取數(shù)。經(jīng)過不斷排查,最終發(fā)現(xiàn)是由于監(jiān)控系統(tǒng)端只能識(shí)別原采集服務(wù)器IP地址發(fā)出的取數(shù)請(qǐng)求,無法識(shí)別內(nèi)網(wǎng)通訊服務(wù)器的IP地址,只有模擬原采集服務(wù)器IP環(huán)境,才能讓機(jī)組數(shù)據(jù)采集功能正常運(yùn)行,因此選擇了一臺(tái)個(gè)人電腦作為臨時(shí)采集服務(wù)器,把機(jī)組數(shù)據(jù)采集軟件運(yùn)行到該臨時(shí)服務(wù)器下,再與決策系統(tǒng)對(duì)接,機(jī)組數(shù)據(jù)采集功能恢復(fù)。
第四步,把原本運(yùn)行在采集服務(wù)器上的水務(wù)計(jì)算、數(shù)據(jù)處理、實(shí)時(shí)數(shù)據(jù)處理三個(gè)計(jì)算程序逐一轉(zhuǎn)移到內(nèi)網(wǎng)通訊服務(wù)器上運(yùn)行,經(jīng)過不斷調(diào)試,三個(gè)程序均恢復(fù)正常運(yùn)行。
完成以上步驟后,重新啟動(dòng)整個(gè)防汛調(diào)度決策系統(tǒng)并投入運(yùn)行,整個(gè)系統(tǒng)運(yùn)行正常,至此,原本在采集服務(wù)器上的三大功能(水情數(shù)據(jù)采集功能、機(jī)組數(shù)據(jù)采集功能、數(shù)據(jù)計(jì)算功能)恢復(fù)正常運(yùn)行。
4. 結(jié)束語
防汛調(diào)度決策系統(tǒng),作為水電廠的一套重要的基礎(chǔ)系統(tǒng),其運(yùn)行時(shí)的穩(wěn)定性、可靠性對(duì)電廠的安全生產(chǎn)和經(jīng)濟(jì)運(yùn)行有著十分重要的作用,在日常維護(hù)過程中,要求電廠技術(shù)人員必須掌握熟練、高超的系統(tǒng)維護(hù)水平,能在短時(shí)間內(nèi)恢復(fù)系統(tǒng)出現(xiàn)的一切故障。此次重大故障能在短時(shí)間內(nèi)恢復(fù),得益于嚴(yán)格按照備份要求,對(duì)整個(gè)系統(tǒng)進(jìn)行定期數(shù)據(jù)、軟件、網(wǎng)絡(luò)環(huán)境備份,以及電廠相關(guān)技術(shù)人員對(duì)該系統(tǒng)的熟練掌握。在今后的系統(tǒng)維護(hù)工作中,必須注重服務(wù)器、機(jī)柜等設(shè)備的保養(yǎng),并且進(jìn)一步加強(qiáng)系統(tǒng)備份管理和技能水平提升,以避免出現(xiàn)其他類似故障時(shí),決策系統(tǒng)無法恢復(fù)的情況發(fā)生。
(作者單位:廣東省粵電青溪發(fā)電有限責(zé)任公司)