宿 磊,車方毅,雷 楊,洪梅子,李 鵬
(國網(wǎng)湖北省電力公司電力科學研究院,湖北 武漢 430077)
一起配電自動化系統(tǒng)主站雙機切換故障的分析及處理
宿 磊,車方毅,雷 楊,洪梅子,李 鵬
(國網(wǎng)湖北省電力公司電力科學研究院,湖北 武漢 430077)
圍繞某配電自動化主站發(fā)生的一起前置服務器雙機切換失敗故障的分析及處理過程,從故障現(xiàn)象入手,剖析了故障產(chǎn)生的原因,給出了故障處理的方法和驗證過程,并提出了針對性的預防措施。
配電自動化;主站系統(tǒng);事故分析
配電自動化是提高供電可靠性、擴大供電能力、實現(xiàn)高效經(jīng)濟運行的重要手段[1],自上個世紀末已經(jīng)推廣應用[2-4]。本文針對某配電自動化主站發(fā)生的一起前置服務器雙機切換失敗導致監(jiān)控功能喪失的故障,從故障現(xiàn)象入手,梳理了故障發(fā)生經(jīng)過,分析了故障產(chǎn)生的原因,給出了故障處理的方法和驗證手段,并在最后提出了針對性的預防措施。
系統(tǒng)故障發(fā)生前,某配電自動化系統(tǒng)SCADA 1號服務器為SCADA應用主服務器,SCADA 2號服務器熱備用。兩臺前置服務器分別采集一半的終端信息,內(nèi)部應用通過負載均衡的方式實現(xiàn)切換。
按照設計,當1臺SCADA服務器出現(xiàn)故障時,備用的SCADA服務器會接管SCADA應用成為主服務器,故障SCADA服務器重新上線后作為備用服務器。2臺SCADA服務器的主備關系既可以在故障時自動切換,也可以在操作系統(tǒng)應用中手動切換。當1臺前置服務器出現(xiàn)故障時,配電終端與之TCP/IP鏈接中斷,需重新鏈接至另一臺前置服務器。
系統(tǒng)拓撲結構如圖1所示。
圖1 配電自動化系統(tǒng)主站SCADA與前置服務器拓撲Fig.1 Topology of master station of distribution automation system SCADA and its front-end servers
某日早上8點配調(diào)監(jiān)控班人員在工作站操作時發(fā)現(xiàn)系統(tǒng)不能正常使用,并通知自動化班技術人員。技術人員發(fā)現(xiàn)SCADA 1號服務器宕機,電源燈顯黃燈,無法ping通SCADA 1號服務器的IP。技術人員冷啟動SCADA 1號服務器,然后啟動了SCA?DA 1號服務器應用服務,并在工作站上手動進行了應用重啟動操作sam_ctl stop,sam_ctl start fast,上述操作后,配電自動化系統(tǒng)主站功能恢復正常。
故障期間,SCADA應用未進行主備切換,導致系統(tǒng)不能正常運行,前置服務器采集的數(shù)據(jù)不能正常寫入數(shù)據(jù)庫,系統(tǒng)喪失監(jiān)控功能,造成0點57分至8點55分內(nèi)歷史數(shù)據(jù)丟失。
受SCADA應用中斷的影響,故障期間系統(tǒng)喪失監(jiān)控功能,前置服務器采集的數(shù)據(jù)不能正常寫入數(shù)據(jù)庫,造成8 h的歷史數(shù)據(jù)丟失,如圖2所示。
圖2 終端歷史數(shù)據(jù)曲線Fig.2 Terminal historical data curve
SCADA 1號服務器共配置6組電源模塊,采用N-N冗余,即最多可失去3組電源模塊而不影響正常運行。
現(xiàn)場觀察服務器面板狀態(tài)指示燈情況,發(fā)現(xiàn)其正面指示燈情況正常,背面電源模塊1、2、3、4指示燈熄滅,電源模塊5、6和6組散熱模塊指示燈正常,如圖3和圖4所示。
圖3 SCADA 1號服務器正面Fig.3 Front view of SCADA server No.1
圖4 SCADA 1號服務器背面Fig.4 Back view of SCADA server No.1
通過登陸服務器板載管理端進行查看,發(fā)現(xiàn)系統(tǒng)狀態(tài)存在4項危急錯誤,如圖5和圖6所示。
圖5 服務器板載管理端系統(tǒng)狀態(tài)Fig.5 Status of server onboard administrative system
圖6 故障電源模塊的狀態(tài)Fig.6 Status of malfunctional power supply
4項危急錯誤分別為電源模塊1、2、3、4失效,導致服務器電源子系統(tǒng)降級運行,服務器系統(tǒng)日志信息如下:
00:35:06 Kernel:Network link is down
00:35:19 OA:Time zone changed to CDT+5
00:35:20 OA:Blade in bay#1 status changed to Un?known
00:35:21 OA:LCD Status is:OK.
00:35:21 OA:A CD-ROM Drive was inserted into the Onboard Administrator.
00:35:21 OA:CD-ROM Drive has no media.
00:35:23 OA:Blade 1 is reporting nominal health sta?tus.
00:35:23 Enclosure-Link:Service started
00:35:24 OA:Blade in bay#1 status changed to OK
00:35:27 ebipa:DHCPD started successfully for IPv4.
00:35:27 OA:Redundant Onboard Administrator de?tected.
00:35:29 Enclosure-Link:Initial topology scan com?pleted successfully
00:35:34 OA:PS Subsystem N+N Redundancy-FAILED
00:35:34 OA:Enclosure Status changed from OK to Degraded.(Power Subsystem)
00:35:34 Redundancy:Service started(ACTIVE)
00:35:35 OA:HTTP server is up for IPv4
00:35:35 OA:Onboard Administrator booted success?fully
00:35:36 OA:DHCP Monitor:DHCPD is running for IPv4.
00:35:41 OA:PS Status Changed:Bay#1 From:un?known To:failed
00:35:41 OA:PS Status Changed:Bay#2 From:un?known To:failed
00:35:41 OA:PS Status Changed:Bay#3 From:un?known To:failed
00:35:41 OA:PS Status Changed:Bay#4 From:un?known To:failed
00:35:55 OA:Internal health status of interconnect in bay 1 changed to OK
00:35:59 OA:VLAN is disabled
08:26:56 OA:Blade in bay 1 has been powered on
08:26:56 OA:Blade 1 is properly cooled.
從日志文件可得出SCADA 1號服務器在0點35分因多路電源模塊故障導致服務器宕機,8點26分冷啟動成功。
按照該系統(tǒng)主備服務器切換的設計邏輯,每一臺服務器在需要切換前都需要判斷網(wǎng)絡鏈路是否完好。具體實現(xiàn)方式是通過在服務器內(nèi)配置一個“hosts”文件,在文件中除了設置本服務器A、B網(wǎng)IP地址外,還需要設置服務器所在網(wǎng)段的A、B交換機IP地址。若服務器能ping通相應的交換機,則判斷為網(wǎng)絡鏈路完好,然后再進行相應的切換邏輯判斷。典型的hosts文件結構如下:
#Do not remove the following line,or various pro?grams
#that require network functionality will fail.
127.0.0.1 localhost loopback
∷1 localhost6.localdomain6 localhost6
192.100.11.172 cxgw1-1
192.100.12.172 cxgw1-2
192.100.11.156 cxsca1-1
192.100.12.156 cxsca1-2
192.100.11.158 cxfes4-1
192.100.12.158 cxfes4-2
200.10.1.1 cxfes4-3
192.100.11.252 switch-1
192.100.12.254 switch-2
200.10.1.252 switch-3
故障發(fā)生后,現(xiàn)場查閱SCADA 1號、2號服務器與前置1號、2號服務器的hosts文件,發(fā)現(xiàn)其交換機地址均配置為SCADA 1號服務器的IP地址,在SCADA 1號機宕機后,所有服務器均不能ping通SCADA1號服務器的IP地址,各服務器均判斷網(wǎng)絡離線,SCADA 2號服務器因誤判網(wǎng)絡離線未進行切換,導致系統(tǒng)應用離線。
通過修改受影響服務器中的hosts文件內(nèi)容,將判網(wǎng)絡鏈路狀態(tài)的IP地址改為各A、B網(wǎng)交換機的IP后,進行SCADA服務器主備切換測試,通過斷開網(wǎng)絡鏈接等方式模擬SCADA服務器故障場景,測試過程中服務器能正確進行主備切換,并未影響到SCADA業(yè)務,經(jīng)測試證明結果正確。同時,作為臨時措施,保證SCADA 1號服務器電源模塊至少有4組可用,并通知硬件維保廠商徹底處理服務器電源故障。
(1)此主站在工程驗收時進行過所有雙重化配置服務器的主備功能切換測試,本次故障因內(nèi)部配置文件設置錯誤,導致SCADA功能喪失,應加強現(xiàn)場維護工作的監(jiān)護管理。
(2)現(xiàn)場查看時發(fā)現(xiàn)部分服務器電源模塊的運行燈均只有3組顯示正常,不滿足N-N的配置要求。應加強日常巡視,排查其冗余電源模塊功能是否完好。
本文具體描述了一起配電自動化系統(tǒng)主站雙機切換失敗故障的現(xiàn)象及分析處理過程,從故障現(xiàn)象入手,剖析了故障產(chǎn)生的原因,給出了故障處理的方法和驗證過程,并提出了針對性的預防措施,對配電自動化系統(tǒng)的調(diào)試及運維工作的開展有一定的參考作用。
(References)
[1]鄭毅,劉天琪,洪行旅,等.中心城市大型配電自動化設
計方案與應用[J].電力系統(tǒng)自動化,2012,36(18):49-53.ZHENG Yi,LIU Tianqi,HONG Xinglv,et al.Design scheme and application of large-scale distribution automation project for central cities[J].Automation of Electric Power System,2012,36(18):49-53.
[2]陳堂,趙祖康,陳星鶯,等.配電系統(tǒng)及其自動化技術[M].北京:中國電力出版社,2002.CHEN Tang,ZHAO Zukang,CHEN Xingying,et al.Distribution system and the automation technology[M].Beijing:China Electric Power Press,2002.
[3]劉健,趙樹仁,張小慶.中國配電自動化的進展及若干建議[J].電力系統(tǒng)自動化,2012,36(19):12-16.LIU Jian,ZHAO Shuren,ZHANG Xiaoqing.Ad?vances of distribution automation in China and some suggestions[J].Automation of Electric Power Systems,2012,36(19):12-16.
[4]沈兵兵,吳琳,王鵬.配電自動化試點工程技術特點及應用成效分析[J].電力系統(tǒng)自動化,2012,36(18):27-32.SHEN Bingbing,WU Lin,WANG Peng.Technologi?cal characteristics and application effects analysis of distribution automation pilot projects[J].Automation of Electric Power Systems,2012,36(18):27-32.
Fault Analysis and Treatment of Master Station of Distribution Automation System Hot Redundancy Failure
SU Lei,CHE Fangyi,LEI Yang,HONG Meizi,LI Peng
(State Grid Hubei Electric Power Research Institute,Wuhan Hubei430077,China)
This paper focuses on the fault analysis and treatment of the two front-end server hot redundancy failure.Cause of failure is investigated and verification method is presented along with corresponding precaution.
distribution automation system;master station;fault analysis
TM76
B
1006-3986(2016)11-0032-04
10.19308/j.hep.2016.11.007
2016-10-16
宿 磊(1989),男,湖北武漢人,碩士,工程師。