徐曉靜
(湖南省電力公司株洲電業(yè)局,湖南株洲 412000)
一例EMS磁盤陣列故障分析及改進(jìn)
徐曉靜
(湖南省電力公司株洲電業(yè)局,湖南株洲 412000)
針對(duì)株洲電網(wǎng)EMS系統(tǒng)主數(shù)據(jù)庫磁盤陣列存在的隱患故障進(jìn)行原因分析,提出有效的解決和改進(jìn)方案。經(jīng)試驗(yàn)和實(shí)踐結(jié)果證明磁盤陣列故障問題得以解決,可提高數(shù)據(jù)庫穩(wěn)定性,確保電網(wǎng)調(diào)度安全可靠。
株洲電網(wǎng);EMS系統(tǒng);數(shù)據(jù)庫;磁盤陣列;UPS
EMS系統(tǒng) (能量管理系統(tǒng))是調(diào)度控制中心實(shí)時(shí)、準(zhǔn)確地獲取電網(wǎng)運(yùn)行情況,并及時(shí)控制調(diào)整電網(wǎng)安全、經(jīng)濟(jì)、可靠運(yùn)行的重要紐帶〔1〕。隨著株洲電網(wǎng)規(guī)模不斷擴(kuò)大,電網(wǎng)結(jié)構(gòu)日趨復(fù)雜,特別是2007年,隨著株洲地區(qū)220 kV及以下變電站全部實(shí)現(xiàn)無人值班,EMS系統(tǒng)在株洲電網(wǎng)運(yùn)行調(diào)度中發(fā)揮出越來越重要的作用。數(shù)據(jù)庫磁盤陣列是EMS系統(tǒng)的核心組成部分,存儲(chǔ)了所有系統(tǒng)處理參數(shù)和電網(wǎng)數(shù)據(jù),其穩(wěn)定運(yùn)行是調(diào)度控制中心對(duì)電網(wǎng)及時(shí)準(zhǔn)確調(diào)度的重要保障。
株洲EMS系統(tǒng)是2001年投入運(yùn)行的,近10年的時(shí)間里,株洲電網(wǎng)飛速發(fā)展,接入EMS系統(tǒng)的廠站數(shù)已由2001年的36個(gè)擴(kuò)展到了如今的60多個(gè),在電網(wǎng)運(yùn)行調(diào)度中發(fā)揮了重要的作用。該系統(tǒng)主要由前置服務(wù)器、數(shù)據(jù)庫服務(wù)器、磁盤陣列、高級(jí)應(yīng)用服務(wù)器、數(shù)據(jù)采集服務(wù)器、WEB服務(wù)器、交換機(jī)、路由器及各種終端應(yīng)用工作站等設(shè)備組成,其主要功能部分都采用雙機(jī)雙網(wǎng)冗余配置〔1-2〕。
EMS系統(tǒng)核心部分?jǐn)?shù)據(jù)庫模塊采用主、備數(shù)據(jù)庫冗余配置。主數(shù)據(jù)庫由2臺(tái)數(shù)據(jù)庫服務(wù)器和磁盤陣列組成,系統(tǒng)處理參數(shù)和電網(wǎng)數(shù)據(jù)存儲(chǔ)在磁盤陣列中。備數(shù)據(jù)庫建立在1臺(tái)前置服務(wù)器上,前置機(jī)硬盤用來存儲(chǔ)參數(shù)和數(shù)據(jù)。當(dāng)主數(shù)據(jù)庫出現(xiàn)問題時(shí),系統(tǒng)自動(dòng)切至備數(shù)據(jù)庫,當(dāng)主數(shù)據(jù)庫恢復(fù)時(shí),同步程序?qū)鋽?shù)據(jù)庫的數(shù)據(jù)恢復(fù)到主數(shù)據(jù)庫中,以保持磁盤陣列中歷史數(shù)據(jù)完整性。
EMS系統(tǒng)設(shè)備的供電采用2路主、備市電通過并聯(lián)式UPS穩(wěn)壓供電,其中主數(shù)據(jù)庫的磁盤陣列因?qū)﹄妷翰▌?dòng)很敏感,在并聯(lián)式UPS后還增加了內(nèi)置電池的UPS進(jìn)行雙重穩(wěn)壓。
2010年8—9 月,主數(shù)據(jù)庫磁盤陣列先后2次出現(xiàn)不能正常讀寫數(shù)據(jù),數(shù)據(jù)庫自動(dòng)切至備數(shù)據(jù)庫的現(xiàn)象。造成此問題的可能原因有如下幾點(diǎn):
(1)機(jī)房溫度、濕度短時(shí)間不符合標(biāo)準(zhǔn),引起數(shù)據(jù)庫磁盤陣列等敏感設(shè)備不能正常工作;
(2)主數(shù)據(jù)庫容量超過正常工作容量,引起數(shù)據(jù)庫讀寫異常;
(3)主數(shù)據(jù)庫供電模塊設(shè)備出現(xiàn)問題,穩(wěn)壓、持續(xù)供電作用失效。
檢查分析機(jī)房相應(yīng)檢測(cè)及環(huán)境設(shè)備運(yùn)行記錄及對(duì)數(shù)據(jù)庫事件日志進(jìn)行排查:
(1)機(jī)房配置的空調(diào)、空氣凈化器等設(shè)備運(yùn)行正常。運(yùn)行巡視記錄表明機(jī)房溫度、濕度保持在正常范圍,環(huán)境要素符合技術(shù)要求,數(shù)據(jù)庫日志中無溫度、濕度引起磁盤陣列異常的事件記錄。
(2)數(shù)據(jù)庫容量實(shí)時(shí)監(jiān)測(cè)工具運(yùn)行正常,當(dāng)數(shù)據(jù)庫已用容量為總?cè)萘康?0%時(shí),監(jiān)測(cè)工具會(huì)正常報(bào)警提示。運(yùn)行維護(hù)記錄表明,數(shù)據(jù)庫容量達(dá)到90%時(shí),進(jìn)行了及時(shí)清理,數(shù)據(jù)庫日志中無數(shù)據(jù)庫容量超過正常工作容量的事件記錄。
(3)查看主數(shù)據(jù)庫出現(xiàn)異常時(shí)間段內(nèi)的數(shù)據(jù)庫日志,發(fā)現(xiàn)有數(shù)據(jù)庫服務(wù)器無法正常連接使用磁盤陣列的事件記錄。同時(shí)查看這段時(shí)間電網(wǎng)開關(guān)線路的歷史事項(xiàng)記錄,發(fā)現(xiàn)異?,F(xiàn)象出現(xiàn)時(shí),機(jī)房市電供應(yīng)的相關(guān)變電站有供電線路跳閘引起機(jī)房主、備電源切換記錄。人工模擬機(jī)房市電供應(yīng)主、備電源切換,主數(shù)據(jù)庫出現(xiàn)了不能正常工作,切至備用數(shù)據(jù)庫的現(xiàn)象。主數(shù)據(jù)庫磁盤陣列供電模塊的雙重穩(wěn)壓結(jié)構(gòu),本身能抵抗市電主、備電源切換引起的電壓波動(dòng),但現(xiàn)在雙重穩(wěn)壓結(jié)構(gòu)的穩(wěn)壓、持續(xù)供電作用失效,由此可確定主數(shù)據(jù)庫磁盤陣列供電模塊的設(shè)備出現(xiàn)了問題。
因主數(shù)據(jù)庫的磁盤陣列是對(duì)電壓波動(dòng)敏感性高的設(shè)備,所以采用了并聯(lián)式UPS和內(nèi)置電池UPS3進(jìn)行雙重穩(wěn)壓,并聯(lián)UPS由UPS1和UPS2并聯(lián)組成。磁盤陣列供電流程如圖1,市電穩(wěn)定時(shí),由市電主電源經(jīng)并聯(lián)式UPS和UPS3雙重穩(wěn)壓后供電給磁盤陣列;當(dāng)市電出現(xiàn)大的波動(dòng),市電電源主備切換的短暫瞬間,并聯(lián)式UPS和UPS3會(huì)切為電池供電,進(jìn)行雙重穩(wěn)壓,保證磁盤陣列供電穩(wěn)定性和持續(xù)性〔3〕。目前雙重穩(wěn)壓結(jié)構(gòu)的穩(wěn)壓、持續(xù)供電作用失效,問題設(shè)備應(yīng)是圖中虛線所示,即并聯(lián)式UPS及電池組,或是UPS3。
圖1 磁盤陣列供電流程圖
分別對(duì)UPS1,UPS2和UPS3進(jìn)行設(shè)備放電試驗(yàn)。對(duì)UPS1,UPS2及電池組進(jìn)行放電試驗(yàn),設(shè)備放電正常。對(duì)UPS3進(jìn)行放電試驗(yàn),發(fā)現(xiàn)內(nèi)部電池老化失效。由測(cè)試結(jié)果可知:失效設(shè)備為后備式UPS3。找到問題設(shè)備后,購買新的內(nèi)置電池UPS進(jìn)行更換。
主數(shù)據(jù)庫磁盤陣列供電采用了并聯(lián)式UPS和內(nèi)置電池UPS3進(jìn)行雙重穩(wěn)壓,但UPS3存在單點(diǎn)風(fēng)險(xiǎn)。為進(jìn)一步鞏固磁盤陣列供電穩(wěn)定性,消除單點(diǎn)風(fēng)險(xiǎn),增加內(nèi)置電池UPS4與UPS3并聯(lián)。如圖2所示為改進(jìn)后的磁盤陣列供電流程圖。當(dāng)UPS3和UPS4都正常時(shí),負(fù)載均衡供電,當(dāng)UPS3出現(xiàn)問題時(shí),UPS4承擔(dān)所有負(fù)載,不影響供電模塊正常供電穩(wěn)壓。通過改進(jìn)磁盤陣列供電模塊,消除了單點(diǎn)風(fēng)險(xiǎn),提高了磁盤陣列供電穩(wěn)定性。
圖2 改進(jìn)后的磁盤陣列供電流程圖
實(shí)施處理改進(jìn)方案后,人工切換機(jī)房市電主備電源,模擬市電波動(dòng),磁盤陣列運(yùn)行正常,主數(shù)據(jù)庫正常。2011年1月,機(jī)房市電供應(yīng)相關(guān)變電站因天氣原因開關(guān)線路跳閘,引起到調(diào)度大樓自動(dòng)化機(jī)房的市電輸入波動(dòng),市電電源由主切為備,主數(shù)據(jù)庫磁盤陣列仍運(yùn)行正常,未受影響。截止2011年10月,先后出現(xiàn)了3次市電供應(yīng)波動(dòng)情況,市電電源由主切為備,主數(shù)據(jù)庫磁盤陣列仍運(yùn)行正常。試驗(yàn)和實(shí)踐結(jié)果證明,磁盤陣列供電模塊的穩(wěn)壓作用可靠,消除了市電波動(dòng)對(duì)主數(shù)據(jù)庫磁盤陣列的影響,提高了數(shù)據(jù)庫穩(wěn)定性。
文中針對(duì)因磁盤陣列供電模塊UPS穩(wěn)壓失效而造成磁盤陣列運(yùn)行異常的故障進(jìn)行了分析,實(shí)施了技術(shù)改進(jìn),經(jīng)檢驗(yàn)結(jié)果證明解決方法正確有效,消除了數(shù)據(jù)庫磁盤陣列安全隱患,提高了EMS系統(tǒng)數(shù)據(jù)庫穩(wěn)定性,確保電網(wǎng)調(diào)度控制安全、經(jīng)濟(jì)、可靠地運(yùn)行。
〔1〕龔強(qiáng),王津.地區(qū)電網(wǎng)調(diào)度自動(dòng)化技術(shù)與應(yīng)用〔M〕.北京:中國電力出版社,2005:284-321.
〔2〕株洲地區(qū)電網(wǎng)2010年自動(dòng)化年度運(yùn)行方式〔Z〕.株洲:株洲電業(yè)局,2010:5-15.
〔3〕周志敏.UPS電路結(jié)構(gòu)與工程應(yīng)用〔J〕.UPS應(yīng)用,2006(1):54-56.
TM734
B
1008-0198(2011)06-0051-02
10.3969/j.issn.1008-0198.2011.06.016
2011-09-27