劉君發(fā),胡文皖,胡鵬
(福建寧德核電有限公司,福建福鼎,355200)
某核電廠分散控制系統(tǒng)(簡(jiǎn)稱DCS)根據(jù)設(shè)計(jì)安全等級(jí)不同劃分為NC級(jí)(非安全級(jí))及1E級(jí)(安全級(jí)),盡管二者可以各自獨(dú)立的與其對(duì)應(yīng)安全等級(jí)設(shè)備進(jìn)行聯(lián)動(dòng),但共用了同一人機(jī)交互平臺(tái),因此不可避免的要進(jìn)行數(shù)據(jù)交互[1]。
根據(jù)交互數(shù)據(jù)類型的不同,在NC/1E側(cè)分別配置有三對(duì)網(wǎng)關(guān),依次命名為L(zhǎng)1a網(wǎng)關(guān)、L1b網(wǎng)關(guān)、L2網(wǎng)關(guān)。三種網(wǎng)關(guān)根據(jù)交互數(shù)據(jù)類型的不同軟件配置上存在細(xì)微差異。從設(shè)備運(yùn)行可靠性角度考慮,設(shè)計(jì)上對(duì)每一種網(wǎng)關(guān)都是冗余配置的。網(wǎng)關(guān)冗余配置的類型為主從冗余,即一臺(tái)工作為主機(jī)、一臺(tái)工作為從機(jī),主從機(jī)均分別從對(duì)側(cè)網(wǎng)關(guān)接收數(shù)據(jù)但僅由主機(jī)向人機(jī)界面?zhèn)魉蛿?shù)據(jù)。主從機(jī)間通過專用網(wǎng)絡(luò)“R網(wǎng)”彼此進(jìn)行數(shù)據(jù)讀取、傳輸,以識(shí)別主從狀態(tài)及網(wǎng)關(guān)運(yùn)行情況。當(dāng)主機(jī)發(fā)生故障時(shí),從機(jī)自動(dòng)升為主機(jī)來執(zhí)行數(shù)據(jù)傳輸功能。因此,“R網(wǎng)”運(yùn)行狀況的好壞直接決定了主從冗余網(wǎng)關(guān)互為備用狀態(tài)的穩(wěn)定性。
本文將結(jié)合某核電廠實(shí)例對(duì)主從冗余網(wǎng)關(guān)“R網(wǎng)”故障的模式進(jìn)行分析,并給出貼近生產(chǎn)現(xiàn)場(chǎng)的維修策略。
2020年9月25日07:02:52,主控制室觸發(fā)1KCS006KA2(報(bào)警名稱),至8:33:30恢復(fù),1KCS006KA2持續(xù)1.5小時(shí),期間全日志(記錄所有事件信息的列表)伴隨有“61號(hào)非安全級(jí)網(wǎng)關(guān)(L1b網(wǎng)關(guān))R網(wǎng)故障”(閃發(fā)1s/次,共計(jì)4次)。全日志信息如圖1所示。
圖1 9月25日1KCS006KA2報(bào)警觸發(fā)全日志
同樣故障現(xiàn)象,分別在9月25日11時(shí)、9月26日11時(shí)、9月26日22時(shí)、9月27日6時(shí)出現(xiàn),區(qū)別僅在于1KCS006KA2持續(xù)時(shí)間不同。
1.2.1 1KCS006KA2報(bào)警觸發(fā)原因
1KCS006KA2為B列KCS機(jī)柜綜合故障報(bào)警,故障點(diǎn)需結(jié)合全志日比對(duì)就地機(jī)柜進(jìn)行定位,最終定位為1E側(cè)L1b-GWP-B(安全級(jí)側(cè)B列網(wǎng)關(guān))故障報(bào)警。
讀取1E側(cè)網(wǎng)關(guān)日志,如圖2所示。
圖2 9月25日1KCS006KA2報(bào)警觸發(fā)KCS網(wǎng)關(guān)日志
日志記錄了07:02:50,1E側(cè)L1b-GWP-B網(wǎng)關(guān)接受到NC側(cè)送去的“L1bgwpb NC-GWP-RecvstatusFailuer”即“NC側(cè)L1b-B網(wǎng)關(guān)狀態(tài)故障”信息,1E網(wǎng)關(guān)再通過通訊反饋到NC側(cè)觸發(fā)報(bào)警。
因此,1E側(cè)L1b-B網(wǎng)關(guān)收到NC側(cè)L1b-B網(wǎng)關(guān)狀態(tài)故障信息是1KCS006KA2觸發(fā)的原因。
1.2.2 1E側(cè)L1b-B網(wǎng)關(guān)收到NC側(cè)L1b-B網(wǎng)關(guān)狀態(tài)故障原因
1KCS006KA2觸發(fā)期間,全日志閃發(fā)4次“61號(hào)非安全級(jí)網(wǎng)關(guān)R網(wǎng)故障”,除此之外未記錄到NC側(cè)L1b網(wǎng)關(guān)A/B機(jī)相關(guān)任何故障信息。
查詢趨勢(shì)(如圖3所示),發(fā)現(xiàn)在1KCS006KA2觸發(fā)期間,NC側(cè)L1b網(wǎng)關(guān)計(jì)數(shù)器(一種網(wǎng)關(guān)自加運(yùn)算程序)計(jì)算速率明顯降低,且NC側(cè)L1b網(wǎng)關(guān)A/B機(jī)CPU負(fù)荷均有一定程度的降低。
圖3 9月25日1KCS006KA2報(bào)警期間計(jì)數(shù)器及CPU負(fù)荷趨勢(shì)
根據(jù)網(wǎng)關(guān)設(shè)計(jì)原理,主從冗余網(wǎng)關(guān)設(shè)計(jì)有用于監(jiān)視彼此狀態(tài)的網(wǎng)絡(luò)—即“R網(wǎng)”。NC側(cè)L1b網(wǎng)關(guān)A/B機(jī)通過“R網(wǎng)”實(shí)時(shí)傳送“數(shù)據(jù)包”用于彼此狀態(tài)監(jiān)視,當(dāng)“R網(wǎng)”出現(xiàn)故障但未徹底斷開時(shí),冗余主從機(jī)間數(shù)據(jù)交互會(huì)存在丟包現(xiàn)象。當(dāng)“數(shù)據(jù)包”丟包率達(dá)到預(yù)設(shè)閾值時(shí)將在全日志報(bào)出“61號(hào)非安全級(jí)網(wǎng)關(guān)R網(wǎng)故障”,同時(shí)將由從機(jī)發(fā)送“NC側(cè)L1b-從機(jī)網(wǎng)關(guān)狀態(tài)故障”數(shù)據(jù)包至1E側(cè)網(wǎng)關(guān),告知對(duì)側(cè)本機(jī)存在故障。
冗余主從機(jī)間數(shù)據(jù)交互丟包到達(dá)閾值時(shí)將觸發(fā)“冗余超時(shí)”故障,設(shè)計(jì)機(jī)制會(huì)將網(wǎng)關(guān)運(yùn)算周期自動(dòng)降速,由原來的50ms降至500ms,表現(xiàn)出來的現(xiàn)象就是網(wǎng)關(guān)計(jì)數(shù)器計(jì)算速率降低、網(wǎng)關(guān)CPU利用率降低帶來的負(fù)荷下降。
因此,NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障是導(dǎo)致1E側(cè)L1b-B網(wǎng)關(guān)收到NC側(cè)L1b-B網(wǎng)關(guān)狀態(tài)故障的原因。
匯總?cè)罩炯?E網(wǎng)關(guān)日志,形成1KCS006KA2報(bào)警時(shí)序流如表1所示。
表1 9月25日1KCS006KA2報(bào)警時(shí)序流
L 1 b g w p b時(shí)間更新成功(L 1 b g w p b T i m e-C h a n g e-F a i l e d r e c o v e r e d)8:3 3:3 0 K C S 0 0 6 K A 2報(bào)警恢復(fù)(K C S L 1 b g w p b A l a r m)
不難發(fā)現(xiàn)時(shí)序流中存在兩個(gè)異常信息:
(1)1KCS006KA2報(bào)警是持續(xù)性的,而“61號(hào)非安全級(jí)網(wǎng)關(guān)R網(wǎng)故障”是閃發(fā)的;
(2)7:45:20,1E網(wǎng)關(guān)日志顯示1E側(cè)L1b-B網(wǎng)關(guān)已收到NC側(cè)L1b-B網(wǎng)關(guān)狀態(tài)故障的復(fù)位信息,但1KCS006KA2報(bào)警的恢復(fù)確發(fā)生在8:33:30。
這是因?yàn)椋癛網(wǎng)故障”出現(xiàn)后立即發(fā)送信息給1E側(cè)網(wǎng)關(guān),進(jìn)而觸發(fā)1KCS006KA2報(bào)警。而從“R網(wǎng)故障”到全日志記錄到“R網(wǎng)故障”是需要經(jīng)過濾波時(shí)間,如“R網(wǎng)故障”觸發(fā)時(shí)間小于濾波時(shí)間則全日志不會(huì)記錄到“R網(wǎng)故障”,只有觸發(fā)時(shí)間大于濾波時(shí)間的“R網(wǎng)故障”才會(huì)記錄進(jìn)全日志。
1E側(cè)L1b-B網(wǎng)關(guān)收到“NC側(cè)L1b-B網(wǎng)關(guān)狀態(tài)故障”導(dǎo)致的報(bào)警恢復(fù)條件:一是要“NC側(cè)L1b-B網(wǎng)關(guān)狀態(tài)故障”復(fù)位,二是要1E側(cè)網(wǎng)關(guān)“時(shí)間更新成功”。1E側(cè)網(wǎng)關(guān)更新時(shí)間的機(jī)理是每個(gè)整點(diǎn)的第33分30秒向NC側(cè)網(wǎng)關(guān)比對(duì)并更新時(shí)間。由于NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障導(dǎo)致在7:33:30 1E側(cè)L1b-B網(wǎng)關(guān)更新時(shí)間失敗,需要等到下一個(gè)整點(diǎn)的第33分30秒即8:33:30才能再次觸發(fā)時(shí)間比對(duì)并更新,1E側(cè)L1b-B網(wǎng)關(guān)再次向NC側(cè)網(wǎng)關(guān)比對(duì)并更新時(shí)間,此時(shí)NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障已恢復(fù),時(shí)間更新成功進(jìn)而1KCS006KA2報(bào)警復(fù)位。
上述兩條看似異常的信息,實(shí)際與“R網(wǎng)”故障及1E網(wǎng)關(guān)報(bào)警復(fù)位機(jī)理相符。
1.2.3 NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障原因
NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”用于主從冗余網(wǎng)關(guān)監(jiān)視彼此狀態(tài),由主從冗余網(wǎng)關(guān)的“R網(wǎng)”網(wǎng)卡、網(wǎng)線、光電裝換卡、光纖、光纖分配單元組成。
結(jié)合全日志信息、KIC趨勢(shì)信息及1E側(cè)網(wǎng)關(guān)日志信息,可以定位到1KCS006KA2報(bào)警觸發(fā)原因是NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障。但由于“R網(wǎng)”故障時(shí)間遠(yuǎn)短于報(bào)警實(shí)際觸發(fā)時(shí)間且“R網(wǎng)”故障為閃發(fā)式,很難定位到“R網(wǎng)”具體故障點(diǎn),因此采用故障樹模型對(duì)所有可能故障點(diǎn)進(jìn)行分析并制定對(duì)應(yīng)檢修策略[2],故障樹模型如圖4所示。
圖4 NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障樹模型
綜合以上分析,1KCS006KA2報(bào)警觸發(fā)原因?yàn)镹C側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障,涉及四項(xiàng)可能故障點(diǎn),依次為:
(1)光纖公/母頭進(jìn)灰、臟污導(dǎo)致衰減率異常;
(2)L1b-B機(jī)R網(wǎng)網(wǎng)卡故障;
(3)L1b-A機(jī)R網(wǎng)網(wǎng)卡故障;
(4)光電轉(zhuǎn)換卡故障。
根據(jù)NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障樹分析結(jié)論,制定了三步走維修策略:
第一步:檢查光纖公/母頭有無臟污,對(duì)比測(cè)試光纖回路清潔前后衰減率,定位或排除光纖異常故障原因;
第二步:更換L1b-B機(jī)及本側(cè)光電轉(zhuǎn)換卡;
第三步:更換L1b-A機(jī)及本側(cè)光電轉(zhuǎn)換卡。
考慮到運(yùn)行對(duì)機(jī)組控制的安全性及穩(wěn)定性要求,合并執(zhí)行第一步、第二步,執(zhí)行后觀察,如再次出現(xiàn)NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障則執(zhí)行第三步維修策略。
檢修策略執(zhí)行:
檢查光纖公/母頭,未發(fā)現(xiàn)有明顯臟污情況;使用衰減率測(cè)試儀對(duì)比光纖清潔前后指標(biāo),無明顯差異,可排除“光纖臟污”原因。
更換L1b-B機(jī)及本側(cè)光電轉(zhuǎn)換卡,未再次閃發(fā)NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障。
單獨(dú)對(duì)更換下的光電轉(zhuǎn)換卡拷機(jī),未發(fā)現(xiàn)異常;單獨(dú)對(duì)更換下的L1b-B機(jī)拷機(jī),R網(wǎng)偶現(xiàn)丟包情況,因此故障點(diǎn)定位為L(zhǎng)1b-B主機(jī)故障。
主從冗余網(wǎng)關(guān)廣泛應(yīng)用于核電站DCS系統(tǒng),而“R網(wǎng)”作為主從監(jiān)測(cè)機(jī)制落地的載體,其重要性不言而喻。由于“R網(wǎng)”鏈路涉及環(huán)節(jié)眾多,且故障模式多種多樣,因此定位閃發(fā)故障的困難度是較高的?;诤穗娬緦?duì)運(yùn)行安全性、穩(wěn)定性的要求,結(jié)合故障樹模型的分析方式,可快速恢復(fù)設(shè)備運(yùn)行可靠性,通過技術(shù)手段對(duì)脫離系統(tǒng)連接的離線設(shè)備進(jìn)行技術(shù)檢測(cè)最終定位故障點(diǎn)也不失為良策。