丁曉兵,陳朝暉,周兆慶,張 堯
繼電保護裝置單粒子效應(yīng)的測試方法與失效率研究
丁曉兵1,陳朝暉1,周兆慶2,3,張 堯2,3
(1.中國南方電網(wǎng)電力調(diào)度控制中心,廣東 廣州 510530;2.國電南京自動化股份有限公司,江蘇 南京 210003;3.南京國電南自電網(wǎng)自動化有限公司,江蘇 南京 211153)
單粒子效應(yīng)引發(fā)的存儲器軟錯誤對微機繼電保護具有不可忽略的影響。介紹了粒子和高能中子的來源,以及中國部分城市的大氣中子通量。討論了對繼電保護裝置進行中子輻照試驗的方案細(xì)節(jié),以及根據(jù)實驗數(shù)據(jù)求取現(xiàn)場環(huán)境下單粒子失效率的方法。從現(xiàn)有可靠性指標(biāo)出發(fā),推導(dǎo)得到繼電保護裝置單粒子效應(yīng)的可接受失效率。將該指標(biāo)和輻照試驗得出的失效率相比較,可以判斷裝置是否滿足現(xiàn)場運行要求。該方法對評價繼電保護裝置的單粒子失效率具有一定的參考意義。
繼電保護;單粒子效應(yīng);軟錯誤;加速中子輻照試驗;失效率
繼電保護裝置負(fù)責(zé)在電力系統(tǒng)故障時快速切除故障,其可靠性直接影響電力系統(tǒng)的穩(wěn)定運行。近年來微機繼電保護因存儲器軟錯誤(soft errors, SE)而導(dǎo)致的誤動時有報道,如不加以防范將影響繼電保護的正常功能,嚴(yán)重情況下可引起繼電保護裝置的拒動或誤動。
排除設(shè)計、制造因素,長期運行中的芯片也會因為高能粒子撞擊而發(fā)生數(shù)據(jù)改變,稱為單粒子效應(yīng)(single-event effect, SEE)。高能粒子有兩類來源:一是芯片封裝材料中殘留的放射性雜質(zhì)釋放的粒子;二是宇宙射線與地球大氣層作用而產(chǎn)生的中子[1]。單粒子效應(yīng)包括單粒子翻轉(zhuǎn)(SEU)、多位翻轉(zhuǎn)(MBU)、多單元翻轉(zhuǎn)(MCU)、單粒子功能中斷(SEFI)和單粒子閂鎖(SEL)等[2]。單粒子效應(yīng)導(dǎo)致的軟錯誤具有隨機發(fā)生、事后不復(fù)現(xiàn)的特點。
文獻[3]報道了一起SEU導(dǎo)致的繼電保護誤動。文獻[4]提出了一種存儲異常變位的容錯設(shè)計方法,輻照加速試驗表明該方法消除了SEE導(dǎo)致的定值變化、文件系統(tǒng)出錯和裝置宕機等異常。
本文介紹了中國主要城市大氣高能中子微分通量,討論了與保護裝置中子輻照試驗有關(guān)的問題,對中子源選擇、測試對象和加速因子提出建議。根據(jù)加速試驗的觀測結(jié)果并結(jié)合現(xiàn)場輻射水平,推算保護裝置現(xiàn)場運行中的單粒子效應(yīng)失效率。該指標(biāo)與繼電保護裝置故障可接受度比較,形成單粒子效應(yīng)的量化評價結(jié)論。
大氣中子無處不在,其中高能中子(>10 MeV)是地面SEE的主要誘因[1]。影響高能中子數(shù)量的主要因素是海拔[5],中子對保護裝置的影響因地而異。例如羊八井地區(qū)的中子通量是廣州地區(qū)的10倍以上,如圖1所示。
圖1 羊八井、廣州大氣中子能譜
除了海拔,地面中子輻射水平還與經(jīng)緯度和地磁剛度有關(guān),根據(jù)文獻[2]給出的近似公式可以推算出中國部分城市的地面中子輻射水平,如表1所示。
微機繼電保護裝置的存儲器主要包括非易失性存儲器和隨機存取存儲器。非易失性存儲器有兩類:一是NOR Flash用于存放程序;二是NAND Flash用于存放事件記錄與錄波。NOR Flash數(shù)據(jù)翻轉(zhuǎn)后會造成程序加載失敗,裝置上電后無法自舉。NAND Flash數(shù)據(jù)翻轉(zhuǎn)會使保護事件信息丟失。
表1 中國部分城市高能中子(>10 MeV)通量
多數(shù)嵌入式系統(tǒng)的隨機存取存儲器(SRAM或DRAM)既存放代碼也存放數(shù)據(jù),數(shù)據(jù)翻轉(zhuǎn)發(fā)生在代碼段會使繼電保護程序失控,造成誤動、拒動的嚴(yán)重后果,發(fā)生在數(shù)據(jù)段則要視程序中有無冗余邏輯而具體分析,危害性相對較輕。
文獻[3]建議微機繼電保護裝置系統(tǒng)采用雙CPU(保護+保護)冗余架構(gòu)模式,只有兩個CPU都滿足完整的動作出口邏輯后保護才能動作出口,從而顯著降低SEE的不良后果。文獻[4]通過冗余文件系統(tǒng)克服程序Flash的變位,利用FPGA并行計算的能力,在每個中斷周期內(nèi)校驗RAM中的保護代碼,并監(jiān)視諸如定值、壓板狀態(tài)之類的關(guān)鍵數(shù)據(jù)。
芯片廠商通過在存儲器硬件中添加糾錯電路(error checking and correcting, ECC)實現(xiàn)單粒子效應(yīng)防護。具備ECC功能的CPU/FPGA,可以實現(xiàn)位翻轉(zhuǎn)的“糾一檢二”。由于在1個字節(jié)中2個或2個以上的位翻轉(zhuǎn)出現(xiàn)的概率較低,所以ECC被認(rèn)為基本滿足可靠性要求[1]。但ECC邏輯會耗費額外的資源,開啟后RAM的可用容量會下降40%以上,讀寫速率會降低2%左右。
在器件選型階段審核芯片的材料,就可實現(xiàn)對粒子的防范。評估單粒子效應(yīng)的主要工作聚焦在中子輻照上。
單粒子效應(yīng)最準(zhǔn)確的評估方法是在高海拔地區(qū)進行實時測試(real-time test),但該方法需要利用大量并行設(shè)備來減少所需的測試時間[6-7]。用加速器可以在很短的時間內(nèi)向測試對象注入20年以上的大氣中子劑量,快速評估芯片、插件和裝置的抵御能力[2]??蛇x的中子加速試驗環(huán)境有14 Mev單能中子源和散裂中子源,散裂中子源的能譜類似于大氣中子環(huán)境,測試效果更有說服力[8]。
測試單粒子效應(yīng)有面向元件和面向系統(tǒng)兩種方法,前者測試芯片,后者測試整機。面向芯片的測試方法雖然相對成熟[9-10],但是存在以下不足。
1) CPU/FPGA內(nèi)部的Cache和一些專用寄存器,本質(zhì)上也是SRAM,也有位翻轉(zhuǎn)的可能,但芯片在設(shè)計時未提供外部訪問和控制的機制,從而無法測試。
2) 芯片級測試時嵌入系統(tǒng)只有部分電路工作,各元件之間的互動不充分。單粒子效應(yīng)與器件工作溫度有關(guān),溫度越高越顯著。只有在整機中運行整機程序,才能讓芯片達到真實的溫升。
3) 很難從芯片軟錯誤率(soft error rate, SER)推算系統(tǒng)的錯誤率。統(tǒng)計表明,器件每發(fā)生10個位翻轉(zhuǎn)在系統(tǒng)級層面會輸出1~2個錯誤[9],但二者的關(guān)系難以進一步明確。翻轉(zhuǎn)發(fā)生在代碼段中,發(fā)生的位置、時機不同造成的影響也不同。發(fā)生在數(shù)據(jù)段中可能會被三取二、多次采集多次判等應(yīng)用邏輯消除。此外,保護裝置采用何種雙CPU冗余模式,對是否誤動/拒動也有很大的影響。
4) 含氫元素豐富的高分子材料,如PCB中的環(huán)氧樹脂會顯著衰減中子的能量,繼而降低SEE發(fā)生的概率[1-2]。當(dāng)機箱中有多張PCBA時,這個衰減作用不可忽略。
綜上,從工程實際的角度出發(fā),推薦以繼電保護裝置整機作為單粒子效應(yīng)的測試對象。
散裂中子源的中子注量可以比大氣水平高數(shù)千萬倍,測試時間片一般為10~30 min。文獻[4]中當(dāng)中子通量達到大氣強度的5×109倍時,持續(xù)10 min 實驗后,發(fā)現(xiàn)改造前的裝置幾乎每次必然宕機。由此,必須選擇合適的中子通量用于測試。
高能中子對裝置整機的效應(yīng)有角度依賴關(guān)系[2],散裂源輸出的中子束聚焦在有限面積內(nèi)[11]。因為在不同入射方向上,中子能量受金工件和插件的衰減程度有別,中子束流與芯片頂面法線方向角度大小影響測試的效果,所以試驗中應(yīng)調(diào)換裝置和中子束流的相對位置以找到敏感方向。
因單粒子效應(yīng)而導(dǎo)致繼電保護運行異常,是客觀存在的物理現(xiàn)象。ECC技術(shù)和冗余架構(gòu)設(shè)計只能減少異常發(fā)生的概率而不能完全杜絕,工程上只要單粒子異常事件率小于某個程度即視為可接受[12]。
《DL/T 587-2016 繼電保護和安全自動裝置運行管理規(guī)程》中建議:微機保護裝置的使用年限一般不低于12年[13-19],考慮裕度后放大到20年[20-21],推算出可接受失效率為
可推算繼電保護設(shè)備運行中的單粒子效應(yīng)失效率為
表2 異常事件的權(quán)重
用微機繼電保護裝置整機進行中子加速測試。關(guān)閉芯片的ECC功能,在10~30 min內(nèi)向裝置施加20年以上的海平面大氣中子注量。試驗時除了觀察裝置自檢異常、宕機之外,還需加動作門檻90%量考察裝置是否誤動,加動作門檻110%量觀察裝置是否拒動。試驗每個階段完成后,調(diào)取裝置定值和保護動作事件記錄,觀察是否有異常。最后電源重上電,觀察裝置能否自舉。
微機保護裝置內(nèi)存儲器受到粒子轟擊發(fā)生軟錯誤,是一種客觀存在的物理現(xiàn)象。繼電保護從業(yè)人員從軟件和系統(tǒng)架構(gòu)的角度采取了多種加固措施,芯片設(shè)計中ECC功能也在逐步普及,但單粒子效應(yīng)導(dǎo)致的保護裝置異常仍然無法完全避免。
鑒于繼電保護裝置的重要性,有必要盡快形成繼電保護裝置單粒子效應(yīng)的測試方法和可接受度標(biāo)準(zhǔn),用于指導(dǎo)裝置型式試驗。本文推薦用裝置整機進行高能中子加速試驗,求取現(xiàn)場環(huán)境下裝置的故障率和可接受失效率比較,形成具有工程實用價值的評價方法。該方法對于繼電保護裝置和電力系統(tǒng)的穩(wěn)定安全運行具有參考意義。
[1] NICOLAIDIS M. 現(xiàn)代電子系統(tǒng)軟錯誤[M]. 韓鄭生, 畢津順, 譯. 北京: 電子工業(yè)出版社, 2016.
[2] JESD89A: measurement and reporting of alpha particle and terrestrial cosmic ray-induced soft errors in semiconductor devices[S]. Arlington: JEDEC Solid State Technology Association, 2006.
[3] 周浩, 石磊, 彭濤, 等. 一起繼電保護裝置單粒子翻轉(zhuǎn)軟錯誤分析及應(yīng)對措施[J]. 電力系統(tǒng)保護與控制, 2021, 49(7): 144-149.
ZHOU Hao, SHI Lei, PENG Tao, et al. Analysis and countermeasures of single event upset soft errors in a relay protection device[J]. Power System Protection and Control, 2021, 49(7): 144-149.
[4] 李友軍, 周華良, 鄭玉平, 等. 繼電保護裝置存儲異常變位的容錯設(shè)計與應(yīng)用[J]. 電力系統(tǒng)自動化, 2021, 45(7): 155-162.
LI Youjun, ZHOU Hualiang, ZHENG Yuping, et al. Error-tolerant design and application of relay protection device against unexpected memory bit change[J]. Automation of Electric Power Systems, 2021, 45(7): 155-162.
[5] GORDON M S, GOLDHAGEN P, RODBELL K P, et al. Measurement of the flux and energy spectrum of cosmic-ray induced neutrons on the ground[J]. IEEE Transactions on Nuclear Science, 2004, 51(6): 3427-3434.
[6] 張戰(zhàn)剛, 雷志鋒, 黃云, 等. 基于高海拔地區(qū)的大氣中子單粒子效應(yīng)實時測量試驗研究[J]. 原子能科學(xué)技術(shù), 2022, 56(4): 725-733.
ZHANG Zhangang, LEI Zhifeng, HUANG Yun, et al. Experimental study on real-time measurement of atmospheric-neutron induced single event effect based on high-altitude area[J]. Atomic Energy Science and Technology, 2022, 56(4): 725-733.
[7] ZHANG Zhangang, LEI Zhifeng, TONG Teng, et al. Tibetan-plateau-based real-time testing and simulations of single-bit and multiple-cell upsets in QDRII+ SRAM devices[J]. IEEE Transactions on Nuclear Science, 2019, 66(7): 1368-1373.
[8] 王勛, 張鳳祁, 陳偉, 等. 中國散裂中子源在大氣中子單粒子效應(yīng)研究中的應(yīng)用評估[J]. 物理學(xué)報, 2019, 68(5): 38-47.
Wang Xun, Zhang Fengqi, Chen Wei, et al. Application and evaluation of Chinese spallation neutron source in single-event effects testing[J]. Acta Physica Sinica, 2019, 68(5): 38-47.
[9] XILINX: device reliability report (second half 2020), UG116(v10.13)[R]. 2020.
[10] NGUYEN H T, YAGIL Y, SEIFERT N, et. al. Chip-level soft error estimation method[J]. IEEE Transactions on Device and Materials Reliability, 2005, 5(3): 365-381.
[11] 林倩, 黃奕銘, 張戰(zhàn)剛, 等. 智能手機大氣中子單粒子效應(yīng)試驗研究[J]. 電子產(chǎn)品可靠性與環(huán)境試驗, 2021, 39(增刊1): 46-51.
LIN Qian, HUANG Yiming, ZHANG Zhangang, et al. Experimental study of atmospheric neutron induced single event effects in smartphones[J]. Electronic Product Reliability and Environmental, 2021, 39(S1): 46-51.
[12] 奧康納, 克萊納. 實用可靠性工程[M].金春華, 藍曉理, 譯. 北京: 機械工業(yè)出版社, 2020.
[13] 中國電力企業(yè)聯(lián)合會.繼電保護和安全自動裝置運行管理規(guī)程: DL/T 587—2016[S]. 北京: 中國電力出版社, 2017.
China Electricity Council. Code for operating management of relaying protection and security automatic equipment: DL/T 587—2016[S]. Beijing: China Electric Power Press, 2017.
[14] 賀春, 陳光華, 王朋飛, 等. 高加速壽命試驗在就地化保護裝置可靠性研究中的應(yīng)用[J]. 電力系統(tǒng)保護與控制, 2018, 46(20): 181-186.
HE Chun, CHEN Guanghua, WANG Pengfei, et al. Application of highly accelerated life test in reliability study of outdoor installation protection device[J]. Power System Protection and Control, 2018, 46(20): 181-186.
[15] 黃烽, 鄧勇, 任曉輝, 等. 繼電保護裝置運行年限評價的研究[J]. 電力系統(tǒng)保護與控制, 2017, 45(22): 158-163.
HUANG Feng, DENG Yong, REN Xiaohui, et al. Assessment for service life of relay protection device[J]. Power System Protection and Control, 2017, 45(22): 158-163.
[16] 郭鵬, 王文煥, 詹榮榮, 等. 基于Petri網(wǎng)出現(xiàn)序列的繼電保護業(yè)務(wù)模型[J]. 電力科學(xué)與技術(shù)學(xué)報, 2020, 35(4): 169-175.
GUO Peng, WANG Wenhuan, ZHAN Rongrong, et al. Research on model of protection relay procedure based on the Petri net occurrence sequence[J]. Journal of Electric Power Science and Technology, 2020, 35(4): 169-175.
[17] 楊胡萍, 黃煌, 何志勤, 等. 基于數(shù)據(jù)擬合的繼保設(shè)備失效率調(diào)整因子模型[J]. 中國電力, 2021, 54(9): 96-101.
YANG Huping, HUANG Huang, HE Zhiqin, et al. Adjustment factor model of relay protection equipment failure rate based on data fitting[J]. Electric Power, 2021, 54(9): 96-101.
[18] 索江鐳, 劉琨, 袁亮榮, 等. 繼電保護靜態(tài)模擬并行測試系統(tǒng)構(gòu)建[J]. 廣東電力, 2020, 33(10): 46-55.
SUO Jianglei, LIU Kun, YUAN Liangrong, et al. Construction of parallel test system for relay protection static simulation[J]. Guangdong Electric Power, 2020, 33(10): 46-55.
[19] 葉遠(yuǎn)波, 謝民, 陳曉東, 等. 基于故障率分析的繼電保護系統(tǒng)狀態(tài)檢修策略[J]. 電力系統(tǒng)保護與控制, 2021, 49(7): 167-173.
YE Yuanbo, XIE Min, CHEN Xiaodong, et al. A condition-based maintenance strategy for a relay protection system based on failure probability analysis[J]. Power System Protection and Control, 2021, 49(7): 167-173.
[20] 丁毅, 陳新之, 潘可, 等. 基于電力專用多核異構(gòu)芯片架構(gòu)的低壓保護測控裝置設(shè)計[J]. 南方電網(wǎng)技術(shù), 2020, 14(1): 58-64.
DING Yi, CHEN Xinzhi, PAN Ke, et al. Design of low voltage protection device integrated with measurement and control function based on power dedicated multi-core heterogeneous chip architecture[J]. Southern Power System Technology, 2020, 14(1): 58-64.
[21] BO Zhiqian, LIN Xiangning, WANG Qingping, et al. Developments of power system protection and control, Protection and Control of Modern Power Systems, 2016, 1(1): 1-8.
[22] 梁文武, 朱維鈞, 李輝, 等. 基于粗糙集的智能變電站保護設(shè)備仿生故障診斷方法[J]. 電力系統(tǒng)保護與控制, 2021, 49(21): 132-140.
LIANG Wenwu, ZHU Weijun, LI Hui, et al. A rough set-based bio-inspired fault diagnosis method for smart substation protection equipment[J]. Power System Protection and Control, 2021, 49(21): 132-140.
[23] 張戰(zhàn)剛, 雷志鋒, 童騰, 等. 14 nm FinFET和65 nm平面工藝靜態(tài)隨機存取存儲器中子單粒子翻轉(zhuǎn)對比[J].物理學(xué)報, 2020, 69(5): 133-140.
ZHANG Zhangang, LEI Zhifeng, TONG Teng, et al. Comparison of neutron induced single event upsets in 14 nm FinFET and 65 nm planar static random access memory devices[J]. Acta Physica Sinica, 2020, 69(5): 133-140.
[24] 鄭美松, 王子龍, 涂吉, 等. 可編程器件的選擇性雙模冗余加固方法[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2016, 28(2): 356-362.
ZHENG Meisong, WANG Zilong, TU Ji, et al. A selective dual modular redundancy approach for FPGA hardening technique[J]. Journal of Computer-Aided Design & Computer Graphics, 2016, 28(2): 356-362.
Test method and failure rate of the single-particle effect of a relay protection device
DING Xiaobing1, CHEN Zhaohui1, ZHOU Zhaoqing2, 3, ZHANG Yao2, 3
(1. Dispatching Center of China Southern Power Grid, Guangzhou 510530, China; 2. Guodian Nanjing Automation Co., Ltd.,Nanjing 210003, China; 3. Nanjing SAC Power Grid Automation Co., Ltd., Nanjing 211153, China)
Memory soft errors induced by the single-particle effect have a non-negligible effect on microcomputer relay protection. This paper introduces the sources of Alpha particles and high-energy neutrons, as well as atmospheric neutron fluxes in some cities in China. The details of the neutron irradiation tests on relay protection devices and the method of obtaining the single particle failure rate in the field environment based on experimental data are discussed. Based on the existing reliability metrics, the acceptable failure rate of the single-particle effect of the relay protection device is promoted. Comparing this indicator with the failure rate obtained by the irradiation test, it can be judged whether the device fulfills the requirements of field operation. This method has a certain reference significance for evaluating the failure efficiency of single particles of relay protection devices.
relay protection; single-event effect; soft errors; accelerated neutron irradiation test; failure rate
10.19783/j.cnki.pspc.220310
南方電網(wǎng)公司重點科技項目資助(ZDKJXM20200056)
This work is supported by the Key Scientific and Technological Project of China Southern Power Grid Corporation (No. ZDKJXM20200056).
2022-03-10;
2022-04-28
丁曉兵(1979—),男,通信作者,碩士,高級工程師,從事電力系統(tǒng)繼電保護管理工作;E-mail: dingxb@csg.cn
陳朝暉(1979—),男,博士,高級工程師,從事電力系統(tǒng)繼電保護管理工作;
周兆慶(1973—),男,碩士,從事智能變電站及嵌入式平臺技術(shù)研究。
(編輯 魏小麗)