王紅霞,劉鴻瑾,*,張紹林,,李 賓,徐 建,馬遠(yuǎn)航,于薇薇,付寶玲,劉迎輝,鄧 崢,張雷浩
(1.北京軒宇空間科技有限公司,北京 100104; 2.北京控制工程研究所; 3.中國(guó)空間技術(shù)研究院:北京 100094)
空間環(huán)境充滿來(lái)自各種高能粒子和射線的輻射,輻射效應(yīng)可能導(dǎo)致某些航天器集成電路(IC)芯片的失效。并且隨著IC 芯片進(jìn)入納米級(jí)體硅CMOS 先進(jìn)制程節(jié)點(diǎn)后,總電離劑量(TID)效應(yīng)對(duì)芯片的影響逐步降低,而單粒子效應(yīng)(SEE)隨制程技術(shù)節(jié)點(diǎn)的縮小越發(fā)明顯[1]。研究表明,MOSFET的本征抗總劑量能力已經(jīng)超過(guò)100 krad(Si)[2],而先進(jìn)納米級(jí)工藝芯片的單粒子翻轉(zhuǎn)(SEU)閾值較低(≤0.5 MeV·cm2/mg),質(zhì)子直接和非直接電離都可能導(dǎo)致此類芯片的SEU[3]。且隨著IC 芯片尺寸的縮小,晶體管本征增益下降,電源電壓降低,導(dǎo)致可用電壓范圍縮小,高精度、高線性國(guó)產(chǎn)宇航模擬集成電路設(shè)計(jì)難度驟升,在抗輻射加固、電路結(jié)構(gòu)優(yōu)化、版圖設(shè)計(jì)質(zhì)量提升和功耗降低等方面面臨巨大挑戰(zhàn)[4]。
在軌飛行驗(yàn)證是驗(yàn)證在空間環(huán)境下先進(jìn)制程芯片適用性和可靠性的有效方法,是提高其技術(shù)成熟度、驗(yàn)證其地面抗輻射測(cè)評(píng)方法有效性的重要手段[5]。針對(duì)不同種類的芯片,若單獨(dú)進(jìn)行在軌飛行驗(yàn)證,會(huì)占用衛(wèi)星平臺(tái)大量資源,增加系統(tǒng)復(fù)雜性。因此,本文提出支持多任務(wù)的高可靠性、可更換模塊的在軌飛行驗(yàn)證通用系統(tǒng),來(lái)完成對(duì)多種類、多型號(hào)先進(jìn)制程芯片的試驗(yàn)驗(yàn)證。
先進(jìn)制程芯片在軌飛行驗(yàn)證通用系統(tǒng)旨在獲取待試芯片在真實(shí)空間環(huán)境中的運(yùn)行數(shù)據(jù),對(duì)芯片開(kāi)展空間環(huán)境適應(yīng)性分析,進(jìn)行輻射效應(yīng)機(jī)理研究,以完善芯片的在軌使用策略,提高芯片的技術(shù)成熟度和空間應(yīng)用可靠性。本文給出了該通用系統(tǒng)設(shè)計(jì)以及典型芯片在軌飛行驗(yàn)證結(jié)果。
試驗(yàn)任務(wù)包括:
1)完成16 nm FinFET、28 nm 億門(mén)級(jí)FPGA、高速DAC 等10 類20 余款國(guó)產(chǎn)芯片的在軌飛行驗(yàn)證,獲取芯片的在軌飛行工作數(shù)據(jù),開(kāi)展芯片的空間適用性分析。
2)通過(guò)在軌飛行驗(yàn)證,開(kāi)展芯片的空間應(yīng)用故障模式和輻射效應(yīng)機(jī)理研究,完善其在軌使用策略,推動(dòng)國(guó)產(chǎn)先進(jìn)制程芯片抗輻射加固技術(shù)的發(fā)展。
此外,系統(tǒng)應(yīng)支持在軌軟件升級(jí)和可重構(gòu)系統(tǒng)設(shè)計(jì),即通過(guò)航天員或機(jī)械臂在軌組裝、更換試驗(yàn)單元功能模塊以及故障診斷與處理,實(shí)現(xiàn)在軌任務(wù)升級(jí)與維護(hù),定期開(kāi)展芯片的宇航適應(yīng)性驗(yàn)證。
為滿足在軌可重構(gòu)、可升級(jí)維護(hù)的要求,先進(jìn)制程芯片在軌飛行驗(yàn)證通用系統(tǒng)作為空間站搭載設(shè)備,基于“可更換模塊”設(shè)計(jì)理念,采用“主控單元+試驗(yàn)單元”的架構(gòu),組成框圖如圖1 所示[6],主要技術(shù)指標(biāo)如表1 所示。
表1 先進(jìn)制程電子元器件在軌飛行驗(yàn)證通用系統(tǒng)主要技術(shù)指標(biāo)Table 1 Specifications of the universal system for flight verification of advanced process chips
圖1 先進(jìn)制程芯片在軌飛行驗(yàn)證通用系統(tǒng)組成框圖Fig.1 Block diagram of the universal system for flight verification of advanced process chips
主控單元作為系統(tǒng)控制的核心單元,為保證系統(tǒng)在軌運(yùn)行的可靠性,選用抗輻射等級(jí)芯片,采取雙冗余冷備份硬件設(shè)計(jì)及軟件容錯(cuò)方案。主控單元對(duì)外通過(guò)1553B 外總線與數(shù)管系統(tǒng)進(jìn)行通信,1553B 接口為經(jīng)典冗余熱備份設(shè)計(jì),具有A、B 兩條通道,在單通道故障情況下,可以將總線切換到另外一條通道上。主控單元與試驗(yàn)單元通過(guò)CAN內(nèi)總線獲取各個(gè)試驗(yàn)單元上待試芯片的在軌飛行試驗(yàn)數(shù)據(jù)。該系統(tǒng)充分利用CAN 總線的可擴(kuò)展性,可將節(jié)點(diǎn)擴(kuò)充至110 個(gè),以方便航天員定期在軌更換試驗(yàn)單元模塊,開(kāi)展芯片的在軌適應(yīng)性驗(yàn)證任務(wù)[7]。
試驗(yàn)單元相對(duì)獨(dú)立,通過(guò)CAN 內(nèi)總線與主控單元通信,其數(shù)量可靈活增減。各試驗(yàn)單元實(shí)時(shí)監(jiān)測(cè)所搭載的待試芯片的在軌工作健康狀態(tài),并周期性上傳至主控單元;主控單元對(duì)所有試驗(yàn)單元的待試元器件數(shù)據(jù)進(jìn)行統(tǒng)一管理,并由1553B 總線下傳至地面控制系統(tǒng)。每個(gè)試驗(yàn)單元均能完成十幾款待試芯片的飛行驗(yàn)證工作。本系統(tǒng)搭載的各試驗(yàn)單元待試芯片分類如表2 所示。
本系統(tǒng)采用標(biāo)準(zhǔn)機(jī)、電、熱接口,機(jī)箱為立式長(zhǎng)方體,整個(gè)設(shè)備采用模塊化設(shè)計(jì),相鄰兩模塊間通過(guò)耳片互連,具有良好的互換性。試驗(yàn)單元只需滿足±12V 供電,兩路CAN 總線傳輸,下行遙測(cè)速率小于200 byte/s,即可搭載于該平臺(tái)上完成芯片驗(yàn)證。
在該系統(tǒng)的研制過(guò)程中,為確保驗(yàn)證的有效性,地面測(cè)試中對(duì)單板即整機(jī)均進(jìn)行了高低溫摸底試驗(yàn),并與芯片設(shè)計(jì)廠商溝通,共同確定了各元器件的測(cè)試閾值和判據(jù)。
主控單元由主控單元電源板、主控板A、主控板B 和試驗(yàn)單元電源板組成,通過(guò)外部輸入的直接指令實(shí)現(xiàn)當(dāng)班單機(jī)電源的切換。主控單元管理單機(jī)內(nèi)各試驗(yàn)單元健康狀態(tài)并與數(shù)管系統(tǒng)進(jìn)行數(shù)據(jù)交換,同時(shí),接收數(shù)管系統(tǒng)發(fā)送的遙控指令、衛(wèi)星軌道參數(shù)、星時(shí)數(shù)據(jù)等,采集驗(yàn)證系統(tǒng)所有試驗(yàn)單元中多款待試芯片的在軌飛行數(shù)據(jù),并將遙測(cè)數(shù)據(jù)打包傳送給數(shù)管系統(tǒng),實(shí)現(xiàn)對(duì)待試芯片在軌工作狀態(tài)的實(shí)時(shí)監(jiān)測(cè)。
主控單元的邏輯功能與內(nèi)外接口如圖2 所示。
試驗(yàn)單元統(tǒng)一采用“主控FPGA+待試器件”的硬件架構(gòu),主控FPGA 選用Flash 型A3PE3000,程序進(jìn)行三模冗余(TMR)設(shè)計(jì),保證主控FPGA 運(yùn)行的可靠性。主控FPGA 配置存儲(chǔ)、刷新芯片,上電后自動(dòng)加載位流,每隔一段時(shí)間自動(dòng)刷新位流,以確保主控芯片程序運(yùn)行的可靠性。待試FPGA 中將80%的BRAM 配置成存儲(chǔ)單元。
以試驗(yàn)單元A 為例,其組成框圖如圖3 所示[6]。采集到的28 nm 億門(mén)級(jí)FPGA 在軌運(yùn)行數(shù)據(jù)包括:
圖3 試驗(yàn)單元A 硬件設(shè)計(jì)框圖[6]Fig.3 Hardware design: block diagram of test unit A[6]
1)例化DDR3 控制器,28 nm 億門(mén)級(jí)FPGA 負(fù)責(zé)將數(shù)據(jù)寫(xiě)入MRAM 存儲(chǔ)器。然后連續(xù)讀MRAM存儲(chǔ)器內(nèi)容并比較(當(dāng)檢測(cè)到錯(cuò)誤時(shí),需要再讀一次MRAM 存儲(chǔ)器并比較);如果第二次比較結(jié)果依然有錯(cuò),則表示MRAM 存儲(chǔ)器內(nèi)數(shù)據(jù)發(fā)生SEU,否則認(rèn)為數(shù)據(jù)通路發(fā)生SEU。
2)電流異常增大,功能失效,重配后電流沒(méi)有恢復(fù)正常,電源復(fù)位后功能正常,則判定器件發(fā)生單粒子鎖定(SEL)。
3)長(zhǎng)時(shí)間在軌運(yùn)行中,如電源復(fù)位后仍無(wú)法運(yùn)行,則判定發(fā)生TID 效應(yīng)導(dǎo)致功能失效。
測(cè)試結(jié)束后,通過(guò)CAN 總線將測(cè)試數(shù)據(jù)傳給主控單元。最后通過(guò)遙測(cè)平臺(tái)將數(shù)據(jù)下傳到地面。
驗(yàn)證系統(tǒng)的主控部分采用實(shí)時(shí)數(shù)據(jù)管理機(jī)制,由國(guó)產(chǎn)SpaceOS 星載操作系統(tǒng)管理各種主控單元資源,為應(yīng)用軟件提供多任務(wù)調(diào)度機(jī)制。應(yīng)用軟件的各項(xiàng)任務(wù)在系統(tǒng)軟件的調(diào)度下并發(fā)運(yùn)行而互不干擾。實(shí)時(shí)任務(wù)調(diào)度如表3 所示。新裝載試驗(yàn)單元模塊只要遵守主控單元的采樣頻率及遙測(cè)包格式要求,即可實(shí)現(xiàn)與主控單元通信的無(wú)縫對(duì)接。
表3 應(yīng)用軟件的任務(wù)列表Table 3 List of tasks for the application software
主控單元啟動(dòng)后,操作系統(tǒng)協(xié)調(diào)各任務(wù)有序執(zhí)行。系統(tǒng)數(shù)據(jù)管理流程如圖4 所示。
圖4 系統(tǒng)數(shù)據(jù)管理流程圖Fig.4 Flowchart of data management of the system
任務(wù)1:查詢1553B 指令。主控處理器每90 ms 查詢接收1 次數(shù)管系統(tǒng)發(fā)來(lái)的遙控指令,同時(shí)將遙控指令、空間站軌道參數(shù)、空間站數(shù)據(jù)等存到本機(jī)存儲(chǔ)器。
任務(wù)2:任務(wù)分發(fā)。主控處理器解析1553B 遙控指令,轉(zhuǎn)換為內(nèi)總線指令??紤]到內(nèi)總線指令的重要性,首先識(shí)別內(nèi)總線指令的有效性,再將有效的內(nèi)總線指令存儲(chǔ)至指令接收鏈表中。
任務(wù)3:獲取各試驗(yàn)單元數(shù)據(jù)。主控單元首先判斷指令發(fā)送鏈表有無(wú)待發(fā)送給試驗(yàn)單元A 的有效指令:若有,則將有效指令通過(guò)內(nèi)總線發(fā)送至試驗(yàn)單元A;試驗(yàn)單元A 將待試芯片的檢測(cè)信息存儲(chǔ)至本地后,按照總線協(xié)議,打包返給主控單元。若無(wú),則依次判斷后續(xù)試驗(yàn)單元發(fā)送指令鏈表內(nèi)有無(wú)有效指令待發(fā)送,直至獲取所有試驗(yàn)單元的待測(cè)元器件在軌檢測(cè)數(shù)據(jù)。主控處理器對(duì)每個(gè)試驗(yàn)單元均設(shè)置2 組鏈表,包括1 個(gè)內(nèi)總線指令發(fā)送鏈表和1 個(gè)內(nèi)總線指令回復(fù)鏈表。在單個(gè)試驗(yàn)單元內(nèi),這2 個(gè)鏈表獨(dú)立于其他試驗(yàn)單元,有效降低了試驗(yàn)單元間業(yè)務(wù)邏輯的耦合度。主控處理器對(duì)這2 個(gè)鏈表的管理包括系統(tǒng)啟動(dòng)自檢后的創(chuàng)建鏈表,試驗(yàn)任務(wù)結(jié)束后的鏈表空間自動(dòng)釋放、異常指令剔除、試驗(yàn)單元檢測(cè)數(shù)據(jù)的校驗(yàn)等,以確保待試元器件遙測(cè)數(shù)據(jù)傳輸?shù)母咝А⒖尚拧?/p>
任務(wù)4:打包遙測(cè)數(shù)據(jù)。將內(nèi)總線指令回復(fù)鏈表內(nèi)檢測(cè)的待測(cè)元器件工作狀態(tài)及試驗(yàn)數(shù)據(jù)按照單機(jī)與數(shù)管系統(tǒng)的外總線協(xié)議,打包成標(biāo)準(zhǔn)1553B 遙測(cè)幀,供數(shù)管系統(tǒng)按周期提取。
任務(wù)5:系統(tǒng)管理。主控處理器執(zhí)行定時(shí)“喂狗”、內(nèi)存循環(huán)自檢以及重要技術(shù)參數(shù)保護(hù)等。
試驗(yàn)單元向主控處理器發(fā)送的信息包括:待試芯片工作狀態(tài)、電源電流以及表面溫度;28 nm 億門(mén)級(jí)FPGA 的SEU、SEL 等;16 nm FinFET 的SEU等;高性能DAC 的SEFI、SEL、輸出精度等參數(shù)。
本系統(tǒng)面向空間站定期開(kāi)展芯片科學(xué)試驗(yàn)驗(yàn)證。為提前驗(yàn)證系統(tǒng)設(shè)計(jì)的可靠性,2021 年3 月12 日,該系統(tǒng)搭乘“實(shí)踐九號(hào)”衛(wèi)星升空[8],成功開(kāi)展了國(guó)產(chǎn)先進(jìn)制程芯片的在軌飛行試驗(yàn)。衛(wèi)星被送入近地點(diǎn)高度200 km 的地球同步轉(zhuǎn)移軌道,進(jìn)入橢圓軌道后,在遠(yuǎn)地點(diǎn)點(diǎn)燃星上變軌發(fā)動(dòng)機(jī),經(jīng)多次變軌后,順利進(jìn)入預(yù)定軌道。
在軌測(cè)試表明,此驗(yàn)證系統(tǒng)模擬量遙測(cè)正常、遙控指令執(zhí)行正常、各試驗(yàn)單元試驗(yàn)數(shù)據(jù)下行正常,功能和性能滿足研制要求,可為其將來(lái)在中國(guó)空間站的應(yīng)用奠定了基礎(chǔ)。
表4 為驗(yàn)證系統(tǒng)采集到的16 nm FinFET 1 個(gè)月的SEU 數(shù)據(jù)。該芯片將BRAM 配置成存儲(chǔ)單元,存儲(chǔ)單元的輸入、輸出、地址、時(shí)鐘、使能、復(fù)位等信號(hào)都連接到主控FPGA 上。試驗(yàn)開(kāi)始后,主控FPGA 復(fù)位待試FPGA,使能BRAM 寫(xiě),將數(shù)據(jù)寫(xiě)入BRAM 進(jìn)行初始化;激勵(lì)數(shù)據(jù)為不同測(cè)試圖形碼(0x0000、0xFFFF、0x5A5A),每1 min 從BRAM中讀取1 次數(shù)據(jù)并比較,連續(xù)讀取并且比較2 次,如同一bit 的數(shù)值均與前次不同,則判斷BRAM 發(fā)生了SEU 事件。
表4 16 nm FinFET 1 個(gè)月的SEU 數(shù)據(jù)Table 4 SEU data of 16 nm FinFET within one month
經(jīng)分析:該芯片為非堆疊芯片,芯片內(nèi)存儲(chǔ)器由平鋪式標(biāo)準(zhǔn)單元晶體管構(gòu)成,短時(shí)間內(nèi)同一地址發(fā)生多bit 翻轉(zhuǎn)概率非常小。受讀取速度和BRAM存儲(chǔ)空間大小的影響,主控FPGA 每1 min 才完成所有BRAM 地址空間數(shù)據(jù)的遍歷讀取,1 次記錄周期內(nèi)的多次翻轉(zhuǎn)數(shù)據(jù)可視為該器件1 min 內(nèi)的累積SEU 次數(shù)。為提高系統(tǒng)采集SEU 次數(shù)的實(shí)時(shí)性,在保證試驗(yàn)單元模塊正常開(kāi)展其他試驗(yàn)的基礎(chǔ)上,應(yīng)盡量縮短待試芯片數(shù)據(jù)遍歷讀取周期,使試驗(yàn)數(shù)據(jù)更為真實(shí)。
在空間特定輻照環(huán)境中,非平衡載流子的漂移、擴(kuò)散、寄生雙極放大等效應(yīng)會(huì)影響SRAM 型FinFET 的Fin 敏感區(qū)域。當(dāng)Fin 敏感區(qū)域收集到足夠的電荷,就會(huì)產(chǎn)生SEU[9]。根據(jù)衛(wèi)星所處特定軌道待試芯片的SEU 數(shù)據(jù),可分析單位時(shí)間內(nèi)SEU 概率、在軌真實(shí)SEU 概率、多位翻轉(zhuǎn)概率等(參見(jiàn)表5)。
表5 16 nm FinFET 6 個(gè)月的SEU 數(shù)據(jù)統(tǒng)計(jì)Table 5 SEU data statistics of 16 nm FinFET within six months
通過(guò)本系統(tǒng)得到待試芯片在軌真實(shí)SEU 概率RH-real,結(jié)合地面輻射模擬試驗(yàn)的SEU 概率RH,進(jìn)行輻射效應(yīng)機(jī)理研究。在空間輻射效應(yīng)地面模擬試驗(yàn)中,預(yù)測(cè)器件的SEU 概率,通常依據(jù)重離子SEU概率計(jì)算模型
來(lái)計(jì)算RH,其中: Φ是與原子序數(shù)Z、質(zhì)量數(shù)A、能量E及立體角有關(guān)的粒子通量; σ是有效翻轉(zhuǎn)截面;L是重離子的線性能量傳輸(LET)值; ?、θ分別是航天器飛行的球面坐標(biāo)系統(tǒng)的方位角和極角。
空間輻射環(huán)境中粒子具有種類多、能量范圍寬(每核子keV~10 GeV)、4π 立體角全向入射等特點(diǎn)[10]。目前地面模擬試驗(yàn)以粒子LET 作為評(píng)估輻射效應(yīng)等效參量的重要指標(biāo),未考慮粒子種類和能量的差異,以及入射角對(duì)SEE 和預(yù)估方法的影響,存在局限性。比較芯片RH-real和RH計(jì)算模型,分析對(duì)芯片SEE 的影響因素有:1)16 nm 制程節(jié)點(diǎn)下,粒子從不同側(cè)面入射時(shí)帶來(lái)的邊界效應(yīng)的影響;2)器件內(nèi)摻雜濃度、外加偏置、溫度等因素,使粒子穿過(guò)時(shí)形成“漏斗效應(yīng)”,促使節(jié)點(diǎn)電壓翻轉(zhuǎn);3)傾斜入射產(chǎn)生的電荷徑跡對(duì)相鄰兩個(gè)或多個(gè)敏感節(jié)點(diǎn)的影響。
此外,從表5 在軌飛行驗(yàn)證得到的16 nm FinFET的BRAM 發(fā)生SEU 的統(tǒng)計(jì)數(shù)據(jù)可知,SRAM 型FinFET 內(nèi)部的BRAM 存儲(chǔ)資源較容易發(fā)生單bit SEU。這可能是由于芯片內(nèi)存儲(chǔ)單元受輻照后,反相器開(kāi)關(guān)閾值減小,漏電流增大,導(dǎo)致FPGA 的配置存儲(chǔ)器抗翻轉(zhuǎn)能力降低,SEU 截面增大[11]。由此,需進(jìn)一步完善此類SRAM 型FPGA 芯片在軌飛行使用策略,如通過(guò)EDAC 檢二糾一、三取二,或通過(guò)配置刷新芯片定時(shí)刷新等。
本文設(shè)計(jì)的先進(jìn)制程芯片在軌飛行驗(yàn)證通用系統(tǒng)采用在軌可更換模塊,共實(shí)現(xiàn)了10 類、20 余款國(guó)產(chǎn)先進(jìn)制程芯片的在軌飛行驗(yàn)證,解決了多種國(guó)產(chǎn)先進(jìn)制程芯片在空間輻射環(huán)境中的多樣化驗(yàn)證問(wèn)題,支持航天員定期在軌更換試驗(yàn)?zāi)K,完成新的空間輻照環(huán)境驗(yàn)證任務(wù),實(shí)現(xiàn)芯片驗(yàn)證任務(wù)的在軌升級(jí)。系統(tǒng)已在衛(wèi)星上初步搭載并且已獲得芯片在軌真實(shí)SEU 概率,結(jié)合芯片地面等效重離子注量率下的輻照試驗(yàn)結(jié)果,推算出先進(jìn)制程芯片在特定軌道環(huán)境、空間電場(chǎng)下入射重離子LET 值、SEU 概率等,開(kāi)展了空間應(yīng)用故障模式和輻射效應(yīng)機(jī)理研究,助力探索不同工藝條件下的芯片空間SEU 特性,完善芯片在軌使用策略,為提高芯片技術(shù)成熟度和空間應(yīng)用可靠性奠定基礎(chǔ),為提升國(guó)產(chǎn)先進(jìn)制程芯片的研制能力并實(shí)現(xiàn)其自主可控提供了有力支撐。