楊文頂 覃志東
摘 要:隨著半導(dǎo)體制造工藝的發(fā)展,眾核芯片上的晶體管密度不斷增加,隨之而來(lái)的壽命可靠性問(wèn)題日益嚴(yán)重。為了準(zhǔn)確評(píng)估芯片的可靠性,本文提出了一種基于蒙特卡洛方法的系統(tǒng)級(jí)可靠性仿真框架,并在此基礎(chǔ)上研究了NoC通信架構(gòu)對(duì)可靠性的影響。實(shí)驗(yàn)結(jié)果表明,如果不考慮眾核芯片的NoC通信結(jié)構(gòu),系統(tǒng)級(jí)可靠性評(píng)估的相對(duì)偏差最高可達(dá)到60%左右。
關(guān)鍵詞:眾核處理器;可靠性;蒙特卡洛仿真;片上網(wǎng)絡(luò)
中圖分類號(hào):TP302.7 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-2163(2015)02-
An Research on Reliability Simulation of NoC Based Many-core Processors
YANG Wending, QIN Zhidong
(College of Computer Science and Technology, Donghua University, Shanghai 201620 ,China)
Abstract: With the development of semiconductor manufacturing,the transistor density on many-core chips increases relentlessly and causes significant lifetime reliability problem.To estimate the chip reliability accurately,this paper proposes a system reliability simulation framework based on Monte Carlo simulation. In addtion,the network structure is taken into consideration for the system reliability.Experimental results show that the relative deviation of the system-level reliability is up to 60% if the NoC communication structure is discarded .
Keywords: Many-core Processor; Reliability; Monte Carlo Simulation; Network on Chip
0 引 言
眾核芯片通過(guò)集成多個(gè)相對(duì)簡(jiǎn)單的處理器內(nèi)核,以并行處理的方式達(dá)到提升整個(gè)處理器計(jì)算能力的目的。但當(dāng)工藝制程達(dá)到100nm級(jí)以下時(shí),登納德定律(Dennard Scaling)已失效[1],即特征尺寸的縮小會(huì)使得芯片的功耗密度大幅上升,導(dǎo)致芯片過(guò)熱,這會(huì)加速與芯片溫度相關(guān)的諸如NBTI、TDDB和EM等物理失效[2]。對(duì)于眾核芯片,如何進(jìn)行精確的可靠性分析與評(píng)估,并采取切實(shí)可行的可靠性設(shè)計(jì)方法是近年來(lái)學(xué)術(shù)界和產(chǎn)業(yè)界研究的熱點(diǎn)問(wèn)題。
目前,在眾核可靠性分析與評(píng)估方向,已有較多研究成果。文獻(xiàn)[3]考慮了芯片的工藝偏差和多種失效機(jī)制,綜合了威布爾分布、正態(tài)分布和高斯分布,提出了一個(gè)分層的可靠性分析模型,對(duì)比使用蒙特卡洛法來(lái)評(píng)估可靠性,該模型的計(jì)算時(shí)間大大縮短,而平均誤差只有5%。文獻(xiàn)[4]充分挖掘了眾核芯片的特點(diǎn)和內(nèi)核的基本狀態(tài),分別建立了基于優(yōu)雅降級(jí)系統(tǒng)和備用冗余系統(tǒng)的可靠性模型,并分析了不同的失效率或冗余內(nèi)核數(shù)量對(duì)這兩種系統(tǒng)的可靠性的影響,該文獻(xiàn)可以幫助芯片設(shè)計(jì)人員進(jìn)行可靠性設(shè)計(jì)空間搜索。文獻(xiàn)[5]主要是從內(nèi)核失效引起的任務(wù)遷移的角度,通過(guò)迭代不同的任務(wù)調(diào)度方案來(lái)計(jì)算系統(tǒng)的可靠性,然后在此基礎(chǔ)上實(shí)現(xiàn)了基于可靠性感知的優(yōu)化算法,該方法可以通過(guò)較小的代價(jià)實(shí)現(xiàn)可靠性的較大提升。上述這些文獻(xiàn)在進(jìn)行可靠性評(píng)估時(shí),都是把眾核芯片簡(jiǎn)單地等效成處理器內(nèi)核的集合,實(shí)際上,眾核芯片廣泛采用NoC(Network on chip)通信架構(gòu),研究芯片的系統(tǒng)級(jí)可靠性,不僅需要考慮內(nèi)核本身的失效,還要考慮NoC拓?fù)浣Y(jié)構(gòu)中鏈路、路由等通信組件造成的影響。
本文在現(xiàn)有文獻(xiàn)的研究成果基礎(chǔ)上,首先通過(guò)眾核模擬器GEM5[6]模擬2D-Mesh結(jié)構(gòu)的同構(gòu)眾核平臺(tái)的運(yùn)行狀況,獲取相關(guān)數(shù)據(jù),然后結(jié)合芯片的失效機(jī)制,使用蒙特卡洛方法對(duì)眾核系統(tǒng)級(jí)可靠性進(jìn)行仿真分析,以此來(lái)研究NoC通信架構(gòu)對(duì)眾核芯片系統(tǒng)級(jí)可靠性的影響大小。
1 系統(tǒng)平臺(tái)模型和失效分析
眾核芯片是由大量處理器內(nèi)核通過(guò)互連網(wǎng)絡(luò)連結(jié)而成,內(nèi)部包含了極為密集而復(fù)雜的集成電路,受到芯片上熱點(diǎn)(hotspot)的影響,很容易發(fā)生失效。集成電路的失效主要包括兩類,臨時(shí)性失效和永久性失效,臨時(shí)性失效一般是由于外部輻射引起的單粒子翻轉(zhuǎn)(SEU)造成,對(duì)芯片本身的可靠性不會(huì)造成影響。永久性失效一般是因?yàn)殡娐吩匣鸬模绻酒瑑?nèi)部沒(méi)有冗余元件,這類型的失效會(huì)對(duì)系統(tǒng)可靠性造成致命影響,本文只考慮永久性失效。
1.1 基于NoC mesh架構(gòu)的眾核平臺(tái)
本文針對(duì)2D-mesh拓?fù)浣Y(jié)構(gòu)的NoC眾核芯片平臺(tái)進(jìn)行研究。如圖1(a)所示,m×n個(gè)同構(gòu)內(nèi)核(PE)通過(guò)鏈路和路由(R)進(jìn)行互連通信,本文通過(guò)GEM5仿真的眾核平臺(tái)上PE為Alpha 21264 處理器核,如圖1(b)所示,具體包括了Int Exec、L1Cache、L2Cache等組件,這些組件中任意一個(gè)失效都會(huì)導(dǎo)致PE失效。
PE通過(guò)R鏈接到NoC上,PE與PE之間的通信,首先要經(jīng)過(guò)R再通過(guò)選定的鏈路進(jìn)行數(shù)據(jù)傳送,而R是獨(dú)立的工作器件,芯片溫度的升高或通信負(fù)載的增大,都會(huì)加速其老化甚至失效,而R的失效與PE是相互獨(dú)立的。
圖1 基于2D-mesh拓?fù)浣Y(jié)構(gòu)的眾核芯片
Fig.1 Many-core chip based on 2D-mesh topology structure
1.2 失效機(jī)制
無(wú)論處理器內(nèi)核還是NoC通信網(wǎng)絡(luò)都包含很多集成電路元件,當(dāng)元件因?yàn)闇囟?、電壓等因素老化時(shí),芯片就可能發(fā)生失效。集成電路元件的失效機(jī)制有很多種,在本文的可靠性評(píng)估框架中,主要考慮了TDDB、NBTI和EM這3種失效機(jī)制,并使用MTTF(Mean Time to Failure)作為可靠性的衡量標(biāo)準(zhǔn)。
1.2.1 TDDB(Time Dependent Dielectric Breakdown)
TDDB效應(yīng)是指MOS元件和柵極之間的柵極氧化層(SiO2)加上持續(xù)時(shí)間的電壓而被擊穿的現(xiàn)象。2002年,Wu等人通過(guò)大量實(shí)驗(yàn)收集了不同電壓和溫度下的壽命可靠性數(shù)據(jù)[7],建立了TDDB相關(guān)的系統(tǒng)MTTF的數(shù)學(xué)模型,如式(1)所示:
(1)
其中,VGS為門(mén)電壓,T為開(kāi)氏溫度,α、β、X和Y為擬合參數(shù),K為玻爾茲曼常數(shù),AG為柵極表面積,ATDDB為經(jīng)驗(yàn)常數(shù)。從公式(1)可以看出,隨著溫度的升高,電路的平均失效時(shí)間以大于指數(shù)級(jí)的速率在下降。為了方便實(shí)驗(yàn),本文使用了參考文獻(xiàn)[2]中具體參數(shù)值: α=78,β=-0.081,X=0.759 eV,Y=-66.8 eVK,Z=-8.37E-4 eV/K。
1.2.2 NBTI(Negative-bias Temperature Instability)
NBTI效應(yīng)指的是在較高的負(fù)柵極電壓和溫度下PMOS管發(fā)生閾值電壓的負(fù)向漂移,導(dǎo)致元件遷移率下降,從而引發(fā)元件失效。文獻(xiàn)[8]的研究表明,NBTI相關(guān)的壽命可靠性很大程度上依賴于元件本身的溫度,其平均失效時(shí)間的數(shù)學(xué)模型用式(2)表示:
(2)
上式中,A、B、C和D都為擬合參數(shù),K為玻爾茲曼常數(shù), A=1.6328,B=0.07377,C=0.01,D=-0.06852,β=0.3 。
1.2.3 EM(Electromigration)
EM是指電路中電子流動(dòng)導(dǎo)致的金屬原子遷移的現(xiàn)象,該現(xiàn)象會(huì)導(dǎo)致集成電路內(nèi)部發(fā)生斷路或短路,從而引發(fā)芯片失效。根據(jù)文獻(xiàn)[9],EM效應(yīng)對(duì)系統(tǒng)MTTF的影響可用下式表示:
(3)
上式中,Ea為電子遷移的激活能,T為開(kāi)氏溫度,K為玻爾茲曼常數(shù),J為電流密度,J = 1.5 × 106A/cm2,n=2,Ea = 0.48eV。
2 基于蒙特卡洛方法的系統(tǒng)級(jí)可靠性仿真
為了準(zhǔn)確模擬眾核芯片的實(shí)際運(yùn)行情況,本文采用了GEM5全系統(tǒng)模擬器,通過(guò)輸入具體的芯片參數(shù),獲得運(yùn)行階段的系統(tǒng)統(tǒng)計(jì)數(shù)據(jù),然后掛載功耗模擬器McPAT[10]以獲得相應(yīng)的功耗數(shù)據(jù),將這些數(shù)據(jù)輸入HotSpot[11]溫度模擬器即可計(jì)算出每個(gè)子元件的具體溫度。最后將溫度和芯片布局輸入到蒙特卡洛仿真器中計(jì)算系統(tǒng)級(jí)的MTTF,整個(gè)可靠性仿真框架如圖2所示。
圖2 基于蒙特卡洛方法的眾核芯片可靠性仿真框架
Fig.2 Reliability simulation framework of many-core chip based on Monte Carlo method
2.1 眾核平臺(tái)模擬與參數(shù)獲取
2.1.1獲取芯片運(yùn)行數(shù)據(jù)
GEM5是一個(gè)離散事件驅(qū)動(dòng)的模塊化計(jì)算機(jī)體系模擬器,可以方便地重構(gòu)、參數(shù)化、擴(kuò)展和替換 GEM5 的組件來(lái)模擬不同的計(jì)算機(jī)系統(tǒng)。GEM5不僅支持ALPHA、ARM、X86和SPARC等多種指令集架構(gòu),同時(shí)也支持多種CPU模型(順序和亂序等),并集成了基于Ruby的存儲(chǔ)系統(tǒng)和互聯(lián)模型,該模型可以實(shí)現(xiàn)不同策略的緩存層次和一致性協(xié)議,以及通信互聯(lián)網(wǎng)絡(luò)、DMA和內(nèi)存控制器等功能。本文模擬的眾核系統(tǒng)參數(shù)配置如表1所示,將這些配置參數(shù)輸入GEM5模擬器中進(jìn)行仿真,即可獲得眾核系統(tǒng)運(yùn)行時(shí)的相關(guān)統(tǒng)計(jì)數(shù)據(jù),如Cache命中率、寄存器訪問(wèn)次數(shù)等。
表1 GEM5模擬的芯片配置參數(shù)
Tab.1 Configuration parameters of the chip under GEM5 simulation
參數(shù)名稱
數(shù)值
參數(shù)名稱
數(shù)值
內(nèi)核(頻率/電壓)
內(nèi)核數(shù)量
L1指令緩存
L1數(shù)據(jù)緩存
Alpha EV6 21264(1GHz/2V)
4/8/16/32/64
32KB
32KB
L2緩存
NoC拓?fù)浣Y(jié)構(gòu)
操作系統(tǒng)
運(yùn)行程序
8MB
2D-mesh
Linux 2.6
PARSEC基準(zhǔn)測(cè)試程序集
2.1.2獲取芯片功耗數(shù)據(jù)
McPAT是HP Lab開(kāi)發(fā)的一款用于多核/眾核體系結(jié)構(gòu)的功耗分析器,可以較準(zhǔn)確地分析工藝制程在22~99nm之間的芯片內(nèi)部元件的運(yùn)行功耗,由于McPAT只允許輸入XML文件,為此需要將之前獲得的系統(tǒng)運(yùn)行數(shù)據(jù)(stats.txt)和配置參數(shù)(config.json)解析成XML格式(通過(guò)Python/Perl等語(yǔ)言),然后輸入McPAT,即可計(jì)算出芯片中的每個(gè)功能元件的功耗數(shù)據(jù)。
2.1.3 獲取芯片溫度數(shù)據(jù)
HotSpot是計(jì)算機(jī)體系結(jié)構(gòu)中常用的一款溫度模擬器,其中提供了硅片級(jí)的熱模型,通過(guò)輸入芯片的布局(floorplan)文件和所有功能子元件的功耗數(shù)據(jù),可以準(zhǔn)確快速地計(jì)算出每個(gè)元件的瞬態(tài)溫度或者穩(wěn)態(tài)溫度。功耗數(shù)據(jù)可以通過(guò)上文的McPAT獲取,對(duì)于布局文件,本文仿真的是Alpha 21264處理器內(nèi)核,部分?jǐn)?shù)據(jù)如表2所示,包含元件名稱、長(zhǎng)度、高度、最左邊的X軸坐標(biāo)和底部的Y軸坐標(biāo)5部分。
表2 Alpha 21264平面布局文件數(shù)據(jù)
Tab.2 Data in the floorplan file of Alpha 21264
元件名稱
長(zhǎng)度(m)
高度(m)
最左邊X軸坐標(biāo)
底部Y軸坐標(biāo)
Icache
Dcache
Bpred_0
Bpred_1
Bpred_2
DTB_0
DTB_1
DTB_2
FPAdd_0
FPAdd_1
0.0031
0.0031
0.001033
0.001033
0.001033
0.001033
0.001033
0.001033
0.0011
0.0011
0.0026
0.0026
0.0007
0.0007
0.0007
0.0007
0.0007
0.0007
0.0009
0.0009
0.0049
0.008
0.0049
0.005933
0.006967
0.008
0.009033
0.010067
0.0049
0.006
0.0098
0.0098
0.0124
0.0124
0.0124
0.0124
0.0124
0.0124
0.0131
0.0131
2.2 蒙特卡洛仿真
一般來(lái)說(shuō),如果用隨機(jī)變量X表示子元件的失效時(shí)間(time to failure),那么X服從雙參數(shù)威布爾分布,其概率密度函數(shù)如式(4)所示:
(4)
其中α為尺度參數(shù),β為形狀參數(shù),因?yàn)镸TTF(mean time to failure)定義為X的數(shù)學(xué)期望E(X),即:
(5)
根據(jù)伽瑪函數(shù)的定義:
(6)
式(6)可改寫(xiě)為:
(7)
對(duì)于雙參數(shù)威布爾分布,其累積分布函數(shù)為:
(8)
令u=F(t),對(duì)式(8)求反函數(shù)可得:
(9)
由于上文已獲得芯片中子元件的溫度,在不同失效機(jī)制下,尺度參數(shù)α可以通過(guò)式(7)計(jì)算,如果不考慮工藝偏差,形狀參數(shù)β則為常數(shù)(如β=1.6),因此根據(jù)式(9),只需在(0,1)區(qū)間內(nèi)隨機(jī)生成失效概率u,可得到一個(gè)元件隨機(jī)的ttf(time to failure)。本文假設(shè)芯片中沒(méi)有冗余元件,一個(gè)元件失效即代表整個(gè)芯片失效,那么在一次迭代中,所有元件的ttf最小值即為芯片系統(tǒng)級(jí)的ttf,迭代N次后取平均值,就可得到系統(tǒng)的平均失效時(shí)間,本文所實(shí)現(xiàn)的蒙特卡洛仿真算法如下所示。
算法1 基于蒙特卡洛仿真的可靠性評(píng)估算法
輸入:失效機(jī)制種類數(shù)M,迭代次數(shù)N,元件數(shù)量K,芯片布局和溫度
輸出:系統(tǒng)平均失效時(shí)間
1. for i ←1 to M do
2. for j ← 1 to N do
3. ttfmin ← ∞
4. for k ← 1 to K do
5. ttfk ← generate_random_ttf(i)
6. if ttfk < ttfmin then
7. ttfmin = ttfk
8. end if
9. end for
10. mttfi += ttfmin / N
11. end for
12. end for
13. return min{mttfi}
3 實(shí)驗(yàn)研究
本文使用的實(shí)驗(yàn)主機(jī)為Intel 酷睿2雙核 E7400,內(nèi)存2GB,操作系統(tǒng)為Ubuntu 14.04 LTS 64位,主要程序代碼使用C語(yǔ)言編寫(xiě)。GEM5全系統(tǒng)中模擬的眾核芯片內(nèi)核為Alpha 21264,內(nèi)核上運(yùn)行的操作系統(tǒng)為linux 2.6,運(yùn)行的軟件任務(wù)為基準(zhǔn)測(cè)試程序集PARSEC[12]。針對(duì)考慮NoC和不考慮NoC兩種情況,運(yùn)行一段時(shí)間后,通過(guò)GEM5輸出的統(tǒng)計(jì)數(shù)據(jù)分析每個(gè)元件的溫度,然后輸入蒙特卡洛可靠性評(píng)估框架計(jì)算可靠性。需要注意的是,上文提到的失效模型基于比例產(chǎn)生,具體的比例參數(shù)是未知的,所以實(shí)驗(yàn)中假設(shè)面積為1mm2的元件在標(biāo)準(zhǔn)溫度(300K)下的MTTF為30,根據(jù)這個(gè)設(shè)定來(lái)標(biāo)準(zhǔn)化系統(tǒng)的可靠性。
3.1 不同失效機(jī)制
在本次實(shí)驗(yàn)中,研究使用了GEM5模擬了4×4 的16核芯片,并仿真了在TDDB、NBTI和EM這三種不同失效機(jī)制下的芯片可靠性,結(jié)果如表3所示。由于蒙特卡洛仿真的收斂速度與N1/2成正比,隨著迭代次數(shù)增加,蒙特卡洛仿真估計(jì)出的系統(tǒng)MTTF精度不斷提高,實(shí)驗(yàn)中可以發(fā)現(xiàn),當(dāng)?shù)螖?shù)達(dá)到105次時(shí),蒙特卡洛方法仿真的系統(tǒng)級(jí)MTTF的精度已較高,繼續(xù)增加迭代次數(shù)幾乎不改變現(xiàn)有結(jié)果,所以本文實(shí)驗(yàn)中迭代次數(shù)都設(shè)置為105次。根據(jù)表3的結(jié)果,三種失效機(jī)制相比,TDDB效應(yīng)對(duì)芯片可靠性的影響相對(duì)更大,失效機(jī)制越多,系統(tǒng)的可靠性越低。同時(shí),對(duì)比考慮NoC和不考慮NoC兩種情形,系統(tǒng)級(jí)可靠性的相對(duì)偏差約為60%左右。
表3 不同失效機(jī)制下芯片可靠性試驗(yàn)結(jié)果
Tab.3 Experimental results of the chip reliability with different failure mechanisms
失效模型
標(biāo)準(zhǔn)化MTTF(不考慮NoC)
標(biāo)準(zhǔn)化MTTF(考慮NoC)
相對(duì)偏差(%)
NBTI
TDDB
EM
NBTI+TDDB+EM
4.1706
0.4259
2.7612
0.4086
1.6099
0.1718
1.0774
0.1642
61.40
59.65
60.98
59.82
3.2 不同內(nèi)核數(shù)量
在接下來(lái)的實(shí)驗(yàn)中,研究分別對(duì)4核、8核、16核和32核的眾核芯片進(jìn)行了模擬,芯片運(yùn)行的應(yīng)用程序都是PARSEC中的Blackscholes程序,并且都綜合了NBTI、TDDB和EM三種失效機(jī)制,結(jié)果如表4所示,可以看出,隨著內(nèi)核數(shù)量增加,芯片的可靠性下降幅度較大,對(duì)比考慮NoC和不考慮NoC兩種情形,系統(tǒng)級(jí)可靠性的相對(duì)偏差依然是60%左右。
表4 不同內(nèi)核數(shù)量時(shí)芯片可靠性試驗(yàn)結(jié)果
Tab.4 Experimental results of the chip reliability with different cores number
內(nèi)核數(shù)量
標(biāo)準(zhǔn)化MTTF(不考慮NoC)
標(biāo)準(zhǔn)化MTTF(考慮NoC)
相對(duì)偏差(%)
4 (2×2)
8 (2×4)
16 (4×4)
32 (4×8)
0.9574
0.6245
0.4086
0.2676
0.3836
0.2503
0.1642
0.1073
59.93
59.92
59.82
59.91
3.3 不同基準(zhǔn)測(cè)試程序
為了分析不同軟件任務(wù)下的平均失效時(shí)間,本文運(yùn)行了Blackscholes、Canneal、Streamcluster和Swaptions這4個(gè)不同的基準(zhǔn)測(cè)試程序。由于這些基準(zhǔn)測(cè)試程序運(yùn)行都包括3個(gè)階段,初始階段、并行計(jì)算階段和結(jié)束階段,為了便于采樣,實(shí)驗(yàn)中研究使用了檢查點(diǎn)(checkpoint)技術(shù),從并行計(jì)算部分開(kāi)始執(zhí)行。在這一部分的實(shí)驗(yàn)中,同樣研究了NoC結(jié)構(gòu)對(duì)系統(tǒng)可靠性的影響,如圖3所示,無(wú)論是4、16和64核系統(tǒng)上運(yùn)行基準(zhǔn)測(cè)試程序,如果不考慮NoC,系統(tǒng)平均失效時(shí)間相對(duì)考慮NoC的情況相對(duì)偏差約為10%-60%,
圖3 不同基準(zhǔn)測(cè)試程序下芯片可靠性試驗(yàn)結(jié)果
Fig.3 Experimental results of the chip reliability on different benchmarks
4 結(jié)束語(yǔ)
本文使用蒙特卡洛方法對(duì)眾核芯片的系統(tǒng)級(jí)可靠性進(jìn)行仿真分析,并重點(diǎn)研究了NoC通信架構(gòu)對(duì)可靠性評(píng)估的影響,實(shí)驗(yàn)結(jié)果表明,無(wú)論是在不同內(nèi)核數(shù)量、不同失效機(jī)制還是不同軟件任務(wù)下,如果不考慮NoC通信架構(gòu),系統(tǒng)級(jí)可靠性評(píng)估的相對(duì)偏差最高都可達(dá)60%左右,該結(jié)果對(duì)以可靠性分析為基礎(chǔ)的可靠性優(yōu)化設(shè)計(jì)造成較大影響。
參考文獻(xiàn):
[1] ESMAEILZADEH H, BLEM E, AMANT R S, et al. Power challenges may end the multicore era[J]. Communications of the ACM, 2013, 56(2): 93-102.
[2] SRINIVASAN J. Lifetime reliability aware microprocessors[D]. Urbana-Champaign: University of Illinois , 2006.
[3] XIANG Y, CHANTEM T, DICK R P, et al. System-level reliability modeling for MPSoCs[C]//Proceedings of the eighth IEEE/ACM/IFIP international conference on Hardware/software codesign and system synthesis. ACM,2010: 297-306.
[4] HUANG L, XU Q. On modeling the lifetime reliability of homogeneous manycore systems[C]//Dependable Computing, 2008. PRDC'08. 14th IEEE Pacific Rim International Symposium on. Taipei:IEEE, 2008: 87-94.
[5] GU Z, ZHU C, SHANG L, et al. Application-specific MPSoC reliability optimization[J]. Very Large Scale
Integration (VLSI) Systems, IEEE Transactions on, 2008, 16(5): 603-608.
[6] BINKERT N, BECKMANN B, BLACK G, et al. The gem5 simulator[J]. ACM SIGARCH Computer Architecture News, 2011, 39(2): 1-7.
[7] WU E, SUNE J, LAI W, et al. Interplay of voltage and temperature acceleration of oxide breakdown for ultra-thin gate oxides[J]. Solid-State Electronics, 2002, 46(11): 1787-1798.
[8] ZAFAR S, LEE B H, STATHIS J, et al. A model for negative bias temperature instability (NBTI) in oxide and high κpFETs 13×-C6D8C7F5F2[C]//VLSI Technology, 2004. Digest of Technical Papers. 2004 Symposium on, Honolulu, HI, USA:IEEE, 2004: 208-209.
[9] HUANG L, YUAN F, XU Q. Lifetime reliability-aware task allocation and scheduling for MPSoC platforms[C]//Proceedings of the Conference on Design, Automation and Test in Europe,Nice, France:European Design and Automation Association, 2009: 51-56.
[10] LI S, AHN J H, STRONG R D, et al. McPAT: an integrated power, area, and timing modeling framework for multicore and manycore architectures[C]//Microarchitecture, 2009. MICRO-42. 42nd Annual IEEE/ACM International Symposium on. New York,USA:IEEE, 2009: 469-480.
[11] SKADRON K, STAN M R, HUANGW, et al. Temperature-Aware Microarchitecture[C]//Proceedings of the 30th International Symposium on Computer Architecture, San Diego,CA,USA:ISCA,June 2003.
[12] Bienia C, Li K. Benchmarking modern multiprocessors[M]. USA: Princeton University,2011.
基金項(xiàng)目:中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)基金(11D11209)。
作者簡(jiǎn)介:楊文頂(1988-),男,安徽合肥人,碩士生,主要研究方向:多核/眾核可靠性設(shè)計(jì);
覃志東(1974-),男,四川廣漢人,博士,副教授,主要研究方向:嵌入式與可編程系統(tǒng)。