周劍東,謝金森,*,曾文杰,于 濤,陳珍平,趙鵬程,謝 芹,劉紫靜,謝 超
(1.南華大學(xué) 核科學(xué)技術(shù)學(xué)院,湖南 衡陽 421001;2.湖南省數(shù)字化反應(yīng)堆工程技術(shù)研究中心,湖南 衡陽 421001)
隨著反應(yīng)堆中子輸運和擴散方程計算方法的改進,以及計算機性能的提升,反應(yīng)堆核設(shè)計方法也在不斷發(fā)展,以達到更高的設(shè)計精度要求[1],如直接基于柵元尺度進行堆芯一步法輸運計算。然而,在現(xiàn)有的大型計算機水平下,由于計算耗費仍較大,目前工程領(lǐng)域核設(shè)計采用的仍是基于組件均勻化計算與堆芯擴散計算的兩步法。從計算時間的角度看,依據(jù)現(xiàn)有的計算方法及硬件條件,單個組件的一次輸運計算所需的時間已可控制在s到min量級[2]。但在面對堆芯優(yōu)化設(shè)計問題時,隨著組件設(shè)計變量及目標函數(shù)數(shù)量的增加,及進一步的輸運-燃耗計算等問題相互耦合,問題的難度也會呈指數(shù)增長,堆芯方案搜索的規(guī)模將達到成千上萬,堆芯優(yōu)化設(shè)計過程所需的計算時間也會急速增加。Cadenas等[3]使用CASMO-4/SIMULATE-3評估單個設(shè)計組件是否滿足運行要求需要5~6 h;而使用DRAGON-4/DONJON-4[4-5]程序?qū)?個組件-堆芯方案的計算時間約6.53 h;若上述計算采用蒙特卡羅程序,計算時間則更長。因此,在工程實際堆芯設(shè)計中,更多的是憑借設(shè)計人員的經(jīng)驗與物理理論,先預(yù)設(shè)少量方案再進行逐個計算及人工篩選。
本文提出利用數(shù)據(jù)挖掘技術(shù),通過組件自變量快速預(yù)測堆芯的物理參數(shù),實現(xiàn)方案的快速篩選,提高堆芯設(shè)計效率。數(shù)據(jù)挖掘技術(shù)首先對不同算法的訓(xùn)練集訓(xùn)練效果進行評估,挑選合適的數(shù)據(jù)挖掘算法,再基于C4.5模型對自變量與堆芯參數(shù)做關(guān)聯(lián)分析,最后利用不同算法建立的模型對測試集進行快速預(yù)測堆芯參數(shù)并評價其精度。
數(shù)據(jù)挖掘[5]是在海量數(shù)據(jù)中發(fā)現(xiàn)知識、規(guī)律、新模式、新關(guān)系的過程,這個過程可是全自動的,也可是半自動的。簡而言之,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識[6]。它的基本任務(wù)[7]包括:分類與預(yù)測、聚類分析、關(guān)聯(lián)規(guī)則、時序模式、偏差檢測、智能推薦等。它的目標[7]包括:基于其他屬性的值來預(yù)測特定屬性的值、對數(shù)據(jù)中潛在聯(lián)系的模式進行概括與導(dǎo)出。決策樹是機器學(xué)習(xí)中的1個樹狀預(yù)測模型,對訓(xùn)練樣本數(shù)據(jù)集進行挖掘后會產(chǎn)生1棵如二叉樹或多叉樹的結(jié)構(gòu),其內(nèi)部節(jié)點表示在1個屬性上的測試,而葉子節(jié)點代表最終的類別結(jié)果[8]。在解決分類問題方面,除了決策樹算法以外還有貝葉斯分類(BC)、人工神經(jīng)網(wǎng)絡(luò)算法(ANN)、K近鄰算法(K-NN)、支持向量機算法(SVM)等[9]可應(yīng)用于該領(lǐng)域。決策樹算法相較于ANN和SVM在實現(xiàn)方式上更簡單,模型更直觀,速度更快;相較于K-NN,決策樹算法能解決多元分類問題[9]。
本文使用的算法有C4.5、RepTree、Random Forest、Random Tree。以上4種算法都是基于構(gòu)建決策樹來對數(shù)據(jù)進行分類分析,各算法處理數(shù)據(jù)的類型、建模機制的選取、決策樹構(gòu)建方法、分類規(guī)則表達方式[10]等方面的不同導(dǎo)致各有優(yōu)缺點,表1列出本文所使用4類算法的特點。
表1 算法特點Table 1 Algorithm feature
影響反應(yīng)堆核設(shè)計參數(shù)的因素主要有燃料富集度、可燃毒物、燃料組件排布等。隨著燃料富集度的提升,初始反應(yīng)性越大,對于反應(yīng)性的控制越會帶來巨大的困難,并且在壽期末會出現(xiàn)燃耗虧損[11],即當燃料富集度大于某個值時,壽期末燃耗不會繼續(xù)呈線性增加,而會小于該結(jié)果;可燃毒物在展平堆芯功率的同時,也可能導(dǎo)致壽期虧損即反應(yīng)性懲罰,其中包括毒物基體中硼與釓等核素及子代同位素的殘留吸收、包殼等結(jié)構(gòu)物的吸收以及毒物棒的擠水效應(yīng)[12]。因此本文選取燃料富集度、可燃毒物的類型與含量這3類設(shè)計變量作為自變量。參考現(xiàn)有的壓水堆燃料組件設(shè)計區(qū)間[13],本文選取了富集度在1.8%~5.0%區(qū)間的5種不同燃料開展研究,可燃毒物采用Gd2O3+UO2,Gd2O3的質(zhì)量分數(shù)為9%與12%,單一組件內(nèi)含可燃毒物的燃料棒為0、4、8、12根,如表2所列,可組合35種不同的燃料組件。
表2 燃料組件自變量Table 2 Independent variable of fuel assembly
本文以國內(nèi)某核電廠首爐堆芯裝料布置為參考,針對表2所列燃料組件進行計算。堆芯燃料分3區(qū)布置,分別用A、B、C表示,具體布置如圖1所示。依據(jù)以上自變量,可生成的堆芯方案數(shù)量為353=42 875。為降低樣本量,減少不必要的計算及節(jié)約時間成本,根據(jù)該核電廠首爐堆芯方案,約束A區(qū)的燃料富集度最小,C區(qū)燃料富集度最大,B區(qū)燃料富集度介于A、C區(qū)之間,由此可將組件按富集度分為10種不同的情況,而每種富集度的Gd含量及布置有7種。在上述約束下,堆芯方案數(shù)量降至73×10=3 430。
圖1 1/4堆芯布置Fig.1 Quarter core layout
通過DRAGON/DONJON[4-5]程序系統(tǒng)做兩步法組件-堆芯輸運燃耗計算所得參數(shù)作為數(shù)據(jù)挖掘所需的數(shù)據(jù)集。參考核電廠首爐堆芯核設(shè)計報告,選取keff在壽期內(nèi)的不均勻系數(shù)偏差(KUCD)、壽期內(nèi)的徑向功率不均勻系數(shù)偏差(RPNCD)、壽期內(nèi)的徑向中子通量不均勻系數(shù)偏差(RFNCD)、堆芯壽期(CL)作為目標函數(shù),用于快速評估燃料組件設(shè)計方案。其中,KUCD用以表征堆芯在壽期內(nèi)反應(yīng)性波動偏離范圍,RPNCD和RFNCD表征堆芯功率與中子通量的不均勻性。假定以上4個目標函數(shù)需滿足以下限制條件:
1) KUCD
(1)
其中:keff,max、keff,av分別為壽期內(nèi)keff的最大值與平均值;下標target為設(shè)計目標值。
2) RPNCD
(2)
其中,Pmax、Pav分別為壽期內(nèi)功率密度的最大值與平均值。
3) RFNCD
(3)
其中,φmax、φav分別為壽期內(nèi)中子通量的最大值與平均值。
4) CL
CL≥CLtarget
(4)
其中,CL為以等效滿功率天(EFPD)為單位的堆芯循環(huán)長度。
以等權(quán)重的方式整合以上4類目標函數(shù)并用目標函數(shù)符合度[14](CPF)來統(tǒng)一表示,因此CPF的可能取值為0~4。若CPF=4,則代表該堆芯方案滿足所有的核設(shè)計要求,即可認定此類燃料組件在堆芯排布方案中是“好的”;若CPF<4則可認為方案為“壞的”。
將所有案例隨機分為兩部分,即訓(xùn)練集和測試集,每組1 715個案例。通過C4.5、RepTree、Random Tree及Random Forest算法對訓(xùn)練集進行分類回歸分析,并在訓(xùn)練過程中隨機挑選該數(shù)據(jù)集中10個案例做交叉驗證[15],并評估其預(yù)測精度。
通過對訓(xùn)練集構(gòu)建訓(xùn)練模型,C4.5生成葉子節(jié)點數(shù)102個,RepTree生成的葉子節(jié)點數(shù)為133個,Random Forest則生成了100棵決策樹,Random Tree生成的葉子節(jié)點數(shù)為949個。結(jié)果表明C4.5算法對整體預(yù)測精度最高,Random Tree最低,而對構(gòu)建模型歷時最短的是Random Tree,耗時最長的是Random Forest,將各算法對CPF各值的預(yù)測精度的平均值作為該算法的整體精度,其結(jié)果列于表3?;跀?shù)據(jù)挖掘構(gòu)建混淆矩陣(圖2),矩陣每列代表CPF的預(yù)測值,每行則代表CPF的實際值,由此可知,對角線的值越大即算法構(gòu)建模型越精確。由圖2可知,C4.5對訓(xùn)練集的預(yù)測精度要優(yōu)于其他算法的。
表3 各算法的預(yù)測精度Table 3 Prediction accuracy of each algorithm
鑒于對CPF的定義,CPF=4為篩選的臨界點,即篩選出所有滿足設(shè)計要求的堆芯方案,各算法的預(yù)測精度列于表4。TP Rate為真正率,即被模型預(yù)測為CPF=4的樣本比率,TP Rate=CPF為4預(yù)測結(jié)果數(shù)除以CPF實際為4的結(jié)果數(shù)。同理,F(xiàn)P Rate為假正率,即模型預(yù)測不為4的樣本比率,F(xiàn)P Rate=被預(yù)測不為4的樣本數(shù)除以實際不為4的樣本數(shù)。Precision即精確度,代表著被模型正確預(yù)測的樣本數(shù)與所有被預(yù)測為4的樣本數(shù)的比率。由表4可知,Random Forest的預(yù)測精度最高,其次是C4.5。
a——C4.5;b——RepTree;c——Random Forest;d——Random Tree圖2 各算法的混淆矩陣Fig.2 Confusion matrix of each algorithm
表4 各算法對CPF=4的預(yù)測精度Table 4 Prediction accuracy of each algorithm for CPF=4
鑒于3.1節(jié)分析可知,C4.5對整體CPF的值預(yù)測精度最高,因此,本節(jié)采用C4.5算法對各個自變量做關(guān)聯(lián)分析。通過對數(shù)據(jù)進行格式轉(zhuǎn)換、數(shù)據(jù)清洗等預(yù)處理操作,調(diào)整自變量即選取不同的特征量以得出CPF的預(yù)測精度來關(guān)聯(lián)分析,具體精度列于表5。
表5 各自變量對CPF預(yù)測精度Table 5 Accuracy of CPF prediction for each independent variable
由表5可知,對于A區(qū),燃料富集度對CPF的值影響最大,可燃毒物布置對CPF值的影響較小,又因在設(shè)計時A區(qū)燃料富集度相較于B區(qū)、C區(qū)燃料的會更低,相較于可燃毒物布置及含量,A區(qū)燃料富集度對堆芯通量、功率的影響更大。以此類推,B區(qū)由于富集度的增加,該區(qū)組件對堆芯的整體影響則來源于該區(qū)組件燃料富集度以及可燃毒物的布置方式。隨著富集度的繼續(xù)增加,C區(qū)組件可燃毒物布置對堆芯的CPF值的影響相較于其余兩個自變量更大,富集度越高,就越依賴于可燃毒物的布置來展平堆芯的通量及功率分布。整體上,C區(qū)燃料組件的重要性要高于A區(qū)和B區(qū)的,即C區(qū)對于堆芯整體的不均勻性貢獻更大。
提取測試集中的1 715個案例,將這1 715個案例放入4種算法基于訓(xùn)練集生成的模型進行快速計算并比較。CPF=4時預(yù)測案例數(shù)與預(yù)測案例數(shù)中實際案例數(shù)比較列于表6,表7列出CPF=4的預(yù)測完備性。由表6與表7可知,4個算法在對測試集1 715個案例的篩選與預(yù)測均在0.9 s以內(nèi)完成;并在1 715個案例中,實際CPF=4的總案例數(shù)為51個,基于C4.5與Random Forest算法的預(yù)測完備性最高,均達到了0.98,但在這兩個算法中,Random Forest預(yù)測精度高于C4.5,而Random Forest所需時間大于C4.5。
表6 預(yù)測案例數(shù)與預(yù)測案例數(shù)中實際案例數(shù)比較Table 6 Number of actual case in number of predicted case and number of predicted case
表7 預(yù)測完備性Table 7 Predictive completeness
堆芯燃料組件排布方案與燃料組件的選擇是反應(yīng)堆核設(shè)計的重要內(nèi)容,在一定的堆芯排布方案約束假設(shè)下,針對大量可能的燃料組件設(shè)計進行篩選是一項復(fù)雜、耗時的工作。利用大量已有的堆芯設(shè)計方案數(shù)據(jù),通過數(shù)據(jù)挖掘技術(shù),可實現(xiàn)對新燃料組件在堆芯的物理性能及對堆芯核設(shè)計參數(shù)影響的快速評價,這對于堆芯、燃料組件方案搜索與優(yōu)化具有很強的實際意義。
本文以某核電廠首爐堆芯方案為參考,以燃料富集度、可燃毒物布置、可燃毒物含量3個為自變量,應(yīng)用C4.5、RepTree、Random Forest及Random Tree算法,運用數(shù)據(jù)挖掘技術(shù)構(gòu)建的模型對測試集燃料組件方案進行快速預(yù)測,所需時間均在0.9 s以內(nèi),且C4.5對訓(xùn)練集的預(yù)測精度最高。隨后C4.5對自變量與目標函數(shù)進行關(guān)聯(lián)分析,得出A區(qū)的燃料富集度與C區(qū)的燃料富集度和可燃毒物布置相較于其他自變量對結(jié)果影響更大。Random Forest與C4.5對滿足堆芯要求的預(yù)測完備性較高,而Random Forest的預(yù)測精度最高。盡管Random Forest預(yù)測時間相較于其他3種算法較長,但是該算法的預(yù)測所耗時間可接受。以上工作對反應(yīng)堆堆芯參數(shù)的快速計算提供新的可能,可大幅提升方案搜索的效率。同時,數(shù)據(jù)挖掘的技術(shù)可充分利用現(xiàn)有反應(yīng)堆核設(shè)計的數(shù)據(jù)資源,實現(xiàn)核能領(lǐng)域大數(shù)據(jù)的應(yīng)用。