基于決策樹的堆芯物理參數(shù)預(yù)測研究

2020-02-25 05:48:24周劍東謝金森曾文杰陳珍平趙鵬程劉紫靜

原子能科學(xué)技術(shù) 2020年2期

周劍東，謝金森,*，曾文杰，于濤，陳珍平，趙鵬程，謝芹，劉紫靜，謝超

(1.南華大學(xué) 核科學(xué)技術(shù)學(xué)院，湖南衡陽 421001；2.湖南省數(shù)字化反應(yīng)堆工程技術(shù)研究中心，湖南衡陽 421001)

隨著反應(yīng)堆中子輸運和擴散方程計算方法的改進，以及計算機性能的提升，反應(yīng)堆核設(shè)計方法也在不斷發(fā)展，以達到更高的設(shè)計精度要求[1]，如直接基于柵元尺度進行堆芯一步法輸運計算。然而，在現(xiàn)有的大型計算機水平下，由于計算耗費仍較大，目前工程領(lǐng)域核設(shè)計采用的仍是基于組件均勻化計算與堆芯擴散計算的兩步法。從計算時間的角度看，依據(jù)現(xiàn)有的計算方法及硬件條件，單個組件的一次輸運計算所需的時間已可控制在s到min量級[2]。但在面對堆芯優(yōu)化設(shè)計問題時，隨著組件設(shè)計變量及目標函數(shù)數(shù)量的增加，及進一步的輸運-燃耗計算等問題相互耦合，問題的難度也會呈指數(shù)增長，堆芯方案搜索的規(guī)模將達到成千上萬，堆芯優(yōu)化設(shè)計過程所需的計算時間也會急速增加。Cadenas等[3]使用CASMO-4/SIMULATE-3評估單個設(shè)計組件是否滿足運行要求需要5～6 h；而使用DRAGON-4/DONJON-4[4-5]程序?qū)?個組件-堆芯方案的計算時間約6.53 h；若上述計算采用蒙特卡羅程序，計算時間則更長。因此，在工程實際堆芯設(shè)計中，更多的是憑借設(shè)計人員的經(jīng)驗與物理理論，先預(yù)設(shè)少量方案再進行逐個計算及人工篩選。

本文提出利用數(shù)據(jù)挖掘技術(shù)，通過組件自變量快速預(yù)測堆芯的物理參數(shù)，實現(xiàn)方案的快速篩選，提高堆芯設(shè)計效率。數(shù)據(jù)挖掘技術(shù)首先對不同算法的訓(xùn)練集訓(xùn)練效果進行評估，挑選合適的數(shù)據(jù)挖掘算法，再基于C4.5模型對自變量與堆芯參數(shù)做關(guān)聯(lián)分析，最后利用不同算法建立的模型對測試集進行快速預(yù)測堆芯參數(shù)并評價其精度。

1 數(shù)據(jù)挖掘算法

數(shù)據(jù)挖掘[5]是在海量數(shù)據(jù)中發(fā)現(xiàn)知識、規(guī)律、新模式、新關(guān)系的過程，這個過程可是全自動的，也可是半自動的。簡而言之，數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識[6]。它的基本任務(wù)[7]包括：分類與預(yù)測、聚類分析、關(guān)聯(lián)規(guī)則、時序模式、偏差檢測、智能推薦等。它的目標[7]包括：基于其他屬性的值來預(yù)測特定屬性的值、對數(shù)據(jù)中潛在聯(lián)系的模式進行概括與導(dǎo)出。決策樹是機器學(xué)習(xí)中的1個樹狀預(yù)測模型，對訓(xùn)練樣本數(shù)據(jù)集進行挖掘后會產(chǎn)生1棵如二叉樹或多叉樹的結(jié)構(gòu)，其內(nèi)部節(jié)點表示在1個屬性上的測試，而葉子節(jié)點代表最終的類別結(jié)果[8]。在解決分類問題方面，除了決策樹算法以外還有貝葉斯分類(BC)、人工神經(jīng)網(wǎng)絡(luò)算法(ANN)、K近鄰算法(K-NN)、支持向量機算法(SVM)等[9]可應(yīng)用于該領(lǐng)域。決策樹算法相較于ANN和SVM在實現(xiàn)方式上更簡單，模型更直觀，速度更快；相較于K-NN，決策樹算法能解決多元分類問題[9]。

本文使用的算法有C4.5、RepTree、Random Forest、Random Tree。以上4種算法都是基于構(gòu)建決策樹來對數(shù)據(jù)進行分類分析，各算法處理數(shù)據(jù)的類型、建模機制的選取、決策樹構(gòu)建方法、分類規(guī)則表達方式[10]等方面的不同導(dǎo)致各有優(yōu)缺點，表1列出本文所使用4類算法的特點。

表1 算法特點Table 1 Algorithm feature

2 數(shù)據(jù)樣本構(gòu)建

2.1 自變量選取

影響反應(yīng)堆核設(shè)計參數(shù)的因素主要有燃料富集度、可燃毒物、燃料組件排布等。隨著燃料富集度的提升，初始反應(yīng)性越大，對于反應(yīng)性的控制越會帶來巨大的困難，并且在壽期末會出現(xiàn)燃耗虧損[11]，即當燃料富集度大于某個值時，壽期末燃耗不會繼續(xù)呈線性增加，而會小于該結(jié)果；可燃毒物在展平堆芯功率的同時，也可能導(dǎo)致壽期虧損即反應(yīng)性懲罰，其中包括毒物基體中硼與釓等核素及子代同位素的殘留吸收、包殼等結(jié)構(gòu)物的吸收以及毒物棒的擠水效應(yīng)[12]。因此本文選取燃料富集度、可燃毒物的類型與含量這3類設(shè)計變量作為自變量。參考現(xiàn)有的壓水堆燃料組件設(shè)計區(qū)間[13]，本文選取了富集度在1.8%～5.0%區(qū)間的5種不同燃料開展研究，可燃毒物采用Gd2O3+UO2，Gd2O3的質(zhì)量分數(shù)為9%與12%，單一組件內(nèi)含可燃毒物的燃料棒為0、4、8、12根，如表2所列，可組合35種不同的燃料組件。

表2 燃料組件自變量Table 2 Independent variable of fuel assembly

本文以國內(nèi)某核電廠首爐堆芯裝料布置為參考，針對表2所列燃料組件進行計算。堆芯燃料分3區(qū)布置，分別用A、B、C表示，具體布置如圖1所示。依據(jù)以上自變量，可生成的堆芯方案數(shù)量為353=42 875。為降低樣本量，減少不必要的計算及節(jié)約時間成本，根據(jù)該核電廠首爐堆芯方案，約束A區(qū)的燃料富集度最小，C區(qū)燃料富集度最大，B區(qū)燃料富集度介于A、C區(qū)之間，由此可將組件按富集度分為10種不同的情況，而每種富集度的Gd含量及布置有7種。在上述約束下，堆芯方案數(shù)量降至73×10=3 430。

圖1 1/4堆芯布置Fig.1 Quarter core layout

2.2 目標函數(shù)選取

通過DRAGON/DONJON[4-5]程序系統(tǒng)做兩步法組件-堆芯輸運燃耗計算所得參數(shù)作為數(shù)據(jù)挖掘所需的數(shù)據(jù)集。參考核電廠首爐堆芯核設(shè)計報告，選取keff在壽期內(nèi)的不均勻系數(shù)偏差(KUCD)、壽期內(nèi)的徑向功率不均勻系數(shù)偏差(RPNCD)、壽期內(nèi)的徑向中子通量不均勻系數(shù)偏差(RFNCD)、堆芯壽期(CL)作為目標函數(shù)，用于快速評估燃料組件設(shè)計方案。其中，KUCD用以表征堆芯在壽期內(nèi)反應(yīng)性波動偏離范圍，RPNCD和RFNCD表征堆芯功率與中子通量的不均勻性。假定以上4個目標函數(shù)需滿足以下限制條件：

1) KUCD

(1)

其中：keff,max、keff,av分別為壽期內(nèi)keff的最大值與平均值；下標target為設(shè)計目標值。

2) RPNCD

(2)

其中，Pmax、Pav分別為壽期內(nèi)功率密度的最大值與平均值。

3) RFNCD

(3)

其中，φmax、φav分別為壽期內(nèi)中子通量的最大值與平均值。

4) CL

CL≥CLtarget

(4)

其中，CL為以等效滿功率天(EFPD)為單位的堆芯循環(huán)長度。

以等權(quán)重的方式整合以上4類目標函數(shù)并用目標函數(shù)符合度[14](CPF)來統(tǒng)一表示，因此CPF的可能取值為0～4。若CPF=4，則代表該堆芯方案滿足所有的核設(shè)計要求，即可認定此類燃料組件在堆芯排布方案中是“好的”；若CPF<4則可認為方案為“壞的”。

3 結(jié)果分析

3.1 算法分析

將所有案例隨機分為兩部分，即訓(xùn)練集和測試集，每組1 715個案例。通過C4.5、RepTree、Random Tree及Random Forest算法對訓(xùn)練集進行分類回歸分析，并在訓(xùn)練過程中隨機挑選該數(shù)據(jù)集中10個案例做交叉驗證[15]，并評估其預(yù)測精度。

通過對訓(xùn)練集構(gòu)建訓(xùn)練模型，C4.5生成葉子節(jié)點數(shù)102個，RepTree生成的葉子節(jié)點數(shù)為133個，Random Forest則生成了100棵決策樹，Random Tree生成的葉子節(jié)點數(shù)為949個。結(jié)果表明C4.5算法對整體預(yù)測精度最高，Random Tree最低，而對構(gòu)建模型歷時最短的是Random Tree，耗時最長的是Random Forest，將各算法對CPF各值的預(yù)測精度的平均值作為該算法的整體精度，其結(jié)果列于表3?；跀?shù)據(jù)挖掘構(gòu)建混淆矩陣(圖2)，矩陣每列代表CPF的預(yù)測值，每行則代表CPF的實際值，由此可知，對角線的值越大即算法構(gòu)建模型越精確。由圖2可知，C4.5對訓(xùn)練集的預(yù)測精度要優(yōu)于其他算法的。

表3 各算法的預(yù)測精度Table 3 Prediction accuracy of each algorithm

鑒于對CPF的定義，CPF=4為篩選的臨界點，即篩選出所有滿足設(shè)計要求的堆芯方案，各算法的預(yù)測精度列于表4。TP Rate為真正率，即被模型預(yù)測為CPF=4的樣本比率，TP Rate=CPF為4預(yù)測結(jié)果數(shù)除以CPF實際為4的結(jié)果數(shù)。同理，F(xiàn)P Rate為假正率，即模型預(yù)測不為4的樣本比率，F(xiàn)P Rate=被預(yù)測不為4的樣本數(shù)除以實際不為4的樣本數(shù)。Precision即精確度，代表著被模型正確預(yù)測的樣本數(shù)與所有被預(yù)測為4的樣本數(shù)的比率。由表4可知，Random Forest的預(yù)測精度最高，其次是C4.5。

a——C4.5；b——RepTree；c——Random Forest；d——Random Tree圖2 各算法的混淆矩陣Fig.2 Confusion matrix of each algorithm

表4 各算法對CPF=4的預(yù)測精度Table 4 Prediction accuracy of each algorithm for CPF=4

3.2 關(guān)聯(lián)分析

鑒于3.1節(jié)分析可知，C4.5對整體CPF的值預(yù)測精度最高，因此，本節(jié)采用C4.5算法對各個自變量做關(guān)聯(lián)分析。通過對數(shù)據(jù)進行格式轉(zhuǎn)換、數(shù)據(jù)清洗等預(yù)處理操作，調(diào)整自變量即選取不同的特征量以得出CPF的預(yù)測精度來關(guān)聯(lián)分析，具體精度列于表5。

表5 各自變量對CPF預(yù)測精度Table 5 Accuracy of CPF prediction for each independent variable

由表5可知，對于A區(qū)，燃料富集度對CPF的值影響最大，可燃毒物布置對CPF值的影響較小，又因在設(shè)計時A區(qū)燃料富集度相較于B區(qū)、C區(qū)燃料的會更低，相較于可燃毒物布置及含量，A區(qū)燃料富集度對堆芯通量、功率的影響更大。以此類推，B區(qū)由于富集度的增加，該區(qū)組件對堆芯的整體影響則來源于該區(qū)組件燃料富集度以及可燃毒物的布置方式。隨著富集度的繼續(xù)增加，C區(qū)組件可燃毒物布置對堆芯的CPF值的影響相較于其余兩個自變量更大，富集度越高，就越依賴于可燃毒物的布置來展平堆芯的通量及功率分布。整體上，C區(qū)燃料組件的重要性要高于A區(qū)和B區(qū)的，即C區(qū)對于堆芯整體的不均勻性貢獻更大。

3.3 預(yù)測分析

提取測試集中的1 715個案例，將這1 715個案例放入4種算法基于訓(xùn)練集生成的模型進行快速計算并比較。CPF=4時預(yù)測案例數(shù)與預(yù)測案例數(shù)中實際案例數(shù)比較列于表6，表7列出CPF=4的預(yù)測完備性。由表6與表7可知，4個算法在對測試集1 715個案例的篩選與預(yù)測均在0.9 s以內(nèi)完成；并在1 715個案例中，實際CPF=4的總案例數(shù)為51個，基于C4.5與Random Forest算法的預(yù)測完備性最高，均達到了0.98，但在這兩個算法中，Random Forest預(yù)測精度高于C4.5，而Random Forest所需時間大于C4.5。

表6 預(yù)測案例數(shù)與預(yù)測案例數(shù)中實際案例數(shù)比較Table 6 Number of actual case in number of predicted case and number of predicted case

表7 預(yù)測完備性Table 7 Predictive completeness

4 結(jié)語

堆芯燃料組件排布方案與燃料組件的選擇是反應(yīng)堆核設(shè)計的重要內(nèi)容，在一定的堆芯排布方案約束假設(shè)下，針對大量可能的燃料組件設(shè)計進行篩選是一項復(fù)雜、耗時的工作。利用大量已有的堆芯設(shè)計方案數(shù)據(jù)，通過數(shù)據(jù)挖掘技術(shù)，可實現(xiàn)對新燃料組件在堆芯的物理性能及對堆芯核設(shè)計參數(shù)影響的快速評價，這對于堆芯、燃料組件方案搜索與優(yōu)化具有很強的實際意義。

本文以某核電廠首爐堆芯方案為參考，以燃料富集度、可燃毒物布置、可燃毒物含量3個為自變量，應(yīng)用C4.5、RepTree、Random Forest及Random Tree算法，運用數(shù)據(jù)挖掘技術(shù)構(gòu)建的模型對測試集燃料組件方案進行快速預(yù)測，所需時間均在0.9 s以內(nèi)，且C4.5對訓(xùn)練集的預(yù)測精度最高。隨后C4.5對自變量與目標函數(shù)進行關(guān)聯(lián)分析，得出A區(qū)的燃料富集度與C區(qū)的燃料富集度和可燃毒物布置相較于其他自變量對結(jié)果影響更大。Random Forest與C4.5對滿足堆芯要求的預(yù)測完備性較高，而Random Forest的預(yù)測精度最高。盡管Random Forest預(yù)測時間相較于其他3種算法較長，但是該算法的預(yù)測所耗時間可接受。以上工作對反應(yīng)堆堆芯參數(shù)的快速計算提供新的可能，可大幅提升方案搜索的效率。同時，數(shù)據(jù)挖掘的技術(shù)可充分利用現(xiàn)有反應(yīng)堆核設(shè)計的數(shù)據(jù)資源，實現(xiàn)核能領(lǐng)域大數(shù)據(jù)的應(yīng)用。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看