郭園園,原慧敏,馮 飛,田青青,李澤宣
(1.河南水投輿源水生態(tài)實(shí)業(yè)有限公司,河南 駐馬店 463400;2.河南欣峰信息科技有限公司,鄭州 450003;3.河南水利投資集團(tuán)有限公司,鄭州 450000;4.華北水利水電大學(xué) 水利學(xué)院,鄭州 450046;5.河南省水環(huán)境模擬與治理重點(diǎn)實(shí)驗(yàn)室,鄭州 450002)
隨著全球經(jīng)濟(jì)的不斷發(fā)展和人口的不斷增加,建筑業(yè)發(fā)展迅速,對(duì)建筑材料的需求也越來越大。然而,傳統(tǒng)的混凝土材料在生產(chǎn)和使用過程中會(huì)產(chǎn)生大量的廢棄物和污染,給環(huán)境帶來了極大的壓力。因此,再生混凝土作為一種環(huán)保型建筑材料,已經(jīng)成為當(dāng)前建筑材料領(lǐng)域的研究熱點(diǎn)之一。
再生混凝土在生產(chǎn)和使用過程中,其性質(zhì)和強(qiáng)度等方面都受到影響,這給其在實(shí)際工程中的應(yīng)用帶來了一定的難度。因此,預(yù)測(cè)再生混凝土的強(qiáng)度是實(shí)現(xiàn)其應(yīng)用的關(guān)鍵之一。目前,國內(nèi)外已有很多學(xué)者對(duì)再生混凝土的強(qiáng)度預(yù)測(cè)進(jìn)行了研究。在國內(nèi)研究中,如高蔚[1]使用深度學(xué)習(xí)方法對(duì)再生混凝土抗壓強(qiáng)度進(jìn)行預(yù)測(cè),并取得精確的預(yù)測(cè)結(jié)果。廖小輝等[2]使用BP 神經(jīng)網(wǎng)絡(luò)對(duì)再生混凝土抗壓強(qiáng)度進(jìn)行預(yù)測(cè),并取得了較高的預(yù)測(cè)結(jié)果。白浩杰等[3]使用基于GA 優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)再生混凝土抗壓強(qiáng)度,證實(shí)經(jīng)過GA 算法優(yōu)化權(quán)閥值的BP 神經(jīng)網(wǎng)絡(luò)精度更高,朱偉等[4]使用GA 算法優(yōu)化支持向量機(jī)模型對(duì)再生混凝土進(jìn)行抗壓強(qiáng)度預(yù)測(cè),并與支持向量機(jī)模型進(jìn)行對(duì)比,證實(shí)GA 算法優(yōu)化模型可以提升其精度。鄒超英等[5]使用模擬退火原理構(gòu)建模型預(yù)測(cè)混凝土徐變參數(shù),并證實(shí)其預(yù)測(cè)結(jié)果與實(shí)際相吻合,具有較高的精度。黃煒等[6]使用PSO-BP 模型和GA-P 模型對(duì)再生混凝土抗壓強(qiáng)度進(jìn)行預(yù)測(cè),并發(fā)現(xiàn)PSO 算法參數(shù)優(yōu)化能力好于GA 算法。
與此同時(shí),國外學(xué)者對(duì)再生混凝土強(qiáng)度預(yù)測(cè)研究也在不斷深入,如Deng 等[7]使用softmax 回歸開發(fā)預(yù)測(cè)模型,對(duì)再生混凝土強(qiáng)度進(jìn)行預(yù)測(cè),并與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,證實(shí)深度學(xué)習(xí)算法具有更高的精度。Marian 等[8]使用多元線性回歸,對(duì)再生混凝土抗壓強(qiáng)度進(jìn)行預(yù)測(cè),并通過預(yù)測(cè)結(jié)果得出為不影響其強(qiáng)度,骨料替代率不要超過30%。Gregori 等[9]使用SVM 算法和GPR 模型對(duì)再生混凝土強(qiáng)度進(jìn)行預(yù)測(cè),都取得了精確的預(yù)測(cè)結(jié)果,并且GPR 模型精度高于SVM 模型精度。Li 等[10]使用稻殼灰提到水泥制備再生混凝土,并使用堆疊集成學(xué)習(xí)的方法對(duì)其抗壓強(qiáng)度進(jìn)行預(yù)測(cè),并取得了精確的預(yù)測(cè)結(jié)果。Mai 等[11]使用隨機(jī)森林模型對(duì)含油棕殼的再生混凝土抗壓強(qiáng)度進(jìn)行預(yù)測(cè),并取得較為精確的預(yù)測(cè)結(jié)果。
基于上述已有研究,在再生混凝土強(qiáng)度預(yù)測(cè)中,基于參數(shù)優(yōu)化機(jī)器學(xué)習(xí)模型研究甚少,故本文提出了一種基于粒子群優(yōu)化(PSO)和梯度提升決策樹(GBDT)的再生混凝土強(qiáng)度預(yù)測(cè)模型,通過優(yōu)化GBDT 模型的超參數(shù),提高了模型的預(yù)測(cè)精度和穩(wěn)定性,對(duì)再生混凝土相關(guān)領(lǐng)域的實(shí)際工程具有指導(dǎo)作用。
本研究數(shù)據(jù)來自文獻(xiàn)[12],根據(jù)實(shí)際情況,選取其中再生粗骨料數(shù)據(jù)集118 組,為研究所用數(shù)據(jù)分布情況,采用SPSS 軟件對(duì)其28 d 抗壓強(qiáng)度進(jìn)行正態(tài)Q-Q圖分析,如圖1 所示,可以看出,抗壓強(qiáng)度數(shù)據(jù)點(diǎn)緊密圍繞理論直線,且除兩端點(diǎn)部分,其余大量數(shù)據(jù)均基本以理論直線重合。
圖1 抗壓強(qiáng)度正態(tài)Q-Q 圖
為進(jìn)一步驗(yàn)證其是否符合正態(tài)分布,采用單樣本K-S 檢驗(yàn),以設(shè)定95%置信區(qū)間,進(jìn)行檢驗(yàn),證實(shí)其顯著性P=0.099,所得顯著性大于0.05,故保留原假設(shè),數(shù)據(jù)符合正態(tài)分布。
所用數(shù)據(jù)配合比中,不同成分所帶自身量綱不同,直接將數(shù)據(jù)代入模型,可能會(huì)對(duì)最終結(jié)果造成影響,故此處采用最大值最小值方法進(jìn)行歸一化,歸一化公式見公式(1)
式中:X表示歸一化之后的數(shù)值,x1表示試驗(yàn)值,xmax表示數(shù)據(jù)列中最大的值,xmin表示數(shù)據(jù)列中最小的值。
模型建立并進(jìn)行數(shù)據(jù)預(yù)測(cè)之后,為了檢驗(yàn)?zāi)P偷姆夯芰皖A(yù)測(cè)準(zhǔn)確性,故需設(shè)定模型評(píng)價(jià)指標(biāo)從而更加直觀地了解模型性能。因此,選用決定系數(shù)R2、均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)為模型評(píng)價(jià)指標(biāo),其中決定系數(shù)R2表示試驗(yàn)值和預(yù)測(cè)值之間的擬合程度,其越接近于1,表明其預(yù)測(cè)結(jié)果越接近試驗(yàn)值,RMSE 表示試驗(yàn)值和預(yù)測(cè)值之間差異的樣本標(biāo)準(zhǔn)差,MAE 表示試驗(yàn)值和預(yù)測(cè)值之間絕對(duì)誤差的平均值,二者大小越接近0 越好,以上評(píng)估指標(biāo)計(jì)算原理見公式(2)(3)(4)。
式中:N為數(shù)據(jù)庫中數(shù)據(jù)總數(shù);為試驗(yàn)值數(shù)據(jù)的平均值,MPa;Qi為試驗(yàn)值,MPa;為模型預(yù)測(cè)值,MPa。
粒子群算法(PSO)是目前眾多尋優(yōu)算法之一,其設(shè)計(jì)原理是通過模擬鳥類捕食,主要是通過在給定區(qū)域定義一塊食物(即尋優(yōu)目標(biāo)最優(yōu)解),讓鳥類進(jìn)行尋找,通過信息交流等報(bào)送自己位置,從而確定是否找到最優(yōu)解,最后所有鳥類都到達(dá)最優(yōu)解處,即尋優(yōu)完成。
理論解釋主要分為以下幾步。
1)初始化所有粒子,即給其速度和位置賦值,并將個(gè)體的歷史最優(yōu)Best1 設(shè)為當(dāng)前位置,群體中的最優(yōu)個(gè)體作為當(dāng)前的Best2。
2)在每一代的進(jìn)化中,計(jì)算各個(gè)粒子的適應(yīng)度函數(shù)值。
3)如果當(dāng)前適應(yīng)度函數(shù)值優(yōu)于歷史最優(yōu)值,則更新Best1。
4)如果當(dāng)前適應(yīng)度函數(shù)值優(yōu)于全局歷史最優(yōu)值,則更新Best2。
5)對(duì)每個(gè)粒子i的第d維的速度和位置分別按照公式(5)和公式(6)進(jìn)行更新
梯度提升決策樹(GBDT)是一種利用殘差擬合弱學(xué)習(xí)器的集成算法,通過將多個(gè)弱學(xué)習(xí)器串聯(lián)起來,每個(gè)學(xué)習(xí)器學(xué)習(xí)的都是前一個(gè)學(xué)習(xí)器輸出的結(jié)果,最終逼近最終預(yù)測(cè)值,其計(jì)算流程如下。
1)初始化學(xué)習(xí)器。
2)計(jì)算殘差。
將所得rt,i作為預(yù)測(cè)值,計(jì)算當(dāng)i=1,2,…,i時(shí)擬合得到第t棵回歸樹。
3)遍歷節(jié)點(diǎn),計(jì)算回歸樹Tt的每個(gè)葉子節(jié)點(diǎn)Rt,j的輸出值ct,j
4)更新學(xué)習(xí)器。
式中:I表示學(xué)習(xí)率;J為葉子節(jié)點(diǎn)個(gè)數(shù)。
5)最終學(xué)習(xí)器。
本次研究所使用數(shù)據(jù)共118 組,為了增加模型泛化能力,采用隨機(jī)打亂的方式,將數(shù)據(jù)集按照7∶3 的比例進(jìn)行訓(xùn)練集和測(cè)試集的劃分,以粉煤灰、細(xì)骨料、粗骨料、粗骨料取代率、減水劑和水膠比作為模型輸入變量,以28 d 抗壓強(qiáng)度為輸出變量并將其代入所提出的PSO-GBDT 模型中,如圖2 所示,表示模型訓(xùn)練集和測(cè)試集中試驗(yàn)值和預(yù)測(cè)值的擬合情況。
圖2 PSO-GBDT 模型訓(xùn)練集和測(cè)試集擬合圖
由圖2 可知,PSO-GBDT 模型訓(xùn)練集決定系數(shù)R2=0.962 4,測(cè)試集決定系數(shù)R2=0.976 8,由圖2 可以發(fā)現(xiàn)經(jīng)過PSO 算法優(yōu)化的GBDT 模型擁有較為精確的預(yù)測(cè)精度。
為了更加全面地分析預(yù)測(cè)結(jié)果,如圖3 所示,繪制PSO-GBDT 模型試驗(yàn)值和預(yù)測(cè)值的折線對(duì)比圖,并計(jì)算其誤差。
圖3 PSO-GBDT 模型折線誤差圖
通過圖3 可知,PSO-GBDT 模型訓(xùn)練集絕對(duì)誤差在[0.01,4.57]之間,測(cè)試集絕對(duì)誤差在[0.26,3.75]之間,經(jīng)過PSO 算法優(yōu)化之后,模型的訓(xùn)練集和測(cè)試集誤差減少,模型預(yù)測(cè)性能提升。
因模型未出現(xiàn)過擬合情況,測(cè)試集為反映模型訓(xùn)練情況,所有通過計(jì)算測(cè)試集評(píng)估指標(biāo)可知,PSO-GBDT 模型測(cè)試集決定系數(shù)R2=0.976 8,RMSE 為1.75,MAE 為1.50。
本研究首先通過數(shù)據(jù)分析,得出再生混凝土抗壓強(qiáng)度數(shù)據(jù)符合正態(tài)分布規(guī)律,然后使用PSO 算法優(yōu)化GBDT 模型,從而使得模型具有較高的精度和較小的預(yù)測(cè)誤差,可以較大程度上縮短工程中獲取抗壓強(qiáng)度結(jié)果,減少試驗(yàn)材料消耗,降低工程成本,對(duì)工程實(shí)際具有指導(dǎo)作用。