薛國(guó)斌, 胡安龍, 魏 勇, 馮燕軍, 梁 魁, 李麟鶴
(1. 國(guó)網(wǎng)甘肅省電力公司經(jīng)濟(jì)技術(shù)研究院, 甘肅 蘭州 730030; 2. 國(guó)網(wǎng)甘肅省電力公司, 甘肅 蘭州 730030)
混凝土由粗細(xì)骨料、水、凝膠材料以及各種添加劑按照一定級(jí)配拌制而成,經(jīng)過(guò)一段養(yǎng)護(hù)齡期硬化形成。作為使用量最大、涉及范圍最廣的建筑復(fù)合材料,其各項(xiàng)性能指標(biāo)與建筑工程質(zhì)量、使用壽命以及使用者安全都息息相關(guān)[1,2]。其中,混凝土強(qiáng)度指標(biāo)是控制混凝土結(jié)構(gòu)質(zhì)量的關(guān)鍵因素,尤其是抗壓強(qiáng)度的大小在很大程度上決定了建筑物的荷載能力與安全性能[3-5]。因此,對(duì)混凝土抗壓強(qiáng)度的預(yù)測(cè)一直以來(lái)都是學(xué)者們關(guān)注的重點(diǎn)。早期研究以單一變量如水灰比,作為混凝土抗壓強(qiáng)度預(yù)測(cè)的重要指標(biāo),通過(guò)對(duì)混凝土水灰比及混凝土強(qiáng)度數(shù)據(jù)的分析,擬合兩者曲線,得到對(duì)應(yīng)條件下的混凝土抗壓強(qiáng)度預(yù)測(cè)值[6-9]。然而,此類方法忽略了其他構(gòu)成成分與影響因素對(duì)混凝土強(qiáng)度的作用,盡管后來(lái)對(duì)水灰比法則做出了進(jìn)一步優(yōu)化、擴(kuò)展與補(bǔ)充說(shuō)明,但依然無(wú)法充分考慮與混凝土強(qiáng)度相關(guān)的各類特征變量[10-12]。特別是隨著工程實(shí)際中外加劑或摻合料等的使用,更進(jìn)一步加深了其復(fù)雜非線性程度。
近年來(lái),人工智能與機(jī)器學(xué)習(xí)算法在深度數(shù)據(jù)挖掘及反映復(fù)雜非線性規(guī)律方面表現(xiàn)出良好的預(yù)測(cè)性能,因此被廣泛應(yīng)用于各行各業(yè)。例如,隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò)以及極端學(xué)習(xí)機(jī)等算法在混凝土強(qiáng)度預(yù)測(cè)領(lǐng)域都有良好的表現(xiàn)[13-15]。BP 神經(jīng)網(wǎng)絡(luò)因其優(yōu)異的自學(xué)習(xí)和自適應(yīng)能力,具有良好的應(yīng)用前景。馬高等[16]建立了CFRP約束混凝土抗壓強(qiáng)度的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,探討了不同數(shù)據(jù)組合對(duì)神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)精度的影響。采用隨機(jī)森林算法處理回歸問(wèn)題具有良好的泛化能力,可有效防止過(guò)擬合現(xiàn)象;無(wú)須設(shè)置函數(shù)形式,可更加精準(zhǔn)地?cái)M合復(fù)雜的非線性關(guān)系;采用并行計(jì)算方式使得運(yùn)行速度加快;能獲得因素的重要程度。胡毅等[17]基于隨機(jī)森林算法對(duì)混凝土抗壓強(qiáng)度進(jìn)行了預(yù)測(cè)研究,并建立了抗壓強(qiáng)度預(yù)測(cè)體系。然而,由于混凝土抗壓性能與材料配比、時(shí)間與空間存在復(fù)雜的不確定性關(guān)系,單一模型泛化性弱且無(wú)法準(zhǔn)確描述特征變量與強(qiáng)度間的復(fù)雜映射關(guān)系。
自適應(yīng)增強(qiáng)學(xué)習(xí)算法(adaptive enhancement algorithm, AdaBoost)作為一種集成學(xué)習(xí)算法,能很好地利用弱學(xué)習(xí)器之間的級(jí)聯(lián)關(guān)系,在各類復(fù)雜不確定性預(yù)測(cè)問(wèn)題中展現(xiàn)其優(yōu)越性。劉曉悅等[18]通過(guò)建立AdaBoost算法與支持向量機(jī)組合預(yù)測(cè)模型,對(duì)巖體開(kāi)挖巖爆現(xiàn)象進(jìn)行了預(yù)測(cè),預(yù)測(cè)模型可快速準(zhǔn)確地預(yù)測(cè)巖爆等級(jí)。李龍起等[19]基于自適應(yīng)噪聲完全集合經(jīng)驗(yàn)?zāi)B(tài)分解,采用AdaBoost-SVR集成算法建立了預(yù)測(cè)模型,對(duì)白水河滑坡位移進(jìn)行了預(yù)測(cè),預(yù)測(cè)結(jié)果驗(yàn)證了所提模型的準(zhǔn)確性與適用性。然而,傳統(tǒng)AdaBoost算法是基于當(dāng)前弱學(xué)習(xí)器在訓(xùn)練數(shù)據(jù)集上預(yù)測(cè)誤差率最小來(lái)選擇弱學(xué)習(xí)器,存在因預(yù)測(cè)誤差率較大而造成更新樣本權(quán)值時(shí)損失較大的問(wèn)題,會(huì)導(dǎo)致模型預(yù)測(cè)精度降低。
鑒于此,本文針對(duì)不同樣本誤差率分級(jí),引入線性及指數(shù)代價(jià)敏感系數(shù)來(lái)優(yōu)化樣本權(quán)值更新策略。同時(shí),為解決敏感系數(shù)選取問(wèn)題,引入引力搜索算法(gravitational search algorithm, GSA)對(duì)敏感系數(shù)進(jìn)行全局智能搜索。通過(guò)對(duì)不同敏感系數(shù)的組合策略進(jìn)行實(shí)例對(duì)比分析,最終確定改進(jìn)AdaBoost算法的最佳敏感系數(shù)組合??紤]到混凝土抗壓強(qiáng)度與其拌合材料配比及養(yǎng)護(hù)齡期等變量之間的復(fù)雜非線性關(guān)系,基于自適應(yīng)增強(qiáng)學(xué)習(xí)算法集成回歸樹(shù)(classification and regression tree, CART)建立混凝土抗壓強(qiáng)度預(yù)測(cè)模型。最后,通過(guò)與傳統(tǒng)AdaBoost 模型、BP神經(jīng)網(wǎng)絡(luò)及隨機(jī)森林等預(yù)測(cè)模型的對(duì)比分析,驗(yàn)證了所提預(yù)測(cè)模型的有效性與準(zhǔn)確性。
分類回歸樹(shù)(CART)最早由Breiman提出,可用于處理分類問(wèn)題及回歸問(wèn)題[20]。CART的生成是逐步遞歸建立二叉樹(shù)的過(guò)程。對(duì)于回歸問(wèn)題,分叉基于平方誤差最小化原則。
給定輸入訓(xùn)練數(shù)據(jù)集:
D={(x1,y1),(x2,y2),…,(xi,yi)}
(1)
依據(jù)平方誤差最小化原則選取最優(yōu)切分點(diǎn)s以及最優(yōu)切分變量j,原始數(shù)據(jù)集分割為D1與D2兩部分:
(2)
式中:c1、c2分別為樣本D1、D2的輸出均值;劃分的子數(shù)據(jù)集可以表示為:
(3)
響應(yīng)的輸出值可以表示為:
(4)
式中:m為數(shù)據(jù)空間被分割的子數(shù)據(jù)集數(shù);cm為響應(yīng)的輸出值;Nm為樣本個(gè)數(shù);Rm為樣本空間。
重復(fù)對(duì)數(shù)據(jù)集進(jìn)行分割操作,直至滿足停止條件為止。停止條件包括:特征數(shù)據(jù)已經(jīng)用完,無(wú)可供使用的特征再進(jìn)行分割操作;子節(jié)點(diǎn)中的樣本已經(jīng)為同一類;回歸樹(shù)達(dá)到了設(shè)定的最大深度;節(jié)點(diǎn)樣本數(shù)量達(dá)到了設(shè)定的閾值。
最終,得到的回歸樹(shù)為:
(5)
式中:M為最終劃分子集數(shù)量;Dm為第m個(gè)子數(shù)據(jù)集;I(x)函數(shù)表示為:
(6)
AdaBoost是由Freund和Schapire在Boost算法基礎(chǔ)上改進(jìn)得到的一種迭代算法,稱為自適應(yīng)增強(qiáng)學(xué)習(xí)算法。首先建立初始模型,通過(guò)調(diào)整樣本權(quán)重與弱學(xué)習(xí)器權(quán)值,對(duì)初始模型進(jìn)行迭代修正,最終獲得最優(yōu)的弱分類器集合[21, 22]。針對(duì)輸入訓(xùn)練數(shù)據(jù)集D初始化樣本權(quán)值分布:
W=[ω11,ω12,ω13, …,ω1N]
(7)
式中:W為權(quán)值向量;N為訓(xùn)練集樣本個(gè)數(shù);ω1i為第i組數(shù)據(jù)的初始權(quán)重,可以表示為:
(8)
弱學(xué)習(xí)器個(gè)數(shù)為M,訓(xùn)練樣本最大誤差為:
Em=max|yi-Gm(xi)|
(9)
式中:Gm(x)為弱學(xué)習(xí)器,m=1,2,…,M。
采用平方誤差計(jì)算每個(gè)樣本的預(yù)測(cè)誤差率:
(10)
回歸誤差率定義為:
(11)
式中:ωmi為訓(xùn)練第m個(gè)弱學(xué)習(xí)器時(shí)的樣本權(quán)值分布。
弱學(xué)習(xí)器的系數(shù)可以表示為:
(12)
更新樣本集的權(quán)重分布,可以表示為:
(13)
式中:Zm為規(guī)范化因子。
由加權(quán)平均法得到最終的強(qiáng)學(xué)習(xí)器:
(14)
式中:αm為第m個(gè)弱學(xué)習(xí)器的權(quán)值。
自適應(yīng)增強(qiáng)學(xué)習(xí)算法根據(jù)當(dāng)前樣本權(quán)值分布抽取下一組訓(xùn)練樣本,權(quán)值越大,被重復(fù)選擇的概率越高,當(dāng)抽取的樣本數(shù)量足夠多時(shí),訓(xùn)練產(chǎn)生新的弱學(xué)習(xí)器。對(duì)于AdaBoost分類問(wèn)題而言,當(dāng)誤差率小于等于0.5時(shí),弱學(xué)習(xí)器系數(shù)大于等于0,并且系數(shù)隨著誤差率的減少而增大,故誤差率越小的基本分類器在最終分類器上的作用越大。本文中設(shè)定迭代次數(shù)等于弱分類器個(gè)數(shù)[23]。
由式(12)可以看出,上輪預(yù)測(cè)誤差率大的樣本其權(quán)值增大,而預(yù)測(cè)誤差率更小的樣本其權(quán)值減小,存在因預(yù)測(cè)誤差率較大而造成樣本信息損失的情況。針對(duì)不同誤差分段的樣本,通過(guò)引入線性代價(jià)敏感系數(shù)與指數(shù)代價(jià)敏感系數(shù),將關(guān)注預(yù)測(cè)誤差率最小轉(zhuǎn)化為關(guān)注誤差代價(jià)最小。式(13)可以改寫為:
(15)
式中:L、E分別為不同誤差率區(qū)間下的線性代價(jià)敏感系數(shù)與指數(shù)代價(jià)敏感系數(shù)。
本文將樣本的預(yù)測(cè)誤差率分為三段,在此基礎(chǔ)上提出兩種代價(jià)敏感系數(shù)組合策略,詳細(xì)信息如表1所示。
表1 代價(jià)敏感系數(shù)組合策略Tab.1 Combination strategy of the cost-sensitive coefficients
敏感系數(shù)的基數(shù)。
采用引力搜索算法GSA來(lái)確定代價(jià)敏感系數(shù)的基數(shù)。GSA模擬天體粒子間萬(wàn)有引力定律,通過(guò)不斷地更新加速度與天體質(zhì)量(根據(jù)自身位置的優(yōu)劣性),使天體不斷向位置最優(yōu)的天體運(yùn)動(dòng),最終得到最優(yōu)位置,即最優(yōu)參數(shù)解[24, 25]。本文引入GSA算法進(jìn)行代價(jià)敏感系數(shù)尋優(yōu),以線性與指數(shù)敏感系數(shù)組合作為GSA中天體粒子坐標(biāo),以模型預(yù)測(cè)結(jié)果的均方根誤差作為適應(yīng)度函數(shù),最終得到天體粒子的最優(yōu)位置坐標(biāo),即代價(jià)敏感系數(shù)最優(yōu)組合。均方根誤差可以定義為:
(16)
GSA算法的相關(guān)參數(shù)設(shè)置如下:粒子個(gè)數(shù)為30,迭代次數(shù)為100,初始引力常數(shù)為100,代價(jià)敏感系數(shù)優(yōu)化搜索范圍為[1, 3]。圖1、圖2分別展示了兩種代價(jià)敏感系數(shù)組合策略下,引力搜索算法全過(guò)程天體位置分布。
圖1與圖2中,坐標(biāo)點(diǎn)的不同深度代表了不同迭代階段的天體位置。隨著迭代次數(shù)的增加,粒子位置坐標(biāo)點(diǎn)深度逐漸增加??梢钥闯觯鱾€(gè)天體位置逐漸向適應(yīng)度最好的位置靠攏,最后聚集到一點(diǎn),即最優(yōu)參數(shù)結(jié)果。不同誤差率分段下,兩種組合策略的代價(jià)敏感系數(shù)優(yōu)化值,如表2所示。
圖1 策略S1參數(shù)尋優(yōu)天體位置分布Fig.1 Location distribution of the astroparticle of strategy S1
圖2 策略S2參數(shù)尋優(yōu)天體位置分布Fig.2 Location distribution of the astroparticle of strategy S2
表2 兩種組合策略下代價(jià)敏感系數(shù)優(yōu)化值Tab.2 Optimal value of cost sensitivity coefficient by two combination strategies
基于混凝土抗壓強(qiáng)度實(shí)測(cè)數(shù)據(jù),使用AdaBoost集成CART建立預(yù)測(cè)模型,引入兩組代價(jià)敏感系數(shù)值,得到兩種組合策略下Cost-Sensitive AdaBoost-CART(CS-AdaBoost-CART)預(yù)測(cè)模型。本文所使用的混凝土研究數(shù)據(jù)均來(lái)自美國(guó)加州大學(xué)歐文分校的公開(kāi)數(shù)據(jù)庫(kù),共1 030組樣本[26]。其中,涉及水泥含量、高爐渣含量、粉煤灰含量、水含量、高效減水劑含量、粗骨料、細(xì)骨料、養(yǎng)護(hù)齡期8種特征變量。
為驗(yàn)證所提模型的有效性,選取混凝土強(qiáng)度預(yù)測(cè)領(lǐng)域常用的3種模型:傳統(tǒng)AdaBoost-CART、隨機(jī)森林 (random forest, RF)以及BP神經(jīng)網(wǎng)絡(luò)模型作為對(duì)照,對(duì)比兩種不同敏感系數(shù)組合策略下CS-AdaBoost-CART模型與其他3種模型的預(yù)測(cè)結(jié)果。隨機(jī)抽取800組樣本作為訓(xùn)練集與訓(xùn)練驗(yàn)證集,剩余230組樣本作為測(cè)試集。
圖3、圖4分別展示了5種不同混凝土強(qiáng)度預(yù)測(cè)模型的預(yù)測(cè)結(jié)果。為了更清楚地對(duì)各個(gè)模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,圖3截取了波動(dòng)較大的30組樣本點(diǎn)的預(yù)測(cè)曲線進(jìn)行展示。
圖3 不同預(yù)測(cè)模型的預(yù)測(cè)曲線Fig.3 Variation curve of prediction values versus real values by different models
圖4 不同模型下抗壓強(qiáng)度預(yù)測(cè)值-真實(shí)值散點(diǎn)圖Fig.4 Scatter plot of prediction values versus real values of compressive strength by different models
由圖3可以看出,對(duì)于不同的樣本數(shù)據(jù),各模型有不同的預(yù)測(cè)性能表現(xiàn)。當(dāng)樣本在50~55之間時(shí),隨機(jī)森林算法精度較好,其余幾種模型預(yù)測(cè)能力相當(dāng);而當(dāng)樣本超過(guò)60之后,BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)曲線有較大偏離,這也可以從圖4中得到印證。另一方面,其余3種模型在預(yù)測(cè)曲線圖與散點(diǎn)圖中難以看出優(yōu)劣。表3列舉了預(yù)測(cè)模型的三項(xiàng)評(píng)價(jià)指標(biāo)值,分別為均方根誤差(root mean squared error, RMSE)、平均絕對(duì)誤差(mean absolute error, MAE)和確定系數(shù)(R-Square)。
表3 不同模型預(yù)測(cè)結(jié)果的評(píng)價(jià)指標(biāo)Tab.3 Evaluation indicators of prediction results by different models
由表3可以看出,BP神經(jīng)網(wǎng)絡(luò)對(duì)混凝土抗壓強(qiáng)度的預(yù)測(cè)性能最弱,預(yù)測(cè)誤差最大,且R-Square分?jǐn)?shù)最低,表明該模型擬合程度不足。相比之下,本文提出的CS-AdaBoost-CART預(yù)測(cè)模型擬合程度較好,且誤差較低,其中敏感系數(shù)組合策略S1表現(xiàn)出更好的預(yù)測(cè)性能。同時(shí)還可以看出,所提出的基于線性與指數(shù)代價(jià)敏感系數(shù)的自適應(yīng)增強(qiáng)學(xué)習(xí)模型顯著提升了傳統(tǒng)AdaBoost-CART集成預(yù)測(cè)模型的性能,并且較其他常用預(yù)測(cè)模型也有更好的表現(xiàn)。
為了避免AdaBoost樣本權(quán)值更新過(guò)程中因只關(guān)注預(yù)測(cè)誤差率最小而導(dǎo)致的信息丟失情況,引入線性代價(jià)敏感系數(shù)與指數(shù)代價(jià)敏感系數(shù)。通過(guò)對(duì)預(yù)測(cè)誤差率進(jìn)行分級(jí),建立了不同代價(jià)敏感系數(shù)的組合策略,由只關(guān)注預(yù)測(cè)誤差率最小轉(zhuǎn)化為關(guān)注誤差代價(jià)最小,避免了因樣本誤差差異導(dǎo)致的樣本信息丟失。同時(shí),引入GSA智能搜索算法優(yōu)化選取不同策略下代價(jià)敏感系數(shù)的基數(shù)。最終,通過(guò)集成回歸樹(shù)建立CS-AdaBoost-CART混凝土抗壓強(qiáng)度預(yù)測(cè)模型。
基于不同成分配比的混凝土抗壓強(qiáng)度實(shí)測(cè)數(shù)據(jù)集,通過(guò)與隨機(jī)森林模型、傳統(tǒng)AdaBoost-CART模型以及BP神經(jīng)網(wǎng)絡(luò)等典型算法的對(duì)比分析,驗(yàn)證了本文預(yù)測(cè)模型具有更好的預(yù)測(cè)效果與更小的誤差,表明引入代價(jià)敏感系數(shù)對(duì)AdaBoost-CART算法的性能有顯著的提升作用。本文的研究成果可為預(yù)測(cè)算法優(yōu)化及實(shí)際工程中混凝土抗壓強(qiáng)度預(yù)測(cè)提供參考。