劉 爽
(齊齊哈爾大學(xué) 建筑與土木工程學(xué)院,黑龍江 齊齊哈爾 161006)
公路運(yùn)輸是服務(wù)大眾出行的基礎(chǔ)性設(shè)施,而在公路建設(shè)中,造價預(yù)測一直是公路工程項目管理中的重點和難點。合理、準(zhǔn)確的造價能夠有效發(fā)揮其控制公路工程總造價的作用,因此快速而準(zhǔn)確地計算工程造價對公路工程項目的實施與管理具有重大的理論意義和現(xiàn)實意義。
傳統(tǒng)的公路工程估算大多利用以下方式,但存在一些問題,比如,利用定額方法計算。定額受時間因素影響較大,預(yù)測精確度較低;而依據(jù)經(jīng)驗套用相似工程案例,預(yù)測人主觀性較強(qiáng),使得造價預(yù)測容易偏離真實情況;缺少相關(guān)單位對造價的有效監(jiān)控,且造價結(jié)果不確定性高。故此,采用傳統(tǒng)的公路工程估算辦法預(yù)測造價會使預(yù)測值與真實值產(chǎn)生較大差距,不利于成本管控的有效實施。
近年來,計算機(jī)網(wǎng)絡(luò)技術(shù)的建模方法發(fā)展十分迅速。機(jī)器學(xué)習(xí)憑借其學(xué)習(xí)速度快、處理復(fù)雜的非線性問題能力強(qiáng)及不受人為干預(yù)等優(yōu)點深受專家學(xué)者的青睞,被廣泛應(yīng)用于各種分類、回歸和預(yù)測工作。介紹了機(jī)器學(xué)習(xí)的基本原理、常見算法和數(shù)據(jù)預(yù)處理方法,歸納總結(jié)了模型構(gòu)建的一般思路,通過分析不同算法模型的預(yù)測精度,對機(jī)器學(xué)習(xí)在預(yù)測公路工程造價中的應(yīng)用進(jìn)行了總結(jié)與展望。
機(jī)器學(xué)習(xí)(machine learning)是一系列算法的總稱,算法的目的是希望從大量的數(shù)據(jù)中找到隱含的規(guī)律,并將其用于回歸、分類和預(yù)測。其基本過程是輸入訓(xùn)練數(shù)據(jù),利用特定的機(jī)器學(xué)習(xí)方法建立估計函數(shù),得到函數(shù)后向這一模型輸入測試數(shù)據(jù),函數(shù)能夠?qū)]有“見過”的數(shù)據(jù)進(jìn)行正確估計[1],如圖1所示。
圖1 機(jī)器學(xué)習(xí)過程Fig.1 Machine learning process
機(jī)器學(xué)習(xí)根據(jù)學(xué)習(xí)方式的不同可以分為監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)四類[2]。在工程實際應(yīng)用中,通常希望建立一個學(xué)習(xí)過程,將樣本輸入后的預(yù)測結(jié)果與真實值進(jìn)行比較,不斷調(diào)整預(yù)測模型,直至預(yù)測結(jié)果達(dá)到預(yù)先設(shè)定的準(zhǔn)確率為止,這樣的學(xué)習(xí)方式即為監(jiān)督學(xué)習(xí),其中BP神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)(SVM)較為常用。
1.2.1 支持向量機(jī)
支持向量機(jī)(SVM)是一種廣義線性分類器,在小樣本數(shù)據(jù)、非線性及高維分類等問題上具有良好的學(xué)習(xí)能力,在解決分類器的復(fù)雜性與泛化性的矛盾問題時,SVM 比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法更加優(yōu)秀,因此受到學(xué)者們的廣泛關(guān)注和深入研究。SVM 的本質(zhì)是要找到一個令分類間隔達(dá)到最大的分類超平面。如圖2所示,“-”和“+”代表的是不同類別的線性可分?jǐn)?shù)據(jù),其中虛線代表分界線即決策面,兩條實線代表決策面雙側(cè)的極限位置,兩條實線之間的垂直距離被稱為分類間隔,位于兩條實線上的樣本即為支持向量[3]。
圖2 SVM最優(yōu)分類平面Fig.2 SVM optimal classification platform
1.2.2 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是在學(xué)習(xí)訓(xùn)練時采用反向傳播算法,對權(quán)值、閾值進(jìn)行動態(tài)調(diào)整的前饋神經(jīng)網(wǎng)絡(luò)。該算法具有良好的自組織、自適應(yīng)和非線性映射能力,可以處理復(fù)雜的線性與非線性關(guān)系數(shù)據(jù)[4]。
BP神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)如圖3所示,一般包括輸入層、隱含層和輸出層,可通過增加隱含層或隱含層單元數(shù)來調(diào)節(jié)網(wǎng)絡(luò)結(jié)構(gòu)。其基本算法包括信號的前向傳播及誤差的反向傳播,通過動態(tài)調(diào)整網(wǎng)絡(luò)權(quán)值、閾值,使得網(wǎng)絡(luò)輸出值與期望輸出值的誤差均方差最小,經(jīng)反復(fù)學(xué)習(xí)訓(xùn)練,直至達(dá)到預(yù)設(shè)的學(xué)習(xí)次數(shù)或滿足預(yù)定的訓(xùn)練輸出誤差[5]。
圖3 BP神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖Fig.3 BP neural network topology structure
為提高模型預(yù)測的精確度,可以利用SPSS對樣本數(shù)據(jù)預(yù)先進(jìn)行處理,常用的辦法有聚類分析和數(shù)據(jù)降維。
聚類分析是一種多元的分類工具,它可以通過無監(jiān)督學(xué)習(xí)將相似樣本進(jìn)行分類。針對樣本間差異性較大的問題,通過對樣本數(shù)據(jù)聚類分析,篩選出與待估工程相似度較高的工程樣本,可以為后續(xù)模型的建立提供更加可靠的樣本數(shù)據(jù),減小預(yù)測值與真實值之間的差距,提高模型的實際應(yīng)用價值[6]。
在分析訓(xùn)練樣本時,一般需要觀測大量的輸入變量,從而尋找其內(nèi)部規(guī)律,但變量之間可能存在一定的相關(guān)性會增加模型訓(xùn)練的復(fù)雜程度。因此,采用數(shù)據(jù)降維可以幫助減少分析變量,保留原始變量攜帶的重要信息,大大減少模型的計算負(fù)擔(dān),從而有效提高學(xué)習(xí)效率。
構(gòu)建公路工程造價預(yù)測模型的具體流程如圖4所示,一般步驟如下:
圖4 預(yù)測模型的流程圖Fig.4 Flow chart of prediction model
Step 1:收集與整理工程樣本數(shù)據(jù);
Step 2:依據(jù)工程項目特點確定工程特征指標(biāo);
Step 3:對樣本數(shù)據(jù)預(yù)處理;
Step 4:確定合適的算法;
Step 5:將處理好的樣本數(shù)據(jù)帶入模型中訓(xùn)練;
Step 6:進(jìn)行預(yù)測值與真實值的對比分析;
Step 7:當(dāng)誤差滿足預(yù)期值時,得出預(yù)測模型,否則重新調(diào)整算法參數(shù),返回Step 5重新進(jìn)行訓(xùn)練;
Step 8:帶入測試樣本數(shù)據(jù)進(jìn)行驗證,如若驗證結(jié)果滿足預(yù)期誤差則確定預(yù)測模型,否則返回Step 4中重新選擇合適的算法訓(xùn)練模型。
在研究初期,大多學(xué)者會將單一的機(jī)器學(xué)習(xí)算法應(yīng)用于公路工程造價預(yù)測,常見的有BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和徑向基神經(jīng)網(wǎng)絡(luò)等。謝穎[7]借助最小二乘支持向量機(jī)(LSSVM)在解決小樣本數(shù)據(jù)時的優(yōu)勢,建立了基于LSSVM的公路工程造價預(yù)測模型,證明了該模型的預(yù)測精度較傳統(tǒng)的回歸分析(ANN)模型有了大幅提高且訓(xùn)練速度更快。盧毅[8]篩選出11個工程特征指標(biāo),借助基因表達(dá)式編程(GEP)在搜索效率上的優(yōu)勢,設(shè)定好GEP算法的構(gòu)成要素,建立了基于GEP的造價預(yù)測模型,并利用敏感性分析模型的可行性,結(jié)果表明,該模型的相對誤差僅為5.9%,有很好的實際應(yīng)用價值。孫文凱[9]結(jié)合公路工程造價的費(fèi)用組成特點,構(gòu)建了基于總造價指數(shù)、一級指數(shù)、二級指數(shù)的分級造價模型,并利用BP神經(jīng)網(wǎng)絡(luò)的自動學(xué)習(xí)和適應(yīng)的計算方法,建立了基于分級指數(shù)的公路工程造價趨勢神經(jīng)網(wǎng)絡(luò)預(yù)測模型,為擬建項目的造價估測提供了一種科學(xué)的手段。郭鑫[10]利用OWA算子計算公路工程造價估算權(quán)重,建立了完整的基于OWA算子的公路工程造價估算模型,該模型得出的工程造價估算值與真實值較為接近,能夠解決傳統(tǒng)公路工程造價估算模型估算值與真實值偏差大的問題。劉曜瑋[11]通過統(tǒng)計分析2016—2020年我國新建高速公路的322組數(shù)據(jù),選用對多重共線性處理能力較強(qiáng)的Lasso回歸預(yù)測模型和具有強(qiáng)大學(xué)習(xí)和預(yù)測能力的XGBoost模型同時預(yù)測,最終證明XGBoost模型預(yù)測高速公路工程造價的能力更強(qiáng)。
單一的算法模型由于受自身函數(shù)的限制,會影響模型預(yù)測的精確度:人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測的精確度依賴大量的樣本數(shù)據(jù),在訓(xùn)練時容易產(chǎn)生過擬合現(xiàn)象且泛化能力較差;支持向量機(jī)在小樣本的預(yù)測上具有一定優(yōu)勢,可以解決過擬合問題,但無法進(jìn)行高維數(shù)據(jù)的訓(xùn)練。因此,采用合適的優(yōu)化方法可以彌補(bǔ)算法本身的不足,從而大大提高模型預(yù)測的精確度。
2.2.1 初始權(quán)值優(yōu)化
馬永軍[12]利用模糊神經(jīng)網(wǎng)絡(luò)計算貼近度,對工程樣本進(jìn)行科學(xué)篩選后賦予權(quán)值,帶入BP神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,其預(yù)測值與真實值的相對誤差僅為2.27%,達(dá)到了較為理想的預(yù)測精度。段慧錕[13]建立了以路面結(jié)構(gòu)材料、路基寬及土石方量等9個因素為基礎(chǔ)的高速公路造價指標(biāo)體系,應(yīng)用灰色系統(tǒng)理論和神經(jīng)網(wǎng)絡(luò)組合的思想建立了GN—BP模型,其結(jié)果表明:該模型具有精確的擬合精度和較為理想的泛化能力,可用于實踐。鄭曉蕾[14]運(yùn)用BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練獲得了影響公路工程造價的7個主要影響因素,并構(gòu)建了基于主要特征因素與BP-GEP網(wǎng)絡(luò)的公路工程造價預(yù)測模型,結(jié)果表明:GEP網(wǎng)絡(luò)在處理公路工程造價這類非線性空間全局搜索中具備了很高的搜索效率,能有效彌補(bǔ)BP網(wǎng)絡(luò)泛化能力較低的缺陷。潘雨紅[15]結(jié)合人工神經(jīng)網(wǎng)絡(luò)模型和遺傳算法(GA)各自的優(yōu)點,將人工智能算法GA-BP模型引入公路工程造價估算中,通過實驗仿真,將該算法與BP算法結(jié)果進(jìn)行比較,驗證了優(yōu)化后的GA-BP算法不僅計算簡便、快捷,且具有較高的計算精度。楊凌雁[16]借助灰色關(guān)聯(lián)分析確定了預(yù)測指標(biāo)的權(quán)重,并通過BP神經(jīng)網(wǎng)絡(luò)建立預(yù)測模型,通過實證研究證明,該模型預(yù)測的結(jié)果精度較高,為我國高速公路工程造價的預(yù)測提供了一種高效合理的方法。郭書翊[17]通過灰色關(guān)聯(lián)理論確定各工程的關(guān)聯(lián)程度,構(gòu)建支持向量機(jī)模型進(jìn)行造價估算并運(yùn)用MATLAB實現(xiàn)公路工程建安費(fèi)的預(yù)測,驗證了該方法的有效性。段曉晨[18]運(yùn)用自組織SOM網(wǎng)絡(luò)對WLCS模型分析結(jié)果進(jìn)行特征抽取,并驗證其對類似工程的確定,結(jié)果表明:WLCS的SOM-RBF網(wǎng)絡(luò)模型可以有效減少估價計算量,并提高估價精度。
2.2.2 群體智能參數(shù)尋優(yōu)
群體智能優(yōu)化的基本思想是模擬自然界生物群體的覓食行為而構(gòu)建的優(yōu)化算法。該算法易于實現(xiàn),并具有較強(qiáng)的并行處理能力和全局優(yōu)化能力,能夠在沒有集中控制的前提下,為解決復(fù)雜的函數(shù)參數(shù)尋優(yōu)提供了一種新方案[19]。王首緒[20]結(jié)合神經(jīng)網(wǎng)絡(luò)和麻雀搜索算法(SAS)的特點,提出基于SSA優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的造價預(yù)測模型,并將SSA—BP算法預(yù)測結(jié)果與BP、RBF神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果進(jìn)行比較,結(jié)果表明:SSA優(yōu)化BP后的相對誤差在0.79%~3.57%,優(yōu)于其他兩種模型,可以為農(nóng)村公路前期投資估算工作提供幫助。汪學(xué)清[21]通過PCA算法提取工程主要特征指標(biāo),引入粒子群算法對LSSVM模型參數(shù)進(jìn)行優(yōu)化,利用Libsvm工具箱進(jìn)行訓(xùn)練與仿真測試,結(jié)果表明:粒子群優(yōu)化后的LSSVM 模型的預(yù)測精度要高于未經(jīng)優(yōu)化的最小二乘支持向量機(jī)模型和 BP 神經(jīng)網(wǎng)絡(luò)(表1),為高速公路工程造價預(yù)測提供了新途徑。
表1 三種模型對比分析[21]Tab.1 Comparative analysis of three kinds of models
相比傳統(tǒng)的公路工程估算辦法,機(jī)器學(xué)習(xí)可以處理復(fù)雜的非線性工程數(shù)據(jù),避免了繁冗的計算工作,節(jié)省了大量的人力物力。將特征指標(biāo)輸入預(yù)測模型可得出最終造價,減少了人為因素的影響,提高了工程造價的預(yù)測精度。但單一的機(jī)器學(xué)習(xí)由于算法自身的限制,在預(yù)測結(jié)果上表現(xiàn)一般,因此引入權(quán)重和參數(shù)優(yōu)化辦法,可以改善算法本身的不足,提高模型預(yù)測的精確度。
公路工程造價預(yù)測的意義在于借助新興技術(shù)快速而準(zhǔn)確地計算出待估工程的造價,其可從兩方面進(jìn)行展望:一是公路工程造價的預(yù)測依賴于大量的已建工程數(shù)據(jù),建立系統(tǒng)而全面的工程數(shù)據(jù)庫可以為研究提供良好的數(shù)據(jù)基礎(chǔ)。二是深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的研究熱點被廣泛應(yīng)用,但其在公路造價預(yù)測上的應(yīng)用還并未得到挖掘??梢越柚湓谔卣髦笜?biāo)和數(shù)據(jù)處理上的優(yōu)勢,將其應(yīng)用于公路工程造價預(yù)測,以實現(xiàn)預(yù)測精度的進(jìn)一步提升。