蔣清華,任新民,姜 軍,歐陽彬,彭 保
(1.友聯(lián)船廠(蛇口)有限公司,廣東 深圳 518067;2.湖南工商大學(xué),湖南 長沙 410205;3.深圳信息職業(yè)技術(shù)學(xué)院,廣東 深圳 518172)
renxinmin@cmhk.com;jiangqinghua0115@163.com;jiangjun8880@163.com;2248918560@qq.com;pengb@sziit.edu.cn
近幾年,致力于降低船舶修造領(lǐng)域工業(yè)能耗的船舶能源物聯(lián)網(wǎng)技術(shù)被廣泛研究,為城市“雙碳”量化管理提供了大量有益的參考資料。為了降低船舶非生產(chǎn)性航行時間和維修費用,提高船舶盈利空間,必須對船舶進(jìn)行科學(xué)的維護(hù)和管理,控制和優(yōu)化船舶維修和保養(yǎng)過程中設(shè)備的能耗。因此,開展船舶能效優(yōu)化技術(shù)研究具有重要意義[1-2]。機(jī)器學(xué)習(xí)等技術(shù)的出現(xiàn)與發(fā)展促進(jìn)了船舶能效優(yōu)化研究相關(guān)算法的精進(jìn)。針對以上情況,本文以友聯(lián)船廠的某貨輪為例進(jìn)行研究,從降低船舶特涂工序(一種船舶維修保養(yǎng)方式)過程中的電能消耗預(yù)測誤差的角度出發(fā),結(jié)合實船采集數(shù)據(jù),基于XGBoost機(jī)器學(xué)習(xí)模型,通過粒子群算法(Particle Swarm Optimization,PSO)優(yōu)化模型超參數(shù)提升船舶特涂工序能耗預(yù)測模型的預(yù)測效果。
隨著世界人口的增長,人們對物品的需求逐漸增加,世界各國之間的貨物貿(mào)易增多,貨物運輸需求增大,世界上通過船舶運輸?shù)呢浳锛s占總運輸貨物的80%。運載化學(xué)品的船舶由于裝載貨物的特殊性,所以需要定期使用特別的涂層進(jìn)行維修和保養(yǎng)(即船舶特涂業(yè)務(wù)),其中就涉及維修設(shè)備的電力消耗。在維修和保養(yǎng)過程中因設(shè)備老化、施工安排不當(dāng)?shù)仍斐傻碾娔芾速M問題極大地增加了企業(yè)的維修成本。近年,船舶修造成為高技術(shù)和高能耗特征并重的重點工業(yè)領(lǐng)域,其高能耗問題是船舶企業(yè)所在城市管理的重點和難點。隨著科學(xué)技術(shù)的進(jìn)步,船舶綠色化、智能化發(fā)展理念也隨之提出,修造船企業(yè)如何優(yōu)化修造船過程中的能效問題,已經(jīng)成為該行業(yè)發(fā)展過程中亟待解決的重要一環(huán)[2]。依托機(jī)器學(xué)習(xí)算法,通過將記錄并解讀船舶修造過程中的數(shù)據(jù),用于對船舶能耗影響因素的歸納分析,進(jìn)而建立能耗預(yù)測模型,可以對船舶能耗進(jìn)行詳細(xì)的描述和預(yù)測[3]。
BESIKCI等[4]和YAN等[5]分別運用人工神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)方法對船舶數(shù)據(jù)進(jìn)行能效預(yù)測。BESIKCI等在模型基礎(chǔ)上建立了決策支持系統(tǒng),用來減少油耗,而YAN等則是利用模型實現(xiàn)多要素影響下的船舶能效智能預(yù)測。
船舶航行時,環(huán)境因素會對其產(chǎn)生一定的影響,因此在進(jìn)行能效預(yù)測時,有些學(xué)者也考慮了環(huán)境因素的影響。LEIFSSON等[6]使用人工神經(jīng)網(wǎng)絡(luò)完成模型內(nèi)部參數(shù)確定工作,并在考慮風(fēng)浪對船舶油耗影響的同時,加入污低附著物這一被人們廣泛忽略的影響因素,使得所建立的白箱模型具有更高的適用性。YANG等[7]提出船舶在航行過程是否出現(xiàn)失速現(xiàn)象是影響船舶油耗的重要因素,因此YANG等使用航速優(yōu)化模型求解(Kwon)方法測算船舶在實際運輸過程中受到外界環(huán)境如風(fēng)浪等影響時的航行速度,并建立油耗預(yù)測模型。孫雙休等[8]提出了最小二乘支持向量機(jī)模型,對船舶集中空調(diào)系統(tǒng)能耗進(jìn)行分析預(yù)測。牛曉曉等[9]采用人工魚群算法優(yōu)化支持向量機(jī),對柴油機(jī)性能進(jìn)行回歸分析,取得了高精度的預(yù)測效果。WANG等[10]主要采用小波神經(jīng)網(wǎng)絡(luò)預(yù)測船舶主機(jī)轉(zhuǎn)速與油耗之間的關(guān)系。葉睿等[11]基于人工神經(jīng)網(wǎng)絡(luò),使用一艘丹麥籍客滾輪的運營數(shù)據(jù),建立了油耗預(yù)測模型。GAO等[12]運用高斯混合模型聚類,結(jié)合最大似然算法對數(shù)據(jù)進(jìn)行分析,分析結(jié)果表明油耗量與主機(jī)轉(zhuǎn)速之間的關(guān)系并不是一一對應(yīng)的,其受海況的影響較大。王凱等[13]結(jié)合船舶油耗及其影響因素進(jìn)行實船采集數(shù)據(jù),采用不同機(jī)器學(xué)習(xí)算法對船舶能耗進(jìn)行預(yù)測分析,驗證各算法的特點和優(yōu)勢。YAN等[14]通過大量實驗,擺脫了單一環(huán)境對船舶油耗的限制,使用K-mean聚類方法重點研究長江內(nèi)河區(qū)域不同位置對船舶油耗產(chǎn)生的影響。
本研究中采用的方法概述如圖1所示。本研究分三個階段進(jìn)行:第一階段,研究人員采集友聯(lián)船廠2021 年9 月至2022 年4 月共4 艘貨輪特涂作業(yè)各艙室工序能耗數(shù)據(jù),并對數(shù)據(jù)集進(jìn)行清洗。第二階段:將處理好的能耗數(shù)據(jù)用于訓(xùn)練、驗證和測試PSO-XGBoost模型。采用K-fold交叉驗證技術(shù)及粒子群算法優(yōu)化模型的超參數(shù),并使用15%的測試集確保模型不會出現(xiàn)過擬合或欠擬合。第三階段:通過與其他能耗預(yù)測模型進(jìn)行效果對比實驗,驗證PSO-XGBoost與優(yōu)越性,最終將PSO-XGBoost模型用于船舶特涂能耗預(yù)測,解釋預(yù)測結(jié)果背后的潛在原因,并揭示新的見解。
圖1 研究方法流程圖Fig.1 Research method flow chart
研究人員以友聯(lián)船廠的4 艘進(jìn)行特涂作業(yè)的貨輪(包括薩法輪、托瑪琳輪、坦桑石輪及丹娜輪)為研究對象,采集自2021 年9 月至2022 年4 月的船舶特涂作業(yè)各艙室工序能耗(E)數(shù)據(jù)如表1所示。
表1 PSO-XGBoost模型分析中使用的船舶特涂信息Tab.1 Ship tank coating information used in PSO-XGBoost model analysis
采用船舶特涂業(yè)務(wù)相關(guān)變量作為能耗預(yù)測的影響因素,包括工序類型(Pr)、施工面積(M)、施工時長(T)、各類特涂設(shè)備數(shù)(包括冷風(fēng)機(jī)Nc、除濕機(jī)Nd、吸砂機(jī)Ns)、設(shè)備總數(shù)(Nsum)、風(fēng)管數(shù)(Nf)、溫度要求(Ta)及濕度要求(H)。上述變量是根據(jù)船舶特涂業(yè)務(wù)流程及能耗預(yù)測相關(guān)領(lǐng)域的研究經(jīng)驗選擇的,這表明這些影響因素對船舶特涂工序能耗預(yù)測最重要。收集并整理最終的船舶特涂工序能耗數(shù)據(jù)用作訓(xùn)練PSOXGBoost模型的目標(biāo)。
為消除樣本中異常數(shù)據(jù)的影響,需要刪除掉樣本中的異常值?;?σ準(zhǔn)則采用嶺回歸算法篩選出樣本數(shù)據(jù)中的異常值,如圖2(a)—圖2(c)所示為數(shù)據(jù)集中的異常值分布情況,最終剔除掉編號為[39,77,94,102,162,329]共六個異常樣本。
圖2 數(shù)據(jù)集中的異常值分布情況Fig.2 The distribution of outliers in a dataset
圖3展示了目標(biāo)變量船舶特涂能耗與其影響因素變量之間的相關(guān)性情況。風(fēng)管數(shù)Nf、設(shè)備總數(shù)Nsum與能耗E之間的相關(guān)系數(shù)較大,分別為0.75、0.62。溫度要求Ta和濕度要求H與能耗E之間相關(guān)系數(shù)均為0.56。此外,Ta與H之間顯著相關(guān)(相關(guān)系數(shù)達(dá)0.87)。由于M、Nc、Ns、T與E的低相關(guān)性,以及Ta與H之間高度相關(guān),因此本文僅使用Pr、Nf、Nd、Nsum、Ta作為構(gòu)建模型的能耗影響變量。
圖3 各變量之間的熱力相關(guān)圖Fig.3 Thermodynamic correlation diagram between variables
極限梯度提升樹(XGBoost)[15]是基于樹的boosting算法的一種變體。從概念上來說,XGBoost是學(xué)習(xí)特征X和目標(biāo)Y之間的函數(shù)關(guān)系f的一個迭代過程,在該過程中,各個樹按順序根據(jù)前一棵樹的殘差進(jìn)行訓(xùn)練。樹的預(yù)測數(shù)學(xué)形式可表示如下:
由Eberhart and Kennedy(1995)提出的粒子群優(yōu)化算法(PSO)是根據(jù)鳥類傾向于更好的搜索路線的掠食性軌跡而制定的[16]。這是一種基于種群的隨機(jī)搜索方法,具有參數(shù)少、過程簡單的優(yōu)點,已被應(yīng)用于解決許多領(lǐng)域的優(yōu)化問題。在D維超空間的優(yōu)化問題中,m個粒子中的每個粒子都可以根據(jù)計算結(jié)果調(diào)整其位置和速度。第k步的位置向量可以表示為,速度向量是,第k個粒子的最佳位置為,全局最佳位置為。粒子的運動可以通過公式(3)和公式(4)計算得到:
其中,k表示迭代次數(shù),i為粒子數(shù),d為搜索方向,ω表示權(quán)重,表示粒子的局部最佳位置,作為所有粒子的全局最佳位置,和 表示學(xué)習(xí)因素,并被視為常數(shù),和 表示在[0,1]中均勻分布的隨機(jī)量,采用公式(3)和公式(4)求出最佳解。
本次實驗首先使用XGBoost模型進(jìn)行船舶特涂工序能耗預(yù)測任務(wù)訓(xùn)練,同時采用PSO算法對模型的超參數(shù)進(jìn)行優(yōu)化,其次將優(yōu)化后的模型與線性回歸(LR)、隨機(jī)森林(RF)、K近鄰回歸(KNN)等能耗預(yù)測模型進(jìn)行對比,探究PSO-XGBoost模型的預(yù)測效果是否優(yōu)于其他模型。
實驗采用Intel酷睿i5-12500H 12核16線程CPU,顯卡使用4 GB NVDIA GTX 3050Ti,編程語言使用Python 3.9。為了避免模型訓(xùn)練過程中發(fā)生過擬合,本次實驗采用早期停止法。
實驗參數(shù)設(shè)置如下:迭代次數(shù)epoch設(shè)為5,批量大小batch size設(shè)為10,學(xué)習(xí)率learning rate設(shè)為0.0001,早期停止批量大小設(shè)為500。
采用回歸任務(wù)中常用的評估指標(biāo):平均絕對誤差百分比(MAPE)、判定系數(shù)(R2)和正規(guī)化均方根誤差(NRMSE),各個指標(biāo)的計算方法如公式(5)—公式(7):
將船舶特涂工序能耗數(shù)據(jù)按0.8∶0.2劃分為訓(xùn)練樣本集合與測試樣本集合,訓(xùn)練集用來訓(xùn)練模型,并在測試集上對模型預(yù)測效果進(jìn)行驗證(每種方法均進(jìn)行5 折交叉驗證)。PSO-XGBoost模型及其他對比模型的預(yù)測效果見表2,XGBoost的NRMSE為8.56%,MAPE為13.36%,R2為86.37%。本文提出的模型PSO-XGBoost的NRMSE為7.69%,MAPE為12.21%,R2為91.90%,各項指標(biāo)明顯優(yōu)于其他模型。
表2 PSO-XGBoost模型及其他對比模型的預(yù)測效果Tab.2 Prediction error of PSO-XGBoost model and other comparison models
4.4.2 結(jié)果分析
本次實驗結(jié)果表明,PSO-XGBoost與XGBoost、LR、KNN和RF等能耗預(yù)測機(jī)器學(xué)習(xí)方法相比,表現(xiàn)出了優(yōu)異的性能,并且采用PSO算法進(jìn)行參數(shù)尋優(yōu),有效提升了模型的預(yù)測精度。
此外,為了使PSO-XGBoost模型的預(yù)測結(jié)果具有可解釋性,研究人員采用基于博弈論的SHAP方法[17]結(jié)合隨機(jī)森林模型計算特征變量的貢獻(xiàn)度,綜合考慮算法速度和算法準(zhǔn)確率,設(shè)定決策樹個數(shù)K=500,特征總數(shù)M=5。運行程序得到五個特征的貢獻(xiàn)度,圖4是根據(jù)SHAP值得到的特征分析圖。橫軸有正負(fù)值,表示對船舶特涂工序能耗的正負(fù)影響,圖4中各點表示各個特征關(guān)于每個樣本的SHAP值。SHAP值小于0的點表示對能耗值有負(fù)向的影響,SHAP值大于0的點表示對能耗值有正向的影響。排名第一的變量SHAP值大于0的點明顯多于小于0的點,說明變量風(fēng)管數(shù)(Nf)對船舶特涂工序能耗的影響是正向的,即設(shè)備連通向艙室的風(fēng)管數(shù)越多,其能耗會越高。排名第二的變量是工序類型(Pr),不同工序使用到的設(shè)備不同,達(dá)到施工要求的標(biāo)準(zhǔn)也不相同,其對能耗的影響有正有負(fù),因此在整個數(shù)據(jù)集中變量風(fēng)管數(shù)(Nf)的SHAP值正負(fù)分布均勻。排名最后的變量溫度要求(Ta)的SHAP值接近于0,這是由于特涂作業(yè)中各個類型的工序?qū)ε撌覂?nèi)的溫度要求基本一致,因此溫度要求(Ta)對模型預(yù)測能耗的貢獻(xiàn)較小。
圖4 特征分析圖Fig.4 Analysis diagram of features
船舶特涂工序能耗受多種因素影響,為了實現(xiàn)船舶能源的智能化管理,提出了一種能耗預(yù)測模型,該模型對特征重要性和多元變量的相關(guān)性進(jìn)行建模,同時使用基于博弈論的SHAP方法分析能耗及其影響因素之間的關(guān)系,最終實現(xiàn)了船舶特涂工序能耗預(yù)測。主要結(jié)論如下。
(1)提出了一種基于PSO-XGBoost船舶特涂工序能耗預(yù)測模型。將該模型的預(yù)測結(jié)果與其他方法進(jìn)行對比發(fā)現(xiàn),PSOXGBoost的最高性能為NRMSE=7.69%,預(yù)測誤差MAPE值僅為12.21%,模型可解釋性R2為91.90%,證明了該模型的可預(yù)測性。同時研究表明,利用PSO算法調(diào)整模型超參數(shù)可有效提升預(yù)測性能。
(2)從挖掘船舶特涂工序能耗的影響因素角度,根據(jù)相關(guān)性分析選擇Pr、Nf、Nd、Nsum、Ta作為預(yù)測模型的主要輸入變量。同時,采用基于博弈論的SHAP方法計算變量的特征貢獻(xiàn)度,分析了其與能耗的關(guān)系。結(jié)果表明,風(fēng)管數(shù)Nf對模型預(yù)測的貢獻(xiàn)度最大,溫度要求Ta對模型預(yù)測的貢獻(xiàn)度最小。
(3)船舶特涂工序能耗主要來源于設(shè)備消耗的電能,因此設(shè)備的損耗會影響其使用效率進(jìn)而影響能耗,但目前的船舶能耗數(shù)據(jù)中沒有涉及設(shè)備損耗的信息。此外,船舶特涂工序能耗數(shù)據(jù)是一種時間序列,季節(jié)性等時間特征會影響特涂設(shè)備的使用及施工達(dá)標(biāo)要求等情況,從而導(dǎo)致能耗變化。今后可考慮加入設(shè)備損耗、時間特征進(jìn)行建模,從而更好地預(yù)測船舶特涂工序能耗。