丁建立 楊錕
摘 要:為破除XGBoost模型的黑盒特性,增強(qiáng)模型的說服性,提出一種基于SHAP的可解釋性航班到港延誤時(shí)長預(yù)測模型。首先,對航班歷史數(shù)據(jù)、天氣數(shù)據(jù)進(jìn)行融合,在融合數(shù)據(jù)的基礎(chǔ)上進(jìn)行異常值處理,并利用遞歸特征消除方法進(jìn)行特征選擇;其次,構(gòu)建航班延誤時(shí)長預(yù)測模型,利用遺傳算法進(jìn)行參數(shù)調(diào)優(yōu),并與目前常用的模型進(jìn)行對比;最后,在航班延誤時(shí)長預(yù)測的基礎(chǔ)上結(jié)合SHAP模型,從總體特征和特征間的相互關(guān)系2個(gè)角度分析特征的重要程度。實(shí)驗(yàn)結(jié)果表明,經(jīng)過遺傳算法調(diào)優(yōu)的XGBoost模型預(yù)測精度更高,其中MAE降低了8.94%,RMSE降低了19.85%,MAPE降低了6.15%,且其模型精度更高。因此,SHAP模型破除了XGBoost模型的黑盒特性,增強(qiáng)了模型的可解釋性,可為降低航班延誤時(shí)長提供技術(shù)支持。
關(guān)鍵詞:航空運(yùn)輸管理;延誤預(yù)測;極限梯度提升;參數(shù)尋優(yōu);可解釋性;特征選擇
中圖分類號:TP183
文獻(xiàn)標(biāo)識碼:A DOI:10.7535/hbkd.2023yx03005
收稿日期:2023-02-27;修回日期:2023-05-15;責(zé)任編輯:王淑霞
基金項(xiàng)目:國家自然科學(xué)民航聯(lián)合重點(diǎn)基金(U2233214,U2033205)
第一作者簡介:丁建立(1963—),男,河南洛陽人,教授,博士,ccf 會員(17170M),主要從事智能仿生算法、機(jī)器學(xué)習(xí)方面的研究。E-mail:jlding@cauc.edu.cn
Prediction and characteristic analysis of flight arrival delay
DING Jianli,YANG Kun
(Department of Computer Science and Technology, Civil Aviation University of China, Tianjin 300300, China)
Abstract:To break the black box feature of XGBoost model and enhance its persuasiveness, an interpretable flight delay prediction model based on SHAP was proposed. Firstly, based on the fusion of flight history data and weather data, outliers were processed and features were selected by recursive feature elimination method. Secondly, a flight delay duration prediction model was constructed, and genetic algorithm was used for parameter optimization, then it was compared with commonly used models at present. Finally, based on the prediction of flight delay duration and the SHAP model, the importance of features was analyzed from two perspectives: overall features and the interrelationships between the features. The experimental results show that the XGBoost model optimized by genetic algorithm has higher prediction, with a decrease of 8.94% in MAE, 19.85% in RMSE, and 6.15% in MAPE, with higher accuracy compared to other models. The SHAP model can break the black box characteristics of the XGBoost model and enhance its interpretability, which provides some support for reducing flight delay duration.
Keywords:air transport management; delay prediction; limit gradient lifting; parameter optimization; interpretation; feature selection
航班到港延誤是指航班實(shí)際降落時(shí)間比計(jì)劃降落時(shí)間延遲15 min以上的情況。2022年中國民航局發(fā)布的民航行業(yè)統(tǒng)計(jì)公報(bào)顯示,不正常航班服務(wù)投訴超過六成。航班到港延誤不僅僅是單點(diǎn)效應(yīng),當(dāng)延誤航班數(shù)量過大時(shí),還會對同個(gè)航班鏈中的后續(xù)其他航班造成影響。因此,利用航班數(shù)據(jù)、天氣數(shù)據(jù)對航班到港延誤時(shí)長進(jìn)行預(yù)測,有助于機(jī)場人員及時(shí)優(yōu)化航班的排班,減少航班延誤造成的影響。
高精準(zhǔn)度的航班到港延誤時(shí)長預(yù)測一直是國內(nèi)外學(xué)者研究的熱點(diǎn)。為提升模型預(yù)測精準(zhǔn)度,研究人員主要從改進(jìn)預(yù)測模型、提取有效特征、處理不平衡數(shù)據(jù)3個(gè)方面入手。常用的預(yù)測模型有樸素貝葉斯、支持向量機(jī)(SVM)、隨機(jī)森林等傳統(tǒng)模型[1-5]。民航業(yè)數(shù)字化的發(fā)展促進(jìn)了具有更高預(yù)測精度的復(fù)雜機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型在民航運(yùn)輸領(lǐng)域中的應(yīng)用。胡皓月[6]采用大數(shù)據(jù)方法建立數(shù)據(jù)模型和預(yù)測模型并進(jìn)行對比實(shí)驗(yàn),通過流式學(xué)習(xí)的計(jì)算模式,提高了模型預(yù)測的精度。王春政等[7]提出基于Agent的機(jī)場網(wǎng)絡(luò)延誤模型,并適應(yīng)性選用貝葉斯估計(jì)等算法建立參數(shù)模型。王丹等[8]通過分析基分類器間區(qū)別和精準(zhǔn)度的聯(lián)系,利用增量學(xué)習(xí)算法提高了模型學(xué)習(xí)新數(shù)據(jù)的速率和預(yù)測精度。復(fù)雜模型雖然具有高精度的優(yōu)點(diǎn),但其超參數(shù)過多且人工調(diào)參困難仍是目前研究者所面臨的問題。在提取有效特征方面,MOREIRA等[9]分析影響航班延誤的因素,豐富了數(shù)據(jù)中的天氣特征。REBOLLO等[10]提出能夠表征重要機(jī)場和線路的延遲狀態(tài)的網(wǎng)絡(luò)延遲變量,通過分析機(jī)場網(wǎng)絡(luò)延遲增添數(shù)據(jù)特征提升預(yù)測精度。SHI等[11]通過灰色關(guān)聯(lián)分析提取與飛行相關(guān)的因素,提出了一種改進(jìn)機(jī)器學(xué)習(xí)算法的延誤預(yù)測模型,并在操作效率、內(nèi)存消耗和預(yù)測精準(zhǔn)度方面進(jìn)行了驗(yàn)證。上述學(xué)者雖然增添了天氣特征、線路特征,卻忽略了對飛機(jī)起飛和降落具有重要影響的機(jī)場特征。不平衡數(shù)據(jù)會對航班延誤等級預(yù)測造成干擾,而過采樣技術(shù)可對數(shù)據(jù)進(jìn)行平衡處理,進(jìn)而提升模型預(yù)測精度[12]。在航班延誤發(fā)生前對航班到港延誤時(shí)長進(jìn)行預(yù)測,可通過優(yōu)化過站時(shí)間[13]、建立預(yù)警模型[14]、最小化網(wǎng)絡(luò)總傳播延遲[15]等有效手段降低航班延誤造成的影響。
預(yù)測模型的黑盒特性,阻礙了其在現(xiàn)實(shí)中的應(yīng)用。近些年,學(xué)界開始關(guān)注解釋性模型,意圖通過解釋性模型來解釋復(fù)雜機(jī)器學(xué)習(xí)模型的預(yù)測過程[16-17]。SHAP(shapley additive explanation)模型作為最新的解釋性模型,可以分析不同特征的貢獻(xiàn)程度[18-19]。GUIMARAES等[20]對中轉(zhuǎn)航班時(shí)旅客錯(cuò)過登機(jī)的概率進(jìn)行預(yù)測,并使用SHAP模型對其原因進(jìn)行了分析。ZHANG等[21]和LAMBELHO等[22]使用SHAP模型對延誤預(yù)測模型進(jìn)行解釋,但缺乏特征間共同影響對模型作用的分析和對單架航班不同特征貢獻(xiàn)的分析。
為提高航班延誤時(shí)長預(yù)測模型的可解釋性,本文提出一種基于SHAP的可解釋性航班到港延誤時(shí)長預(yù)測模型。
1 基于SHAP的可解釋性航班到港延誤時(shí)長整體架構(gòu)
整體的架構(gòu)如圖1所示。模型整體分為預(yù)測和解釋2部分,其中預(yù)測部分主要使用XGBoost模型進(jìn)行航班延誤時(shí)長的預(yù)測利用遺傳算法對超參數(shù)進(jìn)行調(diào)優(yōu)。將SHAP模型與調(diào)參后的XGBoost預(yù)測模型相結(jié)合,對其影響預(yù)測結(jié)果的特征進(jìn)行分析。詳細(xì)步驟如下。
1)分別對航班數(shù)據(jù)和天氣數(shù)據(jù)等進(jìn)行預(yù)處理,并以機(jī)場、計(jì)劃離港時(shí)間等為鍵值對數(shù)據(jù)進(jìn)行融合并利用遞歸特征消除算法進(jìn)行特征選擇,最終生成數(shù)據(jù)集。將數(shù)據(jù)集70%劃分為訓(xùn)練集,30%劃分為測試集。
2)構(gòu)建基于遺傳算法調(diào)參的XGBoost航班延誤預(yù)測模型,對參數(shù)值進(jìn)行編碼處理,選擇恰當(dāng)?shù)倪m應(yīng)度函數(shù),設(shè)定參數(shù)變異的概率,使用輪盤賭算法選擇更好的參數(shù)。
3)使用訓(xùn)練集對模型進(jìn)行訓(xùn)練,在測試集上測試模型性能,使模型達(dá)到最優(yōu)狀態(tài)。
4)將SHAP模型與訓(xùn)練好的XGBoost模型融合,計(jì)算不同特征的SHAP值,進(jìn)而就總體特征和特征間共同作用對模型的影響進(jìn)行分析,并對單架航班中不同特征的影響進(jìn)行分析。
2 基于SHAP的可解釋性航班到港延誤時(shí)長預(yù)測
2.1 數(shù)據(jù)處理和特征轉(zhuǎn)換
將航班數(shù)據(jù)和天氣數(shù)據(jù)以機(jī)場編號和時(shí)間為核心進(jìn)行關(guān)聯(lián)生成數(shù)據(jù)集。由于數(shù)據(jù)集合并會產(chǎn)生大量特征缺失的數(shù)據(jù),因此對特征值缺少20%以上的數(shù)據(jù)直接進(jìn)行刪除處理,并將航班因維修等特殊原因造成延誤的數(shù)據(jù)刪除。將數(shù)據(jù)按機(jī)場進(jìn)行分類,生成不同機(jī)場每小時(shí)的平均滑入時(shí)間和平均滑出時(shí)間,進(jìn)而衡量機(jī)場擁堵情況。“是否取消”這一特征使用0表示航班未取消,對其缺失值以0進(jìn)行填充。風(fēng)速、干球溫度、相對濕度等天氣特征受月份影響較大,且對航班會產(chǎn)生較大影響,因此使用眾數(shù)值對其缺失值進(jìn)行填充。當(dāng)前序航班延誤時(shí)長過長時(shí)通常會取消該架飛機(jī)的后續(xù)航班,因此,對數(shù)據(jù)集中前序航班的延誤時(shí)間大于300 min的數(shù)據(jù)進(jìn)行剔除。為使模型能夠處理非數(shù)字特征,本文采用Label Encoding法進(jìn)行處理。例如將出發(fā)機(jī)場、目的機(jī)場轉(zhuǎn)換成數(shù)字特征,以方便模型處理。部分特征的箱型圖如圖2所示。
2.2 基于遞歸特征消除的特征選擇
過多的無關(guān)特征不僅會影響模型的訓(xùn)練效果,而且會增加模型的訓(xùn)練時(shí)間。因此,采用內(nèi)核基于隨機(jī)森林的遞歸特征消除方法進(jìn)行特征選擇。遞歸特征消除即多次利用數(shù)據(jù)進(jìn)行訓(xùn)練,每次訓(xùn)練結(jié)束時(shí),將平均絕對誤差作為特征篩選的原則,刪除特征重要性較低的特征,再根據(jù)新的特征,選取固定數(shù)量的特征。最終共選取17個(gè)特征,如表1所示。選取部分特征進(jìn)行預(yù)測的結(jié)果相較于使用全部特征進(jìn)行預(yù)測的結(jié)果的平均絕對誤差下降值如圖3表示。
2.3 XGBoost的延誤時(shí)長預(yù)測
XGBoost是一種boosting集成學(xué)習(xí)模型,經(jīng)常被用在一些比賽中,且效果顯著。其目標(biāo)函數(shù)如式(1)所示:
式中:Gj=∑i∈Ijgi;Hj=∑i∈Ijhi,Ij={i|q(xi)=j};Ij表示第j個(gè)葉子節(jié)點(diǎn)的集合,gi和hi分別表示以第i個(gè)樣本進(jìn)行分割中損失函數(shù)的一階導(dǎo)數(shù)和二階導(dǎo)數(shù),T代表當(dāng)前的第t棵樹模型的葉子結(jié)點(diǎn)數(shù)量,Gj表示葉子結(jié)點(diǎn)j所包含樣本的一階偏導(dǎo)數(shù)累加之和,Hj表示葉子節(jié)點(diǎn)j所包含樣本的二階偏導(dǎo)數(shù)累加之和,λ為設(shè)定的參數(shù)。在確定分裂前目標(biāo)函數(shù)見式(2),分裂后的目標(biāo)函數(shù)見式(3),分裂的收益表示見式(4)。
就XGBoost如何進(jìn)行航班到港延誤時(shí)長預(yù)測訓(xùn)練進(jìn)行分析,以隨機(jī)選取的計(jì)劃飛行時(shí)間、前序航班延誤時(shí)間、機(jī)場平均延誤時(shí)間3個(gè)特征說明基學(xué)習(xí)器的形成過程,并將樹的深度限定為2,Wi表示不同葉子節(jié)點(diǎn)對應(yīng)預(yù)測值。XGBoost模型中基處理器結(jié)構(gòu)如圖4所示,模型首先對飛行時(shí)間特征進(jìn)行排序,并以相鄰飛行時(shí)間特征值的平均值作為分裂點(diǎn),對所有分裂點(diǎn)計(jì)算分裂的收益值Pgain,選擇分裂收益最大的240 min分裂點(diǎn)進(jìn)行分裂。對所有非葉子節(jié)點(diǎn)按前序航班延誤時(shí)間、機(jī)場平均時(shí)間特征重復(fù)上述操作進(jìn)行分裂,直到達(dá)到規(guī)定的樹深度,一個(gè)基學(xué)習(xí)器構(gòu)造完成。
集成學(xué)習(xí)是一種技術(shù)框架,將多個(gè)基學(xué)習(xí)器預(yù)測結(jié)果加和,最終得到模型的預(yù)測結(jié)果。結(jié)果如表2所示,其中A,B,…,N分別代表不同基學(xué)習(xí)器的預(yù)測結(jié)果。
2.4 遺傳算法優(yōu)化參數(shù)
利用遺傳算法尋找最優(yōu)參數(shù),解決了由人工調(diào)參的復(fù)雜性而導(dǎo)致的易陷入局部最優(yōu)解的問題。以尋找樹的最優(yōu)最大深度為例,通過遺傳算法尋找最優(yōu)參數(shù)的步驟如下。
1)編碼 對需要調(diào)整的參數(shù)進(jìn)行編碼,采用二進(jìn)制編碼。對于難以用二進(jìn)制表達(dá)的連續(xù)變量進(jìn)行離散化。對于取值范圍較小的參數(shù),如決策樹的最大深度可直接使用3個(gè)二進(jìn)制位進(jìn)行二進(jìn)制編碼,最大深度搜索空間通常在(2,9)共8種取值,如圖5所示。
2)初始化 隨機(jī)選取M個(gè)可行解構(gòu)成一個(gè)初始化種群,并將航班到港延誤時(shí)長的平均絕對誤差定義為適應(yīng)度函數(shù)。根據(jù)適應(yīng)度的評價(jià),對個(gè)體進(jìn)行計(jì)算和選擇,防止種群退化。
3)選擇 選擇輪盤賭算法,求得不同染色體與群染色體適應(yīng)度比值,隨機(jī)選擇,比值較高的染色體進(jìn)入下一輪選擇。輪盤賭選擇法可用如下過程模擬實(shí)現(xiàn):
計(jì)算出群體中每個(gè)個(gè)體的適應(yīng)度f(xi=1,2,…,N),N為群體大小;計(jì)算不同染色體的適應(yīng)度與種群適應(yīng)度之和的比值,如式(5)所示:
在[0,1]區(qū)間內(nèi)產(chǎn)生1個(gè)均勻分布的偽隨機(jī)數(shù)r;
若r
1),則選擇個(gè)體1,否則,選擇個(gè)體k,使得p(xk-1)
重復(fù)步驟4)和步驟5),共N次。
4)交叉 采用2點(diǎn)交叉方法,在相對應(yīng)的染色體中,隨機(jī)選擇2個(gè)交叉點(diǎn),交換2個(gè)個(gè)體對應(yīng)部分,從而完成交叉。
5)變異 設(shè)定變異率(變異概率設(shè)置為0.01),以一定概率更改染色體中1個(gè)二進(jìn)制位。
6)輸出 算法運(yùn)行至最大迭代次數(shù)時(shí),輸出最優(yōu)個(gè)體值。多次運(yùn)行取最優(yōu)結(jié)果建立XGBoost模型。
2.5 SHAP模型的可解釋性
SHAP屬于模型事后解釋的方法,可以對復(fù)雜機(jī)器學(xué)習(xí)模型進(jìn)行解釋。SHAP值的主要思想是Shapley值,其來自合作博弈論(coalitional game theory)方法。在進(jìn)行局部解釋時(shí),SHAP的核心是計(jì)算每個(gè)特征變量的Shapley值。Shapley值能夠公平地將貢獻(xiàn)分給訓(xùn)練模型的不同特征,從而得到整體樣本的特征重要性排序和不同特征對不同樣本的貢獻(xiàn)。Shapley值的計(jì)算方法,見式(6)。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)來源
航班數(shù)據(jù)來源于美國交通運(yùn)輸統(tǒng)計(jì)局,選取的數(shù)據(jù)為2022年全年38個(gè)機(jī)場的歷史航班數(shù)據(jù),其中主要包含航班號、計(jì)劃飛行時(shí)間、飛機(jī)尾部編號、起飛機(jī)場、目的機(jī)場等共64維數(shù)據(jù)。以每小時(shí)的機(jī)場平均滑入時(shí)間、機(jī)場平均滑出時(shí)間來表示機(jī)場擁堵數(shù)據(jù)。天氣數(shù)據(jù)來源于美國海洋和大氣管理局,選取的數(shù)據(jù)為2022年全年天氣數(shù)據(jù),主要包含干球溫度、露點(diǎn)溫度、風(fēng)速、風(fēng)向等共22維特征。
3.2 模型尋優(yōu)結(jié)果
XGBoost參數(shù)眾多,無需對所有參數(shù)進(jìn)行調(diào)優(yōu),只需要對常用參數(shù)進(jìn)調(diào)整,本文選取4個(gè)常被調(diào)整的超參數(shù)進(jìn)行調(diào)優(yōu),各參數(shù)調(diào)整范n_estimators[0,1 500],learning_rate[0.1,0.64],max_depth[2,9],subsample[0,1.5]。由于使用二進(jìn)制對超參數(shù)進(jìn)行編碼,因此需要對連續(xù)變量的超參數(shù)進(jìn)行離散化,對決策樹數(shù)量、學(xué)習(xí)率、樣本采樣率分別以10,0.01,0.1的倍數(shù)進(jìn)行調(diào)整。使用遺傳算法以MAE作為適應(yīng)度函數(shù)進(jìn)行全局最優(yōu)參數(shù)搜索,在迭代45輪后找到最優(yōu)解,最終得到一組最優(yōu)參數(shù)[1 165,0.15,8,0.8](見圖6)。
表3展示了遺傳算法優(yōu)化后的模型精度。相較于未進(jìn)行遺傳算法調(diào)優(yōu)的模型,其MAE,RMSE,MAPE分別提升了8.94%,19.85%,6.15%。使用遺傳算法調(diào)優(yōu)后,模型的精度和穩(wěn)定性進(jìn)一步得到了提升。與目前常見的XGBBoost參數(shù)優(yōu)化模型貝葉斯優(yōu)化進(jìn)行對比,經(jīng)過遺傳算法優(yōu)化的XGBoost模型在3個(gè)指標(biāo)下表現(xiàn)最好。
3.3 不同模型間對比分析
將XGBoost與GDBT,Random Forest,LightGBM,BP神經(jīng)網(wǎng)絡(luò),RNN,BiLSTM模型對比,驗(yàn)證模型精度,結(jié)果如表4所示。其中LightGBM,XGBoost,BiLSTM模型相較于GBDT,Random Forest,BP神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)明顯優(yōu)異,而XGBoost模型與LightGBM模型的MAE,RMSE指標(biāo)接近,經(jīng)計(jì)算可知,其在MAPE方面提升了6.5%,模型更加穩(wěn)定。在RMSE評價(jià)指標(biāo)下,BiLSTM模型相較于其他模型表現(xiàn)最為優(yōu)異,但XGBoost模型相較于BiLSTM模型在MAE評價(jià)指標(biāo)下提升了5.34%。綜上,XGBoost模型在3個(gè)評價(jià)指標(biāo)下對延誤預(yù)測能達(dá)到最好擬合狀態(tài)。
3.4 基于SHAP的可解釋性分析
3.4.1 基于SHAP的總體特征重要性分析
圖7整體展示了所有樣本不同特征對SHAP值的影響,左側(cè)為重要性排名前10的特征名稱,右側(cè)表示不同特征取值大小情況。其中顏色越趨向紅色,特征值越大;顏色越趨向藍(lán)色,特征值越小。圖7中橫坐標(biāo)以0為分割線,大于0的樣本表示對模型的預(yù)測起到正向作用,即會增加航班到港延誤時(shí)長預(yù)測的影響;小于0的樣本表示對模型的預(yù)測起到負(fù)向作用,即會降低航班到港延誤時(shí)長預(yù)測的影響。
由圖7可知,影響航班到港延誤時(shí)長最為重要的因素為離港時(shí)間,而其他時(shí)間因素中的航班計(jì)劃執(zhí)行時(shí)間也較為重要。前序航班延誤時(shí)長的影響位列第2,且前序航班延誤時(shí)長越大越會加大航班到港延誤的時(shí)長。從機(jī)場擁堵情況來說,機(jī)場平均滑出時(shí)間對航班到港延誤時(shí)長的影響要大于機(jī)場平均滑入時(shí)間,其原因可能是從經(jīng)濟(jì)方面考慮在不違背航班運(yùn)行時(shí)刻表的情況下,塔臺會優(yōu)先讓進(jìn)港航班使用跑道,而使離港航班在地面等待。天氣也會造成航班的延誤,其中離港機(jī)場壓力變化趨勢、離港機(jī)場相對濕度、離港機(jī)場風(fēng)向、離港機(jī)場降水量的影響較大,而其他天氣變量的影響程度較小。
3.4.2 基于SHAP的特征共同影響分析
1)離港時(shí)間與機(jī)場平均滑出時(shí)間的影響
離港時(shí)間與機(jī)場平均滑出時(shí)間對航班到港延誤時(shí)長的影響如圖8所示。6∶00到12∶00會加大對于到港延誤時(shí)間的預(yù)測值,8∶30到10∶00時(shí)間內(nèi)紅色點(diǎn)明顯較多,說明此段時(shí)間間隔內(nèi)機(jī)場平均滑出時(shí)間較大且影響較大。12∶00到17∶00時(shí)間間隔內(nèi),會先增加航班到港延誤預(yù)測時(shí)長然后減少其預(yù)測值。17∶00到23∶00時(shí)間間隔內(nèi),又會加大航班到港延誤時(shí)長預(yù)測值,且17∶00到21∶00時(shí)間段中,機(jī)場平均滑出時(shí)間影響占比上升,而在23∶00以后,紅色明顯減少,說明此時(shí)機(jī)場平均滑出時(shí)間對預(yù)測值影響下降。綜上,針對3個(gè)時(shí)間段內(nèi)由于機(jī)場平均滑出時(shí)間較大而造成的航班到港延誤,航空公司應(yīng)該優(yōu)化航班排班,盡量降低離港時(shí)間和機(jī)場平均滑出時(shí)間對航班造成的影響。
2)計(jì)劃飛行時(shí)間與距離的影響
航班計(jì)劃飛行時(shí)間與距離對于航班到港延誤時(shí)長的影響為非線性影響。如圖9所示,飛行距離越長航班計(jì)劃飛行時(shí)間也越長。由圖9可知,當(dāng)航班計(jì)劃飛行時(shí)間在200 min內(nèi)時(shí),SHAP值大于0的點(diǎn)比小于0的點(diǎn)明顯多,因此會加大航班到港延誤時(shí)長的預(yù)測值。而當(dāng)航班計(jì)劃飛行時(shí)間大于200 min時(shí),SHAP值大于0和小于0的數(shù)量大致相等,航班計(jì)劃飛行時(shí)間對于航班到港延誤時(shí)長的影響降低。當(dāng)飛行時(shí)間較短時(shí),航空公司基于時(shí)間成本和經(jīng)濟(jì)成本考慮,通常不會設(shè)定過長的緩沖時(shí)間,且基于舒適性的考慮,飛行員也很難在較短時(shí)間內(nèi)采取措施降低航班延誤時(shí)長。而對于計(jì)劃飛行時(shí)間大于200 min的航班,由于計(jì)劃飛行時(shí)間較長,航空公司通常會設(shè)定較大的吸收航班延誤的緩沖時(shí)間,并且在較長的飛行時(shí)間內(nèi),駕駛員容易在保證乘客舒適性的情況下通過調(diào)整飛行速度對延誤進(jìn)行吸收。
3)離港延誤與前序航班延誤的影響
圖10展示了前序航班延誤時(shí)長(PRIOR_ARR_DELAY)和離港延誤時(shí)長對航班到港延誤的影響效果。離港延誤與前序航班延誤時(shí)長關(guān)系較為密切,當(dāng)離港延誤時(shí)長大于40 min時(shí),其會明顯加大對于延誤時(shí)長的預(yù)測值,并且由前序航班延誤造成的離港延誤所占比例明顯上升。其中當(dāng)航班離港延誤時(shí)長小于40 min時(shí),由前序航班延誤引起的離港延誤所占比重較低,且當(dāng)離港延誤小于0 min時(shí),不會增加對航班到港延誤時(shí)長的預(yù)測值。
3.4.3 基于SHAP的單架航班到港延誤因素分析
圖11為不同特征對單個(gè)航班的影響。其中,機(jī)場平均滑出時(shí)間和離港延誤時(shí)間對模型結(jié)果影響最大。SHAP對單個(gè)樣本進(jìn)行分析時(shí),左向箭頭與藍(lán)色代表降低航班到港延誤時(shí)長預(yù)測值。右向箭頭與紅色代表增加航班到港延誤時(shí)長的預(yù)測值,且寬度越寬對結(jié)果的影響越大?;谝呀?jīng)訓(xùn)練好的XGBoost模型,采用SHAP模型對2022-02-19從紐瓦克自由國際機(jī)場飛往克利夫蘭霍普金國際機(jī)場的航班進(jìn)行分析,預(yù)測的該架航班到港延誤時(shí)間為59 min,而實(shí)際延誤時(shí)間為63 min,誤差為4 min。離港延誤主要受前序航班延誤時(shí)間和機(jī)場平均滑出時(shí)間影響,而圖11表明前序航班延誤時(shí)間對此次航班影響較小,因此,此次航班延誤的主要原因是機(jī)場擁堵引起的機(jī)場平均滑出時(shí)間較大導(dǎo)致飛機(jī)無法按時(shí)離港。美國交通運(yùn)輸統(tǒng)計(jì)局對此架航班的延誤分析表明,國家空域系統(tǒng)(NAS)控制造成29 min延誤,承運(yùn)公司控制造成34 min延誤,航空公司和空域控制共同造成離港機(jī)場擁堵,增加了紐瓦克自由國際機(jī)場的機(jī)場平均滑出時(shí)間。
4 結(jié) 語
為破除預(yù)測模型的黑盒特性,本文提出了基于SHAP的可解釋性航班到港延誤時(shí)長預(yù)測模型。首先,構(gòu)造了基于遺傳算法優(yōu)化的XGBoost航班到港延誤時(shí)長預(yù)測,通過使用遞歸特征消除方法進(jìn)行特征選擇,降低無關(guān)特征對模型精度的影響,并使用遺傳算法對XGBoost模型進(jìn)行超參數(shù)尋優(yōu),進(jìn)一步提升了模型的預(yù)測精度。最后,利用解釋性SHAP模型對訓(xùn)練好的XGBoost模型進(jìn)行解釋,就整體特征和特征間共同作用對預(yù)測結(jié)果的影響進(jìn)行了分析,并對單架航班到港延誤時(shí)長的影響因素進(jìn)行闡釋,以期為降低航班延誤時(shí)長提供解決思路。
本文并未考慮到機(jī)場是否有軍事管制、突發(fā)性機(jī)場封閉等特情信息,這些特征可能會對模型預(yù)測精度產(chǎn)生影響。
在應(yīng)用方法,也僅對航班延誤預(yù)測的可解釋性進(jìn)行了分析、而將分析結(jié)果運(yùn)用到航班計(jì)劃設(shè)計(jì)環(huán)節(jié)所涉及到的問題還需要進(jìn)一步的研究。
參考文獻(xiàn)/References:
[1] 徐濤,丁建立,顧彬,等.基于增量式排列支持向量機(jī)的機(jī)場航班延誤預(yù)警[J].航空學(xué)報(bào),2009,30(7):1256-1263.
XU Tao,DING Jianli,GU Bin,et al.Forecast warning level of flight delays based on incremental ranking support vector machine[J].Acta Aeronautica et Astronautica Sinica,2009,30(7):1256-1263.
[2] 李頻.基于灰色動態(tài)馬爾科夫的航班延誤預(yù)測[J].上海工程技術(shù)大學(xué)學(xué)報(bào),2014,28(4):333-336.
LI Pin.Flight delays prediction based on grey dynamic markov[J].Journal of Shanghai University of Engineering Science,2014,28(4):333-336.
[3] AHMADBEYGI S,COHN A,GUAN Yihan,et al.Analysis of the potential for delay propagation in passenger airline networks[J].Journal of Air Transport Management,2008,14(5):221-236.
[4] 何洋,朱金福,周秦炎.基于支持向量機(jī)回歸的機(jī)場航班延誤預(yù)測[J].中國民航大學(xué)學(xué)報(bào),2018,36(1):30-36.
HE Yang,ZHU Jinfu,ZHOU Qinyan.Airport flight delay prediction based on SVM regression[J].Journal of Civil Aviation University of China,2018,36(1):30-36.
[5] 程華,李艷梅,羅謙,等.基于C4.5決策樹方法的到港航班延誤預(yù)測問題研究[J].系統(tǒng)工程理論與實(shí)踐,2014,34(sup1):239-247.
CHENG Hua,LI Yanmei,LUO Qian,et al.Study on flight delay with C4.5 decision tree based prediction method[J].Systems Engineering-Theory & Practice,2014,34(sup1):239-247.
[6] 胡皓月.航班延誤預(yù)測的大數(shù)據(jù)方法研究[D].南京:南京航空航天大學(xué),2017.
HU Haoyue.Research on Prediction of Flights Delay Based on Big Data Methods[D].Nanjing:Nanjing University of Aeronautics and Astronautics,2017.
[7] 王春政,胡明華,楊磊,等.基于Agent模型的機(jī)場網(wǎng)絡(luò)延誤預(yù)測[J].航空學(xué)報(bào),2021,42(7):445-458.
WANG Chunzheng,HU Minghua,YANG Lei,et al.Airport network delay prediction based on Agent model[J].Acta Aeronautica et Astronautica Sinica,2021,42(7):445-458.
[8] 王丹,王萌,王曉曦,等.用于航班延誤預(yù)測的集成式增量學(xué)習(xí)算法[J].北京工業(yè)大學(xué)學(xué)報(bào),2020,46(11):1239-1245.
WANG Dan,WANG Meng,WANG Xiaoxi,et al.Ensemble of incremental learning algorithm for flight delay prediction[J].Journal of Beijing University of Technology,2020,46(11):1239-1245.
[9] MOREIRA L,DANTAS C,OLIVEIRA L,et al.On evaluating data preprocessing methods for machine learning models for flight delays[C]//2018 International Joint Conference on Neural Networks (IJCNN).Rio de Janeiro:IEEE,2018:1-8.
[10]REBOLLO J J,BALAKRISHNAN H.Characterization and prediction of air traffic delays[J].Transportation Research Part C:Emerging Technologies,2014,44:231-241.
[11]SHI Tongyu,LAI Jinghan,GU Runping,et al.An improved artificial neural network model for flights delay prediction[J].International Journal of Pattern Recognition and Artificial Intelligence,2021,35(8).DOI: 10.1142/S0218001421590278.
[12]HENRIQUES R,F(xiàn)EITEIRA I.Predictive modelling:Flight delays and associated factors,hartsfield-Jackson Atlanta international airport[J].Procedia Computer Science,2018,138:638-645.
[13]高強(qiáng),周覃,陳欣.基于波及延誤的航班過站松弛時(shí)間重分配[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,47(10):151-156.
GAO Qiang,ZHOU Qin,CHEN Xin.Redistribution method for slack time of flight based on propagated delay[J].Journal of South China University of Technology(Natural Science Edition),2019,47(10):151-156.
[14]羅鳳娥,張成偉,劉安.基于數(shù)據(jù)挖掘的航班延誤預(yù)警管理分析[J].計(jì)算機(jī)科學(xué),2016,43(z1):542-546.
LUO Fenge,ZHANG Chengwei,LIU An.Flight delays early warning management and analysis based on data mining[J].Computer Science,2016,43(z1):542-546.
[15]DUNBAR M,F(xiàn)ROYLAND G,WU C L.Robust airline schedule planning:Minimizing propagated delay in an integrated routing and crewing framework[J].Transportation Science,2012,46(2):204-216.
[16]胡新宇,陳翔,夏鴻崚,等.移動App即時(shí)缺陷預(yù)測模型的可解釋性方法[J].計(jì)算機(jī)應(yīng)用研究,2022,39(7):2104-2108.
HU Xinyu,CHEN Xiang,XIA Hongleng,et al.Interpretable method of just-in-time defect prediction model for mobile App[J].Application Research of Computers,2022,39(7):2104-2108.
[17]成浩,喻澤成,余波.物理規(guī)律監(jiān)督的RC柱地震破壞模式可解釋機(jī)器學(xué)習(xí)方法[EB/OL].建筑結(jié)構(gòu)學(xué)報(bào). [2023-02-21].https://doi.org/10.14006/j.jzjgxb.2022.0370.
CHENG Hao,YU Zecheng,YU Bo.A physics-supervised interpretable machine learning approach for seismic failure modes prediction of RC columns[EB/OL].Journal of Building Structures. [2023-02-21]. https://doi.org/10.14006/j.jzjgxb.2022.0370.
[18]廖彬,王志寧,李敏,等.融合XGBoost與SHAP模型的足球運(yùn)動員身價(jià)預(yù)測及特征分析方法[J].計(jì)算機(jī)科學(xué),2022,49(12):195-204.
LIAO Bin,WANG Zhining,LI Min,et al.Integrating XGBoost and SHAP model for football player value prediction and characteristic analysis[J].Computer Science,2022,49(12):195-204.
[19]JABEUR S B,MEFTEH-WALI S,VIVIANI J L.Forecasting gold price with the XGBoost algorithm and SHAP interaction values[J].Annals of Operations Research,2021.DOI:10.1007/s10479-021-04187-w.
[20]GUIMARAES M,SOARES C,VENTURA R.Decision support models for predicting and explaining airport passenger connectivity from data[J].IEEE Transactions on Intelligent Transportation Systems,2022, 23(9):16005-16015.
[21]ZHANG Bo,MA Dandan.Flight delay prediciton at an airport using maching learning[C]//2020 5th International Conference on Electromechanical Control Technology and Transportation (ICECTT),Nanchang:IEEE, 2020:557-560.
[22]LAMBELHO M,MITICI M,PICKUP S,et al.Assessing strategic flight schedules at an airport using machine learning-based flight delay and cancellation predictions[J].Journal of Air Transport Management, 2020,82.DOI: 10.1016/j.jairtraman.2019.101737.