文/徐小波 何迅 李光飛 楊力 闞細(xì)武 沈偉
隨著我國經(jīng)濟(jì)持續(xù)快速發(fā)展,越來越多的旅客出行選擇空中交通運(yùn)輸工具,使得我國民航客流運(yùn)輸量在疫情前的每年都能持續(xù)穩(wěn)定地增長。據(jù)統(tǒng)計(jì),2016~2019年我國民航客流年運(yùn)輸量每年保持7%以上的穩(wěn)定增長[1];雖然2020年疫情期間客運(yùn)量約減少2.4億人次,但2021年上半年該局面已經(jīng)逆轉(zhuǎn),旅客運(yùn)輸量出現(xiàn)反彈式增長。如此強(qiáng)勢的客運(yùn)增長量,表明我國的民航運(yùn)輸還有巨大潛力與發(fā)展空間。
在民航機(jī)場領(lǐng)域推進(jìn)建設(shè)平安、綠色、智慧、人文“四型機(jī)場”戰(zhàn)略的背景下,2020年1月民航局出臺(tái)的《中國民航四型機(jī)場建設(shè)行動(dòng)綱要》提出要鼓勵(lì)綜合運(yùn)用大數(shù)據(jù)、云計(jì)算、人工智能、區(qū)塊鏈等新技術(shù),收集、融合、統(tǒng)計(jì)和分析各類數(shù)據(jù),實(shí)現(xiàn)輔助決策、資源調(diào)配、預(yù)測預(yù)警、優(yōu)化控制等功能,支撐工作協(xié)同、精確分析、精準(zhǔn)管控、精細(xì)管理和精心服務(wù),最終實(shí)現(xiàn)機(jī)場智慧化運(yùn)行[2]。
行李處理系統(tǒng)作為機(jī)場內(nèi)部最大的單體系統(tǒng),具有包括值機(jī)、安檢、輸送、分揀、儲(chǔ)存、中轉(zhuǎn)、裝載、到港、控制等10個(gè)子系統(tǒng)[3],是機(jī)場最重要的系統(tǒng)之一。上述政策無疑都帶動(dòng)了機(jī)場行李處理系統(tǒng)的規(guī)劃設(shè)計(jì)向安全、高效、智能、綠色等方向發(fā)展,研究提升行李處理系統(tǒng)效率具有重要的現(xiàn)實(shí)與戰(zhàn)略意義,而值機(jī)行李流量預(yù)測的研究則是提升行李運(yùn)輸及服務(wù)品質(zhì)的關(guān)鍵節(jié)點(diǎn)。
伴隨旅客運(yùn)輸量的逐年增長,我國千萬級(jí)以上機(jī)場不同程度出現(xiàn)了行李處理系統(tǒng)運(yùn)行能力不足的現(xiàn)象,包括值機(jī)排隊(duì)時(shí)間長、早到存儲(chǔ)能力不足、服務(wù)質(zhì)量下降等。傳統(tǒng)的行李處理系統(tǒng)資源配置方式已不能滿足未來旅客爆發(fā)式增長的需求,如何在有限資源下解決上述問題以及合理分配資源,成為當(dāng)前的熱點(diǎn)問題。
對(duì)于行李處理系統(tǒng)而言,行李流量是直接影響該系統(tǒng)資源配置及流程優(yōu)化的關(guān)鍵點(diǎn),值機(jī)行李流量預(yù)測是根據(jù)歷史數(shù)據(jù)及數(shù)據(jù)特征建立一套值機(jī)流量預(yù)測模型,該模型能預(yù)測短時(shí)值機(jī)行李流量,還可以為行李系統(tǒng)資源實(shí)時(shí)分配提供決策支持,幫助管理者提高服務(wù)質(zhì)量。
針對(duì)行李處理系統(tǒng),行李流量預(yù)測更直接地影響該系統(tǒng)的資源配置及優(yōu)化,通過機(jī)場行李數(shù)據(jù)分析,行李流量與旅客流量相關(guān)性極強(qiáng),呈現(xiàn)較為穩(wěn)定的比例,即行李系數(shù)。由于當(dāng)前極少有學(xué)者研究行李流量預(yù)測,因此本文主要參考研究旅客流量預(yù)測的文獻(xiàn)。
近年來,國內(nèi)外研究者根據(jù)不同的預(yù)測場景提出了不同的預(yù)測方式。例如,F(xiàn)ei Dou[4]等提出了一種基于模糊時(shí)序邏輯的高速鐵路客流預(yù)測模型(FTLPFFM),該模型能夠?qū)Ω咚勹F路短期客流進(jìn)行預(yù)測。Yong Wang[5]等提出了將現(xiàn)行政策與專用客流預(yù)測時(shí)間相結(jié)合的方法,并建立了定量與定性相結(jié)合的城際高速鐵路客流預(yù)測新流程。Dan Yang[6]等提出了一種基于長短期記憶神經(jīng)網(wǎng)絡(luò)改進(jìn)的模型,該方法充分利用了LSTM神經(jīng)網(wǎng)絡(luò)模型在處理時(shí)間序列時(shí)的優(yōu)點(diǎn),克服了LSTM神經(jīng)網(wǎng)絡(luò)模型由于時(shí)間滯后而不能充分學(xué)習(xí)長時(shí)間相關(guān)性的缺陷。賈銳軍[7]等提出了一種基于集成學(xué)習(xí)的XGBoost算法的機(jī)場旅客流量預(yù)測方法。何川[8]提出了雙層K近鄰模型(T-K近鄰)模型,并在考慮航班計(jì)劃影響因子的前提下,加入天氣狀況、星期類型、節(jié)假日影響因子,預(yù)測精度達(dá)到93%左右。
本文將考慮機(jī)場每天的運(yùn)營特征屬性,將歷史日期的特征與預(yù)測日期的特征進(jìn)行匹配,采用支持向量機(jī)回歸算法來對(duì)預(yù)測日目標(biāo)時(shí)刻值機(jī)行李流量進(jìn)行預(yù)測,為行李處理系統(tǒng)流程優(yōu)化及資源合理分配提供一種新的解決思路。
在眾多機(jī)器學(xué)習(xí)算法中,支持向量機(jī)算法有著可使用核函數(shù)解決非線性問題、算法思想簡單、擬合效果好的優(yōu)點(diǎn),并且值機(jī)行李流量預(yù)測屬于回歸問題,因此本文使用支持向量機(jī)回歸算法(Support Vector Machine Regression,SVR)進(jìn)行預(yù)測。
SVR算法在線性函數(shù)兩側(cè)制造了一個(gè)超平面“間隔帶”,對(duì)于所有落入間隔帶內(nèi)的樣本,都不計(jì)算損失;只有間隔帶之外的,才計(jì)入損失函數(shù)。之后再通過最小化“間隔帶”的寬度與總損失來最優(yōu)化模型。如圖1,只有深色“間隔帶”外側(cè)的樣本數(shù)據(jù)才被計(jì)入最后的損失。SVR算法的線性回歸函數(shù)與損失函數(shù),如下所示:
SVR算法原理,如圖1所示[9-11]。
圖1 SVR算法原理圖[10]
對(duì)該對(duì)偶問題進(jìn)行求解,可以得到SVR算法的最終求解目標(biāo)為[12]:
在實(shí)際預(yù)測中會(huì)遇到許多非線性問題,這些都不能用一條直線進(jìn)行分類或擬合。但向數(shù)據(jù)添加非線性特征往往能讓模型變得更強(qiáng)大,或者使用非線性函數(shù)可以將非線性可分問題,從原始的特征空間映射至更高維的空間。對(duì)于支持向量機(jī)而言,將數(shù)據(jù)映射到高維空間的方法是使用核函數(shù),它不需要對(duì)數(shù)據(jù)特征進(jìn)行實(shí)際的擴(kuò)展,而是直接計(jì)算擴(kuò)展特征表示中數(shù)據(jù)點(diǎn)之間的內(nèi)積。常用核函數(shù)與解析式,如表1所示。
表1 常用核函數(shù)表
式(14)引入核函數(shù)后可得求解目標(biāo):
SVR算法可通過核方法得到非線性的回歸結(jié)果。
本文根據(jù)西南某機(jī)場行李數(shù)據(jù)庫中導(dǎo)出的數(shù)據(jù)創(chuàng)建數(shù)據(jù)集和整體預(yù)測流程,設(shè)計(jì)了數(shù)據(jù)預(yù)處理、特征工程及相應(yīng)的SVR算法。預(yù)測模型及流程,如圖2所示。
圖2 預(yù)測模型流程圖
圖2 預(yù)測模型流程圖
數(shù)據(jù)是預(yù)測模型的基礎(chǔ),機(jī)器學(xué)習(xí)就是要從大量數(shù)據(jù)中學(xué)習(xí)某種規(guī)律及分布,因此數(shù)據(jù)的重要性不言而喻。
(1)行李數(shù)據(jù)源
行李數(shù)據(jù)源來自于西南某大型機(jī)場行李處理系統(tǒng)數(shù)據(jù)庫,該數(shù)據(jù)庫記錄了每件托運(yùn)行李的信息,包含行李編號(hào)、值機(jī)柜臺(tái)、值機(jī)時(shí)間、航班信息、旅客姓名等數(shù)據(jù)。
(2)外部數(shù)據(jù)源
外部數(shù)據(jù)庫主要包含了歷史節(jié)假日信息(如春節(jié)、中秋、國慶等)、日期類型(如星期幾、周末)、機(jī)場天氣狀況。
為了保證所獲取的數(shù)據(jù)能夠正確地進(jìn)行預(yù)測,必須對(duì)大量歷史數(shù)據(jù)進(jìn)行預(yù)處理,其中包括重復(fù)值處理、缺失值處理、異常值處理等3個(gè)步驟。
(1)重復(fù)值處理
對(duì)數(shù)據(jù)中的重復(fù)行李數(shù)據(jù)(如托運(yùn)多件行李,重復(fù)記錄等)用刪除法進(jìn)行處理。
(2)缺失值處理
對(duì)數(shù)據(jù)中的缺失值用刪除法與中值法進(jìn)行處理。
(3)異常值處理
對(duì)數(shù)據(jù)中的異常值采用中值法進(jìn)行處理。
特征工程是指用一系列數(shù)值工程化的方式,從原始數(shù)據(jù)中篩選出更好的數(shù)據(jù)樣本特征,以提升模型的訓(xùn)練效果。
(1)構(gòu)建數(shù)據(jù)特征
由于在行李處理系統(tǒng)數(shù)據(jù)庫中的現(xiàn)有特征無法滿足預(yù)測需求,因此本文從外部數(shù)據(jù)庫中添加構(gòu)建了新的特征,包括節(jié)假日類型、日期類型、天氣狀況3個(gè)特征。
(2)特征提取
根據(jù)行李處理系統(tǒng)數(shù)據(jù)庫與外部數(shù)據(jù)庫建立相應(yīng)特征,借鑒電力行業(yè)文獻(xiàn)[13]中的特征工程方法,對(duì)每個(gè)特征屬性建立相應(yīng)的映射函數(shù),提取后的特征如表2所示。
表2 數(shù)據(jù)集特征
將上述處理完成的數(shù)據(jù)及特征向量作為模型的數(shù)據(jù)樣本進(jìn)行預(yù)測時(shí),為保證各模型預(yù)測的精確度,還需要對(duì)模型的超參數(shù)進(jìn)行調(diào)節(jié)。本文從訓(xùn)練樣本中隨機(jī)抽取20%的驗(yàn)證樣本,并使用Scikit-Learn機(jī)器學(xué)習(xí)框架的自動(dòng)化參數(shù)搜索工具進(jìn)行最優(yōu)參數(shù)搜索,各模型參數(shù)如表3所示。
表3 預(yù)測模型參數(shù)表
為了驗(yàn)證SVR 預(yù)測模型的精度,將其與K 近鄰模型(KNeighbors)與隨機(jī)森林模型(RandomForest)的預(yù)測結(jié)果進(jìn)行對(duì)比。所有預(yù)測模型采用Python編程并在PyCharm Community 2021編譯器中實(shí)現(xiàn),均在CPU為Intel(R)Core(TM) i5-9300H CPU @ 2.40GHz、內(nèi)存為16GB以及系統(tǒng)為Windows10的個(gè)人電腦完成測試。
本文采用的回歸預(yù)測評(píng)價(jià)指標(biāo)分別為擬合優(yōu)度(R2)、平均絕對(duì)誤差(MAE)、均方根誤差(RMSE)。N為樣本數(shù)量,為真實(shí)值,為預(yù)測值。
擬合優(yōu)度(R2)的計(jì)算公式:
平均絕對(duì)誤差(MAE)的計(jì)算公式:
均方根誤差(RMSE)的計(jì)算公式:
首先對(duì)SVR模型從平常日、節(jié)假日、周末、天氣3個(gè)特征維度隨機(jī)抽取4個(gè)預(yù)測日數(shù)據(jù),進(jìn)行24小時(shí)值機(jī)行李流量預(yù)測,驗(yàn)證模型的可行性。
如表4所示,對(duì)應(yīng)于表2數(shù)據(jù)集特征所抽取的預(yù)測數(shù)據(jù)包含數(shù)據(jù)集的相應(yīng)特征分布,預(yù)測日中無特征完全一致的數(shù)據(jù)并且有不同特征重疊。如預(yù)測日1、3、4是平常日,預(yù)測日1、3是周末,預(yù)測日2、3、4的氣候是雨天,預(yù)測日2包含節(jié)假日和雨天等重疊特征,該預(yù)測數(shù)據(jù)有廣泛的特征分布,對(duì)驗(yàn)證模型具有代表性。
表4 預(yù)測日特征取值表
模型的預(yù)測精度指標(biāo)如表5所示,預(yù)測圖如圖3所示。
表5 SVR預(yù)測模型評(píng)價(jià)指標(biāo)表
圖3 SVR模型預(yù)測圖
由表5可以看出,SVR預(yù)測模型的擬合優(yōu)度都高于0.9,證明模型有效,值機(jī)行李流量預(yù)測模型能夠?qū)C(jī)場的行李流量做出高精確度預(yù)測。
取預(yù)測日1作為預(yù)測的對(duì)比數(shù)據(jù)樣本,使用SVR、KNeighbors、RandomForest三種模型對(duì)比其預(yù)測結(jié)果。
三種預(yù)測模型對(duì)預(yù)測日1的預(yù)測精度指標(biāo)及預(yù)測結(jié)果,如表6和圖4、圖5、圖6所示。
表6 預(yù)測模型評(píng)價(jià)指標(biāo)對(duì)比表
圖4 SVR預(yù)測結(jié)果
圖5 KNeighbors預(yù)測結(jié)果圖
圖6 RandomForest預(yù)測結(jié)果圖
由預(yù)測對(duì)比結(jié)果可以看出,SVR 預(yù)測效果最佳,RandomForest次之,KNeighbors效果最差。
面對(duì)當(dāng)前機(jī)場行李處理系統(tǒng)運(yùn)行能力不足的現(xiàn)狀,本文針對(duì)機(jī)場行李處理系統(tǒng)值機(jī)流量預(yù)測問題提出了基于SVR算法的預(yù)測模型,并成功將該模型首次應(yīng)用于機(jī)場行李流量的預(yù)測;相較于以往的流量預(yù)測數(shù)據(jù)集,本數(shù)據(jù)集增加了適應(yīng)于SVR算法的特征映射函數(shù)并加入了天氣、周末、節(jié)假日等特征。以西南某大型機(jī)場行李處理系統(tǒng)數(shù)據(jù)庫及外部數(shù)據(jù)庫為數(shù)據(jù)源,對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,然后提取特征,使用SVR算法對(duì)機(jī)場值機(jī)行李流量進(jìn)行了預(yù)測。預(yù)測結(jié)果表明,SVR模型預(yù)測性能優(yōu)異,擬合優(yōu)度都高于0.9。該預(yù)測模型可為行李處理系統(tǒng)制造商及機(jī)場運(yùn)營管理部門提供服務(wù)決策及資源合理分配依據(jù),進(jìn)而降低機(jī)場運(yùn)營成本,提高服務(wù)質(zhì)量。