徐 濤 孫媛媛 盧 敏
1(中國民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 天津 300300)2(中國民航信息技術(shù)科研基地 天津 300300)3(民航旅客服務(wù)智能化應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室 北京 101318)
近年來,隨著旅客出行需求的逐步增長,越來越多人選擇飛機(jī)出行。實(shí)現(xiàn)航線客流量的準(zhǔn)確預(yù)測(cè),對(duì)航空公司而言,無論是對(duì)運(yùn)力安排、市場(chǎng)拓展、未來發(fā)展等作出重要決策,還是制定航班計(jì)劃和機(jī)隊(duì)規(guī)劃都是必不可少的[1]。
國內(nèi)外關(guān)于航線客流量預(yù)測(cè)研究從早期的統(tǒng)計(jì)模型和計(jì)量經(jīng)濟(jì)學(xué)模型到現(xiàn)階段的時(shí)間序列模型[2]、神經(jīng)網(wǎng)絡(luò)模型[3]、支持向量機(jī)模型[4]以及組合模型[5]等。這些模型大都只是基于旅客訂票歷史數(shù)據(jù)進(jìn)行預(yù)測(cè),鮮見考慮民航旅客出行的隨機(jī)性及航線旅客流量的非線性特征。由于民航行業(yè)的特殊性,較難準(zhǔn)確獲取旅客在航線上的具體信息,因而對(duì)客流量預(yù)測(cè)影響較大的因素(如折扣、機(jī)型、艙位等)與客流量之間的關(guān)系分析不足。
綜上,現(xiàn)有對(duì)航線客流量的研究存在以下問題:(1) 鮮見對(duì)航線客流量數(shù)據(jù)特征作準(zhǔn)確分析,根據(jù)數(shù)據(jù)特征選用合適模型進(jìn)行預(yù)測(cè);(2) 缺乏對(duì)航線客流量影響較大因素的分析,影響預(yù)測(cè)精度。
針對(duì)上述問題,本文對(duì)航線客流量數(shù)據(jù)的非線性及隨機(jī)性進(jìn)行分析,同時(shí)驗(yàn)證平均折扣率對(duì)航線客流量的影響。運(yùn)用灰色理論弱化航線客流量數(shù)據(jù)的隨機(jī)性,再結(jié)合非線性處理能力較強(qiáng)的BP神經(jīng)網(wǎng)絡(luò),構(gòu)建灰色神經(jīng)網(wǎng)絡(luò)模型對(duì)航線的客流量進(jìn)行預(yù)測(cè),避免了選用模型的盲目性以及對(duì)客流量影響較大因素的疏忽。
本文的數(shù)據(jù)來源是中國民航旅客訂票記錄(Passenger Name Record,PNR),旅客的一次出行記錄為一條信息,記錄中包含旅客訂票的航班、艙位、折扣等重要屬性。數(shù)據(jù)集中屬性含義如下:
身份證號(hào):為保護(hù)旅客個(gè)人隱私,根據(jù)真實(shí)身份證號(hào)通過加密算法進(jìn)行處理。
航空公司:為保護(hù)航空公司的隱私,航空公司的名稱采用數(shù)字代號(hào)表示。
航班號(hào):由真實(shí)航班號(hào)信息進(jìn)行填充,用于區(qū)分不同航班信息。
起飛日期:表示旅客具體出行時(shí)間(年月日),出于對(duì)旅客出行信息的保護(hù),年份采用201X表示。
起飛機(jī)場(chǎng)、目的機(jī)場(chǎng):采用國際航空運(yùn)輸協(xié)會(huì)規(guī)定的機(jī)場(chǎng)“三字碼”表示。
艙位:區(qū)分旅客出行的艙位等級(jí)。如:F艙表示頭等艙,C艙表示商務(wù)艙,Y艙表示經(jīng)濟(jì)艙,W艙表示折扣普通艙。
折扣:表示旅客購買機(jī)票時(shí)的折扣信息。
數(shù)據(jù)示例如表1所示。
表1 PNR數(shù)據(jù)示例
選取201X年及次年某航空公司每天北京飛三亞航線的旅客流量、折扣等指標(biāo)作為本文研究的對(duì)象。
將數(shù)據(jù)進(jìn)行整合分析,以天為單位統(tǒng)計(jì)北京飛三亞航線的旅客流量、平均折扣率,記Ys為該航線第s天的旅客流量:
(1)
式中:m表示該航線的航班數(shù);nj表示該航線第j個(gè)航班的旅客人數(shù)。
不同航班不同艙位對(duì)應(yīng)折扣的含義不同,對(duì)含航班艙位等級(jí)的平均折扣率Diss計(jì)算如下:
(2)
式中:l表示該航線有l(wèi)種艙位;zjk表示乘坐第j個(gè)航班第k種艙位的旅客人數(shù);Pjk表示第j個(gè)航班上第k種艙位的價(jià)格(根據(jù)航空公司、航班號(hào)及艙位結(jié)合現(xiàn)有訂票軟件統(tǒng)計(jì)得到各個(gè)艙位的價(jià)格);Gjki表示第i位旅客在第j個(gè)航班上乘坐第k種艙位的折扣。
根據(jù)式(1)-式(2),可以得到北京飛三亞航線的旅客流量、平均折扣率等指標(biāo)數(shù)據(jù)。
航空客流量受不同因素影響,通常表現(xiàn)出不同的變化特征[6]。對(duì)航空公司航線客流量進(jìn)行建模首先要對(duì)航線客流量的數(shù)據(jù)特征進(jìn)行分析,根據(jù)表現(xiàn)出的特征構(gòu)建合適的模型進(jìn)行預(yù)測(cè)。
根據(jù)北京飛三亞航線客流量的分布特征,淡旺季區(qū)分較明顯,每年的十月至次年的四月三亞氣候適宜,這段時(shí)間客流量明顯高于其他月份。淡季客流量變化相對(duì)平穩(wěn),本文主要針對(duì)該航線旺季(201X年十月下旬至次年三月下旬)進(jìn)行分析預(yù)測(cè),航線客流量通常表現(xiàn)出很強(qiáng)的非平穩(wěn)非線性特征。
首先,對(duì)航線客流量序列進(jìn)行單位根檢驗(yàn)以驗(yàn)證序列是否平穩(wěn)以及對(duì)序列的自相關(guān)性進(jìn)行分析,驗(yàn)證序列的非線性特征。據(jù)表2航線客流量序列的單位根檢驗(yàn)可知,概率值(P值)大于10%,不能拒絕原始假設(shè),因此序列為非平穩(wěn)序列[7],說明民航旅客訂票隨機(jī)性較強(qiáng)。
表2 航線客流量序列的單位根檢驗(yàn)
其次,對(duì)航線客流量序列進(jìn)行一階差分并進(jìn)行單位根檢驗(yàn),由表3檢驗(yàn)結(jié)果知,序列一階差分后概率值(P值)小于10%,證明差分后的序列已平穩(wěn)。且表3中自相關(guān)、偏相關(guān)圖與右邊自相關(guān)系數(shù)與偏相關(guān)系數(shù)相關(guān),“*”代表其超出置信空間,而“·”代表在置信空間內(nèi)。通過對(duì)一階差分后的序列進(jìn)行自相關(guān)、偏相關(guān)分析后發(fā)現(xiàn),自相關(guān)系數(shù)和偏相關(guān)系數(shù)三階后快速收斂于置信區(qū)間內(nèi),故存在三階截尾,所以對(duì)差分后的序列建立自回歸積分滑動(dòng)平均模型ARIMA(3,3,1)。
表3 一階差分序列的相關(guān)性檢驗(yàn)
最后,對(duì)序列殘差以及殘差的平方進(jìn)行自相關(guān)分析(見表4、表5),自相關(guān)系數(shù)與零存在顯著的差異,說明序列殘差及殘差的平方均存在自相關(guān)性。因此,航線客流量序列具有非線性特征。
表4 序列殘差的相關(guān)性檢驗(yàn)
表5 序列殘差平方的相關(guān)性檢驗(yàn)
式(2)平均折扣率的計(jì)算中包含了旅客訂票的航班以及艙位等信息,故將平均折扣率作為航線客流量的影響因素較為全面。兩者相關(guān)性通過相關(guān)系數(shù)進(jìn)行分析。
相關(guān)系數(shù)是反映變量之間密切程度的一種統(tǒng)計(jì)指標(biāo)[8],它的主要目的是分析兩個(gè)或多個(gè)變量之間的相關(guān)程度。1代表兩個(gè)變量完全正相關(guān),0代表兩個(gè)變量不相關(guān),-1代表兩個(gè)變量完全負(fù)相關(guān)。對(duì)航線客流量Ys和平均折扣率Diss建立相關(guān)系數(shù)表進(jìn)行相關(guān)性分析。由表6可知,航線客流量Ys與平均折扣率Diss的相關(guān)性系數(shù)為-0.667 91,說明這兩個(gè)變量呈負(fù)相關(guān)關(guān)系。平均折扣率降低意味著折扣力度增大,旅客會(huì)更偏向于乘坐該航線,使得航線客流量增大。
表6 相關(guān)系數(shù)表
航線客流量預(yù)測(cè)是具有不確定性的復(fù)雜系統(tǒng),受許多因素的制約?;疑到y(tǒng)理論是一種處理“部分信息已知、部分信息未知”的“小樣本、貧信息”不確定性的理論[9],該理論認(rèn)為通過生成變換可以將無規(guī)律的數(shù)據(jù)序列變成有規(guī)律的數(shù)據(jù)序列,弱化數(shù)據(jù)的隨機(jī)性。通過1.3節(jié)對(duì)航線客流量數(shù)據(jù)的特征分析發(fā)現(xiàn),航線上旅客流量具有隨機(jī)性的特征,符合灰色理論的特點(diǎn)。并且航線客流量具有很強(qiáng)的非線性特征,BP神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)非線性映射能力[10],所以運(yùn)用灰色系統(tǒng)理論和BP神經(jīng)網(wǎng)絡(luò)組合對(duì)航線客流量進(jìn)行預(yù)測(cè),具有較強(qiáng)的針對(duì)性。
灰色神經(jīng)網(wǎng)絡(luò)是在灰色系統(tǒng)理論中融入了神經(jīng)網(wǎng)絡(luò)的思想,通過網(wǎng)絡(luò)反饋的形式不斷地進(jìn)行學(xué)習(xí)[11]。具體的算法流程如圖1所示。
圖1 灰色神經(jīng)網(wǎng)絡(luò)模型流程圖
(3)
(4)
式(4)的時(shí)間響應(yīng)式為:
(5)
令:
式(5)可作如下轉(zhuǎn)化以映射到BP神經(jīng)網(wǎng)絡(luò):
(6)
將變換后的式(6)映射到擴(kuò)展的BP神經(jīng)網(wǎng)絡(luò)中,得到n-1個(gè)輸入?yún)?shù)、1個(gè)輸出參數(shù)的灰色神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖2所示。
圖2 灰色神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
(7)
LD層輸出節(jié)點(diǎn)的閾值為:
(8)
由航線客流量與平均折扣率的相關(guān)性分析可知,后者對(duì)前者存在較強(qiáng)的影響,故將平均折扣率作為影響因素加入航線客流量的預(yù)測(cè)。所以灰色神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為1-1-2-1,即LA層有1個(gè)節(jié)點(diǎn),輸入為時(shí)間序列t,LB層有1個(gè)節(jié)點(diǎn),LC層有2個(gè)節(jié)點(diǎn),第2個(gè)為平均折扣率,輸出為航線客流量預(yù)測(cè)值,灰色神經(jīng)網(wǎng)絡(luò)的訓(xùn)練流程如下:
1) 網(wǎng)絡(luò)初始化。根據(jù)訓(xùn)練數(shù)據(jù)特征確定網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),初始化參數(shù)a、b和學(xué)習(xí)速率μ。
2) 據(jù)式(7)計(jì)算網(wǎng)絡(luò)權(quán)值ω。
3) 計(jì)算各層輸出。對(duì)每一個(gè)輸入序列(t,X(1)(t)),t=1,2,…,N,計(jì)算各層輸出。
LA層:a=ω11t。
LD層:d=ω31c1+ω32c2-θ。
4) 計(jì)算誤差。計(jì)算網(wǎng)絡(luò)預(yù)測(cè)輸出與期望輸出的誤差。
LC層誤差:δ1=δ2=δ0(1+e-ω11t)。
5) 根據(jù)誤差更新權(quán)值和閾值。
更新LA到LB的連接權(quán)值:ω11=ω11-atδ3。
6) 判斷訓(xùn)練是否結(jié)束,若沒有結(jié)束,返回步驟3。
以某航空公司北京飛三亞航線數(shù)據(jù)為例,該公司在本條航線上每日有4個(gè)班次,濾除訂票后退票即沒有實(shí)際乘坐的訂票數(shù)。選取北京飛三亞航線201X年11月17日至次年1月17日(除元旦節(jié)假日)旅客流量及平均折扣率作為歷史數(shù)據(jù),對(duì)次年1月18日-1月31日航線客流量進(jìn)行預(yù)測(cè)。
由于旅客訂票數(shù)據(jù)量巨大,傳統(tǒng)數(shù)據(jù)庫進(jìn)行操作速度緩慢,故航線客流量的統(tǒng)計(jì)通過搭建Hadoop偽分布式平臺(tái),采用Map-Reduce技術(shù)對(duì)大規(guī)模旅客訂票數(shù)據(jù)進(jìn)行處理,如圖3所示。
圖3 Map-Reduce數(shù)據(jù)處理
通過采用Map-Reduce技術(shù)將數(shù)據(jù)處理集處理成北京-三亞航線上起飛日期-航線客流量記錄文檔的形式如表7所示。出于對(duì)數(shù)據(jù)的保密,對(duì)涉及到的航線客流量作了單位化處理。平均折扣率根據(jù)上面的計(jì)算得出,最終基于灰色神經(jīng)網(wǎng)絡(luò)的輸入樣例如表8所示。
表7 日期-航線客流量記錄文檔
表8 基于灰色神經(jīng)網(wǎng)絡(luò)的輸入樣例
用預(yù)測(cè)客流量與真實(shí)的客流量的相對(duì)誤差對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。其計(jì)算公式如下:
(9)
根據(jù)輸入信息的特征以及期望輸出,確定灰色神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為1-1-2-1,因累加的數(shù)據(jù)具有單調(diào)增加的趨勢(shì),BP神經(jīng)網(wǎng)絡(luò)的非線性激活函數(shù)易逼近,故LB層神經(jīng)元激活函數(shù)為Sigmoid型函數(shù),其他層激活函數(shù)取線性函數(shù)。設(shè)置訓(xùn)練次數(shù)為100,學(xué)習(xí)速率u為0.001。
為驗(yàn)證灰色神經(jīng)網(wǎng)絡(luò)模型在航線客流量預(yù)測(cè)方面的有效性,與灰色模型GM(Grey Model)、BP神經(jīng)網(wǎng)絡(luò)模型作對(duì)比實(shí)驗(yàn)。
根據(jù)上面的討論,將平均折扣率作為影響因素加入到航線客流量預(yù)測(cè)中,建立灰色GM(1,2)模型和輸入節(jié)點(diǎn)為2,輸出節(jié)點(diǎn)為1的BP神經(jīng)網(wǎng)絡(luò)模型作對(duì)比實(shí)驗(yàn),采用相同的航線客流量數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。圖4給出了三種模型的客流量預(yù)測(cè)結(jié)果,以相對(duì)誤差QRE為評(píng)價(jià)指標(biāo)。
圖4 北京-三亞航線客流量預(yù)測(cè)相對(duì)誤差對(duì)比圖
由圖4可知,灰色GM(1,2)模型因結(jié)合航線客流量隨機(jī)性的數(shù)據(jù)特征,預(yù)測(cè)相對(duì)誤差較低,控制在7%以內(nèi),但預(yù)測(cè)穩(wěn)定性較差,如在1月21日預(yù)測(cè)相對(duì)誤差在3%左右,而1月30日預(yù)測(cè)相對(duì)誤差卻在6.5%左右。因BP神經(jīng)網(wǎng)絡(luò)模型結(jié)合航線客流量非線性的數(shù)據(jù)特征,預(yù)測(cè)相對(duì)誤差較低,控制在6%以內(nèi),但預(yù)測(cè)穩(wěn)定性也相對(duì)較差。
相比于BP神經(jīng)網(wǎng)絡(luò)模型和灰色GM(1,2)模型,灰色神經(jīng)網(wǎng)絡(luò)模型結(jié)合了航線客流量非線性和隨機(jī)性的數(shù)據(jù)特征,預(yù)測(cè)相對(duì)誤差更低,而且預(yù)測(cè)穩(wěn)定性更高。同時(shí)平均相對(duì)誤差(表9)比其他兩種模型提高了1%左右,說明灰色神經(jīng)網(wǎng)絡(luò)模型更適用于航線客流量預(yù)測(cè)。
表9 模型對(duì)比
航線客流量預(yù)測(cè)對(duì)于提高航空公司收益有重要意義。本文對(duì)平均折扣率與航線客流量的相關(guān)性進(jìn)行分析,結(jié)果表明,平均折扣率與航線客流量呈負(fù)相關(guān)關(guān)系,即隨著平均折扣率的降低,折扣力度增大,旅客會(huì)更偏向于乘坐該航線,使得航線客流量增大。同時(shí)在對(duì)航線客流量數(shù)據(jù)特征分析的基礎(chǔ)上,將弱化航線客流量數(shù)據(jù)隨機(jī)性的灰色理論以及非線性處理能力強(qiáng)的BP神經(jīng)網(wǎng)絡(luò)模型組合為灰色神經(jīng)網(wǎng)絡(luò)模型對(duì)航線客流量數(shù)據(jù)進(jìn)行預(yù)測(cè)。在相同數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果表明,針對(duì)航線客流量預(yù)測(cè),灰色神經(jīng)網(wǎng)絡(luò)模型具有更高的預(yù)測(cè)準(zhǔn)確率和更強(qiáng)的預(yù)測(cè)穩(wěn)定性。