(中國(guó)民航大學(xué)經(jīng)濟(jì)與管理學(xué)院 天津 300300)
隨著互聯(lián)網(wǎng)以及手機(jī)支付的快速發(fā)展,越來(lái)越多的旅客在出游時(shí)選擇線上購(gòu)買(mǎi)機(jī)票的方式,旅客購(gòu)票渠道主要分為兩種,一是通過(guò)航空公司官方網(wǎng)站進(jìn)行購(gòu)票,二是通過(guò)第三方訂票平臺(tái)購(gòu)買(mǎi)機(jī)票。線上購(gòu)票日益成為主流的購(gòu)票方式。不同的旅客懷揣著不同的目的選擇購(gòu)票方式,有的用戶(hù)追求線上購(gòu)買(mǎi)的方便快捷和高效,有的則是為了更大的折扣和更低廉的價(jià)格,如何對(duì)這些旅客進(jìn)行有效分類(lèi),并通過(guò)不同的營(yíng)銷(xiāo)策略來(lái)吸引他們訂票將成為航空公司和第三方訂票平臺(tái)需要思考的主要問(wèn)題。
傳統(tǒng)的航空旅客主要依據(jù)旅客的累計(jì)飛行里程將乘客劃分為不同的會(huì)員等級(jí),對(duì)旅客的聚類(lèi)也主要通過(guò)用戶(hù)的基本信息諸如性別、年齡、職業(yè)、收入等傳統(tǒng)因素。根據(jù)飛豬平臺(tái)2017年統(tǒng)計(jì)結(jié)果顯示,超過(guò)83%的飛豬平臺(tái)用戶(hù)是“85后”的年輕人。隨著用戶(hù)的年輕化,出行需求也隨之變革,年輕一代的消費(fèi)習(xí)慣更趨向個(gè)性化與定制化。航空公司和第三方訂票平臺(tái)要想吸引這部分在線訂票旅客,就要抓住不同類(lèi)別旅客的特征并推行不同的營(yíng)銷(xiāo)策略。
本文在聚類(lèi)指標(biāo)的選取上參考了前人的研究成果。呂紅霞等在《基于聚類(lèi)分析的鐵路出行旅客類(lèi)別劃分》中采用了分層凝聚類(lèi)法中的凝聚法進(jìn)行變量聚類(lèi),并選擇年齡、性別、月收入、出行目的、費(fèi)用來(lái)源等指標(biāo)對(duì)旅客樣本進(jìn)行聚類(lèi);顧兆軍等在《基于潛在類(lèi)別模型的航空旅客分類(lèi)》中運(yùn)用了潛在類(lèi)別模型對(duì)民航旅客進(jìn)行分類(lèi),選取了旅客的性質(zhì)、購(gòu)票方式、艙位性質(zhì)、提前購(gòu)票時(shí)間、離港時(shí)刻以及離港日期是否是節(jié)假日等指標(biāo)反映旅客的出行目的;許青林等在《一種基于航空旅客行為的旅客細(xì)分模型》中提出一種旅客價(jià)值評(píng)價(jià)模型來(lái)提高旅客細(xì)分的準(zhǔn)確度,分別選取了TSDHFG6個(gè)指標(biāo)。
參考以上研究中所選擇的航空旅客的主要特征并加入在線購(gòu)票旅客的特點(diǎn),本文選取的劃分依據(jù)包括如下指標(biāo):年齡、購(gòu)票渠道、選擇該種購(gòu)票渠道的原因、提前購(gòu)票時(shí)間、出行目的、購(gòu)票時(shí)最主要考慮的因素以及旅客每日上網(wǎng)時(shí)間。通過(guò)對(duì)以上指標(biāo)進(jìn)行量化作為在線購(gòu)票旅客的屬性特征,用于旅客樣本的聚類(lèi)分析。
K-means算法是最常用的基于劃分的聚類(lèi)方法,根據(jù)數(shù)據(jù)樣本中的屬性值之間的相似度來(lái)對(duì)數(shù)據(jù)樣本進(jìn)行區(qū)分。隨機(jī)的選取K個(gè)初始的聚類(lèi)中心,不斷地迭代,直到取得目標(biāo)函數(shù)的最小值或無(wú)法進(jìn)一步地優(yōu)化,則生成最后的模型,即為聚類(lèi)的最終結(jié)果。
我們選擇K-means聚類(lèi)算法是因?yàn)樗且环N較為成熟的聚類(lèi)算法,該算法本身具有優(yōu)化迭代功能,可以克服樣本數(shù)量較少時(shí)聚類(lèi)的不準(zhǔn)確性。另外,由于只是針對(duì)部分小樣本所以可以降低總的聚類(lèi)時(shí)間復(fù)雜度。
以本文為例,我們一共選取了816個(gè)樣本,每個(gè)樣本信息具有7個(gè)屬性值,分別為年齡、購(gòu)票渠道、購(gòu)票原因、提前購(gòu)票時(shí)間、出行目的、每日上網(wǎng)時(shí)間、購(gòu)票主要考慮因素。這7個(gè)屬性從不同的維度描述了各個(gè)樣本數(shù)據(jù)的特征。每一個(gè)樣本最終都會(huì)被劃分到一個(gè)簇族中,我們?cè)O(shè)定將816個(gè)樣本劃分為K個(gè)簇族,最終就會(huì)生成K個(gè)聚類(lèi)中心。
在線購(gòu)票旅客聚類(lèi)的模型如下
(1)
其中,k表示聚類(lèi)個(gè)數(shù),xj表示第j個(gè)在線購(gòu)票旅客,ui表示第i類(lèi)在線購(gòu)票旅客的聚類(lèi)中心,V表示樣本xj到其所在類(lèi)別聚類(lèi)中心ui的距離平方和。
1.數(shù)據(jù)預(yù)處理
數(shù)據(jù)來(lái)源包括計(jì)算機(jī)訂座系統(tǒng)(CRS)中的旅客PNR記錄及在線調(diào)查問(wèn)卷,隨機(jī)抽取2017年6-12月CRS中的數(shù)據(jù),整理問(wèn)卷所得數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行量化和定性描述,實(shí)驗(yàn)數(shù)據(jù)集包含816個(gè)樣本,有7個(gè)屬性如表1所示。
表1 在線購(gòu)票旅客特征數(shù)據(jù)集
其中,年齡A1~A6分別代表18歲以下、18~24歲、25~35歲、35~45歲、45~60歲及60歲以上;購(gòu)票渠道B1~B4分別代表航空公司官網(wǎng)、代理人網(wǎng)站、微信支付寶和其他;購(gòu)票原因C1~C7分別代表可以購(gòu)買(mǎi)折扣票、推出附加服務(wù)(如旅行路線、酒店預(yù)定)、購(gòu)票方便、無(wú)需下載App、熟人或朋友推薦、受廣告影響、單位指定售票點(diǎn)購(gòu)買(mǎi);提前購(gòu)票時(shí)間D1~D6分別代表當(dāng)天、出發(fā)前1~3天、出發(fā)前4~7天、出發(fā)前8~14天、出發(fā)前15~30天、出發(fā)前30天以上;出行目的E1~E5分別代表公商務(wù)出差、探親訪友、度假旅游、學(xué)生上學(xué)和其他;每日上網(wǎng)時(shí)間F1~F4分別代表一小時(shí)以下、1~3小時(shí)、3~5小時(shí)、5小時(shí)以上;購(gòu)票主要考慮因素G1~G7分別代表時(shí)刻、價(jià)格、航空公司品牌、航班班次、機(jī)型、托運(yùn)額度及餐食、其他。
2.基于K-means算法的初步聚類(lèi)
選取在線購(gòu)票旅客特征數(shù)據(jù),對(duì)在線購(gòu)票旅客的7個(gè)屬性指標(biāo)數(shù)據(jù)進(jìn)行聚類(lèi),初始聚類(lèi)中心為軟件自動(dòng)生成,分別選取K均值為2、3、4、5、6等多個(gè)參數(shù)進(jìn)行實(shí)驗(yàn)分析。通過(guò)HART檢驗(yàn),發(fā)現(xiàn)聚類(lèi)數(shù)為3時(shí)得到的聚類(lèi)效果最好,初步將在線購(gòu)票旅客分為3類(lèi)。
Hart指標(biāo)可以用于聚類(lèi)分析中最佳聚類(lèi)數(shù)的檢驗(yàn),Ha≤10時(shí),其最大值對(duì)應(yīng)的類(lèi)數(shù)作為最佳聚類(lèi)數(shù)。
(2)
式中:k為聚類(lèi)數(shù),n為樣本個(gè)數(shù),trW(k)為組間離差矩陣的跡。由表2可知,Hart指標(biāo)得到的最佳聚類(lèi)數(shù)均為3。
表2 不同聚類(lèi)數(shù)的Hart值
表3描述了最終聚類(lèi)中心各個(gè)旅客特征的情況,根據(jù)聚類(lèi)有效性檢驗(yàn)以及聚類(lèi)有效性評(píng)價(jià)指標(biāo)得到K=3時(shí)聚類(lèi)效果最好。
表3 最終聚類(lèi)結(jié)果
聚類(lèi)結(jié)果如表3所示,對(duì)各個(gè)簇族進(jìn)行分析,我們可以將聚類(lèi)1概括為“年輕的休閑旅客”。該類(lèi)別旅客的年齡組成主要為25~35歲,主要的購(gòu)銷(xiāo)渠道為代理人網(wǎng)站,選擇該類(lèi)渠道的主要原因是可以購(gòu)買(mǎi)到折扣票,提前購(gòu)票時(shí)間主要為8~14天,出行目的為旅游度假,每天使用手機(jī)上網(wǎng)的時(shí)間多數(shù)在3~5小時(shí),購(gòu)票時(shí)最關(guān)心的因素為票價(jià)。
聚類(lèi)2與聚類(lèi)1較為相似,只在兩個(gè)屬性上略有差異。聚類(lèi)2可以概括為“窮游的學(xué)生旅客”。該類(lèi)別的購(gòu)票者的年齡組成主要為18~24歲,主要購(gòu)銷(xiāo)渠道同樣為代理人網(wǎng)站,選擇該類(lèi)渠道的主要原因是朋友推薦,提前購(gòu)票的時(shí)間主要為8~14天,出行目的主要為旅游度假,每天使用手機(jī)上網(wǎng)的時(shí)間大概在3~5小時(shí),購(gòu)票時(shí)最關(guān)心的因素仍然為票價(jià)。
聚類(lèi)3可以概括為“高品質(zhì)的中年旅客”,該類(lèi)別旅客的年齡組成主要為35~45歲,主要的購(gòu)票渠道為代理人網(wǎng)站,選擇該類(lèi)渠道的主要原因是受到廣告的影響,提前購(gòu)票的時(shí)間為4~7天,出行目的主要為探親訪友,每天使用手機(jī)上網(wǎng)的時(shí)間在1~3小時(shí)左右,購(gòu)票時(shí)最關(guān)心的因素為航空公司的品牌。
根據(jù)問(wèn)卷調(diào)查顯示,71%的旅客會(huì)選擇通過(guò)多種渠道比較來(lái)購(gòu)買(mǎi)機(jī)票,且大部分乘客表示不會(huì)忠誠(chéng)于一家訂票平臺(tái)。這說(shuō)明隨著可供選擇的訂票平臺(tái)的增多,旅客會(huì)更加理性地選擇符合自身需求的購(gòu)票方式。
對(duì)于聚類(lèi)1“年輕的休閑旅客”而言,該類(lèi)乘客購(gòu)票的主要目的是旅游度假,購(gòu)票時(shí)考慮的主要因素是票價(jià),說(shuō)明該類(lèi)乘客對(duì)價(jià)格的敏感程度較大。針對(duì)該類(lèi)旅客,購(gòu)票平臺(tái)可以推出少量的節(jié)假日特惠旅行機(jī)票,并且在旅客出行前一至兩個(gè)月就為乘客推送該條線路上的機(jī)票信息,設(shè)置低價(jià)提醒。
對(duì)于聚類(lèi)2“窮游的學(xué)生旅客”而言,該類(lèi)乘客的最大特點(diǎn)是時(shí)間充裕,對(duì)票價(jià)較為敏感。所以針對(duì)該類(lèi)乘客,航空公司以及訂票平臺(tái)可以在學(xué)生出行較為集中的一些線路中開(kāi)設(shè)學(xué)生特惠機(jī)票。另外,“90后”是喜歡社交的年輕一代,要想提高這一類(lèi)旅客的購(gòu)票忠誠(chéng)度,第三方訂票平臺(tái)可以打造自己的社交圈,讓用戶(hù)在其App上發(fā)布自己的出行動(dòng)態(tài),旅行攻略,并給予其積分獎(jiǎng)勵(lì)或者其他的訂票優(yōu)惠獎(jiǎng)勵(lì),提高訂票平臺(tái)的分享度。
對(duì)于聚類(lèi)3“高品質(zhì)的中年旅客”而言,該類(lèi)乘客在航班選擇上考慮的首要因素是航空公司的品牌,且出行的目的主要為探親訪友??梢?jiàn)該類(lèi)旅客更加重視旅行的體驗(yàn)、服務(wù)、舒適度以及航班安全性。購(gòu)票平臺(tái)在吸引該類(lèi)乘客時(shí)應(yīng)注重推送高品質(zhì)的航班信息,如較好的航班時(shí)刻、大型的航空公司、舒適度更高的機(jī)型。
本文以通過(guò)線上購(gòu)買(mǎi)機(jī)票的航空旅客為研究對(duì)象,運(yùn)用K-means聚類(lèi)算法對(duì)旅客樣本進(jìn)行聚類(lèi),并根據(jù)聚類(lèi)有效性指標(biāo)對(duì)聚類(lèi)結(jié)果進(jìn)行分析得到了如下結(jié)論。
(1)基于K-means聚類(lèi)算法,可以很好地利用在線購(gòu)票的航空旅客自身屬性,將旅客劃分成不同類(lèi)別,基于聚類(lèi)有效性指標(biāo)以及假設(shè)檢驗(yàn),可以確定劃分結(jié)果的準(zhǔn)確性,將具有相似屬性的旅客劃分為同一類(lèi)別。
(2)通過(guò)對(duì)前人的研究總結(jié),我們選取了7個(gè)屬性值來(lái)描述樣本的特征,通過(guò)K-means聚類(lèi)算法,以及Hart聚類(lèi)有效性指標(biāo)得到將樣本劃分為3類(lèi)時(shí)聚類(lèi)效果最好,說(shuō)明聚類(lèi)結(jié)果準(zhǔn)確可靠。這三類(lèi)旅客可分別概括為“年輕的休閑旅客”,“窮游的學(xué)生旅客”,以及“高品質(zhì)的中年旅客”。
由于本文的數(shù)據(jù)量較少,在聚類(lèi)結(jié)果上可能存在一些誤差。另外,由于K-means聚類(lèi)自身的局限性即無(wú)法自行選擇初始聚類(lèi)中心也可能對(duì)最終的實(shí)驗(yàn)結(jié)果造成影響。