鐘 翔,韓 旭,朱彩云,王曉萌
(天津?yàn)I海國際機(jī)場(chǎng)信息技術(shù)部,天津 300300)
機(jī)場(chǎng)作為一個(gè)開放性、服務(wù)型的企業(yè),旅客服務(wù)滿意度是機(jī)場(chǎng)長(zhǎng)期關(guān)注的重要指標(biāo)。大數(shù)據(jù)時(shí)代,給機(jī)場(chǎng)提高旅客服務(wù)水平帶來新的機(jī)遇和挑戰(zhàn)。在大數(shù)據(jù)環(huán)境下,機(jī)場(chǎng)可迅速有效地獲得旅客的相關(guān)信息,如旅客的基本信息、航班信息、值機(jī)方式、攜帶行李信息、是否為團(tuán)隊(duì)等。利用技術(shù)手段對(duì)機(jī)場(chǎng)旅客群體進(jìn)行分類,并分析出不同旅客的特征差異。
聚類是指把具有相似特征的事物劃分為一類,即“物以類聚”。根據(jù)旅客的主體特征及出行特征等數(shù)據(jù),采用K均值聚類方法[1-3]將機(jī)場(chǎng)旅客群體[4]進(jìn)行有效劃分。聚類可使同類旅客的特征相似,而不同類旅客的特征不同。采用聚類方法可對(duì)機(jī)場(chǎng)旅客群體進(jìn)行有效劃分,能夠幫助機(jī)場(chǎng)管理部門發(fā)現(xiàn)特征迥異的旅客群,便于對(duì)不同旅客提供更優(yōu)質(zhì)、更精準(zhǔn)的服務(wù)[5-7]。
K均值算法屬于聚類分析方法中一種基本且應(yīng)用廣泛的算法。其原理是:首先從樣本數(shù)據(jù)集中隨機(jī)選取K個(gè)點(diǎn)作為初始質(zhì)心;然后計(jì)算各樣本到質(zhì)心的距離,把樣本劃分到離其最近的那個(gè)質(zhì)心所在的簇中;再將新形成的每簇?cái)?shù)據(jù)對(duì)象的平均值作為新的質(zhì)心,如果相鄰兩次迭代的質(zhì)心無任何變化,說明已收斂,算法結(jié)束。K均值算法快速、簡(jiǎn)單,對(duì)大數(shù)據(jù)集有較高的效率,但初始質(zhì)心是隨機(jī)的。由于初始質(zhì)心的選擇對(duì)聚類結(jié)果有較大影響,且易陷入局部最優(yōu),因此,可采用二分K均值算法。
二分K均值算法是對(duì)K均值算法的改進(jìn)與擴(kuò)充,主要是為了改進(jìn)K均值算法的初始質(zhì)心隨機(jī)選擇造成聚類結(jié)果不確定性的問題。該算法首先將所有點(diǎn)作為一個(gè)簇,然后將該簇一分為二,之后選擇其中一個(gè)簇繼續(xù)劃分。選擇哪個(gè)簇進(jìn)行劃分取決于對(duì)其劃分是否可最大程度降低誤差平方和(SSE,sum of the squared error)的值。上述基于SSE的劃分過程不斷重復(fù),直至得到用戶指定簇的數(shù)目為止。
在歐幾里德空間中,衡量簇的質(zhì)量通常使用SSE度量。其計(jì)算方法為執(zhí)行聚類分析后,對(duì)每個(gè)點(diǎn)計(jì)算一個(gè)誤差值,即非質(zhì)心點(diǎn)到最近質(zhì)心的距離,然后將這些距離值的平方相加求和,作為SSE去評(píng)估一個(gè)聚類的質(zhì)量如何,最終目標(biāo)是使SSE最小。在n維歐幾里德空間中,SSE可表示為
其中:k為簇的數(shù)目;ci為簇Ci的聚類中心;x為該簇的一個(gè)樣本。
算法的具體思路為:
1)把整個(gè)數(shù)據(jù)集看成一個(gè)聚簇,計(jì)算并保存每個(gè)樣本到質(zhì)心的距離;
2)在簇集中選取SSE最大的簇進(jìn)行m次二分聚類劃分;
3)根據(jù)式(1)計(jì)算每個(gè)劃分得到的2個(gè)簇總的SSE,選擇最小SSE對(duì)應(yīng)的劃分結(jié)果,將其替換被劃分的簇。
4)迭代步驟2)和步驟3)直到聚簇?cái)?shù)目達(dá)到K后停止。
1)聚類指標(biāo)選取
指標(biāo)選擇是建立機(jī)場(chǎng)旅客群體劃分模型的關(guān)鍵步驟。由于某些旅客行為指標(biāo)不能直接反映旅客群體特征,因此,需從機(jī)場(chǎng)安檢信息系統(tǒng)數(shù)據(jù)庫中篩選出旅客行為指標(biāo)數(shù)據(jù)并進(jìn)行修正和完善,才能更加全面地描述旅客群的行為特征。通過分析得出:旅客主體特征指標(biāo)主要包括旅客年齡、性別、出行次數(shù)及平均停留時(shí)間等;旅客出行特征指標(biāo)主要包括值機(jī)方式、攜帶行李數(shù)量、艙位、是否為團(tuán)隊(duì)等。
2)數(shù)據(jù)標(biāo)準(zhǔn)化
為了消除數(shù)據(jù)指標(biāo)間的量綱影響[8],需對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使數(shù)據(jù)指標(biāo)之間具有可比性。
采用z-score數(shù)據(jù)標(biāo)準(zhǔn)化法,對(duì)序列x1,x2,…,xn進(jìn)行變換,即
3)程序?qū)崿F(xiàn)
采用Python語言實(shí)現(xiàn)二分K均值算法[9-10],利用Pyodbc庫連接本地機(jī)場(chǎng)旅客樣本數(shù)據(jù)庫,通過Numpy科學(xué)計(jì)算庫對(duì)樣本數(shù)據(jù)進(jìn)行計(jì)算。
選擇2016年6月至2017年5月全年天津機(jī)場(chǎng)旅客出行數(shù)據(jù)作為研究對(duì)象,選取旅客平均年齡、平均出行次數(shù)、平均停留時(shí)間等主體特征作為聚類指標(biāo),利用二分K均值算法建立機(jī)場(chǎng)旅客主體特征劃分模型。通過程序運(yùn)行時(shí)間及誤差大小調(diào)整K值,K值越大,誤差越小。對(duì)不同K值的運(yùn)算結(jié)果進(jìn)行分析,發(fā)現(xiàn)樣本數(shù)據(jù)中平均年齡和平均出行次數(shù)的聚類結(jié)果不理想。選取K=8時(shí)的聚類結(jié)果進(jìn)行分析,如表1所示。
表1 K=8時(shí)的聚類結(jié)果Tab.1 Clustering results when K=8
通過表1可看出,聚類劃分的8類中有5類的一年出行次數(shù)質(zhì)心在1附近,約占全樣本的86.38%,聚類結(jié)果不理想。因此,最終將出行次數(shù)為1次的旅客及出行次數(shù)為1次以上的旅客分別進(jìn)行聚類分析。
通過對(duì)出行次數(shù)為1次的旅客主體特征建立劃分模型,K取3~8,比較誤差大小,發(fā)現(xiàn)K>5后誤差減小趨勢(shì)不明顯。均衡考慮算法的運(yùn)行時(shí)間,選取K=5對(duì)出行1次的旅客群體進(jìn)行劃分,結(jié)果如表2所示。
表2 K=5時(shí)出行1次的機(jī)場(chǎng)旅客群體聚類結(jié)果Tab.2 Clustering result of airport passengers with once departure when K=5
據(jù)表2分析出行1次的機(jī)場(chǎng)旅客各年齡段的平均停留時(shí)間可知:第1類旅客平均年齡約60歲,平均停留時(shí)間66.20 min;第2類旅客平均年齡約32歲,平均停留時(shí)間57.34 min;第3類旅客平均年齡約24歲,平均停留時(shí)間104.24 min;第4類旅客平均年齡約36歲,平均停留時(shí)間172.44min;第5類旅客平均年齡約51歲,平均停留時(shí)間101.65 min。綜上所述:機(jī)場(chǎng)大多數(shù)旅客從通過安檢到航班計(jì)劃起飛都會(huì)預(yù)留至少1 h的時(shí)間;年齡在32、60歲左右的人群平均停留時(shí)間也都為1 h左右;部分36歲左右旅客人群平均停留時(shí)間都在2 h左右,但這部分旅客占比很少。另外,據(jù)以上分析第2類旅客在機(jī)場(chǎng)出行次數(shù)為1次的旅客中占比最大,可見年輕旅客為天津機(jī)場(chǎng)旅客的主體力量。因此,需多了解年輕旅客的需求并提供相應(yīng)服務(wù)。
利用同樣的方法,建立出行1次以上的機(jī)場(chǎng)旅客主體特征劃分模型,結(jié)果如表3所示。
表3 K=5時(shí)出行大于1次的機(jī)場(chǎng)旅客群體聚類結(jié)果Tab.3 Clustering result of airport passengers with more than once departure when K=5
對(duì)表3聚類結(jié)果進(jìn)行統(tǒng)計(jì)分析,機(jī)場(chǎng)旅客中第4類旅客占比最多,其次是第5類和第1類旅客,第3類和第2類旅客占比較少。其中:第1類旅客的主要特征是平均年齡約61歲,男性占比76%,平均出行次數(shù)2.69次,平均停留時(shí)間68.02 min;第2類旅客的主要特征是停留時(shí)間長(zhǎng),平均停留時(shí)間153.22 min,平均年齡約39歲,女性占比65%,平均出行次數(shù)2.38次;第3類旅客的主要特征是出行次數(shù)較多,平均出行次數(shù)9.01次,平均年齡約40歲,男性占比84%,平均停留時(shí)間69.54 min;第4類旅客的主要特征是平均年齡約32歲,男性占比72%,平均出行次數(shù)2.57次,平均停留時(shí)間63.89 min,第5類旅客的主要特征是平均年齡約51歲,男女比例相當(dāng),平均出行次數(shù)2.46次,平均停留時(shí)間101 min。綜上分析可知,出行次數(shù)多的旅客平均年齡約40歲,停留時(shí)間在1 h左右。由此可見,這類人多為商務(wù)出行旅客。因商務(wù)旅客非??粗貦C(jī)場(chǎng)離港流程的效率,所以需不斷優(yōu)化流程,提高出行效率。
隨著年輕旅客和商務(wù)旅客出行比例不斷增長(zhǎng),建議機(jī)場(chǎng)增加自助服務(wù)設(shè)施,推動(dòng)簡(jiǎn)化商務(wù)項(xiàng)目。另外,針對(duì)無行李旅客,可在安檢區(qū)域推出適合商務(wù)旅客出行的無行李旅客通道,提高旅客出行的便捷性。為吸引旅客重復(fù)體驗(yàn)機(jī)場(chǎng)的產(chǎn)品和服務(wù),提高旅客滿意度,增強(qiáng)旅客忠誠度,機(jī)場(chǎng)可推出常旅客計(jì)劃。根據(jù)不同旅客群體的特征設(shè)計(jì)不同的服務(wù)及產(chǎn)品,從而有效地調(diào)配機(jī)場(chǎng)資源,集中優(yōu)勢(shì)資源為旅客提供更優(yōu)質(zhì)的服務(wù)。
旅客的出行特征主要選取旅客值機(jī)方式、攜帶行李數(shù)量、艙位、是否團(tuán)隊(duì)為分類指標(biāo),進(jìn)行K均值算法的聚類。在全年樣本下建立基于K均值算法的機(jī)場(chǎng)旅客出行特征劃分模型,如表4所示,K=4時(shí)聚類結(jié)果特征最為明顯。
從表4分析得出,乘坐公務(wù)艙和頭等艙的人數(shù)在團(tuán)隊(duì)出行旅客中占比相對(duì)較?。ǖ?類占比0.91%,第3類占比0.41%),在非團(tuán)隊(duì)旅客中占比相對(duì)較大(第1類占比1.32%,第4類占比2.13%)。由此可知:對(duì)于團(tuán)體出行的旅客而言,大多會(huì)選擇經(jīng)濟(jì)艙出行;對(duì)于非團(tuán)隊(duì)旅客乘坐公務(wù)艙及頭等艙的概率偏大。下面對(duì)上述4類人群的出行特征進(jìn)行分析。
第1類非團(tuán)隊(duì)、非商務(wù)人群。其出行特點(diǎn)以自助值機(jī)與網(wǎng)上值機(jī)為主,攜帶行李較少,乘坐公務(wù)艙與頭等艙人數(shù)占出行總?cè)藬?shù)的1.32%,相較于第4類非團(tuán)隊(duì)旅客而言偏低,因此,此類人群命名為非商務(wù)型。這類人群主要以短時(shí)公務(wù)出差或出游旅客為主,由于攜帶行李較少,所以這類旅客通過網(wǎng)上值機(jī)及自助辦理手續(xù)的人數(shù)偏多。由此可見,網(wǎng)上值機(jī)及自助值機(jī)在攜帶行李較少的旅客中被利用的程度很高,這樣既減少了這類旅客高峰時(shí)刻在值機(jī)柜臺(tái)辦理手續(xù)時(shí)排隊(duì)等待時(shí)間,還能為真正需要在值機(jī)柜臺(tái)辦理行李托運(yùn)的旅客節(jié)省時(shí)間。因此,為提高機(jī)場(chǎng)自助值機(jī)的使用效率,機(jī)場(chǎng)可根據(jù)實(shí)際需求增加自助值機(jī)的數(shù)量及調(diào)整擺放位置,使更多無需托運(yùn)行李的旅客可通過自助值機(jī)設(shè)備辦理手續(xù),減少旅客由于排隊(duì)時(shí)間過長(zhǎng)而引起的誤機(jī)率及相關(guān)的投訴率。
表4 K=4時(shí)機(jī)場(chǎng)旅客出行特征聚類后的占比情況Tab.4 Clustering result of airport passengers’departure characteristics when K=4 %
第2類團(tuán)隊(duì)商務(wù)人群。其出行特點(diǎn)以柜臺(tái)值機(jī)為主,攜帶行李較多,乘坐頭等艙與公務(wù)艙出行人數(shù)占總?cè)藬?shù)的0.91%,相較于第3類團(tuán)隊(duì)旅客而言偏高,因此,此類人群命名為商務(wù)型。通過分析可知,與第3類相比這類人群中攜帶隨從人員較多的公眾人物相對(duì)較多,如知名歌手、演員類人群。對(duì)于這類人群而言,比較注重隱私的保護(hù),因此,機(jī)場(chǎng)可針對(duì)此類人群開設(shè)專用的VIP通道。對(duì)于影響力過大的公眾人物,提前安排專業(yè)人員進(jìn)行引導(dǎo)及人身安全的保護(hù),且對(duì)公眾人物的行程也必須做到嚴(yán)格保密,禁止對(duì)外擴(kuò)散,避免由于人群大量擁堵圍觀而造成群體性不安全事件的發(fā)生。
第3類團(tuán)隊(duì)非商務(wù)人群。這類人群主要以自助值機(jī)和網(wǎng)上值機(jī)為主,攜帶行李較少,乘坐公務(wù)艙和頭等艙的人群占比也較少,因此可分析出此類人群主要以跟團(tuán)旅行或團(tuán)體出行為主。由于定義的團(tuán)隊(duì)人數(shù)為10人,所以該類人群團(tuán)隊(duì)出游的概率較大,10人團(tuán)體出差/辦公的幾率相對(duì)較少。因此,對(duì)團(tuán)隊(duì)旅客做好針對(duì)性服務(wù)是保持機(jī)場(chǎng)良好秩序的關(guān)鍵,增設(shè)團(tuán)隊(duì)專用值機(jī)柜臺(tái)、增加團(tuán)隊(duì)專用座椅區(qū)、開通團(tuán)隊(duì)旅客專用安檢通道、增設(shè)團(tuán)隊(duì)旅客專用充電樁等便捷服務(wù),都可有效地控制航站樓內(nèi)的良好秩序。
第4類非團(tuán)隊(duì)商務(wù)人群。其主要值機(jī)方式為柜臺(tái)值機(jī),乘坐公務(wù)艙和頭等艙的占比人數(shù)最多。由此可分析出此類人群以個(gè)體或少量團(tuán)體長(zhǎng)時(shí)公務(wù)出差及公眾人物出行(攜帶人員10人以下)為主,因此會(huì)攜帶相對(duì)較多的行李。此類人群攜帶行李較多,且公務(wù)艙及頭等艙旅客偏多,針對(duì)此類旅客應(yīng)做好頭等艙及公務(wù)艙專用值機(jī)柜臺(tái)和專用安檢通道的引導(dǎo)工作,避免由于在值機(jī)柜臺(tái)和安檢通道等待時(shí)間過長(zhǎng)而影響出行。
通過對(duì)旅客群體“畫像”,可看出不同身份、不同出行目的的人群都會(huì)有各自的出行偏好,同一類型的人群會(huì)有共同的出行特征。因此,機(jī)場(chǎng)可根據(jù)歷史的出行特征對(duì)每個(gè)人定義分類標(biāo)簽,根據(jù)每個(gè)人的標(biāo)簽類型來提供專業(yè)性較強(qiáng)的服務(wù)內(nèi)容,做到“因人而異”地提供服務(wù),增強(qiáng)旅客的出行體驗(yàn)度,最終可提高旅客的服務(wù)滿意度,通過提升定制性服務(wù)水平為機(jī)場(chǎng)贏得更多的“常旅客”。
采用K均值聚類算法針對(duì)機(jī)場(chǎng)旅客的主體特征和出行特征構(gòu)建機(jī)場(chǎng)旅客群體劃分模型,分析同類旅客的相似特征,挖掘出不同類型旅客的不同行為特征,以此來確定機(jī)場(chǎng)旅客群體的類別,為機(jī)場(chǎng)管理部門推行個(gè)性化服務(wù)提供決策依據(jù)。
利用大數(shù)據(jù)分析技術(shù)研究機(jī)場(chǎng)旅客的行為特征,挖掘潛在的旅客群體,可協(xié)助機(jī)場(chǎng)實(shí)現(xiàn)精準(zhǔn)服務(wù)和精準(zhǔn)營銷,從而提升機(jī)場(chǎng)的旅客體驗(yàn)度。如果能獲取到旅客更多類型的數(shù)據(jù),如旅客的消費(fèi)數(shù)據(jù)、移動(dòng)APP數(shù)據(jù)等,通過大數(shù)據(jù)分析可幫助機(jī)場(chǎng)構(gòu)建旅客“畫像”,分析旅客消費(fèi)特征,進(jìn)而可優(yōu)化廣告投放、餐飲和商貿(mào)優(yōu)惠推送,幫助提高機(jī)場(chǎng)的非航收入,使機(jī)場(chǎng)的運(yùn)營變得更加智能化。