• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于C4.5算法的民航客戶價(jià)值細(xì)分研究

      2014-07-13 03:37:18張勁松
      關(guān)鍵詞:剪枝細(xì)分決策樹

      張勁松,江 波

      (1. 中國(guó)民用航空飛行學(xué)院 空中交通管理學(xué)院,四川 廣漢 618307;2.中國(guó)民用航空飛行學(xué)院 研究生處,四川 廣漢 618307)

      1 概述

      近年來(lái),我國(guó)民航業(yè)發(fā)展迅速,面臨的市場(chǎng)競(jìng)爭(zhēng)也越發(fā)激烈,尤其是隨著高鐵的開通和運(yùn)營(yíng),民航運(yùn)輸受到了巨大沖擊。為了應(yīng)對(duì)行業(yè)內(nèi)外的競(jìng)爭(zhēng),航空公司除了采取降低票價(jià)、完善管理等手段外,加強(qiáng)市場(chǎng)細(xì)分,對(duì)不同航線市場(chǎng)進(jìn)行針對(duì)性的營(yíng)銷,也逐漸成為了航空公司的關(guān)注重點(diǎn)。在眾多的市場(chǎng)細(xì)分標(biāo)準(zhǔn)中,以客戶盈利能力為主要依據(jù)的客戶價(jià)值細(xì)分,體現(xiàn)了以客戶價(jià)值為中心的差異化營(yíng)銷思想,有助于企業(yè)營(yíng)銷資源的優(yōu)化、價(jià)值客戶的保持和利潤(rùn)的最大化,因此,客戶價(jià)值細(xì)分在金融、電信等行業(yè)得到了大量應(yīng)用。

      目前,關(guān)于旅客價(jià)值的市場(chǎng)細(xì)分在民航領(lǐng)域已有研究,但仍處于起步階段:周虹等人[1]利用自組織神經(jīng)網(wǎng)絡(luò),對(duì)旅客進(jìn)行盈利能力細(xì)分,但其把累計(jì)票價(jià)花費(fèi)作為價(jià)值旅客標(biāo)準(zhǔn)的正確性有待考量,如一個(gè)經(jīng)常購(gòu)買打折機(jī)票的旅客,雖然票價(jià)花費(fèi)較多,但其對(duì)公司的價(jià)值卻低于購(gòu)買高價(jià)票的商務(wù)旅客[2];演克武等人[3]利用決策樹ID3算法對(duì)民航旅客進(jìn)行價(jià)值細(xì)分,但I(xiàn)D3算法無(wú)法處理連續(xù)性的數(shù)值,當(dāng)旅客的行為屬性較多時(shí),決策樹的生成效果就會(huì)不好;Liu Jiale, Du Huiying[4]在AHP確定權(quán)重的基礎(chǔ)上建立RFM模型,并對(duì)民航旅客價(jià)值細(xì)分,但該方法考慮的旅客的行為特征較少,并且利用AHP確定權(quán)重對(duì)主觀經(jīng)驗(yàn)的依賴較重,容易受到研究者主觀看法的影響。因此,本文在前人研究的基礎(chǔ)上,擬采用決策樹C4.5算法對(duì)民航旅客進(jìn)行價(jià)值細(xì)分,以挖掘出購(gòu)買航空公司公務(wù)艙、頭等艙和高折扣經(jīng)濟(jì)艙機(jī)票的那部分為公司創(chuàng)造高價(jià)值的旅客的行為特征[5-6],為航空公司提升營(yíng)銷效果,優(yōu)化旅客管理提供參考。

      2 決策樹C4.5算法

      決策樹方法的本質(zhì)是貪心算法,它從一個(gè)無(wú)一定規(guī)則的實(shí)例集中通過(guò)一個(gè)由上到下、分而治之的過(guò)程歸納出一組利用樹形結(jié)構(gòu)表示的分類規(guī)則,決策樹算法在眾多的分類方法中以其分類準(zhǔn)確率高、規(guī)則提取簡(jiǎn)單、可以顯示重要的決策屬性而在各行業(yè)中廣泛應(yīng)用[7]。

      在民航旅客價(jià)值細(xì)分中,由于各旅客行為屬性的重要程度存在差異,利用決策樹歸納分析,可以體現(xiàn)各旅客行為屬性的重要程度,可更直觀的了解價(jià)值旅客的重點(diǎn)特征。

      決策樹C4.5算法是Quinlan[8]在1993年針對(duì)決策樹ID3算法提出的改進(jìn)算法,它以信息增益率代替ID3算法的信息增益量作為屬性的選擇標(biāo)準(zhǔn),劃分時(shí)以信息增益率最大的屬性作為分裂節(jié)點(diǎn),克服了ID3算法偏向選擇屬性取值多的屬性等缺點(diǎn),并且能離散化處理連續(xù)屬性。

      假定S為旅客行為數(shù)據(jù)訓(xùn)練樣本集,有n個(gè)類別Xi(i=1,……,n),pi為訓(xùn)練集S中的樣本屬于Xi的概率,選擇屬性A作為分裂節(jié)點(diǎn),屬性A根據(jù)訓(xùn)練數(shù)據(jù)集測(cè)試有m個(gè)不同的輸出,并將S劃分為m個(gè)子集Sj(j=1,2,…m)。則其信息增益率用公式表示為

      (1)

      其中,SplitHA(S)為將信息增益規(guī)范化的分裂信息,用公式表示為

      (2)

      Gain(A)為信息增益,用公式表示為

      Gain(A)=H(S)-HA(S)

      (3)

      上式中:H(S)為S的熵,即訓(xùn)練集S中,分類所需的期望信息;HA(S)是將S劃分為m個(gè)子集Sj(j=1,2,…,m)后,訓(xùn)練集再分類所需的信息量。

      C4.5算法會(huì)通過(guò)剪枝避免過(guò)度擬合數(shù)據(jù)和生成的樹過(guò)于龐大,剪枝后的決策樹復(fù)雜度低,分類速度也更快。

      3 基于C4.5算法的旅客價(jià)值細(xì)分建模

      3.1 運(yùn)算平臺(tái)和數(shù)據(jù)準(zhǔn)備

      本文采用的分析工具為Weka3.6,它是一種非商業(yè)化的基于Java語(yǔ)言的開源機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘軟件,利用該平臺(tái)可實(shí)現(xiàn)決策樹、樸素貝葉斯、支持向量機(jī)等多種分類方法。實(shí)驗(yàn)平臺(tái)為一臺(tái)普通的PC機(jī),運(yùn)行Windows7系統(tǒng),處理器為Intel(R) Core(TM)i5-3210M CPU, 頻率為2.5GHZ,運(yùn)行內(nèi)存2GB。數(shù)據(jù)來(lái)源為對(duì)國(guó)內(nèi)某大型機(jī)場(chǎng)航站樓旅客調(diào)查問(wèn)卷,在對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)清理、數(shù)據(jù)變換后,得到有效樣本3244個(gè)。為了減少非必要屬性為分類結(jié)果的影響,提高機(jī)器學(xué)習(xí)算法的性能,降低決策樹的復(fù)雜度,首先利用Weka軟件Preprocess選項(xiàng)中的Attribute Selection進(jìn)行分類器特征篩選(evaluator選擇 Information Gain Attribute Eval,search 為Ranker,搜索參數(shù)為默認(rèn)值),根據(jù)信息增益值排序后選取年收入(Annual income)、地面交通方式(Traffic)、是否常旅客(FQT)、購(gòu)買途徑(Purchase)、是否現(xiàn)金支付(Cash)、購(gòu)票提前時(shí)間(Time)、旅客等級(jí)(Rank) 7個(gè)旅客特征作為研究類別,旅客數(shù)據(jù)統(tǒng)計(jì)如表1所示。

      表1 旅客數(shù)據(jù)統(tǒng)計(jì)表

      在旅客特征中,購(gòu)票提前時(shí)間是連續(xù)屬性,其它類別均為離散屬性。年收入分為≤5萬(wàn)、5~10萬(wàn)、≥10萬(wàn)三類,常旅客和現(xiàn)金支付均分為是(Y)、否(N)兩類,購(gòu)買途徑分為直銷(Direct)和代理(Agency)兩類,直銷包括航空公司的網(wǎng)站、售票處和電話銷售,代理包括代理商網(wǎng)站、售票處和電話銷售,旅客地面交通方式分為私家車(Car)、公交/地鐵(Bus)、出租車(Taxi)三種類。旅客細(xì)分的目標(biāo)類別為旅客等級(jí),其分為價(jià)值旅客(VIP)、普通旅客(COM)兩類,價(jià)值旅客是指機(jī)票為頭等艙、公務(wù)艙和8折以上經(jīng)濟(jì)艙的旅客,其它機(jī)票類型旅客為普通旅客。

      3.2 模型構(gòu)建

      用決策樹C4.5算法對(duì)旅客價(jià)值細(xì)分建模的思想是:

      (1)對(duì)訓(xùn)練集進(jìn)行訓(xùn)練:假設(shè)S為旅客行為數(shù)據(jù)訓(xùn)練集,把gainration(A)最大的值作為分裂節(jié)點(diǎn),按此標(biāo)準(zhǔn)把S分為m個(gè)子集,如果第j個(gè)子集Sj具有同樣的類別,那么該節(jié)點(diǎn)就會(huì)停止分裂并成為C4.5決策樹的葉子結(jié)點(diǎn),采用同樣的方法對(duì)于不滿足條件的其它子集依次遞歸構(gòu)建樹,直到所有的子集所含的元組都屬于一個(gè)類別。

      (2)決策樹剪枝:采用后剪枝方法對(duì)生成的初始決策樹剪枝,在剪枝過(guò)程中采用悲觀估計(jì)彌補(bǔ)生成決策樹時(shí)的樂(lè)觀偏差。

      (3)根據(jù)決策樹根節(jié)點(diǎn)到樹葉的每一條路徑提取的分類規(guī)則,形成旅客價(jià)值細(xì)分規(guī)則集,將規(guī)則集提供給用戶,把用戶可行的細(xì)分規(guī)則存入數(shù)據(jù)庫(kù),結(jié)合需要指導(dǎo)旅客細(xì)分工作。

      對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),為了降低樹的尺寸并獲得較高的準(zhǔn)備率,通過(guò)對(duì)算法的驗(yàn)證和評(píng)價(jià),對(duì)confidence Factor (剪枝過(guò)程中的置信因子,值越小剪枝越多,默認(rèn)值為0.25) 取0.1,其它的參數(shù)均取默認(rèn)值,最后得到的決策樹如圖1。

      圖1 旅客價(jià)值細(xì)分決策樹

      3.3結(jié)果評(píng)價(jià)

      決策樹是C4.5算法對(duì)數(shù)據(jù)歸納分析后得到的執(zhí)行結(jié)果,對(duì)生成決策樹的評(píng)估和分析直接關(guān)系到?jīng)Q策樹分類的價(jià)值。對(duì)選定的分類器測(cè)試主要有三種測(cè)試模式:

      一是根據(jù)用來(lái)訓(xùn)練的實(shí)例的效果來(lái)評(píng)價(jià);

      二是將數(shù)據(jù)集取出一定的百分比用來(lái)測(cè)試,根據(jù)這些實(shí)例的效果對(duì)結(jié)果進(jìn)行評(píng)價(jià);

      三是采用K-折交叉驗(yàn)證的方法,將數(shù)據(jù)集分為K個(gè)樣本,取K-1樣本為訓(xùn)練集,余下的一份為驗(yàn)證集,交叉驗(yàn)證重復(fù)K次,根據(jù)K次驗(yàn)證結(jié)果對(duì)結(jié)果進(jìn)行評(píng)價(jià)?;跇颖緮?shù)量和三種模式的評(píng)價(jià)效果,本文采用的測(cè)試方法是十折交叉驗(yàn)證,結(jié)果顯示,總體的分類準(zhǔn)確率較高,具體的分類結(jié)果見表2。

      從旅客價(jià)值細(xì)分決策樹中可以看出:旅客所選擇的第一個(gè)選擇屬性是購(gòu)票提前時(shí)間,說(shuō)明購(gòu)票提前時(shí)間早是價(jià)值旅客的第一個(gè)主要特征,這與購(gòu)票時(shí)間越晚機(jī)票價(jià)格越高的平常經(jīng)驗(yàn)相吻合。其后的主要特征有年收入、是否常旅客等,在高收入人群中購(gòu)票提前時(shí)間≤7天的旅客最可能是價(jià)值旅客,在中低收入人群中,旅客是否為價(jià)值旅客的主要影響特征為是否為常旅客,是航空公司常旅客的客戶最有可能是航空公司的價(jià)值客戶,這也從側(cè)面反映出航空公司把常旅客群體作為營(yíng)銷的重點(diǎn)的必要性。

      從決策樹中還可以看出,中高收入群體中價(jià)值旅客驗(yàn)證正確率更高,低收入旅客群體為航空公司價(jià)值旅客的比例較小。在得到分類效果良好的決策樹模型之后,找出價(jià)值旅客的顯著特征,航空公司可以根據(jù)該分類模型預(yù)測(cè)價(jià)值客戶比例較高的旅客群體,并對(duì)該群體進(jìn)行針對(duì)性營(yíng)銷,以提升營(yíng)銷效果,減少營(yíng)銷資源的浪費(fèi)。

      4 與其它分類算法的比較

      在分類模型的評(píng)價(jià)指標(biāo)中,常用準(zhǔn)確率、召回率、精確度三個(gè)指標(biāo)識(shí)別分類結(jié)果,準(zhǔn)確率反映了正確預(yù)測(cè)的樣本數(shù)在預(yù)測(cè)樣本總數(shù)中的比例,精確率反映了被分類器判定的正例中真正的正例樣本的比重,召回率反映了被正確判定的正例占總的正例的比重,其中準(zhǔn)確率是應(yīng)用最為廣泛的指標(biāo),代表了分類器對(duì)全體樣本的判定能力[9-10]。限于收集的樣本數(shù)量,如果把樣本按比例訓(xùn)練和測(cè)試,結(jié)果可能具有一定的偶然性,因此本文均采用十折交叉驗(yàn)證對(duì)各類算法進(jìn)行評(píng)價(jià)。根據(jù)旅客行為特征統(tǒng)計(jì)數(shù)據(jù)利用五種常用的分類算法分別建模,得到和C4.5算法的對(duì)比結(jié)果如表3所示。

      表2 C4.5決策樹分類結(jié)果

      表3 五種分類算法實(shí)驗(yàn)結(jié)果比較

      由表3可知,在5種常用的分類算法中,C4.5算法的分類準(zhǔn)確率、召回率、精確率都是最高的,在建模時(shí)間上雖低于樸素貝葉斯分類法和K最近鄰分類法,但仍具有較快的分類速度。綜合各方面考慮,C4.5算法在旅客價(jià)值細(xì)分上具有相對(duì)理想的分類效果。

      5 結(jié)語(yǔ)

      為了應(yīng)對(duì)行業(yè)內(nèi)外的市場(chǎng)競(jìng)爭(zhēng),數(shù)據(jù)挖掘在航空公司市場(chǎng)營(yíng)銷中發(fā)揮著越來(lái)越重要的作用。本文在對(duì)機(jī)場(chǎng)旅客調(diào)查數(shù)據(jù)分析的基礎(chǔ)上,通過(guò)決策樹C4.5算法對(duì)民航旅客進(jìn)行價(jià)值細(xì)分,采用十折交叉驗(yàn)證對(duì)生成的決策樹進(jìn)行驗(yàn)證,結(jié)果顯示決策樹C4.5算法分類正確率達(dá)85.2343%,在與常用的分類方法綜合對(duì)比分析后,表明利用C4.5算法進(jìn)行旅客價(jià)值細(xì)分具有較好的分類效果。對(duì)決策樹的分析可以得出,提前購(gòu)票時(shí)間短、年收入高是航空公司價(jià)值客戶的主要特征,其后涉及到的主要特征是是否常旅客、地面交通方式等,在中低收入旅客群體中,常旅客群體更易是航空公司的價(jià)值旅客,在營(yíng)銷中應(yīng)重點(diǎn)關(guān)注。

      [1] 周虹,許俐.自組織人工神經(jīng)網(wǎng)絡(luò)在民航旅客盈利能力細(xì)分中應(yīng)用[J].交通運(yùn)輸工程學(xué)報(bào), 2003, 3(4): 78-81.

      [2] 諶波, A航空公司常旅客計(jì)劃研究[D].成都:電子科技大學(xué), 2007.

      [3] 演克武,張磊,孫強(qiáng). 決策樹分類法中ID3算法在航空市場(chǎng)客戶價(jià)值細(xì)分中的應(yīng)用[J].商業(yè)研究, 2008, (3): 24-29.

      [4] Liu Jiale,Du Huiying.Study on Airline Customer Value Evaluation Based on RFM Model[C]//Proc. of the 2010 International Conference on Computer Design and Applications.S. I: IEEE Press,2010:278-281.

      [5] 潘玲玲.基于旅客行為的航空旅客細(xì)分模型研究及其實(shí)現(xiàn)[D].南京:南京航空航天大學(xué), 2011.

      [6] 朱津川.細(xì)分客源, 把握國(guó)航在成都航空市場(chǎng)的利潤(rùn)點(diǎn)[J].江蘇航空, 2007(4): 17-19.

      [7] 程克非, 程蕾, 黃永東.基于J48決策樹算法的水質(zhì)評(píng)價(jià)方法[J].計(jì)算機(jī)工程, 2012, 38(11): 264-267.

      [8] Quinlan J R. C4.5:Programs for Machine Learning[M].San Mateo: Morgan Kaufman Publisher, 1993:17-42.

      [9] 張宏莉, 魯剛.分類不平衡協(xié)議流的機(jī)器學(xué)習(xí)算法評(píng)估與比較[J].軟件學(xué)報(bào), 2012,23(6): 1500-1516.

      [10] 徐鵬,林森.基于C4.5決策樹的流量分類方法[J].軟件學(xué)報(bào), 2009, 20(10): 2692-2704.

      猜你喜歡
      剪枝細(xì)分決策樹
      人到晚年宜“剪枝”
      基于YOLOv4-Tiny模型剪枝算法
      深耕環(huán)保細(xì)分領(lǐng)域,維爾利為環(huán)保注入新動(dòng)力
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      剪枝
      基于決策樹的出租車乘客出行目的識(shí)別
      1~7月,我國(guó)貨車各細(xì)分市場(chǎng)均有增長(zhǎng)
      專用汽車(2016年9期)2016-03-01 04:17:02
      整體低迷難掩細(xì)分市場(chǎng)亮點(diǎn)
      專用汽車(2015年2期)2015-03-01 04:05:42
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      大厂| 广丰县| 和政县| 兴海县| 桦甸市| 临湘市| 布尔津县| 教育| 聂荣县| 图们市| 鹤山市| 石首市| 崇文区| 洛阳市| 镇雄县| 马鞍山市| 岑溪市| 林西县| 堆龙德庆县| 江津市| 万盛区| 无锡市| 连州市| 黑龙江省| 江城| 山阴县| 衡阳县| 瑞昌市| 广昌县| 庄河市| 敦煌市| 永春县| 通道| 苍山县| 确山县| 洛阳市| 洛川县| 思茅市| 即墨市| 罗源县| 马龙县|