• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      高速公路ETC客戶(hù)細(xì)分方法研究

      2018-09-10 10:26:52許宏科
      關(guān)鍵詞:細(xì)分決策樹(shù)聚類(lèi)

      錢(qián) 超,楊 孟,耿 健,許宏科

      (1.長(zhǎng)安大學(xué)電子與控制工程學(xué)院,西安710064;2.陜西高速公路電子收費(fèi)有限公司,西安710021)

      0 引言

      電子不停車(chē)收費(fèi)(Electronic Toll Collection,ETC)系統(tǒng)可降低車(chē)輛通行時(shí)間和能源消耗,同時(shí)又可節(jié)約基建和運(yùn)營(yíng)成本,因而成為世界各國(guó)大力推崇的先進(jìn)支付方式.截至2017年2月底,我國(guó)29個(gè)ETC聯(lián)網(wǎng)省份(西藏、海南除外)累計(jì)建成ETC專(zhuān)用車(chē)道14 285條,ETC客戶(hù)數(shù)達(dá)到4 767.44萬(wàn),交易量日均810萬(wàn)筆,占高速公路通行量的31.17%[1].

      自20世紀(jì)90年代以來(lái),以客戶(hù)為中心的管理理念促使客戶(hù)關(guān)系管理(Customer Relationship Management,CRM)受到廣泛重視[2-3].客戶(hù)細(xì)分通過(guò)對(duì)不同集合的客戶(hù)分別進(jìn)行有效評(píng)估,達(dá)到合理分配服務(wù)資源、精準(zhǔn)實(shí)施服務(wù)策略的目的,為充分獲取客戶(hù)價(jià)值提供了理論和方法指導(dǎo).

      目前關(guān)于CRM的研究主要集中于電信服務(wù)[4]、能源供應(yīng)[5]和零售[6]等行業(yè).近年來(lái)交通運(yùn)輸行業(yè)也開(kāi)展了航空、鐵路和軌道交通客戶(hù)細(xì)分方法的研究,如Wei提出并設(shè)計(jì)了一種基于蟻群聚類(lèi)的航空客戶(hù)細(xì)分系統(tǒng)[7];Teichert等在分析航空旅客偏好行為數(shù)據(jù)的基礎(chǔ)上提出一種航空客戶(hù)細(xì)分方法[8];Chiang提出一種航空公司有價(jià)值旅客挖掘模型,并根據(jù)關(guān)聯(lián)規(guī)則為客戶(hù)匹配最優(yōu)的營(yíng)銷(xiāo)策略[9];潘玲玲在聚類(lèi)算法并行化基礎(chǔ)上建立了一種航空旅客細(xì)分模型[10];張斌等研究了基于K-means聚類(lèi)算法的鐵路貨運(yùn)客戶(hù)細(xì)分方法[11];帥斌等應(yīng)用改進(jìn)的RFM模型實(shí)現(xiàn)了鐵路快捷貨運(yùn)客戶(hù)細(xì)分,分析了每一類(lèi)客戶(hù)的行為特征、價(jià)值及不同的營(yíng)銷(xiāo)策略[12];鐘雁等應(yīng)用K-means聚類(lèi)和貝葉斯分類(lèi)器對(duì)鐵路貨票數(shù)據(jù)進(jìn)行挖掘,實(shí)現(xiàn)了鐵路貨運(yùn)客戶(hù)的細(xì)分和判別[13];鄒慶茹等利用城市軌道自動(dòng)售檢票(AFC)系統(tǒng)數(shù)據(jù)對(duì)乘客進(jìn)行分類(lèi),為低峰折扣票價(jià)制定和評(píng)價(jià)提供方法支持[14].

      在ETC乃至整個(gè)高速公路客戶(hù)管理領(lǐng)域,目前研究主要集中于提升服務(wù)滿(mǎn)意度[15]、防逃費(fèi)[16]等方面.在全國(guó)已建成較為完善的ETC基礎(chǔ)設(shè)施的背景下,如何深度分析ETC系統(tǒng)海量數(shù)據(jù),獲取ETC客戶(hù)的通行特征,從而達(dá)到挖掘客戶(hù)潛力、提升客戶(hù)價(jià)值、實(shí)現(xiàn)精確營(yíng)銷(xiāo)的目的,是ETC推廣應(yīng)用中面臨的重要問(wèn)題.本文研究目標(biāo)是應(yīng)用大數(shù)據(jù)技術(shù)建立一種基于車(chē)輛通行特征的ETC客戶(hù)細(xì)分方法,為制定ETC客戶(hù)分級(jí)費(fèi)率優(yōu)惠、提高ETC客戶(hù)規(guī)模和支付比例提供理論依據(jù).

      1 ETC客戶(hù)細(xì)分理論與方法

      1.1 ETC客戶(hù)細(xì)分指標(biāo)

      客戶(hù)細(xì)分是以客戶(hù)消費(fèi)需求為出發(fā)點(diǎn),根據(jù)客戶(hù)購(gòu)買(mǎi)行為的差異性,把客戶(hù)總體劃分為類(lèi)似性消費(fèi)群體的過(guò)程[17].依據(jù)客戶(hù)行為,Arthur Hughes提出基于近度(Recency,R)、頻度(Frequency,F)和值度(Monetary,M)的RFM客戶(hù)細(xì)分模型得到廣泛應(yīng)用[18].其中,R表示客戶(hù)最近一次購(gòu)買(mǎi)的時(shí)間有多遠(yuǎn),F(xiàn)表示客戶(hù)在最近一段時(shí)間內(nèi)購(gòu)買(mǎi)的次數(shù),M表示客戶(hù)在最近一段時(shí)間內(nèi)購(gòu)買(mǎi)的金額.

      高速公路ETC收費(fèi)數(shù)據(jù)記錄了車(chē)輛通行的各類(lèi)信息,包括ETC卡號(hào)、出入收費(fèi)站的時(shí)間、車(chē)型、車(chē)種及消費(fèi)情況等,具體數(shù)據(jù)格式如表1所示.

      表1 ETC收費(fèi)數(shù)據(jù)格式Table 1 ETC data format

      每條ETC數(shù)據(jù)代表了ETC客戶(hù)的1次出行消費(fèi)記錄,通過(guò)數(shù)據(jù)聚集可對(duì)ETC客戶(hù)年度消費(fèi)情況進(jìn)行匯總.結(jié)合RFM模型,將ETC客戶(hù)細(xì)分指標(biāo)定義為最近消費(fèi)間隔、年通行頻次和年消費(fèi)金額等3類(lèi),如表2所示.

      表2 ETC客戶(hù)細(xì)分指標(biāo)Table 2 Segmentation index of ETC customer

      按ETC卡號(hào)對(duì)ETC客戶(hù)的消費(fèi)記錄進(jìn)行聚集,對(duì)年通行頻次為F的ETC客戶(hù),其最近消費(fèi)間隔R和年消費(fèi)金額M的指標(biāo)計(jì)算方法為

      式中:Tset表示一個(gè)指定的時(shí)間;TF_out表示車(chē)輛在統(tǒng)計(jì)年中第F次消費(fèi)時(shí)間(ETC出口時(shí)間);Si表示車(chē)輛第i次通行的消費(fèi)金額.

      1.2 ETC客戶(hù)聚類(lèi)

      由上述ETC客戶(hù)細(xì)分指標(biāo)體系,得到RFM指標(biāo)的三維狀態(tài)空間.ETC客戶(hù)聚類(lèi)是根據(jù)空間中樣本分布,將距離相近的樣本劃歸成一類(lèi),從而得到多類(lèi)別ETC客戶(hù)的劃分方法.

      基于劃分(Partitioning-Based)的聚類(lèi)方法,如K-means和K-medoids,其計(jì)算復(fù)雜度高,僅適用于小型數(shù)據(jù)集.圍繞中心點(diǎn)劃分(Partitioning Around Medoids,PAM)采用迭代、貪心的方法實(shí)現(xiàn)K-medoids算法,即通過(guò)設(shè)置最大迭代次數(shù),在迭代過(guò)程中基于貪心策略來(lái)選擇使得聚類(lèi)質(zhì)量最高的劃分,其應(yīng)用同樣也受限于數(shù)據(jù)規(guī)模[19].鑒于此,Kaufman等提出一種改進(jìn)的PAM算法——CLARA(ClusteringLARgeApplications)算 法.CLARA算法不考慮整個(gè)數(shù)據(jù)集,而是每次抽取一部分樣本使用PAM算法,經(jīng)過(guò)反復(fù)抽樣,比較多組樣本最優(yōu)中心點(diǎn),最后以最好的聚類(lèi)結(jié)果輸出,因而解決了PAM算法在處理數(shù)據(jù)量較大問(wèn)題時(shí)的計(jì)算瓶頸[20].

      利用CLARA算法進(jìn)行ETC客戶(hù)聚類(lèi)分析的過(guò)程如圖1所示.

      圖1 CLARA算法Fig.1 CLARA algorithm

      1.3 ETC客戶(hù)細(xì)分規(guī)則

      ETC客戶(hù)聚類(lèi)分析完成后,每個(gè)ETC客戶(hù)被賦予一個(gè)特定的分類(lèi)標(biāo)簽.決策樹(shù)分析則以聚類(lèi)產(chǎn)生的分類(lèi)標(biāo)簽為規(guī)則,通過(guò)一定的學(xué)習(xí)算法,尋找數(shù)據(jù)與分類(lèi)規(guī)則之間的對(duì)應(yīng)關(guān)系.沿決策樹(shù)根節(jié)點(diǎn)到樹(shù)中每個(gè)葉子節(jié)點(diǎn)的路徑,決策樹(shù)可以轉(zhuǎn)換成IF-THEN分類(lèi)規(guī)則.

      常用的決策樹(shù)算法有迭代的二分器(Iterative Dichotomiser,ID3)、C4.5及分類(lèi)回歸樹(shù)(Classification And Regression Trees,CART)算法.相較于其他決策樹(shù)算法,CART算法采用二叉樹(shù)模型代替了多叉樹(shù),以基尼指數(shù)(Gini Index)來(lái)代替信息增益比,簡(jiǎn)化了基于信息論的熵模型的同時(shí)仍保留了熵模型的優(yōu)點(diǎn),運(yùn)算效率較高[21].本文采用CART算法對(duì)ETC客戶(hù)細(xì)分規(guī)則進(jìn)行學(xué)習(xí),具體過(guò)程如圖2所示.

      圖2 CART算法Fig.2 CART algorithm

      生成決策樹(shù)過(guò)程中,使用基尼指數(shù)來(lái)選擇劃分指標(biāo),其計(jì)算方法為

      式中:pi表示D中樣本點(diǎn)屬于i類(lèi)的概率;k表示D中樣本中類(lèi)別數(shù).

      子集劃分后,數(shù)據(jù)集D的基尼指數(shù)為

      式中:D1、D2表示劃分的子集;Gini(D)越小表示數(shù)據(jù)集D的不純度越低.

      1.4 ETC客戶(hù)細(xì)分建模流程

      應(yīng)用ETC客戶(hù)聚類(lèi)分析與細(xì)分規(guī)則提取算法建立ETC客戶(hù)細(xì)分模型,其建模過(guò)程主要包含以下3個(gè)部分:

      (1)數(shù)據(jù)預(yù)處理與指標(biāo)提取.

      對(duì)ETC原始收費(fèi)數(shù)據(jù)進(jìn)行清洗并從中提取ETC客戶(hù)指標(biāo);設(shè)置指標(biāo)閾值,優(yōu)選數(shù)據(jù)子集,得到ETC客戶(hù)指標(biāo)數(shù)據(jù)集.

      (2)ETC客戶(hù)聚類(lèi).

      對(duì)ETC客戶(hù)指標(biāo)數(shù)據(jù)集進(jìn)行聚類(lèi)分析,得到ETC客戶(hù)聚類(lèi)結(jié)果.

      (3)ETC客戶(hù)細(xì)分規(guī)則提取

      應(yīng)用CART算法對(duì)ETC客戶(hù)指標(biāo)數(shù)據(jù)與聚類(lèi)結(jié)果進(jìn)行學(xué)習(xí),得到ETC客戶(hù)細(xì)分規(guī)則決策樹(shù),根據(jù)細(xì)分規(guī)則最終得到ETC客戶(hù)星級(jí)評(píng)定結(jié)果.

      ETC客戶(hù)細(xì)分建模流程如圖3所示.

      2 實(shí)例分析

      2.1 數(shù)據(jù)預(yù)處理與指標(biāo)提取

      本文以陜西省2014年小型客車(chē)(7座及以下)ETC數(shù)據(jù)為基礎(chǔ),數(shù)據(jù)量共3 100余萬(wàn)條.首先對(duì)數(shù)據(jù)進(jìn)行清洗,刪除與主題不相關(guān)的車(chē)輛數(shù)據(jù)(如免費(fèi)車(chē)輛)和異常通行數(shù)據(jù)(如入口時(shí)間大于出口時(shí)間).然后提取得到324 585組ETC客戶(hù)細(xì)分指標(biāo)數(shù)據(jù),如表3所示,其中指定時(shí)間Tset=“2015-1-2 00:00:00”.

      圖3 ETC客戶(hù)細(xì)分建模流程Fig.3 Modeling process of ETC customer segmentation

      表3 ETC客戶(hù)細(xì)分指標(biāo)提取結(jié)果(部分)Table 3 Extraction results of ETC customersegmentation indexes

      ETC客戶(hù)細(xì)分指標(biāo)的概率密度分布情況如圖4(a)~圖4(c)所示.進(jìn)一步分析可知,距指定時(shí)間90天(2 160 h)內(nèi)有消費(fèi)記錄的ETC客戶(hù)約占85%;年通行低于6次的ETC客戶(hù)約占13.3%;年消費(fèi)金額小于200元的ETC客戶(hù)約占18.6%,而年消費(fèi)金額大于12 000元的ETC客戶(hù)約占0.77%.

      圖4 ETC客戶(hù)細(xì)分指標(biāo)的分布Fig.4 Distribution of ETC customer segmentation indexes

      為優(yōu)選數(shù)據(jù)子集提高聚類(lèi)分析的準(zhǔn)確性,過(guò)濾掉通行頻次過(guò)低和消費(fèi)金額極值的ETC客戶(hù),過(guò)濾規(guī)則為:(F<6)?(M<200)?(M>12 000).最終得到255 316組ETC客戶(hù)指標(biāo)數(shù)據(jù),形成ETC客戶(hù)指標(biāo)數(shù)據(jù)集.

      鑒于指標(biāo)數(shù)據(jù)集較大,為更清晰展示“年通行頻次”與“年消費(fèi)金額”之間的關(guān)系,隨機(jī)抽樣2%客戶(hù)(5 106組)繪制“年通行頻次—年消費(fèi)金額”散點(diǎn)圖,如圖5所示.由圖5可知,ETC車(chē)輛平均單次消費(fèi)金額均大于或等于5元(M=5F虛線(xiàn)上方),符合陜西省高速公路收費(fèi)按“5元取整”的規(guī)則,表明數(shù)據(jù)預(yù)處理完成了對(duì)異常通行數(shù)據(jù)的清洗.

      圖5 “年通行頻次—年消費(fèi)金額”抽樣數(shù)據(jù)散點(diǎn)圖Fig.5 Scatter plot of“Frequency-Monetary”(sample data)

      2.2 ETC客戶(hù)聚類(lèi)結(jié)果

      根據(jù)平均輪廓系數(shù)原則[22]確定ETC客戶(hù)指標(biāo)數(shù)據(jù)集的最佳聚類(lèi)個(gè)數(shù)k=3.考慮到預(yù)處理階段過(guò)濾掉部分ETC客戶(hù),故ETC客戶(hù)指標(biāo)數(shù)據(jù)集中3類(lèi)客戶(hù)分別用C2、C3和C4表示,(F<6)?(M<200)和(M>12 000)的客戶(hù)分別用C1和C5表示.由于數(shù)據(jù)量龐大,K-means和PAM等算法均無(wú)法實(shí)現(xiàn)ETC客戶(hù)全樣本數(shù)據(jù)聚類(lèi).CLARA算法中,抽樣次數(shù)(samples)和抽樣個(gè)數(shù)(sampsize)越大,聚類(lèi)結(jié)果越精確,但相應(yīng)計(jì)算開(kāi)銷(xiāo)也越大.分別設(shè)置不同參數(shù)組合對(duì)ETC客戶(hù)指標(biāo)數(shù)據(jù)集進(jìn)行迭代計(jì)算,得到的ETC客戶(hù)聚類(lèi)中心與計(jì)算耗時(shí)對(duì)比結(jié)果如表4所示.

      表4 不同參數(shù)組合下聚類(lèi)中心計(jì)算結(jié)果Table 4 Calculation results of clustering medoids under different combined parameters.

      由表4可知,隨著samples和sampsize的增大,聚類(lèi)中心計(jì)算結(jié)果趨于一致.綜合考慮ETC客戶(hù)數(shù)據(jù)規(guī)模和時(shí)效性,CLARA算法中按每次2%(sampsize=5 000)隨機(jī)抽樣10次對(duì)ETC客戶(hù)指標(biāo)數(shù)據(jù)進(jìn)行聚類(lèi),得到ETC客戶(hù)所屬類(lèi)別.

      2.3 ETC客戶(hù)細(xì)分結(jié)果

      以指標(biāo)數(shù)據(jù)集中R、F和M指標(biāo)為預(yù)測(cè)變量,以客戶(hù)類(lèi)別為響應(yīng)變量,結(jié)合CART算法生成C2、C3和C4客戶(hù)細(xì)分決策樹(shù),如圖6所示.

      ETC客戶(hù)細(xì)分決策樹(shù)共包含6個(gè)葉子節(jié)點(diǎn),節(jié)點(diǎn)第1行表示該節(jié)點(diǎn)數(shù)據(jù)子集(ETC客戶(hù))最終所屬客戶(hù)類(lèi)別,第2行表示該節(jié)點(diǎn)數(shù)據(jù)子集分屬C2、C3或C4類(lèi)別的概率,第3行表示該節(jié)點(diǎn)ETC客戶(hù)所占比例.根據(jù)圖6中各子節(jié)點(diǎn)分裂規(guī)則提取得到C2、C3和C4客戶(hù)細(xì)分規(guī)則,同時(shí)納入C1和C5過(guò)濾規(guī)則,最終形成ETC客戶(hù)IF-THEN細(xì)分規(guī)則如表5所示.

      根據(jù)ETC客戶(hù)細(xì)分規(guī)則,對(duì)全部ETC客戶(hù)進(jìn)行細(xì)分,C1~C5分別對(duì)應(yīng)不同星級(jí)客戶(hù).匯總各星級(jí)客戶(hù)數(shù)和總消費(fèi)金額如表6所示.

      圖6 ETC客戶(hù)細(xì)分決策樹(shù)Fig.6 Decision tree of ETC customer segmentation

      表5 ETC客戶(hù)細(xì)分規(guī)則Table 5 Segmentation rules of ETC customer

      表6 ETC客戶(hù)細(xì)分結(jié)果Table 6 Star-rating results of ETC customer

      由表6可知,2014年陜西省324 585組ETC客戶(hù)共計(jì)通行2 313萬(wàn)余次,通行總消費(fèi)約5.46億元,按現(xiàn)行95折優(yōu)惠費(fèi)率,實(shí)際ETC路費(fèi)收入約5.19億元.其中,一星級(jí)客戶(hù)占比20.57%,實(shí)際路費(fèi)貢獻(xiàn)率僅為1.33%,未來(lái)對(duì)此類(lèi)客戶(hù)需加大宣傳引導(dǎo),提高ETC使用率;二星級(jí)客戶(hù)占比8.15%,實(shí)際路費(fèi)貢獻(xiàn)率為4.71%,未來(lái)需重點(diǎn)培育此類(lèi)客戶(hù)群,激發(fā)ETC使用潛力;三、四星級(jí)客戶(hù)占比分別為49.42%和21.09%,合計(jì)路費(fèi)貢獻(xiàn)率超85%,是ETC系統(tǒng)的主要客戶(hù),未來(lái)可考慮分別給予額外的費(fèi)率優(yōu)惠,提升客戶(hù)自我價(jià)值;五星級(jí)客戶(hù)占比僅為0.77%,但卻貢獻(xiàn)率了7.6%的路費(fèi)收入,此類(lèi)客戶(hù)是ETC系統(tǒng)的重點(diǎn)客戶(hù),未來(lái)可考慮給予較大的費(fèi)率優(yōu)惠,同時(shí)需重點(diǎn)跟蹤此類(lèi)客戶(hù)對(duì)ETC系統(tǒng)的使用感受,提高ETC系統(tǒng)服務(wù)質(zhì)量.

      3 結(jié)論

      本文應(yīng)用大數(shù)據(jù)技術(shù),提出一種高速公路ETC客戶(hù)細(xì)分方法,該方法利用ETC收費(fèi)數(shù)據(jù)提取ETC客戶(hù)細(xì)分指標(biāo),基于CLARA算法實(shí)現(xiàn)ETC客戶(hù)的聚類(lèi)分析,采用CART算法提取ETC客戶(hù)細(xì)分規(guī)則.本文結(jié)合實(shí)例設(shè)計(jì)了ETC客戶(hù)星級(jí)評(píng)定方法,分析了ETC客戶(hù)通行特征和服務(wù)策略,可為高速公路運(yùn)營(yíng)管理單位探索ETC客戶(hù)精準(zhǔn)營(yíng)銷(xiāo)和分級(jí)費(fèi)率優(yōu)惠提供創(chuàng)新思路,同時(shí)對(duì)進(jìn)一步提高ETC客戶(hù)規(guī)模和支付比例,增強(qiáng)客戶(hù)對(duì)ETC系統(tǒng)的依賴(lài)性與好感度等方面具有重要的應(yīng)用價(jià)值.

      本文基于RFM模型定義了ETC客戶(hù)細(xì)分指標(biāo)體系,未來(lái)可根據(jù)星級(jí)評(píng)定業(yè)務(wù)需求,定義新的細(xì)分指標(biāo)并調(diào)整各指標(biāo)權(quán)重,以期星級(jí)劃分結(jié)果更加符合“金字塔模型[23]”.由于不同車(chē)型收費(fèi)標(biāo)準(zhǔn)、使用性質(zhì)等存在差異,本文僅對(duì)小型客車(chē)(7座及以下)ETC客戶(hù)進(jìn)行了細(xì)分研究,對(duì)其他車(chē)型ETC客戶(hù)可參考本文方法并結(jié)合具體通行特征展開(kāi)細(xì)分方法研究.

      猜你喜歡
      細(xì)分決策樹(shù)聚類(lèi)
      深耕環(huán)保細(xì)分領(lǐng)域,維爾利為環(huán)保注入新動(dòng)力
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
      基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
      1~7月,我國(guó)貨車(chē)各細(xì)分市場(chǎng)均有增長(zhǎng)
      基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
      整體低迷難掩細(xì)分市場(chǎng)亮點(diǎn)
      基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
      一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
      淅川县| 海门市| 始兴县| 利津县| 砚山县| 沅江市| 沈丘县| 宁明县| 县级市| 兴宁市| 墨竹工卡县| 清远市| 常德市| 崇文区| 玉溪市| 新宁县| 五家渠市| 中宁县| 齐齐哈尔市| 普兰店市| 浦县| 枣强县| 左云县| 乌拉特前旗| 都匀市| 哈巴河县| 溧水县| 洛宁县| 自贡市| 扎囊县| 佳木斯市| 博兴县| 慈利县| 连山| 巩留县| 科尔| 精河县| 巴林右旗| 中阳县| 伊宁市| 宁远县|