陳俊龍 吳麗麗
摘 要:為進(jìn)一步探究和分析電子商務(wù)客戶關(guān)系,本文提出e價值的指標(biāo)體系和計算方法,同時基于使用k-means方法對客戶進(jìn)行分類,實現(xiàn)對客戶關(guān)系的深層發(fā)掘?;诟倪M(jìn)的RFM模型實現(xiàn)了對客戶的辨別與分類功能,對不同客戶的e價值能進(jìn)行有效預(yù)測,同時可以為企業(yè)在電商相關(guān)領(lǐng)域營銷策略的差異化實施提供依據(jù)。對客戶關(guān)系進(jìn)行深層細(xì)分。同時基于AdaBoost分類器,提出以C5.0決策樹作為基分類器的客戶保持與流失預(yù)測模型,降低錯誤預(yù)測成本,精準(zhǔn)識別高價值客戶。
關(guān)鍵詞:RFM;AdaBoost;電子商務(wù);客戶價值
中圖分類號:TP391. 41 文獻(xiàn)標(biāo)識碼:A DOI:10.3969/j.issn.1003-6970.2021.03.001
本文著錄格式:陳俊龍,吳麗麗.基于RFME模型和AdaBoost分類器的電子商務(wù)客戶關(guān)系研究[J].軟件,2021,42(03):001-007
Research on E-commerce Customer Relationship Based on RFME Model and AdaBoost Classifier
CHEN Junlong, WU Lili
(College of Information Science and Technology, Gansu Agricultural University, Lanzhou? Gansu? 730070)
【Abstract】:In order to further explore and analyze the relationship between e-commerce customers, this article proposes an index system and calculation method for e-value, and at the same time classifies customers based on the use of k-means method to realize in-depth exploration of customer relationships. Based on the improved RFM model, the function of identifying and categorizing customers is realized, and the e-value of different customers can be effectively predicted. At the same time, it can provide a basis for the differentiated implementation of marketing strategies for companies in the e-commerce-related fields. In-depth segmentation of customer relationships. At the same time, based on the AdaBoost classifier, a customer retention and churn prediction model based on the C5.0 decision tree is proposed to reduce the cost of error prediction and accurately identify high-value customers.
【Key words】:RFM;AdaBoost;E-commerce;customer relationship management
0 引言
在網(wǎng)絡(luò)技術(shù)日新月異的當(dāng)下,電子商務(wù)平臺已經(jīng)深入各行各業(yè)中,生活中處處可見電商領(lǐng)域的產(chǎn)品或服務(wù)。在社會發(fā)展和進(jìn)步的同時,電子商務(wù)區(qū)別于以往傳統(tǒng)的消費模式,作為全新的形式?jīng)_擊全國受眾的普遍認(rèn)知,并使其購買行為產(chǎn)生了或多或少的變化。據(jù)資料顯示,截止2015年,我國互聯(lián)網(wǎng)用戶已逾6億,到2019年6月,我國網(wǎng)民規(guī)模升至8.54億,手機網(wǎng)民規(guī)模達(dá)8.47億,網(wǎng)絡(luò)普及率超過61.2%。至2020年3月,我國互聯(lián)網(wǎng)普及率已達(dá)到64.5%,網(wǎng)絡(luò)購物用戶規(guī)模達(dá)7.10億,近2015年的兩倍[1]。
2019年,我國互聯(lián)網(wǎng)交易規(guī)模達(dá)10.63萬億元,與繁榮發(fā)展的互聯(lián)網(wǎng)業(yè)態(tài)相對應(yīng),在全新商務(wù)模式下,對消費者管理和客戶價值認(rèn)知評估模式也需要推動發(fā)展與轉(zhuǎn)型。與傳統(tǒng)行業(yè)的銷售模式相比,在電子商務(wù)環(huán)境下,消費者的選擇空間極度擴(kuò)大,信息流動迅速,客戶留存率大大降低。有研究顯示,電商環(huán)境下,客戶流失率可高達(dá)80%,而獲取新客戶比保持現(xiàn)有客戶的成本高得多,與前者相比,客戶留存可節(jié)約4~6倍獲客成本[2]。對電信運營商來說,用戶保持率增加5%,即可為運營商帶來85%的利潤成長。對傳統(tǒng)零售行業(yè)來說,在電子商務(wù)運營中提高復(fù)購率,大幅降低營銷成本和服務(wù)成本,減少高價值客戶流失是維持企業(yè)在電商領(lǐng)域長期發(fā)展的重要途徑[3-4]?;诳蛻絷P(guān)系理論對電商平臺現(xiàn)有客戶進(jìn)行關(guān)系識別,對高價值客戶進(jìn)行細(xì)致的篩選,“因客施策”,著力打造實施精確營銷,將成為客戶長期留存和價值提升的基礎(chǔ)。
現(xiàn)有客戶關(guān)系研究當(dāng)中,已有多種算法和工具被運用于相關(guān)數(shù)據(jù)的統(tǒng)計計算及經(jīng)營決策當(dāng)中,從傳統(tǒng)統(tǒng)計學(xué)、統(tǒng)計學(xué)習(xí)理論,到人工智能、組合分類器及仿生學(xué)算法等,機器學(xué)習(xí)技術(shù)逐漸被運用到企業(yè)用戶管理決策當(dāng)中。Renjith提出在使用Logistic回歸方法深入解離客戶流失影響因數(shù)的基礎(chǔ)上,利用多個屬性變量預(yù)測流失客戶,并通過機器學(xué)習(xí)方法對不同的方案根據(jù)需求進(jìn)行檢索,并根據(jù)客戶特征進(jìn)行個性化組合,從而有針對性的提出細(xì)分客戶留存策略。張秋菊[5]等則構(gòu)建了基于FRI(自組織模糊規(guī)則歸納算法)的客戶流失預(yù)測模型,通過利用數(shù)據(jù)分組處理網(wǎng)絡(luò)(GMDH)對客戶流失狀態(tài)進(jìn)行判別,測試樣本的正確預(yù)測可達(dá)到90%以上。
為彌補單個分類器在數(shù)據(jù)預(yù)測中產(chǎn)生的效率與性能偏差,近年來,組合分類器被應(yīng)用到客戶流失預(yù)測研究中,利用高效協(xié)同工作的方式,充分整合各子分類器不同算法的優(yōu)勢,提高集成學(xué)習(xí)的效率和性能。Schapire提出的Boosting算法和Breiman提出的Bagging算法即是兩種常見的集成學(xué)習(xí)方法,通過訓(xùn)練多個基礎(chǔ)模型解決相同問題,獲得數(shù)個同質(zhì)弱學(xué)習(xí)器并進(jìn)行正確組合,從而獲得更好的性能。
Boosting算法思路主要是利用多棵決策樹通過組合而形成的,彼此之間通過投票的方式對結(jié)果來進(jìn)行相應(yīng)的預(yù)測。在應(yīng)用當(dāng)中,根據(jù)分析對象的特征,產(chǎn)生了多種不同的優(yōu)化組合方案,如在商業(yè)銀行的客戶流失預(yù)測中,引入線性判別LDA,對每個數(shù)據(jù)的統(tǒng)計屬性分別計算。
AdaBoost自適應(yīng)增強算法(adaptive boosting)則在其基礎(chǔ)上改變樣本的權(quán)重。AdaBoost算法在每一次學(xué)習(xí)之后將重點關(guān)注被分類錯誤的樣本,增加分類正確率高模型的權(quán)重,有效解決了早期Boosting算法在實際運用中的困難,作為最優(yōu)秀的Boosting算法之一被廣泛使用在實踐當(dāng)中[6-8]。
本文根據(jù)電子商務(wù)所具有的一些特點,從相關(guān)客戶對電商平臺具有的價值出發(fā),引入“e-value”概念。這一概念從電子銷售渠道和服務(wù)商的利益角度出發(fā),確定了影響電商客戶e價值的關(guān)鍵指標(biāo),并結(jié)合客戶價值評估模型RFM,和k-means方法將客戶分類,建立了RFME模型對客戶進(jìn)行識別和分類。本文將提出e-value的處理規(guī)則,從而較為準(zhǔn)確地對不同客戶的e進(jìn)行估值,為企業(yè)在電子商務(wù)領(lǐng)域?qū)嵤┎町惢癄I銷策略提供了依據(jù)。
在此基礎(chǔ)上,本文通過以電子商務(wù)平臺為基礎(chǔ),結(jié)合客戶消費行為中保持與流失的走向變化,利用CRM理論提出一套預(yù)測電商平臺客戶保持與流失的數(shù)理模型。為印證組合模型能對客戶流失情況進(jìn)行更精確的預(yù)測,對不同的單一數(shù)據(jù)挖掘模型和AdaBoost組合模型分別對結(jié)果進(jìn)行預(yù)測,并在一定條件下對不同模型的預(yù)測結(jié)果進(jìn)行對比,從而來判斷不同模型預(yù)測的精確度。改進(jìn)的RFM進(jìn)一步增強了分類的能力,降低錯誤預(yù)測成本,精準(zhǔn)識別高價值客戶并采取策略減少客戶流失率,為企業(yè)電子商務(wù)業(yè)務(wù)降低成本,提高了收益。
1電子商務(wù)下的客戶關(guān)系分析
1.1客戶細(xì)分
客戶細(xì)分具有多種角度和維度。依據(jù)帕累托原則,企業(yè)的核心利潤主要由高價值客戶創(chuàng)造,這一比例符合廣泛存在的二八原則;同時,底部約30%的客戶實際上為低價值與無效客戶,對這部分客戶投入的營銷、服務(wù)和挽回成本可占到企業(yè)利潤的50%。因此,有效的對客戶價值進(jìn)行評估和細(xì)分,是實現(xiàn)高效客戶關(guān)系管理(Customer Relationship Management)的基礎(chǔ)[10]。客戶價值細(xì)分有助于幫助企業(yè)集中精力,為高價值及有流失可能的客戶提供個性化服務(wù)與精準(zhǔn)營銷,是更高效地進(jìn)行針對性營銷活動的重要前提。
本研究中所指客戶細(xì)分主要指客戶價值細(xì)分。在電子商務(wù)時代,客戶消費仍舊是企業(yè)獲利的直接來源,各電商企業(yè)都逐漸由產(chǎn)品中心的經(jīng)營模式轉(zhuǎn)向用戶中心導(dǎo)向,是否能有效進(jìn)行客戶關(guān)系維護(hù),挽留流失客戶,成為企業(yè)是否能保持競爭優(yōu)勢的重要因素。企業(yè)依據(jù)客戶實際價值,對客戶進(jìn)行分類,對高價值客戶有針對性地制定相應(yīng)營銷策略,向關(guān)鍵客戶進(jìn)行企業(yè)資源傾斜,能夠有效提升企業(yè)獲客和客戶挽留的投入產(chǎn)出比,實際上增加利潤率,擴(kuò)大競爭優(yōu)勢,增強企業(yè)核心競爭力。這就要求企業(yè)首先能夠準(zhǔn)確對客戶價值進(jìn)行判斷和識別。
在網(wǎng)絡(luò)消費過程中,消費者與企業(yè)之間的信息交互呈現(xiàn)即時、雙向、周期短的特點,導(dǎo)致客戶產(chǎn)生回購的概率大大降低。同時,企業(yè)與客戶進(jìn)行溝通時的渠道是否穩(wěn)定及時并能對問題進(jìn)行解答,以及企業(yè)與客戶的供求關(guān)系能否長期把持穩(wěn)定,這些問題需要面臨網(wǎng)絡(luò)信息量大、信息流動速度快、產(chǎn)品同質(zhì)化程度高、競爭壓力大、客戶群多樣化、差異化程度高等多種挑戰(zhàn)。
如何準(zhǔn)確在廣泛而復(fù)雜的客戶與潛在客戶中,準(zhǔn)確識別高價值客戶,做好流失預(yù)測并及時采取相應(yīng)策略阻止客戶流失,成為電子商務(wù)管理和發(fā)展人員關(guān)注的熱點。在眾多消費行為相關(guān)指標(biāo)當(dāng)中,客戶消費額度直接與企業(yè)產(chǎn)品或服務(wù)的質(zhì)量的銷售量相關(guān),并且能夠直接作為客戶實際價值的量化體現(xiàn)。本研究以客戶消費額度為主要顯性價值指標(biāo),依據(jù)歷史交易數(shù)據(jù)進(jìn)行數(shù)據(jù)提取,利用RFME模型對客戶價值進(jìn)行量化評估,并完成客戶分類。
1.2客戶保持與流失
客戶流失的企業(yè)管理概念是指曾購買或使用過某企業(yè)商品或服務(wù)的客戶,停止在該企業(yè)進(jìn)行消費或合作行為,轉(zhuǎn)而去購買或使用過競爭企業(yè)的商品或服務(wù)。電子商戶客戶常常與商家沒有契約關(guān)系,其消費具有一過性,即在完成一次購買之后,消費者和商家之間的交易行為完成,交易關(guān)系終止;直至下一次交易之前,客戶與企業(yè)之間的關(guān)系處在一種非契約關(guān)系情境下。
對電子商務(wù)運營方來說,識別高價值客戶,對其流失概率進(jìn)行準(zhǔn)確預(yù)測,在發(fā)生客戶流失之前進(jìn)行關(guān)系維系和客戶挽留,在實際操作層面具有重要意義。而對客戶重復(fù)購買行為和心理的分析預(yù)測,可以幫助企業(yè)識別忠誠度更高、復(fù)購可能性更大的客戶,對其消費行為和購買習(xí)慣進(jìn)行總結(jié)和共性分析。圍繞客戶忠誠度的培養(yǎng),企業(yè)可以根據(jù)客戶復(fù)購決定發(fā)生的環(huán)節(jié),和消費決策產(chǎn)生的動因等信息,針對性優(yōu)化其產(chǎn)品、服務(wù)與營銷手段等,增加留存客戶比例,保留高價值客戶,降低企業(yè)開拓新客戶的成本,提升企業(yè)對客戶的把握能力。
基于電商平臺的客戶關(guān)系推理模型,是結(jié)合之前研究結(jié)論提出的對電子商務(wù)客戶關(guān)系進(jìn)行預(yù)測的算法模型。它通過追蹤統(tǒng)計一段時間內(nèi)客戶在電商渠道發(fā)生的瀏覽、消費等行為信息,對電子商務(wù)渠道客戶的購買行為進(jìn)行分析,依照建模細(xì)分結(jié)果,對不同價值客戶進(jìn)行區(qū)別化概率性對待,制定個性化客戶保持策略,從而達(dá)到平臺以更低成本,有效完成客戶維持工作。
2基于RFME的客戶細(xì)分建模
2.1 RFM客戶價值
RFM是一種被廣泛用于客戶關(guān)系管理中的分析模型,通過對客戶價值和創(chuàng)利能力的衡量對客戶價值進(jìn)行細(xì)分評估,在(R、F、M)三個維度對客戶交易行為和其對企業(yè)的價值進(jìn)行量化:
2.1.1 R:Recency
R值指客戶的最近一次消費,即客戶最近一次消費時間與當(dāng)前時間的間隔。理論上,R越接近于0,表明該客戶屬于高價值客戶,相對于其他普通客戶更易進(jìn)行消費行為。在電子商務(wù)模式當(dāng)中,搜索和購買操作高度便利,顧客購買選擇高度豐富,購買成本大大降低,區(qū)域和地域限制被打破。R值小的客戶剛完成購買行為時,對品牌印象較好,認(rèn)知較清晰,最可能購買更新?lián)Q代之后新上架的產(chǎn)品,對促銷力度敏感性更強。關(guān)注R值低的客戶,有助于企業(yè)以較低成本提高回購率和留存率。
2.1.2 F:Frequency
F值指客戶的消費頻率,即顧客在某一特定時間段(如一個季度內(nèi))完成購買的次數(shù)。重復(fù)購買次數(shù)越高的客戶,對產(chǎn)品和服務(wù)滿意度也最高,或者說,對品牌或企業(yè)忠誠度最高,其轉(zhuǎn)向競爭對手企業(yè)的可能性也更低。增加客戶購買次數(shù)意味著從競爭對手處搶奪更多的市場占有率,對F值高的客戶進(jìn)行針對性維護(hù),培養(yǎng)品牌或企業(yè)的忠實用戶,是建立企業(yè)核心品牌資產(chǎn)的中心保障。
2.1.3 M:Monetary
M值指客戶的消費金額,即顧客在某一特定時間段的消費金額。M值和F值相同,都是限制在一定時間內(nèi)的,需要同F(xiàn)值、客單價等其他因素一起進(jìn)行分析和解讀。在產(chǎn)品價值一定的情況下,M值的變化常常與客戶對企業(yè)認(rèn)可度相關(guān)。
2.2客戶的“e-value”
在以往購買力穩(wěn)步增長的大環(huán)境下,客戶價值基本體現(xiàn)在購買行為、重復(fù)消費行為和增值服務(wù)購買力的表現(xiàn)中,以凈買入的方式給企業(yè)在當(dāng)下帶來的實際收益。而在電子商務(wù)環(huán)境下,產(chǎn)品曝光、長時間瀏覽和跳轉(zhuǎn)等都會對企業(yè)效益產(chǎn)生貢獻(xiàn)。這種用戶通過外設(shè)鍵入、網(wǎng)頁瀏覽、線上互動等方式間接形成的“無價”資源就是e-value。
客戶的“e-value”主要反映的是客戶對該商品或平臺具有強烈的興趣,不期便會對其創(chuàng)造相應(yīng)的價值。客戶在該網(wǎng)站的所有活躍行為,如廣告點擊、互動評論、留言、發(fā)帖、消息打開、信息搜索、內(nèi)容上傳等,都能夠創(chuàng)造e價值。在顧客被此類信息所吸引并根據(jù)自身需求帶有強烈目的性地追求某類消費行為時,便是電子商務(wù)平臺收獲客戶滿意度,提升影響力和影響面的時候。
對電子商務(wù)平臺來說,客戶e價值主要包括以下三個部分:
(1)廣告價值。廣告投放所創(chuàng)造的收益通常是電子商務(wù)網(wǎng)站收入的主要來源。網(wǎng)絡(luò)廣告與傳統(tǒng)廣告一樣,通過內(nèi)容展示,創(chuàng)造消費需求、影響消費觀念、促使消費行為產(chǎn)生,是一種以商業(yè)目的為出發(fā)點的信息傳播活動,常常以誘導(dǎo)互動的方式進(jìn)行信息傳遞。目前,電子商務(wù)網(wǎng)站的廣告收入結(jié)算常常以點擊率為依據(jù),用戶的點擊動作能夠直接為電商網(wǎng)站創(chuàng)造利潤收入。
(2)“吸引力”價值。電商網(wǎng)站必須創(chuàng)造對消費者、商家都具有吸引力的價值,才能夠保證其必要的流動性,讓更多交易方進(jìn)入平臺。更多相關(guān)產(chǎn)品或服務(wù)信息、更可信的搜索結(jié)果、更多評論和互動信息,更多來源廣泛、品類多樣的消息發(fā)布,對交易雙方都是充滿吸引力的高價值資源,這些“吸引力”價值,在被用戶創(chuàng)造的同時也反過來吸引更多用戶。
(3)流量價值。目前主流搜索引擎,如百度、谷歌等,在進(jìn)行算法推薦時,常常將網(wǎng)站訪問流量作為主要權(quán)重指標(biāo),根據(jù)網(wǎng)站流量進(jìn)行聚頂排名。在電子商務(wù)網(wǎng)站進(jìn)行搜索引擎優(yōu)化(Search Engine Optimization)時,利用搜索引擎規(guī)則,使其盡可能在搜索結(jié)果的前排出現(xiàn),對其先于競爭對手被訪問,從而占據(jù)有利地位,獲得品牌收益有重要價值??蛻粼L問量越高,網(wǎng)站自然排名越靠前,網(wǎng)站就更容易獲取流量,并持續(xù)創(chuàng)造價值。
客戶e價值的三個維度都與電子商務(wù)網(wǎng)站持續(xù)獲客和盈利能力直接相關(guān)。如表1所示,本研究針對客戶e價值[11]建立了價值計算體系。
2.3改進(jìn)模型的建立
根據(jù)企業(yè)類型和管理需求的不同,對于各種客戶細(xì)分理論的研究重點上也會有所不同。本文以電子商務(wù)客戶為研究對象,綜合考慮電子商務(wù)環(huán)境中客戶購買行為和認(rèn)知模式的多種影響因素和表現(xiàn)形式,將RFM模型對客戶交易價值的多維度綜合評估的特性與客戶e價值的操作性定義相結(jié)合,構(gòu)建了RFME模型,從而對電子商務(wù)環(huán)境下的客戶價值有了更好的評價。
其優(yōu)勢在于:
首先,不僅美妝、小型家電、食品、零售等日常消費品,和餐飲、音像等日常消費場景,在耐用品、大宗、原材料等領(lǐng)域,RFM也有充足的應(yīng)用案例,證明其在各個領(lǐng)域客戶價值。
其次,根據(jù)劉元軍網(wǎng)絡(luò)活躍度指標(biāo)體系建立和引入的e-value(e價值)計算體系,增加了電子商務(wù)由于處在網(wǎng)絡(luò)環(huán)境中所帶來的特定用戶行為模式特征,使得RFME模型體現(xiàn)了網(wǎng)絡(luò)環(huán)境下電商客戶價值的新含義。
最后,目前,我國電子商務(wù)市場呈現(xiàn)出極少數(shù)集成平臺占有絕大多數(shù)電子商務(wù)體量,中小型電子商務(wù)網(wǎng)站發(fā)展水平不高,規(guī)模和效益參差不齊的樣態(tài),對大多數(shù)中小型偏向特定細(xì)分領(lǐng)域、或規(guī)模較小的電子商務(wù)網(wǎng)站來說,過于復(fù)雜的細(xì)分模型不但不利于理解,而且操作繁復(fù),耗時耗資較大,模型設(shè)計、參數(shù)設(shè)置、評估監(jiān)控以及做出決策等環(huán)節(jié)都需要更長的時間和更多人力物力。隨著“奧卡姆剃刀定律”在現(xiàn)代企業(yè)管理理論中的發(fā)展,組織規(guī)模和制度制定當(dāng)中,舍棄繁瑣和非必要流程更符合企業(yè)的經(jīng)濟(jì)效益,這一原則在客戶價值分析和客戶關(guān)系管理中同樣適用。RFME模型舍棄了許多客戶價值評估算法的繁復(fù)運算,方便實用,更符合我國電子商務(wù)企業(yè)的實際需求和現(xiàn)實環(huán)境。
2.4基于RFME的客戶細(xì)分建模
(1)數(shù)據(jù)整理。用戶在電子商務(wù)網(wǎng)站上的一切點擊、瀏覽和消費行為,都可以被記錄和留存。從相關(guān)數(shù)據(jù)當(dāng)中提取RFME模型對應(yīng)的字段信息,如特定時間段內(nèi)顧客的購買、距離統(tǒng)計時間最接近的購買、購買行為的頻次與頻率等。
(2)數(shù)據(jù)的處理。將相關(guān)字段信息進(jìn)行數(shù)據(jù)化整理,以R、F、M、E數(shù)值的形式導(dǎo)出,方便k-means聚類分析。
(3)聚類分析。由于本研究對客戶價值的評估和細(xì)分服務(wù)于企業(yè)客戶關(guān)系管理,考慮到管理成本和針對性客戶營銷活動所需人力物力,客戶細(xì)分類別過多將大大增加管理難度,中小型電子商務(wù)網(wǎng)站難以有效利用客戶細(xì)分結(jié)果做出決策優(yōu)化,因此,模型針對R、F、M、E四個字段,使用k-means聚類分析。
(4)命名。完成聚類分析后,模型使用多元單因素方差分析法,對數(shù)據(jù)的顯著性差異進(jìn)行驗證,從而判斷各客戶細(xì)分類別在不同字段下是否具有顯著區(qū)別。接下來,對各細(xì)分類別進(jìn)行多重比較,通過對量化指標(biāo)的比較分析,得到不同類別客戶的特征信息,并進(jìn)行命名。如某一類客戶在其他字段上表現(xiàn)沒有顯著區(qū)別,但在消費頻次字段上的值明顯高于其他分類,即可以認(rèn)為這類客戶具有同等條件下消費金額較高的特征,命名為高客單價客戶。
(5)營銷策略的分析。命名步驟當(dāng)中,各細(xì)分類別客戶的特征被提取出來。根據(jù)細(xì)分客戶的類別,企業(yè)或網(wǎng)站可以對不同特征的用戶實施不同的營銷策略。如針對高客單價用戶,其對小額優(yōu)惠或低價產(chǎn)品可能敏感度較低,而應(yīng)通過高質(zhì)量、具有獨特性或高認(rèn)知度的產(chǎn)品或服務(wù)進(jìn)行客戶喚起,進(jìn)一步增強客戶認(rèn)同。
3客戶保持與流失的預(yù)測模型
3.1電子商務(wù)環(huán)境下客戶保持與流失的特點分析
在電子商務(wù)環(huán)境下,由于信息流動速度快,客戶選擇范圍極大拓展,用戶對品牌忠誠度更易被動搖,購買決策會被多種因素影響,客戶流失也有許多新的特點。
3.1.1用戶信任更難建立
電子商務(wù)環(huán)境下,產(chǎn)品或服務(wù)的信息公開透明,企業(yè)難以通過信息不對稱、或區(qū)域隔離,實施產(chǎn)品價格、促銷政策等方面的壟斷。隨著行業(yè)競爭的公開化、透明化、全球化,企業(yè)不僅需要面對本地的競品廠商,還要與世界各地的電商平臺進(jìn)行抗衡。在顧客面前放著更多選項的時候,顧客的需求標(biāo)準(zhǔn)也將逐漸提高,造成一種平臺不僅要實現(xiàn)顧客的最低購物基本欲望的同時,還需要建立其獨特的核心價值觀的尷尬境地,在傳播中持續(xù)傳遞和構(gòu)建認(rèn)同,使客戶對企業(yè)價值觀本身產(chǎn)生認(rèn)可,從而建立客戶對品牌的忠誠。
3.1.2評價指標(biāo)趨向多元
電子商務(wù)環(huán)境下,產(chǎn)品和服務(wù)能夠得到全方位的展示,但同樣的,展示風(fēng)格、廣告創(chuàng)意、商品包裝、快遞速度、網(wǎng)頁設(shè)計、營銷活動等,都會影響到客戶對商品和商家的整體評價,評價指標(biāo)愈加多元化。
另外,由于客戶對不同領(lǐng)域、不同品質(zhì)的商品需求逐漸變化,加之各個平臺的競爭和沖擊,當(dāng)下客戶的忠誠度已然不能使用以往的關(guān)聯(lián)特征進(jìn)行描述,對產(chǎn)品或服務(wù)滿意的同時,客戶仍舊愿意選擇轉(zhuǎn)而嘗試新的產(chǎn)品與服務(wù),這一比例甚至高達(dá)65%~85%。貝思公司的一項調(diào)查顯示,90%的背離客戶會對他們以前獲得的服務(wù)表示滿意,也就是說,僅從客戶滿意與否來看,商家難以對客戶是否可能流失進(jìn)行預(yù)測。隨著現(xiàn)代計算機技術(shù)的發(fā)展,通過模型和算法的優(yōu)化,我們能夠?qū)⒏鄻踊挠行е笜?biāo)納入客戶流失的分析預(yù)測當(dāng)中。
3.1.3客戶認(rèn)知具有實時性、交互性
在電子商務(wù)渠道中,客戶可以通過網(wǎng)頁的瀏覽順序,相關(guān)頁的跳轉(zhuǎn)打開,視頻、圖片的播放展示,甚至網(wǎng)絡(luò)直播等獲得實時的、交互性的數(shù)據(jù)信息??蛻襞c企業(yè)之間的溝通渠道也從傳統(tǒng)的線下面對面溝通,到客服中心等的熱線電話,發(fā)展到如今語音、文字、視頻等多形式,時間、空間、地域等多維度的實時在線交流。
相應(yīng)的,企業(yè)與客戶溝通的方式和渠道也愈加多元,通過用戶行為分析、客戶價值分析、問卷調(diào)查、客戶訪談等方式,企業(yè)能夠迅速獲取最新、最直接、最真實的客戶信息,實時進(jìn)行數(shù)據(jù)資料的更新。利用實時交互性數(shù)據(jù)進(jìn)行的客戶價值和流失可能性分析評估具有更強的效度和信度,更有利于企業(yè)制定有效戰(zhàn)略。
3.2 AdaBoost算法
首先給定一個弱學(xué)習(xí)算法和訓(xùn)練集((x1,y1),(x2,y2),…, (xn,yn)),xi∈X,X表示其中的某個域或者實例空間;yi∈Y={1,-1},將分類問題作為一個帶類別標(biāo)志的集合進(jìn)行分析,將回歸問題作為一個數(shù)值進(jìn)行計算。AdaBoost在每次迭代t=1,2,…,T時反復(fù)調(diào)用給定的弱學(xué)習(xí)算法。AdaBoost算法的主要思想,就是通過在指定訓(xùn)練集中進(jìn)行訓(xùn)練,最終達(dá)到可以對一套固定的權(quán)重分布來進(jìn)行維護(hù)的目的。在第t次迭代時,第i個訓(xùn)練樣本(xi,yi)分布的權(quán)重記為Dt(i)。初始化時,對各個訓(xùn)練樣本指定的初始權(quán)重均為1,保證在初始化時各個樣本的權(quán)重都是相同的。然后通過調(diào)用多學(xué)習(xí)算法來對訓(xùn)練集進(jìn)行T次迭代,并將每次迭代后的結(jié)果同訓(xùn)練結(jié)果重新輸入訓(xùn)練集中,達(dá)到對訓(xùn)練集上的權(quán)重分布產(chǎn)生更新的目的。在此訓(xùn)練過程中,對其中所有失敗訓(xùn)練例所賦予的權(quán)重偏大,從而使得學(xué)習(xí)算法在后續(xù)學(xué)習(xí)過程中,都可以針對之前訓(xùn)練中的這些失敗的訓(xùn)練例進(jìn)行學(xué)習(xí),集中注意力在這些分類“困難”的樣本上。
在迭代過程中,每一步弱學(xué)習(xí)算法的任務(wù)就是根據(jù)訓(xùn)練樣本的分布及權(quán)重Dt產(chǎn)生一個弱假設(shè)ht:X→{1,-1}。弱假設(shè)ht的好壞由誤判率εt來衡量:
(1)
該誤判率的大小與弱學(xué)習(xí)算法訓(xùn)練所依靠的權(quán)重分布Dt相關(guān)。實際上,弱學(xué)習(xí)算法就是一個可以把權(quán)重分布Dt用在訓(xùn)練樣本上的算法,通過權(quán)重分布對學(xué)習(xí)的訓(xùn)練的重點進(jìn)行相應(yīng)的識別。
在進(jìn)行T次訓(xùn)練后,得到一個預(yù)測函數(shù)序列h1,h2,…, ht,AdaBoost算法就會給每隔弱假設(shè)h也賦予一個權(quán)重αt。αt可以對該弱假設(shè)的重要性進(jìn)行衡量,對效果好的所賦予的權(quán)重大,對效果壞的賦予的權(quán)重小。αt的選取原則就是使損失函數(shù)能夠最小。在進(jìn)行T次迭代后,分類問題中最終的預(yù)測函數(shù)H(x),便以之前得到的權(quán)重分布為依據(jù),使用投票的凡是來產(chǎn)生該函數(shù)。
代碼如下:
訓(xùn)練集:S=((x1,y1),(x2,y2),…,(xn,yn)),xi∈X,yi∈ Y={1,-1}
初始化:Di=1/n,i=1,2,…,M
循環(huán)t=1,2,…,T
由Dt基于弱學(xué)習(xí)算法進(jìn)行訓(xùn)練,得弱假設(shè)ht;
ht的誤判率:;
選擇;
更新權(quán)值
其中,為歸一化算子(使得Dt+1為一個分布)
循環(huán)結(jié)束,輸出最終假設(shè):
(2)
(3)
3.3基于Logistic的回歸分析算法
Logistic回歸實際上是一種分類方法,用于二分類問題。
先找到一個合適的假設(shè)函數(shù),該函數(shù)即為分類函數(shù),用它來預(yù)測輸入數(shù)據(jù)的判斷結(jié)果,這個過程需要對數(shù)據(jù)有一定的了解和分析,并且知道預(yù)測函數(shù)的基本特征。
構(gòu)造一個代價函數(shù)cost,即損失函數(shù)。用以表示預(yù)測的輸出結(jié)果和訓(xùn)練數(shù)據(jù)的實際類別之間的偏差。若考慮所有數(shù)據(jù),可以將cost求和或平均,記為J(θ)函數(shù),表示所有預(yù)測結(jié)果和訓(xùn)練數(shù)據(jù)的實際類別之間的偏差。
最小化代價函數(shù),獲得最優(yōu)的模型參數(shù)解,即J(θ)函數(shù)的最小值。因為函數(shù)的值越小預(yù)測結(jié)果就越準(zhǔn)確,方法一般使用梯度下降法。例如:
(4)
(5)
擬合概率的Logit函數(shù)——Logit(πi),作為事件比值的對數(shù),也就是事件發(fā)生地概率(成功)和事件沒發(fā)生的概率(失敗)的比值的自然對數(shù):
(6)
引入閾值πi,大于πi則y^ =1,小于πi則y^ =0。擬合結(jié)果不一定很準(zhǔn)確,因此需要有一個擬合誤差,誤差值盡可能小,與線性回歸不同,響應(yīng)變量的觀測值不能被分解成擬合值和誤差項的和。
用于連接πi和解釋變量線性組合的Logit函數(shù)的選擇,被概率逐漸趨向與0或1的實施所激勵,同時概率值不能超過這個界限才能保證πi是一個有效地概率。因此,由于線性函數(shù)在預(yù)測結(jié)果的響應(yīng)變量值上的結(jié)果沒有限制,并不會滿足二值響應(yīng)變量所處的[0,1]區(qū)間,所以不能使用線性回歸模型進(jìn)行二值響應(yīng)變量的預(yù)測。
在算法的執(zhí)行過程中,從回歸效果上來分析的話,Logistic回歸和線性回歸具有相同的特性,即若將回歸過程中與輸出變量無關(guān)的屬性以及其余一些相似度高的屬性進(jìn)行刪除之后,Logistic回歸會更具優(yōu)勢。由此可以看出,無論是Logistic還是線性回歸,若想使其的回歸結(jié)果具有較好的性能,那么對特征能否進(jìn)行適宜的處理便會起到關(guān)鍵的作用。同時Logistic回歸與其他及算法相比,更容易從實際應(yīng)用的實現(xiàn)相應(yīng)的功能,并且在運行過程中所具有的效率也是很高的。
3.4基于AdaBoost的客戶保持與流失預(yù)測模型
客戶保持與流失的問題是一個二元的分類問題,就是通過對歷史后臺數(shù)據(jù)進(jìn)行分析,針對客戶對不同產(chǎn)品或企業(yè)的維持與流失情況進(jìn)行規(guī)律總結(jié),從而可以預(yù)測未來一段時間內(nèi)客戶對該產(chǎn)品或企業(yè)維持與流失的情況。客戶管理人員,可以根據(jù)可靠的預(yù)測結(jié)果,對可能流失的重要的客戶進(jìn)行及時的挽救措施。
綜上所述,AdaBoost相當(dāng)于對若干個弱分類算法進(jìn)行線性組合,從而得到最精確的預(yù)測結(jié)果。但是在整個預(yù)測過程中,AdaBoost僅僅是一個組合分類器算法,只能對每一個單個分類模型的訓(xùn)練結(jié)果進(jìn)行組合融合,并未使用弱分類器作為基分類器來完善整個過程中的分類功能,因此對弱分類算法的選擇也要進(jìn)行綜合考慮。C5.0決策樹與神經(jīng)網(wǎng)絡(luò)相比,雖然二者的非線性擬合能力不相上下,但是C5.0決策樹比神經(jīng)網(wǎng)絡(luò)具有更快的訓(xùn)練速度,并且泛化能力也要強于神經(jīng)網(wǎng)絡(luò),因此本文選擇C5.0決策樹作為指定弱分類算法在AdaBoost中起到基分類器的作用。
4實驗結(jié)果與結(jié)論
對于AdaBoost模型的整體訓(xùn)練過程而言,整個過程中的預(yù)測準(zhǔn)確率是逐漸提升的,整個訓(xùn)練過程會針對在迭代過程中產(chǎn)生的錯誤進(jìn)行以及并糾正,并將結(jié)果再次輸入到訓(xùn)練集中,從而保證下次迭代過程中的預(yù)測準(zhǔn)確率。隨著訓(xùn)練倫次的增加模型的預(yù)測能力會不斷地接近極限,當(dāng)訓(xùn)練輪次夠高的時候,每多訓(xùn)練一次模型的預(yù)測正確率提高就很小了。輪次的確定一般在模型的驗證階段進(jìn)行。
為表現(xiàn)本文的改進(jìn)方法優(yōu)越性,選取了幾種常見模型與其進(jìn)行比較,通過對同一個分類數(shù)據(jù)集建立AdaBoost模型,然后比較準(zhǔn)確率的方式來說明AdaBoost算法的優(yōu)勢。使用SASEM,實驗數(shù)據(jù)集進(jìn)行建模。錯分類率收斂過程如圖1所示。
本文選取了4中常見模型進(jìn)行比較,如表2所示:
綜上所述,AdaBoost算法具有明顯的優(yōu)勢,它的自動糾錯能力相較于其他算法更適合用來進(jìn)行分析。盡管精度僅僅比其他算法高約6個百分點,但在實際的生產(chǎn)生活中這些提升對模型帶來的優(yōu)化效果是巨大的。由此可見,本文提出的基于RFME和AdaBoost分類器的客戶價值模型可為電商平臺精確化計算出客戶價值并根據(jù)計算結(jié)果預(yù)測客戶流失。
參考文獻(xiàn)
[1] RENJITH S.An integrated framework to recommend personalized retention actions to control B2C E-commerce customer churn[J].International Journal of Engineering Trends and Technology,2015,27(3):152-157.
[2] JU C H,LU Q B,GUO F P.E-commerce customer churn prediction model combined with individual activity[J].Systems Engineering-Theory & Practice,2013,33(1):141-150.
[3] ZHU Bangzhu.E-business customer churn prediction based on integration of SMC,rough sets and least square support vector machine[J].Systems Engineering-Theory & Practice,2010,30(11):1960-1967.
[4] YU X B,GUO S S,GUO J,et al.An extended support vector machine forecasting framework for customer churn in e-commerce[J].Expert Systems with Applications,2011,38 (3):1425-1430.
[5] 朱幫助,張秋菊,鄒昊飛,等.基于OSA算法和GMDH網(wǎng)絡(luò)集成的電子商務(wù)客戶流失預(yù)測[J].中國管理科學(xué),2011,19(5):64-70.
[6] SCHAPIRE R E.The strength of weak learnability[C]// Foundations of Computer Science,1989.30th Annual Symposium on.IEEE,1989:197-227.
[7] BREIMAN L.Bagging predictors[J].Machine Learning, 1996,24(2):123-140.
[8] YING Weiyun,LIN Nan,XIE Yiayia,et al.Research on the LDA boosting in customer churn prediction[J].Journal of Applied Statistics & Management,2010,29(3): 400-408.
[9] LIU M,QIAO X Q,XU W L.Three categories customer churn prediction based on the adjusted real adaBoost[J]. Communication in Statistics-Simulation and Computation, 2011,40(10):1548-1562.
[10] ZHANG Wei,YANG Shanlin,LIU Tingting.Customer churn prediction in mobile communication enterprises based on CART and Boosting algorithm[J].Chinese Journal of Management Science,2014,22(10):90-96.
[11] 劉遠(yuǎn)君.基于統(tǒng)計方法的交易平臺型電子商務(wù)網(wǎng)站CRM應(yīng)用研究[D].杭州:浙江工商大學(xué).