摘要:客戶流失是互聯(lián)網(wǎng)電商企業(yè)面臨的重要問題之一,及時預(yù)測和挽留流失客戶對企業(yè)提高經(jīng)濟效益具有重要作用。本文基于決策樹、支持向量機和XGBoost三種機器學(xué)習(xí)算法,從客戶畫像特征、行為特征、情感特征和價值特征四個方面選取指標構(gòu)建模型并評價,以對比不同模型在同一個數(shù)據(jù)集上的預(yù)測結(jié)果。結(jié)果表明,集成算法XGBoost模型表現(xiàn)最佳,客戶情感價值特征對流失客戶預(yù)測的貢獻度最大,并由此提出相應(yīng)的客戶挽留對策。
關(guān)鍵詞:機器學(xué)習(xí);直播電商;客戶流失;預(yù)測模型
引言
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,直播電商平臺如雨后春筍般涌現(xiàn),如淘寶、抖音、快手、小紅書等??蛻艨蛇x擇的直播平臺和直播內(nèi)容越來越多。流量大小對客戶訂單數(shù)量有直接影響,客戶流失在直播電商中屢見不鮮。提高客戶流失預(yù)測精度,建立客戶流失預(yù)警機制,及時維系和挽留客戶,有助于直播電商企業(yè)降低客戶維系成本,提高企業(yè)經(jīng)濟效益。
1. 國內(nèi)外研究現(xiàn)狀
機器學(xué)習(xí)方法作為人工智能的核心算法,在客戶流失問題的研究中被廣泛應(yīng)用。國外學(xué)者對于客戶流失(Customer Churn)的研究大多集中在電信領(lǐng)域,研究方法大多采用機器學(xué)習(xí)方法。Sudharsan等(2022)[1]提出了一種新的框架,發(fā)現(xiàn)S-RNN可以用來對客戶按流失和正??蛻暨M行分類,并對流失客戶通過分析網(wǎng)絡(luò)利用率實施保留措施。Abdelrahim等(2019)[2]融合采用決策樹、隨機森林、梯度增強機器樹“GBM”和極端梯度增強“XGBOOST”四種算法構(gòu)建電信客戶流失預(yù)測模型,發(fā)現(xiàn)應(yīng)用XGBOOST算法獲得了最佳結(jié)果。Adnan等(2019)[3]重點關(guān)注跨公司客戶流失預(yù)測問題,采用機器學(xué)習(xí)算法構(gòu)建CCCP(Cross-Company Churn Prediction)模型,在電信行業(yè)公開數(shù)據(jù)集上驗證,結(jié)果表明大多數(shù)數(shù)據(jù)轉(zhuǎn)換方法顯著提高了CCCP的性能,而Z-Score數(shù)據(jù)轉(zhuǎn)換方法不能獲得更好的結(jié)果。
國內(nèi)學(xué)者對客戶流失的研究方法大多數(shù)采用數(shù)據(jù)挖掘技術(shù)。劉松(2022)[4]分析了銀行客戶流失預(yù)測模型的可解釋性,發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)預(yù)測準確性更高。薛冰(2022)[5]運用多模型融合的方法預(yù)測電信運營商客戶流失,發(fā)現(xiàn)融合模型算法有利于提高模型的準確性和可用性。鄭桂钖、徐寬(2022)[6]基于數(shù)據(jù)的高維時序特征構(gòu)建直播行業(yè)客戶流失預(yù)測模型,結(jié)果表明在補充了時序特征后的融合特征模型預(yù)測效果有顯著提升。黃栩(2019)[7]研究軟件APP的客戶流失問題,實驗結(jié)果表明模型的結(jié)果預(yù)測準確率都在90%以上,具有很好的預(yù)測效果。鐘文鑫(2018)[8]研究陌生人社交APP客戶流失預(yù)測問題,四種機器學(xué)習(xí)算法構(gòu)建對比模型,發(fā)現(xiàn)XGBoost模型的表現(xiàn)結(jié)果更佳。
綜上所述,客戶流失問題受到了國內(nèi)外學(xué)者的廣泛關(guān)注,數(shù)據(jù)挖掘的機器學(xué)習(xí)算法是研究此類問題最常用的方法。
2. 數(shù)據(jù)處理與特征工程
2.1 數(shù)據(jù)說明
本研究數(shù)據(jù)集來源于某電子商務(wù)平臺電子產(chǎn)品銷售直播的客戶特征數(shù)據(jù),共包含5630條數(shù)據(jù)記錄。因變量為流失標志(Churn),1表示流失客戶,0表示未流失客戶,自變量為平臺使用期限、客戶首選登錄設(shè)備、城市級別等17個特征。
2.2 數(shù)據(jù)預(yù)處理
由于原始數(shù)據(jù)存在缺失、樣本不均衡等問題,為了模型分析的準確性,本研究運用Python3.7工具在anaconda環(huán)境下填充缺失值、轉(zhuǎn)換數(shù)據(jù)類型、獨熱編碼和smote過采樣。
2.2.1 缺失值處理
經(jīng)檢測發(fā)現(xiàn),變量Tenure、Warehouse ToHome等6個變量存在200條以上的缺失數(shù)據(jù),考慮到樣本體量較小,本文所選部分模型對缺失數(shù)據(jù)依賴度較高,故采用中位數(shù)和眾數(shù)來填充缺失值。
2.2.2 數(shù)據(jù)轉(zhuǎn)換
通過觀察原始數(shù)據(jù)可以發(fā)現(xiàn),PreferredLoginDevice、MaritalStatus、Gender、PreferedOrderCat四個變量的值為字符串類型,為了建模和分析方便,本文將字符型變量轉(zhuǎn)換為數(shù)值型變量,轉(zhuǎn)換規(guī)則如表1所示。
轉(zhuǎn)換后的數(shù)據(jù)不具有有序性特征,例如性別變量中的0和1,僅表示男性和女性的客戶群劃分,本文選取獨熱編碼(One-Hot Encoding)技術(shù)、運用scikit-learn庫中的OneHotEncoder模塊對這類數(shù)據(jù)進行重新編碼,防止數(shù)據(jù)間的大小關(guān)系參與運算,合理地計算特征之間的距離。獨熱編碼后,數(shù)據(jù)集由原來的17個變量擴展到28個。
2.2.3 樣本不均衡處理
本研究選取的流失客戶樣本數(shù)量為948,非流失客戶樣本數(shù)量為4682,比例為1:4.9。一般來說,當流失客戶與非流失客戶數(shù)據(jù)比例為1:2或1:3時,模型效果較好[9]。侯俞安(2022)在研究個人信用風(fēng)險評估時采用SMOTE算法訓(xùn)練不平衡樣本數(shù)據(jù)集,模型取得了更好的效果[10]。本文采用SMOTE方法,將流失客戶樣本擴展到與非流失客戶大致相當?shù)谋壤?。SMOTE算法根據(jù)少數(shù)類樣本人工合成新樣本,對少數(shù)類樣本每個樣本x,從它的K近鄰中隨機選一個樣本y,然后在x,y連線上隨機選取一點作為新合成的樣本。這種合成新樣本的過采樣方法可以降低過擬合的風(fēng)險。構(gòu)建新樣本的公式如下:
2.3 客戶特征模型
客戶畫像是了解客戶的關(guān)鍵步驟,平臺可以根據(jù)畫像特征實施精準營銷策略,提升客戶滿意度,降低流失的可能性??蛻粜袨樘卣鞣从沉丝蛻舻氖褂昧?xí)慣,通過客戶行為數(shù)據(jù)可以挖掘內(nèi)容偏好、發(fā)掘客戶興趣點、預(yù)警客戶流失??蛻魧ι唐贩?wù)的滿意度評分和投訴情況直接反映了客戶的情感狀態(tài)。張梅英(2022)認為滿意度對忠誠度和購買意愿有正向影響,滿意度較高的客戶流失的可能性較小[11]。RFM模型是客戶價值衡量的理論基礎(chǔ),該模型由最近一次消費R(Recency)、消費頻率F(Frequency)和消費金額M(Monetary)構(gòu)成,一般來說,消費時間較遠、消費頻次較低、但消費金額較高的客戶,很可能是已經(jīng)流失或者即將流失的客戶,應(yīng)當實施挽留措施。本文篩選的客戶特征及含義如表2所示。
3. 模型選擇與實驗結(jié)果
3.1 算法選擇與模型構(gòu)建
預(yù)測客戶流失屬于二分類問題,分類準確性的關(guān)鍵在于算法的選取。本文采用Python3.7軟件進行機器學(xué)習(xí)建模,在anaconda環(huán)境下運行。首先使用留出法將數(shù)據(jù)集劃分為測試集(20%)和訓(xùn)練集(80%),然后使用sklearn工具包分別建立決策樹、支持向量機和XGBoost算法模型。
3.1.1 決策樹模型構(gòu)建
決策樹是一種、應(yīng)用廣泛的機器學(xué)習(xí)算法,可以用來解決分類和回歸問題。目前主流的決策樹算法有基于信息熵的ID3算法、C4.5算法和基于基尼系數(shù)的CART算法。信息熵表示隨機變量不確定性的度量,不確定性越大得到的熵值越大,假定當前樣本集合D中第k個樣本所占的比例為(k=1,2,…,|y|),則D的信息熵定義為
本文運用sklearn工具包中的Decision TreeClassifier分類器,在默認參數(shù)下創(chuàng)建模型,模型最佳預(yù)測準確率達88%,AUC得分為0.84。但是模型的可解釋性和分類精度之間是一種權(quán)衡[12],最佳預(yù)測效果下模型的可解釋性不高。為了提高樹模型的可解釋性,可以通過限制最大深度和最大葉子結(jié)點的數(shù)量簡化模型。
3.1.2 支持向量機模型構(gòu)建
支持向量機(Support Vector Machine,SVM)是通過尋找超平面對樣本進行分割從而實現(xiàn)分類或預(yù)測的算法,分割樣本的原則是使間隔最大化,尋找最大間隔的支持向量。支持向量機的核決定了如何投影到更高維的空間,核函數(shù)的參數(shù)決定了邊界的形狀,正則化參數(shù)C表示單個數(shù)據(jù)點對模型的影響程度,C越小表示模型越簡單。本文運用sklearn工具包中的SVC模塊創(chuàng)建支持向量機模型,所選擇的核函數(shù)為RBF徑向基核,懲罰系數(shù)為20,運行多次以后模型的準確率為86.9%,AUC得分為0.88。
3.1.3 XGBoost模型構(gòu)建
XGBoost(eXtreme Gradient Boosting)又叫極度梯度提升樹,是boosting算法的一種實現(xiàn)方式。其主要目標是降低模型的誤差,因此采用多個基學(xué)習(xí)器,下一個學(xué)習(xí)器是學(xué)習(xí)前面基學(xué)習(xí)器的結(jié)果的差值,通過多個學(xué)習(xí)器的學(xué)習(xí),不斷降低模型值和實際值的差。本文采用XGBoost庫中的XGBClassifier分類器構(gòu)建模型,為了提升模型的效果,將子決策樹的最大深度限制為10,目標函數(shù)參數(shù)設(shè)為binary:logistic,用于訓(xùn)練的子樣本占總樣本的比例設(shè)為0.8,特征隨機采樣的比例設(shè)為0.8,模型預(yù)測準確率為90.5%,AUC得分為0.93。
3.2 模型評估指標選擇
本文采用二分類問題的混淆矩陣對模型進行綜合評價。對于二分類問題,可以將樣本根據(jù)真實情況和學(xué)習(xí)器的預(yù)測結(jié)果分為真正例(TP)、真反例(TN)、假正例(FP)、假反例(FN),分類結(jié)果的混淆矩陣如表3所示。
查準率P(precision)與查全率R(recall)的定義分別為
F1評分法可以更便捷地綜合評價查準率和查全率,F(xiàn)1的計算公式為
ROC曲線體現(xiàn)了綜合考慮學(xué)習(xí)器在不同任務(wù)下“期望泛化性能”的好壞,ROC曲線與橫坐標軸圍成的面積(AUC)也可以衡量學(xué)習(xí)器的性能。從查準率、查全率和F1得分情況來看,三種模型對非流失客戶預(yù)測的效果比較好,均達90%以上,對流失客戶的預(yù)測效果略差,但也接近70%,平均得分在80%,具體數(shù)據(jù)如表4所示。
如圖1所示,從三個模型的ROC曲線可以直觀看出,XGBoost模型的擬合效果優(yōu)于支持向量機和決策樹;決策樹和支持向量機模型的ROC曲線有交叉,通過計算AUC值(決策樹AUC得分:0.84,支持向量機AUC得分:0.88)可知,支持向量機模型的擬合效果優(yōu)于決策樹;從預(yù)測準確性來看,XGBoost模型預(yù)測準確性最高,其次是決策樹模型,最后是支持向量機。
從上述分析可知,XGBoost模型的擬合效果和準確性得分最高,利用此模型自帶的feature_importances_可以計算出各個變量對模型的貢獻度。根據(jù)特征重要性計算結(jié)果,客戶滿意度評分特征對流失的影響最大,其次為客戶年齡分組、城市等級和投訴情況,可見客戶情感特征對流失預(yù)測貢獻度最大,其次客戶畫像特征。各特征的具體貢獻度如圖2所示。
3.3 減少客戶流失策略
根據(jù)上述分析,可以從影響客戶流失的重要因素出發(fā),針對具體原因采取相應(yīng)的運營措施:
(1)提升客服響應(yīng)速度與產(chǎn)品質(zhì)量水平,減少客戶投訴。一般來說,滿意度評分低和有投訴的客戶體驗越差,越容易流失,所以直播電商企業(yè)在運營過程中應(yīng)當保證客戶質(zhì)量,提升客服水平。
(2)細化客戶畫像,實行精準營銷。不同畫像特征的客戶有不同的偏好,直播電商企業(yè)在營銷時可以根據(jù)客戶特征推薦客戶感興趣的內(nèi)容。
結(jié)論
通過以上研究可得出兩個重要結(jié)論:(1)集成算法模型的預(yù)測精度比單一算法更高,XGBoost模型在直播電商客戶流失預(yù)測模型中表現(xiàn)最佳,預(yù)測準確率達到90.5%;(2)客戶情感特征對流失預(yù)測模型影響最大,其次是客戶畫像特征。在今后的研究中,可在大規(guī)模數(shù)據(jù)集上對模型進行優(yōu)化和完善,保留小規(guī)模數(shù)據(jù)集良好的訓(xùn)練效果的同時,通過算法融合、邏輯模糊等其他的人工智能算法,構(gòu)建大規(guī)模數(shù)據(jù)集的預(yù)測模型。
參考文獻:
[1]Sudharsan R,Ganesh EN.A Swish RNN based customer churn prediction for the telecom industry with a novel feature selection strategy[J].Connection Science,2022,34(1):1855-1876.
[2]Ahmad AK,Jafar A,Aljoumaa K.Customer churn prediction in telecom using machine learning in big data platform[J].Journal of Big Data, 2019,6(1).
[3]Amin A,Shah B,Khattak AM,et al.Cross-company customer churn prediction in telecommunication: A comparison of data transformation methods[J].International Journal of Information Management,2019,(46):304-319.
[4]劉松.基于深度學(xué)習(xí)的銀行客戶流失預(yù)測問題研究[D].貴陽:貴州大學(xué),2022.
[5]薛冰.基于多模型融合的電信運營商客戶流失預(yù)測研究[D].大連:東北財經(jīng)大學(xué),2022.
[6]鄭桂钖,徐寬.基于高維時序特征補充的直播行業(yè)用戶流失預(yù)測模型[J].科技與創(chuàng)新,2022,(23):56-61.
[7]黃栩.基于機器學(xué)習(xí)算法建立用戶流失預(yù)警模型[J].電子制作,2019,(16):49-51.
[8]鐘文鑫.基于數(shù)據(jù)挖掘的陌生人社交APP用戶流失預(yù)測模型研究[D].北京:首都經(jīng)濟貿(mào)易大學(xué), 2018.
[9]邢紹艷,朱學(xué)芳.付費知識直播用戶流失預(yù)測實證研究[J].信息資源管理學(xué)報,2022,12(4):121-130,140.
[10]侯俞安.基于SMOTE—貝葉斯網(wǎng)絡(luò)的商業(yè)銀行風(fēng)險評估模型研究[D].上海:東華大學(xué),2022.
[11]張梅英.遷移理論視角下零售電商平臺消費者重復(fù)購買意愿的影響機制研究[J].商業(yè)經(jīng)濟研究,2022,(4):85-88.
[12]Baryannis G,Dani S,Antoniou G.Predicting supply chain risks using machine learning:The trade-off between performance and interpretability[J].Future Generation Computer Systems,2019,101(C):993-1004.
作者簡介:李翠萍,碩士研究生,研究方向:數(shù)字經(jīng)濟。