徐冬 肖瑩慧
關(guān)鍵詞: 行為預(yù)測(cè); logistic回歸; 用戶行為; 數(shù)據(jù)集分類; 機(jī)器學(xué)習(xí); 留存分析
中圖分類號(hào): TN919?34; TP391 ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2019)04?0094?03
Website user behavior prediction based on machine learning technology
XU Dong, XIAO Yinghui
(Wuhan College, Wuhan 430212, China)
Abstract: In allusion to the problems of low user retention degree, conversion rate and loyalty in the website, taking a tourist website as an example, an accessing user behavior prediction model is proposed for the tourist website on the basis of the machine learning technology of logistic regression. The behavior data sets of website users are preprocessed by means of the model. The data sets are classified according to the fixed proportion. It is verified that the data set classification follows the same statistical distribution. The model corresponding to the logistic regression machine learning algorithm is established to predict the behavior of website users. The prediction results show that the model can predict website users′ behavior accurately.
Keywords: behavior prediction; logistic regression; user behavior; data set classification; machine learning; retention analysis
隨著經(jīng)濟(jì)和社會(huì)的快速發(fā)展,我國(guó)的旅游業(yè)市場(chǎng)異常繁榮,從業(yè)的旅游網(wǎng)站迅速增加,這也導(dǎo)致旅游網(wǎng)站之間的競(jìng)爭(zhēng)日趨激烈。在旅游網(wǎng)站的經(jīng)營(yíng)中,源源不斷的用戶來(lái)源是其存在的前提和基礎(chǔ)。諸多旅游網(wǎng)站每天均有海量的用戶訪問,但在這些訪問行為中,絕大多數(shù)的用戶最終均會(huì)流失。通過提取訪問用戶的消費(fèi)等信息,使用機(jī)器學(xué)習(xí)技術(shù)預(yù)測(cè)用戶的留存情況,旅游網(wǎng)站便可充分了解用戶的流失原因和消費(fèi)喜好,從而提高用戶的體驗(yàn)與網(wǎng)站的服務(wù)水平。所以,如何使用機(jī)器學(xué)習(xí)技術(shù)留存和轉(zhuǎn)化大量的用戶,成為了旅游網(wǎng)站所面臨的重大問題。
目前,眾多研究者對(duì)網(wǎng)站的用戶流失問題進(jìn)行了深入的研究[1?4],這一問題的研究也有較多可以參考的方法[5?8]。為了解決旅游網(wǎng)站的用戶流失問題,基于logistic回歸算法[9?10],本文建立用戶行為預(yù)測(cè)模型,該模型可以準(zhǔn)確地預(yù)測(cè)用戶的行為。通過軟件的計(jì)算結(jié)果可知,使用logistic回歸算法的預(yù)測(cè)模型具有更加準(zhǔn)確的預(yù)測(cè)效果。
機(jī)器學(xué)習(xí)是使用計(jì)算機(jī)模擬人類學(xué)習(xí)行為,從而使機(jī)器也具有認(rèn)知和理解能力的一種技術(shù)。其基本原理如圖1所示。
在一般的系統(tǒng)流程中,系統(tǒng)接收輸入的信息之后,輸出被處理過的信息。而使用機(jī)器學(xué)習(xí)的系統(tǒng),是在常規(guī)的系統(tǒng)之外,添加一個(gè)可以影響系統(tǒng)處理設(shè)備的學(xué)習(xí)機(jī)。該設(shè)備可以使用一定數(shù)量的訓(xùn)練數(shù)據(jù)估計(jì)系統(tǒng)輸入和輸出之間的關(guān)系,當(dāng)接收到正常的輸入數(shù)據(jù)之后,學(xué)習(xí)機(jī)預(yù)測(cè)得到未知的輸出結(jié)果。
一般而言,機(jī)器學(xué)習(xí)可分為監(jiān)督學(xué)習(xí)和自主學(xué)習(xí)。其中,監(jiān)督學(xué)習(xí)是使用具有目標(biāo)變量的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,可以比較精確地預(yù)測(cè)訓(xùn)練以外數(shù)據(jù)的目標(biāo)變量。監(jiān)督學(xué)習(xí)技術(shù)主要有l(wèi)ogistic回歸、隨機(jī)森林算法和神經(jīng)網(wǎng)絡(luò)算法等。自主學(xué)習(xí)是使用沒有目標(biāo)變量的訓(xùn)練數(shù)據(jù)訓(xùn)練,尋找數(shù)據(jù)的內(nèi)部規(guī)律,即目標(biāo)變量是模糊的,常見的算法有k?means聚類分析、系統(tǒng)聚類法等。因只涉及到logistic回歸,所以本文不再介紹自主學(xué)習(xí)算法。
logistic回歸是常被用于因變量分類的統(tǒng)計(jì)分析算法,logistic回歸的因變量既可以是二分類,也可以是多分類,這里簡(jiǎn)要介紹多分類的logistic回歸模型。
2.1 ?logistic函數(shù)
1838年,統(tǒng)計(jì)學(xué)家P.F.Verhuist在研究人口數(shù)量的統(tǒng)計(jì)中,首次提出logistic函數(shù)。令[p]表示事件[y=1]的概率,則logistic變換的表達(dá)式為:
[z=logitp=lnp1-p]
使用這一公式便可得到logistic函數(shù)(也被稱為Sigmoid函數(shù))的公式,即:
[p=11+e-z]
式中,[p∈0,1]。
2.2 ?邏輯回歸模型
首先,已知:
[lnp1-p=β0+β1x1+…+βpxp+ε]
根據(jù)上式可以建立線性回歸模型,而變量[x1,x2,…,xp]可以取任意值,令[gx=β0+β1x1+…+βpxp],可知:
[py=1=11+e-z]
[py=0=1-11+e-z=11+ez]
在本文中,以某旅游網(wǎng)站為研究對(duì)象,使用logistic回歸和隨機(jī)森林算法對(duì)該旅游網(wǎng)站的用戶購(gòu)買行為進(jìn)行分析及預(yù)測(cè),從而挖掘用戶的流失原因。最終完善網(wǎng)站的產(chǎn)品設(shè)計(jì),提升用戶的體驗(yàn)和忠誠(chéng)度。
本文使用該網(wǎng)站2016年7月15日—7月21日的用戶訪問數(shù)據(jù),這些數(shù)據(jù)包含用戶信息、酒店和瀏覽信息。其中,用戶的總數(shù)為348 596,指標(biāo)總數(shù)為35個(gè)。用戶行為預(yù)測(cè)流程如圖2所示。
一般而言,logistic回歸主要被用于目標(biāo)變量和多個(gè)自變量之間關(guān)系的研究?;趕pss 17.0的軟件平臺(tái),本文使用logistic回歸模型對(duì)網(wǎng)站用戶的行為進(jìn)行預(yù)測(cè)。
3.1 ?建模流程
首先,為了使用logistic回歸模型進(jìn)行預(yù)測(cè),文中需要將訓(xùn)練數(shù)據(jù)導(dǎo)入spss 17.0軟件中,依次點(diǎn)擊“分析”“回歸”和“二元logistic”,選擇因變量“l(fā)abel”,確定“hotel_comment_nums”與“id”等其他協(xié)變量,點(diǎn)擊“標(biāo)準(zhǔn)化”“偏差”和“杠桿值”等選項(xiàng),然后點(diǎn)擊“繼續(xù)”。在選項(xiàng)中,需要選擇“分類圖”“ Hosmer?Lemeshow擬合度”“exp(B)”三項(xiàng)內(nèi)容;輸出選項(xiàng)中,選擇“在最后一個(gè)步驟中”,步進(jìn)概率選項(xiàng)中,選擇默認(rèn)設(shè)置即可。
設(shè)置完成所有的參數(shù)之后,點(diǎn)擊軟件的繼續(xù)按鈕,即可得到相應(yīng)的結(jié)果。
3.2 ?模型結(jié)果
在軟件運(yùn)行之后,得到一系列的運(yùn)行結(jié)果,包括分類表、顯著性檢驗(yàn)、模型匯總、預(yù)測(cè)方程和評(píng)估分析等。
1) 已知該模型在設(shè)置參數(shù)初始值之后,進(jìn)行多次迭代,最終達(dá)到收斂狀態(tài)。此時(shí)的參數(shù)值就是模型的參數(shù)。在運(yùn)行完成之后,已知logistic回歸模型的準(zhǔn)確率為67.8%,其覆蓋率是32.89%,其F值是43.76%。具體的分類如圖3所示。
2) 本文對(duì)logistic回歸模型的系數(shù)進(jìn)行了顯著性檢驗(yàn)。經(jīng)過軟件的運(yùn)行可知,若顯著性水平[α=0.05],自由度[df=21],計(jì)算可知卡方統(tǒng)計(jì)量[χ2=4 714.658],其臨界值為[χ2臨=32.589 2],即[χ2]遠(yuǎn)大于[χ2臨]且[p=0?α=0.05],所以logistic回歸模型通過顯著性檢驗(yàn)。
3) 本文對(duì)該模型進(jìn)行了匯總,得到3個(gè)統(tǒng)計(jì)值,其統(tǒng)計(jì)結(jié)果如表1所示。[ 已觀測(cè) 已預(yù)測(cè) label 百分比 0 1 步驟1 Label 0 24 298 3 536 87.6 1 10 879 5 198 32.8 總計(jì)百分比 67.8 ]
由表1可知,該模型的對(duì)數(shù)似然值52 829.756,遠(yuǎn)大于[χ2臨=32.589 2],這表明該模型的最大對(duì)數(shù)似然值通過了統(tǒng)計(jì)檢驗(yàn)。
4) 由[p<0.05]可知,變量對(duì)整體模型具有顯著的影響,所以可得到模型的預(yù)測(cè)方程,其具體形式如下:
[py=1=1exp(0.644+0.566*visit_to_buy+1.402*nums_visit-0.09*]
[land_time+0.066*perfer_star-0.238*nums_order+0.054*]
[fir_order_bu-0.176*weight_cust_value-0.074*hotel_uv-]
[0.125*hotel_cr+0.075*low_price-0.086*weight_perfer_busi-]
[0.051*cr_prefer-0.385*cust_cr-0.103*weight_comment_num]
[0.075*last_order_diff-0.064*cust_visit_pages)]
5) 基于測(cè)試數(shù)據(jù),本文還對(duì)該模型的預(yù)測(cè)結(jié)果[py=1]進(jìn)行了計(jì)算,獲取了用戶留存的概率。表2列出了部分計(jì)算結(jié)果,需要說(shuō)明的是,若概率大于0.5,則認(rèn)為該用戶的留存值是1,否則是0。
經(jīng)過軟件的統(tǒng)計(jì),本文一共對(duì)14 630組測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè),模型預(yù)測(cè)的準(zhǔn)確率是67.59%。其中,正樣本的預(yù)測(cè)準(zhǔn)確率是32.99%,負(fù)樣本的預(yù)測(cè)準(zhǔn)確率是87.58%。綜上所述,使用logistic回歸算法的機(jī)器學(xué)習(xí)技術(shù),可以較為準(zhǔn)確地預(yù)測(cè)旅游網(wǎng)站用戶的行為。
基于旅游網(wǎng)站中的大量用戶數(shù)據(jù),本文使用logistic回歸的機(jī)器學(xué)習(xí)技術(shù),建立能夠預(yù)測(cè)網(wǎng)站用戶留存的計(jì)算模型,并得到了相對(duì)準(zhǔn)確的預(yù)測(cè)方程。經(jīng)過軟件的計(jì)算可知,該模型的預(yù)測(cè)準(zhǔn)確率達(dá)到了67%。
參考文獻(xiàn)
[1] 孟杰.基于用戶行為的異常檢測(cè)系統(tǒng)研究與實(shí)現(xiàn)[D].南京:東南大學(xué),2009.
MENG Jie. Research and implementation of anomaly detection system based on user behavior [D]. Nanjing: Southeast University, 2009.
[2] 陸悠,李偉,羅軍舟,等.一種基于選擇性協(xié)同學(xué)習(xí)的網(wǎng)絡(luò)用戶異常行為檢測(cè)方法[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):28?40.
LU You, LI Wei, LUO Junzhou, et al. A network users′ abnormal behavior detection approach based on selective collaborative learning [J]. Chinese journal of computers, 2014, 37(1): 28?40.
[3] 張闊.基于機(jī)器學(xué)習(xí)的電信網(wǎng)絡(luò)用戶行為分析研究[D].北京:北京郵電大學(xué),2014.
ZHANG Kuo. Analysis of user behavior in telecommunication networks based on machine learning [D]. Beijing: Beijing University of Posts and Telecommunications, 2014.
[4] 陳勝,朱國(guó)勝,祁小云,等.基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)異常流量檢測(cè)研究[J].信息通信,2017(12):39?42.
CHEN Sheng, ZHU Guosheng, QI Xiaoyun, et al. Research on abnormal network traffic detection based on machine learning [J]. Information & communications, 2017(12): 39?42.
[5] 畢猛,王安迪,徐劍,等.基于離散馬爾科夫鏈的數(shù)據(jù)庫(kù)用戶異常行為檢測(cè)[J].沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào),2018,40(1):70?76.
BI Meng, WANG Andi, XU Jian, et al. Anomaly behavior detection of database user based on discrete?time Markov chain [J]. Journal of Shenyang University of Technology, 2018, 40(1): 70?76.
[6] 許智,李紅嬌,陳晶晶,等.基于機(jī)器學(xué)習(xí)的用戶竊電行為預(yù)測(cè)[J].上海電力學(xué)院學(xué)報(bào), 2017,33(4):389?393.
XU Zhi, LI Hongjiao, CHEN Jingjing, et al. Prediction of user stealing behavior based on machine learning [J]. Journal of Shanghai University of Electric Power, 2017, 33(4): 389?393.
[7] 劉健嵐.認(rèn)知無(wú)線電中基于機(jī)器學(xué)習(xí)的頻譜接入研究[D].北京:北京郵電大學(xué),2017.
LIU Jianlan. Research on spectrum access based on machine learning in cognitive radio [D]. Beijing: Beijing University of Posts and Telecommunications, 2017.
[8] 劉鵬飛.客戶網(wǎng)購(gòu)行為分析及預(yù)測(cè)系統(tǒng)研究[D].唐山:華北理工大學(xué),2016.
LIU Pengfei. The research of customer′s online shopping behavior analysis and prediction system [D]. Tangshan: North China University of Science and Technology, 2016.
[9] 張曉艷.基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)異常流量檢測(cè)方法[J].現(xiàn)代電子技術(shù),2015,38(23):76?79.
ZHANG Xiaoyan. Research on network anomaly traffic detection method based on machine learning [J]. Modern electronics technique, 2015, 38(23): 76?79.
[10] 王萍.基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)異常行為分析監(jiān)測(cè)系統(tǒng)[J].電子技術(shù)與軟件工程,2017(24):172?173.
WANG Ping. Network anomaly behavior analysis and monitoring system based on big data technology [J]. Electronic technology & software engineering, 2017(24): 172?173.