王召義,薛晨杰
(安徽商貿(mào)職業(yè)技術(shù)學(xué)院經(jīng)濟貿(mào)易系,安徽蕪湖 241002)
基于K-MEANS聚類的電商網(wǎng)站用戶行為分析
王召義,薛晨杰
(安徽商貿(mào)職業(yè)技術(shù)學(xué)院經(jīng)濟貿(mào)易系,安徽蕪湖 241002)
調(diào)整網(wǎng)站訪問日志數(shù)據(jù),從中提取用戶訪問各類頁面次數(shù),考慮類別化的變量組合方式,采用K-MEANS聚類對類別化的變量進行聚類分析,理解各類別特征,描述用戶行為,分析各類別與輸出結(jié)果的關(guān)聯(lián)性,并為制定網(wǎng)站經(jīng)營策略提供支持和參考依據(jù).實證研究表明,對頁面訪問次數(shù)占比進行K-MEANS聚類分析,可以明確各類型頁面與輸出結(jié)果之間的關(guān)聯(lián)性.
K-MEANS聚類;用戶行為;多元回歸;輸出結(jié)果
用戶行為主要是指用戶在使用網(wǎng)絡(luò)資源時所呈現(xiàn)出來的規(guī)律,可以用某些特征量的統(tǒng)計特征或特征量的關(guān)聯(lián)關(guān)系定量或定性地表示[1].購物網(wǎng)站的用戶行為特征更有其獨特之處,通過數(shù)據(jù)挖掘技術(shù)分析購物網(wǎng)站的用戶行為特征,己成為電子商務(wù)用戶流失領(lǐng)域的一個重要研究課題[2].
現(xiàn)在的中小企業(yè)在互聯(lián)網(wǎng)的沖擊下,有的被時代淘汰,有的則搭乘互聯(lián)網(wǎng)+的浪潮,搖身一變成了有著獨立購物網(wǎng)站的電子商務(wù)企業(yè)[3].獨立購物網(wǎng)站在給企業(yè)帶來機遇的同時,也面臨著一系列的問題——網(wǎng)站如何推廣、流量從哪里來、如何識別用戶訪問行為特征等,這些問題處理不好,會拖累企業(yè)發(fā)展.分析網(wǎng)站訪問日志是解決這些問題的有效手段之一,通過分析網(wǎng)站訪問日志能了解用戶行為及被頻繁訪問的資源.因此,本文從大量網(wǎng)站訪問日志數(shù)據(jù)中提取有關(guān)數(shù)據(jù),使用K-MEANS聚類對這些數(shù)據(jù)進行分析,描述用戶行為特征,從而為制定網(wǎng)站經(jīng)營策略提供支持和參考依據(jù).
基于K-MEANS聚類的網(wǎng)站用戶行為分析,其核心是對網(wǎng)站訪問日志數(shù)據(jù)進行聚類分析,描述各類別的特征,并分析各類別與輸出結(jié)果的關(guān)聯(lián)性.研究模型主要分為三個部分:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)分析和結(jié)論.具體流程如圖1.
1)數(shù)據(jù)準(zhǔn)備
從企業(yè)自建的購物網(wǎng)站訪問日志中提取出用戶訪問各類頁面的次數(shù),并計算出各頁面類型訪問占比即類別化;從用戶交易記錄數(shù)據(jù)庫中,統(tǒng)計出用戶的總消費金額.即得到變量為用戶ID、各頁面類型訪問占比,輸出結(jié)果為消費金額的原始數(shù)據(jù).
2)數(shù)據(jù)分析
數(shù)據(jù)分析分為兩個階段展開工作。第一階段是對類別化后的數(shù)據(jù)進行K-MEANS聚類分析,分析各類別與輸出結(jié)果的關(guān)聯(lián)性;第二階段是用多元回歸統(tǒng)計分析各變量與輸出結(jié)果的關(guān)聯(lián)性,并與第一階段分析結(jié)果進行比較.
3)結(jié) 論
以分析結(jié)果為參考,對網(wǎng)站及經(jīng)營策略進行改善并驗收成果.
圖1 研究模型Fig 1 Research Model
3.1 數(shù)據(jù)準(zhǔn)備
以安徽省蕪湖市A企業(yè)自建購物網(wǎng)站的訪問日志為數(shù)據(jù)源,該網(wǎng)站架構(gòu)如圖2所示.
圖2 A企業(yè)網(wǎng)站首頁部分截圖(網(wǎng)站logo已遮擋)Fig 2 Website Homepage Partial Screenshots from Company A (Website Logo Has Been Shielded)
首頁上是商品分類、特賣頁面的鏈接,訪客可以由此進入商品詳情頁,并在購物車內(nèi)進行訂單結(jié)算,其它還有搜索、幫助功能.“商品詳情”與“商品分類”的頁面完全不同,“特賣頁面”與“幫助”頁面也不一樣.因此,可以先將網(wǎng)站上的各個頁面按照其文件性質(zhì)大致分類,然后請網(wǎng)絡(luò)工程師按照該分類列表統(tǒng)計訪問日志.
3.1.1 原始數(shù)據(jù)
在篩選網(wǎng)站訪問日志時,要將訪問日志與以用戶為單位統(tǒng)計的消費金額相結(jié)合,從中分離出適當(dāng)?shù)淖兞考皵?shù)據(jù).為了能夠?qū)Ⅲw現(xiàn)用戶行為特征的要素以一目了然的形式統(tǒng)計出來,本文把購物網(wǎng)站的頁面簡單分成首頁、商品分類、商品詳情、特賣頁面、搜索功能、購物車、其他(幫助或客服)幾大類.以用戶為單位,統(tǒng)計各類頁面的訪問次數(shù),并將其與輸出結(jié)果(消費金額)相結(jié)合,即成如表1的原始數(shù)據(jù).
表1 原始數(shù)據(jù)Table 1 Raw Data
3.1.2 變量的類別化
表1中除了用戶ID、消費金額外,還包含了用戶對各類型頁面的訪問次數(shù).排除消費金額和用戶ID,可供選擇的變量即為各類型頁面的訪問次數(shù),但不能直接對其進行聚類分析,因為聚類分析會將值相似的數(shù)據(jù)看作“同一個類別”進行分類[4].因此,本文不直接使用訪問次數(shù)進行聚類,而是將焦點放在訪問頁面類型所占的比例上,即各類型頁面的訪問次數(shù)除以合計訪問次數(shù)所得的占比,這是因為訪問頁面類型的占比可以反映用戶的喜好.
需要強調(diào)的是,本文使用各類頁面的訪問占比進行聚類分析,是由多方面因素決定的.在其他情況下,直接使用次數(shù),或者使用完全不相干的其它要素進行聚類分析也是非常有可能的.
3.2 數(shù)據(jù)分析
3.2.1 K-MEANS聚類分析
K-MEANS聚類需要事先判斷簇個數(shù)來作為輸入?yún)⒘?,該參?shù)的設(shè)置往往涉及到聚類效果.輪廓系數(shù)可以用來解決這個問題.輪廓系數(shù)方法結(jié)合了凝聚度和分離度,可以以此來判斷聚類的優(yōu)良性,其值在-1到+1之間,值越大表示聚類效果越好.依據(jù)這個原理,使用SPSS Modeler對類別化后的數(shù)據(jù)進行多次K-MEANS聚類分析,并計算在每個簇數(shù)條件下的輪廓系數(shù),當(dāng)輪廓系數(shù)取最大時,其相應(yīng)的簇個數(shù)是最好的.選擇k= 2,3,4,5,6,對應(yīng)的平均輪廓值為0.4, 0.6, 0.5, 0.5,0.5.因此,選擇聚類數(shù)為3的K-MEANS聚類對數(shù)據(jù)進行分析,聚類結(jié)果如表2所示,其中,聚類-1數(shù)量為2 185、聚類-2數(shù)量為5 754、聚類-3數(shù)量為2 596,共計10 535,無缺失.
表2 聚類結(jié)果Table 2 Clustering Results
3.2.2 理解各類別的特征
對每個聚類的中心點(均值)數(shù)據(jù)進行橫向、縱向比較,會發(fā)現(xiàn)各類別特征即顧客行為.根據(jù)電子商務(wù)網(wǎng)站的特點和用戶的購物習(xí)慣,絕大多數(shù)用戶必須通過商品詳情頁點擊購買,才能進入提交訂單環(huán)節(jié)[5],所以商品詳情頁占比不作為理解類別特征的核心因素.
聚類-1用戶群體幾乎不怎么瀏覽商品分類頁面、特賣頁面和其它頁面,卻頻繁使用搜索功能,經(jīng)常使用購物車,且比其它類別頻繁許多,可以歸類為利用搜索功能直接找到商品并進行購買的“搜索型用戶”.
聚類-2用戶群體瀏覽商品分類頁面較其它類別頻繁,且均衡利用購物車、搜索功能.這種首頁-商品類型-商品詳情頁-購物車的瀏覽順序與網(wǎng)站運營者的預(yù)想完全吻合.另外,在三種類別中,這一類別的人數(shù)最多,所以稱之為“普通型用戶”.
相較于其它類別,聚類-3用戶群體不怎么瀏覽幫助功能、購物車、搜索功能,卻經(jīng)常瀏覽首頁和特賣頁面.這說明,這類用戶經(jīng)?;貋泶_認(rèn)特賣頁面的內(nèi)容,可以稱之為“促銷型用戶”.
至此,我們大致理解了各類別用戶的行為特征.
3.2.3 各類別與輸出結(jié)果的關(guān)聯(lián)性
聚類分析完成,不過是“從多個變量中找出了能夠用于分析的定性的新變量(類別的分類)”[6],分析消費金額與新得到的變量(搜索型用戶、普通型用戶、促銷型用戶)之間的關(guān)聯(lián)性才是重點.
消費金額為定量數(shù)據(jù),變量(類別的分類)為定性數(shù)據(jù).只需要在EXCEL中進行交叉表分析即可計算出各類別的平均消費金額,具體結(jié)果如表3所示.
表3 平均消費金額Table 3 Average Consumption Amount
觀察生成的表3可以發(fā)現(xiàn),“搜索型用戶”的平均消費金額最高,其次是“普通型用戶”,而總是喜歡瀏覽特賣頁面的“促銷型用戶”的平均消費金額最低.以促銷型用戶的消費為基準(zhǔn),計算促銷型用戶與普通型用戶、搜索型用戶的消費差額,通過“t檢驗”的方法求出P值,結(jié)果如表3.因為P < 0.001,可以很肯定地斷定,促銷型用戶與普通型用戶、搜索型用戶之間有著顯著性差異,
3.3 多元回歸統(tǒng)計分析
以消費金額為輸出結(jié)果,用戶為分析單位,各類網(wǎng)頁的訪問次數(shù)為變量(不包括合計訪問次數(shù)),進行多元回歸分析,探究各變量與輸出結(jié)果有何關(guān)聯(lián)性.使用SPSS 22.0對表1的各頁面訪問次數(shù)進行多元回歸分析,分析結(jié)果如表4所示.
表4 回歸系數(shù)Table 4 Regression Coefficient
根據(jù)分析結(jié)果,可以大致看出用戶的行為是如何影響消費金額的.
首先,顯著性P小于0.05的有三項,即“商品詳情頁”、“特賣頁面”、“搜索功能”,其中P值最小的“特賣頁面”的回歸系數(shù)為負(fù)值,表示瀏覽該頁面的用戶消費金額低,對消費金額有消極的影響.
其次,“商品詳情頁”和“搜索功能”的回歸系數(shù)顯示正值.表示“商品詳情”每增加一次訪問,消費金額會增加31.496,“搜索功能”每增加一次訪問,消費金額則會增加236.355,這兩項對消費金額都有積極的影響.
最后,針對“首頁”、“商品分類”、“購物車”這三類,本文分析了10 535名用戶395 304次的訪問日志,卻發(fā)現(xiàn)無法判斷其對銷售額的影響是積極還是消極.
使用K-MEANS聚類和多元回歸分析對數(shù)據(jù)進行分析后,發(fā)現(xiàn)兩種分析結(jié)果十分相似,相互補充.回歸系數(shù)最大的搜索功能與搜索型用戶相對應(yīng);回歸系數(shù)為負(fù)值的特賣頁面與促銷型用戶相對應(yīng);回歸系數(shù)較小的商品詳情與普通型用戶相對應(yīng)。但是K-MEANS聚類分析法能夠讓我們更清晰地清楚用戶的行為特征.
從提升網(wǎng)店經(jīng)營效果的角度出發(fā),提出以下切入點.
1)停止在特賣頁面上花費成本并驗證效果
分析表明,“特賣頁面”的訪問次數(shù)對銷售額有消極的影響.“特賣頁面”中的欄目豐富充實,可能會吸引一些不打算購物而是單純?yōu)榱讼r間頻繁訪問網(wǎng)站的顧客.有些對特賣活動敏感的顧客在比較了多家網(wǎng)站之后,也可能會在其它網(wǎng)站購買商品.
定期制作特賣頁面會耗費一定的人力成本和外包成本,如果對消費金額的增加沒有任何幫助,甚至是負(fù)面影響,或許可以暫時停止制作特賣頁面,以驗證特賣頁面的有無會對消費金額產(chǎn)生何種程度的影響.
2)進一步強化搜索功能,驗證是否能夠吸引更多的購買單價高的用戶群使用
“商品詳情頁”的訪問次數(shù)增加,消費金額也隨之增加是顯而易見的,但是“搜索功能”的訪問對消費金額的提高更為重要.
使用搜索功能的顧客目的性很強,購買方向很明確,這些都有利于提升成交率.因此,可以考慮將搜索功能做得更加醒目、更加便于操作,或許可以促使購買單價高的顧客群更多地利用這一功能.
3)驗證從訪問日志中提取的其它變量是否可以利用
本文分析使用的變量只是各類頁面的訪問次數(shù).從網(wǎng)站訪問日志中,也能夠提取訪問的時間區(qū)間、逗留時間等信息,把這些信息作為變量進行分析,或許可以更進一步挖掘出貢獻高消費金額的用戶的行為特征.比如,添加“逗留時間”變量進行分析,或許可以得到“經(jīng)常使用搜索功能的用戶的消費金額高,也許是目標(biāo)明確的緣故”這樣的分析結(jié)果.
[1] 程光,龔儉,丁偉. 網(wǎng)絡(luò)測量及行為學(xué)研究綜述[J]. 計算機工程與應(yīng)用,2004,40(27):1-8.
[2] 丁青,周留根,朱愛兵,等. 基于K-means聚類算法的校園網(wǎng)用戶行為分析研究[J]. 微計算機應(yīng)用,2010,31(6):77-78.
[3] 徐渥明. 基于聚類算法的餐飲電子商務(wù)平臺精準(zhǔn)營銷方法與策略[D]. 上海:上海交通大學(xué)安泰經(jīng)濟管理學(xué)院,2013:47-48.
[4] 趙凱,蔣朝惠. 基于K-means算法的電信用戶行為特征聚類分析[J]. 貴州大學(xué)學(xué)報(自然科學(xué)版),2015,32(2):87-88.
[5] 葉文. 網(wǎng)絡(luò)消費者購買行為分析[J]. 上海大學(xué)學(xué)報(社會科學(xué)版),2001,8(4):51-55.
[6] 丁青. 基于校園網(wǎng)用戶行為日志的數(shù)據(jù)挖掘研究[D]. 南京:南京農(nóng)業(yè)大學(xué)電氣工程系,2009:16-18.
Abstract:The paper probes into the behavior analysis of E-commerce website users through the adjustment of website access log data and extraction of the number from all kinds of website pages users visit.Considering the classified category of variable combinations, the categorical variables for cluster analysis is applied via the use of variation of K-MEANS cluster in order to comprehend the characteristics of each category, describe the user behaviors, analyze the correlation between each category and output results and provide the support and the reference frame for the website operating strategies. Empirical studies show that the K-MEANS clustering analysis on the proportion of page access times can make clear the correlation between each type of pages and the output results.
Key words:K-MEANS Cluster; User Behavior; Multiple Regression; Output Result
(編輯:王一芳)
Analysis of E-commerce Website User Behavior Based on K-MEANS Cluster
WANG Zhaoyi, XUE Chenjie
(Department of Economics and Trade, Anhui Business Vocational Technical College,Wuhu, China 241002)
TP311.13
A
1674-3563(2017)03-0049-06
10.3875/j.issn.1674-3563.2017.03.008 本文的PDF文件可以從xuebao.wzu.edu.cn獲得
2016-09-30
安徽省高校優(yōu)秀青年人才支持計劃項目(gxyqZD2017110);安徽省高校人文社會科學(xué)研究重點項目(SK2016A0357);安徽省教學(xué)研究項目(2015jyxm751);安徽省高校自然科學(xué)研究重點項目(KJ2016A253)
王召義(1983-),男,安徽宿州人,講師,碩士,研究方向:數(shù)據(jù)挖掘