吳毅強(qiáng)
(廣州華立科技職業(yè)學(xué)院管理學(xué)院,廣東 廣州 511325)
電子商務(wù)的普及給人們的生活帶來了極大便利,通過研究電子商務(wù)用戶行為特征可以為用戶提供高質(zhì)量服務(wù),大幅提升電子商務(wù)交易成功率,因此分析電子商務(wù)用戶行為數(shù)據(jù)特征是當(dāng)前電子商務(wù)用戶維護(hù)領(lǐng)域中的關(guān)鍵課題[1-3]。
針對龐大的電子商務(wù)用戶群,分析用戶行為不易,在電子商務(wù)用戶行為數(shù)據(jù)中利用高效數(shù)據(jù)分析方法準(zhǔn)確分析用戶行為特征十分必要[4-6]。作為數(shù)據(jù)挖掘的一種有效方法,聚類分析具有無監(jiān)督學(xué)習(xí)特性,可在大量、無規(guī)律、含噪的電子商務(wù)用戶行為數(shù)據(jù)中發(fā)現(xiàn)隱性的行為模式,呈現(xiàn)電子商務(wù)用戶行為數(shù)據(jù)隱藏的特征,為人們的決策判斷提供理論支持,但是傳統(tǒng)的K-means聚類算法具有計(jì)算量大、獲取最優(yōu)解時(shí)間長等缺陷[7-9]。
為了提高電子商務(wù)用戶行為聚類分析效果,本文提出了基于組合優(yōu)化的電子商務(wù)用戶行為聚類分析方法。將遺傳算法和K-means進(jìn)行融合,對電子商務(wù)用戶行為數(shù)據(jù)集進(jìn)行聚類分析,基于組合優(yōu)化理論,實(shí)現(xiàn)電子商務(wù)用戶行為聚類分析,通過實(shí)驗(yàn)驗(yàn)證了本文方法可獲取高精度聚類結(jié)果。
在當(dāng)前電子商務(wù)用戶行為聚類分析過程中,為了提高聚類分析效果,通常將遺傳算法和K-means聚類算法結(jié)合起來,以實(shí)現(xiàn)電子商務(wù)用戶行為聚類。
采用遺傳算法和K-means聚類算法聚類各電子商務(wù)用戶行為數(shù)據(jù)集,利用遺傳算子交互個(gè)體信息,逐步逼近最優(yōu)解,可防止出現(xiàn)陷入局部最優(yōu)解問題,具體過程為:
1)編碼、形成初始群解。b,p和g分別表示電子商務(wù)用戶行為樣本數(shù)量、樣本位數(shù)和類別數(shù)量。設(shè)染色體結(jié)構(gòu)為A=(a1,a2,…,ai),其中ai代表第i位的等位基因。在ai與g值一致的條件下,ai歸屬于第g個(gè)類別。隨機(jī)生成初始群體p(0),初始化p(0)時(shí)有一定概率出現(xiàn)某個(gè)體內(nèi)存在空類的問題,此個(gè)體為非法解,出現(xiàn)該問題時(shí)的處理方式為:Vi表示某個(gè)空聚類,在與Vi距離最近的非空聚類內(nèi),選取一個(gè)與原始聚類和中心最遠(yuǎn)的對象移入Vi內(nèi),不斷循環(huán)該過程,直到電子商務(wù)用戶行為數(shù)據(jù)樣本集中不存在空聚類為止。
2)確定適應(yīng)度函數(shù)。以最小化誤差平方值為目標(biāo),個(gè)體誤差平方值越小,對下一代產(chǎn)生的利益越大,即遺傳率越高,適應(yīng)度函數(shù)值越大。個(gè)體A的適應(yīng)度函數(shù)f(A)為:
(1)
式中:H為(1,…,Vi)類內(nèi)平方誤差和。
(2)
式中:s為適應(yīng)度誤差。
3)遺傳操作。采用旋轉(zhuǎn)輪盤法進(jìn)行個(gè)體隨機(jī)選擇,具體思想為:逐一確定群體中不同個(gè)體的適應(yīng)度函數(shù)值,并將各適應(yīng)度函數(shù)值相加得到Fb,F(xiàn)b表示最后一個(gè)群體的適應(yīng)度函數(shù)相加值;E表示0~Fb之間生成均勻分布的任意數(shù),將各Fi值同E值進(jìn)行對比,獲取首個(gè)出現(xiàn)Fi≥E的個(gè)體i;循環(huán)生成E與獲取i,直到獲取個(gè)體數(shù)量達(dá)到所需要求為止[10]。
變異操作依照不同個(gè)體與各聚類中心的距離優(yōu)化個(gè)體相應(yīng)位置的值。樣本與某聚類中心距離越小,則個(gè)體內(nèi)與該樣本對應(yīng)的位變異聚類編號的概率大。樣本與聚類中心間的歐氏距離為s(xi,vj),變異方式為:
(3)
式中:Pj為變異函數(shù);V為1~g之間的整數(shù);smax(xi)為s(xi,vj)內(nèi)的最大值。
遺傳算法和K-means聚類算法具有全局搜索能力,但計(jì)算量大,因此將該K-means聚類算法與復(fù)合形法的K-means優(yōu)化聚類組合,以提升電子商務(wù)用戶行為聚類分析效率。
1)針對復(fù)合形法中不同參數(shù)反射系數(shù)、精度標(biāo)準(zhǔn)以及復(fù)合形初始頂點(diǎn)等數(shù)據(jù)確定聚類中心數(shù)量。
2)將簇類數(shù)量設(shè)置為g,并于最優(yōu)解群體內(nèi)確定不同聚類中心的歐氏距離:
(4)
3)依照最近鄰理論判斷各組數(shù)據(jù)的所屬類別,具體為:
(5)
式中,Cl為以頂點(diǎn)l為中心的簇集;sil為簇集內(nèi)第i個(gè)數(shù)據(jù)距離中心點(diǎn)的歐氏距離。
4)用f(Yl)表示復(fù)合形法中不同頂點(diǎn)Yl的目標(biāo)函數(shù)值:
(6)
式中:L為頂點(diǎn)數(shù)量。
5)用f(YR)表示全部頂點(diǎn)內(nèi)確定最差點(diǎn)YR的目標(biāo)函數(shù)值,確定中心點(diǎn)Y與反射點(diǎn)YN:
f(YR)=maxf(Yl)
(7)
(8)
YN=Y+λ(Y-YR)
(9)
若f(YR)>f(YN),則表示反射點(diǎn)與最差點(diǎn)YR相比逐漸轉(zhuǎn)好,用反射點(diǎn)取代最差點(diǎn)組建新復(fù)合形,再實(shí)施3)過程;若f(YR)≤f(YN),則表示反射點(diǎn)與最差點(diǎn)YR相比未出現(xiàn)轉(zhuǎn)好趨勢,此時(shí)可降低反射點(diǎn)同中心點(diǎn)距離,直至f(YR)>f(YN)。
6)最終收斂狀態(tài)下復(fù)合形不同頂點(diǎn)的目標(biāo)函數(shù)值與幾何方位差異較小,描述如下:
(10)
(11)
當(dāng)式(11)成立時(shí),迭代結(jié)束;當(dāng)式(11)不成立時(shí),返回3)過程。
組合優(yōu)化理論的電子商務(wù)用戶行為聚類過程如圖1所示。
圖1 組合優(yōu)化理論的電子商務(wù)用戶行為聚類過程
利用網(wǎng)絡(luò)爬蟲技術(shù)獲取研究對象用戶行為數(shù)據(jù),從中選取2019年數(shù)據(jù),按月份分為12個(gè)電子商務(wù)用戶行為數(shù)據(jù)集,各數(shù)據(jù)集樣本數(shù)見表1,該樣本具有范圍廣、數(shù)量大以及時(shí)間足夠長等客觀性特點(diǎn)。針對這12個(gè)數(shù)據(jù)集中的電子商務(wù)用戶類別實(shí)施聚類分析。根據(jù)用戶的行為將用戶劃分為搜索型用戶、普通型用戶和促銷型用戶等類別。
表1 各數(shù)據(jù)集樣本數(shù)
采用本文方法對12個(gè)數(shù)據(jù)集中1月用戶行為數(shù)據(jù)集進(jìn)行聚類分析,聚類數(shù)量為3,聚類結(jié)果見表2。
表2 電子商務(wù)用戶行為的聚類結(jié)果
分析表2中的用戶行為聚類結(jié)果可知:
1) 大部分用戶是經(jīng)由首頁和商品介紹頁面購買商品,因此其排除在用戶行為類別特征之外。
2) 類別1用戶群體中,商品分類頁面、商品特賣頁面以及其他功能頁面占據(jù)比例較低,而商品搜索頁面與購物車頁面的占據(jù)比例較高,因此類別1可歸類成通過搜索頁面之間進(jìn)行商品查詢與購買的搜索型用戶。
3) 對于類別2用戶群體中,用戶行為中商品分類頁面占比顯著高于其他頁面,同時(shí)商品搜索頁面和購物車頁面占比基本一樣,這種情況表示用戶在購買商品時(shí)是通過平臺首頁選取商品類型頁面,在該頁面中選取商品、查看商品介紹頁面,然后將商品加入購物車進(jìn)行購買,購物車中商品被選定的順序與銷售設(shè)定順序一致,并且在3種不同類別中,此類別占比高于50%,可將此類別用戶定義為普通型用戶。
4) 類別3用戶群體中,用戶行為占比最高的是商品特賣頁面,而其他頁面占比均較低,這表示該類別用戶群體對于特賣頁面的關(guān)注度較高,可將這一類別用戶定義為促銷型用戶。
分別采用本文方法、信息熵的聚類分析方法和基于遺傳算法的聚類分析方法對所選12個(gè)數(shù)據(jù)集進(jìn)行聚類分析,聚類精度如圖2所示。從圖2可知,本文方法聚類精度平均值高于其他兩種方法。
圖2 電子商務(wù)用戶行為的聚類精度對比
根據(jù)圖2可知,本文方法的聚類精度最高,基于遺傳算法的聚類分析方法精度高于信息熵的聚類分析方法,因此在聚類效率對比分析過程中,僅對比本文方法與基于遺傳算法的聚類效率,結(jié)果如圖3所示。分析圖3可知,本文方法迭代過程整體時(shí)間顯著減少,具有顯著的效率優(yōu)勢。
圖3 聚類效率對比
采用2019年的經(jīng)濟(jì)效益提升比例驗(yàn)證經(jīng)濟(jì)性,結(jié)果如圖4所示。分析圖4可知,采用不同方法聚類分析對象用戶行為后,企業(yè)經(jīng)濟(jì)效益均呈現(xiàn)逐漸上升趨勢,本文方法提升幅度最為顯著,而且隨著使用時(shí)間的延長,電子商務(wù)平臺經(jīng)濟(jì)效益更顯著,有更大的應(yīng)用價(jià)值。
圖4 不同方法的經(jīng)濟(jì)效益提升比例
針對當(dāng)前電子商務(wù)用戶行為聚類分析方法存在的不足,本文提出了組合優(yōu)化的電子商務(wù)用戶行為聚類分析方法。實(shí)驗(yàn)結(jié)果顯示,本文方法既可獲取高精度聚類結(jié)果,又能夠通過復(fù)合形法縮短迭代時(shí)間提升聚類效率,使電子商務(wù)平臺經(jīng)濟(jì)效益得到顯著提升。