吳虹穎, 鄭山紅, 蘇 珂
(長(zhǎng)春工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 吉林 長(zhǎng)春 130012)
近年來,精準(zhǔn)營銷理念越來越受到公眾的關(guān)注。如何利用好現(xiàn)有數(shù)據(jù)挖掘出客戶的潛在需求,并以正確的方式將其推送給正確的人,已成為影響銀行發(fā)展的戰(zhàn)略性問題[1]。
現(xiàn)階段,客戶分類問題結(jié)合數(shù)據(jù)挖掘方法尤為普遍,常見的算法如K-means、決策樹以及SOM神經(jīng)網(wǎng)絡(luò)等。鄭焱[2]利用決策樹算法對(duì)商務(wù)網(wǎng)站的客戶分類,但這種算法過程過于冗余;任昌濤[3]、張祿等[4]利用 K-Means 方法建立客戶細(xì)分模型對(duì)客戶進(jìn)行細(xì)分;陳倩舒[5]、包志強(qiáng)等[6]構(gòu)建RFM模型,用層次分析法確定指標(biāo)權(quán)重,再用K-means算法對(duì)客戶進(jìn)行分類。但上述方法中K-means聚類容易陷入局部最優(yōu),需要人為確定K值,K值將直接影響聚類結(jié)果。王珺等[7]建立銀行信貸資源動(dòng)態(tài)分配優(yōu)化模型,對(duì)影響銀行最優(yōu)放貸量的重要參數(shù)進(jìn)行分析;胥學(xué)峰等[8]用PCA將指標(biāo)降維,再用SOM神經(jīng)網(wǎng)絡(luò)對(duì)房地產(chǎn)客戶價(jià)值進(jìn)行細(xì)分;孫銘[9]采用SOM算法對(duì)天然氣生產(chǎn)企業(yè)用氣客戶進(jìn)行實(shí)證分析,但是傳統(tǒng)的SOM神經(jīng)網(wǎng)絡(luò)其學(xué)習(xí)速率難以判斷。
文中在傳統(tǒng)SOM基礎(chǔ)上對(duì)學(xué)習(xí)速度進(jìn)行改進(jìn),動(dòng)態(tài)設(shè)置模型學(xué)習(xí)速度,在保證模型穩(wěn)定性的同時(shí),提高收斂速度。并將改進(jìn)后的SOM與快速K中心點(diǎn)算法進(jìn)行組合,提出一種適用于對(duì)大量銀行客戶進(jìn)行快速聚類的SOM-Kmedoid-CH聚類算法。該算法利用SOM神經(jīng)網(wǎng)絡(luò)的輸出表征輸入模式的特點(diǎn),結(jié)合快速K中心點(diǎn)對(duì)噪聲數(shù)據(jù)敏感性小且時(shí)間復(fù)雜度低的特性,先用SOM對(duì)數(shù)據(jù)量大、特征多的銀行客戶數(shù)據(jù)進(jìn)行訓(xùn)練,再用快速K中心點(diǎn)算法對(duì)SOM輸出的原型向量聚類,同時(shí)用CH指標(biāo)判定最優(yōu)聚類個(gè)數(shù),以克服上述研究的不足,實(shí)現(xiàn)對(duì)大量銀行客戶進(jìn)行快速有效細(xì)分。
客戶細(xì)分的主要思路是找出具有相似行為、價(jià)值特征的客戶群[10]。通過對(duì)銀行客戶進(jìn)行深度細(xì)分,可以了解銀行不同客戶的消費(fèi)特點(diǎn),從而識(shí)別價(jià)值客戶,然后針對(duì)不同類型的客戶提供差異化服務(wù),提高服務(wù)水平,爭(zhēng)取更好的客戶資源。文中在SOM-Kmedoid-CH算法聚類結(jié)果基礎(chǔ)上,基于客戶價(jià)值[11]對(duì)銀行客戶進(jìn)行二次分類,依據(jù)客戶的當(dāng)前價(jià)值和潛在價(jià)值兩個(gè)維度來劃分,每個(gè)維度分為兩個(gè)檔,將銀行客戶分為重點(diǎn)客戶、發(fā)展客戶、普通客戶和不穩(wěn)定客戶4類,客戶價(jià)值矩陣如圖1所示。
自組織神經(jīng)網(wǎng)絡(luò)(Self-Organizing Maps, SOM)是一種無監(jiān)督神經(jīng)網(wǎng)絡(luò),由Kohonen T[12]提出。它同時(shí)具備矢量量化功能和矢量投影功能,能夠?qū)颖具M(jìn)行自動(dòng)聚類。SOM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖1 客戶價(jià)值矩陣
圖2 SOM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
該網(wǎng)絡(luò)結(jié)構(gòu)只有兩層,分別是輸入層和輸出層(競(jìng)爭(zhēng)層)。第一層是輸入層,負(fù)責(zé)數(shù)據(jù)的輸入,第二層是輸出層也是競(jìng)爭(zhēng)層,排列方式為二維節(jié)點(diǎn)矩陣,輸入節(jié)點(diǎn)處于其下方。
SOM由排列在低維空間(稱為輸出層)的m個(gè)神經(jīng)元(結(jié)點(diǎn))組成,每個(gè)神經(jīng)元用一個(gè)d維權(quán)向量Wi=(Wi1,Wi2,…,Wid)表征(d代表輸入數(shù)據(jù)的維度),該權(quán)向量被稱為原型向量。SOM使用連續(xù)迭代的無監(jiān)督學(xué)習(xí)對(duì)輸入數(shù)據(jù)進(jìn)行訓(xùn)練,目的是為了將輸入數(shù)據(jù)映射到與其相似度最高的原型向量表示的結(jié)點(diǎn)中,并保持其拓?fù)浣Y(jié)構(gòu)不變,適用于樣本量大的數(shù)據(jù)。但SOM神經(jīng)網(wǎng)絡(luò)輸出的聚類結(jié)果不確定,學(xué)習(xí)效率受到網(wǎng)絡(luò)連接權(quán)重和學(xué)習(xí)速率等影響,“噪聲”數(shù)據(jù)也會(huì)影響聚類效果[12]。
針對(duì)傳統(tǒng)SOM學(xué)習(xí)效率易受到學(xué)習(xí)速率影響問題,文中將學(xué)習(xí)速率設(shè)置為關(guān)于時(shí)間t的單調(diào)遞減函數(shù),這樣能保證在訓(xùn)練剛開始時(shí)以較快的速度對(duì)模型進(jìn)行學(xué)習(xí),在訓(xùn)練即將結(jié)束時(shí),學(xué)習(xí)速率趨近于0,保證模型訓(xùn)練的穩(wěn)定性。學(xué)習(xí)速率為
(1)
式中:λ(0)----模型初始學(xué)習(xí)速度;
T----學(xué)習(xí)步長(zhǎng)。
該方法能夠在提高SOM學(xué)習(xí)速度的同時(shí),保證訓(xùn)練過程收斂的必然性,以及SOM神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性。
細(xì)分技術(shù)未來的發(fā)展趨勢(shì)是將不同算法的優(yōu)點(diǎn)進(jìn)行結(jié)合[13],所以將改進(jìn)的SOM算法和快速K中心點(diǎn)算法結(jié)合,并用CH指標(biāo)自動(dòng)判定最佳聚類個(gè)數(shù),提出改進(jìn)的SOM-Kmedoid-CH混合聚類算法。快速K中心點(diǎn)算法克服了K-means算法對(duì)孤立點(diǎn)和噪聲數(shù)據(jù)敏感的問題,以及PAM時(shí)間復(fù)雜度高、計(jì)算代價(jià)大的問題。Calinski-Harabaz(CH)指標(biāo)是常用的聚類效度指標(biāo)[14],CH值最大的所對(duì)應(yīng)的聚類個(gè)數(shù)即為最優(yōu)聚類數(shù)目。SOM-Kmedoid-CH混合聚類算法在快速學(xué)習(xí)和穩(wěn)定性的要求中取得了平衡,解決了傳統(tǒng)SOM算法在學(xué)習(xí)速度上的問題,還可以有效解決噪聲數(shù)據(jù)影響聚類效果問題,同時(shí)減少人為確定聚類個(gè)數(shù)的盲目性和主觀性。其次,在快速K中心點(diǎn)以設(shè)定聚類數(shù)目的范圍[Kmin,Kmax]代替直接指定最終聚類數(shù),使細(xì)分結(jié)果有意義。
SOM-Kmedoid-CH聚類算法可以分為兩個(gè)步驟:
1)一次聚類。對(duì)大量原始數(shù)據(jù)使用改進(jìn)的SOM先進(jìn)行“粗聚類”,得到數(shù)據(jù)量遠(yuǎn)小于輸入數(shù)據(jù)量的原型向量;
2)二次聚類。再用快速K中心點(diǎn)對(duì)這些原型向量進(jìn)行正式聚類,同時(shí)使用CH指標(biāo)自動(dòng)判別最優(yōu)聚類數(shù)目,以保證聚類效果。
算法流程如圖3所示。
圖3 SOM-Kmedoid-CH算法流程
采用UCI中不同規(guī)模的數(shù)據(jù)集對(duì)SOM-Kmedoid-CH改進(jìn)聚類算法進(jìn)行性能測(cè)試,測(cè)試結(jié)果見表1。
在不同數(shù)據(jù)量的測(cè)試數(shù)據(jù)集上,改進(jìn)的SOM-Kmedoid-CH算法具有最高正確率,并能準(zhǔn)確判斷最佳個(gè)數(shù);在運(yùn)行時(shí)間上,由于SOM-Kmedoid-CH和SOM-Kmeans-CH需要先構(gòu)建SOM網(wǎng)絡(luò)并訓(xùn)練,所以處理小樣本時(shí)K-means算法效率最高。當(dāng)樣本量增大時(shí),SOM-Kmeans-CH算法運(yùn)行時(shí)間最短,但比SOM-Kmedoid-CH并沒有顯著優(yōu)勢(shì)。綜合考慮運(yùn)行時(shí)間、分類正確率和CH指標(biāo)有效性三方面可知,改進(jìn)的SOM-Kmedoid-CH算法優(yōu)于傳統(tǒng)聚類算法。
表1 UCI數(shù)據(jù)集測(cè)試結(jié)果
文中選取的數(shù)據(jù)是Kaggle官網(wǎng)Standard銀行客戶數(shù)據(jù)中fecha_alta屬性為2014年的119 783個(gè)客戶數(shù)據(jù),包括用戶的個(gè)人基本信息和產(chǎn)品歷史購買記錄等共48個(gè)屬性。文中刪除了對(duì)此次聚類意義不大的屬性,最終選取14個(gè)屬性指標(biāo),見表2。
表2 客戶指標(biāo)
為防止數(shù)據(jù)出現(xiàn)不一致性,文中按照指標(biāo)的實(shí)際意義對(duì)全部客戶的部分指標(biāo)數(shù)據(jù)進(jìn)行量化,使量化值準(zhǔn)確反映指標(biāo)內(nèi)容。具體指標(biāo)量化情況見表3。
表3 指標(biāo)量化
為消除數(shù)據(jù)間由于量綱不同對(duì)聚類結(jié)果產(chǎn)生的影響,對(duì)原始數(shù)據(jù)進(jìn)行MIN-MAX標(biāo)準(zhǔn)化處理。
使用改進(jìn)SOM-Kmedoid-CH混合聚類算法對(duì)經(jīng)過預(yù)處理的銀行客戶數(shù)據(jù)進(jìn)行聚類,第一次聚類時(shí),SOM網(wǎng)絡(luò)結(jié)點(diǎn)數(shù)為150,按照[15×10]矩陣排列,迭代周期T=400;第二次聚類時(shí),將最終簇?cái)?shù)目的區(qū)間范圍指定為[4,15]。最大的CH值對(duì)應(yīng)的最佳聚類個(gè)數(shù)為8。所以通過SOM-Kmedoid-CH聚類方法將銀行客戶分成8類,每類的樣本量以及中心點(diǎn)分布見表4。
第1列為類編號(hào),第2列為每類包含的客戶數(shù)量,其他各列對(duì)應(yīng)各類的中心點(diǎn)在各細(xì)分變量的取值和占比。
通過表4可以看到,數(shù)據(jù)樣本被分成8類。為使銀行能夠更直觀地觀察每類客戶的特征,從而為之提供差異化服務(wù),現(xiàn)將聚類結(jié)果參照巴雷托分析法[15]與客戶價(jià)值矩陣進(jìn)行進(jìn)一步分類,最終將8類客戶群劃分為四大類,并為不同客戶群提供針對(duì)性的經(jīng)營策略。具體分類如下:
Ⅰ類客戶:第5類和第6類為重點(diǎn)客戶,占比為11.5%。其表現(xiàn)為年紀(jì)偏大,活躍度高且收入高,VIP客戶相對(duì)較多,有較多的財(cái)富累積,較高的風(fēng)險(xiǎn)承擔(dān)能力。針對(duì)該類客戶群,銀行應(yīng)該投入主要精力和資源,設(shè)計(jì)并實(shí)行個(gè)性化保持策略,進(jìn)一步鞏固客戶粘性。
表4 各類樣本量及中心點(diǎn)分布
Ⅱ類客戶:第1類為發(fā)展客戶,占比為26.4%。其表現(xiàn)為有一定年紀(jì),活躍度較高,收入較高,有一定的財(cái)富累積,各種理財(cái)產(chǎn)品都有所涉及,有一定的風(fēng)險(xiǎn)承擔(dān)能力。針對(duì)該類客戶群,銀行應(yīng)當(dāng)提供豐富多樣的產(chǎn)品供其選擇,或者為客戶制定相符合的理財(cái)計(jì)劃,進(jìn)而增加銀行收入。
Ⅲ類客戶:第2類、第3類和第4類為普通客戶,占比為29.31%。其表現(xiàn)為有一定年紀(jì),但活躍度和收入較為一般,VIP客戶相對(duì)較少,風(fēng)險(xiǎn)承擔(dān)能力較低。這類客戶對(duì)理財(cái)需求較低,不會(huì)輕易購買理財(cái)產(chǎn)品,針對(duì)該類客戶群體,銀行應(yīng)提供更快捷的服務(wù)渠道,幫助客戶了解銀行不同類型的產(chǎn)品,進(jìn)而提升該類客戶對(duì)銀行產(chǎn)品的認(rèn)可度和喜愛度。
Ⅳ類客戶:第7類和第8類為不穩(wěn)定客戶,占比為32.6%。其表現(xiàn)為比較年輕,活躍度低并且收入低,財(cái)富累積較少,風(fēng)險(xiǎn)承擔(dān)能力低。這類客戶對(duì)理財(cái)類金融服務(wù)可能還不夠了解。針對(duì)這類客戶,銀行可以邀請(qǐng)他們參加一些不同的理財(cái)產(chǎn)品推廣會(huì)和座談會(huì),同時(shí)為其提供差異化的理財(cái)產(chǎn)品。
近年來,加入WTO后,金融改革和外資銀行的引入對(duì)本土銀行產(chǎn)生了巨大影響。如何有效地對(duì)數(shù)量龐大的銀行客戶進(jìn)行準(zhǔn)確劃分,是銀行制定服務(wù)對(duì)策的前提。文中提出改進(jìn)的SOM-Kmedoid-CH聚類算法可以彌補(bǔ)傳統(tǒng)聚類算法影響聚類結(jié)果準(zhǔn)確性的不足。首先利用SOM算法對(duì)數(shù)據(jù)進(jìn)行“粗聚類”得到表征數(shù)據(jù)主要特征的原型向量以壓縮數(shù)據(jù)量,再使用快速K中心點(diǎn)算法對(duì)所獲得的原型向量正式聚類并用CH指標(biāo)識(shí)別最優(yōu)聚類數(shù)目,減少人為指定聚類個(gè)數(shù)的盲目性和主觀性。采用UCI上不同規(guī)模數(shù)據(jù)對(duì)算法性能進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果表明,同傳統(tǒng)聚類算法比,改進(jìn)的SOM-Kmedoid-CH具有最高分類正確率并能正確判定聚類個(gè)數(shù)。將其應(yīng)用于Standard銀行客戶細(xì)分,將客戶分為8類,然后結(jié)合客戶價(jià)值矩陣將客戶群再次劃分,最終將客戶群劃分為四大類,分別代表重點(diǎn)、發(fā)展、普通及不穩(wěn)定客戶群。并從服務(wù)和營銷角度為銀行提供針對(duì)不同客戶群的營銷策略。