潘 俊,王瑞琴
(1.溫州大學(xué) 建模與數(shù)據(jù)挖掘研究所,浙江 溫州 325035;2.溫州大學(xué) 物理與電子信息工程學(xué)院,浙江 溫州 325035)
近年來(lái),隨著企業(yè)信息化水平的提高和數(shù)據(jù)存儲(chǔ)技術(shù)的發(fā)展,不少數(shù)據(jù)密集型企業(yè)積累了海量的客戶(hù)業(yè)務(wù)數(shù)據(jù),如何對(duì)這些數(shù)據(jù)進(jìn)行深層次的分析,從中獲取客戶(hù)的行為特征和消費(fèi)偏好,并有針對(duì)性地開(kāi)展?fàn)I銷(xiāo)與服務(wù),挽留高價(jià)值客戶(hù),成為企業(yè)面臨的重要問(wèn)題[1-2]。客戶(hù)細(xì)分方法[3-6]是實(shí)現(xiàn)針對(duì)性營(yíng)銷(xiāo)的重要手段,它是指企業(yè)根據(jù)客戶(hù)的特征和行為劃分客戶(hù)群體,從而制定相應(yīng)的品牌推廣戰(zhàn)略和營(yíng)銷(xiāo)策略,合理分配服務(wù)資源。作為洞察力營(yíng)銷(xiāo)的核心概念和重要基礎(chǔ),客戶(hù)細(xì)分能幫助企業(yè)構(gòu)建更個(gè)性化并有更高利潤(rùn)的市場(chǎng)營(yíng)銷(xiāo)活動(dòng),受到企業(yè)的廣泛重視[1]。
客戶(hù)對(duì)象的特征劃分是客戶(hù)細(xì)分的基礎(chǔ),根據(jù)細(xì)分維度的不同,一般可分為人口統(tǒng)計(jì)細(xì)分、心理細(xì)分、地理細(xì)分和行為細(xì)分[1]。采用的細(xì)分手段主要包括擬合分析、因素分析和聚類(lèi)分析三類(lèi)。其中,聚類(lèi)分析技術(shù)將未標(biāo)記的客戶(hù)對(duì)象按相似度進(jìn)行分組,使得同組客戶(hù)的相似度最大而不同組客戶(hù)的相似度最小,能有效發(fā)現(xiàn)客戶(hù)對(duì)象的內(nèi)在特性,在實(shí)踐中得到廣 泛 應(yīng) 用[2,4-6]。 文 獻(xiàn) [4]采 用 一 趟 聚 類(lèi) 算法,將電信客戶(hù)劃分為若干具有不同消費(fèi)能力及消費(fèi)傾向的客戶(hù)群體。文獻(xiàn)[5]利用模糊聚類(lèi)算法對(duì)客戶(hù)進(jìn)行劃分后,根據(jù)劃分結(jié)果選擇重要的屬性來(lái)刻畫(huà)客戶(hù)特征。文獻(xiàn)[6]采用分階段聚類(lèi)方法,分別對(duì)客戶(hù)所在城市進(jìn)行聚類(lèi)并通過(guò)對(duì)客戶(hù)進(jìn)行分類(lèi)來(lái)實(shí)現(xiàn)多區(qū)域的客戶(hù)細(xì)分。聚類(lèi)分析方法采用單一聚類(lèi)算法來(lái)識(shí)別客戶(hù)的內(nèi)在特征,而在實(shí)際應(yīng)用中,隨著數(shù)據(jù)來(lái)源的多樣化和數(shù)據(jù)集規(guī)模的增大,單一聚類(lèi)算法往往難以獲得令人滿(mǎn)意的聚類(lèi)效果[7]。
集成學(xué)習(xí)通過(guò)集成多個(gè)不同版本的學(xué)習(xí)器來(lái)解決同一個(gè)回歸或分類(lèi)學(xué)習(xí)任務(wù),被證明可以顯著提高學(xué)習(xí)器的泛化能力[8],是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)。聚類(lèi)集成算法正是在此背景下發(fā)展起來(lái)的,它通過(guò)多個(gè)獨(dú)立的聚類(lèi)器對(duì)數(shù)據(jù)集分別聚類(lèi),并集成得到統(tǒng)一的聚類(lèi)結(jié)果。許多研究表明,聚類(lèi)集成技術(shù)在算法的魯棒性和穩(wěn)定性等方面超過(guò)單一聚類(lèi)算法[7-17],因此一些研究采用聚類(lèi)集成技術(shù)進(jìn)行客戶(hù)細(xì)分[14-15]。文獻(xiàn)[14]以模糊C均值(FCM)算法為基聚類(lèi)器,提出了一種基于模糊聚類(lèi)集成算法的客戶(hù)細(xì)分模型。文獻(xiàn)[15]首 先 用 自 組 織 映 射 (Self-Organizing Map,SOM)和k均值方法對(duì)客戶(hù)數(shù)據(jù)聚類(lèi)并添加類(lèi)別標(biāo)記,然后分別采用支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和決策樹(shù)作為個(gè)體分類(lèi)器,最后集成得到結(jié)果。傳統(tǒng)集成方法通常對(duì)所有的學(xué)習(xí)器都進(jìn)行集成,而文獻(xiàn)[16]提出的“選擇性集成”理論表明,采用中小規(guī)模的選擇性集成可以獲得較好的性能。文獻(xiàn)[17]基于該理論提出了基于bagging的選擇性聚類(lèi)集成并在UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),獲得了較好的結(jié)果。
對(duì)于信息密集型企業(yè),客戶(hù)數(shù)據(jù)往往是海量的高維數(shù)據(jù),為此本文借鑒選擇性集成的思想,提出一種基于選擇性聚類(lèi)集成的客戶(hù)細(xì)分框架。首先根據(jù)數(shù)據(jù)來(lái)源和業(yè)務(wù)需求構(gòu)建統(tǒng)一的客戶(hù)視圖,然后在每個(gè)分視圖下對(duì)客戶(hù)對(duì)象聚類(lèi),并選擇高質(zhì)量的聚類(lèi)進(jìn)行集成。本文的選擇性集成體現(xiàn)在兩方面:在構(gòu)造聚類(lèi)集體階段,選擇評(píng)價(jià)函數(shù)值最大的標(biāo)記向量參與聚類(lèi)集成;在聚類(lèi)集成階段,采用基于權(quán)值的集成策略選擇最具代表性的若干個(gè)簇參與集成。通過(guò)對(duì)某電信企業(yè)客戶(hù)細(xì)分的實(shí)證研究表明,本文框架可以有效識(shí)別出不同價(jià)值和消費(fèi)行為習(xí)慣的客戶(hù)群,從而為企業(yè)開(kāi)展針對(duì)性營(yíng)銷(xiāo),制定戰(zhàn)略決策提供依據(jù)和支持。
k均值聚類(lèi)算法[18]是將數(shù)據(jù)集劃分為k個(gè)簇的經(jīng)典算法,給定簇的個(gè)數(shù)k后,算法隨機(jī)選擇k個(gè)點(diǎn)作為初始簇中心,按距離測(cè)度將每個(gè)樣本分配到與之最近的簇中心,然后迭代更新各簇中心直至所有樣本所屬的新簇中心均與原來(lái)一致。設(shè)待聚類(lèi)數(shù)據(jù)集為X={x1,x2,…,xn},k均值算法的目標(biāo)是最小化簇內(nèi)方差準(zhǔn)則函數(shù):
式中:μj表示簇Cj的中心點(diǎn),(dis(xi,μj))2表示簇內(nèi)各點(diǎn)到簇的中心點(diǎn)的距離平方。k均值算法采用的是貪婪搜索策略,聚類(lèi)結(jié)果對(duì)參數(shù)k的取值較為敏感,本文采用一種評(píng)價(jià)函數(shù)來(lái)確定參數(shù)k,選擇簇內(nèi)緊密,簇間分散的聚類(lèi)結(jié)果參與聚類(lèi)集成。
聚類(lèi)集成問(wèn)題可表述如下:假設(shè)用M個(gè)聚類(lèi)器分別對(duì)樣本集X進(jìn)行聚類(lèi),得到一個(gè)標(biāo)記矩陣Π=[π(1),π(2),…,π(M)],其 中 標(biāo) 記 向 量π(m)=[π1,π2,…,πn]T(m=1,2,…,M)將樣本集X劃分為k個(gè)聚類(lèi),πi∈{1,2,…,k}是對(duì)樣本點(diǎn)xi置的簇標(biāo)記,則聚類(lèi)集成算法采用某種一致性函數(shù)將標(biāo)記矩陣Π合并為最終標(biāo)記向量π。聚類(lèi)集成一般包含兩個(gè)步驟:①生成聚類(lèi)集體,即用各種聚類(lèi)器產(chǎn)生不同的個(gè)體標(biāo)記向量;②個(gè)體集成,即合并個(gè)體標(biāo)記向量得到一個(gè)統(tǒng)一的聚類(lèi)結(jié)果。
集體的多樣性被認(rèn)為是影響集成學(xué)習(xí)的關(guān)鍵[8]。為了獲得高質(zhì)量的聚類(lèi)集體,研究者們提出了多種構(gòu)造方式,大致可分為三類(lèi):①使用同一個(gè)數(shù)據(jù)集,但選擇不同的聚類(lèi)算法[7]或者對(duì)同一個(gè)聚類(lèi)算法選擇不同的初始化參數(shù)[9];②使用同一個(gè)聚類(lèi)算法,但選擇數(shù)據(jù)集的不同采樣子集[17];③選擇數(shù)據(jù)集的不同特征子集[9]或者不同投影子空間進(jìn)行聚類(lèi)[11]等。對(duì)于信息密集型企業(yè),其客戶(hù)數(shù)據(jù)往往來(lái)自多個(gè)業(yè)務(wù)系統(tǒng),數(shù)據(jù)規(guī)模龐大且維數(shù)較高,直接對(duì)全體客戶(hù)對(duì)象進(jìn)行聚類(lèi)勢(shì)必將增加聚類(lèi)算法的開(kāi)銷(xiāo),為此可以考慮第三種方式,即選擇數(shù)據(jù)集的不同特征子集聚類(lèi)。事實(shí)上,客戶(hù)的特征可以通過(guò)不同角度來(lái)刻畫(huà),例如,既可以從人口統(tǒng)計(jì)特征(年齡、性別、興趣、收入等)的角度來(lái)描述,也可以通過(guò)消費(fèi)行為特征(購(gòu)買(mǎi)的服務(wù)、購(gòu)買(mǎi)時(shí)間、支付方式)的角度來(lái)描述。為此,本文根據(jù)數(shù)據(jù)來(lái)源和業(yè)務(wù)意義的不同,將客戶(hù)特征劃分為若干子集(每個(gè)子集表示一種業(yè)務(wù)視圖)再分別聚類(lèi)。假設(shè)客戶(hù)數(shù)據(jù)集為X={x1,x2,…,xn},首先將客戶(hù)特征劃分為M個(gè)子集,每個(gè)子集表示一個(gè)視圖,選擇樣本集X的不同征子集{Sm},m=1,…,M作為訓(xùn)練集,用k均值算法對(duì)每個(gè)訓(xùn)練集進(jìn)行聚類(lèi),得到M個(gè)標(biāo)記向量。
由于k均值算法對(duì)參數(shù)k的取值比較敏感,文獻(xiàn)[19]提出了基于熵值的評(píng)價(jià)函數(shù),認(rèn)為熵值越低的k個(gè)劃分具有較好的性能。本文采用一種新的評(píng)價(jià)函數(shù)來(lái)確定k值,選擇簇內(nèi)緊密,簇間分散的標(biāo)記向量參與聚類(lèi)集成。首先定義兩樣本間的相似度:
式中:‖xi-xj‖2為歐氏距離,σ為縮放因子,用于調(diào)節(jié)敏感度。顯然,兩個(gè)樣本點(diǎn)的相似度為[0,1]的數(shù)值。類(lèi)簇的緊密性可以用屬于該類(lèi)簇的所有樣本之間的平均相似度來(lái)表示,則標(biāo)記向量π(m)的類(lèi)簇緊密性計(jì)算如下:
類(lèi)簇間的分散性可用類(lèi)簇中心之間的相似度表示,則標(biāo)記向量π(m)的類(lèi)簇分散性計(jì)算如下:
合并這兩種度量作為聚類(lèi)效果總體質(zhì)量的評(píng)價(jià)函數(shù),合并時(shí)要權(quán)衡權(quán)值分配,即
由式(5)容易看出,簇內(nèi)緊密、簇間邊界分開(kāi)的標(biāo)記向量將具有最大的評(píng)價(jià)函數(shù)值。本文以評(píng)價(jià)函數(shù)值作為選擇聚類(lèi)集成個(gè)體標(biāo)記向量的依據(jù),即對(duì)于范圍Cmin和Cmax之間的k值,選擇評(píng)價(jià)函數(shù)值最大的標(biāo)記向量參與聚類(lèi)集成?;谔卣鲃澐值膋均值聚類(lèi)集體生成算法描述如下:
算法1 基于特征劃分的k均值聚類(lèi)集體生成算法。
輸入:簇個(gè)數(shù)的范圍Cmin和Cmax,數(shù)據(jù)集X,特征子集數(shù)M;
遍歷該超立方體,選擇權(quán)值高于某個(gè)預(yù)設(shè)閾值的簇作為輸出結(jié)果。顯然,所選擇的客戶(hù)簇是全體客戶(hù)對(duì)象的子集,可以通過(guò)閾值來(lái)調(diào)節(jié)參與聚類(lèi)集成的客戶(hù)數(shù)。在客戶(hù)細(xì)分應(yīng)用中,還可以根據(jù)業(yè)務(wù)意義和客戶(hù)數(shù)占比對(duì)輸出的簇進(jìn)行合并,最終輸出客戶(hù)細(xì)分結(jié)果。
基于上述分析,本文提出一個(gè)基于選擇性聚類(lèi)集成的客戶(hù)細(xì)分框架,框架的整體架構(gòu)如圖1所示,主要分為三部分:
(1)客戶(hù)統(tǒng)一視圖 根據(jù)業(yè)務(wù)系統(tǒng)的建設(shè)情況建立統(tǒng)一的客戶(hù)視圖。對(duì)于已經(jīng)建立數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的企業(yè),可以直接從數(shù)據(jù)倉(cāng)庫(kù)中抽取數(shù)據(jù)建立客戶(hù)視圖。然后將客戶(hù)特征按照業(yè)務(wù)分析需求劃分為若干子集,從不同角度來(lái)描述一個(gè)客戶(hù)。
(2)生成聚類(lèi)集體 采用聚類(lèi)算法分別對(duì)特征劃分后的客戶(hù)數(shù)據(jù)聚類(lèi),產(chǎn)生聚類(lèi)集體。定義某種選擇策略(式(5)),選擇評(píng)價(jià)函數(shù)值大的個(gè)體標(biāo)記向量參與下階段的聚類(lèi)集成。
(3)聚類(lèi)集成 對(duì)于參與集成的個(gè)體標(biāo)記向量,定義某種篩選策略(式(7)),選擇權(quán)值高于某個(gè)預(yù)設(shè)閾值的簇進(jìn)行聚類(lèi)集成,并根據(jù)業(yè)務(wù)意義和客戶(hù)數(shù)占比等因素合并相應(yīng)的簇,輸出客戶(hù)細(xì)分結(jié)果。
電信企業(yè)是典型的信息密集型企業(yè),其各個(gè)IT業(yè)務(wù)系統(tǒng)中積累了海量的客戶(hù)描述數(shù)據(jù)。例如客戶(hù)關(guān)系管理(Customer Relationship Management,CRM)系統(tǒng)記錄了客戶(hù)的人口統(tǒng)計(jì)信息和購(gòu)買(mǎi)的服務(wù)產(chǎn)品等信息;計(jì)費(fèi)系統(tǒng)記錄了客戶(hù)的通話(huà)清單、付費(fèi)欠費(fèi)、賬單等數(shù)據(jù);呼叫中心記錄了客戶(hù)的投訴建議和業(yè)務(wù)咨詢(xún)等信息。以某電信運(yùn)營(yíng)商的目標(biāo)客戶(hù)為例,對(duì)本文所提框架進(jìn)行實(shí)證研究。首先按照客戶(hù)交互分類(lèi)主題,以客戶(hù)ID為主鍵,抽取、轉(zhuǎn)換并裝載相關(guān)數(shù)據(jù)到一個(gè)集中的數(shù)據(jù)庫(kù)中,建立臨時(shí)的客戶(hù)數(shù)據(jù)集市(DataMart)作為進(jìn)行全面客戶(hù)研究和分析的基礎(chǔ)數(shù)據(jù)源。該數(shù)據(jù)集市包含的基準(zhǔn)客戶(hù)為某市去除免費(fèi)和公免后的部分甲種客戶(hù)(非經(jīng)營(yíng)性的私人住宅客戶(hù)),樣本總數(shù)為226 212。
構(gòu)建客戶(hù)模型需要從業(yè)務(wù)的實(shí)際意義角度,將客戶(hù)的各種相關(guān)信息,如人口統(tǒng)計(jì)信息、利益、生活方式、客戶(hù)價(jià)值、客戶(hù)行為等關(guān)聯(lián)起來(lái)。電信企業(yè)傳統(tǒng)上以客戶(hù)的每戶(hù)平均收益值(Average Revenue Per User,ARPU)作為劃分客戶(hù)的標(biāo)準(zhǔn),這種方法可以識(shí)別企業(yè)的高價(jià)值客戶(hù),但是無(wú)法揭示客戶(hù)群體的消費(fèi)習(xí)慣和需求差異。另一方面,企業(yè)擁有的海量客戶(hù)行為和消費(fèi)記錄則客觀記錄了客戶(hù)消費(fèi)行為的趨勢(shì)和變化。對(duì)于客戶(hù)細(xì)分來(lái)說(shuō),從客戶(hù)價(jià)值和客戶(hù)行為這兩個(gè)角度對(duì)客戶(hù)進(jìn)行挖掘,分析不同價(jià)值的客戶(hù)的行為規(guī)律及其特點(diǎn),有助于企業(yè)對(duì)不同的客戶(hù)群采取相應(yīng)的措施以提高客戶(hù)滿(mǎn)意度。為此,本文以客戶(hù)ID為主鍵,從行為和價(jià)值兩個(gè)角度為每個(gè)客戶(hù)生成一條多維度記錄。由于客戶(hù)的特征分散于各個(gè)獨(dú)立系統(tǒng)(CRM、計(jì)費(fèi)、10000號(hào)等),部分特征在業(yè)務(wù)上不具有直接的指導(dǎo)意義,因此從客戶(hù)價(jià)值角度構(gòu)造了月平均費(fèi)用、費(fèi)用占比、費(fèi)用趨勢(shì)、欠費(fèi)周期等衍生特征;從客戶(hù)行為角度構(gòu)造了平均時(shí)長(zhǎng)、時(shí)長(zhǎng)趨勢(shì)、時(shí)長(zhǎng)占比、波動(dòng)等衍生特征。部分衍生特征不參與聚類(lèi),而在聚類(lèi)完成后用于客戶(hù)群的特征刻畫(huà),從實(shí)際工程應(yīng)用看,衍生變量不宜衍生的層次太深,需簡(jiǎn)單且能反映業(yè)務(wù)意義。最后在數(shù)百個(gè)客戶(hù)特征中選擇出85個(gè)關(guān)鍵特征,并劃分為客戶(hù)行為特征集和客戶(hù)價(jià)值特征集兩個(gè)視圖。前者包括各類(lèi)服務(wù)產(chǎn)品(如互聯(lián)網(wǎng)業(yè)務(wù)、移動(dòng)電話(huà)業(yè)務(wù)、本地固話(huà)電話(huà)、卡業(yè)務(wù)等)的月平均時(shí)長(zhǎng),時(shí)長(zhǎng)趨勢(shì)和占比、區(qū)內(nèi)或區(qū)間跳次等行為特征,他網(wǎng)業(yè)務(wù)的使用時(shí)長(zhǎng)占比以及工作時(shí)間、周末、節(jié)假日等時(shí)間分量的行為特征,共55個(gè)關(guān)鍵特征。后者包括各類(lèi)服務(wù)產(chǎn)品的平均費(fèi)用、費(fèi)用趨勢(shì)和占比、優(yōu)惠費(fèi)用占比、他網(wǎng)接入費(fèi)用及趨勢(shì)等費(fèi)用信息,共30個(gè)關(guān)鍵特征。參與聚類(lèi)的客戶(hù)特征和衍生特征都已轉(zhuǎn)化為數(shù)值型,部分非數(shù)值型的特征用于后期的客戶(hù)群特征刻畫(huà)。對(duì)于流量單位、時(shí)長(zhǎng)單位、金額單位在數(shù)據(jù)預(yù)處理時(shí)進(jìn)行統(tǒng)一。
聚類(lèi)算法采用k均值聚類(lèi),分別從行為和價(jià)值兩個(gè)視圖對(duì)客戶(hù)對(duì)象進(jìn)行聚類(lèi)。在k值設(shè)定為區(qū)間[5,15]的條件下,由算法1依據(jù)客戶(hù)的價(jià)值特征共產(chǎn)生9個(gè)聚類(lèi),依據(jù)客戶(hù)的行為特征共產(chǎn)生9個(gè)聚類(lèi),表1和表2分別給出了客戶(hù)聚類(lèi)結(jié)果的基本指標(biāo),其中每用戶(hù)平均收入(Average Revenue Per User,ARPU)的單位為元/人月,每戶(hù)平均通話(huà)時(shí)間(Minutes of Usage,MOU)單位為 min/人月,其中MOU值做了歸零規(guī)范化處理(Z-score)。
表1 客戶(hù)價(jià)值聚類(lèi)結(jié)果
表2 客戶(hù)行為聚類(lèi)結(jié)果
在完成價(jià)值和行為兩個(gè)視圖下的客戶(hù)聚類(lèi)后,構(gòu)造重疊矩陣記錄每一對(duì)簇標(biāo)記所覆蓋的相同對(duì)象的個(gè)數(shù),按照式(6)計(jì)算每個(gè)矩陣元素對(duì)應(yīng)的權(quán)值θ,在閾值設(shè)定為30%的條件下,集成得到16個(gè)簇,客戶(hù)覆蓋率為86%,圖2給出了在客戶(hù)行為和客戶(hù)價(jià)值兩個(gè)視圖下的客戶(hù)細(xì)分熱力圖,對(duì)熱力圖中的每個(gè)點(diǎn),從客戶(hù)數(shù)占比、所屬視圖下的特征來(lái)分析其特點(diǎn),并根據(jù)人口占比和特征一致性對(duì)各個(gè)值得關(guān)注的點(diǎn)進(jìn)行合并,從業(yè)務(wù)角度合并部分簇,共得到7個(gè)簇。
得到客戶(hù)細(xì)分結(jié)果后,再對(duì)各客戶(hù)群進(jìn)行分析和刻畫(huà),以幫助市場(chǎng)營(yíng)銷(xiāo)人員更好地理解客戶(hù)群。首先用統(tǒng)計(jì)數(shù)據(jù)將客戶(hù)群各特征進(jìn)一步量化,再對(duì)客戶(hù)群進(jìn)行命名。通過(guò)分析得到7組用戶(hù):
(1)C1組用戶(hù)的特征是本地費(fèi)用、傳統(tǒng)長(zhǎng)途和IP長(zhǎng)途費(fèi)用均很低,數(shù)據(jù)業(yè)務(wù)使用很少,平均ARPU值為41.3元,平均欠費(fèi)3.15元,離網(wǎng)率較低,屬于中低端客戶(hù),命名為本地通話(huà)組。
(2)C2組用戶(hù)的特征是傳統(tǒng)長(zhǎng)途費(fèi)用較高,他網(wǎng)IP接入很少,欠費(fèi)率較高,平均ARPU值為89.25元,命名為長(zhǎng)途繁忙組。
(3)C3用戶(hù)的特點(diǎn)是區(qū)內(nèi)占比較高,區(qū)間費(fèi)用較低,有一定的長(zhǎng)途需求和他網(wǎng)IP接入,欠費(fèi)較少,平均ARPU值為64.36元,命名為本地穩(wěn)定組。
(4)C4組用戶(hù)的特征是區(qū)間通話(huà)次數(shù)多,區(qū)間費(fèi)用占比最高,區(qū)間費(fèi)用下降最快,欠費(fèi)率較高,平均ARPU值為82.12元,命名為短途差旅組。
(5)C5組用戶(hù)的特征是數(shù)據(jù)業(yè)務(wù)需求大,寬帶時(shí)長(zhǎng)最高,寬帶費(fèi)用占比最高,其他費(fèi)用均較低,欠費(fèi)較少,離網(wǎng)率最小,平均ARPU值很高為118.52元,命名為寬帶上網(wǎng)組。
(6)C6組用戶(hù)的特征是IP國(guó)內(nèi)費(fèi)用很高,傳統(tǒng)國(guó)內(nèi)長(zhǎng)途下降,國(guó)際長(zhǎng)途費(fèi)用較高,欠費(fèi)較高,ARPU值較高101.25元,命名為商務(wù)精英組。
(7)C7組用戶(hù)的典型特征是他網(wǎng)IP接入費(fèi)異常高,上升趨勢(shì)最快,國(guó)內(nèi)長(zhǎng)途也較高,但下降非???,欠費(fèi)較高,新用戶(hù)較少,離網(wǎng)率較高,平均ARPU值較高108.68元,命名為高值易流失組。
通過(guò)客戶(hù)細(xì)分,企業(yè)營(yíng)銷(xiāo)部門(mén)可根據(jù)各客戶(hù)群的需求制定不同的營(yíng)銷(xiāo)活動(dòng)。例如,對(duì)C5組客戶(hù)提供增值服務(wù)和采取新業(yè)務(wù)推介策略,對(duì)C6組客戶(hù)采取業(yè)務(wù)捆綁和交叉銷(xiāo)售策略,對(duì)C7組用戶(hù)采取IP包保、分段折扣等策略,從而有效提高客戶(hù)的忠誠(chéng)度、提升價(jià)值。
為了測(cè)試本文方法的性能,設(shè)計(jì)了對(duì)比實(shí)驗(yàn),將其和常用的客戶(hù)細(xì)分算法k均值聚類(lèi)進(jìn)行比較,最大迭代次數(shù)設(shè)為100,循環(huán)停止閾值設(shè)為1e-5。從總樣本數(shù)據(jù)中分別抽取1 000,1 500,…,5 000個(gè)樣本,每次進(jìn)行10次實(shí)驗(yàn)后輸出平均結(jié)果。聚類(lèi)性能的評(píng)價(jià)標(biāo)準(zhǔn)采用了規(guī)范化互信息(Normalized Mutual Information,NMI)指標(biāo)[20]。NMI值是一個(gè)對(duì)稱(chēng)的可用來(lái)測(cè)量?jī)蓚€(gè)分布之間共享信息的度量。經(jīng)過(guò)規(guī)范化后的互信息的值的范圍在0~1之間,值越大表明聚類(lèi)的效果越好。圖3給出了兩種算法隨抽樣樣本數(shù)的增加的聚類(lèi)精度結(jié)果。
從圖3可以看出,隨著抽樣樣本數(shù)的增加,兩種聚類(lèi)算法的聚類(lèi)精度都有一定的提升,本文方法在聚類(lèi)精度上總體要優(yōu)于k均值算法,這主要是因?yàn)楸疚姆椒ㄊ窃谟脩?hù)行為和用戶(hù)價(jià)值兩個(gè)視圖下分別聚類(lèi)后再進(jìn)行集成,這比k均值算法根據(jù)用戶(hù)全部特征進(jìn)行聚類(lèi)更為精確。此外,k均值算法需要事先確定聚類(lèi)個(gè)數(shù)k,由圖3看出,當(dāng)k的取值為7、抽樣樣本數(shù)為5 000時(shí),取得了最高的NMI值,而本文方法由算法1根據(jù)式(5)在給定的k值區(qū)間中自動(dòng)選擇每個(gè)視圖下最優(yōu)的聚類(lèi)個(gè)數(shù),具有一定的優(yōu)越性。
其中:n為樣本數(shù),k為聚類(lèi)數(shù),ai為被正確分類(lèi)的樣本個(gè)數(shù),值越大,表示聚類(lèi)得到的標(biāo)記向量越好。實(shí)驗(yàn)中將本文方法與基于投票的聚類(lèi)集成算法(voting)、基于模糊聚類(lèi)的集成算法(FCM-ensemble)和基于Bagging的選擇性聚類(lèi)集成算法(sel-bvoting)進(jìn)行對(duì)比,基聚類(lèi)器的聚類(lèi)個(gè)數(shù)即已知的類(lèi)別數(shù)都設(shè)為2。除了基于模糊聚類(lèi)的集成算法采用了FCM聚類(lèi)器,其余算法均采用k均值聚類(lèi)器,迭代次數(shù)和閾值同上,重復(fù)10次取平均聚類(lèi)精度。其中基聚類(lèi)器的訓(xùn)練集都采用bagging重抽樣技術(shù)生成,由于指定了聚類(lèi)個(gè)數(shù),本文方法的算法1中Cmin和Cmax都設(shè)為2,圖4給出了四種算法的聚類(lèi)精度和參與集成的個(gè)體聚類(lèi)器數(shù)的關(guān)系。
由圖4可以看出,本文方法和基于Bagging的選擇性聚類(lèi)集成要優(yōu)于基于投票的聚類(lèi)集成和基于模糊聚類(lèi)的集成,且聚類(lèi)性能隨個(gè)體聚類(lèi)器數(shù)目的增加而有所提升,這說(shuō)明在集成學(xué)習(xí)過(guò)程中,當(dāng)?shù)玫搅艘唤M個(gè)體學(xué)習(xí)器后,按照某種策略選擇其中一部分學(xué)習(xí)器進(jìn)行集成,會(huì)取得更好的學(xué)習(xí)效果,這主要是因?yàn)樘蕹四承┛赡軙?huì)對(duì)學(xué)習(xí)帶來(lái)誤導(dǎo)的個(gè)體學(xué)習(xí)器。同為選擇性的聚類(lèi)集成算法,本文方法與基于Bagging的選擇性聚類(lèi)集成方法性能大致相當(dāng),但是由于本文方法是按照業(yè)務(wù)意義在不同視圖下進(jìn)行聚類(lèi)集成,就客戶(hù)細(xì)分這個(gè)具體應(yīng)用而言,在得到聚類(lèi)結(jié)果后,本文方法能較快速地對(duì)客戶(hù)分群的行為和特征進(jìn)行刻畫(huà),從而采取相應(yīng)對(duì)策來(lái)挽留用戶(hù),因而更適用于業(yè)務(wù)意義明確的聚類(lèi)應(yīng)用。
本文針對(duì)信息密集型企業(yè)的客戶(hù)細(xì)分問(wèn)題,提出了一種基于選擇性聚類(lèi)集成的客戶(hù)細(xì)分方法。本文方法將客戶(hù)特征按照業(yè)務(wù)意義劃分為若干子集后分別聚類(lèi),降低了計(jì)算開(kāi)銷(xiāo)和存儲(chǔ)開(kāi)銷(xiāo)。另外,本文方法利用評(píng)價(jià)函數(shù)來(lái)確定參與集成的聚類(lèi)集體,該過(guò)程只對(duì)k均值聚類(lèi)算法生成的個(gè)體標(biāo)記向量進(jìn)行分析,獨(dú)立于具體的聚類(lèi)算法,因此本文提出的框架具有一定的寬泛性,可以擴(kuò)展到k均值聚類(lèi)以外的其他聚類(lèi)算法。實(shí)證研究表明,本文方法可以有效識(shí)別出具有不同行為特征和消費(fèi)能力的客戶(hù)群,細(xì)分結(jié)果可作為企業(yè)制定營(yíng)銷(xiāo)方案的依據(jù)和參考。進(jìn)一步的工作是將研究細(xì)分結(jié)果進(jìn)行深化應(yīng)用,如結(jié)合分類(lèi)算法建立客戶(hù)的套餐購(gòu)買(mǎi)預(yù)測(cè)模型、客戶(hù)流失預(yù)測(cè)模型等。
[1] LIU Yingzi,WU Hao.A summarization of customer segmentation methods[J].Journal of Industrial Engineering/Engineering Management,2006,20(1):53-57(in Chinese).[劉英姿,吳 昊.客戶(hù)細(xì)分方法研究綜述[J].管理工程學(xué)報(bào),2006,20(1):53-57.]
[2] YU Xiaobing,CAO Jie,GONG Zaiwu.Review on customer churn issue [J].Computer Integrated Manufacturing Systems,2012,18(10):2253-2263(in Chinese).[于小兵,曹 杰,鞏在武.客戶(hù)流失問(wèn)題研究綜述[J].計(jì)算機(jī)集成制造系統(tǒng),2012,18(10):2253-2263.]
[3] ZOU Peng,LI Yijun,HAO Yuanyuan.Customer value segmentation based on cost-sensitive learning [J].Journal of Management Science in China,2009,12(1):48-56(in Chinese).[鄒 鵬,李一軍,郝媛媛.基于代價(jià)敏感性學(xué)習(xí)的客戶(hù)價(jià)值細(xì)分[J].管理科學(xué)學(xué)報(bào),2009,12(1):48-56.]
[4] WANG Lianxi,JIANG Shengyi.Segmentation of telecom customers based on clustering[J].Journal of The Society for Scientific and Technical Information,2011,30(11):1171-1177(in Chinese).[王連喜,蔣盛益.基于聚類(lèi)的電信顧客細(xì)分[J].情報(bào)學(xué)報(bào),2011,30(11):1171-1177.]
[5] ROMDHANE L B,F(xiàn)ADHEL N,AYEB B.An efficient approach for building customer profiles from business data[J].Expert Systems with Applications,2010,37(2):1573-1585.
[6] ZOU Peng,YU Bo,WANG Xianquan.Cost-sensitive learning method with data drifts in customer segmentation[J].Journal of Harbin Institute of Technology,2011,43(1):119-124(in Chinese).[鄒 鵬,于 渤,王憲全.面向數(shù)據(jù)漂移的代價(jià)敏感客戶(hù)細(xì)分[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2011,43(1):119-124.]
[7] STREHL A,GHOSH J.Cluster ensembles:a knowledge reuse framework for combining partitions[J].Journal of Machine Learning Research,2002,3(3):583-617.
[8] DIETTERICH T G.Ensemble learning,chapter in handbook of brain theory and neural networks[M].Cambridge,Mass.,USA:MIT Press,2002.
[9] ZHOU Lin,PING Xijian,XU Sen,et al.Cluster ensemble based on spectral clustering [J].Acta Automatica Sinica,2012,38(8):1335-1342(in Chinese).[周 林,平西建,徐森,等.基于譜聚類(lèi)的聚類(lèi)集成算法[J].自動(dòng)化學(xué)報(bào),2012,38(8):1335-1342.]
[10] FERN X Z,BRODLEY C E.Random projection for high dimensional data clustering:a cluster ensemble approach[C]//Proceedings of the 20th International Conference on Machine Learning.Washington,D.C.,USA:IEEE,2003:186-193.
[11] TOPCHY A,JAIN A K,PUNCH W F.Combining multiple weak clustering[C]//Proceedings of the 3rd IEEE International Conference on Data Mining.Washington,D.C.,USA:IEEE,2003:331-338.
[12] FRED A,ANA L N.Combining multipleclustering using evidence accumulation[J].IEEE Transactions on Pattern A-nalysis and Machine Intelligence,2005,27(6):835-850.
[13] TOPCHY A,JAIN A K,PUNCH W.Clusteringensembles:model of consensus and weak partition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(12):1866-1881.
[14] GAO Wei,HE Changzheng,XIAO Jin.Customer segmentation study based on fuzzy clustering ensemble[J].Journal of Intelligence,2011,30(4):125-128(in Chinese).[高 偉,賀昌政,肖 進(jìn).基于模糊聚類(lèi)集成算法的客戶(hù)細(xì)分研究[J].情報(bào)雜志,2011,30(4):125-128.]
[15] FARVARESH H,SEPEHRI M M.A data mining framework for detecting subscription fraud in telecommunication[J].Engineering Applications of Artificial Intelligence,2011,24(1):182-194.
[16] ZHOU Z H,WU J,TANG W.Ensembling neural networks:many could be better than all[J].Artificial Intelligence,2002,137(12):239-263.
[17] TANG Wei,ZHOU Zhihua.Bagging-based selective clusterer ensemble[J].Journal of Software,2005,16(4):496-502(in Chinese).[唐 偉,周志華.基于Bagging的選擇性聚類(lèi)集成[J].軟件學(xué)報(bào),2005,16(4):496-502.]
[18] MACQUEEN J B.Some methods for classification and analysis of multivariate observations[C]//Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability.Oakland,Cal.,USA:University of California Press,1967:281-297.
[19] BEZDEK J C.Pattern recognition with fuzzy objective function algorithms[M].New York,N.Y.,USA:Plenum Press,1981.
[20] STREHL A,GHOSH J,MOONEY R.Impact of similarity measures on web-page clustering[C]//Proceedings of the AAAI Workshop on Artificial Intelligence for Web Search.Menlo Park,Cal.,USA:AAAI Press/MIT Press,2000:58-64.