摘要:兩步聚類模型是一種新型的分層聚類算法,目前一般應(yīng)用在數(shù)據(jù)挖掘與多元統(tǒng)計的交叉領(lǐng)域——模式分類中,其算法適合任何尺度的變量。以??市卷煙零售可戶分類為例,運用兩步聚類模型進(jìn)行客戶分類模擬研究,模擬結(jié)果顯示,基于兩步聚類算法的卷煙零售客戶分類,具有較高的科學(xué)性和精準(zhǔn)性。
關(guān)鍵詞:兩步聚類;客戶分類;類間差異
中圖分類號:F22 文獻(xiàn)標(biāo)志碼:A 文章編號:1673-291X(2012)34-0210-05
一、兩步聚類
聚類(Cluster)就是按照一定的要求和規(guī)則對事物進(jìn)行區(qū)分和分類的過程,聚類分析(Cluster Analysis)則是指用數(shù)學(xué)方法研究和處理給定對象的分類,是研究“物以類聚”問題的一種有效方法。聚類分析通常用于解決多因素、多指標(biāo)的分類問題,其基本思想是根據(jù)對象間的相關(guān)程度進(jìn)行類別的聚合,其所用的方法大致可分為兩類:系統(tǒng)聚類法(Hierarchical Cluster)和非系統(tǒng)聚類法(Non-hierarchical Cluster)。其中,系統(tǒng)聚類的原理是先將所有N個變量(即觀測值)看成不同的N類,然后將性質(zhì)最接近(距離最近)的兩類合并為一類;再從這N-1類中找到最接近的兩類加以合并,依次類推,直到所有的變量被合為一類。顯然,在系統(tǒng)聚類法中,一旦變量被劃定在了一個類別中,以后它的分類結(jié)果就不會再進(jìn)行更改,這是它和非系統(tǒng)聚類法的顯著區(qū)別。
兩步聚類模型是一種新型的分層聚類算法(Herarchical Algorithms),目前一般應(yīng)用在數(shù)據(jù)挖掘與多元統(tǒng)計的交叉領(lǐng)域——模式分類中,其算法適合任何尺度的變量。兩步聚類分析主要是利用距離測度假設(shè)聚類模型的變量均為自變量,即假設(shè)連續(xù)型變量為正態(tài)分布,分類變量為多項式。使用經(jīng)驗內(nèi)部檢驗方法穩(wěn)定自變量假設(shè)及分布假設(shè)的干擾。兩步聚類分析可以產(chǎn)生不同的聚類判別信息、最終聚類的聚類頻數(shù)和描述性統(tǒng)計量,而且可以產(chǎn)生聚類頻數(shù)的條形圖和變量的重要性圖。兩步聚類分析具有如下特征:(1)可以處理分類變量和連續(xù)型變量。通過假設(shè)變量為自變量,綜合處理多項正態(tài)分布的數(shù)據(jù)資料;(2)自動選擇聚類數(shù)。通過比較不同聚類結(jié)果的模型選擇準(zhǔn)則,程序自動確定最優(yōu)聚類數(shù);(3)有效地分析大樣本數(shù)據(jù)。而計算過程則分為兩步:1)構(gòu)建聚類特征樹;2)使用聚類法對聚類特征樹的節(jié)點進(jìn)行分組。
二、客戶分類
1.自動聚類表
自動聚類表可表示聚類分析中選擇聚類數(shù)的過程。一個好的聚類數(shù)不僅由BIC值決定(按照將最小的BIC值所對應(yīng)的聚類數(shù)作為最優(yōu)聚類數(shù)的確定原則),還應(yīng)該要求BIC的變化率和距離測度的變化率盡可能地相對大一些。綜合考慮聚類數(shù)確定原則,由下頁表1可知,聚類數(shù)為4是最優(yōu)的選擇。
2.聚類分布表
(2)聚類3的經(jīng)營結(jié)構(gòu)特征:聚類3的1-9檔占比呈先逐級上升,后大幅下降的態(tài)勢,分別在5、7檔占比處形成兩個漸次上升的峰值,其8、9檔占比則大幅回落至低位;與其余三類相比,聚類3的1-4檔占比名列第二,5、6檔占比位居第一,7-9檔占比則位居第三。
(3)聚類2的經(jīng)營結(jié)構(gòu)特征:聚類2的1-9檔占比態(tài)勢與聚類3相似;與其余三類相比,聚類2的1-5檔占比名列第三,6檔占比位居第二,7檔占比位居第一,8、9檔占比則位居第二。
(4)聚類1的經(jīng)營結(jié)構(gòu)特征:聚類1的1-9檔占比態(tài)勢與聚類2、3相似;與其余三類相比,聚類1的1-6檔占比名列末位,7檔占比位居第二,8、9檔占比則位居第一。
總體上看,聚類4的經(jīng)營結(jié)構(gòu)優(yōu)于聚類3,聚類3的經(jīng)營結(jié)構(gòu)優(yōu)于聚類2,而聚類2的經(jīng)營結(jié)構(gòu)優(yōu)于聚類1,即有:聚類4>聚類3>聚類2>聚類1。
4.聚類變量的類間差異
參考文獻(xiàn):
[1] 李綱,畢振力.國產(chǎn)轎車市場競爭格局的聚類分析[J].統(tǒng)計與決策,2007,(22):125-127.
[2] 杜棟,龐慶華,吳炎.現(xiàn)代綜合評價方法與案例精選:第2版[M].北京:清華大學(xué)出版社,2008.
[3] 黃鐘穎.兩步聚類分析法在汽車市場研究中的應(yīng)用[J].管理觀察,2008,(9):200-201.
[4] 仲秋雁,莫佳卉.基于拓展自組織神經(jīng)網(wǎng)絡(luò)方法的客戶市場細(xì)分[J].中國管理科學(xué),2008,(10):551-555.
[5] 統(tǒng)計預(yù)測與決策:第3版[M].上海:上海財經(jīng)大學(xué)出版社,2008.
[6] 何俊德.項目評估——理論與方法:第2版[M].武漢:華中科技大學(xué)出版社,2009.
[7] 劉樂山,雷丁.論農(nóng)村消費需求潛力向現(xiàn)實消費需求的轉(zhuǎn)化[J].新疆財經(jīng),2010,(2):22-24.
[8] 吳耀宇,黃震方.江蘇省入境旅游客流波動性問題研究[J].經(jīng)濟經(jīng)緯,2010,(2):117-121.
[9] 楊萬平.中國省際環(huán)境污染的動態(tài)綜合評價及影響因素[J].經(jīng)濟管理,2010,(8):159-165
[10] 尹小平,王艷秀.中國汽車銷量影響因素的實證分析[J].統(tǒng)計與決策,2011,(8):98-100.
[責(zé)任編輯 安世友]