四川大學(xué) 霍葉青 何躍
在激烈的市場(chǎng)競(jìng)爭(zhēng)中,只有掌握卷煙消費(fèi)群體的特征,才能立于不敗之地。信息是決策的基礎(chǔ),通過(guò)市場(chǎng)調(diào)查,可以獲得大量的信息。通過(guò)對(duì)調(diào)查得到的卷煙市場(chǎng)中的消費(fèi)群體的數(shù)據(jù)進(jìn)行聚類(lèi)分析,可歸納出有利于提高卷煙的生產(chǎn)和銷(xiāo)售的信息。
聚類(lèi)分析是數(shù)據(jù)挖掘領(lǐng)域中的核心技術(shù)之一,聚類(lèi)分析處理的數(shù)據(jù)對(duì)象的類(lèi)是未知的,把數(shù)據(jù)按照相似性歸納成若干類(lèi)別。它是從給定的數(shù)據(jù)集中搜索數(shù)據(jù)對(duì)象之間所存在的有價(jià)值的數(shù)據(jù)分布模式,實(shí)現(xiàn)在同一聚類(lèi)之間的樣本差異最小化,而在不同聚類(lèi)樣本之間的差異最大化的一種挖掘技術(shù)[1]。
文章使用K-均值聚類(lèi)方法進(jìn)行分析,對(duì)四川省2007年卷煙市場(chǎng)數(shù)據(jù)進(jìn)行研究,找出其中的群體規(guī)則。
聚類(lèi)分析是根據(jù)一定的分類(lèi)規(guī)則,劃分記錄集合,確定每個(gè)記錄所在類(lèi)別。使得同一類(lèi)別中,個(gè)體之間差距較小,不同類(lèi)別中,個(gè)體之間的差距較大的一種挖掘技術(shù)。聚類(lèi)技術(shù)能把不同格式的數(shù)據(jù)快速分簇,其中主要有K-均值聚類(lèi)方法。
K-均值聚類(lèi)方法是一種在無(wú)類(lèi)標(biāo)號(hào)數(shù)據(jù)中發(fā)現(xiàn)簇和簇中心的方法,通過(guò)迭代把對(duì)象劃分到不同的簇中,以求目標(biāo)函數(shù)最小化,使生成的簇盡可能地緊湊和獨(dú)立[2]。
設(shè)需分析的樣本為Xi,i = 1,2 …,N。給定一組初始中心Ck,k=l,2 …,K。初始中心可以是從訓(xùn)練數(shù)據(jù)中隨機(jī)選擇的個(gè)體。K-均值算法交替執(zhí)行的步驟:
(1)對(duì)每個(gè)樣本Xi,找出離它最近的中心點(diǎn)( 簇):
(2)計(jì)算每個(gè)簇中數(shù)據(jù)點(diǎn)的均值,并且該均值向量成為該簇新的中心:
其中nk為第 k簇包含的樣本數(shù)。
四川省2007年卷煙市場(chǎng)數(shù)據(jù)來(lái)源是四川省卷煙市場(chǎng)調(diào)查問(wèn)卷數(shù)據(jù)。在四川省境內(nèi)不同地州市共發(fā)出4000份調(diào)查問(wèn)卷,收回2730份有效問(wèn)卷。數(shù)據(jù)分析利用SPSS軟件來(lái)進(jìn)行,在分析中用到的被調(diào)查者的基本信息包括被訪者的年齡、受教育程度、被訪者的月收入和家庭收入;用到的調(diào)查問(wèn)題有常吸的卷煙產(chǎn)品的價(jià)格、最常吸的品牌、選購(gòu)自己吸的卷煙時(shí)決定購(gòu)買(mǎi)影響最大的因素、用于送禮和應(yīng)酬的卷煙時(shí)決定購(gòu)買(mǎi)影響最大的因素。被訪者回答問(wèn)題時(shí),答案是用1、2、3等來(lái)表示的,如受教育程度這個(gè)問(wèn)題:(1)表示沒(méi)受過(guò)正式教育,(2)表示小學(xué),(3)表示初中,(4)表示高中,(5)表示中專(zhuān)/技校/職高,6表示大專(zhuān),7表示大學(xué)或以上程度。其它問(wèn)題類(lèi)似。
應(yīng)用1是通過(guò)對(duì)用戶(hù)的基本信息數(shù)據(jù)和被訪者常吸的卷煙產(chǎn)品的價(jià)格、最常吸的品牌的數(shù)據(jù)進(jìn)行的聚類(lèi)分析,該聚類(lèi)定義為4個(gè)類(lèi)中心[3],其最后聚類(lèi)中心和每個(gè)聚類(lèi)中的案例數(shù)如表1所示。
由表1可知:被訪者的年齡的四個(gè)聚類(lèi)中心都為36-40歲,說(shuō)明這個(gè)年齡段的吸煙者較多,并且受教育程度大都為高中、中專(zhuān)/技校/職高。隨著被訪者月收入和家庭月收入的增加,用戶(hù)購(gòu)買(mǎi)的卷煙產(chǎn)品的價(jià)格也隨之升高,說(shuō)明隨著人們生活水平的提高,對(duì)香煙的要求也隨之提高,卷煙廠為了吸引更多高收入的客戶(hù)群體,需要從提高香煙的品質(zhì)、包裝等多方面來(lái)提升香煙的價(jià)位。
表1 最終聚類(lèi)中心和案例數(shù)
表2 最終聚類(lèi)中心和案例數(shù)
表3 最終聚類(lèi)中心和案例數(shù)
第二類(lèi)的人數(shù)最多,達(dá)到1159個(gè),說(shuō)明購(gòu)買(mǎi)4.01~5元價(jià)位的人最多,而4.01~5元價(jià)位中購(gòu)買(mǎi)軟紅梅的人最多。從第一類(lèi)看出,購(gòu)買(mǎi)6.01~7.00元價(jià)位的人數(shù)次之,其中主要是購(gòu)買(mǎi)阿詩(shī)瑪。第四類(lèi)也可以看出,購(gòu)買(mǎi)15.01~20.00元價(jià)位的人數(shù)最少,其中蓋紅河88是比較受歡迎的。而第三類(lèi)8.01~10.00元價(jià)位中較偏愛(ài)軟紅河88,由此可知,軟紅梅、阿詩(shī)瑪、軟紅河88和蓋紅河88是用戶(hù)喜歡的卷煙產(chǎn)品,卷煙廠需要大量生產(chǎn)這幾種煙來(lái)增加銷(xiāo)售量。
應(yīng)用2是通過(guò)對(duì)用戶(hù)的基本信息數(shù)據(jù)和選購(gòu)自己吸的卷煙時(shí)購(gòu)買(mǎi)影響最大的因素的數(shù)據(jù)進(jìn)行的聚類(lèi)分析,該聚類(lèi)也定義為4個(gè)類(lèi)中心[3],其最后聚類(lèi)中心和每個(gè)聚類(lèi)中的案例數(shù)如表2所示。
由表2可知:第一類(lèi)消費(fèi)者在選購(gòu)自己吸的卷煙時(shí)決定購(gòu)買(mǎi)影響最大的因素是自己習(xí)慣的因素,第二類(lèi)是價(jià)格合適,第三類(lèi)是煙味清淡、醇和、不燥,而第四類(lèi)是追求新鮮,嘗試新口味。第一類(lèi)到第四類(lèi)的綜合收入水平是依次升高的,可見(jiàn)隨著收入水平的增加,用戶(hù)對(duì)香煙的要求也是依次變高的,這也再次說(shuō)明卷煙廠為了吸引更多高收入的客戶(hù)群體,需要從提高香煙的品質(zhì)、包裝等多方面來(lái)考慮。
并且從表中也可以看出,隨著年齡的降低,對(duì)香煙的要求也在變高,年齡大的用戶(hù)喜歡買(mǎi)自己已經(jīng)習(xí)慣了的牌子,而年輕人更喜歡嘗試新的品種,所以當(dāng)卷煙廠有新的卷煙生產(chǎn)出來(lái)的時(shí)候,應(yīng)通過(guò)一些宣傳手段重點(diǎn)向年輕人宣傳新的卷煙產(chǎn)品。
應(yīng)用3通過(guò)對(duì)用戶(hù)的基本信息數(shù)據(jù)和用于送禮和應(yīng)酬的卷煙時(shí)決定購(gòu)買(mǎi)影響最大的因素的數(shù)據(jù)進(jìn)行的聚類(lèi)分析,該聚類(lèi)也定義為4個(gè)類(lèi)中心,其最后聚類(lèi)中心和每個(gè)聚類(lèi)中的案例數(shù)如表3所示。
由表3可知:第一類(lèi)和第三類(lèi)用戶(hù)在用于送禮和應(yīng)酬的卷煙時(shí)決定購(gòu)買(mǎi)影響最大的因素是品牌名氣大的香煙,所以卷煙廠應(yīng)該通過(guò)電視廣告、報(bào)刊廣告或者網(wǎng)絡(luò)等等手段來(lái)增加卷煙的知名度,第二類(lèi)用戶(hù)認(rèn)為體現(xiàn)身份最重要,所以卷煙廠應(yīng)該通過(guò)考慮卷煙的包裝等可以體現(xiàn)身份的做法,而第四類(lèi)用戶(hù)認(rèn)為符合現(xiàn)代潮流最重要,所以卷煙廠可以在包裝上規(guī)劃可以展示潮流的圖畫(huà)等等,來(lái)提高卷煙的銷(xiāo)售量。
文章采用了數(shù)據(jù)挖掘方法研究四川省卷煙市場(chǎng)數(shù)據(jù),在SPSS中運(yùn)用K-均值聚類(lèi)方法進(jìn)行分析,旨在通過(guò)采用數(shù)理統(tǒng)計(jì)技術(shù)和相關(guān)統(tǒng)計(jì)學(xué)工具,對(duì)調(diào)查到的卷煙用戶(hù)的數(shù)據(jù)進(jìn)行深度分析和處理。從紛繁復(fù)雜的數(shù)據(jù)中找出客戶(hù)消費(fèi)行為的本質(zhì)特征,從而有針對(duì)性地制定營(yíng)銷(xiāo)策略,對(duì)卷煙廠的生產(chǎn)和銷(xiāo)售策略有較強(qiáng)的指導(dǎo)意義。
[1]何曉群.現(xiàn)代統(tǒng)計(jì)分析方法與應(yīng)用[M].北京:中國(guó)人民大學(xué)出版社,1998.
[2]趙躍,余詩(shī)武.基于Web內(nèi)容挖掘技術(shù)的應(yīng)用研究[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2008,18(36):122~123.
[3]郭秀娟,戰(zhàn)冬梅.K—means聚類(lèi)算法分析及在教師授課質(zhì)量評(píng)價(jià)中的應(yīng)用[J].吉林工程技術(shù)師范學(xué)院學(xué)報(bào),2009,6(25):74~77.