閉英權(quán)
摘要:該文通過對所調(diào)研的廣西電力職業(yè)技術(shù)學(xué)院中現(xiàn)有的四年多大學(xué)生實驗超市的銷售數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,從數(shù)據(jù)中挖掘出關(guān)聯(lián)規(guī)則來指導(dǎo)超市的營銷工作,使其能更現(xiàn)實地進(jìn)行營銷決策。
關(guān)鍵詞:大學(xué)生實驗超市;關(guān)聯(lián)規(guī)則;數(shù)據(jù)預(yù)處理
中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2012)16-4019-02
當(dāng)今中國高職高專的教育都往企業(yè)市場化發(fā)展,即企業(yè)需要什么樣的人才,我們就培養(yǎng)具備企業(yè)上崗能力的人才。在這樣的職業(yè)化教育背景下,2007年,我所在學(xué)院建立了以“融、教、學(xué)、做”為一體的校內(nèi)經(jīng)營性實訓(xùn)基地——大學(xué)生實驗超市。該超市完全模擬真實的超市來經(jīng)營,且經(jīng)營的主體全部是學(xué)生,服務(wù)的對象是校內(nèi)的6000多師生。到現(xiàn)如今,四年的超市經(jīng)營效益卻不盡如意。由于大學(xué)生超市的數(shù)據(jù)庫已有四年多的數(shù)據(jù)量,為了提高學(xué)生實驗的效率,從這些海量的數(shù)據(jù)中挖掘出有用的信息從而輔助超市的營銷理念,筆者運(yùn)用數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則的知識,以大學(xué)生實驗超市的數(shù)據(jù)為依托,挖掘出在校師生的購買規(guī)則,并針對在校師生的個人喜好及消費(fèi)行為作出相應(yīng)的商業(yè)促銷及調(diào)整,從而提高大學(xué)生實驗超市的盈利及利用率。
1關(guān)聯(lián)規(guī)則的概念
Rakesh Agrawal等人于1993年首先提出了關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘概念[1],就是給定一個記錄集合及集合內(nèi)的項(Item),通過分析記錄集合,推導(dǎo)出項間的相關(guān)性。其最一般的表現(xiàn)形式為:購買尿布的顧客中,有70%的顧客同時也會購買啤酒。關(guān)聯(lián)規(guī)則就是從海量的數(shù)據(jù)挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系,從而促進(jìn)信息的顯化[2]。關(guān)聯(lián)規(guī)則可以用四個屬性來描述:
1)可信度:在規(guī)則A出現(xiàn)的前提下,規(guī)則B出現(xiàn)的概率。
2)支持度:在規(guī)則A、B同時出現(xiàn)的概率。用S表示。
3)置信度:在數(shù)據(jù)庫中存在C比例的交易記錄滿足“若包含A就包含B”條件,稱規(guī)則A=>B具有C置信度。
4)數(shù)據(jù)項的集合稱為項集(Itemset),包含K個數(shù)據(jù)項的項集稱為K-項集。如果一個項集在數(shù)據(jù)庫D中的出現(xiàn)頻率大于設(shè)定的最小支持度min-sup與交易數(shù)據(jù)庫D記錄總數(shù)的乘積,則該項集滿足最小支持度閥值,稱該項集為頻繁K-項集[3]。
由于關(guān)聯(lián)規(guī)則是通過頻繁項集直接產(chǎn)生的,因此關(guān)聯(lián)規(guī)則所涉及的所有項集均滿足最小支持度閥值。
2關(guān)聯(lián)規(guī)則在超市數(shù)據(jù)的應(yīng)用分析
1)原始數(shù)據(jù)收集
為了說明關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法,結(jié)合實踐過程,筆者隨機(jī)抽取了本校學(xué)生近兩年的購買情況表500份,并提取以下數(shù)據(jù):姓名,性別,班級,宿舍號,購買清單,日期。因為數(shù)據(jù)比較離散化,所以數(shù)據(jù)進(jìn)入挖掘前必須經(jīng)過數(shù)據(jù)預(yù)處理。即將數(shù)據(jù)按照一定的規(guī)則影射到某個區(qū)間,填補(bǔ)空缺值,去除孤立點(diǎn),糾正不一致,平滑噪聲等操作,從而形成語法一致的數(shù)據(jù)[4]。如:由于超市面積較小,分片區(qū)管理,我們可根據(jù)片區(qū)對購買物品進(jìn)行數(shù)據(jù)預(yù)處理,即分成幾大類:食品類(固性),日用品類,學(xué)習(xí)用品類,飲料類(液體)。分別用1,2,3,4表示。部分預(yù)處理后的數(shù)據(jù)如表1所示。
2)挖掘關(guān)聯(lián)規(guī)則
用于關(guān)聯(lián)規(guī)則挖掘的主要對象是事務(wù)型數(shù)據(jù)庫(Transactional databases),一個事務(wù)一般由如下部分組成:事務(wù)標(biāo)識符,事務(wù)中包含的項目集。則采用關(guān)聯(lián)規(guī)則的經(jīng)典算法APriori算法,得到如下表2的關(guān)聯(lián)規(guī)則結(jié)果。
表2關(guān)聯(lián)規(guī)則結(jié)果表
3)規(guī)則的理解及應(yīng)用
由表2我們可以挖掘出以下幾個規(guī)律:
①同學(xué)們在購買食品類的同時,比較喜歡再購買飲料類的東西。且男同學(xué)表現(xiàn)比女同學(xué)更符合這個規(guī)律。
②班級相同的學(xué)生,購買物也比較相同。
因為我們下一步超市工作的重點(diǎn)是開通校園超市網(wǎng)購,從上述規(guī)律,我們可以指導(dǎo)我們的下一步網(wǎng)購營銷工作。諸如在陳列貨品的時候,可以把食品類的貨物與飲料類的貨物擺放相近位置。班級相同的學(xué)生宿舍相同或是相近,若有同學(xué)網(wǎng)購食品類,我們送貨人員則可以順帶飲料類上門,促進(jìn)飲料的銷售。特別是對于男同學(xué)銷售時。且一個宿舍的學(xué)生網(wǎng)上申請購買物品,需要我們送貨上門時,根據(jù)規(guī)則②我們可多備幾份送到宿舍,以擴(kuò)大銷售量。需要特別的指出來的是,學(xué)校教師在校超市購買的支持率相當(dāng)?shù)?,說明教師們很少在校超市購買商品。再進(jìn)一步調(diào)查,發(fā)現(xiàn)符合教師購買的商品也比較偏少。如何在教師中打開銷路,也是超市以后要考慮的問題。
3結(jié)論
利用關(guān)聯(lián)規(guī)則來促進(jìn)超市營銷是一種科學(xué)的決策方法,在一定程度上可以避免主觀或經(jīng)難決策中的一些盲點(diǎn),同時也鍛煉學(xué)生的分析實踐能力?;跀?shù)據(jù)挖掘技術(shù)的決策系統(tǒng)將會在超市的數(shù)據(jù)分析中得到更加廣泛的認(rèn)可。但我們也看到我們的不足,如學(xué)生兩年內(nèi)就要到外校實習(xí),同一學(xué)生的數(shù)據(jù)量不夠;數(shù)據(jù)范圍太廣,如購買的貨物上百種,我們只影射到4類貨物太直觀。因此,需要改進(jìn)原有算法或者提出新算法來解決多維、多層次的數(shù)據(jù)挖掘問題。數(shù)據(jù)挖掘過程中,也會伴隨著大量無效或是眾人皆知的規(guī)則產(chǎn)生。因為需要引入額外的變量或者模式來地挖掘出來的關(guān)聯(lián)規(guī)則有效性進(jìn)行判斷,從而產(chǎn)生出有現(xiàn)實指導(dǎo)意義的關(guān)聯(lián)規(guī)則。
參考文獻(xiàn):
[1] Han Jiawei, Kamber M.數(shù)據(jù)挖掘概念與技術(shù)[M].范明.孟小峰,譯.北京:機(jī)械工業(yè)出版社,2007.
[2]陳玉婷,王斌,劉博.關(guān)聯(lián)規(guī)則挖掘算法介紹[J].計算機(jī)技術(shù)與發(fā)展,2009(5):21-25.
[3]陸召連,郭嗣宗.關(guān)聯(lián)規(guī)則在化妝品銷售分析中的應(yīng)用[J].科技和產(chǎn)業(yè),2008(10):19-21.
[4]劉莉,徐玉生.數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理技術(shù)綜述[J].甘肅科學(xué)學(xué)報,2007(3):117-118.