王志慧 王夢華 李森
摘 要:眾所周知,連衣裙受到女性追捧。連衣裙不僅在夏季流行,而且在其他季節(jié)都成為時(shí)尚,占據(jù)了主要市場。文章旨在利用數(shù)據(jù)挖掘技術(shù)挖掘連衣裙數(shù)據(jù),從而產(chǎn)生關(guān)于連衣裙數(shù)據(jù)的真知灼見,提供有價(jià)值的商業(yè)信息進(jìn)行商務(wù)智能研究。首先,采用聚類方法尋找最佳連衣裙銷售策略。其次,運(yùn)用統(tǒng)計(jì)方法研究連衣裙屬性之間的關(guān)系。例如,連衣裙的風(fēng)格和銷售之間存在的關(guān)系,最后,分類模型將被用來指示顧客是否可以推薦一件連衣裙。
關(guān)鍵詞:數(shù)據(jù)挖掘;商務(wù)智能;分類模型
中圖分類號:F713.50 ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A ? ? ? ? ? ? ? 文章編號:1008-4428(2018)03-74 ?-03
一、數(shù)據(jù)獲取與預(yù)處理
(一)問題提出
在信息化時(shí)代,企業(yè)數(shù)據(jù)量正在飛速增長。作為企業(yè)的寶貴資源的數(shù)據(jù)庫,卻沒有被大多數(shù)企業(yè)充分深入地利用。商務(wù)智能幫助企業(yè)利用數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)換為有價(jià)值的信息,從信息中獲得知識,做出更明智的決策。
分析這一主題對設(shè)計(jì)師和賣家具有重要意義,我們將使用來自www.ics.uci.edu的二手?jǐn)?shù)據(jù)分析銷售數(shù)量和不同屬性之間的關(guān)系,具體如下:多種屬性中,什么屬性最有助于銷售?客戶會推薦什么樣的裙子?
在本課題中,數(shù)據(jù)挖掘目標(biāo)包括:
A1:使用聚類來找出哪些屬性對銷售貢獻(xiàn)最大。
A2:使用統(tǒng)計(jì)方法總結(jié)變量,找出一些重要變量之間的關(guān)系。
B:使用決策樹、回歸和神經(jīng)網(wǎng)絡(luò)來確定這條裙子是否會被推薦。
(二)數(shù)據(jù)描述
該數(shù)據(jù)集包含關(guān)于裙子的兩個(gè)文檔,這兩個(gè)文檔結(jié)合的獨(dú)特功能是裙子ID。一份列出了不同日期的銷售金額,另一份是裙子的不同屬性。我們將這兩個(gè)文檔合并為一個(gè)數(shù)據(jù)集。因此,形成 14個(gè)獨(dú)立變量,分別是款式、價(jià)格、等級、尺碼、季節(jié)、領(lǐng)口、袖扣、腰圍、材質(zhì)、制作、裝飾、圖案類型、銷售和推薦。
二、商品屬性分析
(一)利用聚類分析方法進(jìn)行屬性分析
我們可以利用數(shù)據(jù)進(jìn)行分割現(xiàn)有數(shù)據(jù),不同的屬性可以提供更廣闊的視野。聚類分析是我們分割數(shù)據(jù)的有用工具。在商店的主頁上推薦這些裙子,或者在購物中心里放置模特,吸引女性的注意力。
1. 數(shù)據(jù)處理
對于“哪些屬性對銷售貢獻(xiàn)最大”的問題,我們創(chuàng)建了數(shù)據(jù)源并刪除了一些無用的屬性:評級、季度、大小和推薦,這些都與銷售有正相關(guān)關(guān)系。我們把銷售額設(shè)為目標(biāo),輸入數(shù)據(jù)集的變量的統(tǒng)計(jì)特性。在這一步中生成的結(jié)果將給我們一個(gè)在這個(gè)數(shù)據(jù)集最有用的預(yù)測目標(biāo)響應(yīng)。
因此,我們使用StatExplore節(jié)點(diǎn)和MultiPlot節(jié)點(diǎn)來幫助我們探索數(shù)據(jù)集。
2.分析結(jié)果
然后我們使用SAS Enterprise Mining進(jìn)行集群,集群的數(shù)量自動設(shè)置為8。
根據(jù)結(jié)果,我們發(fā)現(xiàn),自然的腰線、休閑的款式、無袖的袖衫、O領(lǐng)口和棉質(zhì)裙子在第六部門中都有更好的銷售。然而,在第一部分,高腰圍、休閑風(fēng)格和O領(lǐng)口賣得更多。而在第五部分,可愛款式、肩帶裝飾和立體款式都賣得更好。
(二)利用統(tǒng)計(jì)理論進(jìn)行屬性關(guān)聯(lián)分析
使用統(tǒng)計(jì)方法,我們尋找裝飾與銷售、材料與銷售、領(lǐng)口與銷售、款式與銷售、腰圍與銷售、袖長與銷售、款式與銷售、價(jià)格與銷售之間的關(guān)系。
三、模型建立與結(jié)果分析
在分類分析方面,將使用決策樹、回歸和神經(jīng)網(wǎng)絡(luò)三種模型來預(yù)測問題“是否推薦一件衣服”。
(一)決策樹模型
1.數(shù)據(jù)選擇與決策樹生成
我們首先將建議設(shè)定為目標(biāo),并設(shè)置角色為序數(shù),并拒絕評級和銷售。通過數(shù)據(jù)分區(qū)節(jié)點(diǎn)將原始數(shù)據(jù)劃分為培訓(xùn)和驗(yàn)證集。添加數(shù)據(jù)分區(qū)的值,訓(xùn)練結(jié)果和驗(yàn)證結(jié)果為65和35,測試結(jié)果為0。我們注意到,2、4個(gè)葉片錯(cuò)誤率最低,4個(gè)葉片均為最小均方誤差。因此,我們使用了4的最大分支數(shù)。
2.結(jié)果分析
從決策樹,根據(jù)季節(jié)、風(fēng)格、袖長和面料類型將首先被顧客考慮是否推薦。
決策樹描述了模型分析輸出結(jié)果,分析是通過分裂的方式進(jìn)行的。在圖的上部是決策樹模型的根結(jié)點(diǎn),包含了所有的可能的觀測數(shù)據(jù),根結(jié)點(diǎn)中處于中間列出了訓(xùn)練數(shù)據(jù)總共為324個(gè),41.98%可信任(推薦),而58.02%不可信任(不推薦),處于右側(cè)的數(shù)據(jù)是驗(yàn)證數(shù)據(jù)結(jié)果,共有20個(gè)驗(yàn)證數(shù)據(jù),其中42.08%可信任(推薦),而57.92%不可信任(不推薦)。在過程的進(jìn)一步,數(shù)據(jù)被分成了兩組——是否是春天,根據(jù)變量級別值,這個(gè)變量是最能區(qū)分的變量。如果是春天,左側(cè)觀測數(shù)據(jù)78條記錄中有58.97%的記錄是可信的;如果是夏天、秋天或者冬天,右側(cè)246條觀測記錄中36.59%的客戶記錄是可信的。接著對于選用變量VALUE,進(jìn)行下一步劃分。以DELINQ變量進(jìn)行下一步劃分。如果春天下風(fēng)格可愛,右側(cè)100%可信任(推薦);其他風(fēng)格看第三層左側(cè),52.24%可信任(推薦)。第三層第二個(gè)結(jié)點(diǎn)在這一步停止。第二層第二個(gè)節(jié)點(diǎn)——夏秋冬,對袖長屬性進(jìn)行劃分,屬性為無袖或者長袖或者其他的,180個(gè)觀測值中有41.67%可信任;如果是短袖,66個(gè)觀測值中有22.72%可信任(推薦)。如果是短袖,繼續(xù)分類,如果是織物類型,19個(gè)觀察值有12.82%可信任;如果是雪紡類型的,27個(gè)27.04%可信任,觀測值最終到達(dá)葉子結(jié)點(diǎn)。
(二)回歸分析的概述
選擇回歸節(jié)點(diǎn),檢查屬性并選擇stepwise作為選擇模型。
我們可以得出結(jié)論,最重要的是季節(jié)和價(jià)格。此外,春季和中期價(jià)格也同樣被認(rèn)為是很重要的推薦依據(jù)。嘗試不推薦的季節(jié)和價(jià)格變量中,比較哪些貢獻(xiàn)對推薦的產(chǎn)品有重要影響,我們發(fā)現(xiàn)風(fēng)格是非常值得推薦的依據(jù),建議如下結(jié)果:
(三)神經(jīng)網(wǎng)絡(luò)
分析樹模型后,我們使用了節(jié)點(diǎn)模型來比較它們的性能。概要統(tǒng)計(jì)信息比較:
由于這種情況下的預(yù)測類型是決策,所以錯(cuò)誤分類應(yīng)該作為模型性能指標(biāo)。如上述分析結(jié)果所示,回歸對驗(yàn)證和訓(xùn)練數(shù)據(jù)的誤分類率最低。因此,回歸模型是基于誤分類率的最佳模型。
四、 結(jié)論
基于以上模型分析,我們可以解決提出的兩個(gè)問題:自然的腰身、休閑的款式、無袖款、O領(lǐng)口、棉料、純色型和均價(jià)位的裙子比其他的裙子賣得多。而春季和中等價(jià)位的裙子比其他的裙子更受推薦。這樣的推薦有助于吸引更多的顧客,提供更大的銷量。
商務(wù)智能(BI)作為一種概念和工具,在學(xué)科領(lǐng)域,尤其在戰(zhàn)略管理學(xué)科以及信息管理學(xué)科被廣泛地重視和強(qiáng)調(diào)。BI是獲取和分析從多個(gè)渠道所收集的數(shù)據(jù)的一種應(yīng)用工具和過程,使用BI工具還能夠通過管理組織企業(yè)業(yè)績來提高企業(yè)利潤以及通過整合過去的成功經(jīng)驗(yàn)來獲得競爭優(yōu)勢。
隨著大數(shù)據(jù)時(shí)代的到來,存儲技術(shù)的提高,相關(guān)終端營銷的數(shù)據(jù)會越來越多,目前的商務(wù)智能技術(shù)和數(shù)據(jù)倉庫的構(gòu)建將無法滿足大數(shù)據(jù)時(shí)代的數(shù)據(jù)處理要求,需要更多的擴(kuò)展研究。
參考文獻(xiàn):
[1]魏慧娟,戴牡紅,寧勇余.基于最近鄰居聚類的協(xié)同過濾推薦算法[J].中國科學(xué)技術(shù)大學(xué)學(xué)報(bào),2016,46(09):736-742.
[2]楊鳳萍. 基于神經(jīng)網(wǎng)絡(luò)集成和用戶偏好模型的協(xié)同過濾推薦算法研究[D].華中師范大學(xué),2016.
[3]PHUSIT KANCHANATRIPOP(羅邦弘). 商務(wù)智能與大數(shù)據(jù)的系統(tǒng)化文獻(xiàn)調(diào)研[D].廣西師范大學(xué),2016.
[4]黃濤. 基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化推薦算法研究與設(shè)計(jì)[D].重慶大學(xué),2016.
[5]孟婷婷. 終端營銷系統(tǒng)中的商務(wù)智能與市場感知[D].浙江理工大學(xué),2016.
[6]高輝. 幾類常用非線性回歸分析中最優(yōu)模型的構(gòu)建與SAS智能化實(shí)現(xiàn)[D].中國人民解放軍軍事醫(yī)學(xué)科學(xué)院,2012.
[7]張玉嵐,曹慧敏,蔣玉潔,蔡忠民.SAS軟件在果樹試驗(yàn)數(shù)據(jù)系統(tǒng)聚類分析中的應(yīng)用[J].遼寧農(nóng)業(yè)職業(yè)技術(shù)學(xué)院學(xué)報(bào),2009,11(3):8-10.
[8]趙華生. 基于SAS數(shù)據(jù)挖掘的C2C信用評價(jià)研究[D].西南財(cái)經(jīng)大學(xué),2009.
[9]Moro S, Cortez P, Rita P. Business intelligence in banking: A literature analysis from 2002 to 2013 using text mining and latent Dirichlet allocation[J]. Expert Systems with Applications, 2015, 42(3):1314-1324.
[10]Bodislav D A. Transferring business intelligence and big data analysis from corporations to governments as a hybrid leading indicator[J]. Theoretical & Applied Economics, 2015, XXII.
作者簡介:
王志慧,女,江蘇泰州人,南京財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院碩士,研究方向:管理信息系統(tǒng);
王夢華,女,河南周口人,南京財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院碩士,研究方向:管理信息系統(tǒng);
李森,男,江蘇淮安人,南京財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院碩士,研究方向:管理信息系統(tǒng)。