廖慶軍
摘 要 基于網(wǎng)上購物系統(tǒng),運(yùn)用數(shù)據(jù)挖掘技術(shù)通過對數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)的“相似性”的比對,來找出具有相似愛好的同類人群,從而可以為這些具有相同愛好的人群提供某些便利,本文從購物網(wǎng)站數(shù)據(jù)挖掘的意義、步驟和算法三個方面研究數(shù)據(jù)挖掘在購物網(wǎng)站中的應(yīng)用。
關(guān)鍵詞 數(shù)據(jù)挖掘 電子商務(wù) 數(shù)據(jù)分析 k-means 算法
中圖分類號:G358.1 文獻(xiàn)標(biāo)識碼:A
隨著信息技術(shù)的迅猛發(fā)展,參與到購物網(wǎng)站的人越來越多,人們樂于在網(wǎng)絡(luò)中去分享自己的相關(guān)信息,拓展自己的人脈。企業(yè)甚至能通過社交平臺去直接影響客戶,一切都似乎因?yàn)橘徫锞W(wǎng)站的出現(xiàn)而變的美好。
基于網(wǎng)上購物系統(tǒng),運(yùn)用數(shù)據(jù)挖掘技術(shù)通過對數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)的“相似性”的比對,來找出具有相似愛好的同類人群,從而可以為這些具有相同愛好的人群提供某些便利:
(1)為具有相同愛好的人提供好友推薦,以供他們互相交流;
(2)通過對某位客戶往期所購入的商品,通過數(shù)據(jù)挖掘,通過這些商品的類別,價(jià)格,以及風(fēng)格上等的特征提取,為客戶在下次瀏覽商品時(shí)提供產(chǎn)品推薦服務(wù),以便顧客迅速找到心儀的產(chǎn)品;
(3)通過客戶購買商品類別、風(fēng)格等上的特征提取,以及評論的特征的提取,從而為店家提供一個營銷方向。
購物網(wǎng)站已經(jīng)成為了數(shù)據(jù)挖掘技術(shù)最恰當(dāng)?shù)膽?yīng)用領(lǐng)域。
1什么是數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的原始數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程?;蛘哒f是從數(shù)據(jù)庫中發(fā)現(xiàn)有用的知識(KDD),并進(jìn)行數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持的過程。
數(shù)據(jù)挖掘(Data Mining)是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個步驟。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。
2購物網(wǎng)站數(shù)據(jù)挖掘的意義
通過購物網(wǎng)站數(shù)據(jù)挖掘并加以分析,企業(yè)能獲得什么?
2.1潛在商機(jī)的發(fā)現(xiàn)
通過數(shù)據(jù)挖掘與分析,可以發(fā)現(xiàn)某個用戶的活動商圈是否在企業(yè)的商圈覆蓋范圍內(nèi);可以知道某個用戶的消費(fèi)能力;可以知道某個用戶的喜好及最近的購買習(xí)慣;可以知道某個用戶會購買自己產(chǎn)品的概率;可以知道競爭對手的策略。
寄生在Facebook這樣的社交網(wǎng)站上的社交游戲公司Zynga,它聰明的利用了用戶數(shù)據(jù),從中挖掘出大量商機(jī)。據(jù)《彭博商業(yè)周刊》披露,這個社交游戲巨頭大約每天要收集600億個數(shù)據(jù)點(diǎn),包括人們一般玩多久游戲,什么時(shí)候玩,喜歡購買什么游戲物品等等。該公司的數(shù)學(xué)極客們用這些數(shù)據(jù)來分析哪些人喜歡逛自己朋友的農(nóng)場和城市(Zynga開發(fā)的游戲),人們都喜歡買哪些虛擬物品以及他們給自己的朋友贈送虛擬物品的頻率等。然后他們就會得出這樣一個重大的發(fā)現(xiàn):經(jīng)常收到朋友虛擬禮物的人會更喜歡玩游戲,收不到或不那么經(jīng)常收到的則不太喜歡玩游戲。Zynga的數(shù)據(jù)分析部門副總裁Ken Rudin表示:根據(jù)這個發(fā)現(xiàn),一群數(shù)學(xué)極客們又想出了解決辦法——那些不那么經(jīng)常收到禮物的玩家我們會讓他們更加容易的找到建城(Zynga游戲)的工具,這樣他們就不會過于依靠他人的禮物了。Zynga的意圖很明顯:分析用戶行為,揣摩用戶心理,然后適時(shí)為每個獨(dú)特行為習(xí)慣的用戶提供更有針對性的服務(wù)。
2.2危機(jī)預(yù)警
通過數(shù)據(jù)挖掘與分析,可以對一些網(wǎng)絡(luò)中突然發(fā)布的一條可能對企業(yè)產(chǎn)生危機(jī)的信息即時(shí)的監(jiān)控起來。并追蹤其傳播路徑,找到其中的關(guān)鍵節(jié)點(diǎn)。利用“亂石”打散其傳播軌跡。從而讓危機(jī)盡快消失。一個企業(yè)面對社交媒體中網(wǎng)民創(chuàng)造的成千上萬,甚至幾百萬的討論內(nèi)容,想要通過人工去判斷哪些口碑對品牌有利,哪些將會成為品牌危機(jī)是個不可能完成的任務(wù)。而輿情監(jiān)測則可以圍繞某一監(jiān)測領(lǐng)域或事件,經(jīng)過科學(xué)部署的不間斷的數(shù)據(jù)收集與分析的過程,前期需要對收集范圍和關(guān)鍵詞群進(jìn)行設(shè)置,中期對采集的數(shù)據(jù)進(jìn)行過濾、分組、聚類等預(yù)處理,后期對數(shù)據(jù)進(jìn)行分析,并以分析報(bào)告的形式讓品牌了解到自身的口碑狀況。我們發(fā)現(xiàn)百度指數(shù)顯示2011年以前沒有任何關(guān)于“輿情監(jiān)測”的搜索記錄,然而隨著社交媒體的發(fā)展,品牌逐漸意識危機(jī)公關(guān)的重要性,也更加深入地認(rèn)識到數(shù)據(jù)挖掘,數(shù)據(jù)分析在危機(jī)預(yù)警中不可忽視的作用。
2.3效果預(yù)測
通過數(shù)據(jù)挖掘與分析,可以通過對企業(yè)已掌控的圈子,消費(fèi)群體的黏著度,事件的時(shí)序,傳播的投入上去事先預(yù)測相關(guān)的效果。從而讓企業(yè)能花最少的錢得到最大的產(chǎn)出。在2010年,惠普實(shí)驗(yàn)室的研究人員Sitaram Asur和Bernardo Huberman發(fā)現(xiàn),通過Twitter可以了解人們興趣的變化,從而準(zhǔn)確預(yù)測電影票房收入。他們統(tǒng)計(jì)了一部電影名字在Twitter上出現(xiàn)的次數(shù),收集了3個月內(nèi)與電影相關(guān)的約300萬個tweet,發(fā)現(xiàn)電影名字出現(xiàn)的頻率與電影的票房收入存在很強(qiáng)的相關(guān)性。Bernardo Huberman說:“我們的預(yù)測非常準(zhǔn)確?!币越┦稓⒊隹袢随?zhèn)》為例。研究小組預(yù)測這部影片在美國上映的首周票房為1680萬美元,實(shí)際數(shù)字為1606萬美元。我們分析推文并衡量推文產(chǎn)生的速度。并且認(rèn)為,關(guān)于某部電影的推文產(chǎn)生速度越快,大家越有可能去觀看這部電影。
3購物網(wǎng)站數(shù)據(jù)挖掘的步驟
基于網(wǎng)購,對所牽涉的網(wǎng)購數(shù)據(jù)庫中的毫無關(guān)聯(lián)的數(shù)據(jù),進(jìn)行相關(guān)特征上的比對,從而找出“相似性”。
具體步驟如下:
(1)理解數(shù)據(jù)和數(shù)據(jù)的來源(understanding);
(2)獲取相關(guān)知識與技術(shù)(acquisition);
(3)整合與檢查數(shù)據(jù)(integration and checking);
(4)去除錯誤或不一致的數(shù)據(jù)(data cleaning);
(5)建立模型和假設(shè)(model and hypothesis development); (6)實(shí)際數(shù)據(jù)挖掘工作(data mining);
(7)測試和驗(yàn)證挖掘結(jié)果(testing and verification);
(8)解釋和應(yīng)用(interpretation and use)。
4購物網(wǎng)站數(shù)據(jù)挖掘的的算法
通常我們所說的數(shù)據(jù)挖掘的技術(shù)基礎(chǔ)就是人工智能。它使用了人工智能中一些已經(jīng)成熟的算法和技術(shù),如:人工神經(jīng)網(wǎng)絡(luò),遺傳算法,決策樹,規(guī)則推理,模糊邏輯等,就問題的復(fù)雜性和難度而言比人工智能要低。進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)挖掘,主要是對客戶的訪問信息與詳細(xì)身份信息進(jìn)行挖掘,得到客戶的瀏覽行為模式,找到有價(jià)值的市場信息,從而有針對性的調(diào)整網(wǎng)頁設(shè)計(jì),提供個性化的服務(wù)。數(shù)據(jù)挖掘系統(tǒng)利用的技術(shù)越多,精確度就越高。數(shù)據(jù)挖掘的功能算法主要包括以下幾種:構(gòu)造關(guān)聯(lián)規(guī)則;發(fā)現(xiàn)分類規(guī)則;數(shù)據(jù)聚類分析;數(shù)據(jù)抽象總結(jié)。下面我們重點(diǎn)研究K-means算法。
1967年,MacQueen在伯克利第五屆數(shù)理統(tǒng)計(jì)年會上提出k-means算法。它是一種基于樣本間相似性度量的聚類方法,是一種非監(jiān)督學(xué)習(xí)的方法。此算法以k為參數(shù),把n個對象分為k個聚類,以使聚類內(nèi)具有較高的相似度,而且聚類間的相似度較低。它是一種較典型的逐點(diǎn)修改迭代的動態(tài)聚類算法,其要點(diǎn)是以誤差平方和為準(zhǔn)則函數(shù)。
k-means算法接受輸入量k;然后將n個數(shù)據(jù)對象劃分為k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個“中心對象”(引力中心)來進(jìn)行計(jì)算的。
基本步驟如下:
(1)從 n個數(shù)據(jù)對象任意選擇 k 個對象作為初始聚類中心;
(2)根據(jù)每個聚類對象的均值(中心對象),計(jì)算每個對象與這些中心對象的距離;并根據(jù)最小距離重新對相應(yīng)對象進(jìn)行劃分;
(3)重新計(jì)算每個(有變化)聚類的均值(中心對象);
(4)計(jì)算標(biāo)準(zhǔn)測度函數(shù),當(dāng)滿足一定條件,如函數(shù)收斂時(shí),則算法終止;如果條件不滿足則回到步驟。
當(dāng)有新的用戶訪問時(shí),計(jì)算其和虛擬用戶的相近程度,如果和第一個虛擬用戶比較臨近,則將第一個虛擬用戶所感興趣的商品集推薦給這個新用戶。雖然實(shí)現(xiàn)了個性化推薦,但是在k-menas算法中,k個中心的選取一般為隨機(jī)選取或依賴于領(lǐng)域知識,為了更好地選取k個中心以提高聚類的質(zhì)量,需要以后對k-menas算法進(jìn)行更好的改進(jìn)。
參考文獻(xiàn)
[1] Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小東等譯.北京:機(jī)械工業(yè)出版社,2004.
[2] 李明剛,劉文芳,等.電子商務(wù)原理與應(yīng)用開發(fā)務(wù)實(shí)[J].清華大學(xué)出版社,2002.
[3] 劉軍,季常煦,等.電子商務(wù)系統(tǒng)的規(guī)劃與設(shè)計(jì)[J].人民郵電出版社,2001.
[4] 張洪瀚,姜嬌嬌,等.基于數(shù)據(jù)挖掘的電子商務(wù)商品推薦[J].中國信息解社,2007(9).
[5] 葉彩虹.Web挖掘在網(wǎng)上購物中的應(yīng)用研究[D].安慶師范學(xué)院學(xué)報(bào),2004(11).