張欣悅
(深圳技師學(xué)院 信息技術(shù)系,廣東 深圳 518000)
電子商務(wù)推薦系統(tǒng)定義為:利用電子商務(wù)網(wǎng)站向用戶提供商品信息和建議,幫助客戶決定應(yīng)該購(gòu)買什么產(chǎn)品,模擬銷售人員幫助客戶完成購(gòu)買過程。它是一個(gè)基于客戶網(wǎng)上購(gòu)物的以商品為推薦對(duì)象的個(gè)性化推薦系統(tǒng),為客戶推薦符合其興趣愛好的商品。分析客戶的消費(fèi)偏向,向每個(gè)客戶具有針對(duì)性地推薦的產(chǎn)品,幫助客戶從龐大的商品目錄中挑選真正適合自己需要的商品。電子商務(wù)推薦系統(tǒng)在幫助了客戶,提高了客戶對(duì)商務(wù)活動(dòng)的滿意度。同時(shí),還能將電子商務(wù)網(wǎng)站的瀏覽者轉(zhuǎn)變?yōu)橘?gòu)買者,提高電子商務(wù)網(wǎng)站的交叉銷售能力,提高客戶對(duì)電子商務(wù)網(wǎng)站的忠誠(chéng)度,從而換來對(duì)電子商務(wù)站點(diǎn)的進(jìn)一步支持。
電子商務(wù)推薦系統(tǒng)主要由三大部分構(gòu)成:輸入模塊、推薦方法模塊和輸出模塊。輸入模塊用來接受用戶的輸入信息,用戶的輸入信息中最重要的是用戶對(duì)項(xiàng)目的評(píng)價(jià)(rating)數(shù)據(jù);推薦方法模塊用來根據(jù)一定的算法和用戶數(shù)據(jù),得出對(duì)目標(biāo)用戶的推薦,該模塊是整個(gè)推薦系統(tǒng)的核心部分,個(gè)性化推薦方面的研究的很大一部分,都集中在找到好的推薦方法。輸出模塊主要是指得到的推薦以何種形式反饋給用戶。
電子商務(wù)推薦系統(tǒng)使用的技術(shù)主要有:內(nèi)容推薦技術(shù)、關(guān)聯(lián)規(guī)則,聚類,Horting圖,協(xié)同過濾技術(shù)等。
關(guān)聯(lián)規(guī)則可以尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性,比如在客戶所購(gòu)買不同商品之間的相關(guān)性。利用這些關(guān)聯(lián),就可以得到客戶的購(gòu)買特性,并根據(jù)發(fā)現(xiàn)的這些規(guī)律采取有效的行動(dòng)。這對(duì)店鋪的市場(chǎng)定位、商品的采購(gòu)等決策問題都有重大的指導(dǎo)意義。同時(shí),也能為商品推薦提供幫助。
關(guān)聯(lián)規(guī)則的目標(biāo)是在數(shù)據(jù)項(xiàng)目中找出所有的并發(fā)關(guān)系,這種關(guān)系也稱為關(guān)聯(lián)。關(guān)聯(lián)規(guī)則有三個(gè)度量。支持度反映在交易數(shù)據(jù)中發(fā)現(xiàn)該規(guī)則的頻繁程度,置信度說明當(dāng)“如果”部分為真時(shí)“那么”部分也為真的頻繁程度[2]。比如手機(jī)一外殼規(guī)則,其支持度為15%表明15%的客戶同時(shí)購(gòu)買了手機(jī)和外殼,置信度為85%表明在所有購(gòu)買手機(jī)的客戶中,有85%的人也購(gòu)買了外殼。而提升度反映在預(yù)測(cè)結(jié)果方面,規(guī)則比只是首先假設(shè)該結(jié)果會(huì)好多少,它是關(guān)于該規(guī)則工作情況的很好度量。這了挖掘出有意義的關(guān)聯(lián)規(guī)則,一般都需要提供最小支持度和最小置信度。
i)找出事務(wù)數(shù)據(jù)庫(kù)中所有大于等于用戶指定的最小支持度的頻繁項(xiàng)集;
ii)利用頻繁項(xiàng)集生成所有的關(guān)聯(lián)規(guī)則,根據(jù)用戶設(shè)定的最小置信度進(jìn)行取舍,最后得到強(qiáng)關(guān)聯(lián)規(guī)則。
(1)關(guān)聯(lián)規(guī)則的定義:關(guān)聯(lián)規(guī)則就是在一個(gè)交易數(shù)據(jù)庫(kù)中統(tǒng)計(jì)購(gòu)買了商品集X的交易中有多大比例的交易同時(shí)購(gòu)買了商品集Y,得到的關(guān)聯(lián)規(guī)則表示為:X=>Y[s%,c%]
s表示關(guān)聯(lián)規(guī)則的支持度,c表示關(guān)聯(lián)規(guī)則的置信度。
關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)算法很多,如Apriori,AprioriTid,DHP,F(xiàn)P-tree等。
(2)關(guān)聯(lián)規(guī)則的算法過程
i)使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法找出所有滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則R;
為破解高??萍汲晒D(zhuǎn)化中的關(guān)鍵問題和難點(diǎn),推動(dòng)高??萍汲晒D(zhuǎn)化,浙江省開展了建設(shè)高??萍冀?jīng)紀(jì)人制度試點(diǎn)工作,高??萍冀?jīng)紀(jì)人主要負(fù)責(zé)對(duì)技術(shù)轉(zhuǎn)移項(xiàng)目進(jìn)行正確的評(píng)估和論證,為企業(yè)和學(xué)校提供、傳遞技術(shù)轉(zhuǎn)移供需信息,組織并參與技術(shù)成果的商業(yè)化應(yīng)用和產(chǎn)業(yè)化活動(dòng),對(duì)技術(shù)轉(zhuǎn)移活動(dòng)進(jìn)行全過程管理[5]。
ii)找出R中所有被客戶支持的關(guān)聯(lián)規(guī)則R1,即關(guān)聯(lián)規(guī)則左邊的所有商品都被客戶購(gòu)買;
iii)找出被關(guān)聯(lián)規(guī)則R1所預(yù)測(cè)并且沒有被客戶所購(gòu)買的所有商品P。
根據(jù)P中商品在關(guān)聯(lián)規(guī)則R1中的置信度排序,如果某商品被多個(gè)規(guī)則預(yù)測(cè),則取置信度最大者作為排序依據(jù),挑選前N個(gè)商品作為算法輸出。
通過比較用戶之間喜好的相似性,使用統(tǒng)計(jì)技術(shù)尋找與目標(biāo)客戶有相同喜好的鄰居;然后根據(jù)目標(biāo)客戶多個(gè)鄰居的觀點(diǎn)產(chǎn)生向目標(biāo)客戶的推薦。
基于最近鄰居的協(xié)同過濾算法主要分為三個(gè)階段:
(1)對(duì)用戶已經(jīng)購(gòu)買的商品進(jìn)行建模
用m*n階客戶-商品矩陣表示,Ri,j=1,如果第i個(gè)客戶購(gòu)買了第j件商品;Ri,j=0,如果第i個(gè)客戶沒有購(gòu)買第j件商品。
通過奇異值分解將m*n階客戶-商品矩陣變換為m*k階矩陣,這種表示稱為降維表示,可以部分解決原始表示存在的稀疏性、縮放性和同義詞問題。
(2)尋找目標(biāo)客戶所對(duì)應(yīng)的鄰居
鄰居形成階段:關(guān)鍵在于計(jì)算客戶之間的相似性。
目標(biāo)客戶:對(duì)于每個(gè)客戶u,找到它的l個(gè)鄰居N={N1,N2,…,Nl},使得 sim(u,N1)最大,sim(u,N2)次之,……。
(3)從目標(biāo)客戶的鄰居中產(chǎn)生N項(xiàng)產(chǎn)品推薦
由目標(biāo)客戶的鄰居產(chǎn)生N件商品推薦,可以采用如下兩種不同方法產(chǎn)生推薦:
i)最頻繁項(xiàng)目推薦:掃描目標(biāo)客戶每一個(gè)鄰居的購(gòu)買數(shù)據(jù),對(duì)其購(gòu)買的商品進(jìn)行計(jì)數(shù),選擇出現(xiàn)頻率最高且目標(biāo)客戶沒有購(gòu)買的前N件商品最為推薦結(jié)果;
ii)基于關(guān)聯(lián)的推薦:類似于前面介紹的基于關(guān)聯(lián)規(guī)則的推薦算法,只是將目標(biāo)客戶的鄰居作為算法的輸入。
基于內(nèi)容的推薦起源于信息檢索領(lǐng)域,它利用資源和用戶興趣的相似性來過濾信息。首先分析項(xiàng)目的內(nèi)容,根據(jù)用戶評(píng)價(jià)過的項(xiàng)目建立用戶的興趣模型,即用戶描述文件。根據(jù)用戶描述文件的不同又可以分為基于向量空間模型的推薦、基于關(guān)鍵詞分類的推薦、基于領(lǐng)域分類的推薦和基于潛在語(yǔ)義索引的推薦。
為了更好地區(qū)別用戶興趣之間的差異,曾春等提出了一種基于概率模型的文本推薦方法,把用戶興趣文件表示為用戶對(duì)不同領(lǐng)域感興趣的概率,先建立一個(gè)領(lǐng)域分類模型,然后計(jì)算所有文檔和用戶在這個(gè)分類模型上的概率分布,用該概率分布來表達(dá)文檔和用戶興趣[2]?;趦?nèi)容的推薦利用資源和用戶興趣的相似性來過濾信息。首先分析項(xiàng)目的內(nèi)容,根據(jù)用戶評(píng)價(jià)過的項(xiàng)目建立用戶的興趣模型,即用戶描述文件。根據(jù)用戶描述文件的不同又可以分為基于向量空間模型的推薦、基于關(guān)鍵詞分類的推薦、基于領(lǐng)域分類的推薦和基于潛在語(yǔ)義索引的推薦。這種方式直接、簡(jiǎn)單,推薦結(jié)果易于解釋。可以體現(xiàn)用戶興趣的多樣性,而且由于用戶感興趣領(lǐng)域的個(gè)數(shù)遠(yuǎn)小于關(guān)鍵詞的個(gè)數(shù),算法的運(yùn)算速度也得到了提高。
傳統(tǒng)的協(xié)同過濾推薦技術(shù)根據(jù)用戶顯式評(píng)分產(chǎn)生推薦結(jié)果,不僅用戶使用不方便,而且不能有效地解決數(shù)據(jù)稀疏問題及最初評(píng)價(jià)問題等經(jīng)典問題。隨著www的發(fā)展,Web本身就是一種新數(shù)據(jù)源,在Web日志中積累了大量的有用的信息,因此可以通過Web挖掘技術(shù)來獲取用戶的隱式評(píng)分,所以未來的電子商務(wù)推薦系統(tǒng)應(yīng)該利用盡可能多的信息,收集多種類型的數(shù)據(jù),有效集成多種推薦技術(shù),提供多種推薦功能,從而提供更加有效的個(gè)性化推薦服務(wù)。
目前的電子商務(wù)推薦系統(tǒng)主要面向用戶,未來電子商務(wù)系統(tǒng)除了為用戶作出個(gè)性化推薦服務(wù)外,還應(yīng)集成企業(yè)資源計(jì)劃系統(tǒng)(ERP)、客戶關(guān)系管理系統(tǒng)(CRM)和供應(yīng)鏈管理系統(tǒng)(SCM)等企業(yè)信息系統(tǒng),以便將企業(yè)商務(wù)活動(dòng)中產(chǎn)生的大量業(yè)務(wù)數(shù)據(jù)和顧客信息轉(zhuǎn)化為知識(shí),增強(qiáng)其市場(chǎng)分析能力,共同為企業(yè)的產(chǎn)品定價(jià)、銷售、管理等提供決策支持,增強(qiáng)企業(yè)的市場(chǎng)競(jìng)爭(zhēng)能力。
[1]劉建國(guó),周濤,汪秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009(01).
[2]曾春,邢春曉,周立柱.基于內(nèi)容過濾的個(gè)性化搜索算法[J].軟件學(xué)報(bào),2003,14(05):999-1004.