鄭 茹
(山西大學(xué),太原 030006)
在互聯(lián)網(wǎng)及相關(guān)技術(shù)迅猛發(fā)展的時(shí)代,越來(lái)越多的網(wǎng)民在進(jìn)行網(wǎng)購(gòu)的同時(shí)也積極推動(dòng)著電子商務(wù)化的進(jìn)程。但對(duì)普通客戶(hù)而言,在享受網(wǎng)購(gòu)的同時(shí),對(duì)接觸到的海量信息也感到迷茫,如淘寶網(wǎng)上數(shù)千萬(wàn)以上的各類(lèi)商品。面對(duì)如此多的信息,傳統(tǒng)的搜索方式已經(jīng)無(wú)法幫助客戶(hù)快速定位感興趣的商品,而個(gè)性化推薦就是為解決網(wǎng)上信息過(guò)載問(wèn)題而提出的一種智能代理系統(tǒng)。它能根據(jù)客戶(hù)的興趣特點(diǎn)和購(gòu)買(mǎi)行為,向客戶(hù)推薦其感興趣的信息和商品,目的是增加商品的交叉銷(xiāo)售,提高企業(yè)銷(xiāo)售額;能夠增強(qiáng)客戶(hù)購(gòu)買(mǎi)興趣,構(gòu)建客戶(hù)的忠誠(chéng)度,提高客戶(hù)對(duì)網(wǎng)站的訪(fǎng)問(wèn)頻率和依賴(lài)程度[1]?,F(xiàn)在的網(wǎng)站運(yùn)用多種技術(shù)向客戶(hù)推薦產(chǎn)品,已給電商領(lǐng)域帶來(lái)了巨大利潤(rùn),但在數(shù)據(jù)挖掘過(guò)程中仍存在不少問(wèn)題,推薦效果仍待提高。在各種方法的研究中,協(xié)同過(guò)濾和基于內(nèi)容的推薦是運(yùn)用最為廣泛的兩種推薦方法。但現(xiàn)今的研究過(guò)程中存在未考慮用戶(hù)隨時(shí)間變化興趣變化問(wèn)題及推薦產(chǎn)品陳舊問(wèn)題,本文將提出新的推薦方法加以解決。
最早研究起源于明尼蘇達(dá)大學(xué)的研究小組對(duì)一個(gè)電影推薦系統(tǒng)的研究。該研究設(shè)計(jì)系統(tǒng)讓用戶(hù)對(duì)自己喜歡的電影評(píng)分,然后通過(guò)分析用戶(hù)的評(píng)分預(yù)測(cè)用戶(hù)的興趣,給用戶(hù)推薦他們沒(méi)有評(píng)分但可能會(huì)喜歡的電影。1995年美國(guó)人工智能協(xié)會(huì)上,CMU的Robert等人提出了個(gè)性化導(dǎo)航系統(tǒng),同期Marko等人推出LIRA,不久Henry在國(guó)際人工智能聯(lián)合大會(huì)上提出個(gè)性化導(dǎo)航智能體。這三個(gè)經(jīng)典的系統(tǒng)標(biāo)志了個(gè)性化推薦服務(wù)的開(kāi)始。而21世紀(jì)初亞馬遜等電商網(wǎng)站的迅速崛起使個(gè)性化推薦系統(tǒng)逐步發(fā)展起來(lái)。我國(guó)是從2000年正式開(kāi)始此項(xiàng)研究的,雖然起步較晚,但也取得了一定的成果,如路海明等提出的“基于多agent混合智能實(shí)現(xiàn)個(gè)性化推薦”、陳國(guó)青等人提出的ELCM等。
推薦對(duì)象隨應(yīng)用領(lǐng)域的不同而不同。目前推薦系統(tǒng)算法有許多,有學(xué)者將其分為被動(dòng)式和主動(dòng)式推薦。被動(dòng)式推薦有分類(lèi)瀏覽式和關(guān)鍵詞查詢(xún)式。主動(dòng)式推薦有基于內(nèi)容、協(xié)同過(guò)濾、混合等推薦。隨著數(shù)據(jù)量的不斷增加,對(duì)數(shù)據(jù)挖掘要求也不斷提高,許多學(xué)者結(jié)合計(jì)算機(jī)領(lǐng)域知識(shí)對(duì)推薦方法進(jìn)行改進(jìn),也提出了基于圖的推薦、基于矩陣分解的推薦等。現(xiàn)今研究最常用的是基于內(nèi)容推薦和協(xié)同過(guò)濾,本文也是基于此二者推薦的改進(jìn)。
基于內(nèi)容推薦的基本思想:利用信息與用戶(hù)興趣相似性來(lái)過(guò)濾信息。簡(jiǎn)單說(shuō)就是為用戶(hù)推薦和該用戶(hù)之前喜歡的項(xiàng)目在內(nèi)容上相似的其他項(xiàng)目。基于內(nèi)容的推薦算法需要首先提取項(xiàng)目的內(nèi)容特征,并把提取的內(nèi)容特征與用戶(hù)模型中的用戶(hù)興趣愛(ài)好進(jìn)行匹配,最后把匹配度較高的項(xiàng)目推薦給用戶(hù)[2]。一般用向量空間模型,該模型先抽取描述項(xiàng)目的關(guān)鍵詞,后利用TF-IDF計(jì)算關(guān)鍵詞權(quán)重。此技術(shù)運(yùn)用時(shí)可以脫機(jī)進(jìn)行,所以響應(yīng)時(shí)間短。缺點(diǎn)是對(duì)項(xiàng)目?jī)?nèi)容的依賴(lài)性過(guò)高,難區(qū)分商品品質(zhì)和風(fēng)格,缺乏新穎性。
協(xié)同過(guò)濾的基本思路:首先找到與此客戶(hù)有相似興趣的其他客戶(hù),然后將他們感興趣的商品內(nèi)容給此客戶(hù)進(jìn)行推薦。其分為基于用戶(hù)的協(xié)同過(guò)濾和基于項(xiàng)目的協(xié)同過(guò)濾。基于用戶(hù)的協(xié)同過(guò)濾假設(shè),一個(gè)用戶(hù)會(huì)喜歡和他有相似興趣愛(ài)好的用戶(hù)喜歡的項(xiàng)目。推薦過(guò)程:用戶(hù)c,系統(tǒng)通過(guò)其歷史記錄如:瀏覽行為、評(píng)分記錄等。利用函數(shù)為用戶(hù)c尋找n個(gè)最相似的用戶(hù)作為他的最近鄰居集,且將c的n個(gè)最近鄰居感興趣而c未表現(xiàn)出興趣的項(xiàng)目列為候選推薦集,推薦系統(tǒng)用算法計(jì)算為c推薦的候選集中項(xiàng)目的推薦度或評(píng)分,選取推薦度排序最高的N個(gè)項(xiàng)目為對(duì)c的推薦集。而基于項(xiàng)目的協(xié)同過(guò)濾推薦算法,其主要思想是通過(guò)“用戶(hù)一項(xiàng)目”矩陣來(lái)識(shí)別不同項(xiàng)目之間的關(guān)聯(lián),利用這一關(guān)聯(lián)計(jì)算用戶(hù)對(duì)特定項(xiàng)目的評(píng)分從而產(chǎn)生推薦集。該算法比較好地解決了傳統(tǒng)協(xié)同過(guò)濾算法的可擴(kuò)展性問(wèn)題。
傳統(tǒng)的推薦研究忽略以下幾個(gè)問(wèn)題的存在:(1)用戶(hù)-項(xiàng)目矩陣稀疏問(wèn)題。(2)用戶(hù)興趣隨時(shí)間的變化而變化的情況。(3)項(xiàng)目?jī)?nèi)容陳舊問(wèn)題。為解決以上三個(gè)問(wèn)題,本文從以下幾個(gè)方面入手:(1)用戶(hù)—項(xiàng)目稀疏導(dǎo)致的推薦精度問(wèn)題可以通過(guò)用戶(hù)聚類(lèi)改善。(2)用戶(hù)興趣的改變可以在傳統(tǒng)協(xié)同過(guò)濾方法中引入非線(xiàn)性遺忘函數(shù),將用戶(hù)對(duì)項(xiàng)目屬性的興趣度通過(guò)函數(shù)形式表示出來(lái)。(3)以往的推薦中不考慮項(xiàng)目?jī)?nèi)容問(wèn)題,會(huì)使推薦內(nèi)容陳舊,新穎性不大,所以,可以引入產(chǎn)品生命周期的計(jì)算方式,對(duì)已進(jìn)入衰退期的產(chǎn)品進(jìn)行剔除,不僅可以緩解U-I矩陣稀疏帶來(lái)的問(wèn)題還能提高推薦新穎性。
本文提出考慮時(shí)間因素的推薦方法,具體推薦步驟如下:Step1-建立用戶(hù)興趣模型:首先構(gòu)建用戶(hù)—評(píng)分矩陣、商品—屬性矩陣,通過(guò)在計(jì)算中加入非線(xiàn)性遺忘函數(shù)得到考慮時(shí)間因素的用戶(hù)-商品屬性評(píng)分矩陣。Step2—通過(guò)person相關(guān)系數(shù)計(jì)算出用戶(hù)間相似性,運(yùn)用社區(qū)劃分法劃分用戶(hù)社區(qū),形成帶有社區(qū)性質(zhì)的用戶(hù)關(guān)系網(wǎng)。Step3—通過(guò)產(chǎn)品生命周期計(jì)算方式對(duì)已進(jìn)入衰退期的產(chǎn)品進(jìn)行剔除。Step4—在每個(gè)社區(qū)內(nèi)通過(guò)評(píng)分預(yù)測(cè)算法為每位用戶(hù)形成項(xiàng)目推薦集。Step5—向用戶(hù)推薦排在推薦集前10位的產(chǎn)品。
伴隨推薦系統(tǒng)的產(chǎn)生,推薦系統(tǒng)衡量指標(biāo)也隨之產(chǎn)生。通常,定性描述的指標(biāo)需要對(duì)用戶(hù)調(diào)查才能獲得,主要方式是調(diào)查問(wèn)卷。定量實(shí)驗(yàn)預(yù)測(cè)準(zhǔn)確度,計(jì)算指標(biāo)通過(guò)離線(xiàn)實(shí)驗(yàn)獲得。根據(jù)推薦目的,推薦算法為用戶(hù)估計(jì)特定項(xiàng)目的評(píng)分,或?yàn)橛脩?hù)產(chǎn)生一個(gè)推薦項(xiàng)目列表。前者常采用平均絕對(duì)誤差、均方根誤差評(píng)價(jià)估計(jì)的準(zhǔn)確性,后者多采用信息檢索領(lǐng)域常用的查全率和查準(zhǔn)率評(píng)價(jià)推薦列表的準(zhǔn)確性。而一些推薦系統(tǒng)也會(huì)通過(guò)評(píng)分預(yù)測(cè)、Top-K推薦、覆蓋率等評(píng)價(jià)推薦系統(tǒng)發(fā)覺(jué)長(zhǎng)尾能力。我們可以運(yùn)用以上指標(biāo)來(lái)衡量本文提出的新方法。
參考文獻(xiàn):
[1]姜有輝,高琳琦.電子商場(chǎng)中的個(gè)性化推薦研究與應(yīng)用[J].商場(chǎng)現(xiàn)代化,2006,(6):121-122.
[2]楊博,趙鵬飛.推薦算法綜述[J].山西大學(xué)學(xué)報(bào),2011,(6):337-350.