彭潔+徐劍暉+陳超
摘要:針對(duì)現(xiàn)有電子商務(wù)中農(nóng)產(chǎn)品個(gè)性化推薦方案精度較低的問題,提出一種基于潛在類回歸模型(latent-class regression model,簡稱LCRM)和組群偏好的個(gè)性化推薦方案。首先,收集農(nóng)產(chǎn)品的評(píng)價(jià)信息,進(jìn)行預(yù)處理,提取出每個(gè)評(píng)價(jià)者的特征-意見值對(duì)。然后,利用LCRM根據(jù)整體與特征評(píng)價(jià),將具有相同愛好的評(píng)價(jià)者進(jìn)行分組,構(gòu)建組群偏好,并計(jì)算單個(gè)評(píng)價(jià)者的偏好。最后,通過計(jì)算用戶與組群偏好的相似度來定位組群,通過計(jì)算用戶與該組群中評(píng)價(jià)者偏好的相似度來定位農(nóng)產(chǎn)品,最終列出推薦表。結(jié)果表明,該方案能夠準(zhǔn)確為用戶推薦所需的農(nóng)產(chǎn)品,推薦列表中農(nóng)產(chǎn)品的命中率達(dá)到了83%,同時(shí)具有較低的計(jì)算復(fù)雜度。
關(guān)鍵詞:電子商務(wù);農(nóng)產(chǎn)品個(gè)性化推薦;潛在類回歸模型;組群偏好
中圖分類號(hào): TP391文獻(xiàn)標(biāo)志碼: A文章編號(hào):1002-1302(2017)12-0274-05
現(xiàn)今,利用網(wǎng)絡(luò)進(jìn)行日常商業(yè)交易的互聯(lián)網(wǎng)用戶越來越多,許多公司利用網(wǎng)絡(luò)來銷售他們的商品和服務(wù)。由于冷藏運(yùn)輸條件的改善,水果、蔬菜等農(nóng)產(chǎn)品也開始融入到電子商務(wù)中[1]。在電子商務(wù)中,對(duì)于一個(gè)特定的商品,顧客面臨多個(gè)選擇,常處于困惑和迷失狀態(tài)。對(duì)于網(wǎng)站管理員而言,評(píng)估提供的商品和服務(wù)是否迎合用戶,為用戶提供感興趣的個(gè)性化商品推薦單至關(guān)重要[2]。
目前學(xué)者提出了多種電子商務(wù)推薦方案,例如Huang提出了一種基于知識(shí)決策支持的推薦方案,將推薦問題轉(zhuǎn)化成約束滿意問題,通過知識(shí)庫檢測商品和用戶偏好的匹配度,查找與用戶首選最接近的商品來生成推薦列表[3]。然而,這種方案僅依靠評(píng)價(jià)特征詞出現(xiàn)的頻率來定位商品,準(zhǔn)確率較低。Krohn-Grimberghe等提出了一種基于評(píng)價(jià)特征分析的推薦方案,從眾多評(píng)價(jià)中提取特征,采用多關(guān)系矩陣分解(multi-relational matrix factorization,簡稱MRMF)來搭建用戶對(duì)商品和特定特征觀點(diǎn)之間相關(guān)性的模型,從而預(yù)測客戶所需商品的可能性[4]。然而,這種方案的局限性在于并沒有強(qiáng)調(diào)新用戶“不完全偏好”現(xiàn)象。Jain等提出了一種基于線性回歸模型(linear regression model,簡稱LRM)的推薦方案,利用評(píng)價(jià)者評(píng)論形成評(píng)價(jià)者偏好,根據(jù)用戶和該偏好的相似度來定位商品[5]。然而,該方案僅匹配用戶與單個(gè)評(píng)價(jià)者的偏好,沒有考慮其他用戶評(píng)價(jià)中的商品潛在信息,一定程度上影響了推薦精度。另外,現(xiàn)有的推薦方案主要是應(yīng)用在電影、圖書、電子產(chǎn)品等商品,對(duì)農(nóng)產(chǎn)品的個(gè)性化推薦研究較少。鄭云飛等設(shè)計(jì)了一種農(nóng)產(chǎn)品協(xié)同過濾推薦系統(tǒng)[6],但主要側(cè)重于軟件系統(tǒng)的構(gòu)建,對(duì)推薦方案的描述較少,且效果不佳。將高效的個(gè)性化推薦技術(shù)應(yīng)用到農(nóng)產(chǎn)品推薦中,將會(huì)有助于農(nóng)產(chǎn)品電子商務(wù)和農(nóng)業(yè)地區(qū)經(jīng)濟(jì)的發(fā)展,具有重要的意義[7-8]。
偏好模型基于多屬性效用理論(multi-attribute utility theory,簡稱MAUT)[9],根據(jù)用戶偏好,利用匹配工具將所有商品進(jìn)行排序從而給出推薦。然而,傳統(tǒng)偏好模型盡管可以基于交互式偏好技術(shù)來了解買家的需求,但所得出的偏好不完整且不準(zhǔn)確。另外,現(xiàn)有基于偏好模型的推薦方案中,大多僅考慮根據(jù)單個(gè)評(píng)價(jià)者對(duì)商品的評(píng)價(jià)信息建立偏好,沒有充分挖掘商品評(píng)價(jià)中其他客戶有價(jià)值的評(píng)價(jià)信息,不能很好地為新用戶進(jìn)行推薦。
為此,本研究針對(duì)農(nóng)產(chǎn)品的個(gè)性化推薦應(yīng)用,提出一種基于潛在類回歸模型(latent-class regression model,簡稱LCRM)的推薦方案[10]。利用LCRM根據(jù)整體與特征評(píng)價(jià),將具有相同愛好的評(píng)價(jià)者進(jìn)行分組,構(gòu)建組群偏好,并計(jì)算單個(gè)評(píng)價(jià)者的偏好。通過計(jì)算用戶與組群偏好的相似度來定位組群,通過計(jì)算用戶與該組群中評(píng)價(jià)者偏好的相似度來定位農(nóng)產(chǎn)品,最終給出推薦列表。結(jié)果表明,本研究方案能夠準(zhǔn)確地為客戶推薦所需的農(nóng)產(chǎn)品。
1方案架構(gòu)
根據(jù)現(xiàn)有的偏好啟發(fā)式技術(shù),可以推導(dǎo)出當(dāng)前新買家對(duì)農(nóng)產(chǎn)品特征的偏好,并基于多屬性效用理論進(jìn)行模型化:prefu={(fi,wui)|1≤i≤n}。其中prefu表示用戶偏好;fi表示從所有評(píng)價(jià)中提取的第i個(gè)特征;wui表示特征fi對(duì)應(yīng)的偏好權(quán)重,但是,由此推導(dǎo)出的偏好事實(shí)上并不完整[11]。因此,為了生成當(dāng)前買家的精確推薦,其核心理念是:區(qū)分買家固有偏好與農(nóng)產(chǎn)品評(píng)價(jià)者間的相似性。其中,亟待解決的問題有:(1)根據(jù)買家提供的評(píng)價(jià)信息來恢復(fù)評(píng)價(jià)者的多特征偏好;(2)建立當(dāng)前買家和評(píng)價(jià)者間的偏好相關(guān)性;(3)預(yù)測買家的完整偏好,并作出推薦。
純粹地計(jì)算評(píng)價(jià)中特征的發(fā)生頻率并不能真實(shí)地體現(xiàn)評(píng)價(jià)者的偏好權(quán)重,因此,須要引入更先進(jìn)的學(xué)習(xí)方法,用以綜合考慮評(píng)價(jià)者的整體評(píng)價(jià)和特征級(jí)意見。此外,單個(gè)評(píng)價(jià)者生成的信息是有限的,所以提出方法中須包含多個(gè)評(píng)價(jià)者,生成它們的偏好相似性,并構(gòu)建組群的偏好。
本研究的基本思想是,根據(jù)所有評(píng)論信息(包括整體評(píng)價(jià)和特征觀點(diǎn)評(píng)價(jià)),首先將評(píng)論者分組創(chuàng)建無監(jiān)督集群,目的是建立組群偏好來代表1個(gè)組群評(píng)論者的共同喜好。同時(shí),使用組群級(jí)偏好調(diào)整評(píng)論者級(jí)偏好。在下一次迭代循環(huán)中,再使用評(píng)論者級(jí)偏好來改善組群結(jié)果。當(dāng)2種類型的偏好都穩(wěn)定不變的時(shí)候,迭代終止。然后通過計(jì)算機(jī)用戶與組群偏好和評(píng)價(jià)者級(jí)偏好的相似度來定位農(nóng)產(chǎn)品。本研究推薦系統(tǒng)的工作流程主要由三大步驟構(gòu)成,如圖1所示。
步驟1:對(duì)評(píng)價(jià)進(jìn)行預(yù)處理,進(jìn)行特征級(jí)意見挖掘,用以確定每個(gè)評(píng)價(jià)者的特征-意見值〈feature,opinion_value〉對(duì)。意見(opinion)表示評(píng)價(jià)者對(duì)特征的積極、中性或負(fù)面的評(píng)價(jià)。
步驟2:利用潛在類回歸模型生成評(píng)價(jià)者組群的偏好(組群級(jí)偏好),然后推斷出評(píng)價(jià)者的權(quán)重偏好(評(píng)價(jià)者級(jí)偏好)。該模型集成了4個(gè)評(píng)價(jià)元素:評(píng)價(jià)者對(duì)農(nóng)產(chǎn)品的整體評(píng)價(jià);評(píng)價(jià)中每個(gè)特征相關(guān)聯(lián)的意見;特征發(fā)生頻率(作為1種先驗(yàn)知識(shí)進(jìn)行建模);評(píng)價(jià)者推薦的農(nóng)產(chǎn)品。endprint
步驟3:根據(jù)步驟2輸出的評(píng)價(jià)者級(jí)偏好和組群級(jí)偏好,計(jì)算用戶偏好和組群偏好的相似度,再計(jì)算用戶偏好與組群中評(píng)價(jià)者偏好的相似度,最終定位相關(guān)農(nóng)產(chǎn)品,并返回排名前N的農(nóng)產(chǎn)品。同時(shí)通過評(píng)價(jià)任務(wù)測試當(dāng)前買家的目標(biāo)選擇(即買家打算購買的農(nóng)產(chǎn)品)是否存在反饋農(nóng)產(chǎn)品列表中。該步驟通過組群偏好機(jī)制,來解決僅依靠單個(gè)評(píng)價(jià)者偏好所產(chǎn)生的不穩(wěn)定性。文中相關(guān)符號(hào)及說明如表1所示。
2預(yù)處理:提取特征-意見值對(duì)
在推導(dǎo)評(píng)價(jià)者權(quán)重偏好前,須先對(duì)原始評(píng)價(jià)文本進(jìn)行預(yù)處理, 轉(zhuǎn)化生成特征-意見值〈feature,opinion_value〉對(duì)。本表1涉及的符號(hào)及說明
符號(hào)含義REV={rev1,…,revM}表示M個(gè)評(píng)價(jià)者的集合P={p1,…,p|P|}P個(gè)農(nóng)產(chǎn)品的集合SREV×P評(píng)價(jià)者-農(nóng)產(chǎn)品對(duì)的集合,其中(revi,pj)∈S表示一個(gè)評(píng)價(jià)者revi對(duì)農(nóng)產(chǎn)品pj發(fā)表的評(píng)價(jià)F={f1,…,fn}表示從所有評(píng)價(jià)中提取的不相同特征rijrij表示評(píng)價(jià)者revi給農(nóng)產(chǎn)品pj的評(píng)價(jià)Rij評(píng)價(jià)者revi給農(nóng)產(chǎn)品pj的整體評(píng)價(jià)等級(jí)Xij=[xij1,…,xijn]在評(píng)價(jià)rij中關(guān)于特征F的觀點(diǎn)值Wrevi=[wi1,…,win]評(píng)價(jià)者revi的權(quán)重偏好,其中wi1是特征fi∈F的權(quán)重,若評(píng)價(jià)者對(duì)該特征沒有評(píng)價(jià),則權(quán)重為0c=[c1,…,ck]評(píng)價(jià)者的k個(gè)組群Wck=[wck1,…,wckn]組群ck的偏好,其中wck1是特征fi∈F的組群權(quán)重偏好z=[z1,…,zM]具有M個(gè)評(píng)價(jià)者的組群,zi=k時(shí)表示評(píng)價(jià)者revi屬于組群ck
研究實(shí)施2個(gè)步驟來生成特征-意見值對(duì):
步驟1:從評(píng)價(jià)中提取特征并對(duì)同義詞特征進(jìn)行分組。本研究中使用Core-NLP包的詞性標(biāo)記(part-of-speech,簡稱POS)來提取常見的名詞和名詞短語,用以識(shí)別潛在的候選特征。此外,評(píng)價(jià)者常常用不同的詞表示相同的農(nóng)產(chǎn)品特征,為此,本研究定義了種子詞集合,利用WordNet工具[12],通過計(jì)算詞匯與種子詞的相似度來對(duì)同義特征進(jìn)行分組。這種處理有助于識(shí)別可靠的特征表述,并有效地對(duì)詞匯進(jìn)行分組。
步驟2:量化意見值。本研究評(píng)估每個(gè)意見詞的情緒強(qiáng)度(也叫做極性值),為此,研究中對(duì)每個(gè)意見詞s提供3種極性值:積極性、消極性、客觀性,分別記為Pos(s)、Neg(s)和Obj(s),范圍從0.0到1.0,并滿足Pos(s)+Neg(s)+Obj(s)=1。然后,將3種分值綜合為單一的情感評(píng)分:Os=Neg(s)×Rmin+Pos(s)×Rmax+Obj(s)×Rmin+Rmax2。其中,Rmin和Rmax分別表示最小和最大規(guī)模。設(shè)置Rmin=1、Rmax=5;Os范圍為從1到5。
3基于潛在類回歸模型的計(jì)算偏好
通常,一些暢銷農(nóng)產(chǎn)品有多個(gè)評(píng)價(jià),因此,單一評(píng)價(jià)者提供的信息是非常有限的。在基于傳統(tǒng)回歸模型的方法中,稀疏現(xiàn)象可能會(huì)導(dǎo)致過度擬合問題,因?yàn)樵u(píng)價(jià)者權(quán)重偏好的絕對(duì)偏差完全取決于自身評(píng)價(jià)。此外,根據(jù)傳統(tǒng)回歸模型推導(dǎo)的權(quán)重偏好值的范圍處于多元高斯分布均值μ附近,由于輸出結(jié)果受到均值μ的約束,所以不能充分反映評(píng)價(jià)者的真實(shí)偏好。為此,本研究利用潛在類回歸模型,通過固有偏好與其他評(píng)價(jià)者之間相似性的比較,來準(zhǔn)確地估計(jì)評(píng)價(jià)者的權(quán)重偏好。
3.1LCRM簡述
LCRM起源于市場營銷領(lǐng)域,用于市場細(xì)分工作,致力于尋找潛在客戶。根據(jù)他們的偏好,劃分為相對(duì)較小的同質(zhì)組群。具體來說,LCRM方法假設(shè)整個(gè)族群可以通過有限數(shù)量的劃分進(jìn)行定義(每個(gè)劃分代表了市場分割中的1個(gè)消費(fèi)者組群),所以LCRM的首要目標(biāo)是按組群級(jí)來評(píng)估每個(gè)劃分的回歸模型[13]。因此,LCRM可以根據(jù)單一實(shí)體的回歸值相關(guān)知識(shí)(例如:來自單個(gè)消費(fèi)者),利用整個(gè)族群結(jié)構(gòu)生成組群。當(dāng)實(shí)體具有最高的隸屬概率時(shí),將其分配給唯一的組群。
本研究利用LCRM同時(shí)獲得所有評(píng)價(jià)者的偏好和組群級(jí)偏好,不僅要考慮評(píng)價(jià)者的自身信息,還將其與其他評(píng)價(jià)者間相似的固有偏好進(jìn)行合并,解決僅依靠單一評(píng)價(jià)者信息帶來的不準(zhǔn)確性問題。
3.2計(jì)算組群級(jí)和評(píng)價(jià)者級(jí)偏好
根據(jù)LCRM模型,首先假設(shè)將所有的評(píng)價(jià)者劃分為k個(gè)組群C={c1,c2,…,ck}。整體評(píng)級(jí)Rij的似然概率函數(shù)定義如下:
Pro(Rij|Xij,F(xiàn))=∑kk=1πkPro(Rij|Xij,ck)。(1)
其中:F表示所有參數(shù)集;πk表示組群ck的先驗(yàn)概率;Xij是與評(píng)價(jià)者revi的F特征相關(guān)聯(lián)的意見值向量。在公式(1)中,Pro(Rij|Xij,ck)給出了整體評(píng)價(jià)Rij的條件概率,其中revi屬于組群ck:
Pro(Rij|Xij,ck)=Pro(Rij|Xij,Wrevi)·Pro(Wrevi|ck)。(2)
式中:Wrevi表示評(píng)價(jià)者revi的權(quán)重偏好;Pro(Rij|Xij,Wrevi)給出了Wrevi的似然度和特征意見向量Xij。這里,可以從組群級(jí)偏好分布中推導(dǎo)得到評(píng)價(jià)者級(jí)偏好。該偏好可能是一種均值為Wck(組群級(jí)偏好)、協(xié)方差為∑k的多元高斯分布:
Pro(Wrevi|ck)=Pro(Wrevi|Wck,∑k)~N(Wrevi|Wck,∑k)。(3)
此外,組群級(jí)偏好分布N(Wrevi|Wck,∑k)具有不確定性,基于KL散度模擬如下:
Pro(Wck,∑k)=exp{-ψ·KL[N(Wck,∑k)|N(μ0,I)]}。(4)
其中,μ0表示評(píng)價(jià)中特征發(fā)生頻率的集合。
由于整體評(píng)價(jià)Rij已知,因此,可以估計(jì)評(píng)價(jià)者屬于某一組群的概率。
qk(revi)=∏(revi,pj)∈S πjk·Pro(Rij|Xij,ck)∑ch∈Cπjh·Pro(Rij|Xij,ch)。(5)endprint
此外,可以合理假設(shè),推薦相同農(nóng)產(chǎn)品的評(píng)價(jià)者中,誰的偏好相關(guān)性更高,因此,推薦農(nóng)產(chǎn)品pj的分布πj={-πj1,…,πjk}可作為模擬的先驗(yàn)概率,其中revi屬于確定的組群。所有觀察S(收集的評(píng)價(jià)者-農(nóng)產(chǎn)品對(duì))的完全混合對(duì)數(shù)似然度定義如下:
L(Φ|S)=∑(revi,pj)∈Slog (∑kk=1πk·Pro(Rij|Xij,ck))。(6)
進(jìn)一步推導(dǎo)公式(7)、(9),分別用于推導(dǎo)組群級(jí)偏好和評(píng)價(jià)級(jí)偏好:
W^ck=(Nk∑k-1+ψ·I)-1(∑k-1∑Mzi=kWrevi+ψ·I·μ0)。(7)
當(dāng)
∑^k=1ψ∑Mzi=k(Wrevi-Wck)(Wrevi-Wck)T+(Nk-ψ2ψ)2I1/2-Nk-ψ2ψIT。(8)
W^revi=1N(revi)∑(revi,pj)∈S(XijXTijσ2+∑k-1)-1(Rij-WTreviXij)σ2+∑k-1Wck。(9)
上式中,N(revi)為評(píng)價(jià)者revi提出的評(píng)價(jià)數(shù)。
然后,通過期望-最大化(expectation maximization,簡稱EM)算法估計(jì)參數(shù)集:Φ={z1,…,zM,Wc1,…,Wck,∑1,…,∑k,Wrev1,…,WervM},通過以下2步迭代過程確定最大對(duì)數(shù)似然度。
3.2.1期望步驟(E)根據(jù)個(gè)體評(píng)價(jià)者偏好Wrevi,更新評(píng)價(jià)者組群分配、組群級(jí)偏好分布和組群先驗(yàn)概率。
(1)組群分配zi(如果評(píng)價(jià)者revi屬于組群revi,則zi=k),公式:
zi=arg maxkqk(revi)。(10)
式中,qk(revi)與公式(5)相關(guān)。只有當(dāng)獲得最高概率時(shí),評(píng)價(jià)者才分配給組群。
(2)對(duì)于每個(gè)組群,組群級(jí)偏好Wck用公式(7)進(jìn)行更新。
(3)組群的先驗(yàn)概率(即,πj={-πj1,…,πjk})可視為多項(xiàng)分布,并通過拉普拉斯平滑更新:
πjk=∑(revi,pj)∈SIzi=k+λN(pj)+K×λ。(11)
式中,N(pj)表示農(nóng)產(chǎn)品pj的評(píng)價(jià)數(shù),平滑參數(shù)變化范圍λ∈[0,1]。
3.2.2最大化步驟(M)在該步驟中,旨在通過公式(9)更新評(píng)價(jià)者偏好Wrev1。
重復(fù)E和M步驟,直到方程(6)收斂。最終,將所有評(píng)價(jià)者劃分為k個(gè)不相交組群,并獲得每個(gè)組群生成的組群級(jí)偏好Wck和每個(gè)評(píng)價(jià)者的評(píng)價(jià)級(jí)偏好Wrevi。
4基于偏好相似度生成推薦
本研究通過2個(gè)步驟來精確生成當(dāng)前買家推薦:(1)計(jì)算買家與評(píng)價(jià)者組群的相似度,將買家分類到最相關(guān)組群;(2)計(jì)算買家與該組群中評(píng)價(jià)者的相似度來定位農(nóng)產(chǎn)品。買家和組群間的偏好相似度計(jì)算如下:
sim(Wu,Wck)=11+∑i=1n[wfi(u)-wfi(ck)]2。(12)
式中,Wu表示買家聲明的權(quán)重偏好;Wck表示組群ck的組群級(jí)偏好。
為買家選擇具有高相似度值的組群。在該組群中對(duì)應(yīng)的評(píng)價(jià)者級(jí)偏好中,尋找與當(dāng)前買家最相似的k個(gè)評(píng)價(jià)者。評(píng)價(jià)者和當(dāng)前買家間的相似度計(jì)算公式:
sim(Wu,Wrevi)=11+∑wfi∈Wu[wfi(u)-wfi(revi)]2。(13)
式中,wfi(u)是基于特征的當(dāng)前買家權(quán)重偏好fi;wfi(revi)是第i個(gè)評(píng)論者。
然后,由這k個(gè)評(píng)價(jià)者生成得到農(nóng)產(chǎn)品池,計(jì)算得到農(nóng)產(chǎn)品pj的預(yù)測評(píng)分,其匹配程度表明了買家的潛在興趣:
PredictionScore(u,pj)=∑revi∈ci⌒K^(revi,pj)∈Ssim(Wu,Wrevi)×Rij∑revi∈ci⌒K^(revi,pj)∈Ssim(Wu,Wrevi)。(14)
式中:ci表示最相關(guān)組群;K表示k最相近評(píng)價(jià)者集合;Rij為評(píng)價(jià)者對(duì)農(nóng)產(chǎn)品的整體評(píng)價(jià);sim(Wu,Wrevi)為買家u和評(píng)價(jià)者revi間的偏好相似度。將具有較高評(píng)分的前N個(gè)農(nóng)產(chǎn)品生成推薦列表,并推薦給買家。
5試驗(yàn)與分析
5.1試驗(yàn)設(shè)置及數(shù)據(jù)集
試驗(yàn)中從1個(gè)電子商務(wù)網(wǎng)站上獲取一些農(nóng)產(chǎn)品(水果、蔬菜等)的網(wǎng)上銷售數(shù)據(jù)集。對(duì)于每個(gè)文本,對(duì)評(píng)價(jià)者的評(píng)價(jià)分配等級(jí)為1~5星。首先清理數(shù)據(jù)集:(1)移除少于4個(gè)特征的評(píng)價(jià)(包括那些太短或沒有意義的字符)[14];(2)移除少于10個(gè)評(píng)價(jià)的農(nóng)產(chǎn)品。清理過程確保每個(gè)評(píng)價(jià)都包含相當(dāng)量的信息,每個(gè)農(nóng)產(chǎn)品都有充分的評(píng)價(jià)用于分析[15]。該步驟之后,農(nóng)產(chǎn)品數(shù)據(jù)集有122種農(nóng)產(chǎn)品,一共18 251個(gè)評(píng)價(jià)。其中,每個(gè)評(píng)價(jià)者在農(nóng)產(chǎn)品上只給出1條評(píng)價(jià)。數(shù)據(jù)集的詳細(xì)信息如表2所示。
5.2性能指標(biāo)
使用命中率和平均倒數(shù)排名(mean reciprocal rank,簡稱MRR)作為試驗(yàn)指標(biāo)。
命中率(H@N)主要用于檢測所選擇目標(biāo)是否出現(xiàn)在N推薦集中 (試驗(yàn)中,N設(shè)置為5、10、20)。 它返回用戶選擇命
5.3結(jié)果與分析
將2種現(xiàn)有商品推薦方案應(yīng)用到農(nóng)產(chǎn)品推薦中,并將本研究方案與這2種方案和僅利用評(píng)論者級(jí)偏好的本研究方案進(jìn)行比較,4種方案分別為:(1)本研究方案(LCRM+評(píng)價(jià)者級(jí)偏好+組群級(jí)偏好);(2)LCRM+評(píng)價(jià)者級(jí)偏好;(3)文獻(xiàn)[4]方案(MRMF);(4)文獻(xiàn)[5]方案(LRM)。另外,試驗(yàn)中設(shè)置推薦列表長度N為5、10、20等3種情況。
由圖2可以看出,基于LCRM的方案能夠獲得較優(yōu)的性能,因?yàn)榛谫I家和評(píng)論者之間的相似關(guān)系建立特征偏好,同時(shí)也表明LCRM在推導(dǎo)單個(gè)評(píng)論者特征偏好時(shí)比傳統(tǒng)回歸模型更加精確。然而,文獻(xiàn)[5]中傳統(tǒng)LRM純粹依靠評(píng)論者自身提供的信息進(jìn)行偏好提取,在稀疏評(píng)論的情況下,不可避免地存在偏見和過擬合現(xiàn)象,從而影響了推薦精度。endprint
另外,本研究方案比LCRM+評(píng)價(jià)者級(jí)偏好的方案的命中率更高,這是因?yàn)楸狙芯糠桨覆粌H考慮了評(píng)價(jià)者級(jí)偏好,還考慮了組群級(jí)偏好。通過關(guān)聯(lián)志趣相投的評(píng)論者,能夠更精確地預(yù)測買家未聲明的偏好。
圖3描述了4種方案在MRR方面的比較結(jié)果。可以看出,本研究方案獲得了優(yōu)越的性能。這表明,本研究方案不僅能夠提高推薦表中客戶所需農(nóng)產(chǎn)品命中的數(shù)量,還能提高客戶真正所需農(nóng)產(chǎn)品在列表中排名位置,使其能夠更好地呈現(xiàn)在客戶面前。4種方案的平均命中率分別為85.5%、79.20%、74.80%、57.00%,本研究方案比其他3種方案分別提高7.95%、14.30%、50.00%;4種方案的MRR分別為0076、0.068、0.062、0.034。
5.4時(shí)間復(fù)雜度分析
對(duì)于算法的時(shí)間復(fù)雜度,主要是計(jì)算偏好中參數(shù)估計(jì)所消耗的時(shí)間。其中,LCRM的期望-最大化(EM)算法中的E步驟耗費(fèi)O(max(|S|,n)×k×n2)步操作,M步驟耗費(fèi) O(k×n3+|S|n2) 步操作,其中k表示組群數(shù);n表示農(nóng)產(chǎn)品特征數(shù)。假設(shè)LCRM經(jīng)t次迭代后收斂,則LCRM的計(jì)算復(fù)雜度為O(t×max(|S|,n)×k×n2)。
相比之下,傳統(tǒng)回歸模型要計(jì)算協(xié)方差矩陣的行列式,花費(fèi)O(n3)步操作,它的復(fù)雜度為O(t×M×n3),其中M為評(píng)價(jià)者數(shù)。由于M遠(yuǎn)大于k,所以該復(fù)雜度要高于本研究LCRM方案。
6結(jié)束語
提出了一種基于潛在類回歸模型的農(nóng)產(chǎn)品電子商務(wù)個(gè)性化推薦方案。利用LCRM將具有相同愛好的評(píng)價(jià)者進(jìn)行分組,構(gòu)建組群偏好。通過計(jì)算用戶與組群偏好的相似度來定位組群,計(jì)算用戶與該組群中評(píng)價(jià)者偏好的相似度來定位農(nóng)產(chǎn)品,最終給出推薦列表。試驗(yàn)結(jié)果表明,提出的方案所生成的推薦列表中農(nóng)產(chǎn)品的命中率達(dá)到了83%,且能夠?qū)⒖蛻羲柁r(nóng)產(chǎn)品排到列表前端。同時(shí),相比于傳統(tǒng)回歸模型,本研究方案具有較低的計(jì)算復(fù)雜度。
提出的方案中,集群是不相交的,這意味著每個(gè)評(píng)論者只能隸屬于一個(gè)集群。在今后的工作中,將考慮允許存在相交集群,使每個(gè)評(píng)論者可分配給多個(gè)集群,以此進(jìn)一步提高本研究方案的適用范圍。
參考文獻(xiàn):
[1]劉琦,苑金鳳,王倩,等. 農(nóng)產(chǎn)品網(wǎng)購意愿研究綜述[J]. 江蘇農(nóng)業(yè)科學(xué),2014,42(4):401-403.
[2]王偉,徐平平,王華君,等. 基于概率回歸模型和K-最近鄰的電子商務(wù)個(gè)性化推薦方案[J]. 湘潭大學(xué)自然科學(xué)學(xué)報(bào),2016,38(1):97-100.
[3]Huang S L. Designing utility-based recommender systems for e-commerce:evaluation of preference-elicitation methods[J]. Electronic Commerce Research and Applications,2011,10(4):398-407.
[4]Krohn-Grimberghe A,Drumond L,F(xiàn)reudenthaler C,et al. Multi-relational matrix factorization using bayesian personalized ranking for social network data [C]. Proceedings of the fifth ACM International Conference on Web Search and Data Mining. Washington:Seattle,2012:173-182.
[5]Jain G,Mishra N,Sharma S. CRLRM:Category based recommendation using linear regression model[C]. Proceedings of the 2013 Third International Conference on Advances in Computing and Communications. India:Cochin,2013:29-31.
[6]鄭云飛,夏帥,譚武坤. 基于用戶的農(nóng)產(chǎn)品協(xié)同過濾推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 農(nóng)業(yè)網(wǎng)絡(luò)信息,2014,10(9):49-53.
[7]李冰潔,丁疆輝. 冀中南地區(qū)農(nóng)村居民電子商務(wù)應(yīng)用及其空間影響[J]. 江蘇農(nóng)業(yè)科學(xué),2016,44(4):572-577.
[8]王爍. 云環(huán)境下個(gè)性化農(nóng)業(yè)產(chǎn)銷信息匹配推薦系統(tǒng)的研究和實(shí)現(xiàn)[D]. 北京:中國農(nóng)業(yè)科學(xué)院,2014:18-22.
[9]王崇,李一軍. B2C環(huán)境下基于多屬性效用理論的消費(fèi)者行為模式[J]. 系統(tǒng)管理學(xué)報(bào),2010,19(1):62-67.
[10]Moors G. Ranking the ratings:a latent-class regression model to control for overall agreement in opinion research[J]. International Journal of Public Opinion Research,2010,22(1):93-119.
[11]許棣華,王志堅(jiān),林巧民,等. 一種基于偏好的個(gè)性化標(biāo)簽推薦系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用研究,2011,28(7):2573-2575.
[12]Gan M. Cousin:a network-based regression model for personalized recommendations[J]. Decision Support Systems,2015,26(8):361-373.
[13]Thiene M,Galletto L,Scarpa R,et al. Determinants of WTP for prosecco wine:a latent class regression with attitudinal responses[J]. British Food Journal,2013,115(2):279-299.
[14]Zhang Y. Analysis and comparative of e-commerce personalized recommendation[J]. Journal of Chemical and Pharmaceutical Research,2014,55(2):6762-6765.
[15]Kuang G,Li Y. Using fuzzy association rules to design e-commerce personalized recommendation system[J]. Telkomnika Indonesian Journal of Electrical Engineering,2014,12(2):321-332.李晨曦,吳克寧,劉霈珈,等. 土地利用變化及社會(huì)經(jīng)濟(jì)驅(qū)動(dòng)因素——以京津冀地區(qū)為例[J]. 江蘇農(nóng)業(yè)科學(xué),2017,45(12):279-283.endprint