熊聰聰,林 穎,史艷翠,馮 闊
(天津科技大學(xué)人工智能學(xué)院,天津 300457)
當(dāng)今互聯(lián)網(wǎng)發(fā)展迅速,同時(shí)互聯(lián)網(wǎng)信息量以爆炸式的速度增長(zhǎng),而這種信息量對(duì)用戶(hù)個(gè)人搜索而言異常困難,互聯(lián)網(wǎng)用戶(hù)需要花費(fèi)大量時(shí)間去篩選符合條件的信息.推薦系統(tǒng)成為如何從眾多信息中篩選出符合用戶(hù)需要信息的方法之一.傳統(tǒng)推薦系統(tǒng)通過(guò)分析個(gè)人行為推薦,而現(xiàn)在社交網(wǎng)絡(luò)中,用戶(hù)不僅不是孤立的而且極有可能還與其他用戶(hù)存在大量的關(guān)系.在影視作品中,用戶(hù)會(huì)自主地根據(jù)觀看內(nèi)容為電影標(biāo)記符合內(nèi)容的標(biāo)簽.標(biāo)簽作為電影最重要附屬信息,同時(shí)也是用戶(hù)對(duì)電影最直觀的感受,因此標(biāo)簽可用于提取用戶(hù)行為首選項(xiàng).大多數(shù)用戶(hù)有時(shí)會(huì)與朋友和家人一起觀看電影,需要考慮群組成員觀看的電影類(lèi)型.
為了解決上述推薦問(wèn)題,對(duì)群組推薦問(wèn)題提出相關(guān)研究.目前,部分組推薦在用戶(hù)評(píng)分預(yù)測(cè)中直接使用聚類(lèi)方法對(duì)用戶(hù)進(jìn)行分類(lèi),這樣用戶(hù)的相似度僅依賴(lài)用戶(hù)評(píng)分矩陣,而部分組推薦則是挖掘分組之前用戶(hù)間的相似度信息[2].這樣對(duì)于標(biāo)簽的信息量挖掘不足,標(biāo)簽只是作為評(píng)分矩陣的附加信息,起到較小的作用.例如,鄭劍等[3]將標(biāo)簽信息加入到項(xiàng)目相似度的計(jì)算過(guò)程中,隨后融入到矩陣分解.研究人員可以通過(guò)構(gòu)建用戶(hù)、項(xiàng)目、標(biāo)簽的三維張量,挖掘數(shù)據(jù)之間的潛在關(guān)系.例如,楊林等[4]利用標(biāo)簽懲罰機(jī)制和用戶(hù)評(píng)分構(gòu)建張量;曾輝等[5]則根據(jù)用戶(hù)使用產(chǎn)品的活躍性以及用戶(hù)之間相似性對(duì)用戶(hù)聚類(lèi),構(gòu)建用戶(hù)、項(xiàng)目、標(biāo)簽之間的權(quán)重.這樣能將標(biāo)簽與用戶(hù)的聯(lián)系建立起來(lái),而不是作為權(quán)值添加進(jìn)評(píng)分矩陣.
鑒于以上研究,本文提出了一種基于標(biāo)簽的電影組推薦方法.首先對(duì)標(biāo)簽信息與結(jié)合時(shí)間因素的評(píng)分矩陣分別計(jì)算用戶(hù)相似度,融合二者相似度后,對(duì)用戶(hù)聚類(lèi);然后在群組中找出高評(píng)分率的標(biāo)簽,建立用戶(hù)、電影、標(biāo)簽的初始張量,運(yùn)用梯度下降法[6]迭代求解近似張量;最后融合群組偏好,給出推薦列表.
TF(Term Frequency)表示詞條 N在某一文本詞條總數(shù)中的頻率,IDF(Inverse Document Frequency)取包含 N詞條的文件數(shù)在總文件中占比的對(duì)數(shù).TF_IDF(詞頻-逆向文件頻率)計(jì)算的是文本中所有詞條的重要度權(quán)重.
張量是對(duì)多維數(shù)組的線性分析總稱(chēng),如一階張量代表向量,二階張量代表矩陣,高階張量是多維數(shù)組的統(tǒng)稱(chēng)[7].本文是由用戶(hù)、電影、標(biāo)簽 3種屬性構(gòu)建的張量,即張量R的維度大小由用戶(hù)數(shù)IU、電影數(shù)IM、標(biāo)簽數(shù)IT組成.
不同推薦系統(tǒng)在構(gòu)建張量方式上也不同.“0/1”表示形式即用戶(hù)-產(chǎn)品-標(biāo)簽的三維張量值為0或1,用戶(hù)使用一個(gè)產(chǎn)品并屬于一個(gè)標(biāo)簽,則對(duì)應(yīng)的張量值為1;否則,用戶(hù)沒(méi)有使用該產(chǎn)品也不屬于該標(biāo)簽,則張量值為 0[8].多元權(quán)值張量通過(guò)構(gòu)建用戶(hù)-電影-標(biāo)簽之間的關(guān)系權(quán)值建立初始張量,而對(duì)沒(méi)有看過(guò)的電影及標(biāo)簽張量值為0.
本文采用的分解算法為tucker分解,該算法分解后得到張量各維度下的矩陣和1個(gè)核張量,3個(gè)矩陣包含各維度上的潛在特征[9].表示為
其中:axnl表示核張量 A 的元素;uix、mjn、tkl分別表示矩陣 U、M、T元素.如果為得到近似張量,即簡(jiǎn)單地使總的誤差最小,那么可以將張量分解的逼近問(wèn)題轉(zhuǎn)化為一個(gè)無(wú)約束的優(yōu)化問(wèn)題,即梯度下降方法
其中 S表示所有非零元素合集.對(duì)目標(biāo)函數(shù) J對(duì)uim、mjn、tkl和 amnl求偏導(dǎo),得到
再根據(jù)梯度下降方法,uix、mjn、tk和 axnl在每次迭代過(guò)程中的更新公式為
其中:更新公式中的求和項(xiàng)下標(biāo) j,k : (i,j,k)∈S、i,k : (i,j,k)∈S 、i,j:(i,j,k)∈S分 別 表 示 矩 陣X(i,:,:)、X(:,j,:)、X(:,:,k)所有非零元素索引.
本文首先對(duì)標(biāo)簽信息與結(jié)合時(shí)間因素的評(píng)分矩陣分別計(jì)算用戶(hù)相似度,融合二者相似度后,對(duì)用戶(hù)聚類(lèi);然后挖掘群組成員中的觀影信息,統(tǒng)計(jì)群組用戶(hù)觀看的高評(píng)分率電影,計(jì)算電影標(biāo)簽的好評(píng)率,建立“用戶(hù)-電影-標(biāo)簽”的關(guān)系張量,并對(duì)其分解,得到近似張量;最后對(duì)群組偏好融合,得到群組推薦列表.
2.1.1 基于標(biāo)簽的用戶(hù)相似度
電影標(biāo)簽是對(duì)每部電影的總結(jié)概述或是描述該電影所擁有的特點(diǎn),以用戶(hù)對(duì)電影標(biāo)簽的偏好代表用戶(hù)對(duì)不同電影特征屬性的偏好.通過(guò)各個(gè)用戶(hù)觀看過(guò)的標(biāo)簽在總標(biāo)簽的重要程度,以及用戶(hù)對(duì)標(biāo)簽的觀看占比計(jì)算用戶(hù)對(duì)每個(gè)標(biāo)簽的偏好權(quán)重值,本文在TF-IDF基礎(chǔ)上進(jìn)行改進(jìn),TF-IDF作為一種統(tǒng)計(jì)方法,用于計(jì)算標(biāo)簽對(duì)于所有標(biāo)簽的是否有代表性[10].用戶(hù)對(duì)標(biāo)簽的偏好表示為
其中:ftj,ui表示用戶(hù) ui觀看的標(biāo)簽 tj個(gè)數(shù);mt表示所有包含標(biāo)簽的電影數(shù);mtj表示包含標(biāo)簽 tj的電影數(shù).在所有標(biāo)簽中,用戶(hù)觀看的標(biāo)簽出現(xiàn)頻率較低,可以更好地區(qū)別用戶(hù)之間偏好,相較于高頻率標(biāo)簽的出現(xiàn)更具有代表性.而同時(shí)標(biāo)簽出現(xiàn)在電影中的次數(shù)越少,對(duì)于電影的區(qū)分度則越高,標(biāo)簽更能區(qū)分用戶(hù)的偏好.標(biāo)簽的重要性為
其中:t表示所有電影的標(biāo)簽出現(xiàn)次數(shù);tj表示標(biāo)簽 tj在總標(biāo)簽中出現(xiàn)次數(shù);n表示用戶(hù)數(shù);ntj表示觀看過(guò)標(biāo)簽 tj的用戶(hù)數(shù).標(biāo)簽之間比率表示標(biāo)簽重要性,用戶(hù)之間比率表示標(biāo)簽獨(dú)特性.用戶(hù)對(duì)標(biāo)簽的偏好權(quán)重為
用戶(hù)基于標(biāo)簽信息的相似度公式為
其中:tij表示用戶(hù) ui和用戶(hù) uj均觀看過(guò)的標(biāo)簽,分別表示用戶(hù)對(duì)于標(biāo)簽偏好權(quán)重的均值.
2.1.2 基于評(píng)分矩陣的用戶(hù)相似度
用戶(hù)興趣隨時(shí)間的推移可能發(fā)生變化,在不同時(shí)間段會(huì)有不同需求.將以前的用戶(hù)歷史信息與現(xiàn)在的信息作為同等價(jià)值的信息處理,會(huì)使用戶(hù)行為分析有偏差.用戶(hù)最近時(shí)段的偏好,能夠更準(zhǔn)確地推斷用戶(hù)偏好.通過(guò)指數(shù)函數(shù)模擬遺忘函數(shù),以此作為時(shí)間對(duì)用戶(hù)偏好影響[11].
其中:Δt表示當(dāng)前時(shí)間與評(píng)分時(shí)間差,時(shí)間計(jì)算單位為周;T0是半衰期常量;rui,mk表示用戶(hù) ui對(duì)電影 mk的評(píng)分.基于評(píng)分矩陣的用戶(hù)相似度公式為
其中:mij表示用戶(hù) ui和用戶(hù) uj共同觀看過(guò)電影,分別表示用戶(hù)對(duì)于電影評(píng)分的均值.用戶(hù)觀看電影的數(shù)量差會(huì)對(duì)用戶(hù)偏好相似預(yù)測(cè)產(chǎn)生偏差,需要修正因數(shù)量級(jí)造成的相似度變差.為此,加入用戶(hù)參數(shù)λ修正數(shù)量級(jí)差造成的偏好相似.
其中:muij表示用戶(hù) ui與用戶(hù) uj觀看相同的電影數(shù);mui表示用戶(hù) ui觀看的電影數(shù);muj表示用戶(hù) uj觀看的電影數(shù).修正后的用戶(hù)相似度為
2.1.3 計(jì)算用戶(hù)總體偏好相似度
基于標(biāo)簽信息計(jì)算出的用戶(hù)相似度,與基于評(píng)分矩陣計(jì)算出的用戶(hù)相似度存在差異.標(biāo)簽傳輸?shù)男畔⑹菍?duì)電影所屬信息的總結(jié),而電影能夠傳達(dá)的信息要遠(yuǎn)遠(yuǎn)多于標(biāo)簽信息所能概括的信息.用戶(hù)在選擇觀看的電影時(shí)不僅僅會(huì)選擇熟悉的電影類(lèi)型,有時(shí)會(huì)挑選擁有熟悉標(biāo)簽的冷門(mén)電影類(lèi)型.比如,用戶(hù)在看完漫威電影后,需要看看其他類(lèi)型的電影,也會(huì)選擇主演們演繹的其他電影.因此,將標(biāo)簽信息計(jì)算出的相似度結(jié)合評(píng)分矩陣計(jì)算出的相似度作為用戶(hù)總相似度作為用戶(hù)之間的相似度,其計(jì)算式為
其中α用來(lái)權(quán)衡用戶(hù)標(biāo)簽相似度影響大還是評(píng)分相似度影響大.
在計(jì)算出總體相似度后,通過(guò)用戶(hù)之間的相似度劃分群組,將擁有高相似偏好的用戶(hù)集合到一起進(jìn)行推薦.對(duì)于如何將用戶(hù)分組,可以通過(guò)分析用戶(hù)對(duì)其他用戶(hù)的綜合相似度,從而采用 K-means聚類(lèi)方法,將擁有高相似度的用戶(hù)聚類(lèi),得到用戶(hù)群組[12].
用戶(hù)分組后的群組中,用戶(hù)之間偏好相似,直接建立群組的“0/1”初始張量,用戶(hù)對(duì)電影和標(biāo)簽的喜好沒(méi)有任何表現(xiàn).通過(guò)加入權(quán)值的方式,考慮用戶(hù)對(duì)各個(gè)維度下的元素喜好程度,同時(shí)也可以反映各維度元素之間的關(guān)系.直接將用戶(hù)評(píng)分作為初始張量的權(quán)重,能夠反映用戶(hù)對(duì)電影的偏好.由于標(biāo)簽是對(duì)電影的某一方面總結(jié),通過(guò)計(jì)算用戶(hù)對(duì)電影的評(píng)分,以此隱式反映含有該標(biāo)簽的電影是否好看,從而作為標(biāo)簽的好評(píng)率.
由于在群組中,用戶(hù)偏好相似,在張量創(chuàng)建初始可以為高評(píng)分率的電影添加一個(gè)相對(duì)較高的權(quán)重值,使得求解近似張量時(shí)好電影能夠得到更好的推薦.群組評(píng)分權(quán)值
群組對(duì)于一個(gè)標(biāo)簽評(píng)價(jià)高低表明大多數(shù)觀看人對(duì)標(biāo)簽的喜好程度,并以此給沒(méi)有觀看過(guò)該標(biāo)簽的用戶(hù)進(jìn)行推薦.而對(duì)于用戶(hù)看過(guò)擁有該標(biāo)簽的電影,通過(guò)計(jì)算用戶(hù)對(duì)標(biāo)簽的好評(píng)率,降低群組對(duì)標(biāo)簽的好評(píng)率權(quán)重,以此作為用戶(hù)的權(quán)重,避免出現(xiàn)用戶(hù)不喜歡的電影類(lèi)型.用戶(hù)標(biāo)簽好評(píng)率權(quán)值為
高評(píng)分的設(shè)定標(biāo)準(zhǔn)通過(guò)對(duì)比國(guó)內(nèi)外各電影評(píng)分網(wǎng)站的評(píng)分標(biāo)準(zhǔn),以及觀眾通過(guò)評(píng)分判定電影好壞的程度.國(guó)外的影評(píng)網(wǎng)爛番茄對(duì)于一部電影正面評(píng)價(jià)超過(guò)60%,會(huì)給出新鮮的評(píng)價(jià),網(wǎng)站80%以上影評(píng)人給出超過(guò) 75%的評(píng)分值,電影達(dá)到堅(jiān)定新鮮標(biāo)準(zhǔn).同樣是國(guó)外影評(píng)網(wǎng)的 IMDb,作為老牌影評(píng)網(wǎng),十分制下 6~7分的電影屬于正常范圍,達(dá)到8分基本達(dá)到top250水平.與 IMDb相似的國(guó)內(nèi)豆瓣影評(píng)網(wǎng)評(píng)分同樣采取十分制,用戶(hù)對(duì)于電影評(píng)分判定分水嶺為 6分,達(dá)到該分?jǐn)?shù)線的電影進(jìn)入可觀看行列,豆瓣top250 分值也在 8分左右.基于以上各大知名網(wǎng)站的比較,用戶(hù)對(duì)于好電影的評(píng)價(jià)都在分值 6分以上,佳片的評(píng)分均達(dá)到 8分左右.但由于能達(dá)到 8分的電影在各網(wǎng)站相對(duì)于電影片庫(kù)的數(shù)量均是占比較少,用戶(hù)分組后能達(dá)到電影推薦條件的數(shù)量又需要減少.為提高推薦質(zhì)量和數(shù)量取 6分電影與 8分電影的中位數(shù),將 7分電影定為高評(píng)分的電影評(píng)價(jià)標(biāo)準(zhǔn),即為五分制的3.5分.
在對(duì)用戶(hù)、電影、標(biāo)簽張量權(quán)重中綜合群體對(duì)標(biāo)簽電影的評(píng)分高低,結(jié)合各個(gè)用戶(hù)對(duì)該電影標(biāo)簽的偏好,綜合作為總權(quán)重,即
張量的3個(gè)維度構(gòu)建出用戶(hù)U、電影M、標(biāo)簽T的相互關(guān)系,由計(jì)算得到的綜合權(quán)值確定對(duì)應(yīng)張量維度上的元素值并構(gòu)建初始三維張量.通過(guò)分解初始張量得到核張量與3個(gè)因子矩陣,之后采用梯度下降更新獲得新初始核張量與因子矩陣,乘積后相似張量X,其中張量中的值為對(duì)于整體的基于標(biāo)簽的電影組推薦算法設(shè)計(jì)流程如下:
輸入:用戶(hù)、電影、評(píng)分、時(shí)間數(shù)據(jù)的四元組(U,M,R,Ti),用戶(hù)、電影、標(biāo)簽三元組(U,M,T).
輸出:近似張量X.
(1) (U,M,T)按公式(6)—(9)計(jì)算基于標(biāo)簽的用戶(hù)相似度simtag;
(2) (U,M,R,Ti)按公式(10)—(13)計(jì)算基于評(píng)分矩陣的用戶(hù)相似度simrating;
(3) 根據(jù)公式(14)融合 simtag和相似度 simrating的相似度得到融合相似度 s im(ui, uj);
(4) 根據(jù)融合相似度用 K-means分組用戶(hù),得到群組用戶(hù);
(5) 計(jì)算群組用戶(hù)中標(biāo)簽好評(píng)率,按公式(15)—(17)計(jì)算;
(6) 按公式(18)建立初始張量權(quán)重值.
初始張量按公式(4)和(5)更新迭代張量,得到近似張量X.
通過(guò)近似張量可以得到用戶(hù)對(duì)標(biāo)簽的選擇概率,通過(guò)這個(gè)概率計(jì)算用戶(hù)對(duì)每部電影的選擇概率.確定群組成員對(duì)每部電影的選擇概率后,為平衡成員對(duì)電影選擇概率不同,需要融合用戶(hù)對(duì)電影的偏好,以此滿(mǎn)足組內(nèi)成員的喜好.目前均值策略是組推薦應(yīng)用較廣泛的策略,均值策略采用組內(nèi)成員對(duì)每部電影的選擇概率均值作為組選擇概率,而后為組內(nèi)成員選取top_N作為推薦列表.
本文使用 MovieLens數(shù)據(jù)集,包含用戶(hù)對(duì)視頻的評(píng)分,以及用戶(hù)給視頻標(biāo)注的標(biāo)簽數(shù)據(jù).通過(guò)對(duì)數(shù)據(jù)處理,得到 100004條數(shù)據(jù),這些數(shù)據(jù)集中包含694個(gè)用戶(hù)、9743個(gè)電影、1239個(gè)標(biāo)簽,每個(gè)用戶(hù)對(duì)電影的評(píng)分范圍為 0.5~5,用戶(hù)的頻分等級(jí)劃分為十,評(píng)分區(qū)間間隔為0.5.
本文使用 F值(F-Measure)、準(zhǔn)確率(Precision)和召回率(Recall)作為算法的評(píng)價(jià)標(biāo)準(zhǔn).在推薦系統(tǒng)中,F(xiàn)值作為評(píng)價(jià)推薦結(jié)果,F(xiàn)值越高推薦結(jié)果越好.
其中:Precision表示在推薦列表中得到的推薦結(jié)果與測(cè)試集中實(shí)際情況相同的物品數(shù)與所有的推薦物品數(shù)的比值,Recall指的是推薦列表中準(zhǔn)確的結(jié)果占測(cè)試樣本的比例.準(zhǔn)確率和召回率的計(jì)算公式為
其中:test表示測(cè)試集中群組用戶(hù)觀看電影合集;top_N表示推薦的結(jié)果;N表示推薦的數(shù)目.在實(shí)驗(yàn)過(guò)程中,處理后的數(shù)據(jù)集將被劃分成兩部分:訓(xùn)練集和測(cè)試集.其中,訓(xùn)練集占80%,測(cè)試集占20%.
本文實(shí)驗(yàn)選擇的對(duì)比方法如下:
(1) method1,對(duì)原始評(píng)分矩陣聚類(lèi)分組后的張量分解方法OR(Original Rating).
(2) method2,評(píng)分矩陣與標(biāo)簽信息相似聚類(lèi)的張量分解方法 TIR(Tag Information and Rating).即本文提出用戶(hù)總體偏好方法,通過(guò)標(biāo)簽相似聚類(lèi)得到的用戶(hù)群與通過(guò)評(píng)分矩陣相似聚類(lèi)得到的用戶(hù)群,同時(shí)通過(guò)調(diào)整α值,計(jì)算各不同比重下聚類(lèi)得到的用戶(hù)群推薦結(jié)果的差異.
(3) method3,在 method2方法上加入文獻(xiàn)[4]中的PMUS(Penatly Mechanism and User Score)方法進(jìn)行張量分解TIR_PMUS.
(4) method4,在 method2方法上加入本文提出的電影好評(píng)率FR(Favorable Rate)后的張量分解方法TIR_FR.
3.4.1 相似度融合中參數(shù)α對(duì)推薦結(jié)果的影響
當(dāng)參數(shù)α取值不同時(shí),TIR推薦結(jié)果如圖1所示.
圖1 參數(shù)α 對(duì)推薦結(jié)果的影響Fig. 1 Effect of parameter α on recommendation results
從圖1中得到只有標(biāo)簽信息計(jì)算的用戶(hù)相似度,與通過(guò)評(píng)分矩陣計(jì)算的用戶(hù)相似度得到的群組推薦結(jié)果.單獨(dú)計(jì)算兩種信息相似度后的推薦結(jié)果與融合相似度得到的群組推薦結(jié)果對(duì)比顯示,評(píng)分矩陣得到的結(jié)果顯示在所有比重中表現(xiàn)較好,排到所有比重的第三,而標(biāo)簽信息得到的結(jié)果推薦比評(píng)分矩陣結(jié)果差,排到第五.從圖 1可看出,準(zhǔn)確率、召回率和 F值均隨推薦數(shù)增長(zhǎng)而增加,推薦數(shù)目在 50時(shí)準(zhǔn)確率、召回率和 F值達(dá)到最高點(diǎn).綜合 3種評(píng)價(jià)標(biāo)準(zhǔn),α=0.2的推薦結(jié)果表現(xiàn)比其他比重推薦結(jié)果表現(xiàn)好.準(zhǔn)確率在推薦數(shù)目為 4時(shí)居于所有比重的最高點(diǎn),并且推薦數(shù)目增加一直是最佳推薦結(jié)果.召回率與 F值的表現(xiàn)同其他比重差值在 0.02中變化,在推薦數(shù)達(dá)到 5后居于所有比重最高點(diǎn),并隨推薦數(shù)增長(zhǎng),召回率與F值增加最快.
3.4.2 加入好評(píng)率后相似度融合中參數(shù)α對(duì)推薦結(jié)果的影響
method4在α=0.3時(shí),準(zhǔn)確率、召回率與 F值的結(jié)果均表現(xiàn)比其他比重優(yōu)秀(圖 2).由于推薦列表是與群組用戶(hù)的合集進(jìn)行對(duì)比,推薦列表相較測(cè)試集數(shù)量過(guò)于稀疏,使得準(zhǔn)確率很高,同時(shí)召回率和 F值整體很小.
圖2 加入好評(píng)率后參數(shù)α 對(duì)推薦結(jié)果的影響Fig. 2 Effect of α changes on results after adding favorable rate
由于好評(píng)率計(jì)算中以評(píng)分作為選擇概率,并在此基礎(chǔ)上計(jì)算組內(nèi)成員對(duì)標(biāo)簽的好評(píng)率,將評(píng)分與標(biāo)簽好評(píng)率結(jié)合作為最終權(quán)重.這使得分組中評(píng)分信息與標(biāo)簽信息對(duì)推薦結(jié)果影響程度改變,造成 TIR和TIR_FR在不同α值下取得最佳推薦結(jié)果.
3.4.3 不同方法推薦結(jié)果的比較
圖 3表示 4種方法在準(zhǔn)確率、召回率和 F值上的比較.
圖3 不同方法推薦結(jié)果的比較Fig. 3 Comparison of results by different recommendation methods
OR的準(zhǔn)確率、召回率和F值增長(zhǎng)速度相較于其他 3種較低,準(zhǔn)確率基本持平.TIR在推薦數(shù)目小于4時(shí),準(zhǔn)確率低于 OR,但是在召回率和 F值的表現(xiàn)上要優(yōu)于OR.TIR_PMUS與TIR_FR在各方面均優(yōu)于其他兩種方法,準(zhǔn)確率在推薦數(shù)為 5時(shí)達(dá)到峰值,隨后均在推薦數(shù)到10時(shí)急速下降.之后TIR_PMUS準(zhǔn)確率能夠在下降后緩慢增長(zhǎng),接近 0.5左右,但TIR_FR準(zhǔn)確率一直在緩慢下降.TIR_FR在推薦數(shù)達(dá)到 50時(shí),準(zhǔn)確率與 TIR_PMUS表現(xiàn)結(jié)果相同,均達(dá)到 0.5.TIR_FR的召回率與 F值表現(xiàn)在推薦數(shù)達(dá)到40后被TIR_PMUS超過(guò).加入標(biāo)簽后的推薦相對(duì)于只通過(guò)用戶(hù)評(píng)分預(yù)測(cè)用戶(hù)偏好電影,更相似度用戶(hù)之間推薦效果更佳突出,通過(guò)標(biāo)簽信息構(gòu)建的張量在比只在用戶(hù)評(píng)分中構(gòu)建張量能夠得到更佳的結(jié)果.
本文針對(duì)電影推薦中標(biāo)簽信息的利用率低,提出一種基于標(biāo)簽的電影組推薦方法.針對(duì)現(xiàn)有組推薦技術(shù)大多是在隨機(jī)分組或原始信息上聚類(lèi)分組后推薦,現(xiàn)提出分組時(shí)盡可能提高組內(nèi)成員相似度,通過(guò)評(píng)分矩陣與標(biāo)簽信息進(jìn)行融合相似度,以此提高組內(nèi)相似度.通過(guò)實(shí)驗(yàn)驗(yàn)證本方法對(duì)推薦準(zhǔn)確率有所提高.本實(shí)驗(yàn)在使用張量進(jìn)行用戶(hù)-電影-標(biāo)簽信息隱形特征分析時(shí),張量分解運(yùn)行時(shí)間長(zhǎng),需要提高推薦速度.