劉建東
摘要:UGC標(biāo)簽推薦系統(tǒng)的推薦效果依賴標(biāo)簽的質(zhì)量,因?yàn)閁GC標(biāo)簽是用戶隨意標(biāo)注的,并不是所有的標(biāo)簽都符合用戶興趣,有必要清空一些不符合用戶興趣的標(biāo)簽,提高標(biāo)簽質(zhì)量。本文根據(jù)標(biāo)簽的頻率和物品的流行程度,提出假設(shè),建立衡量標(biāo)簽與用戶興趣匹配度的數(shù)學(xué)模型,通過(guò)設(shè)置閥值,建立篩選規(guī)則,并應(yīng)用該規(guī)則進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)的準(zhǔn)確率和召回率達(dá)到70%和75%,一定程度上達(dá)到了提高標(biāo)簽質(zhì)量的目的。
關(guān)鍵詞:UGC標(biāo)簽;推薦系統(tǒng);數(shù)據(jù)標(biāo)簽清理
一、引言
UGC標(biāo)簽推薦系統(tǒng)是指通過(guò)讓普通用戶給物品或者服務(wù)打標(biāo)簽,然后分析標(biāo)簽的內(nèi)容和打標(biāo)簽的行為來(lái)進(jìn)行推薦。UGC標(biāo)簽是普通用戶對(duì)物品的評(píng)價(jià),同時(shí)也表示了用戶的興趣,所以標(biāo)簽成了物品和用戶興趣之間的橋梁,成為推薦系統(tǒng)研究物品和用戶興趣的媒介。UGC標(biāo)簽推薦系統(tǒng)是一種新型的個(gè)性化推薦方法。
豆瓣是國(guó)內(nèi)文藝青年廣泛使用的社交網(wǎng)站,包含讀書、電影、音樂等領(lǐng)域的信息,在這些領(lǐng)域內(nèi),豆瓣網(wǎng)站嘗試了不同的個(gè)性化推薦算法,UGC標(biāo)簽推薦就是其中一種。它允許普通用戶為電影,書籍,音樂打上自己的標(biāo)簽,標(biāo)注用戶的理解,從而改善推薦效果。
UGC標(biāo)簽推薦系統(tǒng)的推薦效果依賴用戶為物品和服務(wù)打上的標(biāo)簽的質(zhì)量,而因?yàn)閁GC標(biāo)簽是普通用戶根據(jù)自己的理解隨意打上的,并不是所有的標(biāo)簽都會(huì)反映用戶的興趣。比如,在豆瓣網(wǎng)站上,用戶看完一個(gè)電影,打上了“不好笑”這樣的標(biāo)簽,那么并不代表用戶喜歡“不好笑”的電影。因此,有必要對(duì)標(biāo)簽進(jìn)行清理,提高標(biāo)簽的質(zhì)量,從而更進(jìn)一步改善推薦效果。
從另外一個(gè)角度來(lái)看,標(biāo)簽可以為推薦結(jié)果提供解釋,方便用戶理解推薦的理由,如果標(biāo)簽的內(nèi)容冗余,也會(huì)影響用戶對(duì)UGC推薦系統(tǒng)的體驗(yàn)。所以標(biāo)簽清理工作顯得尤其重要。
二、相關(guān)工作
目前對(duì)于清理標(biāo)簽所做的研究,有一定的成果。趙亞楠等針對(duì)標(biāo)簽的冗余問(wèn)題,提出通過(guò)計(jì)算標(biāo)簽之間的相似度,來(lái)消除同義詞,也有其他學(xué)者通過(guò)利用IDF值清除冷僻標(biāo)簽,或者通過(guò)計(jì)算詞頻將高頻的停止詞進(jìn)行清理。雖然解決了標(biāo)簽冗余問(wèn)題,但是有些標(biāo)簽與用戶興趣不相符的問(wèn)題依然存在。本文的主要工作就是要提出一種新的計(jì)算方法來(lái)篩選不符合用戶興趣的標(biāo)簽。
三、標(biāo)簽清理方法
(一)基本假設(shè)
(1)用戶不能使用重復(fù)的標(biāo)簽對(duì)同一個(gè)物品進(jìn)行標(biāo)注。
(2)通過(guò)文獻(xiàn)中方法,剔除了冗余標(biāo)簽和冷僻標(biāo)簽,所以候選的標(biāo)簽從使用頻率來(lái)說(shuō)屬于正常標(biāo)簽。
(3)被候選標(biāo)簽qi標(biāo)注的物品集W(qi)的長(zhǎng)度是N(W(qi)),如果候選標(biāo)簽qi的出現(xiàn)的次數(shù)最多是t次,則用tN(W(qi))的比值來(lái)衡量候選標(biāo)簽qi與用戶興趣的匹配度,tN(W(qi))的值與匹配度成正比例。
(二)說(shuō)明
現(xiàn)在對(duì)假設(shè)(3)進(jìn)行說(shuō)明,根據(jù)假設(shè)(2),候選標(biāo)簽qi的使用次數(shù)是正常,意味著對(duì)該物品集進(jìn)行標(biāo)簽的人數(shù)屬于正常范圍。N個(gè)物品都被標(biāo)簽qi標(biāo)注過(guò),意味著至少有N人都知道標(biāo)簽qi。標(biāo)簽qi越符合用戶興趣,那么N個(gè)人越會(huì)對(duì)標(biāo)簽qi屬性最明顯的電影進(jìn)行標(biāo)注,從而qi的次數(shù)會(huì)接近N,因此可以用tN的比值來(lái)衡量匹配度。舉一個(gè)例子,100部電影都被標(biāo)注為“武俠”,基于假設(shè)(1),意味著有100個(gè)用戶看過(guò)“武俠”的電影,如果100個(gè)用戶都對(duì)“武俠”感興趣,則他們一定會(huì)去看最經(jīng)典的“武俠”電影,因此最經(jīng)典的“武俠”電影的次數(shù)就會(huì)達(dá)到100次。也就是說(shuō)“武俠”標(biāo)簽出現(xiàn)的次數(shù)與電影的數(shù)量是成正比的。相反,100部電影都被標(biāo)注為“不好笑”,基于假設(shè)(1),意味著100個(gè)用戶看過(guò)自己評(píng)價(jià)為“不好笑”的電影,因?yàn)閷?duì)“不好笑”不感興趣,所以就不會(huì)選擇去看類似的電影,從而,被標(biāo)注“不好笑的”電影的次數(shù)就越少。
四、結(jié)論
本文針對(duì)UGC標(biāo)簽推薦系統(tǒng)中標(biāo)簽質(zhì)量不高的問(wèn)題進(jìn)行了研究,提出了清空標(biāo)簽的數(shù)學(xué)模型,建立了篩選的規(guī)則。從實(shí)驗(yàn)結(jié)果的準(zhǔn)確性和召回率的比率來(lái)看,該方法一定程度上達(dá)到了提高標(biāo)簽質(zhì)量的目的。(作者單位:吉首大學(xué)張家界學(xué)院)
參考文獻(xiàn):
[1]項(xiàng)亮.推薦系統(tǒng)實(shí)踐[M].北京:人民郵電出版社,2012.
[2]JiaweiHan,Micheline Kamber 范明,孟小峰等譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.
[3]趙亞楠,董晶,董佳梁.基于社會(huì)化標(biāo)注的博客標(biāo)簽推薦方法照[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(12):4609-4614.
[4]http://www.douban.com/
[5]CHAKPABORTY B. Integrating awareness in user oriented route recommendation system[A].CHAKRABORTY B.The International Joint Conference on Neural Networks[C].New Jersey:IEEE Press,2012.1-5.
[6]張斌,張引,高克寧,郭朋偉,孫達(dá)明.融合關(guān)系與內(nèi)容分析的社會(huì)標(biāo)簽推薦[J].軟件學(xué)報(bào),2012,3(3):477-450.