聶規(guī)劃,孟 潔,陳冬林,游懷杰
(武漢理工大學經(jīng)濟學院,湖北 武漢430070)
隨著數(shù)字家庭高清購物、影音娛樂等核心業(yè)務(wù)的迅速展開,服務(wù)資源呈現(xiàn)爆炸式增長,使用戶在海量資源中無法貼切表達需求并準確獲得所需資源。傳統(tǒng)搜索引擎輸入相同的關(guān)鍵詞返回的結(jié)果成千上萬,良莠不齊,因此考慮用戶偏好的個性化推薦系統(tǒng)應(yīng)運而生。目前成功的個性化推薦系統(tǒng)包括亞馬遜、CDNow. com、Barnes&Noble. com、MovieFinder.com 等[1]。
推薦系統(tǒng)中推薦算法是關(guān)鍵,主流的推薦算法有以下幾種:①基于內(nèi)容過濾;②協(xié)同過濾;③基于知識的推薦;④基于數(shù)據(jù)挖掘推薦;⑤整合推薦。協(xié)同過濾是最為成功的推薦技術(shù)之一,但與基于內(nèi)容的方法相比,稀疏性和冷啟動問題使其存在新用戶和新對象問題?;谥R的推薦是一種靜態(tài)的推薦方法,不存在冷啟動和稀疏性問題,但是知識很難建模。組合推薦策略由于組合方式不同,其性能特點差異很大。最初的基于內(nèi)容過濾是根據(jù)用戶選擇的對象向其推薦具有類似屬性的對象,不需要用戶評分,屬于Schafer 劃分中的Item- to-Item Correlation 方法[2]。隨著機器學習的進步,目前基于內(nèi)容的推薦通過用戶消費、瀏覽記錄分別為用戶和資源建立并更新配置文件,向用戶推薦與其配置文件相似度最大的資源?;趦?nèi)容過濾的系統(tǒng)包括Personal WebWatcher[3]、CiteSeer[4]、WebMate[5]和WebPersonalizer[6]等。信息獲取和信息過濾[7]是根本,目前特征的選取研究中以資源的文字描述為主,例如信息檢索中最經(jīng)典的TF-IDF 方法。
用戶偏好是不斷更新的,王茜等[8]用維度相同但各分量權(quán)重不同的向量表示用戶偏好。CHANG等[9]區(qū)分長期與短期感興趣的關(guān)鍵詞,賦予短期感興趣的關(guān)鍵詞更高的權(quán)重來更新樹。FELIX等[10]、SOMLO 和HOWE[11]以及ZHANG 等[12]提出了自適應(yīng)過濾技術(shù)更新用戶配置文件。ROBERTSON 和WALKER[13]在自適應(yīng)過濾的基礎(chǔ)上提出的最佳匹配度閾值設(shè)定算法大大減少了更新配置文件的代價??追背?4]動態(tài)挖掘用戶偏好,按時間順序存儲用戶需求來預(yù)測當前或未來偏好。但是這些研究中的算法只能發(fā)現(xiàn)與用戶歷史偏好相似的項目,不能為用戶發(fā)現(xiàn)新感興趣的資源[15]。
針對數(shù)字家庭用戶特征,在缺少用戶評分的條件下,基于內(nèi)容過濾的數(shù)字家庭服務(wù)資源推薦系統(tǒng)建立了用戶偏好模型和服務(wù)資源模型,設(shè)計了用戶偏好挖掘算法和基于內(nèi)容過濾的推薦算法,其中采用三元組建立用戶偏好模型,引入遺忘因子來更新用戶偏好,并且解決了相似性計算問題。
基于內(nèi)容過濾的數(shù)字家庭服務(wù)資源推薦系統(tǒng)結(jié)構(gòu)如圖1 所示。系統(tǒng)按功能劃分為4 層,其中用戶個性化界面對用戶可見。數(shù)字家庭服務(wù)資源業(yè)務(wù)層從交易、注冊、評價信息中挖掘用戶信息。智能挖掘技術(shù)層將資源依據(jù)公共集最大化原則分類,針對不同類別進行推薦。智能推薦技術(shù)層詳細介紹用戶消費偏好、挖掘算法,以及服務(wù)資源模型的構(gòu)造提出基于內(nèi)容過濾的推薦算法解決不同數(shù)據(jù)類型間相似性的計算,最終向用戶返回相似度最大的topN 個服務(wù)資源列表。
圖1 基于內(nèi)容過濾的數(shù)字家庭服務(wù)資源推薦系統(tǒng)結(jié)構(gòu)圖
用戶消費記錄直接反映用戶消費偏好,只有將用戶偏好轉(zhuǎn)化為計算機能夠理解的結(jié)構(gòu)化形式才能對其進行處理分析。劉洋和泓浩[16]指出故意的好評和惡意的差評都不可取,并建立了用戶偏好的服務(wù)組合可信模型。該系統(tǒng)通過判斷評分是否大于等于滿分的一半過濾掉差評的消費記錄以獲取用戶偏好,評分越高獲取的用戶偏好越準確。
用戶描述文件沒有統(tǒng)一的標準,基于興趣的用戶描述文件可表示為加權(quán)矢量模型、類型層次結(jié)構(gòu)模型、加權(quán)語義網(wǎng)模型、書簽和目錄結(jié)構(gòu)等。影響用戶決策的因素往往集中反映在個別屬性及屬性值上,算法采用三元組建立用戶偏好模型[17]:
2.3.1 屬性值的更新機制
隨著用戶偏好的變化,用戶的歷史偏好應(yīng)被遺忘,而當前的偏好更應(yīng)重視,因此引入遺忘因子θ 來對屬性值進行調(diào)節(jié)。用戶偏好模型中屬性值集合Vi{}大小取決于屬性值的數(shù)據(jù)類型。數(shù)值型屬性值Vi{}中僅存儲一個數(shù)值通過遺忘因子動態(tài)地挖掘用戶偏好,其公式為:
對于大部分非數(shù)值枚舉型屬性值,集合Vi{}的大小為遺忘因子的倒數(shù)1/θ,即最多存儲1/θ個元素。例如當θ=0.2 時,屬性值集合中最多存儲5 個元素。用戶偏好中某一屬性值集合可表示為(a,b,c,d,e),新增記錄時根據(jù)數(shù)據(jù)結(jié)構(gòu)中隊列先進先出的原理更新屬性值,當前偏好連續(xù)出現(xiàn)5 次才可完全替代歷史偏好。
2.3.2 屬性權(quán)重的更新機制
屬性權(quán)重的更新一直以來是研究的難點。依據(jù)用戶在某屬性取值上變化越小則權(quán)重越大的原則,自適應(yīng)調(diào)整屬性權(quán)重。設(shè)置屬性值不為空的權(quán)重初始值為Wa[18],空屬性值的權(quán)重初始值為0,權(quán)重之和滿足約束條件。例如用戶點播了一條多媒體資源如圖2 所示,其中評分機制采用5 分制[19]。屬性ID 與用戶偏好無關(guān),則Ui= ((類型,綜藝,Wa),(名稱,快樂大本營,Wa),(國家,內(nèi)地,Wa),(明星,羅志祥,Wa),(年份,2012 ,Wa),(主持人,{何炅,謝娜,李維嘉,吳昕,杜海濤},Wa),(發(fā)布時間,2012-05-19,Wa))。Wa= 1/7,且滿足約束條件。當新增消費記錄時,若屬性值改變,則屬性權(quán)重下降100 ×θ%;若屬性值不變,則在原有基礎(chǔ)上調(diào)100 ×θ%,然后做歸一化處理使其滿足約束條件,計算式為:
該用戶點播第二條多媒體資源如圖3 所示,其中改變的屬性值包括明星、發(fā)布時間,更新其權(quán)重為Wa×(1-θ),而未改變的屬性值包括類型、名稱、國家、年份、主持人,則更新其權(quán)重為Wa×(1 +θ),然后做歸一化處理得到更新后的用戶偏好模型Ui′。
圖2 多媒體資源消費記錄1
圖3 多媒體資源消費記錄2
輸入:當前類別ID,更新前的用戶偏好模型Ui,自上次更新用戶偏好模型至今該用戶該類別所有消費記錄Rj(j=1,2,…,m)。
輸出:更新后的當前類別下的用戶消費偏好模型U′i。
算法步驟如下:
(1)判斷當前類別是否已建立用戶偏好模型Ui。
(2)若已建立用戶偏好模型Ui,首先更新屬性值V,將其分為數(shù)值型和非數(shù)值型兩類。
(3)更新屬性權(quán)重W。
(4)重復(fù)步驟(2)、步驟(3)更新用戶偏好模型,直到最后一條消費記錄。
(5)若不存在歷史用戶偏好模型Ui,則根據(jù)第一條消費記錄R1來建立用戶消費偏好模型Ui;然后為剩下的m-1 條消費記錄Rj,重復(fù)執(zhí)行步驟(2)~步驟(4)。
與用戶偏好模型所不同的是,服務(wù)資源的屬性沒有權(quán)重。在視頻推薦的研究中通過專家評定的方式賦予了屬性不同的權(quán)重,主觀性過強。筆者采取機器學習自適應(yīng)智能調(diào)整屬性權(quán)重的方法。首先,按功能劃分各個類別下所有資源生成服務(wù)資源模型Ri。具體做法為:將該類別中所有服務(wù)資源的屬性取并集。若共有n 個屬性,則V′i表示資源Ri第i 個屬性的屬性值,若資源沒有該屬性則Vi的值為0,Ri表示為:
計算用戶偏好模型與服務(wù)資源模型之間的相似度,計算用戶偏好與服務(wù)資源對應(yīng)屬性值之間的差異值Dk并求和。對于數(shù)值型屬性,根據(jù)用戶偏好模型中數(shù)值型屬性值的更新方法,Dk的計算式為:
根據(jù)用戶偏好模型中非數(shù)值型屬性值的更新方法,如當θ=0.2 時,用戶偏好模型中“顏色”屬性取值為集合(紅,黃,藍,綠,紫)最多存儲5 個屬性值,若服務(wù)資源中顏色屬性值為(紅),則屬性值的“差異值”為1/5。具體做法為:將用戶偏好模型中“顏色”屬性編碼(1,3,5,7,9),服務(wù)資源“紅色”編碼為1,則依次判斷1 是否與用戶偏好屬性值集合中的值相等,相等的次數(shù)為k(k∈[0,1/θ]),分母m 為用戶偏好模型中屬性值集合與服務(wù)資源屬性值取并集后的元素個數(shù),Dk∈[0,1],Dk的計算式為:
相似度計算公式為:
輸入:當前類別ID,用戶偏好模型Ui,服務(wù)資源模型Rcj(j=1,2,…,M)。
輸出:向用戶返回的topN 個服務(wù)資源ID 列表。
推薦算法的步驟如下:
(1)從當前用戶偏好模型Ui中獲取它的屬性權(quán)重向量W= (W1,W2,…,Wn)。
(2)從當前用戶偏好模型Ui中獲取它的屬性值向量V = (V1,V2,…,Vn)。
(3)從當前類別下某一服務(wù)資源模型Rcj中獲取它的屬性值向量V′ =(V′1,V′2,…,V′n)。
(4)計算當前用戶偏好模型Ui與服務(wù)資源模型Rcj的相似度。
(5)重復(fù)步驟(3),計算該類別中每一個服務(wù)資源與用戶偏好模型的相似度。
(6)將相似度計算結(jié)果降序排列,將前topN個服務(wù)資源ID 列表返回給用戶。
數(shù)字家庭服務(wù)資源智能推薦模擬系統(tǒng)利用火車頭軟件編寫抓取模版,抓取華數(shù)TV 視頻庫中近1 萬條item 以及描述信息,系統(tǒng)界面如圖4 所示,該系統(tǒng)利用MS SQLServer 2008 作為數(shù)據(jù)庫,采用J2EE 結(jié)構(gòu)開發(fā),建立了用戶興趣模型、離線數(shù)據(jù)挖掘模型和在線推薦及Web 服務(wù)接口,項目組成員通過半年來不斷模擬華數(shù)TV 用戶行為,使模擬點播率和反饋率從原來的不到58%提高到81%,證明系統(tǒng)的推薦質(zhì)量較高。
圖4 智能推薦模擬系統(tǒng)界面
將基于內(nèi)容過濾的推薦算法與數(shù)字家庭服務(wù)資源相結(jié)合解決了有線電視領(lǐng)域多媒體資源特征提取問題,包括同導(dǎo)演、同演員、同關(guān)鍵詞、猜您喜歡、最新資源、熱門資源等功能。引入遺忘因子動態(tài)更新用戶消費偏好模型,自適應(yīng)調(diào)整屬性權(quán)重,解決了不同數(shù)據(jù)類型間相似性計算問題。其優(yōu)點在于簡單有效,同時又解決了協(xié)同過濾的稀疏性問題,缺點是難以區(qū)分資源內(nèi)容的品質(zhì)和風格,并且不能為用戶發(fā)現(xiàn)新的感興趣資源。
WebSIFT[20],F(xiàn)AB[21],Anatagonomy[22],Dynamic profiler[23]等推薦系統(tǒng)同時采用了基于內(nèi)容過濾和協(xié)同過濾兩種技術(shù),隨著三網(wǎng)融合技術(shù)的發(fā)展,未來研究將專注于更精確適用的用戶和資源特征,利用精確的用戶瀏覽歷史和先進的數(shù)據(jù)挖掘算法,將內(nèi)容過濾與協(xié)同過濾兩種算法結(jié)合實現(xiàn)混合推薦,克服各自的一些缺點,從而提高系統(tǒng)推薦精度和質(zhì)量。
[1] AMIR A,MOHAMMAD S B.A hybrid recommendation technique based on product category attributes[J].Expert Systems with Applications,2009(36):11480-11488.
[2] 黎星星,黃小琴,朱慶生. 電子商務(wù)推薦系統(tǒng)研究[J].計算機工程與科學,2004,26(5):38-42.
[3] MLADENIC D.Machine learning for better Web browsing[C]//AAAI 2000 Spring Sysposium Technical Reports on Adaptive User Interfaces. Menlo Park:AAAI Press,2000:82-84.
[4] BOLLACKER K D,LAWRENS G.Discovering relevant scientific literature on the Web[J]. IEEE Intelligent Systems,2000,15(2):42-47.
[5] CHEN L S. Webmate:a personal agent for browsing and searching[C]// Proceedings of the 2 nd International Conference on Autonomous Agents. New York:ACM Press,1998:132-139.
[6] MOBASHER B,COOLEY R,SRIVASTAVA J. Automatic personalization based on Web usage mining[J].Communications of the ACM,2000,42(8):142-151.
[7] 劉建國,周濤,汪秉宏.個性化推薦系統(tǒng)的研究進展[J].自然科學進展,2009,19(1):1-15.
[8] 王茜,楊莉云,楊德禮.面向用戶偏好的屬性值評分分布協(xié)同過濾算法[J]. 系統(tǒng)工程學報,2010,25(4):561-568.
[9] CHANG Y,SHEN J H,CHEN T I.A data mining-based method for the incremental update of supporting personalized information filtering[J].Journal of Information Science and Engineering,2008,24(1):129-142.
[10]FELIX O,ELENA G,EDUARDO H. The task of guiding in adaptive recommender systems[J]. Expert Systems with Applications,2009,36(2):1972-1977.
[11]SOMLO G,HOWE A. Adaptive lightweight text filtering[J]. Proc Lecture Notes in Computer Science,2001(2189):319-329.
[12]ZHANG Y,CALLAN J,MINKA T.Novelty and redundancy detectionin adaptive filtering[C]//Proc 25th Ann Int'l ACM SIGIR Conf Tampere. [S. l.]:[s.n.],2002:81-88.
[13]ROBERTSON S,WALKER S. Threshold setting in adaptive filtering[J]. Journal of Documentation,2000(56):312-331.
[14]孔繁超.個性化信息服務(wù)中用戶偏好的動態(tài)挖掘[J].信息系統(tǒng),2009,32(6):111-113.
[15]劉枚蓮,劉同存,李小龍.基于用戶興趣特征提取的推薦算法研究[J].計算機應(yīng)用研究,2011,28(5):1664-1667.
[16]劉洋,泓浩. 一種基于用戶偏好的服務(wù)組合可信模型的研究[D]. 上海:上海交通大學圖書館,2012.
[17]林霜梅,汪更生,陳奕秋.個性化推薦系統(tǒng)中的用戶建模及特征選擇[J].計算機工程,2007,33(17):196-198.
[18]陳基漓,牛秦洲.用戶興趣模型在圖書館個性化推薦服務(wù)中的應(yīng)用[J].情報雜志,2009,28(1):190-193.
[19]徐江山,盧增祥,陶疆,等. 基于顯性用戶特征的數(shù)字電視節(jié)目推薦系統(tǒng)[J]. 清華大學學報,2007,47(1):154-156.
[20]SRICASTAVA J,COOLEY R,DESPHANDE M,et al.Web usage mining:discovery and applications of usage patterns from Web data[C]//Proceedings of the ACM SIGKDD Explorations.New York:ACM Press,2000:12-23.
[21]BALABANOVIC M.An adaptive Web page recommendation service[C]// Proceedings of the 1st International Conference on Autonomous Agents. New York:ACM Press,1997:378-385.
[22] SAKAGAMI H,KAMBA T,SUGIURA A,et al. Effective personalization of push-type systems—visualizing information freshness[J]. Computer Networks and ISDN Systems,1998,30(1):53-63.
[23] WU K L,AGGARWAL C C,YU P S. Personalization with dynamic profiler[C]// Proceedings of the 3rd International Workshop on Advanced Issues of E-Commerce and Web-based Information Systems. Los Alamitos:IEEE CS Press,2001:12-20.