黃震華,張佳雯,張 波,喻 劍,向 陽,黃德雙
(1.同濟大學(xué)電子與信息工程學(xué)院,上海201804;2.上海師范大學(xué)信息與機電工程學(xué)院,上海200234)
?
語義推薦算法研究綜述
黃震華1,張佳雯1,張 波2,喻 劍1,向 陽1,黃德雙1
(1.同濟大學(xué)電子與信息工程學(xué)院,上海201804;2.上海師范大學(xué)信息與機電工程學(xué)院,上海200234)
近年來,語義推薦技術(shù)已成為信息服務(wù)領(lǐng)域的一個研究熱點和重點.與傳統(tǒng)的推薦算法相比,語義推薦算法在實時性、魯棒性和推薦質(zhì)量等方面具有顯著的優(yōu)勢.針對語義推薦算法的國內(nèi)外研究現(xiàn)狀、進展,從四個角度進行歸納和總結(jié),即基于語義的內(nèi)容推薦算法、基于語義的協(xié)同過濾推薦算法、基于語義的混合推薦算法以及基于語義的社會化推薦算法,旨在盡可能全面地對語義推薦算法進行細致的介紹與分析,為相關(guān)研究人員提供有價值的學(xué)術(shù)參考.最后,立足于研究現(xiàn)狀的分析與把握,對當前語義推薦算法所面臨的挑戰(zhàn)與發(fā)展趨勢進行了展望.
語義;推薦算法;內(nèi)容推薦;協(xié)同過濾推薦;混合推薦;社會化推薦
近年來,隨著物聯(lián)網(wǎng)、云計算和社會網(wǎng)絡(luò)等技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)空間中所蘊含的信息量將呈指數(shù)級增長[1].例如,Facebook每月上傳的照片超過10 億張,每天生成300TB 以上的日志數(shù)據(jù);淘寶網(wǎng)站每天有超過數(shù)千萬筆交易,單日數(shù)據(jù)產(chǎn)生量超過50TB;YouTube線上有數(shù)千萬部電影,每天要處理上千萬個視頻片段;AOL Music在線音樂網(wǎng)站的音樂庫包含有250萬首歌曲和數(shù)千首音樂電視,每天獨立用戶訪問量達到2500萬.不難發(fā)現(xiàn),信息過載呈爆發(fā)趨勢,其結(jié)果導(dǎo)致了終端用戶無法準確和高效地獲取自己感興趣的物品[2,3].
目前,推薦系統(tǒng)是解決信息超載問題最有效的工具之一[4].推薦系統(tǒng)的概念是AT&T 貝爾研究院的Paul R博士在1997年提出的,通過建立用戶與物品之間的二元關(guān)系,利用用戶的歷史記錄或物品之間的相似性關(guān)系,挖掘每個用戶潛在感興趣的物品[5,6].不難看出,推薦系統(tǒng)由三個基本要素組成,即用戶、產(chǎn)品和推薦算法,而推薦算法是推薦系統(tǒng)的核心部分,它決定著推薦系統(tǒng)性能的優(yōu)劣[7].傳統(tǒng)的推薦算法可以歸納為3個大類,即基于內(nèi)容的推薦算法、協(xié)同過濾推薦算法以及混合推薦算法[8,9].我們將在第二節(jié)中,對傳統(tǒng)推薦算法的國內(nèi)外研究進展進行詳細的分析.
2006年Loizou A博士在意大利特蘭托市召開的推薦系統(tǒng)研討會(ECAI 2006 Recommender Systems Workshop)上指出:傳統(tǒng)的推薦算法由于沒有考慮應(yīng)用場景的上下文語義,使得在實際應(yīng)用中,這些算法在實時性、魯棒性和推薦質(zhì)量等方面存在嚴重的不足,并提出了語義推薦算法的概念,其核心思想是將語義知識融合到推薦過程中,來克服傳統(tǒng)推薦算法的不足[10].隨后,許多學(xué)者開始將語義技術(shù)集成進傳統(tǒng)各類推薦算法中,來提高總體推薦的效果.近年來,基于語義的推薦技術(shù)已成為信息服務(wù)領(lǐng)域的一個研究熱點和重點[11].
據(jù)我們調(diào)研發(fā)現(xiàn),目前大多數(shù)的語義推薦算法均是在用戶建模階段利用基于知識的方法來表示用戶信息,并且使用標準的網(wǎng)絡(luò)本體語言例如OWL[12]進行興趣建模.這些工作主要通過兩個不同的策略將語義技術(shù)融入推薦算法的用戶興趣建模中[13~16]:
(1) 通過擴散激活的方法記錄用戶的興趣偏好,并將用戶資料表示為語義網(wǎng)絡(luò)[17],同時預(yù)先計算概念間關(guān)系的權(quán)重,將一個用戶的興趣偏好分數(shù)傳播到其他用戶的相關(guān)興趣偏好分數(shù)計算之中.例如,文獻[18]中提出一個種采用擴散激活方法的新聞推薦系統(tǒng)News@hand,該推薦系統(tǒng)能夠動態(tài)地增加初始的用戶長期興趣偏好記錄.
(2) 利用本體中的層次結(jié)構(gòu)對用戶的興趣偏好做出推理.如果用戶可能喜歡某個物品,則推斷用戶也會對該物品所屬的一般類別的物品感興趣,這種策略,我們稱為上行擴散法.這種方法能夠?qū)τ脩糸L期的興趣偏好推斷新的知識,從而豐富用戶模型.例如,文獻[19]中提出的Quickstep是一個科學(xué)著作推薦系統(tǒng),該系統(tǒng)采用了上行擴散法來構(gòu)建用戶的配置文檔.
這兩種策略將語義技術(shù)應(yīng)用于推薦算法的用戶建模模塊中,另外一些語義推薦算法在內(nèi)容相似度匹配階段使用語義相似度來提高推薦算法的性能和效果[20~23].
總的來說,目前推薦系統(tǒng)的國內(nèi)外綜述文獻主要針對傳統(tǒng)的推薦算法,而極少涉及語義推薦算法.鑒于語義推薦算法的重要研究意義和實用價值,我們有必要跟蹤學(xué)習(xí)和總結(jié)該領(lǐng)域現(xiàn)階段的研究成果,并深入分析和預(yù)測其發(fā)展趨勢,期望能夠更好地指導(dǎo)未來的研究工作.
傳統(tǒng)的推薦算法主要分為三類:基于內(nèi)容的推薦算法、協(xié)同過濾推薦算法以及混合推薦算法.
基于內(nèi)容的推薦算法[24~28]根據(jù)用戶喜好的物品,選擇與該物品相似度較高的其他物品生成推薦結(jié)果,向該用戶進行推薦.該推薦算法首先由系統(tǒng)隱式獲取或是由用戶顯式給出對物品的興趣偏好屬性,然后通過計算和排序用戶興趣偏好與待預(yù)測物品描述文檔間的相似度,來向用戶推薦其可能感興趣的項目.基于內(nèi)容的推薦算法由于需要提取物品特征,自動化的特征提取方法很難應(yīng)用于多媒體數(shù)據(jù);同時,為用戶推薦的內(nèi)容僅限于與該用戶曾經(jīng)選擇物品相似的物品,結(jié)果多樣性較差.對于沒有選擇過任何物品的新用戶,存在著新用戶冷啟動問題[29].
協(xié)同過濾推薦算法分為兩種:基于用戶的協(xié)同過濾算法[29~32]和基于物品的協(xié)同過濾算法[33-36].基于用戶的協(xié)同過濾算法是利用與當前用戶相似的用戶對某些物品的興趣偏好記錄,向當前用戶推薦這些物品.基于物品的協(xié)同過濾算法是利用與當前物品相似的某些物品,向當前用戶推薦這些物品.前者需要計算用戶之間的相似度,后者需要計算物品之間的相似度,并為當前用戶進行推薦.同樣,協(xié)同過濾算法也存在冷啟動問題,對于新物品和新用戶無法進行推薦.另外,協(xié)同過濾需要獲取用戶大量的歷史數(shù)據(jù),存在數(shù)據(jù)稀疏問題[37].
由于基于內(nèi)容的推薦算法和協(xié)同過濾推薦算法各自存在不足之處,研究人員提出了混合推薦的方法[38~40]來解決單一推薦技術(shù)的不足.可以按照不同的混合策略,如加權(quán)、特征組合、混合等將不同的推薦技術(shù)進行混合推薦.
傳統(tǒng)的推薦算法各有優(yōu)缺點,在不同的研究領(lǐng)域中有各自比較典型的推薦系統(tǒng)應(yīng)用,具體比較和分析見表1.
從表1我們不難看出,傳統(tǒng)的三類推薦算法均不考慮應(yīng)用場景的上下文語義,這將在很大程度上影響了推薦的效率和質(zhì)量.在第3~6節(jié)中,我們詳細討論分析目前語義推薦算法的國內(nèi)外研究進展,主要包括基于語義的內(nèi)容推薦算法、基于語義的協(xié)同過濾推薦算法、基于語義的混合推薦算法以及基于語義的社會化推薦算法.
表1 傳統(tǒng)推薦算法比較
傳統(tǒng)基于內(nèi)容的推薦算法通過匹配用戶興趣偏好和待預(yù)測物品描述文檔間的相似度來產(chǎn)生推薦結(jié)果,這將導(dǎo)致推薦結(jié)果過度集中,缺乏多樣性,并且對于新物品存在冷啟動問題.研究人員發(fā)現(xiàn),利用語義網(wǎng)絡(luò)中的語義推理技術(shù),通過推理物品間的語義關(guān)系可以發(fā)現(xiàn)新的知識,從而將增強推薦能力.另外,利用語義網(wǎng)絡(luò)表示數(shù)據(jù)可以動態(tài)地將用戶在特定領(lǐng)域的興趣偏好情景化,進而在建立用戶模型過程中更好地表示用戶信息,以及能夠?qū)τ脩襞d趣偏好的不完全信息進行推斷[48].
Victor C等人[49]提出一種領(lǐng)域無關(guān)的語義網(wǎng)絡(luò)推薦算法,利用語義增強技術(shù)提高了用戶建模和內(nèi)容匹配的性能.在用戶建模階段,算法收集標有語義注釋物品的反饋信息,并利用反饋信息獲取用戶與物品之間的關(guān)聯(lián)關(guān)系,同時算法賦予每個關(guān)聯(lián)關(guān)聯(lián)予權(quán)重,來表示用戶對物品的偏好程度.在內(nèi)容匹配階段,算法對物品的描述是基于具體本體中所存在的概念,本體概念以層次化結(jié)構(gòu)進行組織,因而,層次結(jié)構(gòu)的根結(jié)點定義物品類型的屬性.作者通過實驗表明該推薦算法能夠有效提高推薦的準確率,并且對于擁有相對較小的興趣偏好記錄的用戶則具有較好的推薦效果.Tao P等人[50]通過構(gòu)造加權(quán)無向圖(WUG:Weighted Undirected Graph)[51],描述物品元數(shù)據(jù)之間的語義相似度.每一個物品是無向圖中的一個結(jié)點,兩個物品的元數(shù)據(jù)屬性之間的相似度決定了結(jié)點之間邊上的權(quán)重,從而在語義關(guān)聯(lián)圖中找到與用戶瀏覽記錄相關(guān)聯(lián)的物品,并通過邊上權(quán)重排序來產(chǎn)生最終的推薦結(jié)果.Pasquale L等人[52]提出基于語義的內(nèi)容推薦算法FIRST,利用機器學(xué)習(xí)策略來獲取物品生產(chǎn)商提供的物品描述信息,并將這些描述信息與物品標注的關(guān)鍵詞相結(jié)合來表示用戶的興趣偏好.FIRST算法在語義化物品描述信息的過程中,利用WSD(Word Sense Disambiguation)自然語言處理技術(shù)和WordNet[53]詞庫來避免物品信息的模糊和不確定性.另外,FIRST算法利用有監(jiān)督學(xué)習(xí)方法從物品標注的關(guān)鍵詞中學(xué)習(xí)用戶興趣偏好模型,最后算法匹配用戶興趣偏好模型和物品語義信息,從而產(chǎn)生準確的推薦結(jié)果.Sébastien H等人[54]提出了利用RDF (Resource Description Framework)知識庫[55]中的實例來定義語義相似度的方法.該方法將RDF知識庫映射成一張圖,其中頂點由類、實例和不同類型的數(shù)據(jù)組成,邊則表示類、實例和數(shù)據(jù)之間的相互關(guān)系.同時用標簽來表示實例,并且用元組來表示從資源到類別需要遍歷標簽的路徑,然后采用歐幾里得距離計算路徑的長度.基于RDF映射機制,論文提出了一種改進的特征屬性和實例,便于計算語義匹配度.此外,該RDF映射機制使得領(lǐng)域?qū)<夷軌蝻@示定義實例,從而保證了推薦的質(zhì)量.Guo W等人[56]為每個物品創(chuàng)建語義圖,并通過倒頻率策略來計算語義圖中每一對物品之間的相似度,最終將相似度高的物品推薦給用戶.Fernández-Breis JT等人[57]基于語義網(wǎng)技術(shù)提出結(jié)合學(xué)習(xí)對象和學(xué)習(xí)目標的語義模型,進而實現(xiàn)高效的推薦.
另一方面,傳統(tǒng)基于內(nèi)容的推薦算法采用自動特征提取的方式,因而很難應(yīng)用于多媒體數(shù)據(jù).但是融合進語義推理后,則可以通過分析多媒體數(shù)據(jù)的語義特征來實現(xiàn)準確的推薦.由于近年來數(shù)碼相機性能的提升以及社交媒體網(wǎng)站(例如YouTube和Flickr)的興起,自動視頻編輯受到人們越來越多的關(guān)注,而為視頻選擇合適的背景音樂則是推廣視頻的關(guān)鍵因素之一.
Kuo F等人[58]提出基于音頻/視頻多通道潛在語義分析的背景音樂推薦算法.作者從YouTube網(wǎng)站收集配有背景音樂的視頻,并使用音樂檢測算法將音樂稀疏的視頻過濾掉,提取能夠表示視頻與音頻特征的詞匯,然后通過多通道潛在語義分析技術(shù)學(xué)習(xí)表示視聽特征單詞之間的關(guān)聯(lián)模型.給定一個視頻,算法能夠從關(guān)聯(lián)模型中獲取排序后的音樂推薦列表.另外,該推薦算法能夠分析音樂節(jié)拍和視頻鏡頭切換來計算被推薦的背景音樂和視頻間的匹配度.Yoshida T等人[59]提出分別從視頻標簽和視聽特征詞中抽取語義和情感信息,并計算語義相似度和情感相似度,然后采用相似度融合函數(shù)[60]得出兩個視頻之間的相似度,從而能夠為用戶推薦與他們曾經(jīng)看過的語義相似的視頻列表.由于單個特征無法充分捕捉所有用戶的興趣偏好,因此作者采用獲取用戶日志的方式,構(gòu)建相似度融合函數(shù),來提高推薦算法的推薦質(zhì)量.
Web 2.0技術(shù)的深入發(fā)展促生了用戶生成內(nèi)容 (UGC,User Generated Content)[61]標簽的應(yīng)用.UGC標簽系統(tǒng)是一種表示用戶興趣和物品語義的重要方式.當用戶對一個物品打上一個標簽,這個標簽一方面描述了用戶的興趣,另一方面則表示了物品的語義,從而將用戶和物品聯(lián)系起來,從而在標簽系統(tǒng)中對用戶進行個性化的推薦.其中比較有代表性的是,Fan M等人[62]提出的基于內(nèi)容語義的社會標簽推薦算法STR,算法提取資源描述和標簽之間的關(guān)系,并可以緩解傳統(tǒng)推薦算法的冷啟動問題.當一個用戶對他感興趣的資源添加標簽時,算法會推薦給該用戶最有可能選擇的標簽列表,同時也能推薦描述中沒有包含的語義標簽.STR算法遵循典型的“學(xué)習(xí)-預(yù)測”范式,主要分為以下三個階段.
第1階段:經(jīng)驗語義的獲取.算法使用IBM Model-1[63]進行計算,其計算公式為:
(1)
第2階段:構(gòu)建基于內(nèi)容的標簽網(wǎng).算法將翻譯概率p(t|w)表示為加權(quán)有向圖:(w,t,p(t|w)).從頂點vi到vj的有向邊表示為:eij={〈vi,vj〉,vi∈w,vj∈t},邊上的權(quán)重為w(eij)=p(vi|vj).
第3階段:候選標簽排序.
候選標簽排序的策略是基于TextRank[64]算法進行改進,其計算公式如下:
score(vi)=(1-λ)·offset
(2)
其中λ∈[0,1]為阻尼系數(shù),代表從圖中某一個特定頂點指向其它任意頂點的概率,兩頂點之間的權(quán)重為w(eji).頂點最后的分數(shù)不受給定初值的影響,頂點的初值只影響該算法達到收斂的迭代次數(shù).根據(jù)最后的分數(shù),分數(shù)最高的m個標簽被推薦給目標資源.該公式表明如果其他重要的頂點指向某個頂點,那么該頂點更重要.
為了驗證STR推薦算法的有效性,作者實施了仿真實驗.實驗選取兩個數(shù)據(jù)集,其中一個數(shù)據(jù)集是通過豆瓣API在豆瓣網(wǎng)站上爬取著名的中文書籍的評論和標簽,而另一個數(shù)據(jù)集是通過Last.fm的API獲取的音樂和藝術(shù)家的資源內(nèi)容和標簽.然后選用詞觸發(fā)方法WTM[65]、TextRank和TFIDF[66]三個相關(guān)的社會標簽推薦算法來與STR算法進行對比.實驗結(jié)果表明,基于內(nèi)容語義的社會標簽算法STR在準確率方面性能明顯優(yōu)于其他三種社會標簽推薦算法.
從上面分析,我們可以看出,基于語義的內(nèi)容推薦算法,不僅可以緩解傳統(tǒng)基于內(nèi)容的推薦算法所存在的新物品冷啟動問題,而且可以應(yīng)用于多媒體領(lǐng)域進行高質(zhì)量的推薦.目前基于語義的內(nèi)容推薦算法已廣泛應(yīng)用于背景音樂推薦、個性化物品推薦以及社會標簽推薦等領(lǐng)域研究中.
由于傳統(tǒng)協(xié)同過濾算法是基于大量用戶歷史數(shù)據(jù)集的,如用戶對物品的評分或用戶的瀏覽行為等,因而存在數(shù)據(jù)稀疏的問題,同時對于剛加入系統(tǒng)且沒有進行任何行為的新用戶、以及沒有被瀏覽或評分的新物品都存在冷啟動問題.近年來有許多研究人員則嘗試將語義知識融合進協(xié)同過濾算法之中來解決上述問題.
將語義融合進協(xié)同過濾過程的一種方式是在計算用戶間相似度與物品間關(guān)聯(lián)時,利用語義知識來對用戶興趣偏好和物品內(nèi)容進行語義描述,使得更高質(zhì)量地預(yù)測用戶對未評分物品的打分情況,從而能夠解決冷啟動和數(shù)據(jù)稀疏問題.
Hu B等人[67]提出基于內(nèi)容語義相似度的協(xié)同過濾推薦算法,通過對描述物品的文本內(nèi)容進行分詞、去停用詞、提取標簽、詞義消岐等步驟,同時利用詞義間最短路徑方法來計算兩個詞之間的相似度,從而獲得兩個物品之間的相似度,并根據(jù)物品之間的相似度和物品已被用戶打過的評分,來預(yù)測用戶對未被評分物品的打分情況(即用戶對該物品的喜好程度).實驗表明使用內(nèi)容語義相似度能夠有效地改善協(xié)同過濾的數(shù)據(jù)稀疏性問題,從而提高了協(xié)同過濾推薦算法的性能.Abdelwahab A等人[68]提出基于降維的協(xié)同過濾推薦算法,使用消解奇異值潛在語義索引方法來減少數(shù)據(jù)表示的維度,并生成高質(zhì)量的用戶評分,從而緩解協(xié)同過濾算法的數(shù)據(jù)稀疏性問題,提高可擴展性,同時減少協(xié)同過濾算法對內(nèi)存空間的使用率.Lemdani R等人[69]提出一個域獨立的語義推薦算法,該算法包含三個功能互補的模塊,其中協(xié)同過濾模塊利用關(guān)聯(lián)規(guī)則挖掘一組推薦的候選物品;語義模塊利用本體知識檢測物品特征,并通過用戶的行為計算用戶對物品特征的喜好程度;而頻率模塊考慮特征出現(xiàn)的概率以及物品特征之間的關(guān)聯(lián),以便輔助發(fā)掘剛加入系統(tǒng)的新物品.算法融合這三個模塊能夠有效對推薦結(jié)果進行解釋,從而進行高質(zhì)量的推薦.Ferrara F等人[70]計算維基百科中概念的語義關(guān)聯(lián)度,并將語義關(guān)聯(lián)度集成到基于用戶的協(xié)同過濾推薦過程之中來提高推薦的準確性.Cantador I等人[71]提出將用戶和物品配置文件中本體概念的權(quán)重傳播到由領(lǐng)域本體語義關(guān)聯(lián)的其他概念當中.這種語義傳播策略是基于約束擴散激活技術(shù),并且權(quán)重的衰減隨擴散過程而逐漸增大.特別,文獻[71]所給出的推薦算法能夠通過相關(guān)概念的描述,從而解決傳統(tǒng)協(xié)同過濾算法的冷啟動和可擴展性問題.
將語義融合進協(xié)同過濾過程的另一種方式是采用加權(quán)的方式對協(xié)同過濾和語義相似度計算得出的推薦結(jié)果各自賦予一定的權(quán)重,以此來獲得最終的推薦列表.其中比較有代表性的是,Shambour Q等人[72]所提出的混合多準則的語義增強協(xié)同過濾算法Hybrid MC-SeCF,它集成了基于物品的協(xié)同過濾與語義過濾策略,能夠有效解決基于物品的協(xié)同過濾算法的稀疏性和冷啟動問題.Hybrid MC-SeCF算法以用戶-物品的評分矩陣以及物品本體作為輸入,并且輸出用戶-評分預(yù)測評分矩陣,其中物品本體以樹的結(jié)構(gòu)展示,只有兩層結(jié)點,父節(jié)點是物品的分類,葉節(jié)點包括屬于該分類的物品.圖1給出了Hybrid MC-SeCF算法的模塊結(jié)構(gòu)圖.從圖1我們可以看出,Hybrid MC-SeCF算法主要包含如下4個緊密相關(guān)的模塊:
(1)基于物品的多準則協(xié)同過濾模塊.該模塊根據(jù)給定的物品集合,根據(jù)基于物品的協(xié)同過濾算法計算物品之間的相似度.
(2)基于物品的語義計算模塊.為了能夠利用物品之間的語義信息,需要以樹的結(jié)構(gòu)創(chuàng)建一個物品本體,并且物品位于葉子結(jié)點,父結(jié)點是物品所屬的分類.在該模塊中,Hybrid MC-SeCF算法根據(jù)共同屬于同一個分類的比率來計算基于物品的語義相似度.
(3) 選擇鄰域模塊.分別按照基于物品的協(xié)同過濾策略和基于物品的語義相似度來計算與目標物品最為相似的物品集合,作為目標物品的鄰域.
(4) 混合權(quán)重預(yù)測模塊.根據(jù)對上述目標物品求得的兩個鄰域賦予不同的權(quán)重,以此來對用戶還沒有評分的目標物品進行評分預(yù)測.
為了驗證Hybrid MC-SeCF算法的有效性,作者將該算法與基于物品的協(xié)同過濾算法進行性能比較,并采用平均絕對誤差的方法MAE[73]作為評測標準.實驗結(jié)果表明Hybrid MC-SeCF算法的平均絕對誤差較小,在推薦準確度方面有了較大的改善.
此外,作者也驗證了Hybrid MC-SeCF算法解決數(shù)據(jù)稀疏問題的能力.實驗結(jié)果證明Hybrid MC-SeCF算法在面對稀疏的數(shù)據(jù)集時也表現(xiàn)了較好的性能,其推薦結(jié)果具有較小的平均絕對誤差以及較高的覆蓋率,因而具有較好的解決數(shù)據(jù)稀疏問題的能力.
在社會標簽系統(tǒng)中,許多學(xué)者也研究了如何將語義融入到協(xié)同過濾推薦的過程中.Chen H等人[74]提出一種新的基于標簽語義相似度的協(xié)同過濾算法,該算法通過分析標簽與物品之間的關(guān)聯(lián),使用WordNet提供的詞匯結(jié)構(gòu)對標簽的語義相似度進行計算,以此來解決單詞間相似度和語句間相似度的問題.作者以MovieLens數(shù)據(jù)集為輸入,通過仿真實驗驗證了該算法比傳統(tǒng)協(xié)同過濾算法具有更高的效率以及更好的準確率.Kim H等人[75]提出基于語義標簽的信息過濾方法,該方法首先通過給物品打標簽來判斷相似的用戶,然后為每個用戶挖掘語義上相關(guān)聯(lián)的物品.實驗結(jié)果表明該方法提高了推薦質(zhì)量,同時緩解了標簽之間模糊性、同義性和互操作性的問題.
從上面分析,我們可以看出,基于語義的協(xié)同過濾推薦算法,可以有效緩解傳統(tǒng)的協(xié)同過濾算法所面臨的新用戶和新物品冷啟動問題,以及數(shù)據(jù)稀缺性問題,并且能夠提高算法的擴展性,高效預(yù)測用戶對未評分物品的評分情況,從而判斷是否向目標用戶推薦該物品.
混合推薦算法旨在解決單個推薦技術(shù)所面臨的不足,例如基于內(nèi)容的推薦算法存在的特征提取問題、協(xié)同過濾算法存在的冷啟動和數(shù)據(jù)稀疏性等問題.然而混合推薦算法依然存在一定的領(lǐng)域局限性,也缺乏可擴展性.考慮將語義技術(shù)融入混合推薦過程之中,可以擴展應(yīng)用領(lǐng)域,以及提高混合推薦的性能.
Hsu I等人[76]提出基于XML鏈接語言XLink[77]的語義推薦算法.該推薦算法基于語義網(wǎng)技術(shù),由XLink庫、知識庫、搜索引擎和推理機等部件組成,可以提供三個不同的表示鏈接知識的方法:分別是基于XLink的元數(shù)據(jù)、基于本體的推理以及基于規(guī)則的推理.基于XLink的語義推薦算法廣泛應(yīng)用于學(xué)術(shù)論文推薦、數(shù)字圖書館等領(lǐng)域.
Liu L等人[78]依據(jù)軟件服務(wù)需求提出一個有效的語義混合推薦算法.該算法通過Web服務(wù)的屬性描述來計算語義相似度,同時考慮上下文信息和標準信息.其中上下文信息表示為層次樹的結(jié)構(gòu),能夠在用戶反饋數(shù)據(jù)稀疏的情況下幫助聚集用戶評分;標準信息能夠反映Web服務(wù)的特征信息.算法按照如下思路將基于內(nèi)容的語義推理和上下文相關(guān)的協(xié)同過濾過程耦合起來:初始當系統(tǒng)沒有收集到足夠的用戶反饋數(shù)據(jù)時,算法首先調(diào)用基于內(nèi)容的語義推薦模塊,而隨著收集到的用戶評分越來越多后,則基于上下文信息和標準信息使用協(xié)同過濾推薦模塊.最終返回給用戶的推薦結(jié)果是將上述兩種計算模塊所輸出的推薦結(jié)果進行加權(quán)后產(chǎn)生.
Deng Y等人[79]提出了電影領(lǐng)域中基于本體和神經(jīng)網(wǎng)絡(luò)的混合推薦算法.該算法通過神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力來感知用戶的個性化信息,然后訓(xùn)練神經(jīng)網(wǎng)絡(luò)模擬用戶的興趣偏好來預(yù)測用戶的選擇.另外,算法使用本體的語義描述能力建立用戶模型和物品模型.作者發(fā)現(xiàn),運用神經(jīng)網(wǎng)絡(luò)作為算法基礎(chǔ)可以有效解決新物品的冷啟動問題,而使用本體相似度算法則能解決新用戶的冷啟動問題.同時該算法由于不需要從其他用戶獲取信息因此也能保護用戶的隱私問題.
Tath I等人[80]研究提出音樂特征降維,并在推薦過程中使用多領(lǐng)域信息.為了降低音樂特征的表示維度,作者通過標簽來表示音樂流派信息,標簽信息主要包括文體起源、典型樂器、衍生形式、子類型和融合類型等信息.另外,作者并從Dbpedia知識庫[81](Wikipedia的一種結(jié)構(gòu)化形式)中提取層次結(jié)構(gòu),來分析降維后的用戶與音樂組織結(jié)構(gòu).
Chen M等人[82]指出目前大多數(shù)推薦算法均是基于集中式架構(gòu),不適用于P2P (peer-to-peer)網(wǎng)絡(luò),為此,提出分布式語義P2P推薦算法.該算法由于考慮到用戶的興趣偏好以及興趣的多樣性,因此能夠為用戶提供高質(zhì)量的音樂搜索和推薦服務(wù).具體來說,該算法采用三種過濾策略來滿足分布式語義疊加的需求,首
先算法選擇合適的元數(shù)據(jù)集合表示一個音樂對象,并且使用元數(shù)據(jù)集合構(gòu)建基于特征向量的內(nèi)容過濾工作流;然后利用音樂對象特征向量中的一個屬性來構(gòu)建一個分布式節(jié)點的配置文件,并根據(jù)配置文件構(gòu)建協(xié)同過濾工作流;最后依據(jù)音樂之間的關(guān)聯(lián)構(gòu)建一個基于歷史合作關(guān)系的過濾器,從而生成推薦結(jié)果.
博客是基于語義的混合推薦算法一個最為成功的應(yīng)用領(lǐng)域.其中具有代表性的研究工作是,Lee S等人[83]提出面向博客的自動化標簽推薦算法.該算法使用混合人工神經(jīng)網(wǎng)絡(luò)的策略,從Web 2.0協(xié)同標簽中提取集體智慧(collective intelligence)[84]和單詞的語義來學(xué)習(xí)如何設(shè)置最佳標簽,并最終產(chǎn)生一個加權(quán)的標簽列表,列表中的標簽與給定的博客內(nèi)容關(guān)聯(lián)最為緊密.
從實施流程來看,算法包含兩個主要階段,即訓(xùn)練階段和執(zhí)行階段.在訓(xùn)練過程中,算法首先使用網(wǎng)絡(luò)爬蟲獲取已經(jīng)人工打上標簽的博客,并將這些博客分成訓(xùn)練集和測試集,然后使用測試集來學(xué)習(xí)博客內(nèi)容和標簽之間的關(guān)聯(lián).訓(xùn)練階段主要分為三個步驟:關(guān)鍵詞提取、語義處理以及人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí).在關(guān)鍵詞提取步驟中,算法首先使用TFIDF方法提取單個關(guān)鍵詞,然后計算詞與詞之間共存的概率,并基于WordNet來判斷連詞.在語義處理步驟中,算法使用WordNet將步驟1中提取的關(guān)鍵詞組成層次結(jié)構(gòu),然后選擇頂層的同義詞表示博客內(nèi)容的語義信息.而在人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)步驟中,算法構(gòu)造圖2所示的學(xué)習(xí)結(jié)構(gòu)圖,包括輸入層、隱藏層和輸出層,并學(xué)習(xí)關(guān)鍵詞和標簽語義特征之間的關(guān)聯(lián).由于不同特征會影響標簽的選擇,學(xué)習(xí)得到的權(quán)重決定了每個特征對選擇標簽的影響程度,因此需要反向傳播進行學(xué)習(xí).完成訓(xùn)練階段后,系統(tǒng)進入執(zhí)行階段.在這個階段中,用戶提交博客內(nèi)容,由算法自動提取關(guān)鍵詞,進行語義分析,并調(diào)用人工神經(jīng)網(wǎng)絡(luò)產(chǎn)生的標簽向用戶進行推薦.
在仿真實驗中,作者從英文博客中提取博客內(nèi)容和標簽,將其分為訓(xùn)練集和測試集,使用關(guān)鍵詞提取方法從數(shù)據(jù)集中提取關(guān)鍵詞并計算其頻率,作為人工神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)集.將自動化標簽推薦算法與Yahoo!中的協(xié)同過濾標簽推薦算法[84]進行比較,作者發(fā)現(xiàn)算法具有更豐富的語義信息,以及更好的推薦效果.
從上面分析,我們可以看出,基于語義的混合算法具有更加廣泛的應(yīng)用領(lǐng)域,例如學(xué)術(shù)資源、web服務(wù)、電影/音樂等多媒體、P2P網(wǎng)絡(luò)以及社會標簽系統(tǒng)等領(lǐng)域.同時,基于語義的混合算法具有更好的擴展性,可以靈活結(jié)合人工神經(jīng)網(wǎng)絡(luò)、層次結(jié)構(gòu)樹等技術(shù)進行推薦.
Facebook和Twitter作為兩種不同類型社會網(wǎng)絡(luò)的代表,是目前互聯(lián)網(wǎng)界的新寵.國內(nèi)以新浪微博為代表,也成為社會網(wǎng)絡(luò)應(yīng)用的熱門平臺.基于社會網(wǎng)絡(luò)的推薦可以很好地模擬現(xiàn)實,好友的推薦可以增加推薦的信任度,并且通過獲取用戶的好友列表可以解決新用戶的冷啟動問題.但是社會化推薦也存在一些缺點,由于用戶的好友關(guān)系不是基于共同興趣產(chǎn)生的,因此用戶好友的興趣往往和用戶的興趣并不一致,導(dǎo)致推薦算法的準確率和召回率降低,而且社會化推薦存在數(shù)據(jù)稀疏問題,用戶瀏覽和對物品的評分等行為的數(shù)據(jù)集較少.因此,近年來不少研究將語義技術(shù)融進社會化推薦中,旨在提高社會化推薦結(jié)果的質(zhì)量.
Golbeck J等人[85]提出電影推薦算法FilmTrust,該算法融合了基于語義網(wǎng)的社會網(wǎng)絡(luò),利用社會網(wǎng)絡(luò)中的信任評分機制來計算用戶間相似度.Cantado I等人[86]對用戶共同興趣偏好的不同表示方法建立一個多層語義社會網(wǎng)絡(luò)模型,從大量基于本體的用戶配置文件中提取用戶共同的興趣偏好,然后自動在域概念空間中聚簇并構(gòu)建多層社會網(wǎng)絡(luò),進而在多個語義偏好層種計算用戶之間的相似度,并根據(jù)用戶之間的相似度使用協(xié)同過濾算法向用戶進行推薦.Ghita S等人[87]探討了在分布式社會網(wǎng)絡(luò)中交換和共享基于RDF圖的推薦結(jié)構(gòu),并使用擴展的FOAF詞匯[88]來指定興趣分組,以及組內(nèi)的成員共享推薦結(jié)果的方式.Martin-Vicente M等人[89]提出了個性化分發(fā)優(yōu)惠券的推薦算法,并利用社會網(wǎng)絡(luò)來為系統(tǒng)添加信息并獲取更多的新用戶.
用戶隱私保護對于社交網(wǎng)站是一個至關(guān)重要的問題[90].Li Q等人[91]提出了一個基于語義的智能隱私配置算法SPAC,可以為社會網(wǎng)絡(luò)用戶自動推薦隱私設(shè)置.SPAC算法學(xué)習(xí)用戶的隱私配置模式,利用機器學(xué)習(xí)技術(shù)依據(jù)用戶配置文件和用戶隱私設(shè)置的歷史信息,來預(yù)測用戶對未標記或新出現(xiàn)的朋友進行隱私保護設(shè)置的策略.針對不同用戶的內(nèi)容,該算法采用語義知識進行推斷,提出語義增強的k近鄰分類方法,從而在很大程度上改善了隱私推薦的準確性.在SPAC算法中,作者通過為用戶建立用戶配置文件,來記錄用戶的隱私信息,同時為用戶在社會網(wǎng)絡(luò)中所擁有的不同資源建立數(shù)據(jù)配置文件,記錄用戶的個人信息、用戶在社會網(wǎng)絡(luò)中上傳的照片、撰寫的博客日志、上傳的視頻、音頻等資源.SPAC算法的體系結(jié)構(gòu)如圖3所示,其輸入主要由4部分構(gòu)成:(1) 用戶允許部分好友訪問的資源;(2) 用戶好友的特征;(3) 用戶隱私配置的歷史記錄,作為算法的訓(xùn)練集以及;(4) 好友特征的本體知識;而SPAC算法輸出未標記或新出現(xiàn)好友的隱私保護設(shè)置.另外,我們不難看出,SPAC算法本質(zhì)上其實是一個分類系統(tǒng),其目的是找到一個分類函數(shù)M:F→{0,1},其中F是用戶好友的特征向量,0和1表示用戶決定允許或拒絕該好友訪問用戶所對應(yīng)的個人信息和資源.由于傳統(tǒng)的分類方法如決策樹、基于規(guī)則的分類等難以處理文字無關(guān)但語義相關(guān)的向量,因此作者提出了一種語義增強的k近鄰分類算法,利用域本體來計算用戶間的相似度,計算公式如公式(3)所示.其中simF函數(shù)用來測量兩個特征的值之間的相似度.而用戶的特征均被映射到本體圖的結(jié)點上,如圖4所示,其中相同的概念以同一個結(jié)點表示,且按照邊的數(shù)量來計算兩個概念之間的最短路徑,同時考慮結(jié)點在圖中所處的深度.
SIM(x,y)=
(3)
此外,論文通過仿真實驗驗證了SPAC算法的準確度以及k值對算法性能的影響.作者采用常用的n次交叉驗證方法[92]進行實驗,將語義增強的k近鄰分類算法與其他三種分類算法進行比較:(1) 基礎(chǔ)算法,即用
戶對他的一些朋友打標簽,剩下的朋友將使用默認值;(2) 決策樹算法;(3)典型的k近鄰分類算法.
實驗結(jié)果表明,基于相同的已經(jīng)打標簽的伙伴數(shù),語義增強的k近鄰分類算法比其他三種算法具有更高的準確度;當已經(jīng)打標簽的伙伴數(shù)較少時,語義增強的k近鄰分類算法的學(xué)習(xí)能力比其他三種算法效果更好.
從上面的分析中我們可以看出,基于語義的社會化推薦算法可以有效解決數(shù)據(jù)稀疏性問題,并且提高推薦算法的精度(準確率和召回率),避免社會網(wǎng)絡(luò)中用戶好友的興趣和用戶興趣不一致的問題.
與傳統(tǒng)的推薦算法相比,語義推薦算法可以有效的解決數(shù)據(jù)稀疏問題,以及新用戶和新物品的冷啟動問題,從而能夠改善推薦方案的可擴展性,并提高推薦結(jié)果的精度和多樣性.語義推薦算法已經(jīng)被廣泛應(yīng)用于多媒體、學(xué)術(shù)科研、社會標簽系統(tǒng)、社會網(wǎng)絡(luò)應(yīng)用、Web服務(wù)等各個領(lǐng)域.作為一個具有較好發(fā)展前景的研究領(lǐng)域,能夠深入研究并且取得更進一步突破的方向主要包括:
(1) 語義相似度的計算方法
語義相似度是一個主觀性很強的概念,沒有明確的客觀標準可以衡量.脫離具體的應(yīng)用討論語義相似度,很難得到一個統(tǒng)一的定義.語義相似度計算的兩種基本方法是基于本體知識的方法,以及基于統(tǒng)計的上下文向量空間模型方法.
基于本體知識計算語義相似度的方法,利用語義詞典如WordNet、HowNet中的同義詞或義原組成的樹狀層次體系結(jié)構(gòu),通過計算兩個概念間的信息熵或語義距離,來獲取概念間語義相似度.值得一提的是,利用本體知識來計算語義相似度,是基于兩個詞之間具有一定的語義相關(guān)性,(即當它們在概念間的結(jié)構(gòu)層次網(wǎng)絡(luò)圖中存在一條通路),而且該方法容易忽略不同本體概念間的相似度,對于不同本體難以有效劃分權(quán)重來確定對整體概念間相似度的貢獻[93].基于統(tǒng)計的上下文向量空間模型方法將上下文信息的概率分布作為詞匯語義相似度計算的參數(shù),利用相關(guān)熵或采用平均互信息量來計算語義相似度.基于統(tǒng)計的定量分析方法能夠?qū)υ~匯間的語義相似度進行比較精確的度量,但是這種方法較為依賴于訓(xùn)練所用的語料庫,計算量大,計算方法復(fù)雜,并且受數(shù)據(jù)稀疏和數(shù)據(jù)噪聲的干擾較大.提高語義相似度能夠直接提高語義推薦算法的推薦結(jié)果質(zhì)量,因此如何改善語義相似度的計算方法正是值得關(guān)注的研究方向.
(2) 個人推薦vs群體推薦
目前推薦算法研究領(lǐng)域幾乎都是考慮向單個用戶推薦物品、信息以及好友等,但是很少有向群體用戶提供推薦服務(wù)的推薦算法.個人推薦算法在支持個人決策行為時非常有效,但是卻并不能為群體決策提供推薦策略,這主要是因為它不包括群體用戶評分,因此不能有效地為群體產(chǎn)生推薦意見.
隨著在線社區(qū)活動的增加,人們對群體推薦算法的需求變得越來越強烈.群體決策存在社會效應(yīng),群體成員的決策過程及結(jié)果或多或少地會受到群體中其他成員的行為、想法等的影響,同時需要考慮不同用戶身份在群體中所占的比重.例如領(lǐng)袖對群體決策過程通常產(chǎn)生更具決定性的影響,因此群體決策比個人決策的過程更為復(fù)雜.我們考慮群體決策的過程,如何全面考慮群體中不同用戶不同興趣偏好的沖突從而對群體提供整體的推薦,并能夠針對不同的群體設(shè)計相應(yīng)的群體用戶推薦算法,也是語義推薦算法將來的發(fā)展方向之一.
(3) 基于地域信息的推薦
不同地方的用戶興趣存在著很大的差別,比如在飲食文化上四川人口味偏辣,而南方人口味偏甜等,因此在向不同地域的用戶推薦飲食時則要考慮用戶的地域信息才能給用戶推薦符合其興趣偏好的物品.另外,一個用戶往往在一定范圍內(nèi)活動,通過Foursqure數(shù)據(jù)分析發(fā)現(xiàn),45%的用戶其活動范圍半徑不超過10英里,而75%的用戶活動半徑不超過50英里.因此,在語義推薦算法中需要考慮推薦地點和用戶當前所處地點的距離,不能推薦太遠的地方.這就需要結(jié)合用戶定位技術(shù),將用戶的地域信息融入到推薦算法中.
(4) 推薦算法的人機交互
目前大多數(shù)語義推薦算法都是通過示例方法建立用戶模型,即需要新用戶提供初始化信息建立初始的用戶模型,隨著用戶的瀏覽記錄和行為的增多,學(xué)習(xí)并修正用戶模型從而提供更豐富的推薦結(jié)果.但是示例用戶興趣建模會間接打擊用戶瀏覽的積極性,并且初始化生成的用戶模型不一定準確.因此如何讓用戶參與推薦結(jié)果的反饋中去,使得算法能夠根據(jù)用戶反饋進行自適應(yīng)改進,需要設(shè)計合理的人機交互策略,吸引用戶參與到推薦結(jié)果的反饋中,從而更準確地獲取用戶的興趣偏好,提高推薦的性能.
(5) 推薦算法去噪并進行實時性推薦
語義推薦算法在采集用戶信息以及瀏覽記錄時,不僅存在用戶數(shù)據(jù)稀疏性問題,還可能會存在大量噪音數(shù)據(jù)和無意義數(shù)據(jù),例如用戶在系統(tǒng)中瀏覽物品時,由于某些原因離開了,但是系統(tǒng)一直在記錄用戶的瀏覽時間,并認為用戶對該物品有很大的興趣,從而向用戶推薦該物品,這樣的推薦結(jié)果明顯不是非常的精確.算法中可以采用設(shè)定閾值[93]或加入?yún)?shù)來控制采集信息的方法進行去除噪聲數(shù)據(jù),這些方法對于推薦結(jié)果的準確度具有很大的作用.
同時,由于用戶的暫時興趣偏好是一個隨時間推移而動態(tài)變化的參數(shù)[94],因此如何根據(jù)用戶的興趣變化來及時地修正用戶的配置文件,從而實時地向用戶進行推薦,也是一個影響推薦結(jié)果精確度的因素.
(6) 大數(shù)據(jù)環(huán)境下語義推薦算法
近些來,隨著物聯(lián)網(wǎng)、云計算和社交網(wǎng)絡(luò)等技術(shù)的迅猛發(fā)展,大數(shù)據(jù)越發(fā)顯現(xiàn)4V (Volume、Velocity、Variety、Veracity)特性.根據(jù)國際數(shù)據(jù)公司IDC 的測算,2011 年網(wǎng)絡(luò)空間將產(chǎn)生1800EB 的數(shù)據(jù),2012 年會增長40%,達到2500EB,截至2020 年,將會達到35000EB,超出了目前磁盤空間的存儲能力.因而,在大數(shù)據(jù)環(huán)境下,語義推薦算法在自適應(yīng)性、實時性和魯棒性方面都面臨著巨大的挑戰(zhàn).
底層數(shù)據(jù)的有效建模是解決所面臨上述挑戰(zhàn)的理論基礎(chǔ)[94].近來有研究人員提出采用物理學(xué)中張量的概念來表示大數(shù)據(jù)[95].由多階張量表示大數(shù)據(jù)結(jié)構(gòu)不僅可以對數(shù)據(jù)特征向量進行降維處理,同時也易于提取數(shù)據(jù)的語義信息,并且能夠避免學(xué)習(xí)算法中的“過擬合問題”.根據(jù)大數(shù)據(jù)的不同模態(tài)特征,將大數(shù)據(jù)表示為多階張量,在訓(xùn)練過程中能夠有效地利用未標記樣本分布信息,更好地刻畫整個樣本空間上的數(shù)據(jù)特性.然而,現(xiàn)有工作所建立的大數(shù)據(jù)張量模型均是靜態(tài)的,沒有考慮如何建立大數(shù)據(jù)去噪聲和動態(tài)性的張量模型,這方面將是將來語義推薦算法的一個重要研究方向.
另外,在物理實施大數(shù)據(jù)環(huán)境下語義推薦算法時,目前主流的策略是采用分布式并行框架(如Hadoop平臺)[96].然而我們發(fā)現(xiàn)當數(shù)據(jù)規(guī)模和模態(tài)個數(shù)逐漸增大時,Hadoop平臺的推薦實時性是存在嚴重的缺陷.近年來,學(xué)者嘗試在Hadoop YARN 上構(gòu)建Spark分布式內(nèi)存計算框架[97].Spark框架擁有Hadoop 平臺所具有的優(yōu)點,而且可以將平臺的中間輸出和結(jié)果可以保存在分布式內(nèi)存陣列中,從而不再需要讀寫HDFS,從而能較好地適用于大數(shù)據(jù)環(huán)境下語義推薦算法.因此,我們預(yù)計,將Spark框架融合進語義推薦算法是將來的一個重要研究方向.
隨著語義網(wǎng)及其相關(guān)理論的出現(xiàn)使得推薦算法的發(fā)展迎來了新的機遇,從而產(chǎn)生了語義推薦算法.語義推薦算法的研究蘊含著巨大的應(yīng)用價值和理論研究意義,近年來一直吸引著眾多的研究者展開相關(guān)工作.本文在分析傳統(tǒng)三類推薦算法所存在問題的基礎(chǔ)上,介紹和分析了語義推薦算法的研究現(xiàn)狀和進展,主要包括基于語義的內(nèi)容推薦算法、基于語義的協(xié)同過濾算法、基于語義的混合推薦算法以及基于語義的社會推薦算法,并討論了今后的發(fā)展方向,希望能對相關(guān)領(lǐng)域的研究人員和工程技術(shù)人員提供有益的幫助.
[1]Zhou Z,Liu M,Zhang F,et al.A data processing framework for IoT based online monitoring system[A].Proc of IEEE 17th International Conference on Computer Supported Cooperative Work in Design[C].Whistler:IEEE,2013.686-691.
[2]Chen W,Niu Z,Zhao X,et al.A hybrid recommendation algorithm adapted in e-learning environments[J].World Wide Web,2014,17(2):271-284.
[3]Crespo RG,Martínez OS,Lovelle JMC,et al.Recommendation system based on user interaction data applied to intelligent electronic books[J].Computers in Human Behavior,2011,27(4):1445-1449.
[4]Li L,Zheng L,Yang F,et al.Modeling and broadening temporal user interest in personalized news recommendation[J].Expert Systems with Applications,2014,41(7):3168-3177.
[5]Resnick P,Varian H R.Recommender systems[J].Communications of the ACM,1997,40(3):56-58.
[6]Rashid AM,Ling K,Tassone RD,et al.Motivating participation by displaying the value of contribution[A].Proc of the SIGCHI Conference on Human Factors in Computing Systems[C].Montreal:ACM,2006.955-958.
[7]Qiu T,Han TY,Zhong LX,et al.Redundant correlation effect on personalized recommendation[J].Computer Physics Communications,2014,185(2):489-494.
[8]周軍鋒,湯顯,郭景峰.一種優(yōu)化的協(xié)同過濾推薦算法[J].計算機研究與發(fā)展,2004,41(10):1842-1847.
Zhou Junfeng,Tang Xian,Guo Jingfeng.An optimized collaborative filtering recommendation algorithm[J].Journal of Computer Research and Development,2004,41(10):1842-1847.(in Chinese)
[9]Wu ML,Chang CH,Liu RZ.Integrating content-based filtering with collaborative filtering using co-clustering with augmented matrices[J].Expert Systems with Applications,2014,41(6):2754-2761.
[10]Loizou A,Dasmahapatra S.Recommender systems for the semantic web[A].Proc of Recommender Systems Workshop[C].Trento:ECAI,2006.1-5.
[11]Lika B,Kolomvatsos K,Hadjiefthymiades S.Facing the cold start problem in recommender systems[J].Expert Systems with Applications,2014,41(4):2065-2073.
[12]Sarigecili MI,Roy U,Rachuri S.Interpreting the semantics of GD&T specifications of a product for tolerance analysis[J].Computer-Aided Design,2014,47:72-84.
[13]Janowicz K,Raubal M,Kuhn W.The semantics of similarity in geographic information retrieval[J].Journal of Spatial Information Science,2014 (2):29-57.
[14]Sabucedo L,Gago JMS,Iglesias MJF.A tensor-based approach for semantic recommenders in egovernment[J].Advanced Science Letters,2014,20(1):317-320.
[15]Chen LC,Kuo PJ,Liao IE.Ontology-based library recommender system using MapReduce[J].Cluster Computing,2015,18(1):113-121.
[16]Adomavicius G,Jannach D.Preface to the special issue on context-aware recommender systems[J].User Modeling and User-Adapted Interaction,2014,24(1):1-5.
[17]Hu B,Zhou Y.Content semantic similarity boosted collaborative Filtering[A].Proc of International Conference on Computational Intelligence and Security[C].Suzhou:IEEE,2008.7-11.
[18]Middleton SE,De Roure DC,Shadbolt NR.Capturing knowledge of user preferences:ontologies in recommender systems[A].Proc of the 1st International Conference on Knowledge Capture[C].New York:ACM,2001.100-107.
[19]張波,向陽,黃震華.一種基于語義的決策服務(wù)協(xié)作自組織方法[J].控制與決策,2013,28(9):1414-1418.
Zhang Bo,Xiang Yang,Huang Zhenhua.Semantic based self-organization method for decision-making service collaboration[J].Control and Decision,2013,28(9):1414-1418.(in Chinese)
[20]Kim H,Kim HJ.A framework for tag-aware recommender systems[J].Expert Systems with Applications,2014,41(8):4000-4009.
[22]Liu L,Lecue F,Mehandjiev N.Semantic content-based recommendation of software services using context[J].ACM Transactions on the Web,2013,7(3):17.
[23]Janowicz K,Raubal M,Kuhn W.The semantics of similarity in geographic information retrieval[J].Journal of Spatial Information Science,2011,2 (2):29-57.
[24]Mooney RJ,Roy L.Content-based book recommending using learning for text categorization[A].Proc of the Fifth ACM Conference on Digital Libraries[C].San Antonio:ACM,2000.195-204.
[25]Koren Y,Bell R,Volinsky C.Matrix factorization techniques for recommender systems[J].Computer,2009,42(8):30-37.
[26]Martínez L,Pérez L G,Barranco M.A multigranular linguistic content-based recommendation model[J].International Journal of Intelligent Systems,2007,22(5):419-434.
[27]Sun F,Shi Y,Wang W.Content-based recommendation system based on vague sets[A].Proc of International Conference on Intelligent Human-Machine Systems and Cybernetics[C].Nanjing:IEEE,2013.294-297.
[28]Khan M,Nair S.Survey of content based recommendation systems in a nutshell[J].International Journal of Advanced Research in Computer Science and Electronics Engineering,2014,3(1):24-30.
[29]Balabanovic′ M,Shoham Y.Fab:content-based,collaborative recommendation[J].Communications of the ACM,1997,40(3):66-72.
[30]Sandvig JJ,Mobasher B,Burke R.Robustness of collaborative recommendation based on association rule mining[A].Proc of ACM Conference on Recommender Systems.[C] Silicon Valley:ACM,2007.105-112.
[31]Adomavicius G,Tuzhilin A.Toward the next generation of recommender systems:A survey of the state-of-the-art and possible extensions[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(6):734-749.
[32]Moscato V,Picariello A.Towards a user based recommendation strategy for digital ecosystems[J].Knowledge-Based Systems,2013,37(2):165-175.
[33]Huang Y,Gao X,Gu S.UARR:A novel similarity measure for collaborative filtering recommendation[J].Cybernetics and Information Technologies,2013,13(Special Issue):122-130.
[34]Choi K,Yoo D,Kim G,et al.A hybrid online-product recommendation system:Combining implicit rating-based collaborative filtering and sequential pattern analysis[J].Electronic Commerce Research and Applications,2012,11(4):309-317.
[35]Zheng VW,Zheng Y,Xie X,et al.Towards mobile intelligence:Learning from GPS history data for collaborative recommendation[J].Artificial Intelligence,2012,184-185(2):17-37.
[36]Liu Q,Chen E,Xiong H,et al.Enhancing collaborative filtering by user interest expansion via personalized ranking[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2012,42(1):218-233.
[37]Zheng Z,Ma H,Lyu MR,et al.QoS-aware web service recommendation by collaborative filtering[J].IEEE Transactions on Services Computing,2011,4(2):140-152.
[38]Zhang J,Peng Q,Sun S,et al.Collaborative filtering recommendation algorithm based on user preference derived from item domain features[J].Physica A Statistical Mechanics & Its Applications 2014,396(2):66-76.
[39]Li Y,Zhai CX,Chen Y.Exploiting rich user information for one-class collaborative filtering[J].Knowledge and Information Systems,2014,38(2):277-301.
[40]Liang T,Liang Y,Fan J,et al.A hybrid recommendation model based on estimation of distribution algorithms[J].Journal of Computational Information Systems,2014,10(2):781-788.
[41]Dai N,Qi X,Davison B D.Enhancing web search with entity intent[A].Proc of the 20th International Conference Companion on World Wide Web[C].Hyderabad:ACM,2011.29-30.
[42]Burgess J,Green J.YouTube:Online Video and Participatory Culture[M].New York:John Wiley & Sons,2013.
[43]Linden G,Smith B,York J.Amazon.com recommendations:Item-to-item collaborative filtering[J].IEEE Internet Computing,2003,7(1):76-80.
[44]Konstan JA,Miller BN,Maltz D,et al.GroupLens:applying collaborative filtering to usenet news[J].Communications of the ACM,1997,40(3):77-87.
[45]Miller BN,Albert I,Lam SK,et al.MovieLens unplugged:experiences with an occasionally connected recommender system[A].Proc of the 8th International Conference on Intelligent User Interfaces[C].Miami:ACM,2003.263-266.
[46]Bomhardt C.Newsrec,a svm-driven personal recommendation system for news websites[A].Proc of IEEE /WIC/ACM International Conference on Web Intelligence[C].Beijing:IEEE,2004.545-548.
[47]Sobecki J,Babiak E,et al.Application of hybrid recommendation in web-based cooking assistant[A].Proc of Knowledge-Based Intelligent Information and Engineering Systems[C].Bournemouth:Springer,2006.797-804.
[48]Xu H,Zhang R,Lin C,et al.Construction of E-commerce recommendation system based on semantic annotation of ontology and user preference[J].TELKOMNIKA Indonesian Journal of Electrical Engineering,2014,12(3):2028-2035.
[49]Victor C,Luigi C.Taking advantage of semantics in recommendation systems[A].Proc of International Conference of the Catalan Association for Artificial Intelligence[C].Tarragona:IOS Press,2010.163-172.
[50]Peng T,Wang W,Gong XY,et al.A graph indexing approach for content-Based recommendation system[A].Proc of International Conference on Multimedia and Information Technology[C].Hong Kong:IEEE,2010.93-97.
[51]Canhasi E,Kononenko I.Weighted archetypal analysis of the multi-element graph for query-focused multi-document summarization[J].Expert Systems with Applications,2014,41(2):535-543.
[52]Lops P,de Gemmis M,Semeraro G,et al.Content-based filtering with tags:The first system[A].Proc of International Conference on Intelligent Systems Design and Applications[C].Pisa:IEEE,2009.255-260.
[53]Preotiuc-Pietro D,Hristea F.Unsupervised word sense disambiguation with N-gram features[J].Artificial Intelligence Review,2014,41(2):241-260.
[54]Harispe S,Ranwez S,Janaqi S,et al.Semantic measures based on RDF projections:application to content-based recommendation systems[A].International Conference on the Move to Meaningful Internet Systems[C].Graz:Springer,2013.606-615.
[55]賈哲,黃志球,王珊珊,等.支持本體推理的P3P隱私策略沖突檢測研究[J].計算機科學(xué)與探索,2013,7(1):74-82.
Jia Zhe,Huang Zhiqiu,Wang Shanshan,et al.Detecting P3P privacy conflicts based on ontology[J].Journal of Frontiers of Computer Science and Technology,2013,7(1):74-82.(in Chinese)
[56]Guo W,Kraines SB.Semantic Content-Based Recommendations Using Semantic Graphs[M].Berlin:Springer,2010.653-659.
[57]Fernández-Breis JT,Frutos-Morales F,Gil AE,et al.Recommendation of Personalized Learning Contents Supported by Semantic Web Technologies[M].Berlin:Springer,2013.540-545.
[58]Kuo FF,Shan MK,Lee SY.Background music recommendation for video based on multimodal latent semantic analysis[A].Proc of IEEE International Conference on Multimedia and Expo[C].California:IEEE,2013.1-6.
[59]Yoshida T,Irie G,Arai H,et al.Towards semantic and affective content-based video recommendation[A].Proc of IEEE International Conference on Multimedia and Expo Workshops[C].California:IEEE,2013.1-6.
[60]劉敏華,蕭德云.基于相似度的多傳感器數(shù)據(jù)融合[J].控制與決策,2004,19(5):534-537.
Liu Minhua,Xiao Deyun.Multi-sensor data fusion based on similitude degree[J].Control and Decision,2004,19(5):534-537.(in Chinese)
[61]Van Dijck J.Users like you? Theorizing agency in user-generated content[J].Media,Culture,and Society,2009,31(1):41.
[62]Fan M,Zhou Q,Zheng TF.Content-based semantic tag ranking for recommendation[A].Proc of the IEEE/WIC /ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technology[C].Atlanta:IEEE,2012.292-296.
[63]Liang Y,Yan Z,Sun B,et al.Cardiovascular risk factor profiles for peripheral artery disease and carotid atherosclerosis among Chinese older people:a population-based study[J].PloS One,2014,9(1):136-148.
[64]Park J,Kim J,Lee J H.Keyword extraction for blogs based on content richness[J].Journal of Information Science,2014,40(1):38-49.
[65]Liu Z,Chen X,Sun M.A simple word trigger method for social tag suggestion[A].Proc of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics[C].Bournemouth:Springer,2011.1577-1588.
[66]Sun H.The application of fuzzy set theory in modern information retrieval[J].Advances in Services Science and Services Information Technology (Set),2014,27(1):177-186.
[67]Hu B,Zhou Y.Content semantic similarity boosted collaborative filtering[A].Proc of International Conference on Computational Intelligence and Security[C].Guangzhou:IEEE,2008.7-11.
[68]Abdelwahab A,Sekiya H,Matsuba I,et al.An efficient collaborative filtering algorithm using SVD-free latent semantic indexing and particle swarm optimization[A].Proc of International Conference on Natural Language Processing and Knowledge Engineering [C].Dalian:IEEE,2009.1-4.
[69]Lemdani R,Bennacer N,Polaillon G,et al.A collaborative and semantic-based approach for recommender systems[A].Proc of International Conference on Intelligent Systems Design and Applications[C].Cairo:IEEE,2010.469-476.
[70]Ferrara F,Tasso C.Integrating semantic relatedness in a collaborative filtering system[A].Proc of Mensch & Computer Workshopband[C].Shanghai:IEEE,2012.75-82.
[71]Cantador I,Castells P,Bellogín A.An enhanced semantic layer for hybrid recommender systems[J].International Journal on Semantic Web & Information Systems,2011,7(1):44-78.
[72]Shambour Q,Lu J.A hybrid multi-criteria semantic-enhanced collaborative filtering approach for personalized recommendations[A].Proc of IEEE/WIC/ ACM International Conference on Web Intelligence and Intelligent Agent Technology[C].Warsaw:IEEE,2011.71-78.
[73]Herlocker J,Konstan J A,Riedl J.An empirical analysis of design choices in neighborhood-based collaborative filtering algorithms[J].Information Retrieval,2002,5(4):287-310.
[74]Hang C,Meifang Z.Improve tagging recommender system based on tags semantic similarity[A].Proc of International Conference on Communication Software and Networks[C].Xi′an:IEEE,2011.94-98.
[75]Kim HN,Roczniak A,Lévy P,et al.Social media filtering based on collaborative tagging in semantic space[J].Multimedia Tools and Applications,2012,56(1):63-89.
[76]Hsu I.SXRS:an XLink-based recommender system using semantic web technologies[J].Expert Systems with Applications,2009,36(2):3795-3804.
[77]Hsu I,Ting D H,Hsueh N L.MDA-based visual modeling approach for resources link relationships using UML profile[J].Computer Standards & Interfaces,2014,36(3):648-656.
[78]Liu L,Lecue F,Mehandjiev N.A hybrid approach to recommending semantic software services[A].Proc of IEEE International Conference on Web Services[C].Washington:IEEE,2011.379-386.
[79]Deng Y,Wu Z,Tang C,et al.A hybrid movie recommender based on ontology and neural networks[A].Proc of IEEE/ACM Int′l Conference on Green Computing and Communications & Int′l Conference on Cyber,Physical and Social Computing[C].Hangzhou:IEEE,2010.846-851.
[80]Tatli I,Birturk A.A tag-based hybrid music recommendation system using semantic relations and multi-domain information[A].Proc of IEEE 11th International Conference on Data Mining Workshops[C].Vancouver:IEEE,2011.548-554.
[81]Bizer C,Lehmann J,Kobilarov G,et al.DBpedia-A crystallization point for the Web of data[J].Web Semantics:Science,Services and Agents on the World Wide Web,2009,7(3):154-165.
[82]Chen MH,Lin KCJ,Kung CC,et al.On the design of the semantic p2p system for music recommendation[A].Proc of International Symposium on Parallel and Distributed Processing with Applications[C].Taipei:IEEE,2010.442-448.
[83]Lee S,Chun A.Automatic tag recommendation for the web 2.0 blogosphere using collaborative tagging and hybrid ANN semantic structures[A].Proc of International Conference on Wseas International Conference on Applied Computer Science[C].Wisconsin:WSEAS,2007.88-93.
[84]Woolley A W,Chabris C F,Pentland A,et al.Evidence for a collective intelligence factor in the performance of human groups[J].Science,2010,330(6004):686-688.
[85]Golbeck J,Hendler J.Filmtrust:Movie recommendations using trust in web-based social networks[A].Proceedings of the IEEE Consumer Communications and Networking Conference[C].Las Vegas,NV:IEEE,2006.282-286.
[86]Cantador I,Castells P.Multilayered Semantic Social Network Modeling by Ontology-Based User Profiles Clustering:Application to Collaborative Filtering[M].Berlin:Springer,2006.334-349.
[87]Ghita S,Nejdl W,Paiu R.Semantically Rich Recommendations in Social Networks for Sharing,Exchanging and Ranking Semantic Context[M].Berlin:Springer,2005.293-307.
[88]Graves M,Constabaris A,Brickley D.Foaf:Connecting people on the semantic web[J].Cataloging & Classification Quarterly,2007,43(3-4):191-202.
[89]Martin-Vicente M I,Gil-Solla A,Ramos-Cabrer M,et al.Semantics-driven recommendation of coupons through digital TV:Exploiting synergies with social networks[A].Proc of IEEE International Conference on Consumer Electronics[C].Las Vegas:IEEE,2012.564-565.
[90]Squicciarini A C,Paci F,Sundareswaran S.PriMa:a comprehensive approach to privacy protection in social network sites[J].Annals of Telecommunications-Annales Des Télécommunications,2014,69(1-2):21-36.
[91]Li Q,Li J,Wang H,et al.Semantics-enhanced privacy recommendation for social networking sites[A].Proc of IEEE 10th International Conference on Trust,Security and Privacy in Computing and Communications[C].Liverpool:IEEE,2011.226-233.
[92]Schaffer C.Selecting a classification method by cross-validation[J].Machine Learning,1993,13(1):135-143.
[93]Zhang J,Peng Q,Sun S,et al.Collaborative filtering recommendation algorithm based on user preference derived from item domain features[J].Physica A:Statistical Mechanics and its Applications,2014:66-76.
[94]Li L,Zheng L,Yang F,et al.Modeling and broadening temporal user interest in personalized news recommendation[J].Expert Systems with Applications,2014,41(7):3168-3177.
[95]O'Leary D E.Artificial intelligence and big data[J].IEEE Intelligent Systems,2013,28(2):0096-99.
[96]Leverich J,Kozyrakis C.On the energy (in) efficiency of hadoop clusters[J].ACM SIGOPS Operating Systems Review,2010,44(1):61-65.
[97]Liu Y,Emoto K,Matsuzaki K,et al.Accumulative Computation on MapReduce[J].IPSJ Online Transactions,2014,7(0):33-42.
黃震華 男,1980年9月出生,福建仙游人.博士、副教授.研究方向為信息服務(wù)、數(shù)據(jù)挖掘和大數(shù)據(jù)分析等.
E-mail:huangzhenhua@#edu.cn
張佳雯 女,1991年11月出生,上海金山人.現(xiàn)為碩士研究生在讀,研究方向為推薦算法、數(shù)據(jù)挖掘等.
E-mail:smilezjw@qq.com
張 波 男,1978年11月出生,江蘇常州人.博士、副教授.研究方向為信息論、語義計算和模式識別等.
喻 劍 男,1974年6月出生,浙江義烏人.研究方向為數(shù)據(jù)挖掘、信息服務(wù)等.
向 陽 男,1962年12月出生,江蘇徐州人.教授、博士生導(dǎo)師.研究方向為數(shù)據(jù)挖掘、語義計算、大數(shù)據(jù)分析等.
黃德雙 男,1964年1月出生,安徽合肥人.教授、博士生導(dǎo)師.研究方向為模式識別、數(shù)據(jù)挖掘、智能計算等.
Survey of Semantics-Based Recommendation Algorithms
HUANG Zhen-hua1,ZHANG Jia-wen1,ZHANG Bo2,YU Jian1,XIANG Yang1,HUANG De-shuang1
(1.CollegeofElectronicsandInformationEngineering,TongjiUniversity,Shanghai201804,China;2.CollegeofInformation,MechanicalandElectricalEngineering,ShanghaiNormalUniversity,Shanghai200234,China)
Semantics-based recommendation technology has recently received a lot of attention in information services community.Compared with traditional recommendation algorithms,semantics-based recommendation algorithms have the marked advantages in the aspects of real-timing,robustness and recommendation quality.From the status and progress of domestic and foreign research,we summarize the following four aspects:semantics-based content recommendation algorithms,semantics-based collaborative filtering recommendation algorithms,semantics-based hybrid recommendation algorithms,and semantics-based social recommendation algorithms.And this paper is expected to provide a worthwhile reference for relevant researchers by detailedly analyzing semantics-based recommendation algorithms.Finally,we show readers the challenges and future research directions in this field.
semantics; recommendation algorithm; content recommendation; collaborative filtering recommendation; hybrid recommendation; social recommendation
,Bernstein A.User p
imilarity as classification-based model similarity[J].Semantic Web,2014,5(1):47-64.
2014-03-28;
2016-03-21;責(zé)任編輯:梅志強
國家自然科學(xué)基金(No.61272268);上海市青年科技啟明星計劃(No.15QA1403900);教育部新世紀優(yōu)秀人才支持計劃(No.NCET-12-0413);國家973課題(No.2014CB340404);霍英東基金應(yīng)用類課題(No.142002);同濟大學(xué)中央高?;究蒲袠I(yè)務(wù)費專項資金
TN911.23
A
0372-2112 (2016)09-2262-14
??學(xué)報URL:http://www.ejournal.org.cn
10.3969/j.issn.0372-2112.2016.09.035