• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合評論標(biāo)簽的個(gè)性化推薦算法*

      2016-10-28 07:41:59王夢恬魏晶晶廖祥文林錦賢陳國龍
      計(jì)算機(jī)與生活 2016年10期
      關(guān)鍵詞:元組標(biāo)簽特征

      王夢恬,魏晶晶,廖祥文,林錦賢,陳國龍

      福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福州 350108

      融合評論標(biāo)簽的個(gè)性化推薦算法*

      王夢恬,魏晶晶,廖祥文+,林錦賢,陳國龍

      福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福州 350108

      傳統(tǒng)的推薦算法大都從評論中挖掘用戶興趣或產(chǎn)品特征,然而由于評論形式自由,規(guī)則性差,導(dǎo)致從評論中獲取有效信息較困難,推薦結(jié)果不理想。在電子商務(wù)等領(lǐng)域,評論標(biāo)簽作為一種新的評論方式已經(jīng)被廣泛使用。與評論相比,評論標(biāo)簽具有規(guī)則性強(qiáng),信息密度大等特點(diǎn),因此提出了一種融合評論標(biāo)簽的推薦算法。該算法從評論標(biāo)簽中挖掘用戶對產(chǎn)品特征的觀點(diǎn),并利用其構(gòu)建用戶興趣模型和產(chǎn)品特征模型,然后向用戶推薦在他們感興趣的特征上有較高評價(jià)的產(chǎn)品。與傳統(tǒng)推薦算法進(jìn)行對比,實(shí)驗(yàn)結(jié)果表明,融合評論標(biāo)簽的算法能有效地提高用戶的覆蓋率,并提升推薦算法的準(zhǔn)確性。

      評論標(biāo)簽;產(chǎn)品特征;推薦算法

      1 引言

      互聯(lián)網(wǎng)的普及在信息時(shí)代滿足了用戶對信息的需求,然而信息超載現(xiàn)象卻使得用戶難以快速方便地尋找到自己喜歡的產(chǎn)品,信息的使用率反而降低。在競爭日趨激烈的電子商務(wù)等領(lǐng)域,優(yōu)質(zhì)的推薦系統(tǒng)不僅能提升用戶體驗(yàn),還能為企業(yè)帶來不可估量的經(jīng)濟(jì)效益。因此,越來越多的電子商務(wù)網(wǎng)站選擇推薦系統(tǒng)為用戶提供個(gè)性化服務(wù)。

      要進(jìn)行高效的推薦,就必須盡可能完整和準(zhǔn)確地挖掘用戶信息以及產(chǎn)品信息。當(dāng)前的推薦算法大都從評論中挖掘用戶的觀點(diǎn)以構(gòu)建用戶模型和產(chǎn)品模型[1],但評論主觀性強(qiáng),規(guī)則性差,挖掘有效信息較困難,因此推薦效果不理想。而評論標(biāo)簽卻具有較強(qiáng)的規(guī)則性,更容易獲取到有效的信息。例如,圖1是來自京東商城的用戶關(guān)于某手機(jī)的反饋,用戶的評論即心得大多是對產(chǎn)品整體的評論,或無意義的評論,難以體現(xiàn)用戶的具體興趣;而評論標(biāo)簽相對而言呈現(xiàn)出較強(qiáng)的規(guī)則性,大部分直接表明用戶對產(chǎn)品特征的觀點(diǎn)。

      目前,越來越多網(wǎng)站提供了標(biāo)簽評論功能,如京東商城、國美在線、蘇寧易購等,用戶既可以自定義評論標(biāo)簽,也可以直接使用熱門的評論標(biāo)簽。針對評論存在的不足,本文認(rèn)為評論標(biāo)簽具有一定的研究價(jià)值,因此提出了融合評論標(biāo)簽的推薦算法,擬通過解決以下兩個(gè)問題,提升推薦算法的準(zhǔn)確性和有效性:

      (1)評論中難以挖掘出有效信息。如果要從評論中獲取用戶關(guān)于產(chǎn)品特征的觀點(diǎn),則每句評論必須同時(shí)含有產(chǎn)品特征和觀點(diǎn)傾向的相關(guān)詞匯,但評論隨意性很高,大多數(shù)都不滿足這一要求,因此從中獲得有效信息較困難。這將使得構(gòu)建出的用戶模型準(zhǔn)確性較低,從而導(dǎo)致推薦結(jié)果不理想。

      (2)部分用戶無法獲得個(gè)性化推薦。由于大量用戶對某類產(chǎn)品的評論記錄有限,用戶的評價(jià)習(xí)慣若使得所有評論都無法抽取出有效信息,算法將無法為這類用戶構(gòu)建出興趣模型,從而無法進(jìn)行有效的個(gè)性化推薦。本文通過融合評論標(biāo)簽來彌補(bǔ)評論導(dǎo)致的有效信息過少等問題,有助于用戶興趣模型和產(chǎn)品特征模型的構(gòu)建,從而提升用戶的覆蓋率和推薦算法的性能。

      Fig.1 Users? comments on mobile phone from Jingdong圖1 京東商城用戶關(guān)于手機(jī)的評論

      2 相關(guān)工作

      針對網(wǎng)站的不同特點(diǎn),國內(nèi)外學(xué)者對推薦算法進(jìn)行了廣泛的研究。傳統(tǒng)的推薦算法主要有兩種:基于內(nèi)容的推薦算法和協(xié)同過濾推薦算法?;趦?nèi)容的推薦通過匹配用戶模型和產(chǎn)品模型,為用戶推薦匹配度較高的產(chǎn)品。常用的協(xié)同過濾推薦算法則是通過尋找用戶或產(chǎn)品的最近鄰居,利用最近鄰居的信息進(jìn)行預(yù)測評分從而產(chǎn)生推薦。傳統(tǒng)的協(xié)同過濾算法[2]在研究初期取得了較大的成效,之后不少的工作都是以該算法為基礎(chǔ)展開的[3-4]。隨著電子商務(wù)網(wǎng)站信息的豐富,數(shù)據(jù)呈現(xiàn)出復(fù)雜性和多樣性等特點(diǎn),非結(jié)構(gòu)化信息使得更多因素需要被考慮,如地理信息、標(biāo)簽信息等。顯然,單純使用用戶評分的算法在新的數(shù)據(jù)環(huán)境下已經(jīng)無法滿足推薦要求。因此,針對數(shù)據(jù)的不同特點(diǎn),國內(nèi)外學(xué)者提出了相適應(yīng)的解決方案。

      Huang等人提出了基于圖模型的推薦算法[5],結(jié)果表明,在圖模型中結(jié)合產(chǎn)品內(nèi)容和用戶購買記錄可以達(dá)到較準(zhǔn)確的預(yù)測結(jié)果。Koren等人提出了矩陣分解模型[6],該模型通過隱含特征聯(lián)系用戶與產(chǎn)品,實(shí)驗(yàn)結(jié)果表明該模型的效果明顯好于傳統(tǒng)的協(xié)同過濾算法。為了適應(yīng)不同的數(shù)據(jù)環(huán)境,Bao等人提出的TopicMF[7]模型也取得了較好的推薦效果。Wang等人[8]認(rèn)為推薦系統(tǒng)和搜索引擎有相似的目標(biāo),前者預(yù)測用戶興趣,后者表明購買意向,該文旨在探究如何將兩者結(jié)合進(jìn)行推薦。Musat等人[9]將用戶的評論文本作為主要依據(jù),通過判斷評論文本所屬的主題確定用戶的興趣,并在該層面上進(jìn)行用戶相似度的計(jì)算,從而有效降低數(shù)據(jù)稀疏性的影響。魯凱等人[10]利用上下文信息緩解數(shù)據(jù)稀疏性的負(fù)面影響,并利用產(chǎn)品之間的層次關(guān)聯(lián)關(guān)系挖掘用戶的潛在喜好,然后在特定時(shí)間段對用戶進(jìn)行建模。孫建凱等人[11]提出了面向排序的協(xié)同過濾算法,該算法在計(jì)算用戶的相似性時(shí),不僅考慮了用戶對產(chǎn)品的偏好程度,還結(jié)合了偏好的流行程度,實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的協(xié)同過濾方法相比,該算法的推薦有效性更高。Wang等人認(rèn)為用戶在不同時(shí)間段有不同的需求,因此融合了時(shí)間因素預(yù)測用戶的購買行為[12]。

      隨著標(biāo)簽系統(tǒng)如豆瓣、Delicious等社交網(wǎng)絡(luò)的興起,Zhou等人提出了基于標(biāo)簽的推薦框架[13-14],該算法通過標(biāo)簽間的聯(lián)系聚類出相應(yīng)主題,根據(jù)用戶對主題的興趣程度計(jì)算用戶間的相似性并進(jìn)行推薦,有效地克服了標(biāo)簽語義帶來的問題。Parra-Santander等人[15]利用標(biāo)簽表示用戶信息,并利用改進(jìn)的BM25算法計(jì)算用戶之間的相似性并進(jìn)行推薦,實(shí)驗(yàn)結(jié)果表明該算法好于傳統(tǒng)的協(xié)同過濾算法。Liang等人[16]建立了用戶、產(chǎn)品和標(biāo)簽之間的多元關(guān)系以定義標(biāo)簽的語義,然后確定每個(gè)用戶喜歡的標(biāo)簽和每個(gè)產(chǎn)品的相關(guān)標(biāo)簽來生成推薦,從而減小標(biāo)簽噪聲帶來的影響。Liang等人[17]在算法中分別計(jì)算了用戶使用標(biāo)簽的相似性、用戶評價(jià)產(chǎn)品的相似性以及用戶-標(biāo)簽-產(chǎn)品相似性,從而獲得更準(zhǔn)確的鄰居用戶以快速定位用戶感興趣的產(chǎn)品。閆俊等人[18]將社會化標(biāo)簽分別映射到情感、流派和上下文信息3個(gè)語義空間,并在不同的空間計(jì)算用戶和產(chǎn)品的相似度,最后融合這3個(gè)空間的相似度為用戶進(jìn)行推薦。

      雖然研究者對標(biāo)簽已經(jīng)做了較深入的研究,但此類標(biāo)簽與評論標(biāo)簽不同,它通常只具有標(biāo)注意義,不表達(dá)用戶觀點(diǎn),如“籃球”、“健康”等標(biāo)簽,若將此類推薦框架直接用于評論標(biāo)簽,將忽視很多重要信息,無法取得較好的推薦效果。因此,本文認(rèn)為評論標(biāo)簽中含有大量的有效信息,且評論標(biāo)簽還未被充分利用,具有一定的研究價(jià)值。

      3 融合評論標(biāo)簽的推薦算法

      3.1問題描述

      本文的推薦任務(wù)是向用戶推薦在他們感興趣的特征上有較高評價(jià)的產(chǎn)品。為了方便研究,本文的個(gè)性化推薦問題可形式化描述為:給定用戶集合U= {u1,u2,…,um},產(chǎn)品集合P={p1,p2,…,pn},評論集合C= {c1,c2,…,cp},評論標(biāo)簽集合T={t1,t2,…,tq},產(chǎn)品特征集合F={f1,f2,…,fl},以及用戶對產(chǎn)品的評分集合Aij(i∈m,j∈l);通過挖掘評論集合C和評論標(biāo)簽集合T中的信息,構(gòu)造(特征,觀點(diǎn),情感)元組,并通過公式分別將該元組信息轉(zhuǎn)換為矩陣Xij(i∈m,j∈l),即用戶興趣模型,以及矩陣Yij(i∈m,j∈l),即產(chǎn)品特征模型,最后計(jì)算用戶Ui對產(chǎn)品Pj的預(yù)測評分Rij,降序排列Rij即可生成推薦列表。

      3.2構(gòu)建用戶興趣模型和產(chǎn)品特征模型

      3.2.1構(gòu)造(特征,觀點(diǎn),情感)元組

      根據(jù)用戶對產(chǎn)品的評價(jià)規(guī)律,本文假設(shè)不同用戶所關(guān)注的產(chǎn)品特征不同,且用戶傾向于評論自己所關(guān)注的特征;同時(shí),用戶評價(jià)特征所表達(dá)出的情感極性,也反映了產(chǎn)品該特征的品質(zhì)優(yōu)劣情況。因此,本文以產(chǎn)品特征為對象進(jìn)行數(shù)據(jù)處理,構(gòu)造出(特征,觀點(diǎn),情感)元組。為方便表示,設(shè)產(chǎn)品的特征詞集合為F,評價(jià)特征的觀點(diǎn)詞集合為O,觀點(diǎn)詞O的情感極性為S,至此,該元組可表示為(F,O,S)。

      構(gòu)造(F,O,S)元組主要由以下3個(gè)步驟組成:

      (1)用ictclas對標(biāo)簽集合T和評論集合C進(jìn)行分詞及詞性標(biāo)注,分析標(biāo)注詞性并抽取特征詞F和觀點(diǎn)詞O,構(gòu)造(F,O)元組。如圖1中可構(gòu)造出(電池,耐用)、(系統(tǒng),流暢)等元組。

      (2)判斷觀點(diǎn)詞O的情感極性S,構(gòu)造(F,O,S)元組。若O為正向情感詞,則S=1,若O為負(fù)向情感詞,則S=-1,否則S=0。如觀點(diǎn)詞“耐用”為正向情感詞,則S=1,因此可得元組(電池,耐用,1)。

      (3)考慮極性是否需要反轉(zhuǎn)。若觀點(diǎn)詞O前存在著否定詞,則S=-S。如“質(zhì)量不好”的觀點(diǎn)詞“好”之前存在著否定詞“不”,則該情感極性需反轉(zhuǎn),因此最終可得(質(zhì)量,好,-1)元組。通過充分挖掘(F,O,S)元組,即可構(gòu)建出用戶興趣模型和產(chǎn)品特征模型。

      3.2.2構(gòu)建用戶興趣模型

      由于用戶的評價(jià)具有傾向性,本文提出如下假設(shè):若用戶在評論和標(biāo)簽中提到某特征的次數(shù)越多,則用戶對該特征的關(guān)注程度越大。因此,本文的用戶興趣模型描述的是用戶對某類產(chǎn)品某個(gè)特征的關(guān)注程度,其值用Xij(i∈m,j∈l)表示:計(jì)算公式如下所示:

      其中,tij和tagij分別表示用戶ui在評論和標(biāo)簽中提到特征fj的次數(shù)。式(1)將用戶提及特征的次數(shù)tij和tagij縮放至用戶對產(chǎn)品的評分范圍,即Xij∈[0,5]。

      3.2.3構(gòu)建產(chǎn)品特征模型

      產(chǎn)品特征模型描述的是產(chǎn)品某個(gè)特征的品質(zhì),用Yij(i∈m,j∈l)表示,該值越高說明產(chǎn)品該特征的品質(zhì)越好,反之則越差。本文假設(shè)產(chǎn)品特征的品質(zhì)優(yōu)劣由特征流行性和情感評價(jià)共同決定。流行性越大且情感評價(jià)越正面,則該特征的品質(zhì)越好。其中,流行性由該特征在評論和標(biāo)簽中被提到的次數(shù)表示,情感評價(jià)則由該特征的平均情感極性表示,Yij(i∈m,j∈l)的計(jì)算公式如下:

      其中,在產(chǎn)品pi的評論和標(biāo)簽中,特征fj被提到的次數(shù)分別為k和d,平均情感極性分別為Sij和Gij。式(2)同式(1)一樣,將產(chǎn)品的特征品質(zhì)情況縮放至用戶對產(chǎn)品的評分范圍,即Yij∈[0,5]。

      3.3融合產(chǎn)品特征的矩陣分解

      矩陣分解的基本思想是,將用戶產(chǎn)品的評分矩陣A進(jìn)行拆分,從而將用戶和產(chǎn)品分別映射到相同維度的隱因子向量空間P和Q上,那么就可以通過優(yōu)化目標(biāo)函數(shù)來學(xué)習(xí)特征矩陣P和Q,并通過計(jì)算用戶和產(chǎn)品的隱因子向量內(nèi)積獲得用戶對產(chǎn)品的預(yù)測評分。

      以上的矩陣分解是建立在這樣一個(gè)假設(shè)上,即用戶和產(chǎn)品的特性可以由相同的隱因子特征集來描述?;谕瑯拥募僭O(shè),本文引申出融合產(chǎn)品特征的矩陣分解,即用戶、產(chǎn)品特征和產(chǎn)品之間也能用隱因子向量描述。因此,通過提煉用戶興趣模型和產(chǎn)品特征模型中的信息,就能刻畫出用戶對產(chǎn)品特征的興趣程度以及產(chǎn)品關(guān)于其特征的品質(zhì)優(yōu)劣情況。而計(jì)算方法同樣能夠類比于傳統(tǒng)的矩陣分解算法,即通過優(yōu)化目標(biāo)函數(shù)將用戶興趣矩陣Xij和產(chǎn)品特征矩陣Yij分解到用戶的隱因子向量U1、產(chǎn)品特征的隱因子向量V和產(chǎn)品的隱因子向量U2上[1]。最后,結(jié)合用戶產(chǎn)品評分信息A、用戶興趣模型X和產(chǎn)品特征模型Y,可以得到融合產(chǎn)品特征的目標(biāo)函數(shù),該目標(biāo)函數(shù)如下式所示:

      在獲得隱因子向量U1、U2、V、H1、H2后,通過計(jì)算相應(yīng)的向量內(nèi)積即可獲得A、X和Y的預(yù)測值,即。

      3.4評分預(yù)測

      在進(jìn)行評分預(yù)測時(shí),本文假設(shè)用戶的購買行為只是基于k個(gè)用戶最關(guān)注的特征。因此,在用戶模型中,取用戶ui關(guān)注度最大的k個(gè)產(chǎn)品特征進(jìn)行評分預(yù)測,其中q∈Qi={qi1,qi2,…,qik},α∈[0,1]。其評分預(yù)測公式如下:

      對于用戶ui,降序排列Rij,取前N個(gè)值較大的產(chǎn)品pj,即可生產(chǎn)推薦列表。

      融合評論標(biāo)簽的推薦算法的主要流程如下所示:

      輸入:用戶評論集合C,用戶標(biāo)簽集合T,用戶數(shù)目m,產(chǎn)品數(shù)目n,用戶對產(chǎn)品的評分Aij(i∈m,j∈l),顯性特征數(shù)目r,隱性特征個(gè)數(shù)r',用戶最關(guān)注特征數(shù)目k,系數(shù)α。

      輸出:用戶ui對產(chǎn)品pj的預(yù)測評分Rij。

      (1)用ictclas對集合C和集合T進(jìn)行分詞處理和詞性標(biāo)注,構(gòu)建(F,O,S)元組;

      (2)根據(jù)式(1)計(jì)算用戶興趣模型,即矩陣Xij;

      (3)根據(jù)式(2)計(jì)算產(chǎn)品特征模型,即矩陣Yij;

      (4)根據(jù)式(3)優(yōu)化損失函數(shù),獲得參數(shù)U1、U2、V、H1、H2;

      (5)根據(jù)如下公式預(yù)測矩陣:

      (6)根據(jù)式(4)計(jì)算用戶ui對產(chǎn)品pj的預(yù)測評分Rij;

      (7)輸出用戶ui對產(chǎn)品pj的預(yù)測評分Rij;

      (8)對用戶ui,降序排列Rij生成推薦列表。

      4 實(shí)驗(yàn)結(jié)果及分析

      4.1數(shù)據(jù)集

      本文方法是針對電子商務(wù)網(wǎng)站中某一產(chǎn)品類別提出的,因此本文實(shí)驗(yàn)將該產(chǎn)品類別設(shè)定為手機(jī)。實(shí)驗(yàn)數(shù)據(jù)來自于京東商城(http://www.jd.com)中的真實(shí)數(shù)據(jù)。在2014年10月至11月,本文共抽取了京東商城上在售的2 638個(gè)手機(jī)產(chǎn)品的相關(guān)信息,其中產(chǎn)品評論共計(jì)1 081 543條,評論標(biāo)簽共計(jì)2 419 771個(gè);同時(shí)抽取了評論手機(jī)產(chǎn)品的用戶17 144個(gè),并抽取了這些用戶對各類商品的評論共計(jì)95 141條,評論標(biāo)簽共計(jì)165 636個(gè)。

      為了確保本文實(shí)驗(yàn)數(shù)據(jù)的可行性,對上述數(shù)據(jù)集進(jìn)行了過濾,即選擇了對手機(jī)的評論數(shù)在5條以上的用戶以及這些用戶所評論的產(chǎn)品進(jìn)行實(shí)驗(yàn),過濾后的具體數(shù)據(jù)信息如表1所示。實(shí)驗(yàn)隨機(jī)選取每個(gè)用戶80%的記錄作為訓(xùn)練集,其余20%的記錄則作為測試集。

      Table 1 Experimental data表1 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)表

      4.2情感詞典

      本實(shí)驗(yàn)使用HowNet情感詞典來計(jì)算評論標(biāo)簽中觀點(diǎn)詞的情感極性。

      HowNet情感詞典是《知網(wǎng)》發(fā)布的中英文詞集,共包含中英文情感分析詞語集12個(gè),本文選用其中的中文正面評價(jià)詞語集和中文負(fù)面評價(jià)詞語集作為情感詞典,中文正面評價(jià)詞語共3 730個(gè),中文負(fù)面評價(jià)詞語共3 116個(gè)。由于網(wǎng)絡(luò)用語的流行性和產(chǎn)品類別的獨(dú)有性,本實(shí)驗(yàn)在原詞典中添加了若干個(gè)常用的評價(jià)詞語。如在中文正面評價(jià)詞語集中添加了“給力”、“滿意”、“不錯(cuò)”、“耐用”等詞語,在中文負(fù)面評價(jià)詞語集中添加了“差”、“失望”、“坑”、“粗糙”等詞語。

      本文使用詞語匹配的方式來確定觀點(diǎn)詞的情感極性,即如果觀點(diǎn)詞出現(xiàn)在中文正面評價(jià)詞語集中,則該觀點(diǎn)詞的情感極性為正向;如果觀點(diǎn)詞出現(xiàn)在中文負(fù)面評價(jià)詞語集中,則該觀點(diǎn)詞的情感極性為負(fù)向;否則,該觀點(diǎn)詞的情感極性為中性。

      4.3評價(jià)指標(biāo)

      本文根據(jù)訓(xùn)練集中的數(shù)據(jù)為每個(gè)用戶建立模型,并利用構(gòu)建出的模型得到預(yù)測評分,最后依據(jù)該評分為每個(gè)用戶生成相應(yīng)的推薦列表。若推薦列表中的產(chǎn)品是該用戶測試集中的產(chǎn)品,則說明該產(chǎn)品是用戶喜歡的,同時(shí)表明算法對該產(chǎn)品的預(yù)測準(zhǔn)確。

      Table 2 Frequency of feature表2 特征類別頻率統(tǒng)計(jì)

      實(shí)驗(yàn)共選取了3個(gè)評價(jià)指標(biāo):用戶覆蓋率(user coverage)、召回率(recall)和推薦有效性(NDCG@n)。其中,用戶覆蓋率考察算法能夠進(jìn)行個(gè)性化推薦的用戶比例,該值越大,則用戶覆蓋率越大,算法性能越好。召回率指的是推薦列表中用戶喜歡的產(chǎn)品個(gè)數(shù)占測試集中用戶喜歡總個(gè)數(shù)的比值。召回率越大,則說明推薦算法的準(zhǔn)確性越高。NDCG@n是度量推薦算法有效性的評價(jià)指標(biāo),若用戶喜歡的產(chǎn)品在推薦列表中的位置越靠前,則推薦算法的有效性越好。評價(jià)指標(biāo)的公式如下所示:

      其中,M為算法能構(gòu)建出興趣信息的用戶數(shù);N為用戶總數(shù);Nrs為推薦列表中用戶喜歡的產(chǎn)品個(gè)數(shù);Nr為數(shù)據(jù)集中用戶喜歡的產(chǎn)品總數(shù);n為推薦列表長度;r(j)表示推薦列表中第j個(gè)位置的產(chǎn)品級別,若用戶購買過該產(chǎn)品,則r(j)=1,否則,r(j)=0。

      4.4實(shí)驗(yàn)設(shè)置

      在電子商務(wù)等各類網(wǎng)站,評論標(biāo)簽及評論都面臨著口語化程度高及零散化嚴(yán)重等問題。例如,“耳機(jī)”這一特征類別,可以由特征詞“耳機(jī)”、“耳塞”和“耳麥”等意思相近的一系列詞語表示,對于該“一義多詞”現(xiàn)象,目前尚未有完整的語料集或詞典進(jìn)行歸納整理。綜合考慮多方面因素,本文實(shí)驗(yàn)采用文獻(xiàn)[19]中的方法解決該問題。即3個(gè)標(biāo)注人員對手機(jī)類別的特征詞進(jìn)行標(biāo)注,若某個(gè)特征詞被至少兩個(gè)標(biāo)注人員歸為同一個(gè)類別,則認(rèn)為該歸類合理,其中標(biāo)注的一致率約為92.73%。同時(shí),本文還統(tǒng)計(jì)了該數(shù)據(jù)集中各個(gè)特征類別的出現(xiàn)頻率,結(jié)果如表2所示。

      從表2的結(jié)果可知,各特征類別分布不均,且用戶關(guān)注的特征相對比較集中,“外觀”、“屏幕”等8個(gè)特征類別的出現(xiàn)頻率和就達(dá)到了94.42%。因此,本文選取頻率大于等于0.1%的特征類別進(jìn)行實(shí)驗(yàn)。

      針對表2中選取出的特征類別,構(gòu)造出了相應(yīng)的(F,O,S)元組。(F,O,S)元組的構(gòu)造至關(guān)重要,它通過直接影響用戶模型和產(chǎn)品模型的構(gòu)建,從而間接影響推薦結(jié)果。本文分別統(tǒng)計(jì)了從評論和評論標(biāo)簽中構(gòu)造出的(F,O,S)元組的相關(guān)信息,結(jié)果如表3所示。由表3的統(tǒng)計(jì)結(jié)果可知:

      (1)對于相同數(shù)量的用戶或產(chǎn)品,標(biāo)簽數(shù)約是評論數(shù)的2倍,說明用戶傾向于使用標(biāo)簽。

      (2)對于相同數(shù)量的評論和標(biāo)簽,標(biāo)簽生成的(F, O,S)元組數(shù)多于評論,說明從標(biāo)簽中更容易獲取有效信息。

      Table 3 Information of(F,S,O)tuples表3 (F,O,S)元組信息表

      (3)單位用戶或產(chǎn)品在標(biāo)簽中獲得的(F,O,S)元組數(shù)約是評論的2.5倍,說明標(biāo)簽所含的信息量多于評論。其中,N表示用戶或產(chǎn)品總數(shù);Nt表示評論數(shù)或標(biāo)簽數(shù);NFOS表示構(gòu)造出的(F,O,S)元組數(shù)。

      4.5實(shí)驗(yàn)結(jié)果及分析

      為了驗(yàn)證本文方法FTR(fusing tag recommendation)的有效性,本實(shí)驗(yàn)將與如下兩個(gè)方法進(jìn)行對比:

      (1)文獻(xiàn)[1]中的方法只使用評論進(jìn)行用戶興趣模型和產(chǎn)品特征模型的構(gòu)建,并利用構(gòu)建出的用戶模型和產(chǎn)品模型完成相應(yīng)的推薦,本文將其視為基線方法(explicit factor models,EFM)。

      (2)構(gòu)建用戶興趣模型時(shí)融合了評論標(biāo)簽中的信息,但產(chǎn)品特征模型的構(gòu)建只使用了評論中的信息,同時(shí)利用構(gòu)建出的用戶模型和產(chǎn)品模型完成相應(yīng)的推薦(tag explicit factor models,TEFM)。

      上述方法皆關(guān)聯(lián)α、用戶關(guān)注的特征個(gè)數(shù)k和推薦列表長度n這3個(gè)參數(shù),因此本文將基于上述參數(shù)探討所提方法的有效性。

      實(shí)驗(yàn)1用戶覆蓋率的實(shí)驗(yàn)結(jié)果比較。

      用算法分別構(gòu)造出用戶興趣模型后,實(shí)驗(yàn)1統(tǒng)計(jì)了能夠成功構(gòu)造出興趣模型并獲得個(gè)性化推薦的用戶比例,實(shí)驗(yàn)結(jié)果如表4所示。

      Table 4 User coverage表4 用戶覆蓋率

      由表4可知:基準(zhǔn)方法的用戶覆蓋率為59.71%,即大約40%的用戶無法獲得個(gè)性化推薦,只能得到相同的推薦結(jié)果;而TEFM和FTR將用戶覆蓋率提升至91.97%,說明融合評論標(biāo)簽挖掘出了更多用戶的興趣信息,可以為更多的用戶建立興趣模型,從而使得大部分用戶都能得到個(gè)性化推薦。用戶覆蓋率的大幅度提升可以表明評論標(biāo)簽中含有更多的有效信息,能夠?yàn)榇蠖鄶?shù)用戶構(gòu)建出更準(zhǔn)確更完整的用戶興趣模型。

      實(shí)驗(yàn)2探究α的取值對實(shí)驗(yàn)結(jié)果的影響。

      實(shí)驗(yàn)2探究算法中最優(yōu)的α值,設(shè)k=15,n=10,實(shí)驗(yàn)結(jié)果分別如圖2和圖3所示。

      Fig.2 Recall at varyingα圖2 α取值不同時(shí)的召回率

      Fig.3 NDCG at varyingα圖3 α取值不同時(shí)的NDCG

      由圖2和圖3可知:FTR和EFM的參數(shù)值分別為0.45和0.80時(shí)推薦效果最好,并且FTR最大的Recall和NDCG均高于EFM,說明本文方法好于基準(zhǔn)方法。

      當(dāng)α處在某范圍內(nèi)時(shí),F(xiàn)TR的效果明顯好于EFM,但卻和TEFM的曲線基本重疊,說明融合評論標(biāo)簽構(gòu)建用戶模型對算法有較明顯作用,但融合標(biāo)簽構(gòu)建產(chǎn)品模型則意義不大。這是因?yàn)椋a(chǎn)品的評論記錄較多,可以獲取到較完整的產(chǎn)品特征信息,融合標(biāo)簽難以獲取額外的有效的產(chǎn)品特征信息,融合標(biāo)簽構(gòu)建產(chǎn)品模型無法起到明顯的作用。而用戶模型的構(gòu)建則與此相反,由于用戶評論記錄有限,評論標(biāo)簽?zāi)茉谝欢ǔ潭壬蠌浹a(bǔ)評論信息過少等帶來的問題,從而構(gòu)建出更完整的用戶模型,并獲得理想的推薦效果。但當(dāng)α過大時(shí),召回率和NDCG迅速下降,說明推薦效果不僅和評論及標(biāo)簽中的信息有關(guān),同時(shí)還受用戶評分信息的影響。

      實(shí)驗(yàn)3在不同的用戶關(guān)注特征個(gè)數(shù)k下的實(shí)驗(yàn)結(jié)果。

      根據(jù)實(shí)驗(yàn)2的結(jié)果,設(shè)實(shí)驗(yàn)3和實(shí)驗(yàn)4中FTR、TEFM的α值為0.45,EFM的α值為0.80,并設(shè)推薦列表長度n=20,實(shí)驗(yàn)結(jié)果分別如圖4和圖5所示。

      Fig.4 Recall at varying k圖4 k取值不同時(shí)的召回率

      Fig.5 NDCG at varying k圖5 k取值不同時(shí)的NDCG

      由圖4和圖5可知:3種方法的召回率都在k=4時(shí)最大,說明在該數(shù)據(jù)集中只需少量的特征就可以獲得較理想的推薦效果。另外,EFM和TEFM的NDCG在k=11時(shí)最大,而FTR的NDCG則在k=9時(shí)最大,說明FTR用更少的特征就能獲得最好的推薦有效性。從總體上看,實(shí)驗(yàn)結(jié)果在k>3之后便迅速提升,且FTR的推薦效果基本好于TEFM和EFM,說明融合評論標(biāo)簽的推薦算法能在一定程度上提升推薦的準(zhǔn)確率和有效性。

      實(shí)驗(yàn)4在不同的推薦列表長度n下的實(shí)驗(yàn)結(jié)果。

      根據(jù)實(shí)驗(yàn)3的結(jié)果,設(shè)在Recall的實(shí)驗(yàn)中3種方法的k都等于4,在NDCG的實(shí)驗(yàn)中,TEFM和EFM中的k=11,F(xiàn)TR中的k=9,實(shí)驗(yàn)結(jié)果分別如圖6和圖7所示。

      Fig.6 Recall at varying n圖6 n取值不同時(shí)的召回率

      Fig.7 NDCG at varying n圖7 n取值不同時(shí)的NDCG

      由圖6和圖7可知:隨著推薦長度的增加,Recall和NDCG逐漸增大,推薦準(zhǔn)確率和有效性越來越好,且FTR的推薦結(jié)果略好于EFM,說明評論標(biāo)簽在推薦算法效果的提升上有一定的作用。

      根據(jù)以上實(shí)驗(yàn)結(jié)果可知,推薦效果隨著推薦列表長度n的增大而越來越好,且算法的準(zhǔn)確率和有效性分別在用戶關(guān)注的特征個(gè)數(shù)k=4和k=9時(shí)最好。以上結(jié)果同時(shí)表明:融合評論標(biāo)簽的推薦算法,大幅度提升了用戶覆蓋率,使得更多的用戶能獲得個(gè)性化推薦。同時(shí),在召回率和推薦有效性上,本文方法FTR取得了最理想的推薦結(jié)果。說明評論標(biāo)簽?zāi)軌驑?gòu)建出更完整更準(zhǔn)確的用戶興趣模型,而融合評論標(biāo)簽的推薦算法不僅能有效提升用戶的覆蓋率,還能提升算法的準(zhǔn)確性和有效性。

      5 總結(jié)與展望

      本文針對評論規(guī)則性差,獲取有效信息較困難等問題,提出了融合評論標(biāo)簽的推薦算法,并結(jié)合實(shí)驗(yàn)結(jié)果進(jìn)行相關(guān)分析。結(jié)果表明,同評論相比,評論標(biāo)簽密度大,所含信息豐富,在獲取用戶對產(chǎn)品特征的觀點(diǎn)上具有較大優(yōu)勢,有助于構(gòu)建更完整更準(zhǔn)確的用戶興趣模型,并提升用戶的覆蓋率,同時(shí)提高算法的準(zhǔn)確率和有效性。下一步工作中,將探索其他因素對推薦算法的影響,并探究更高效更穩(wěn)定的推薦算法。

      [1]Zhang Yongfeng,Lai Guokun,Zhang Min,et al.Explicit factor models for explainable recommendation based on phrase-level sentiment analysis[C]//Proceedings of the 37th International ACM SIGIR Conference on Research&Development in Information Retrieval,Gold Coast,Australia, Jul 6-11,2014.New York:ACM,2014:83-92.

      [2]Su Xiaoyuan,Khoshgoftaar T M.A survey of collaborative filtering techniques[J].Advances in Artificial Intelligence, 2009,4:1-19.

      [3]Parra-Santander D,Brusilovsky P.Improving collaborative filtering in social tagging systems for the recommendation of scientific articles[C]//Proceedings of the 2010 IEEE/ WIC/ACM International Conference on Web Intelligence and IntelligentAgent Technology,Toronto,Canada,Aug 31-Sep 3,2010.Piscataway,USA:IEEE,2010:136-142.

      [4]Wang Chong,Blei D M.Collaborative topic modeling for recommending scientific articles[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,San Diego,USA,Aug 21-24, 2011.New York:ACM,2011:448-456.

      [5]Huang Z,Chung W,Chen H.A graph model for Ecommerce recommender systems[J].Journal of the American Society for Information Science and Technology,2004,55(3):259-274.

      [6]Koren Y,Bell R,Volinsky C.Matrix factorization techniques for recommender systems[J].Computer,2009,42(8):30-37.

      [7]Bao Yang,Fang Hui,Zhang Jie.TopicMF:simultaneously exploiting ratings and reviews for recommendation[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence,Québec,Canada,Jul 27-31,2014.Menlo Park, USA:AAAI,2014:2-8.

      [8]Wang Jian,Zhang Yi,Chen Tao.Unified recommendation and search in E-commerce[C]//LNCS 7675:Proceedings of the 8th Asia Information Retrieval Societies Conference, Tianjin,China,Dec 17-19,2012.Berlin,Heidelberg:Springer, 2012:296-305.

      [9]Musat C,Liang Y,Falting B.Recommendation using textual opinions[C]//Proceedings of the 23rd International Joint Conference on Artificial Intelligence,Beijing,Aug 3-9,2013. Menlo Park,USA:AAAI,2013:2684-2690.

      [10]Lu Kai,Zhang Guanyuan,Wan Bin.CICF:a context information based collaborative filtering algorithm[J].Journal of Chinese Information Processing,2014,28(2):122-128.

      [11]Sun Jiankai,Wang Shuaiqiang,Ma Jun.Weighted-Tau Rank: a ranking-oriented algorithm for collaborative filtering[J]. Journal of Chinese Information Processing,2014,28(1):33-39.

      [12]Wang Jian,Zhang Yi.Opportunity model for E-commerce recommendation:right product;right time[C]//Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval,Dublin, Ireland,Jul 28-Aug 1,2013.NewYork:ACM,2013:303-312.

      [13]Kim H N,Ji A T,Ha I,et al.Collaborative filtering based on collaborative tagging for enhancing the quality of recommendation[J].Electronic Commerce Research and Applications,2010,9(1):73-83.

      [14]Zhou T C,Ma Hao,Lyu M R,et al.UserRec:a user recommendation framework in social tagging systems[C]//Proceedings of the 24th AAAI Conference on Artificial Intelligence,Atlanta,USA,Jul 11-15,2010.Menlo Park,USA: AAAI,2010:1486-1491.

      [15]Parra-Santander D,Brusilovsky P.Improving collaborative filtering in social tagging systems for the recommendation of scientific articles[C]//Proceedings of the 2010 IEEE/ WIC/ACM International Conference on Web Intelligence and IntelligentAgent Technology,Toronto,Canada,Aug 31-Sep 3,2010.Piscataway,USA:IEEE,2010:136-142.

      [16]Liang Huizhi,Xu Yue,Li Yuefeng,et al.Connecting users and items with weighted tags for personalized item recommendations[C]//Proceedings of the 21st ACM Conference on Hypertext and Hypermedia,Toronto,Canada,Jun 13-16,2010.New York:ACM,2010:51-60.

      [17]Liang Huizhi,Xu Yue,Li Yuefeng,et al.Tag based collaborative filtering for recommender systems[C]//LNCS 5589: Proceedings of the 4th International Conference on Rough Sets and Knowledge Technology,Gold Coast,Australia,Jul 14-16,2009.Berlin,Heidelberg:Springer,2009:666-673.

      [18]Yan Jun,Liu Wenfei,Lin Hongfei.Music recommendation study based on tags multi-space[J].Journal of Chinese Information Processing,2014,28(4):117-122.

      [19]Lu Yue,Castellanos M,Dayal U,et al.Automatic construction of a context-aware sentiment lexicon:an optimization approach[C]//Proceedings of the 20th International Conference on World Wide Web,Hyderabad,India,Mar 28-Apr 1, 2011.New York:ACM,2011:347-356.

      附中文參考文獻(xiàn):

      [10]魯凱,張冠元,王斌.CICF:一種基于上下文信息的協(xié)同過濾推薦算法[J].中文信息學(xué)報(bào),2014,28(2):122-128.

      [11]孫建凱,王帥強(qiáng),馬軍.Weighted-Tau Rank:一種采用加權(quán)Kendall Tau的面向排序的協(xié)同過濾算法[J].中文信息學(xué)報(bào),2014,28(1):33-39.

      [18]閆俊,劉文飛,林鴻飛.基于標(biāo)簽混合語義空間的音樂推薦方法研究[J].中文信息學(xué)報(bào),2014,28(4):117-122.

      WANG Mengtian was born in 1990.She is an M.S.candidate at University of Fuzhou.Her research interests include data mining and opinion analysis,etc.

      王夢恬(1990—),女,福州大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘,觀點(diǎn)分析等。

      WEI Jingjing was born in 1984.She is a Ph.D.candidate at University of Fuzhou.Her research interest is opinion mining.

      魏晶晶(1984—),女,福州大學(xué)博士研究生,主要研究領(lǐng)域?yàn)橛^點(diǎn)挖掘。

      LIAO Xiangwen was born in 1980.He received the Ph.D.degree from University of Chinese Academy of Sciences in 2009.Now he is an associate professor and M.S.supervisor at Fuzhou University,and the senior member of CCF. His research interest is Web text opinion mining.

      廖祥文(1980—),男,2009年于中國科學(xué)院獲得博士學(xué)位,現(xiàn)為福州大學(xué)副教授、碩士生導(dǎo)師,CCF高級會員,主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)文本觀點(diǎn)挖掘。

      LIN Jinxian was born in 1957.He received the Ph.D.degree from Xi’an Jiaotong University in 2004.Now he is a professor and M.S.supervisor at Fuzhou University.His research interest is high performance computing.

      林錦賢(1957—),男,2004年于西安交通大學(xué)獲得博士學(xué)位,現(xiàn)為福州大學(xué)教授、碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)楦咝阅苡?jì)算。

      CHEN Guolong was born in 1965.He received the Ph.D.degree from Xi’an Jiaotong University in 2002.Now he is a professor and Ph.D.supervisor at Fuzhou University.His research interest is network information security.

      陳國龍(1965—),男,2002年于西安交通大學(xué)獲得博士學(xué)位,現(xiàn)為福州大學(xué)教授、博士生導(dǎo)師,主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)信息安全。

      Personalized RecommendationAlgorithm Fusing Comment Tag*

      WANG Mengtian,WEI Jingjing,LIAO Xiangwen+,LIN Jinxian,CHEN Guolong
      College of Mathematics and Computer Science,Fuzhou University,Fuzhou 350108,China

      E-mail:liaoxw@fzu.edu.cn

      The user interests and product features are extracted from comments in traditional recommendation algorithms.However,the expected recommendation performance is not achieved as it is difficult to obtain valid information,caused by the free-form and poor regularity of comments.In the current field of electronic commerce,the comment tag as a new way of comments has been widely used.Compared with comments,the comment tag has the advantages of strong regularity and information density.Thus this paper proposes a recommendation algorithm fusing comment tag which extracts the users’opinions for the product features and then makes use of them to construct user interests model and product features model.Therefore,the proposed algorithm can recommend the products with wellreviews on specific features which users are interested in.Compared with traditional algorithms,the experimental results show that the proposed algorithm can effectively improve the user coverage and the recommendation accuracy.

      comment tag;product feature;recommendation algorithm

      2015-08,Accepted 2015-10.

      10.3778/j.issn.1673-9418.1509076

      A

      TP391

      *The National Natural Science Foundation of China under Grant No.61300105(國家自然科學(xué)基金);the Doctoral Scientific Program of the Ministry of Education of China under Grant No.2012351410010(教育部博士點(diǎn)基金聯(lián)合資助項(xiàng)目);the Science and Technology Major Program of Fujian Province under Grant No.2013H6012(福建省科技重大專項(xiàng));the Science and Technology Plan Program of Fuzhou under Grant Nos.2012-G-113,2013-PT-45(福州市科技計(jì)劃項(xiàng)目).

      CNKI網(wǎng)絡(luò)優(yōu)先出版:2015-10-28,http://www.cnki.net/kcms/detail/11.5602.TP.20151028.1045.002.html

      WANG Mengtian,WEI Jingjing,LIAO Xiangwen,et al.Personalized recommendation algorithm fusing comment tag.Journal of Frontiers of Computer Science and Technology,2016,10(10):1429-1438.

      猜你喜歡
      元組標(biāo)簽特征
      Python核心語法
      如何表達(dá)“特征”
      海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
      不忠誠的四個(gè)特征
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      基于減少檢索的負(fù)表約束優(yōu)化算法
      抓住特征巧觀察
      標(biāo)簽化傷害了誰
      基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
      定南县| 吕梁市| 磴口县| 双流县| 梧州市| 天全县| 吴桥县| 敖汉旗| 驻马店市| 灵石县| 大港区| 呼玛县| 穆棱市| 柳林县| 南宫市| 美姑县| 罗定市| 哈巴河县| 临桂县| 余庆县| 永州市| 蒲城县| 湘乡市| 宁阳县| 平江县| 平原县| 龙井市| 巴南区| 北川| 呼伦贝尔市| 神农架林区| 靖宇县| 阳原县| 油尖旺区| 古丈县| 广平县| 昂仁县| 万全县| 三原县| 耒阳市| 房山区|