• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于蘊(yùn)含情感要素用戶正負(fù)偏好的電影推薦方法

      2023-12-14 12:28:36張彬董雅倩徐建民
      關(guān)鍵詞:特征向量詞典目標(biāo)

      張彬,董雅倩,徐建民

      (河北大學(xué) 網(wǎng)絡(luò)空間安全與計(jì)算機(jī)學(xué)院,河北 保定 071000)

      隨著在線視頻平臺(tái)中電影資源數(shù)量的不斷增長(zhǎng),信息過(guò)載問(wèn)題日益嚴(yán)重,用戶無(wú)法快速有效地獲取其感興趣的電影.為緩解這一問(wèn)題,電影領(lǐng)域的個(gè)性化推薦應(yīng)運(yùn)而生[1-2].合理的電影推薦不僅可以更好地滿足用戶需求,提升用戶體驗(yàn),而且可以幫助視頻平臺(tái)增加對(duì)用戶的吸引力,提升平臺(tái)的競(jìng)爭(zhēng)力.

      現(xiàn)有電影推薦一般借鑒其他領(lǐng)域的推薦方法,通過(guò)分析用戶的歷史行為數(shù)據(jù)來(lái)挖掘用戶偏好,向用戶推薦與其偏好相似的項(xiàng)目.目前常用的推薦方法包括基于內(nèi)容的推薦、協(xié)同過(guò)濾推薦和混合推薦[3-4].基于內(nèi)容的推薦方法利用用戶或項(xiàng)目的屬性分析挖掘用戶偏好,通過(guò)用戶偏好與項(xiàng)目?jī)?nèi)容的相似計(jì)算實(shí)現(xiàn)推薦[5];協(xié)同過(guò)濾推薦利用用戶與項(xiàng)目的交互數(shù)據(jù)發(fā)現(xiàn)相似用戶,將相似用戶喜歡的項(xiàng)目推薦給用戶[6];混合推薦將多種推薦方法結(jié)合于同一推薦系統(tǒng),用以提升推薦效果[7].有研究表明,用戶對(duì)項(xiàng)目的傾向不僅有正面傾向,也有負(fù)面傾向[8],而且負(fù)面傾向同樣會(huì)影響用戶的抉擇[9].然而,傳統(tǒng)的推薦方法在挖掘用戶偏好時(shí)并未關(guān)注用戶偏好的方向性,即未區(qū)分用戶的正向偏好和負(fù)向偏好,使得用戶偏好表征不夠全面.因此,有研究者在推薦研究中綜合考慮用戶對(duì)物品的正面傾向和負(fù)面傾向,從而提升推薦的準(zhǔn)確性[10].

      用戶對(duì)電影的評(píng)分能夠直觀地反映用戶對(duì)相關(guān)電影的喜愛(ài)程度,可以用來(lái)區(qū)分用戶對(duì)電影的情感傾向,已有學(xué)者基于用戶的評(píng)分?jǐn)?shù)據(jù)挖掘其正向偏好和負(fù)向偏好.張宇等[11]利用SVM分類(lèi)超平面計(jì)算用戶對(duì)電影的喜好程度,然后根據(jù)喜好程度選出用戶不喜歡的電影,并直接過(guò)濾.Walek等[12]在推薦過(guò)程中基于用戶的評(píng)分?jǐn)?shù)據(jù)發(fā)現(xiàn)其不喜歡的電影類(lèi)型,并用來(lái)實(shí)現(xiàn)對(duì)推薦結(jié)果的篩選.丁來(lái)旭等[13]利用改進(jìn)后的LINE算法和DeepWalk算法學(xué)習(xí)用戶的喜好特征、厭惡特征以及相似用戶特征,并將三者拼接來(lái)構(gòu)建用戶的偏好特征.Chen等[14]利用用戶的評(píng)分?jǐn)?shù)據(jù)挖掘其喜歡和不喜歡的2種電影列表,并用于表示用戶偏好.Zeng等[15]提供了一個(gè)可以識(shí)別用戶正面偏好和負(fù)面偏好的模型,來(lái)實(shí)現(xiàn)對(duì)用戶偏好更準(zhǔn)確的捕捉.上述研究通過(guò)分析用戶的歷史評(píng)分?jǐn)?shù)據(jù),獲得用戶對(duì)電影的正向偏好和負(fù)向偏好,并在電影推薦時(shí)加以利用,提升了推薦方法的有效性.

      用戶評(píng)論是其觀看電影后發(fā)表的關(guān)于電影評(píng)價(jià)的非結(jié)構(gòu)化數(shù)據(jù),可以較為清楚、細(xì)致地表達(dá)用戶對(duì)電影的情感,是用戶對(duì)電影偏好程度的真實(shí)體現(xiàn).通過(guò)分析用戶評(píng)論數(shù)據(jù)的情感,可以更準(zhǔn)確地挖掘用戶的興趣偏好[16].但現(xiàn)有考慮用戶正負(fù)偏好的推薦方法在挖掘用戶偏好時(shí)僅考慮了用戶的評(píng)分?jǐn)?shù)據(jù),并未對(duì)用戶評(píng)論數(shù)據(jù)中隱含的用戶情感偏好信息進(jìn)行分析,用戶偏好表征仍不夠完善.

      本文提出了一種基于蘊(yùn)含情感要素用戶正負(fù)偏好的電影推薦方法(movie recommendation method based on the positive and negative preferences of users with emotional factors, MRM-PNE),該方法利用電影領(lǐng)域情感詞典從用戶的評(píng)論數(shù)據(jù)中挖掘其情感偏好信息并計(jì)算得到評(píng)論情感得分,結(jié)合目標(biāo)用戶的評(píng)分和評(píng)論情感得分計(jì)算其對(duì)電影的喜好度,從而獲得目標(biāo)用戶的正、負(fù)向偏好電影集合,然后依據(jù)電影特征向量構(gòu)建目標(biāo)用戶正、負(fù)向偏好特征向量,最終通過(guò)候選電影特征向量與目標(biāo)用戶正、負(fù)向偏好特征向量的綜合相似度計(jì)算候選電影的最終評(píng)分,實(shí)現(xiàn)電影推薦.本文的主要貢獻(xiàn)如下:

      1)提出了一種考慮評(píng)論情感的用戶正負(fù)偏好挖掘方法.該方法在挖掘目標(biāo)用戶正負(fù)偏好特征時(shí),不僅利用了用戶的評(píng)分?jǐn)?shù)據(jù),同時(shí)還結(jié)合了用戶評(píng)論中隱藏的情感信息,更準(zhǔn)確地表征了用戶偏好特征.

      2)提出了一種基于蘊(yùn)含情感要素用戶正負(fù)偏好的電影推薦方法MRM-PNE.該方法從更準(zhǔn)確地表征用戶偏好的角度出發(fā),利用考慮了評(píng)論情感的用戶正負(fù)偏好實(shí)現(xiàn)推薦,提升了推薦效果.

      3)將豆瓣電影平臺(tái)的真實(shí)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,設(shè)置了多組對(duì)比實(shí)驗(yàn),從不同方面驗(yàn)證了本文方法的有效性.

      1 考慮評(píng)論情感的用戶正負(fù)偏好挖掘

      分別基于目標(biāo)用戶喜歡和不喜歡的電影挖掘其正向偏好特征和負(fù)向偏好特征:首先采用基于情感詞典的分析方法實(shí)現(xiàn)對(duì)用戶評(píng)論情感的挖掘與量化,得到用戶評(píng)論的情感得分;然后依據(jù)用戶的評(píng)分和評(píng)論情感得分計(jì)算目標(biāo)用戶對(duì)電影的喜好度,并用于挖掘目標(biāo)用戶的正向、負(fù)向偏好電影集合;最后基于這2個(gè)集合構(gòu)建目標(biāo)用戶的正、負(fù)向偏好特征向量,挖掘得到考慮評(píng)論情感的用戶正負(fù)偏好.

      1.1 評(píng)論情感的挖掘與量化

      目前電影領(lǐng)域沒(méi)有專(zhuān)用的情感詞典可以供研究者使用,而用戶在對(duì)電影評(píng)論時(shí)會(huì)采用一些具有本領(lǐng)域特色的情感詞(如“最佳影片”、“演技派”、“出戲”等),現(xiàn)有的通用情感詞典并不能很好地實(shí)現(xiàn)對(duì)用戶評(píng)論的情感分析.因此,本文首先從電影評(píng)論中發(fā)現(xiàn)領(lǐng)域內(nèi)特有情感詞,并結(jié)合基礎(chǔ)情感詞典構(gòu)建電影領(lǐng)域情感詞典,進(jìn)而計(jì)算評(píng)論文本的情感得分,實(shí)現(xiàn)評(píng)論情感的挖掘與量化.

      1.1.1 電影領(lǐng)域情感詞典構(gòu)建

      1)領(lǐng)域情感詞發(fā)現(xiàn)

      電影評(píng)論中通常包含電影名稱(chēng)、演員名等特殊詞語(yǔ),主流的jieba分詞并不能很好地識(shí)別這些詞語(yǔ).首先需要將這些特殊詞語(yǔ)擴(kuò)展至jieba分詞中,利用擴(kuò)展后的jieba分詞實(shí)現(xiàn)對(duì)評(píng)論文本的分詞;然后根據(jù)分詞結(jié)果從中抽取形容詞、副詞、動(dòng)詞和名詞4類(lèi)詞[17]作為候選情感詞,利用SO-PMI算法實(shí)現(xiàn)候選情感詞的情感傾向的判別,并進(jìn)行人工標(biāo)注,發(fā)現(xiàn)領(lǐng)域情感詞.本文發(fā)現(xiàn)的領(lǐng)域情感詞共863個(gè),包含褒義詞653個(gè),貶義詞210個(gè).表1展示了部分領(lǐng)域情感詞.

      表1 部分領(lǐng)域情感詞

      2)基礎(chǔ)情感詞典

      用戶評(píng)論中除了能表明用戶情感傾向的情感詞外,還包括能改變用戶情感強(qiáng)度與情感極性的程度副詞與否定詞.因此,本文將通用情感詞典、程度副詞詞典以及否定詞典作為基礎(chǔ)情感詞典.

      通用情感詞典:選用大連理工大學(xué)情感詞匯本體庫(kù)[18]構(gòu)建通用情感詞典.與HowNet[19]、NTUSD詞典[20]僅僅標(biāo)注了情感極性不同,該情感詞匯本體庫(kù)不僅標(biāo)注了情感詞的情感極性,還對(duì)情感強(qiáng)度進(jìn)行了劃分,且其中包含的情感詞數(shù)量也相對(duì)較多,其基本格式如表2所示.

      表2 情感詞典本體庫(kù)格式

      程度副詞詞典:選用HowNet提供的程度副詞構(gòu)建程度副詞詞典,并為不同的程度詞分配相應(yīng)的權(quán)重,表示不同程度的情感,該類(lèi)詞語(yǔ)的存在會(huì)改變用戶評(píng)論的情感強(qiáng)度.表3展示了部分程度副詞.

      表3 部分程度副詞

      否定詞詞典:選用HowNet提供的否定詞構(gòu)建否定詞詞典,并將其權(quán)值定為-1,電影評(píng)論的情感傾向會(huì)因否定詞的存在發(fā)生改變.表4展示了部分否定詞.

      表4 部分否定詞

      1.1.2 評(píng)論情感得分計(jì)算

      原始的電影評(píng)論數(shù)據(jù)一般由多個(gè)分句組成,且通常包含標(biāo)點(diǎn)符號(hào)、代詞等停用詞,為后續(xù)的情感分析帶來(lái)了一定的困難.因此,首先對(duì)評(píng)論數(shù)據(jù)進(jìn)行分句處理,并去除每一分句中的停用詞,并基于電影領(lǐng)域情感詞典匹配獲得評(píng)論中的情感詞、程度副詞和否定詞等;然后計(jì)算每個(gè)分句的情感強(qiáng)度,并將每個(gè)分句的情感強(qiáng)度進(jìn)行加和得到評(píng)論的情感得分.

      對(duì)于用戶的某條電影評(píng)論,其情感得分計(jì)算公式如式(1)所示.

      (1)

      其中,m表示評(píng)論C中的第m條分句;n表示分句m中的情感詞數(shù)目;Wei(wj)表示情感詞wj的情感強(qiáng)度;Adj(adv)表示出現(xiàn)在情感詞wj附近的程度副詞adv的權(quán)重;k表示出現(xiàn)在情感詞wj附近的否定詞數(shù)目.

      1.2 正負(fù)偏好電影集合挖掘

      有研究者將用戶對(duì)未觀看項(xiàng)目的預(yù)測(cè)評(píng)分作為偽評(píng)分來(lái)發(fā)現(xiàn)用戶偏好[21-22],以緩解因用戶歷史數(shù)據(jù)稀疏而導(dǎo)致的用戶偏好表征不準(zhǔn)確的問(wèn)題.因此,本文首先利用目標(biāo)用戶的評(píng)分和評(píng)論情感得分計(jì)算其對(duì)歷史觀看電影i的融合評(píng)分REu(i);然后基于融合評(píng)分計(jì)算目標(biāo)用戶對(duì)任意電影j的喜好度Ldeg(j);最后選取喜好度最高的K部電影構(gòu)建目標(biāo)用戶的正向偏好電影集合(LMS),選取喜好度最低的K部電影構(gòu)建目標(biāo)用戶的負(fù)向偏好電影集合DLMS.

      1.2.1 融合評(píng)分計(jì)算

      用戶可通過(guò)評(píng)分或評(píng)論操作表達(dá)對(duì)電影的偏好,兩者均體現(xiàn)了用戶對(duì)電影的情感偏好程度,其中評(píng)分直觀地表現(xiàn)了用戶對(duì)電影的喜歡程度,評(píng)論則表達(dá)得更加細(xì)致.本文定義融合評(píng)分表示用戶對(duì)歷史觀看電影的綜合評(píng)價(jià),計(jì)算公式如式(2)所示.

      REu(i)=α×Rateu(i)+(1-α)×Emou,i(c),

      (2)

      其中,REu(i)表示用戶u對(duì)其歷史觀看電影i的融合評(píng)分;α為融合系數(shù),且0<α<1;Rateu(i)為用戶u對(duì)電影i的評(píng)分;Emou,i(c)為用戶u對(duì)電影i的評(píng)論c的情感得分,由公式(1)計(jì)算所得.

      1.2.2 喜好度計(jì)算

      喜好度表示用戶對(duì)電影的喜好程度,利用用戶對(duì)電影的融合評(píng)分計(jì)算得到.對(duì)于電影j,當(dāng)目標(biāo)用戶u已觀看時(shí),用戶u對(duì)電影j的融合評(píng)分即為用戶對(duì)其的喜好度;當(dāng)目標(biāo)用戶u未觀看時(shí),將利用融合評(píng)分預(yù)測(cè)得到的評(píng)分作為u對(duì)電影j的喜好度.

      綜上,用戶u對(duì)電影j的喜好度Ldeg(j)的計(jì)算公式如式(3)所示.

      (3)

      (4)

      其中,M為用戶u和用戶v共同評(píng)價(jià)過(guò)的電影集合.

      1.3 正負(fù)偏好特征向量構(gòu)建

      現(xiàn)有電影推薦方法通常利用用戶歷史觀看電影的基本屬性(如導(dǎo)演、演員等)構(gòu)建用戶偏好[23],然而,電影的評(píng)分與熱門(mén)評(píng)論也是電影的重要屬性,兩者以不同的方式反映了電影的受認(rèn)可程度,且同樣能夠影響用戶的選擇[24-25].因此,本文首先利用電影的評(píng)分和熱門(mén)評(píng)論獲得電影的認(rèn)可度,然后結(jié)合電影的導(dǎo)演、編劇、演員(前2位)、類(lèi)型和地區(qū)等基本屬性信息[26]共同構(gòu)建電影特征向量,最后利用用戶的正、負(fù)向偏好電影集合構(gòu)建正、負(fù)向偏好特征向量.

      1.3.1 電影認(rèn)可度

      電影的評(píng)分和熱門(mén)評(píng)論以不同的方式反映了電影被用戶認(rèn)可的程度,本文定義電影認(rèn)可度對(duì)電影進(jìn)行綜合評(píng)價(jià),如公式(5)所示.

      (5)

      其中,Adeg(i)表示電影i的認(rèn)可度;β表示融合系數(shù),且0<β<1;MRate(i)表示電影i的評(píng)分;MCRate(i)表示電影i的熱門(mén)評(píng)論得分.由公式(6)計(jì)算得到

      (6)

      其中,C表示電影i的熱門(mén)評(píng)論集,n為熱門(mén)評(píng)論集C的評(píng)論個(gè)數(shù).

      1.3.2 電影特征向量

      電影的屬性信息來(lái)源與結(jié)構(gòu)存在較大差異,其中蘊(yùn)含著豐富的知識(shí)關(guān)聯(lián),然而傳統(tǒng)的向量表示方法只關(guān)注電影的屬性值信息,忽略了屬性之間的關(guān)聯(lián),存在一定的局限性.知識(shí)圖譜表示方法在實(shí)現(xiàn)實(shí)體向量表示時(shí),不僅可以保留實(shí)體和關(guān)系的內(nèi)在信息,還能夠?qū)?shí)體映射到低維向量空間,使用多維的連續(xù)數(shù)值向量有效地表示實(shí)體[27].因此,采用知識(shí)圖譜對(duì)電影實(shí)體進(jìn)行向量表示,可更加有效地表示電影特征,提升電影推薦的效果[28-29].

      首先構(gòu)建電影知識(shí)圖MKG={E,R,S},圖1展示了部分知識(shí)圖,其中,E為節(jié)點(diǎn)類(lèi)型集合,包括電影、

      圖1 電影知識(shí)圖Fig.1 Movie knowledge graph

      導(dǎo)演、編劇、演員(前2位)、類(lèi)型、地區(qū)、認(rèn)可度等7種節(jié)點(diǎn)類(lèi)型,R為節(jié)點(diǎn)間關(guān)系類(lèi)型集合.表5展示了所有的關(guān)系類(lèi)型.S為由節(jié)點(diǎn)及其關(guān)系構(gòu)成形如的三元組集合,如根據(jù)“電影《誤殺》的導(dǎo)演為柯汶利,其認(rèn)可度為三星”可得到三元組(誤殺,Directed_by,柯汶利)和(誤殺,Rate_is,三星).考慮到電影與屬性間的關(guān)系多為一對(duì)一、一對(duì)多的關(guān)系,本文采用TransH算法[30]將電影知識(shí)圖嵌入至低維向量空間,學(xué)習(xí)得到電影的特征向量VecM.

      表5 關(guān)系類(lèi)型

      1.3.3 用戶正負(fù)偏好特征向量

      將目標(biāo)用戶u的正向偏好特征向量表示為其LMS集合中所有電影特征向量的平均向量;負(fù)向偏好特征向量表示為其集合中所有DLMS電影特征向量的平均向量.計(jì)算公式如式(7)和(8)所示.

      (7)

      (8)

      其中,LVecu表示目標(biāo)用戶u的正向偏好特征向量;DLVecu表示目標(biāo)用戶u的負(fù)向偏好特征向量;K表示目標(biāo)用戶偏好集合的長(zhǎng)度;VecMj為電影j的對(duì)應(yīng)向量.

      2 基于用戶正負(fù)偏好的電影推薦

      與傳統(tǒng)電影推薦利用候選電影與用戶正向偏好的相似度來(lái)實(shí)現(xiàn)推薦不同,本文利用候選電影與目標(biāo)用戶正、負(fù)向偏好的綜合相似度來(lái)計(jì)算候選電影的最終評(píng)分,從而實(shí)現(xiàn)推薦.具體步驟如下:

      步驟1計(jì)算候選電影i與目標(biāo)用戶u的正、負(fù)向偏好特征向量的綜合相似度,如式(9)所示.

      (9)

      其中,VecMi表示候選電影的向量;L_Sim(VecMi,LVecu)表示目標(biāo)用戶u的正向偏好特征向量LVecu和候選電影i的相似度,即正向相似度,由式(10)計(jì)算得到;DL_Sim(VecMi,DLVecu)表示目標(biāo)用戶u的負(fù)向偏好特征向量DLVecu和候選電影i的相似度,即負(fù)向相似度,由式(11)計(jì)算得到.

      (10)

      (11)

      (12)

      其中,d(x,y)表示向量x與y的歐氏距離,k表示向量的第k維數(shù)值,l表示向量的維數(shù).

      步驟2規(guī)范化綜合相似度值simu,i至區(qū)間[1,5]內(nèi),如式(13)所示.

      (13)

      其中,rateu,i表示規(guī)范化后的相似度,max表示所有綜合相似度值中的最大值,min表示所有綜合相似度值中的最小值.

      步驟3計(jì)算目標(biāo)用戶u的評(píng)分偏差,如式(14)所示.

      bu=Avg?i(rateu,i)-Tu,

      (14)

      其中,bu為目標(biāo)用戶u的評(píng)分偏差,Tu表示目標(biāo)用戶u歷史融合評(píng)分的平均值.

      步驟4計(jì)算目標(biāo)用戶u對(duì)候選電影的最終評(píng)分,如式(15)所示.

      Fratei=rateu,i-bu.

      (15)

      步驟5當(dāng)候選電影i的Fratei大于等于評(píng)分閾值[14]時(shí)推薦給目標(biāo)用戶u.

      3 實(shí)驗(yàn)

      3.1 數(shù)據(jù)集

      目前的主流數(shù)據(jù)集中不包含實(shí)驗(yàn)所需的用戶評(píng)論數(shù)據(jù)與電影屬性信息,本文從中國(guó)具有代表性的影視類(lèi)評(píng)價(jià)網(wǎng)站(豆瓣電影平臺(tái))中采集電影數(shù)據(jù)集和用戶歷史影集,用戶歷史影集的采集時(shí)間范圍為2020年08月01日至2021年07月31日.其中電影數(shù)據(jù)集包括6 829部電影的電影ID、電影名稱(chēng)、類(lèi)型、導(dǎo)演、編劇、主演一、主演二、上映地區(qū)以及大眾評(píng)價(jià)(即大眾評(píng)分和前220條熱門(mén)評(píng)論),每部電影的上映日期均在2021年07月31日之前;用戶歷史影集包括1 148個(gè)用戶產(chǎn)生的共計(jì)72 546條評(píng)價(jià)數(shù)據(jù)(即評(píng)分、評(píng)論).將2020年08月01日至2021年04月30日的用戶歷史影集劃分為訓(xùn)練集,2021年05月01日至2021年07月31日的用戶歷史影集劃分為測(cè)試集.同時(shí),為驗(yàn)證本文電影領(lǐng)域情感詞典的有效性,將豆瓣電影平臺(tái)中隨機(jī)選用的1 000條用戶評(píng)論數(shù)據(jù)作為語(yǔ)料集,并人工標(biāo)注每條評(píng)論的情感傾向,得到正向評(píng)論數(shù)據(jù)607條,負(fù)向評(píng)論數(shù)據(jù)393條.

      3.2 評(píng)價(jià)指標(biāo)

      3.2.1 情感詞典評(píng)價(jià)指標(biāo)

      參考文獻(xiàn)[31],將實(shí)際評(píng)論情感分類(lèi)結(jié)果的正確率作為評(píng)價(jià)情感詞典有效性的指標(biāo).正確率越大,表明分類(lèi)結(jié)果越好;反之,表示分類(lèi)結(jié)果越差.計(jì)算公式如(16)所示.

      (16)

      其中,RNum表示情感分類(lèi)正確的評(píng)論數(shù),ComNum表示評(píng)論總數(shù).

      3.2.2 推薦性能指標(biāo)

      為評(píng)價(jià)本文方法的推薦性能,采用準(zhǔn)確率(precision)、召回率(recall)、F1值(F1)、平均絕對(duì)誤差(MAE)和平均絕對(duì)百分比誤差(MAPE)5個(gè)評(píng)價(jià)指標(biāo)來(lái)檢驗(yàn)?zāi)P偷耐扑]效果.

      假設(shè)推薦閾值為R,將真實(shí)評(píng)分不小于R且預(yù)測(cè)評(píng)分不小于R的電影數(shù)目表示為a,真實(shí)評(píng)分不小于R但預(yù)測(cè)評(píng)分小于R的電影數(shù)目表示為b,真實(shí)評(píng)分小于R但預(yù)測(cè)評(píng)分不小于R的電影數(shù)目表示為c.各評(píng)價(jià)指標(biāo)計(jì)算方法如下所示:

      1)準(zhǔn)確率

      準(zhǔn)確率表示推薦列表中用戶真正喜歡的電影所占的比重,計(jì)算公式如式(17)所示.

      (17)

      2)召回率

      召回率表示推薦的電影占用戶真正喜歡的電影的比重,計(jì)算公式如式(18)所示.

      (18)

      3)F1值

      F1值是對(duì)準(zhǔn)確率和召回率的綜合評(píng)估,計(jì)算公式如式(19)所示.

      (19)

      4)平均絕對(duì)誤差

      MAE表示電影真實(shí)評(píng)分與預(yù)測(cè)評(píng)分之間絕對(duì)誤差的平均值.真實(shí)評(píng)分與預(yù)測(cè)評(píng)分的誤差越小,MAE越小,表示評(píng)分預(yù)測(cè)的更準(zhǔn)確.計(jì)算公式如式(20)所示.

      (20)

      5)平均絕對(duì)百分比誤差

      MAPE用于表示電影真實(shí)評(píng)分與預(yù)測(cè)評(píng)分之間的相對(duì)誤差,值越小,評(píng)分預(yù)測(cè)的越為準(zhǔn)確.計(jì)算公式如式(21)所示.

      (21)

      3.3 實(shí)驗(yàn)結(jié)果及分析

      3.3.1 電影領(lǐng)域情感詞典有效性驗(yàn)證

      本節(jié)將包括通用情感詞典、否定詞詞典和程度副詞詞典在內(nèi)的基礎(chǔ)詞典作為對(duì)比詞典,分別比較使用電影領(lǐng)域情感詞典與基礎(chǔ)詞典時(shí)情感分類(lèi)結(jié)果的正確率Correct,實(shí)驗(yàn)結(jié)果如圖2所示.

      圖2 情感分類(lèi)結(jié)果Fig.2 Results of emotion classification

      由圖2可知,電影領(lǐng)域情感詞典的正確率高于基礎(chǔ)詞典的正確率.原因是本文的電影領(lǐng)域情感詞典中不僅包含基礎(chǔ)詞典,同時(shí)還包含了電影領(lǐng)域特有的情感詞,對(duì)基礎(chǔ)詞典進(jìn)行擴(kuò)展后,可以更完整、準(zhǔn)確地識(shí)別出電影評(píng)論中的情感詞,從而更好地實(shí)現(xiàn)對(duì)電影評(píng)論的情感分析.

      3.3.2 推薦方法有效性驗(yàn)證

      為驗(yàn)證本文提出的推薦方法的有效性,參考文獻(xiàn)[14]將推薦閾值R設(shè)置為4,當(dāng)候選電影的最終評(píng)分大于等于4時(shí)向目標(biāo)用戶推薦該電影,否則不推薦該電影.同時(shí)將用戶相似度閾值設(shè)置為0.9,當(dāng)其他用戶與目標(biāo)用戶的相似度超過(guò)0.9時(shí),將其視為目標(biāo)用戶的相似用戶.實(shí)驗(yàn)包含5部分:參數(shù)確定、評(píng)分融合的影響、電影認(rèn)可度有效性分析、正負(fù)偏好有效性驗(yàn)證、與其他方法的對(duì)比實(shí)驗(yàn).

      1)參數(shù)確定

      ①融合參數(shù)α和β的確定 確定合適的融合參數(shù)α和β,以達(dá)到最好的推薦效果.對(duì)于用戶融合評(píng)分的參數(shù)α與電影認(rèn)可度的參數(shù)β,實(shí)驗(yàn)分別從0.1到0.9遞增,以0.1為步長(zhǎng),對(duì)比不同參數(shù)組合下各推薦指標(biāo)的最優(yōu)結(jié)果,實(shí)驗(yàn)中前5組最優(yōu)結(jié)果如表6所示.

      表6 最優(yōu)結(jié)果

      由表6可知,當(dāng)參數(shù)組合為(0.7,0.4)時(shí),MAE、MAPE指標(biāo)最優(yōu),但其F1指標(biāo)最差;當(dāng)參數(shù)組合為(0.8,0.7)時(shí),MAE、MAPE指標(biāo)雖劣于參數(shù)組合,但優(yōu)于其他參數(shù)組合,且F1指標(biāo)要優(yōu)于參數(shù)組合(0.7,0.4).因此,綜合比較表中各指標(biāo)的結(jié)果,選取α=0.8,β=0.7作為本文推薦方法的參數(shù)組合.

      ②K值的確定 集合長(zhǎng)度K為用戶正向、負(fù)向偏好電影集合的長(zhǎng)度,不同的集合長(zhǎng)度使得用戶的偏好表征也不盡相同.表7展示了參數(shù)組合為(0.8,0.7)時(shí)F1、MAE、MAPE指標(biāo)的5種最優(yōu)結(jié)果.

      表7 不同指標(biāo)下的K值最優(yōu)結(jié)果

      由表7可知,針對(duì)不同的推薦目標(biāo)可選擇不同K值.如果想要獲得更好的推薦效果及分類(lèi)效果,K值的最佳取值范圍為(1 550,1 850);若想要獲得更準(zhǔn)確的預(yù)測(cè)用戶的評(píng)分,即更小的評(píng)分預(yù)測(cè)誤差,K值的最佳取值范圍為(1 400,1 600).

      綜上,為便于后續(xù)與其他實(shí)驗(yàn)進(jìn)行對(duì)比,驗(yàn)證方法MRM-PNE的有效性,選取α=0.8,β=0.7,K=1 550作為最終的參數(shù)組合.

      2)評(píng)分融合的影響

      為驗(yàn)證挖掘用戶正負(fù)偏好時(shí)考慮用戶的評(píng)論情感能否更為準(zhǔn)確地預(yù)測(cè)用戶評(píng)分,降低評(píng)分預(yù)測(cè)的誤差,參考文獻(xiàn)[14]設(shè)置僅利用用戶評(píng)分?jǐn)?shù)據(jù)挖掘用戶正、負(fù)偏好的推薦方法PN-UserRate作為對(duì)比實(shí)驗(yàn).通過(guò)對(duì)比該方法與MRM-PNE方法在參數(shù)β=0.7和K=1 550下推薦性能,來(lái)驗(yàn)證融入評(píng)論情感的有效性,實(shí)驗(yàn)結(jié)果如圖3所示.

      由圖3可知,MRM-PNE推薦方法相較于PN-UserRate方法MAE、MAPE指標(biāo)性能提升明顯,說(shuō)明利用用戶融合后的評(píng)分預(yù)測(cè)其對(duì)未觀看電影的評(píng)分可有效降低評(píng)分預(yù)測(cè)的誤差,即可更為準(zhǔn)確地預(yù)測(cè)用戶的真實(shí)評(píng)分.

      3)電影認(rèn)可度有效性分析

      為驗(yàn)證構(gòu)建電影特征向量時(shí)考慮電影的認(rèn)可度是否在MRM-PNE方法中發(fā)揮作用,本文分別設(shè)置了利用電影基本屬性與電影評(píng)分構(gòu)建電影特征向量的推薦方法PN-MRate與僅利用電影基本屬性構(gòu)建電影特征特征向量的推薦方法PN-NoPublic作為對(duì)比實(shí)驗(yàn),比較3種方法在α=0.8和K=1 550時(shí)各評(píng)價(jià)指標(biāo)的結(jié)果,實(shí)驗(yàn)結(jié)果如圖4所示.

      圖4 電影認(rèn)可度的影響Fig.4 Influence of public emotion

      通過(guò)分析圖4中各項(xiàng)指標(biāo)數(shù)據(jù)可知,MRM-PNE方法與PN-MRate方法在MAE、MAPE指標(biāo)上均優(yōu)于PN-NoPublic方法.綜合3種指標(biāo)結(jié)果,MRM-PNE推薦方法相較于其他2種方法推薦效果均有所提升,說(shuō)明在構(gòu)建電影特征向量時(shí),考慮依據(jù)電影評(píng)分與熱門(mén)評(píng)論獲得的認(rèn)可度能夠更好的表示電影特征,提升推薦效果.

      4)正、負(fù)偏好有效性驗(yàn)證

      為驗(yàn)證同時(shí)考慮用戶的正負(fù)偏好能否提升推薦效果,本文采用α=0.8,β=0.7和K=1 550的參數(shù)組合,設(shè)置僅利用用戶正向偏好的推薦方法P和僅利用用戶負(fù)向偏好的推薦方法N作為對(duì)比實(shí)驗(yàn),比較P、N與MRM-PNE 3種推薦方法的實(shí)驗(yàn)結(jié)果,各指標(biāo)的最優(yōu)結(jié)果如圖5所示.

      圖5 P、N、MRM-PNE效果對(duì)比Fig.5 Comparison of effects of P,N and MRM-PNE

      由圖5的實(shí)驗(yàn)結(jié)果可知,同時(shí)考慮用戶對(duì)電影正負(fù)偏好的MRM-PNE方法相較于其他2種僅考慮用戶正向或負(fù)向偏好的推薦方法均有一定改善,提升了推薦效果.原因可能為MRM-PNE方法在計(jì)算候選電影與用戶偏好的綜合相似度時(shí)采用正向相似度除以負(fù)向相似度,這一操作使得MRM-PNE方法在推薦過(guò)程中過(guò)濾了用戶可能不喜歡的電影,降低了錯(cuò)誤預(yù)測(cè)電影評(píng)分的風(fēng)險(xiǎn),使得獲得的推薦列表順序更加符合真實(shí)順序.

      5)與其他方法的對(duì)比實(shí)驗(yàn)

      為驗(yàn)證本文提出的MRM-PNE方法相較于其他方法能否有效提升推薦性能,將經(jīng)典的基于協(xié)同過(guò)濾、內(nèi)容推薦方法以及現(xiàn)有的基于用戶正負(fù)偏好的推薦方法進(jìn)行復(fù)現(xiàn),并與MRM-PNE方法進(jìn)行對(duì)比.對(duì)比方法及簡(jiǎn)稱(chēng)如表8所示,實(shí)驗(yàn)結(jié)果如表9所示.

      表8 不同的對(duì)比實(shí)驗(yàn)方法

      表9 對(duì)比實(shí)驗(yàn)結(jié)果

      由表9可知,MRM-PNE模型相對(duì)于其他方法推薦效果有明顯提升,其中相較于UserCF方法,F1指標(biāo)最多提升6.10%,MAE指標(biāo)最多提升3.32%,MAPE指標(biāo)最多提升11.67%;相較于SVM-ItemCF方法,各項(xiàng)指標(biāo)效果提升顯著.

      綜合上述實(shí)驗(yàn)結(jié)果可知,本文推薦方法相對(duì)于傳統(tǒng)推薦方法在各方面性能均有較大提升,同時(shí),相較于僅利用用戶評(píng)分挖掘用戶正負(fù)偏好從而實(shí)現(xiàn)推薦的方法,本文方法能夠降低評(píng)分預(yù)測(cè)誤差,更為準(zhǔn)確地預(yù)測(cè)用戶評(píng)分,進(jìn)一步驗(yàn)證了考慮評(píng)論中隱含的情感偏好信息來(lái)挖掘用戶的正負(fù)偏好能夠提升評(píng)分預(yù)測(cè)的準(zhǔn)確性,可更準(zhǔn)確地表征用戶偏好,從而在推薦時(shí)降低評(píng)分預(yù)測(cè)的誤差,獲得更好的推薦效果.

      4 結(jié)語(yǔ)

      考慮到現(xiàn)有基于用戶正負(fù)偏好的電影推薦方法在挖掘用戶正負(fù)偏好時(shí),并未對(duì)用戶評(píng)論中隱含的情感信息進(jìn)行分析,使得用戶偏好表征仍不夠準(zhǔn)確,影響推薦效果,本文提出了一種基于蘊(yùn)含情感要素用戶正負(fù)偏好的電影推薦方法.在挖掘用戶正負(fù)偏好時(shí),利用用戶的評(píng)分和評(píng)論情感信息計(jì)算用戶對(duì)電影的喜好度,進(jìn)而挖掘得到用戶的正、負(fù)向偏好電影集合,然后結(jié)合蘊(yùn)含了大眾認(rèn)可度的電影特征向量構(gòu)建用戶的正負(fù)偏好特征向量,獲得了蘊(yùn)含評(píng)論情感的用戶正負(fù)偏好,使得用戶偏好表征更加準(zhǔn)確、全面;在實(shí)現(xiàn)電影推薦時(shí),利用候選電影與用戶的正向偏好和負(fù)向偏好的相似度計(jì)算得到最終評(píng)分,實(shí)現(xiàn)了將用戶可能不感興趣的電影過(guò)濾,提升了推薦效果.由于音樂(lè)、圖書(shū)等商品均可被用戶實(shí)施評(píng)分或評(píng)論操作,本文提出的推薦方法也適用于音樂(lè)、圖書(shū)等商品推薦領(lǐng)域.在未來(lái)的工作中,將引入時(shí)間因素分析用戶正、負(fù)偏好隨時(shí)間變化的規(guī)律,從而獲得更加準(zhǔn)確的用戶偏好,提升推薦方法的性能.

      猜你喜歡
      特征向量詞典目標(biāo)
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
      克羅內(nèi)克積的特征向量
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      一類(lèi)特殊矩陣特征向量的求法
      評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
      我們的目標(biāo)
      《胡言詞典》(合集版)刊行
      新目標(biāo)七年級(jí)(下)Unit 3練習(xí)(一)
      左权县| 改则县| 龙山县| 大余县| 巨鹿县| 新兴县| 丰顺县| 桃园县| 安图县| 任丘市| 鹤岗市| 天台县| 和顺县| 广饶县| 上栗县| 固安县| 农安县| 乌鲁木齐县| 苗栗县| 大田县| 卓尼县| 六安市| 商南县| 铜梁县| 迁西县| 井陉县| 许昌县| 依兰县| 荣昌县| 永宁县| 永嘉县| 朝阳县| 双城市| 田林县| 抚州市| 蒙自县| 隆回县| 广西| 衡阳县| 客服| 荔浦县|