• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于評(píng)論文本的自適應(yīng)特征提取推薦研究

      2022-03-07 06:57:44胡海星王宜貴袁衛(wèi)華張志軍秦倩倩
      軟件導(dǎo)刊 2022年2期
      關(guān)鍵詞:注意力向量機(jī)制

      胡海星,王宜貴,袁衛(wèi)華,張志軍,秦倩倩

      (山東建筑大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東濟(jì)南 250101)

      0 引言

      互聯(lián)網(wǎng)的迅速發(fā)展,為用戶(hù)提供了更便利的購(gòu)物方式,同也為用戶(hù)帶來(lái)選擇困擾,如何在眾多信息中發(fā)現(xiàn)感興趣的商品,成為電商平臺(tái)亟待解決的問(wèn)題。在該情況下,推薦系統(tǒng)發(fā)揮著越來(lái)越重要的作用,其可根據(jù)用戶(hù)歷史行為和偏好推薦當(dāng)前用戶(hù)可能感興趣的商品,為用戶(hù)提供個(gè)性化推薦服務(wù)。

      傳統(tǒng)推薦算法中,主流的協(xié)同過(guò)濾(Collaborative Filtering,CF)算法通過(guò)學(xué)習(xí)用戶(hù)和商品的顯式或隱式交互為用戶(hù)推薦商品。其中,矩陣分解技術(shù)(Matrix Factorization,MF)較為常用,該技術(shù)將用戶(hù)和商品映射成兩個(gè)低秩矩陣,通過(guò)內(nèi)積方式獲取預(yù)測(cè)評(píng)分。PMF概率矩陣分解模型則利用矩陣分解思想結(jié)合高斯概率函數(shù)優(yōu)化預(yù)測(cè)與實(shí)際評(píng)分的差值。盡管矩陣分解技術(shù)在推薦系統(tǒng)中能取得良好的性能,但該技術(shù)缺乏高階特征交互學(xué)習(xí)能力,無(wú)法學(xué)習(xí)用戶(hù)復(fù)雜的評(píng)分行為。

      相比評(píng)分?jǐn)?shù)據(jù),評(píng)論文本包含了更豐富的語(yǔ)義信息,可反映用戶(hù)偏好,并且能對(duì)推薦結(jié)果提供合理性解釋。此外,評(píng)論文本通常還包含了商品特征信息?;赥F-IDF(Term Frequency-Inverse Document Frequency)推薦算法利用用戶(hù)評(píng)論中的詞頻信息表示用戶(hù)偏好進(jìn)行推薦,但無(wú)法挖掘用戶(hù)評(píng)論的語(yǔ)義信息?;谥黝}模型的推薦算法通常采用詞袋模型,雖然考慮了用戶(hù)的評(píng)論語(yǔ)義,利用評(píng)論提取潛在特征,但算法結(jié)合上下文學(xué)習(xí)用戶(hù)評(píng)論語(yǔ)義信息的能力不足,無(wú)法有效提升推薦性能。

      近年來(lái),深度學(xué)習(xí)已經(jīng)成功應(yīng)用于計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理等領(lǐng)域,在基于評(píng)論文本的推薦系統(tǒng)中也取得了很好的效果。ConvMF 模型利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)從商品評(píng)論中提取特征,結(jié)合概率矩陣分解和用戶(hù)評(píng)分?jǐn)?shù)據(jù)獲得預(yù)測(cè)評(píng)分,但未能考慮用戶(hù)評(píng)論特征的重要性。DeepCoNN構(gòu)建并行神經(jīng)網(wǎng)絡(luò),聯(lián)合建模用戶(hù)和商品的評(píng)論特征用于推薦。D-ATTN模型和NARRE 模型加入了注意力機(jī)制,用于捕捉評(píng)論中的重要特征,并利用矩陣分解方法獲取預(yù)測(cè)評(píng)分。DAML 模型在捕獲用戶(hù)和商品特征后,使用神經(jīng)因子分解機(jī)進(jìn)行特征交互。HAUP 模型使用基于雙向門(mén)控循環(huán)單元網(wǎng)絡(luò)(Bidirectional Gated Recurrent Units,Bi-GRU)的神經(jīng)網(wǎng)絡(luò)以處理評(píng)論的長(zhǎng)期依賴(lài),挖掘評(píng)論中單詞和句子的信息,聯(lián)合建模用戶(hù)和商品特征,取得了較好的推薦性能。然而,以上方法也存在以下問(wèn)題:

      (1)大部分研究通常采用靜態(tài)編碼詞向量表示文本特征嵌入,然而在實(shí)際中同一單詞在不同上下文環(huán)境中表達(dá)的意義不一致,無(wú)法表達(dá)單詞的多義性,導(dǎo)致模型對(duì)語(yǔ)義理解存在偏差。例如ConvMF、DeepCoNN、D-attn、NARRE、DAML等均使用word2vec或Glove等靜態(tài)編碼詞向量對(duì)詞向量進(jìn)行預(yù)訓(xùn)練,使每個(gè)單詞的嵌入表達(dá)與所處的上下文語(yǔ)境無(wú)關(guān),因此會(huì)造成語(yǔ)義理解偏差,影響模型性能。

      (2)在獲取用戶(hù)和商品特征后,將其進(jìn)行并行拼接后直接進(jìn)行評(píng)分預(yù)測(cè),忽略了用戶(hù)和商品特征在交互時(shí)不同推薦結(jié)果的貢獻(xiàn)程度。例如DeepCoNN、DAML、Dattn、NARRE等進(jìn)行特征并行拼接后通過(guò)矩陣分解或因子分解機(jī)(Factorization machine,F(xiàn)M)方法獲取預(yù)測(cè)評(píng)分,忽略了二者對(duì)推薦結(jié)果的不同貢獻(xiàn)。

      通過(guò)上述分析,本文提出了基于評(píng)論文本的自適應(yīng)特征提取推薦(Adaptive Feature Extraction Recommendation,AFER)模型,該模型利用動(dòng)態(tài)詞向量預(yù)訓(xùn)練模型BERT以解決靜態(tài)詞向量無(wú)法適應(yīng)一詞多意的問(wèn)題,采用Bi-GRU 網(wǎng)絡(luò)提取用戶(hù)和商品評(píng)論的全局特征,加入注意力機(jī)制突出文本中的重要信息,抑制噪聲信息。在此基礎(chǔ)上,將用戶(hù)和商品評(píng)論通過(guò)門(mén)控層(Gating Layer)進(jìn)行自適應(yīng)特征拼接,自適應(yīng)平衡用戶(hù)和商品特征的重要程度,增強(qiáng)其相關(guān)性。最后,利用因子分解機(jī)進(jìn)行特征交互獲得預(yù)測(cè)評(píng)分。實(shí)驗(yàn)表明,本文模型整體優(yōu)于基準(zhǔn)模型。

      本文工作主要貢獻(xiàn)如下:①基于A(yíng)FER 模型使用預(yù)訓(xùn)練模型BERT 獲取評(píng)論嵌入,以解決一詞多意問(wèn)題,提高評(píng)論特征表示能力,使用Bi-GRU 神經(jīng)網(wǎng)絡(luò)提取用戶(hù)和商品評(píng)論特征,使用注意力機(jī)制抑制噪聲數(shù)據(jù),提高特征表達(dá)能力;②針對(duì)特征并行拼接策略未考慮用戶(hù)和商品特征在交互時(shí)對(duì)推薦結(jié)果貢獻(xiàn)程度的問(wèn)題,提出AFER 模型自適應(yīng)特征拼接策略,以捕捉用戶(hù)和商品之間的細(xì)微差別以平衡二者重要程度。通過(guò)自適應(yīng)拼接特征,增強(qiáng)二者交互的相關(guān)性,提高預(yù)測(cè)評(píng)分精度;③在6個(gè)Amazon 數(shù)據(jù)集上的實(shí)驗(yàn)表明,AFER 模型優(yōu)于基準(zhǔn)模型。

      1 相關(guān)工作

      1.1 基于主題模型的推薦方法

      該方法?;谠u(píng)論文本提取特征信息以提高評(píng)分預(yù)測(cè) 性能。HFT和CTR利用LDA(Latent Dirichlet Allocation)挖掘評(píng)論文本的潛在主題,通過(guò)矩陣分解得到預(yù)測(cè)評(píng)分。TopicMF通過(guò)非負(fù)矩陣分解(NMF)得到評(píng)論文本的潛在主題,并將該主題分布映射到矩陣分解后的用戶(hù)和商品潛在因子。此外,該模型通過(guò)調(diào)整變換函數(shù)以應(yīng)對(duì)潛在因素的不同重要程度。RBLT線(xiàn)性結(jié)合評(píng)分矩陣的潛在因素和評(píng)論文本的潛在主題表示用戶(hù)和商品的特征,獲得預(yù)測(cè)評(píng)分。RMR采用高斯混合模型對(duì)評(píng)論文本進(jìn)行主題建模學(xué)習(xí)。上述模型在處理評(píng)論文本時(shí),均基于詞袋模型捕獲評(píng)論的詞頻信息,無(wú)法保持詞序信息,忽略了評(píng)論中豐富的上下文信息。此外,該方法僅學(xué)習(xí)評(píng)論的淺層線(xiàn)性特征,未能充分提取其非線(xiàn)性特征。

      1.2 基于評(píng)論文本的深度學(xué)習(xí)推薦方法

      隨著深度學(xué)習(xí)在推薦領(lǐng)域的發(fā)展,基于評(píng)論文本與深度學(xué)習(xí)的推薦方法被廣泛應(yīng)用。ConvMF利用卷積神經(jīng)網(wǎng)絡(luò)和靜態(tài)詞向量嵌入提高推薦性能,但該模型僅考慮商品評(píng)論信息,忽略了用戶(hù)評(píng)論信息的重要性。Deep-CoNN提出雙塔結(jié)構(gòu)模型,利用兩個(gè)平行卷積神經(jīng)網(wǎng)絡(luò)分別對(duì)用戶(hù)和商品評(píng)論信息進(jìn)行特征提取,通過(guò)因子分解機(jī)捕捉用戶(hù)和商品特征間的交互信息。但DeepCoNN 缺少對(duì)評(píng)論文本細(xì)粒度的特征交互。TransNets擴(kuò)展了Deep-CoNN,引入額外的隱藏層將用戶(hù)和商品的潛在特征轉(zhuǎn)換為用戶(hù)對(duì)商品的評(píng)論,而在測(cè)試時(shí)生成相應(yīng)的評(píng)論進(jìn)行預(yù)測(cè)評(píng)分。NGMM受到DeepCoNN 啟發(fā),使用混合高斯層替代因子分解機(jī)模擬用戶(hù)對(duì)商品評(píng)分。

      近年來(lái),注意力機(jī)制被廣泛應(yīng)用以提升推薦性能。其通過(guò)模擬人腦處理信息方式,在面對(duì)大量信息時(shí)聚焦重要信息。D-attn在DeepCoNN 基礎(chǔ)上引入局部和全局注意力以捕獲評(píng)論文本的重要信息。NARRE加入注意力機(jī)制對(duì)每個(gè)評(píng)論進(jìn)行評(píng)分,但僅通過(guò)矩陣分解方式預(yù)測(cè)評(píng)分,未能在交互層面上捕捉二者的相關(guān)性。MPCN加入?yún)f(xié)同注意力機(jī)制,在句子和單詞級(jí)上選擇最具代表性的評(píng)論信息以表示用戶(hù)偏好和商品屬性。HAUP利用注意力機(jī)制根據(jù)單詞重要性識(shí)別重要的評(píng)論信息以捕獲特征。DAML引入交互注意力機(jī)制以捕捉用戶(hù)和商品評(píng)論的相關(guān)性,但未考慮句子級(jí)的細(xì)粒度信息和用戶(hù)偏好。此外,在神經(jīng)網(wǎng)絡(luò)中,Bi-GRU 不僅能從前向傳播獲取信息,還能利用反向信息,獲取更多重要特征,相比單向門(mén)控循環(huán)單元(Gated Recurrent Units,GRU)網(wǎng)絡(luò)提取的文本特征更全面。

      1.3 預(yù)訓(xùn)練模型

      在自然語(yǔ)言處理任務(wù)中使用單詞嵌入方法表達(dá)文本向量已被證明效果較好,例如詞性標(biāo)記、語(yǔ)法分析、機(jī)器翻譯等。但該方法屬于靜態(tài)詞向量,其詞嵌入表達(dá)不會(huì)隨上下文發(fā)生改變,存在一詞多意問(wèn)題。因此引入動(dòng)態(tài)詞向量解決該問(wèn)題。2018 年Google 提出動(dòng)態(tài)詞向量預(yù)訓(xùn)練模型BERT在11 項(xiàng)自然語(yǔ)言處理任務(wù)中取得了出色的效果。BERT 是一種基于Transformer 雙向編碼器使用掩碼語(yǔ)言模型和下一句子預(yù)測(cè)的雙任務(wù)訓(xùn)練模型,可充分描述詞、句子級(jí)及句間關(guān)系特征。在基于評(píng)論文本推薦中,DeepCLFM、SIFN和U-BERT均使用預(yù)訓(xùn)練模型BERT 得到評(píng)論嵌入表達(dá),與使用靜態(tài)詞向量模型相比,預(yù)測(cè)性能提升較大。

      本文提出的AFER 模型首先使用動(dòng)態(tài)詞向量技術(shù)BERT 解決了靜態(tài)詞向量單詞的多義性問(wèn)題,得到與評(píng)論文上下文相關(guān)的評(píng)論文本嵌入;其次針對(duì)特征并行拼接策略無(wú)法平衡用戶(hù)和商品特征在交互時(shí),推薦結(jié)果貢獻(xiàn)程度問(wèn)題,引入自適應(yīng)特征拼接機(jī)制,動(dòng)態(tài)平衡二者的重要程度;最后通過(guò)因子分解機(jī)進(jìn)行特征交互,以獲得更精確的預(yù)測(cè)評(píng)分。

      2 模型介紹

      2.1 問(wèn)題描述

      給定樣本數(shù)據(jù)集合D,每個(gè)樣本用一個(gè)四元組表示(

      u

      ,

      i

      ,

      r

      ,

      w

      ),其中

      u

      表示用戶(hù),

      i

      表示商品,

      r

      表示用戶(hù)

      u

      對(duì)商品

      i

      在1~5 整數(shù)范圍內(nèi)的評(píng)分,

      w

      表示用戶(hù)

      u

      對(duì)商品

      i

      的評(píng)論。

      d

      表示用戶(hù)

      u

      對(duì)商品評(píng)論的集合,

      d

      表示商品

      i

      接收用戶(hù)評(píng)論的集合。本文模型通過(guò)詞嵌入技術(shù)得到評(píng)論文本

      d

      d

      的詞向量,利用深度學(xué)習(xí)技術(shù)從評(píng)論詞向量中提取用戶(hù)和商品特征,預(yù)測(cè)用戶(hù)

      u

      對(duì)商品

      i

      的評(píng)分,最終達(dá)到為用戶(hù)提供個(gè)性化推薦服務(wù)目的。本文所用符號(hào)及含義由表1 可見(jiàn)。

      2.2 模型結(jié)構(gòu)

      Table 1 Symbol description表1 符號(hào)說(shuō)明

      Fig.1 Architecture of AFER model圖1 AFER 模型結(jié)構(gòu)

      2.2.1 與上下文相關(guān)的評(píng)論嵌入

      嵌入層:讀取數(shù)據(jù)集中的評(píng)論文本,構(gòu)建用戶(hù)評(píng)論集

      d

      ={

      w

      ,

      w

      ,

      w

      ,…

      w

      }和商品評(píng)論集

      d

      ={

      w

      ,

      w

      ,

      w

      ,…

      w

      }。其中,

      m

      ,

      n

      表示集合中評(píng)論的數(shù)量,

      w

      ,

      a

      ∈[1,

      m

      ]表示用戶(hù)對(duì)商品的一條評(píng)論,

      w

      ,

      b

      ∈[1,

      n

      ]表示商品接收的一條評(píng)論。當(dāng)用戶(hù)∕商品評(píng)論個(gè)數(shù)少于m∕n 時(shí),使用

      c

      維零向量補(bǔ)充,反之則截取前m∕n 條評(píng)論。預(yù)訓(xùn)練模型BERT 采用雙向Transformer 模型,結(jié)合自注意力機(jī)制在大規(guī)模語(yǔ)料庫(kù)預(yù)訓(xùn)練基礎(chǔ)上,根據(jù)當(dāng)前任務(wù)語(yǔ)料庫(kù)進(jìn)行微調(diào),得到適合當(dāng)前任務(wù)的詞嵌入表示。用戶(hù)評(píng)論集

      d

      作為BERT 的輸入,輸出向量表示為

      O

      ,商品評(píng)論集

      d

      對(duì)應(yīng)的輸出為

      O

      。

      O

      ,

      O

      表示如式(1)-式(2)所示。

      其中,

      O

      R

      ,

      O

      R

      ,

      c

      為BERT 基礎(chǔ)版的詞向量維度768。

      2.2.2 基于注意力機(jī)制的雙向特征提取

      Bi-GRU 層:?jiǎn)蜗騁RU 從前向后單向傳播,容易丟失重要信息,無(wú)法充分使用評(píng)論文本特征向量。本文基于評(píng)論文本嵌入表達(dá),使用Bi-GRU 分別從前向和后向分別對(duì)

      O

      ,

      O

      進(jìn)行深層特征提取。

      其中,

      l

      為GRU 網(wǎng)絡(luò)的隱藏單元數(shù)量。此外,在GRU 網(wǎng)絡(luò)中采用Dropout 技術(shù)防止過(guò)擬合問(wèn)題。注意力層:將

      h

      h

      輸入全連接層前,AFER 模型利用注意力機(jī)制抑制Bi-GRU 網(wǎng)絡(luò)產(chǎn)生的特征冗余。通過(guò)注意力機(jī)制獲取用戶(hù)和商品評(píng)論的注意力得分

      a

      R

      ,

      a

      R

      ,如式(6)-式(7)所示。利用注意力得分對(duì)每條評(píng)論進(jìn)行加權(quán)求和,得到用戶(hù)評(píng)論集特征

      doc

      R

      ,如式(8)所示。

      同理,商品評(píng)論集的特征

      doc

      R

      ,如式(9)-式(11)所示。

      其中,

      w

      ,

      w

      R

      ,

      w

      ,

      w

      R

      均為隨機(jī)初始化并可訓(xùn)練的參數(shù),

      t

      表示可設(shè)置的注意力機(jī)制向量維度,

      m

      n

      為用戶(hù)和商品的評(píng)論數(shù)量,

      h

      ,

      h

      表示從用戶(hù)和商品評(píng)論中提取的特征向量,

      b

      ,

      b

      為偏置項(xiàng)。全連接層:將用戶(hù)特征

      doc

      和商品特征

      doc

      表示送入全連接層進(jìn)行整合,用戶(hù)和商品特征維度為

      k

      ,用戶(hù)

      u

      偏好和商品

      i

      屬性的最終特征表示為

      fea

      ,

      fea

      R

      ,如式(12)-式(13)所示。

      其中

      W

      、

      W

      R

      為全連接層的權(quán)重參數(shù),

      k

      表示特征中可設(shè)置的隱因子數(shù)量,

      doc

      doc

      表示用戶(hù)和商品的評(píng)論特征,

      b

      、

      b

      為全連接層的偏置項(xiàng)。

      2.2.3 自適應(yīng)特征拼接

      式中,

      W

      ,

      W

      R

      為權(quán)重向量,因?yàn)镚 的范圍為[0,1],因此采用

      sigmoid

      激活函數(shù),

      b

      為偏置項(xiàng)。

      其中,

      W

      R

      表示在特征拼接過(guò)程中隨機(jī)初始化的權(quán)重矩陣,

      Z

      表示經(jīng)過(guò)自適應(yīng)特征拼接后的自適應(yīng)特征。

      2.2.4 評(píng)分預(yù)測(cè)

      輸出層:將自適應(yīng)特征

      Z

      送入因子分解機(jī)得到用戶(hù)和商品的特征交互

      y

      ,如式(17)所示。

      其中,

      w

      R

      表示變量,

      w

      R

      為因子分解機(jī)一次項(xiàng)的權(quán)重,<

      v

      ,

      v

      >為向量的內(nèi)積,表示捕獲二階項(xiàng)交互的權(quán)重。

      2.3 模型優(yōu)化

      本模型目標(biāo)為用戶(hù)對(duì)商品的預(yù)測(cè)評(píng)分,常用的損失函數(shù)為平方損失,即AFER模型的Loss損失函數(shù)如式(19)所示。

      為了優(yōu)化目標(biāo)函數(shù),本文選擇自適應(yīng)矩估計(jì)(Adam)優(yōu)化模型,比傳統(tǒng)的SGD 收斂更快。此外,本文在A(yíng)FER中設(shè)置Dropout 以防止發(fā)生過(guò)擬合現(xiàn)象。

      3 實(shí)驗(yàn)分析與比較

      3.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

      3.1.1 數(shù)據(jù)集

      為了驗(yàn)證AFER 模型的有效性,本文在6個(gè)亞馬遜公開(kāi)評(píng)論數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集來(lái)自Amazon5-core:Baby,Grocery_and_Gourmet_Food,Instant_Video,Office_Product,Musical_Instruments,Automotive(簡(jiǎn)稱(chēng)為Baby、GandGF、IV、OP、MI、Auto)。在數(shù)據(jù)集中,僅使用每個(gè)樣本的4個(gè)特征:用戶(hù)ID、商品ID、用戶(hù)對(duì)商品的評(píng)分(1~5 的整數(shù))及用戶(hù)對(duì)商品的評(píng)論文本,統(tǒng)計(jì)數(shù)據(jù)如表2 所示。

      Table 2 Data set表2 數(shù)據(jù)集

      3.1.2 評(píng)價(jià)指標(biāo)

      3.2 基準(zhǔn)模型

      為了評(píng)估AFER 模型性能,本文將其與以下6個(gè)基準(zhǔn)模型進(jìn)行比較。

      (1)PMF。概率矩陣分解引入高斯分布利用評(píng)分?jǐn)?shù)據(jù)學(xué)習(xí)用戶(hù)和商品的特征。本文模型從評(píng)論信息和深度學(xué)習(xí)的優(yōu)勢(shì)與其進(jìn)行比較。

      (2)ConvMF。商品評(píng)論經(jīng)過(guò)靜態(tài)詞嵌入后,使用CNN 學(xué)習(xí)商品評(píng)論特征,然后將商品特征和用戶(hù)評(píng)分相結(jié)合,利用概率矩陣分解進(jìn)行評(píng)分預(yù)測(cè)。本文模型從用戶(hù)和商品聯(lián)合建模的角度與其進(jìn)行比較。

      (3)DeepCoNN。深度協(xié)同神經(jīng)網(wǎng)絡(luò),基于兩個(gè)并行CNN 分別從用戶(hù)和商品的靜態(tài)評(píng)論嵌入中學(xué)習(xí)各自的特征,并行拼接后利用因子分解機(jī)進(jìn)行交互獲得預(yù)測(cè)評(píng)分。本文模型從動(dòng)態(tài)評(píng)論嵌入、注意力機(jī)制及特征交互前的處理方面進(jìn)行對(duì)比。

      (4)D-attn。雙注意力模型,利用全局和局部雙重注意力機(jī)制以增強(qiáng)用戶(hù)和商品特征的可解釋性,利用矩陣分解預(yù)測(cè)評(píng)分。本文模型從詞嵌入和特征交互過(guò)程上與其進(jìn)行對(duì)比。

      (5)NARRE。神經(jīng)注意力回歸模型,利用卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制學(xué)習(xí)用戶(hù)和商品特征,利用LFM 實(shí)現(xiàn)評(píng)分預(yù)測(cè)。本文模型從動(dòng)態(tài)評(píng)論嵌入和特征交互角度與其比較。

      (6)DAML。雙注意力交互學(xué)習(xí)模型,從評(píng)分?jǐn)?shù)據(jù)和評(píng)論文本中學(xué)習(xí)用戶(hù)和商品特征,通過(guò)神經(jīng)因子分解機(jī)實(shí)現(xiàn)特征間的交互。本文模型在輸入信息、評(píng)論嵌入、交互前的特征處理等方面與該模型進(jìn)行對(duì)比。

      3.3 實(shí)驗(yàn)設(shè)置

      本文將每個(gè)評(píng)論數(shù)據(jù)集按照8∶1∶1 的比例隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。本文參數(shù)設(shè)置如下:

      (1)PFM 模型中,使用高斯函數(shù)初始化用戶(hù)和商品的潛在特征。

      (2)深度學(xué)習(xí)模型中,學(xué)習(xí)率設(shè)置為0.002,Dropout 設(shè)置為0.5,由于顯存限制,DAML 模型Batch Size 設(shè)置為16,其余深度學(xué)習(xí)模型Batch Size 均設(shè)置為128;在NARRE 模型和DAML 模型中ID 嵌入維度為32;在注意力機(jī)制模型中注意力權(quán)重向量維度為100;在卷積神經(jīng)網(wǎng)絡(luò)的文本處理模型中,卷積核大小設(shè)置為3,個(gè)數(shù)設(shè)置為100;以上預(yù)訓(xùn)練的靜態(tài)詞向量模型為GoogleNews-vectors-negative300.bin,嵌入維度為300。

      (3)預(yù)訓(xùn)練模型BERT 版本為uncased_L-12_H-768_A-12,隱因子數(shù)量設(shè)置為32,Dropout 設(shè)置為0.5,Bi-GRU網(wǎng)絡(luò)中使用隱藏單元個(gè)數(shù)為100,注意力層向量維度為50。此外,使用的Tensorflow 庫(kù)在Python3 上實(shí)現(xiàn)。

      3.4 性能評(píng)估

      如表3 結(jié)果對(duì)比所示,僅利用評(píng)分?jǐn)?shù)據(jù)的PMF 模型預(yù)測(cè)效果低于其他使用評(píng)論數(shù)據(jù)模型。在使用評(píng)論數(shù)據(jù)模型中,DeepCoNN 模型的效果優(yōu)于僅建模商品特征的ConvMF 模型,因?yàn)镈eepCoNN 模型在考慮用戶(hù)和商品評(píng)論重要性的同時(shí),建模用戶(hù)和商品特征。D-attn 模型引入注意力機(jī)制對(duì)比DeepCoNN 模型在效果上有所提升。NARRE模型為了提升評(píng)論的有效性,提出句子級(jí)注意力機(jī)制以評(píng)估每個(gè)評(píng)論。該模型在整體效果上有所提升,但數(shù)據(jù)集較小會(huì)導(dǎo)致模型性能變差。DAML 模型使用交互注意力機(jī)制以提高用戶(hù)和項(xiàng)目特征的相關(guān)性,利用神經(jīng)因子分解機(jī)進(jìn)行特征交互,增強(qiáng)特征交互能力。通過(guò)對(duì)比實(shí)驗(yàn),DAML 模型在中等數(shù)據(jù)集上的效果整體優(yōu)于其他模型。

      本文模型性能在各數(shù)據(jù)集上均有提升,其中在MI 數(shù)據(jù)集中效果最好,提升了5.80%;Baby 數(shù)據(jù)集則最差,僅提升了0.96%。AFER 模型通過(guò)引入動(dòng)態(tài)詞向量解決了一詞多意問(wèn)題,并且提出自適應(yīng)特征交互機(jī)制,以平衡用戶(hù)和商品特征間各自的重要程度,彌補(bǔ)用戶(hù)和商品特征并行拼接的不足,提升了模型預(yù)測(cè)評(píng)分精度。

      Table 3 Comparison of MSE results表3 MSE 結(jié)果對(duì)比

      3.5 參數(shù)分析

      本文在Baby,GandGF、IV、OP、Auto、MI 共6個(gè)數(shù)據(jù)集上分析了隱因子數(shù)量、GRU 隱藏單元數(shù)量及注意力權(quán)重向量維度對(duì)推薦性能的影響。

      圖2 展示了在[16,32,64,128,256]范圍內(nèi),全連接層不同的隱因子數(shù)量對(duì)AFER 模型性能的影響,隨著隱因子數(shù)量增多,模型性能逐漸變差。因?yàn)殡[因子數(shù)量增多會(huì)引入更多訓(xùn)練參數(shù),過(guò)擬合風(fēng)險(xiǎn)增大,導(dǎo)致模型性能下降。由圖2 可見(jiàn),當(dāng)隱因子數(shù)量設(shè)置為32 時(shí)效果最好,因此本文在實(shí)驗(yàn)中將隱因子數(shù)量設(shè)置為32。

      Fig.2 The impact of latent factor number on model performance圖2 隱因子數(shù)量對(duì)模型性能的影響

      GRU 隱藏單元數(shù)量是GRU 神經(jīng)網(wǎng)絡(luò)輸出的隱藏層大小,表示從評(píng)論中提取特征的長(zhǎng)度。本文從[50,100,150,200,250]范圍內(nèi)搜索GRU 隱藏單元數(shù)量對(duì)AFER 模型的影響。從圖3 中可見(jiàn),隨著隱藏單元數(shù)量增多,AFER 模型在MSE 上沒(méi)有呈現(xiàn)線(xiàn)性提升,在50~100 間,整體呈下降趨勢(shì),而在100~250 區(qū)間,結(jié)果逐漸變差。說(shuō)明隱藏單元數(shù)量在某個(gè)閾值時(shí)可達(dá)到最優(yōu)效果,反之則會(huì)增加預(yù)測(cè)誤差。綜合6個(gè)數(shù)據(jù)集上的表現(xiàn),本文選取GRU 隱藏單元的大小為100。

      本文將注意力向量維度限定在[10,30,50,70,90]范圍,觀(guān)察其對(duì)AFER 模型性能的影響。由圖4 可見(jiàn),當(dāng)值超過(guò)50 后,模型性能逐漸變差。因此,在本文將注意力權(quán)重向量維度設(shè)置為50。

      3.6 消融實(shí)驗(yàn)

      本文使用以下3個(gè)變體與AFER 模型進(jìn)行比較,分析每個(gè)組件在模型中的重要程度。

      (1)AFER-word2vec。預(yù)訓(xùn)練階段采用靜態(tài)詞向量word2vec 替代BERT 以進(jìn)行文本嵌入表達(dá)。

      (2)AFER-noAtte。不使用注意力機(jī)制的AFER 模型。

      (3)AFER-noAdaptive。不使用自適應(yīng)拼接機(jī)制的進(jìn)行特征拼接AFER 模型。

      Fig.3 The impact of GRU hidden unit number on model performance圖3 GRU 隱藏單元數(shù)量對(duì)模型性能的影響

      Fig.4 The impact of attention vector dimension on model performance圖4 注意力向量維度對(duì)模型性能的影響

      AFER 模型和三個(gè)變體模型結(jié)果對(duì)比如圖5 所示。由圖5 可見(jiàn),AFER-word2vec 由于使用了靜態(tài)詞向量word2vec,其語(yǔ)義理解上的偏差導(dǎo)致了其性能最差。因此,動(dòng)態(tài)詞向量BERT 能提高對(duì)評(píng)論的語(yǔ)義理解能力,通過(guò)獲取與上下文相關(guān)的評(píng)論嵌入表達(dá)可有效提高模型的推薦性能。在A(yíng)FER 模型中,注意力機(jī)制用于突出評(píng)論的重要信息,抑制噪聲信息。AFER-noAtte 模型性能低于A(yíng)FER模型,證明了注意力機(jī)制的有效性。AFER 和AFER-noAdaptive 的結(jié)果對(duì)比展示了自適應(yīng)機(jī)制的有效性,結(jié)果表明簡(jiǎn)單的特征拼接策略會(huì)忽略用戶(hù)和商品特征之間差異,而基于門(mén)控層的自適應(yīng)特征拼接可彌補(bǔ)其不足,增強(qiáng)二者間的相關(guān)性,提升模型性能。

      Fig.5 Comparison of ablation study results圖5 消融實(shí)驗(yàn)結(jié)果對(duì)照

      4 總結(jié)與展望

      本文基于評(píng)論文本提出了AFER 模型,利用預(yù)訓(xùn)練模型BERT 得到適合當(dāng)前任務(wù)與上下文相關(guān)的動(dòng)態(tài)詞嵌入表示,解決詞向量靜態(tài)編碼方法帶來(lái)的語(yǔ)義偏差問(wèn)題;其次在考慮交互前特征拼接策略和用戶(hù)商品間存在的不平衡性,設(shè)計(jì)了一種自適應(yīng)特征拼接機(jī)制,平衡用戶(hù)和商品各自的重要程度,增強(qiáng)二者相關(guān)性;最后在6個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的模型可有效降低評(píng)分預(yù)測(cè)誤差。未來(lái)將關(guān)注用戶(hù)對(duì)商品的評(píng)論時(shí)間及評(píng)論的時(shí)間跨度,考慮用戶(hù)在短期發(fā)生的興趣偏移對(duì)推薦性能的影響。

      猜你喜歡
      注意力向量機(jī)制
      向量的分解
      讓注意力“飛”回來(lái)
      聚焦“向量與三角”創(chuàng)新題
      自制力是一種很好的篩選機(jī)制
      文苑(2018年21期)2018-11-09 01:23:06
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線(xiàn)
      破除舊機(jī)制要分步推進(jìn)
      注重機(jī)制的相互配合
      界首市| 太保市| 临漳县| 海晏县| 新巴尔虎右旗| 横山县| 连州市| 郓城县| 措勤县| 文水县| 柘城县| 浪卡子县| 藁城市| 海城市| 淮南市| 黄梅县| 芦山县| 凉山| 射阳县| 即墨市| 靖安县| 湘潭市| 永福县| 长沙县| 汉川市| 丹江口市| 麻江县| 云阳县| 佛山市| 泌阳县| 安远县| 大丰市| 大田县| 抚松县| 祁连县| 沧源| 巨鹿县| 荔浦县| 潮州市| 元谋县| 绥滨县|