• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于注意力機(jī)制的深度學(xué)習(xí)推薦研究進(jìn)展*

      2021-03-01 03:33:44陳海涵吳國(guó)棟李景霞王靜雅
      關(guān)鍵詞:注意力向量神經(jīng)網(wǎng)絡(luò)

      陳海涵,吳國(guó)棟,李景霞,王靜雅,陶 鴻

      (安徽農(nóng)業(yè)大學(xué)信息與計(jì)算機(jī)學(xué)院,安徽 合肥 230036)

      1 引言

      當(dāng)前,深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和語(yǔ)音識(shí)別等領(lǐng)域得到了廣泛的應(yīng)用,許多學(xué)者也將其用于推薦系統(tǒng)研究。針對(duì)傳統(tǒng)協(xié)同過(guò)濾算法中存在的數(shù)據(jù)稀疏性和冷啟動(dòng)問(wèn)題,深度學(xué)習(xí)具有良好的對(duì)數(shù)據(jù)集本質(zhì)特征進(jìn)行學(xué)習(xí)的能力,一定程度上克服了推薦過(guò)程中的數(shù)據(jù)稀疏問(wèn)題。但是,深度學(xué)習(xí)具有黑盒特性,很難對(duì)推薦系統(tǒng)的最終決策做出解釋?zhuān)鴽](méi)有解釋性的推薦是缺乏說(shuō)服力的,會(huì)對(duì)提升用戶(hù)的信任度帶來(lái)負(fù)面影響。因此,如何在提高推薦性能的前提下,提升深度學(xué)習(xí)推薦系統(tǒng)的可解釋性和透明度受到了工業(yè)界與學(xué)術(shù)界的廣泛關(guān)注。

      注意力機(jī)制通過(guò)對(duì)關(guān)注事物的不同部分賦予不同的權(quán)重,從而降低其它無(wú)關(guān)部分的作用。從注意力機(jī)制可解釋性的角度看,它允許直接檢查深度學(xué)習(xí)體系的內(nèi)部工作,通過(guò)可視化輸入與對(duì)應(yīng)輸出的注意權(quán)重,達(dá)到增強(qiáng)深度模型可解釋性的效果[1]。在推薦算法中融入注意力機(jī)制,對(duì)每個(gè)潛在因素或特征的重要性進(jìn)行區(qū)分,在提升推薦性能的同時(shí),也提高了推薦系統(tǒng)內(nèi)部的可解釋性。本文主要分析了基于注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)、卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)和圖神經(jīng)網(wǎng)絡(luò)GNN(Graph Neural Network)等幾種深度學(xué)習(xí)推薦的研究進(jìn)展,指出了各自的優(yōu)點(diǎn)與不足,并指出了相關(guān)研究難點(diǎn)與未來(lái)主要研究方向。

      2 注意力機(jī)制及其分類(lèi)

      注意力機(jī)制是一種模擬人腦注意力的模型,最初由Treisman等人[2]提出,其本質(zhì)是利用注意力的概率分布,捕捉某個(gè)關(guān)鍵輸入對(duì)輸出的影響[3]。以Bahdanau等人[4]提出的注意力機(jī)制模型為例,求解注意力的計(jì)算過(guò)程可以抽象為3個(gè)階段,如圖1所示。

      Figure 1 Structure and classification of attention mechanisms

      圖1中,注意力機(jī)制的3個(gè)階段包括:計(jì)算打分函數(shù)階段,主要根據(jù)解碼器(Decoder)端和編碼器(Encoder)端隱狀態(tài)進(jìn)行相似度計(jì)算;計(jì)算對(duì)齊函數(shù)階段,主要通過(guò)歸一化處理,將輸出的相關(guān)性值進(jìn)行數(shù)值轉(zhuǎn)換;計(jì)算生成上下文向量函數(shù)階段,主要對(duì)輸入序列進(jìn)行加權(quán)求和。

      按照注意力機(jī)制在圖1中3個(gè)階段的不同變換,得到注意力機(jī)制的不同類(lèi)型。根據(jù)不同的打分函數(shù),將注意力機(jī)制分為加法注意力、乘法注意力、自注意力[5]、多頭注意力[6]和分層注意力[7];根據(jù)不同的對(duì)齊函數(shù),注意力機(jī)制可分為全局注意力和局部注意力[8];根據(jù)不同的生成上下文向量函數(shù),得到硬注意力與軟注意力[9]。

      其中,圖1的核心步驟是注意力分?jǐn)?shù)a′t,j的計(jì)算,XT是輸入序列,hj是Encoder端第j個(gè)詞的隱向量,st-1是Decoder端在t-1時(shí)刻的隱狀態(tài),yt-1表示t-1時(shí)刻的目標(biāo)詞,Ct表示上下文向量。

      3 基于注意力機(jī)制的深度學(xué)習(xí)推薦相關(guān)研究

      將注意力機(jī)制融入深度學(xué)習(xí)推薦過(guò)程中,主要思路是先利用各類(lèi)深度學(xué)習(xí)模型學(xué)習(xí)用戶(hù)或項(xiàng)目的隱特征,結(jié)合注意力機(jī)制學(xué)習(xí)隱特征的權(quán)重;其次構(gòu)建優(yōu)化函數(shù)對(duì)參數(shù)進(jìn)行訓(xùn)練,得到用戶(hù)和項(xiàng)目隱向量;最后利用隱向量信息得到項(xiàng)目排序結(jié)果,對(duì)用戶(hù)進(jìn)行推薦。對(duì)于不同的深度學(xué)習(xí)模型,本文將基于注意力機(jī)制的深度學(xué)習(xí)推薦研究主要分為4類(lèi),如表1所示。

      3.1 基于注意力機(jī)制的DNN推薦方法

      DNN即深度神經(jīng)網(wǎng)絡(luò),由多層感知機(jī)MLP(Multi-Layer Perceptron)發(fā)展而來(lái),但DNN比MLP的激活函數(shù)種類(lèi)更多,層數(shù)更深,其網(wǎng)絡(luò)層數(shù)可以達(dá)到一百多層乃至更高,一定程度上改善了MLP優(yōu)化函數(shù)的梯度消失和局部最優(yōu)解問(wèn)題。

      針對(duì)當(dāng)前的音樂(lè)推薦系統(tǒng)只能從不同歌曲中學(xué)習(xí)到相同的上下文權(quán)重問(wèn)題,張全貴等人[10]利用注意力機(jī)制給每個(gè)用戶(hù)的歷史交互歌曲動(dòng)態(tài)分配不同的注意力權(quán)重,得到更符合用戶(hù)偏好的推薦結(jié)果,增加了對(duì)用戶(hù)偏好分析的可解釋性。沈冬東等人[11]加入平滑系數(shù)減輕對(duì)長(zhǎng)歷史活動(dòng)用戶(hù)的懲罰,并通過(guò)多層感知機(jī)參數(shù)化注意力函數(shù)改進(jìn)注意力網(wǎng)絡(luò),解決了傳統(tǒng)ItemCF(Item Collaboration Filter)算法難以充分挖掘數(shù)據(jù)間隱含信息的問(wèn)題。針對(duì)傳統(tǒng)推薦算法未充分提取用戶(hù)行為中的隱式反饋特征問(wèn)題,郭旭等人[12]利用自注意力機(jī)制生成用戶(hù)短期動(dòng)態(tài)項(xiàng)目的向量化表示,提高了推薦質(zhì)量,但該方法對(duì)用戶(hù)的向量化表示比較粗糙,未考慮融入用戶(hù)的畫(huà)像屬性。

      Table 1 Research on deep learning recommendation based on attention mechanism

      文獻(xiàn)[13]為了解決基于矩陣分解的協(xié)同過(guò)濾算法不能獲取用戶(hù)歷史交互中復(fù)雜的非線(xiàn)性特征問(wèn)題,構(gòu)建了DeepCF-A(Deep Collaborative Filtering model based on Attention)模型,提取線(xiàn)性與非線(xiàn)性特征。DeepCF-A模型如圖2所示。具體步驟主要有:

      (1)

      (2)非線(xiàn)性特征提取。在MLP中融入注意力機(jī)制得到用戶(hù)和項(xiàng)目間歷史交互數(shù)據(jù)的非線(xiàn)性特征φMLP-A,如式(2)所示:

      (2)

      Figure 2 DeepCF-A recommendation model

      (3)注意力機(jī)制層。在非線(xiàn)性特征提取部分,將嵌入層的m維特征向量Xm送入Softmax函數(shù),得到每個(gè)維度特征的關(guān)注度Am,如式(3)所示;再將Am與相應(yīng)維度的特征向量對(duì)應(yīng)相乘,得到更新權(quán)重的特征向量Aout,如式(4)所示:

      Am=Softmax(Xm)

      (3)

      Aout=Am⊙Xm

      (4)

      (5)

      該模型提升了協(xié)同過(guò)濾方法處理隱式反饋數(shù)據(jù)的效果,適用于解決推薦系統(tǒng)中數(shù)據(jù)量龐大、難以捕捉深層非線(xiàn)性關(guān)系的推薦問(wèn)題。但是,在深度神經(jīng)網(wǎng)絡(luò)中,高效地捕捉用戶(hù)和項(xiàng)目隱向量間的交互信息,是以不斷提升網(wǎng)絡(luò)層數(shù)為代價(jià)的,深度神經(jīng)網(wǎng)絡(luò)層數(shù)的增加會(huì)導(dǎo)致新的參數(shù)數(shù)量膨脹問(wèn)題[14]。此外,DNN無(wú)法對(duì)時(shí)間序列上的變化進(jìn)行建模,不能反映用戶(hù)興趣的動(dòng)態(tài)變化,而樣本出現(xiàn)的時(shí)間順序?qū)ν扑]任務(wù)又有著非常重要的意義。

      3.2 基于注意力機(jī)制的CNN推薦方法

      CNN即卷積神經(jīng)網(wǎng)絡(luò),具有限制參數(shù)個(gè)數(shù)和挖掘模型局部結(jié)構(gòu)的特點(diǎn)。為了解決DNN訓(xùn)練數(shù)據(jù)時(shí)帶來(lái)的參數(shù)數(shù)量膨脹問(wèn)題,有學(xué)者將注意力機(jī)制和CNN結(jié)合用在推薦系統(tǒng)研究中。

      Figure 3 ACoNN recommendation model

      針對(duì)微博的話(huà)題標(biāo)簽推薦任務(wù),經(jīng)常需要大量人工進(jìn)行分類(lèi)這一問(wèn)題,Gong等人[15]提出了一種基于注意力機(jī)制的CNN微博標(biāo)簽推薦模型。該模型使用全局和局部注意力2個(gè)通道,有效提高了推薦性能;但推薦數(shù)據(jù)僅使用了微博文本標(biāo)簽,未考慮使用圖像等其它形式數(shù)據(jù)提取微博特征。針對(duì)這一問(wèn)題,Zhang等人[16]加入?yún)f(xié)同注意力機(jī)制對(duì)標(biāo)簽與圖像、文本中的局部關(guān)聯(lián)性進(jìn)行建模,相較于僅使用文本信息的模型,推薦效果更好。不足之處是作者僅驗(yàn)證了1層和2層的協(xié)同注意力機(jī)制對(duì)推薦結(jié)果的影響,沒(méi)有在層數(shù)上做更多的嘗試。針對(duì)在線(xiàn)新聞網(wǎng)站中,平臺(tái)編輯手動(dòng)挑選推薦候選文章的耗時(shí)問(wèn)題,Wang等人[17]構(gòu)建了一種動(dòng)態(tài)注意力深度模型DADM(Dynamic Attention Deep Model),DADM將專(zhuān)業(yè)與時(shí)間2個(gè)潛在因素加入注意力機(jī)制,自適應(yīng)地為編輯分配偏好權(quán)重,使模型在處理動(dòng)態(tài)數(shù)據(jù)和編輯行為方面擁有很小的方差。但是,文章中的文字和圖像對(duì)編輯選擇行為的影響應(yīng)該是不同的,此模型未加以區(qū)分。

      針對(duì)傳統(tǒng)推薦算法對(duì)評(píng)論文本信息提取能力有限的問(wèn)題,文獻(xiàn)[18]提出了一種融合注意力機(jī)制對(duì)評(píng)論文本深度建模的推薦模型ACoNN(deep Cooperative Neural Networks based on Attention),通過(guò)注意力機(jī)制設(shè)計(jì)一層權(quán)值更新層對(duì)文本矩陣進(jìn)行重新賦權(quán),再使用一組并行的CNN,充分挖掘用戶(hù)和項(xiàng)目的隱含特征。推薦流程如圖3所示。

      ACoNN推薦模型的主要實(shí)現(xiàn)步驟:

      (1)輸入層:利用詞嵌入模型,將用戶(hù)與項(xiàng)目的評(píng)論文本表示成詞嵌入矩陣Mu和Mi。

      (6)

      (7)

      最后對(duì)目標(biāo)用戶(hù)詞向量矩陣進(jìn)行加權(quán),得到更新權(quán)值后的矩陣Su,如式(8)所示:

      Su=A(u)×Mu

      (8)

      (3)CNN層:利用CNN對(duì)詞向量矩陣Su進(jìn)行卷積、池化和全連接操作得到用戶(hù)向量outputu,同理可得項(xiàng)目向量outputi。

      (4)推薦:連接outputu、outputi,構(gòu)建用戶(hù)-項(xiàng)目特征向量z;向向量z加入因子分解機(jī),根據(jù)最小化損失函數(shù)進(jìn)行訓(xùn)練,完成參數(shù)更新,如式(9)所示:

      (9)

      其中,yreal為用戶(hù)對(duì)項(xiàng)目的真實(shí)評(píng)分值,w0為全局偏置量,wi表示向量z中第i個(gè)分量的權(quán)重值,zi和zj分別表示向量z的第i和第j個(gè)分量,wij表示z中第i個(gè)與第j個(gè)特征向量的交互值。

      相比深度神經(jīng)網(wǎng)絡(luò),該模型訓(xùn)練階段參數(shù)較少、復(fù)雜度較低。此外,注意力權(quán)值更新層的設(shè)計(jì)有助于捕捉文本中的重點(diǎn)信息,結(jié)合CNN具有共享權(quán)值和局部連接的特性,更加易于模型的優(yōu)化[19]。此方法適用于解決圖像視覺(jué)領(lǐng)域的圖像分類(lèi)和文本處理等問(wèn)題,運(yùn)用注意力機(jī)制能使CNN在每一步關(guān)注圖像或者文本上的不同位置,提高對(duì)重點(diǎn)特征的提取效率。雖然基于注意力機(jī)制的CNN推薦方法能從輸入中獲取最有效的信息[20],但是這種方法也不能表示動(dòng)態(tài)變化的用戶(hù)興趣。

      3.3 基于注意力機(jī)制的RNN推薦方法

      RNN即循環(huán)神經(jīng)網(wǎng)絡(luò),是一類(lèi)用以處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。針對(duì)DNN和CNN不能解決時(shí)序數(shù)據(jù)的問(wèn)題,一些研究者將注意力機(jī)制和RNN結(jié)合應(yīng)用于推薦任務(wù)中,刻畫(huà)用戶(hù)興趣的動(dòng)態(tài)變化。LSTM(Long Short-Term Memory)和GRU(Gated Recurrent Unit)是RNN的2種改進(jìn)版本,它們?cè)诤?jiǎn)化RNN內(nèi)部循環(huán)結(jié)構(gòu)的同時(shí),緩解了RNN無(wú)法檢測(cè)長(zhǎng)序列的問(wèn)題[21]。

      針對(duì)微博的話(huà)題標(biāo)簽推薦沒(méi)有考慮文本的時(shí)序特征問(wèn)題,Li等人[22]構(gòu)建了一種基于主題注意力機(jī)制的LSTM模型,該模型與文獻(xiàn)[15]中的CNN推薦模型相比,加入了時(shí)序特征的影響,有效提升了推薦性能。不足之處是忽略了用戶(hù)信息、時(shí)間信息等數(shù)據(jù)對(duì)標(biāo)簽推薦的影響。Xing等人[23]提出了基于詞級(jí)與語(yǔ)句級(jí)注意力機(jī)制的用戶(hù)-項(xiàng)目推薦模型,在Yelp和Amazon數(shù)據(jù)集上的實(shí)驗(yàn)中,推薦性能皆提升了近2%,驗(yàn)證了考慮語(yǔ)義層面的推薦是有效的。但是,這種方法只有當(dāng)目標(biāo)用戶(hù)為目標(biāo)項(xiàng)目編寫(xiě)的評(píng)論可用時(shí),才表現(xiàn)出最佳性能,數(shù)據(jù)量較少時(shí)會(huì)降低推薦效果。馮興杰等人[24]提出了深度協(xié)同模型DeepCLFM(Deep Collaborative Latent Factor Model),解決了用戶(hù)與項(xiàng)目的深層抽象特征挖掘不充分問(wèn)題,通過(guò)對(duì)評(píng)論文本信息作全局偏倚項(xiàng)的補(bǔ)充,有效緩解了冷啟動(dòng)問(wèn)題。但是,DeepCLFM學(xué)習(xí)到的用戶(hù)偏好向量是靜態(tài)的,而同一用戶(hù)對(duì)不同項(xiàng)目的偏好向量是不同的,此模型未加以區(qū)分。

      為了解決標(biāo)簽推薦中存在的微博噪聲問(wèn)題,文獻(xiàn)[25]提出了基于LSTM的時(shí)態(tài)增強(qiáng)語(yǔ)句級(jí)注意力模型。通過(guò)在語(yǔ)句級(jí)注意力層引入時(shí)間信息,減少了噪聲數(shù)據(jù)對(duì)分類(lèi)器的影響。其推薦模型如圖4所示。其中,Mi(i=1,2,…,N)表示第i條微博的詞向量矩陣。

      Figure 4 Temporal enhanced sentence-level attention model based on LSTM

      基于LSTM的時(shí)態(tài)增強(qiáng)語(yǔ)句級(jí)注意力模型的主要實(shí)現(xiàn)步驟如下所示:

      (1)Lookup層:將微博中的單詞wi映射到一個(gè)低維向量中,得到嵌入向量ei。

      (2)LSTM層:將實(shí)值嵌入向量序列bN={e1,ei,…,eN}輸入LSTM,獲得微博的高級(jí)語(yǔ)義表示H,且H={h1,h2,…,hM}。其中,N和M分別表示微博條數(shù)和最大長(zhǎng)度。

      (3)詞匯級(jí)注意力層:通過(guò)更新每個(gè)隱狀態(tài)hj的注意力分?jǐn)?shù),得到詞匯級(jí)注意力矩陣αW,然后求解隱狀態(tài)的加權(quán)和,得到語(yǔ)句向量r,如式(10)~式(11)所示:

      αW=Softmax(ωTtanh(H))

      (10)

      (11)

      其中,ω是一個(gè)訓(xùn)練好的參數(shù)向量,ωT是它的轉(zhuǎn)置,通過(guò)預(yù)訓(xùn)練得到。

      (4)語(yǔ)句級(jí)注意力層:將詞匯級(jí)注意力層輸出的句子向量集合S={r1,r2,…,rN}輸入語(yǔ)句級(jí)注意力層,先計(jì)算語(yǔ)句向量ri與標(biāo)簽查詢(xún)向量t的匹配分?jǐn)?shù)mi;然后加入時(shí)間信息di,得到每個(gè)語(yǔ)句向量ri的注意力權(quán)重αMi;最后求解集合S中語(yǔ)句向量的加權(quán)和,記為R,如式(12)~式(14)所示:

      mi=riAt

      (12)

      (13)

      (14)

      其中,di表示時(shí)間元素,當(dāng)給定一個(gè)〈microblogMi,hashtagh〉的元組時(shí),根據(jù)微博詞向量矩陣Mi和標(biāo)簽,可以從一個(gè)需要訓(xùn)練的二維矩陣B∈R|time|×|hashtag|中查找對(duì)應(yīng)的di。|time|是時(shí)間節(jié)點(diǎn)的個(gè)數(shù),|hashtag|是標(biāo)簽的個(gè)數(shù),A是一個(gè)加權(quán)對(duì)角矩陣。

      Figure 5 Dynamic graph attention network social recommendation model

      (15)

      其中,θ是模型的所有參數(shù),Mi和ti分別表示第i個(gè)微博向量和標(biāo)簽向量。

      該模型不僅從詞匯和語(yǔ)句2個(gè)級(jí)別對(duì)微博特征進(jìn)行分層刻畫(huà)和關(guān)聯(lián),還將時(shí)間信息引入注意力機(jī)制模型,彌補(bǔ)了文獻(xiàn)[22]未考慮時(shí)間信息的不足,更形象地刻畫(huà)了微博數(shù)據(jù)的動(dòng)態(tài)性。因此,適用于解決文本翻譯、語(yǔ)言識(shí)別和推薦中的序列預(yù)測(cè)問(wèn)題,應(yīng)用注意力機(jī)制使RNN能夠?qū)⑤敵鲂蛄兄械拿恳豁?xiàng)與輸入序列相關(guān)項(xiàng)對(duì)應(yīng),克服傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)超長(zhǎng)序列上的限制問(wèn)題[26]。但是,LSTM和GRU等作為RNN的衍生,只可以處理歐幾里得空間數(shù)據(jù),對(duì)非歐空間數(shù)據(jù)的處理存在一定局限性,也無(wú)法解決非歐空間的推薦問(wèn)題。

      3.4 基于注意力機(jī)制的GNN推薦方法

      GNN即圖神經(jīng)網(wǎng)絡(luò),不僅對(duì)數(shù)據(jù)具有強(qiáng)大的特征提取和表示能力,還可以表示非歐幾里得結(jié)構(gòu)數(shù)據(jù),可用于解決非歐空間的推薦問(wèn)題[27]。針對(duì)傳統(tǒng)協(xié)同過(guò)濾方法的稀疏性問(wèn)題,Wu等人[28]提出了一種雙圖注意力網(wǎng)絡(luò)協(xié)作學(xué)習(xí)雙重社會(huì)效應(yīng)的推薦方法。該方法一方面由用戶(hù)特定的注意力權(quán)重建模,另一方面由動(dòng)態(tài)的、上下文感知的注意力權(quán)重建模,通過(guò)將用戶(hù)領(lǐng)域的社會(huì)效應(yīng)擴(kuò)展到項(xiàng)目領(lǐng)域,緩解了數(shù)據(jù)稀疏性問(wèn)題。模型可學(xué)習(xí)多方面社會(huì)影響的有效表示,具有良好的表達(dá)性,但社會(huì)圖網(wǎng)絡(luò)的構(gòu)建相應(yīng)增加了模型的時(shí)間復(fù)雜度??紤]當(dāng)前網(wǎng)絡(luò)社區(qū)推薦未充分考慮用戶(hù)會(huì)受朋友偏好影響的問(wèn)題,Song等人[29]提出了一種基于動(dòng)態(tài)圖注意力神經(jīng)網(wǎng)絡(luò)的社區(qū)推薦模型,圖注意力網(wǎng)絡(luò)用來(lái)捕獲朋友的短期與長(zhǎng)期偏好對(duì)用戶(hù)的影響。其模型圖如圖5所示。詳細(xì)步驟主要有:

      (1)用戶(hù)動(dòng)態(tài)偏好建模:通過(guò)RNN對(duì)用戶(hù)近期的瀏覽內(nèi)容進(jìn)行建模,得到用戶(hù)的偏好hn。

      (16)

      (17)

      (18)

      之后由Softmax函數(shù)得到項(xiàng)目y的概率,表示用戶(hù)對(duì)項(xiàng)目y可能感興趣的程度,如式(19)所示。最終根據(jù)這個(gè)概率的大小,向用戶(hù)進(jìn)行推薦。

      (19)

      該模型能充分利用朋友的短期與長(zhǎng)期偏好,獲取社會(huì)關(guān)系對(duì)用戶(hù)偏好的影響,但項(xiàng)目的特征提取過(guò)程過(guò)于粗糙,忽略了用戶(hù)和項(xiàng)目之間的互動(dòng)關(guān)系。將注意力機(jī)制應(yīng)用到GNN鄰近節(jié)點(diǎn)上,能夠?qū)W習(xí)每個(gè)鄰近節(jié)點(diǎn)與該節(jié)點(diǎn)之間的影響[30]。此外,基于圖結(jié)構(gòu)的廣義神經(jīng)網(wǎng)絡(luò)能夠表示除語(yǔ)言、視頻和圖像之外的非歐幾里得結(jié)構(gòu)數(shù)據(jù),通過(guò)對(duì)圖數(shù)據(jù)進(jìn)行處理,可深入挖掘其內(nèi)部的特征和規(guī)律,解決如社交網(wǎng)絡(luò)、信息網(wǎng)絡(luò)和基礎(chǔ)設(shè)施網(wǎng)絡(luò)等領(lǐng)域中的推薦問(wèn)題。

      4 基于注意力機(jī)制的深度學(xué)習(xí)推薦的難點(diǎn)

      4.1 提取注意力方法的選擇問(wèn)題

      在一些場(chǎng)景下,可選擇的注意力方法可能有多種。如文獻(xiàn)[6]中,引入多頭注意力與單層自注意力皆可提升分類(lèi)任務(wù)的性能,但較使用自注意力而言,多頭注意力更能提升模型在語(yǔ)句層面的特征表達(dá)能力,在SemEval-2010數(shù)據(jù)集上的實(shí)驗(yàn)中,多頭注意力模型的F1值相對(duì)自注意力模型的提高了2.0%左右,說(shuō)明不同的注意力方法對(duì)提升模型性能的貢獻(xiàn)是不同的。近年來(lái),許多研究者在不同任務(wù)場(chǎng)景下又提出了不同注意力機(jī)制的新變體,如雙注意力[31]、雙向分塊自注意力[32]等,如何結(jié)合這些新變體,選擇適合當(dāng)前推薦任務(wù)的注意力方法仍具有一定的復(fù)雜性。

      4.2 注意力融入時(shí)機(jī)的選擇問(wèn)題

      在注意力機(jī)制與CNN相結(jié)合的工作中,Yin等人[33]和Santos等人[34]通過(guò)實(shí)驗(yàn)證實(shí)了注意力機(jī)制用于池化層的效果比卷積層好。在此基礎(chǔ)上,文獻(xiàn)[35]將注意力與CNN池化層、項(xiàng)目潛在向量層及MLP輸入層相結(jié)合進(jìn)行對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)在稠密數(shù)據(jù)集上,注意力與池化層相結(jié)合的模型表現(xiàn)得更加穩(wěn)定;而在稀疏數(shù)據(jù)集上,注意力與隱藏層相結(jié)合模型預(yù)測(cè)效果更佳,說(shuō)明注意力引入時(shí)機(jī)的差異、數(shù)據(jù)集稠密度差別,都會(huì)影響最終的推薦結(jié)果。CNN相對(duì)神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)較簡(jiǎn)單,而在更加復(fù)雜的任務(wù)場(chǎng)景下,使用的神經(jīng)網(wǎng)絡(luò)也更加復(fù)雜,增加了注意力機(jī)制融入深度神經(jīng)網(wǎng)絡(luò)中的時(shí)機(jī)的難度。

      4.3 融入注意力機(jī)制引起推薦模型復(fù)雜度增加問(wèn)題

      雖然注意力機(jī)制可以改善傳統(tǒng)編碼器-解碼器的部分問(wèn)題,但引入注意力機(jī)制獲得注意力分配權(quán)重時(shí),需要計(jì)算源語(yǔ)言句子中所有詞語(yǔ)的權(quán)重,該過(guò)程計(jì)算資源耗費(fèi)大,增大了推薦模型復(fù)雜度,還會(huì)導(dǎo)致模型的訓(xùn)練速度和推斷速度下降。同時(shí),引入注意力機(jī)制可能需要更多的存儲(chǔ)資源,例如對(duì)于自注意來(lái)說(shuō),需要很大的存儲(chǔ)空間來(lái)保存元素的對(duì)齊分?jǐn)?shù),需要的存儲(chǔ)空間隨序列長(zhǎng)度呈二次方增長(zhǎng),因此在保證效率的前提下降低推薦模型的復(fù)雜度存在一定的難度。

      4.4 融入注意力機(jī)制的推薦效果評(píng)價(jià)問(wèn)題

      注意力機(jī)制應(yīng)用范圍廣,但并不是對(duì)所有模型引入注意力機(jī)制都可以提高性能。例如,因子分解機(jī)FM(Factorization Machine)利用同一特征向量表示某個(gè)特征和其它特征間的交互顯然是不合理的。于是Juan等人[36]和Xiao等人[37]分別提出了FFM(Field-aware Factorization Machine)和AFM(Attentional FM)2種新的方法。FFM通過(guò)引入“域”的概念,對(duì)不同域使用不同的向量來(lái)解決這一問(wèn)題。而AFM通過(guò)引入注意力機(jī)制對(duì)不同的交互項(xiàng)計(jì)算注意力權(quán)重,區(qū)分特征的重要程度。比較來(lái)看,AFM雖然和FFM效果相當(dāng),但是AFM通過(guò)引入新參數(shù)來(lái)彌補(bǔ)某方面的擬合能力,可能會(huì)造成過(guò)擬合現(xiàn)象。所以,對(duì)模型引入注意力機(jī)制后的推薦效果進(jìn)行多方面的評(píng)價(jià),也是當(dāng)前基于注意力機(jī)制的深度學(xué)習(xí)推薦的一個(gè)難點(diǎn)。

      5 基于注意力機(jī)制的深度學(xué)習(xí)推薦未來(lái)研究方向

      5.1 多特征交互的注意力機(jī)制深度學(xué)習(xí)推薦

      當(dāng)涉及多特征交互時(shí),通常采用矩陣分解模型來(lái)實(shí)現(xiàn),如文獻(xiàn)[37]利用一個(gè)神經(jīng)注意力網(wǎng)絡(luò)對(duì)不同交互特征的重要程度進(jìn)行區(qū)分,改善了因子分解機(jī)的性能,并在真實(shí)數(shù)據(jù)集上將回歸任務(wù)的性能提高了8.6%。但是,基于矩陣分解的協(xié)同過(guò)濾方法僅使用評(píng)分信息,不能捕捉更深層的特征信息。而文獻(xiàn)[38]利用多層交互的非線(xiàn)性網(wǎng)絡(luò)結(jié)構(gòu)獲取不同層次的交互結(jié)果,將RMSE指標(biāo)的值降低了2%左右。但是,這種基于深度學(xué)習(xí)的推薦模型在提升推薦效果的同時(shí),難以對(duì)推薦效果做出合理的解釋。所以,考慮在多特征交互的推薦模型中加入注意力機(jī)制,以提高模型的可解釋性,是值得研究的重要課題之一。

      5.2 多模態(tài)注意力機(jī)制的深度學(xué)習(xí)推薦

      信息的媒介有音頻、文字、語(yǔ)音和圖像等多種模態(tài),目前對(duì)多模態(tài)信息的使用仍不夠廣泛,在多模態(tài)注意力機(jī)制中,主要使用語(yǔ)音和圖像信息。文獻(xiàn)[39]認(rèn)為不同模態(tài)對(duì)于情感狀態(tài)的影響是不同的,作者通過(guò)多模態(tài)注意力機(jī)制,將視頻特征和音頻特征進(jìn)行融合,相比一些采用主流深度學(xué)習(xí)方法進(jìn)行情感分析的任務(wù),在性能上提高了2%左右。在深度學(xué)習(xí)的推薦研究中,除了利用文本、評(píng)分等信息外,還可以從視頻和它模態(tài)信息中提取用戶(hù)的偏好特征。所以,將多模態(tài)注意力機(jī)制結(jié)合深度學(xué)習(xí)技術(shù),用于推薦系統(tǒng)也是未來(lái)的一個(gè)研究方向。

      5.3 注意力機(jī)制的GNN推薦和其他推薦方法融合

      由于GNN可以用來(lái)表示其它神經(jīng)網(wǎng)絡(luò)無(wú)法表示的非歐幾里得結(jié)構(gòu)數(shù)據(jù),將其作為輔助工具應(yīng)用在推薦系統(tǒng)領(lǐng)域,可有效緩解數(shù)據(jù)稀疏性問(wèn)題[40]。文獻(xiàn)[28]引入雙圖注意力網(wǎng)絡(luò)來(lái)協(xié)作學(xué)習(xí)用戶(hù)的靜態(tài)和動(dòng)態(tài)雙重社會(huì)效應(yīng),同時(shí)考慮到用戶(hù)領(lǐng)域和項(xiàng)目領(lǐng)域中不同的社會(huì)效應(yīng)會(huì)相互作用,提出了基于多臂賭博機(jī)的一種新的融合策略來(lái)衡量這種交互作用,在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,其推薦精度最高提高了9.33%。因此,將注意力機(jī)制的GNN推薦融合其它推薦算法或深度學(xué)習(xí)技術(shù),有利于提高推薦的效果。

      5.4 基于注意力機(jī)制的深度學(xué)習(xí)群組推薦

      大多數(shù)推薦技術(shù)應(yīng)用于個(gè)性化推薦,但在很多情況下,推薦的產(chǎn)品或服務(wù)被一群用戶(hù)所消費(fèi)[41]。文獻(xiàn)[42]提出了一種AGR(Attention-based Group Recommendation)模型,利用注意力機(jī)制學(xué)習(xí)群體中每個(gè)用戶(hù)的影響權(quán)重,相較于基準(zhǔn)模型其推薦性能提高了3%以上。但是,作者只在模型中使用了項(xiàng)目的ID信息,得到的信息非常有限,對(duì)模型性能的提升也有一定的限制。而李振新[43]提出的基于Phrase-LDA模型從評(píng)論中提取用戶(hù)主題,更細(xì)致地從語(yǔ)義層面描述了用戶(hù)的偏好,在群組推薦領(lǐng)域中具有一定的新穎性??紤]在A(yíng)GR模型的基礎(chǔ)上,將諸如社交關(guān)系、文本信息(例如事件描述)或時(shí)間等上下文信息用來(lái)學(xué)習(xí)群組推薦中的注意力模型,也是未來(lái)的一個(gè)研究方向。

      5.5 基于注意力機(jī)制和深度學(xué)習(xí)的跨領(lǐng)域推薦

      單領(lǐng)域個(gè)性化推薦中容易出現(xiàn)數(shù)據(jù)稀疏性和冷啟動(dòng)問(wèn)題,使得推薦效果不夠理想。而在跨領(lǐng)域推薦中,其它輔助域信息可以為目標(biāo)域推薦提供幫助,從而解決傳統(tǒng)單域推薦中數(shù)據(jù)稀疏和冷啟動(dòng)問(wèn)題,因此逐漸成為學(xué)術(shù)界的研究熱點(diǎn)。文獻(xiàn)[44]構(gòu)建了一個(gè)基于注意力機(jī)制和知識(shí)遷移方法的卷積-雙向長(zhǎng)短期記憶AC-BiLSTM(Convolution-Bi-directional Long Short-Term Memory based on Attention mechanism)模型,向BiLSTM中引入注意力機(jī)制得到不同詞匯對(duì)文本的貢獻(xiàn)程度,并且在目標(biāo)函數(shù)中加入了正則約束項(xiàng),避免在遷移過(guò)程中出現(xiàn)負(fù)遷移現(xiàn)象,使跨領(lǐng)域情感分類(lèi)的平均準(zhǔn)確率在2個(gè)數(shù)據(jù)集上分別提高了6.5%和2.2%。結(jié)合相關(guān)情感分類(lèi)模型,將注意力機(jī)制應(yīng)用到跨領(lǐng)域推薦研究中也是未來(lái)的一個(gè)研究方向。

      6 結(jié)束語(yǔ)

      注意力機(jī)制的特點(diǎn)是能主動(dòng)從海量輸入信息中選擇對(duì)當(dāng)前目標(biāo)任務(wù)更重要的信息,在提高推薦模型性能的同時(shí),提升深度學(xué)習(xí)可解釋性。將注意力機(jī)制應(yīng)用到深度學(xué)習(xí)推薦研究中,擴(kuò)展了推薦模型中神經(jīng)網(wǎng)絡(luò)的能力。本文圍繞注意力機(jī)制的結(jié)構(gòu)、分類(lèi)以及注意力機(jī)制在深度學(xué)習(xí)推薦中的研究等角度展開(kāi),并針對(duì)深度學(xué)習(xí)推薦模型中存在的注意力機(jī)制的選擇、階段融入、評(píng)價(jià)和模型復(fù)雜度增加等難點(diǎn)與挑戰(zhàn)進(jìn)行了分析,最后指出了基于注意力機(jī)制的深度學(xué)習(xí)推薦未來(lái)的研究方向。

      猜你喜歡
      注意力向量神經(jīng)網(wǎng)絡(luò)
      向量的分解
      讓注意力“飛”回來(lái)
      聚焦“向量與三角”創(chuàng)新題
      神經(jīng)網(wǎng)絡(luò)抑制無(wú)線(xiàn)通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      向量垂直在解析幾何中的應(yīng)用
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線(xiàn)
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      成安县| 博客| 华蓥市| 蕲春县| 南康市| 宁都县| 永年县| 玉门市| 西贡区| 黄骅市| 安新县| 湘潭县| 象州县| 延庆县| 中卫市| 万安县| 酉阳| 惠来县| 缙云县| 桂平市| 静宁县| 长武县| 连南| 拜城县| 卓尼县| 柏乡县| 吴堡县| 岱山县| 延吉市| 临朐县| 北碚区| 平凉市| 苗栗市| 井陉县| 兴国县| 海口市| 融水| 南康市| 英超| 精河县| 当涂县|