朱 芮, 劉布樓, 劉藝語, 鄒鑫雨, 李晨亮
1 武漢大學(xué)國家網(wǎng)絡(luò)安全學(xué)院 武漢 中國 430072
2 清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 北京 中國 100084
推薦系統(tǒng)可以根據(jù)用戶對商品的歷史消費(fèi)行為中挖掘用戶個性化的興趣愛好和商品獨(dú)特的特征,并根據(jù)這些挖掘到的特征為用戶推薦可能感興趣的產(chǎn)品或者服務(wù)。但這些基于交互記錄的推薦系統(tǒng)存在著一些問題, 推薦系統(tǒng)通常只能給用戶推薦某個用戶感興趣的商品, 但無法準(zhǔn)確地捕捉到用戶的興趣點(diǎn), 換個角度說, 推薦系統(tǒng)不能清晰地傳遞給用戶為什么推薦這個商品, 即不具有可解釋性。
可解釋性是通過對推薦系統(tǒng)的決策提供合理的解釋, 能夠有效地提升推薦系統(tǒng)的透明度、說服力、可信賴性, 也能夠提升用戶的使用體驗(yàn)。用戶評論是指用戶在購買商品或者接受服務(wù)后, 對商品服務(wù)的文字性反饋, 評論中包含著豐富的關(guān)于用戶個性喜好和商品特征的信息, 比如對商品性能的描述(例如商品的規(guī)格、質(zhì)量)或者一些明顯的情感傾向, 這為推薦系統(tǒng)能夠更好地提取用戶信息提供了數(shù)據(jù)支撐,因此基于評論的推薦系統(tǒng)能夠有效地提高推薦的準(zhǔn)確性和可解釋性。
早期的基于評論的推薦工作在主題模型的基礎(chǔ)上在評論中提取用戶和商品的潛在語義主題[1-3]。隨著深度學(xué)習(xí)技術(shù)的發(fā)展, 為了提高推薦的可解釋性,有很多基于評論的推薦系統(tǒng)為評論文檔中不同的評論、單詞等語義單元賦予不同的注意力權(quán)重, 將注意力機(jī)制應(yīng)用到推薦系統(tǒng)中[4], 通過這種方式使推薦系統(tǒng)更具有可解釋性, 從而更有效地捕捉到評論文本中的“有用的”信息。例如, 圖1 是本文根據(jù)ANR[5]內(nèi)置的注意力機(jī)制學(xué)習(xí)到的評論文檔中單詞的注意力權(quán)重所作的可視化表示, 其中顏色為紅色的詞是在本篇文檔中注意力權(quán)重大于整體權(quán)重中值的詞,在這基礎(chǔ)上, 紅色字體越深, 代表著此單詞的注意力權(quán)重越大。本條評論來自Amazon 的Music Instruments 數(shù)據(jù)集, 是一個用戶對一個音樂電纜的評論, 從圖1 中可以看出, ANR 可以有效地為一些能描述商品特征的詞賦予較高的權(quán)重, 例如“useful”、“different color”, 也能夠著重學(xué)習(xí)到描述用戶情感的詞, 例如“Great”, 并且從這些高權(quán)重的單詞中, 可以推測出此用戶對這個商品是比較滿意的, 事實(shí)上用戶也確實(shí)為這條音樂電纜標(biāo)記了5 分的評分(5 分為最高分?jǐn)?shù))。
圖1 ANR 獲得的帶權(quán)重的評論實(shí)例Figure 1 An instance of weighted review obtained by ANR
但在大部分推薦系統(tǒng)的衡量指標(biāo)中通常只追求推薦結(jié)果的高準(zhǔn)確率, 而忽視推薦的可解釋性。事實(shí)上, 這些工作普遍將可解釋性僅作為一個輔助性的評估子任務(wù), 比如作為示例出現(xiàn)在一些案例研究中來做出一些定性的比較, 來表明推薦系統(tǒng)是具有可解釋性的。但是到目前為止, 并沒有一個通用的辦法來對現(xiàn)存的先進(jìn)的推薦系統(tǒng)的可解釋性進(jìn)行系統(tǒng)的分析和定量的評估。
本文提出了一種基于文本注意力機(jī)制的推薦系統(tǒng)的可解釋性定量評估方法, 能夠通用于任意應(yīng)用了注意力機(jī)制的基于評論的深度推薦系統(tǒng)。本文通過判斷基于評論的深度推薦系統(tǒng)內(nèi)置的注意力機(jī)制,是否能夠真正捕捉到目標(biāo)評論中所反映的用戶偏好或者商品特征信息, 來對推薦系統(tǒng)的可解釋性做出量化的評估分?jǐn)?shù)。
本文的貢獻(xiàn)包含下面3 個內(nèi)容:
(1) 本文提出了一種定量評價推薦系統(tǒng)可解釋性的方法, 基于最先進(jìn)的5 個基于評論的深度推薦系統(tǒng), 在3 個現(xiàn)實(shí)的數(shù)據(jù)集Amazon-Musical Instruments、Amazon-Office Products、Yelp 上各選取200條實(shí)例, 根據(jù)推薦系統(tǒng)內(nèi)置的注意力機(jī)制獲得的評論權(quán)重文檔, 標(biāo)注了總計(jì)3000 條實(shí)例;
(2) 本文通過對可解釋性評分結(jié)果分析發(fā)現(xiàn), 當(dāng)前的基于評論的深度推薦系統(tǒng)有超過一半的可能性能夠捕捉到用戶對目標(biāo)評論的偏好, 或者商品的特征信息;
(3) 本文探究了可解釋性評分與評論的長度、推薦系統(tǒng)的預(yù)測精度、高權(quán)重詞語之間的關(guān)聯(lián)關(guān)系, 并通過進(jìn)一步分析發(fā)現(xiàn): 推薦系統(tǒng)在更短的評論上更容易捕捉到有用的信息; 對于可解釋性較好的實(shí)例,推薦系統(tǒng)對于這條實(shí)例的預(yù)測分?jǐn)?shù)很有可能也會更加準(zhǔn)確; 可解釋性評分高的推薦系統(tǒng)會偏向于為更多的形容詞賦予較高的權(quán)重。
交互數(shù)據(jù)是由用戶和商品之間的交互行為構(gòu)成,基于交互數(shù)據(jù)的推薦系統(tǒng)的核心方法是協(xié)同過濾技術(shù)[6], 推薦系統(tǒng)會向用戶推薦與其相似的人購買過的商品或者與其購買過的商品相似的商品。而矩陣分解是協(xié)同過濾技術(shù)中最為常見的方法, 原始的矩陣分解模型[7]是將用戶和商品映射到潛在特征空間中來將用戶對商品的評分進(jìn)行建模, 然后通過用戶和商品潛在特征的點(diǎn)乘的結(jié)果挖掘一對用戶與商品之間的關(guān)系。在這基礎(chǔ)上, 很多工作對原始的矩陣分解模型做了優(yōu)化, 比如將矩陣分解與鄰域模型相結(jié)合[8], 認(rèn)為用戶對商品的評分不僅依賴于這對用戶-商品對中的潛在特征, 也受用戶對其他商品的評分的影響, 或者將其擴(kuò)展到可以更加泛化地對特征進(jìn)行建模的分解機(jī)模型[9], 通過對用戶或商品間的時序行為進(jìn)行建模, 來找尋影響當(dāng)前用戶或商品最大的鄰居集合。但基于矩陣分解的推薦系統(tǒng)都是使用點(diǎn)乘操作作為最終的評分預(yù)測結(jié)果, 點(diǎn)乘操作只能確保潛在特征的線性結(jié)合, 但不能考慮到高級的特征交互。一些工作通過使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)用戶的評分特征, NeuMF[10]為協(xié)同過濾提供了一個通用的深度神經(jīng)框架, 將用戶和商品的特征向量作為輸入,通過神經(jīng)網(wǎng)絡(luò)匹配來替代傳統(tǒng)協(xié)同過濾中使用點(diǎn)乘計(jì)算評分。但矩陣的稀疏性仍然限制了推薦系統(tǒng)效果的提升, 協(xié)同過濾技術(shù)不能推薦那些具有較少評論的商品而且不能向具有較少評論的用戶進(jìn)行推薦,而且無法向用戶解釋為什么推薦這些商品, 即不具有可解釋性。
用戶評論、商品特征描述這類文本信息是推薦系統(tǒng)中常見的輔助性信息, 使用文本信息能夠在一定程度上緩解推薦系統(tǒng)固有的局限性。在早期工作中, 基于評論的推薦系統(tǒng)主要采用主題模型來從評論中分別為用戶和商品學(xué)習(xí)潛在的語義主題。HFT[1]和CTR[3]使用隱狄利克雷分布(Latent Dirichlet Allocation, LDA)[11]來推測文本中的潛在主題, RBLT[2]認(rèn)為具有高分評價的商品的評論中會包含更多正面的商品特性, 因此使用重復(fù)高分評論來構(gòu)建基于分?jǐn)?shù)增強(qiáng)的文本, 進(jìn)一步從基于分?jǐn)?shù)增強(qiáng)的評論文本中來提取商品的主題特征。CDL[12]使用堆疊去噪自動編碼器(Stacked Denoising Autoencoders, SADE)學(xué)習(xí)文本中的潛在特征, 并輸入到概率矩陣分解模型(Probabilistic Matrix Factorization, PMF)[13]來得到用戶和商品的潛在矩陣。TLFM[14]提出了兩個獨(dú)立的因子學(xué)習(xí)模型, 來挖掘用戶和商品共同的情感一致性和文本一致性, 然后將兩個模型結(jié)合到一起來對評分進(jìn)行預(yù)測。上述的方法雖然能夠利用評論文本中的信息, 但這些方法都是基于詞袋的模型, 忽略了詞序信息和局部的語義信息, 丟失了句子中有價值的信息。
在最近幾年, 深度學(xué)習(xí)模型被逐漸應(yīng)用到基于評論的推薦系統(tǒng)中, 并且有效地提高了基于評論的推薦系統(tǒng)的效能。為了能夠結(jié)合上下文信息從而達(dá)到更好的推薦效果, 一些工作使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[15]或循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[16]將包含語義上下文的信息映射為具有連續(xù)值的向量表示。ConvMF[17]使用CNN 學(xué)習(xí)商品評論中的局部語義信息, 來獲得基于評論的潛在語義表示。DeepCoNN[18]分別根據(jù)用戶和商品的評論使用CNN 學(xué)習(xí)用戶和商品的語義表示, 隨后將兩個語義表示進(jìn)行拼接來進(jìn)行分?jǐn)?shù)預(yù)測。TransNet[19]相對于DeepCoNN, 添加了一個額外的目標(biāo)網(wǎng)絡(luò)層來推測那些不能獲得對應(yīng)評論的實(shí)例的潛在語義, 進(jìn)而提高評分預(yù)測的精度。SSG[20]將評論信息融合到圖神經(jīng)網(wǎng)絡(luò)(GNN)中, 有利于圖神經(jīng)網(wǎng)絡(luò)更有效地提取用戶商品間的交互信息, 并采取了一種多模式的建模方式, 取得了很好的效果。
雖然上述的應(yīng)用了神經(jīng)網(wǎng)絡(luò)的推薦系統(tǒng)取得了不錯的效果, 但深度推薦系統(tǒng)對輸出的結(jié)果不能賦予很好的可解釋性。有些工作通過注意力機(jī)制來學(xué)習(xí)評論序列中潛在特征的重要性, 期望以這種方式來獲得評論中關(guān)鍵的信息, 在提高推薦系統(tǒng)的準(zhǔn)確性的同時提高可解釋性。D-Attn[4]結(jié)合全局和本地的注意力機(jī)制來識別用戶和商品評論中重要的詞, 來獲得更精確的語義特征表示。NARRE[21]認(rèn)為針對不同的目標(biāo)用戶商品對, 評論的重要性是不同的, 因此NARRE 設(shè)計(jì)了一種注意力機(jī)制能夠挑選出用戶商品評論文檔中重要的評論。MPCN[22]采用了基于指針的共注意力模式來實(shí)現(xiàn)多層次的信息選擇, 保證能夠挑選出重要的評論與這條評論中重要的詞。CARL[23]采用CNN 來獲得評論中詞的語境特征, 并通過共注意力機(jī)制來獲得每個詞重要程度, 最后以一個動態(tài)的線性的融合機(jī)制預(yù)測評分。ACF[24]采用了兩個注意力機(jī)制, 分別可以用來從多個商品以及用戶購買過的有代表性的商品中選擇有用的信息。TARMF[25]使用了一種基于注意力的門控循環(huán)單元(GRU)為PMF 的表示獲得語義解釋。CARP[26]提出使用膠囊網(wǎng)絡(luò)來進(jìn)行評分預(yù)測并在更加細(xì)粒度的層面上提供可解釋性, 即分別衡量用戶對商品的喜愛、排斥程度。
KPRN[27]利用知識圖譜來建模具有可解釋性的推薦系統(tǒng), 知識圖譜的路徑被用來推測用戶-商品交互的潛在的原因。AMCF[28]提出了一種新型的特征映射方法, 能夠?qū)⒉痪哂锌山忉屝缘奶卣饔成涞骄哂锌山忉屝缘膶傩蕴卣魃? 進(jìn)而使得不需要外部數(shù)據(jù)的傳統(tǒng)模型具有可解釋性, 同時AMCF 提出了一種基于屬性的評估推薦系統(tǒng)可解釋性的手段, 但這種評估方式具有一定的局限性, 不能應(yīng)用于一般的推薦系統(tǒng)上。
大部分基于評論的深度推薦系統(tǒng)通過將一個用戶所有的評論拼接得到用戶評論文檔, 與用戶相類似, 商品評論文檔是將一個商品所有評論進(jìn)行拼接。用戶、商品評論文檔分別表示為 Du=(t1, t2,…, tm),Di= (t1, t2, …, tn), 其中 tj表示對應(yīng)評論文檔中的第j個詞, m 和n 分別代表用戶和商品評論文檔中詞的個數(shù), 由基于評論的推薦系統(tǒng)預(yù)測出的分?jǐn)?shù)記為r?u,i= F ( Du, Di), 表示用戶u 對商品i 的偏好程度, 這也是推薦系統(tǒng)的預(yù)測目標(biāo)。
很多神經(jīng)模型使用注意力機(jī)制來學(xué)習(xí)出評論文本中重要的詞、屬性或者評論等語義單元, 從而能夠更好地學(xué)習(xí)潛在語義特征, 基于文本注意力也能夠使得推薦系統(tǒng)更具有可解釋性。本文根據(jù)在注意力權(quán)重計(jì)算機(jī)制的不同, 將這些具有可解釋性的基于評論的推薦系統(tǒng)分為三類: 基于注意力的推薦系統(tǒng),基于交互的推薦系統(tǒng), 基于屬性的推薦系統(tǒng)。
3.1.1 基于注意力的推薦系統(tǒng)
基于注意力的推薦系統(tǒng)分別通過對應(yīng)的評論文檔得到用戶和商品的語義表示。在特征提取過程中,基于注意力的推薦系統(tǒng)使用注意力機(jī)制來為對應(yīng)文檔中的每個詞都分配一個注意力權(quán)重, 如果某個詞能夠突出地表現(xiàn)用戶偏好或者商品特征, 那么這個詞將會被賦予一個比較大的注意力權(quán)重值, 如圖2 所示。例如, D-Attn[4]使用一個局部的注意力機(jī)制和一個全局的注意力機(jī)制來識別重要的詞; 在NARRE 中, 使用注意力機(jī)制來計(jì)算評論級別的權(quán)重值, 本文接下來會詳細(xì)介紹NARRE 是如何獲得這個注意力權(quán)重值。
圖2 基于注意力的推薦系統(tǒng)Figure 2 Attention-based recommendation system
NARRE 首先通過CNN 得到用戶和商品的評論級別包含語境信息的特征向量: Ou=(O1, O2,… ,OM)和 Oi= (O1, O2, … , ON), 其中M 和N 分別代表用戶和商品對應(yīng)的評論條數(shù)。隨后NARRE 通過一個兩層的神經(jīng)網(wǎng)絡(luò)來為每條評論計(jì)算注意力權(quán)重值,從用戶評論文檔中選擇出能夠真正反映用戶偏好的評論, 最終聚集成為一個特征向量作為這個用戶的表示。NARRE 將上一步得到的第l 條評論的表示和對應(yīng)的商品的ID embeddingli 輸入到注意力神經(jīng)網(wǎng)絡(luò)中:
根據(jù)上述得到的注意力分值, 可以通過一個softmax 函數(shù)進(jìn)行正則從而得到用戶的第l 條評論對應(yīng)的注意力權(quán)重值:
3.1.2 基于屬性的推薦系統(tǒng)
基于屬性的推薦系統(tǒng)首先在用戶和商品評論文檔中提取多個屬性, 隨后通過計(jì)算用戶端和商品端提取出來的屬性的匹配程度來計(jì)算評分。每一個屬性實(shí)際是一種高層次的語義特征, 能夠覆蓋用戶關(guān)心的或者商品含有的某個特定的屬性或主題。在這些方法中, 注意力機(jī)制被設(shè)計(jì)應(yīng)用在為每個屬性識別具有代表性的詞, 基于屬性的推薦系統(tǒng)如圖3 所示。例如, TARMF 使用一個基于注意力機(jī)制的RNN來分別在用戶評論文檔和商品評論文檔提取基于屬性的特征表示; ANR 通過利用注意力機(jī)制來為每個基于詞語境窗口的屬性計(jì)算每個單詞的重要性;CARP 使用自注意力機(jī)制來從各自對應(yīng)的評論文檔中提取用戶的觀點(diǎn)和商品的屬性。下文將詳細(xì)介紹ANR 和CARP 如何獲得屬性級別的注意力權(quán)重值及屬性級別的表示。
圖3 基于屬性的推薦系統(tǒng)Figure 3 Aspect-based recommendation system
ANR 首先得到用戶評論文檔的詞向量表示Hu=( h1, h2,… , hm), 其中m 代表用戶評論文檔中的詞的個數(shù), ANR 使用一個特定于屬性的單詞映射矩陣 Wa來區(qū)分不同詞的對應(yīng)的屬性:是評論文檔中第j 個詞原本的詞向量表示,H是在給定的用戶u 和屬性a 下的特定于屬性的詞表示, 由于有K 個不同的屬性, 因此存在K個這樣的映射操作。
為了更好地捕捉語義信息, ANR 使用局部的語境窗口來計(jì)算文檔中每個詞的重要性, 設(shè)每個屬性都可以用一個向量c*dva? R 來表示, 其中c 是一個超參數(shù), 代表了基于語境的窗口大小, 那么評論文檔中第j 個詞的語義窗口表示為:
其中(?;)?代表連接操作, 隨后通過一個softmax 函數(shù)得到這個詞在對應(yīng)屬性下的注意力權(quán)重值, 再進(jìn)行加權(quán)求和得到這個詞的特征向量:
ANR 在商品側(cè)以相同的計(jì)算方式得到屬性級別的特征表示 Oi,a。
為了聚集屬性級別的特征表示, ANR 使用一種協(xié)同訓(xùn)練的方式來學(xué)習(xí)屬性的重要性。根據(jù)上述得到屬性級別的用戶表示 Ou和商品表示 Oi來計(jì)算一個相似度矩陣:
其中,sW 是可學(xué)習(xí)的參數(shù), 根據(jù)相似度矩陣S 得到用戶和商品的屬性的注意力權(quán)重值uβ 和iβ :
對于用戶評論來說, CARP 為了識別出用戶評論文檔中哪些詞與用戶觀點(diǎn)是緊密相關(guān)的, 添加了一個識別用戶有用觀點(diǎn)的門控機(jī)制:
其中, qu,x是第x 個觀點(diǎn)對應(yīng)的特征向量, 這個特征表示是所有用戶共享的, 通過模型進(jìn)行學(xué)習(xí)更新,⊙是元素積操作。
CARP 以相同的方式從商品評論文檔中提取出k個屬性的特征表示。CARP 定義用戶的第x 個觀點(diǎn)與商品的第y個屬性組成一個邏輯單元, 對應(yīng)的特征表示gx,y為:
那么對于用戶k 個觀點(diǎn)、商品k 個屬性能夠組成k*k 個不同的邏輯單元。CARP 通過膠囊網(wǎng)絡(luò)結(jié)構(gòu)來識別哪些邏輯單元是重要的, 以及基于邏輯單元來得到用戶對商品的喜好程度。CARP 分別使用正向膠囊網(wǎng)絡(luò)和負(fù)向膠囊網(wǎng)絡(luò)來提取邏輯單元中用戶對商品的正向情感和負(fù)面情感:, 即正面情感和負(fù)面情感, βs,x,y是耦合系數(shù), 表示邏輯單元gx,y在決定情感s 時的貢獻(xiàn)度, CARP 設(shè)計(jì)了一種雙向協(xié)議路由(Routing by Bi-Agreement)算法來對βs,x,y進(jìn)行更新計(jì)算。
隨后通過一個非線性的擠壓函數(shù)將Ss,u,i壓縮到(0,1)范圍內(nèi):
os,u,i最終會被輸入到分?jǐn)?shù)預(yù)測層, 用于預(yù)測用戶u 對商品i 的評分。
3.1.3 基于交互的推薦系統(tǒng)
基于注意力的推薦系統(tǒng)以獨(dú)立和靜態(tài)的方式通過識別與用戶偏好和用戶特征相關(guān)的重要信息, 也就是說用戶評論文檔中詞的重要性并沒有考慮到商品評論文檔中的相關(guān)信息, 在商品評論文檔中也存在同樣的問題。但在實(shí)際應(yīng)用中, 用戶-商品對的關(guān)聯(lián)信息更能充分表現(xiàn)用戶對商品的偏好信息。因此,基于交互的推薦系統(tǒng)通常通過共注意力機(jī)制加權(quán)的方式來充分捕捉用戶商品的交互信息, 從而使得在用戶和商品評論文檔中關(guān)聯(lián)語義信息被模型捕捉到,并賦予比較高注意力權(quán)重, 如圖4 所示。例如, 在MPCN 中, 通過添加評論級別和詞級別的共注意力機(jī)制來提取在用戶商品對中關(guān)聯(lián)度最高的信息;CARL 使用帶平均池化的共注意力機(jī)制來獲取詞的重要性程度; 與CARL 相似, DAML[29]在共注意力機(jī)制中利用了基于語境的詞語義表示計(jì)算得的歐幾里得距離; 值得注意的是, 在基于屬性的推薦系統(tǒng)中提起到的CARP, 同樣也可以被視為一種基于交互的推薦系統(tǒng), CARP 中的邏輯單元的表示是通過用戶觀點(diǎn)和商品屬性的特征表示的交互得來。接下來本文將詳細(xì)介紹MPCN 和CARL 是如何通過特征交互獲得詞級別的注意力權(quán)重。
MPCN作為多層次結(jié)構(gòu), 輸入是評論的序列, 每條評論又是詞構(gòu)成的序列。在經(jīng)過詞向量層后,MPCN 將組成評論的所有詞向量求和, 得到每條評論的向量表示h, 隨后通過一個門機(jī)制來決定評論中多少信息傳遞到下一個階段, 得到h。
與上述介紹的ANR 類似, MPCN 通過用戶評論和商品評論之間的相似度矩陣來計(jì)算評論級別的共注意力:
G (?)是經(jīng)過Gumbel-softmax 函數(shù)后的argmax 操作, Gumbel-softmax 的計(jì)算方法為:
其中 gi=- log( - log(ui)), ui~uniform(0,1), τ 是溫度系數(shù)。通過上述操作, MPCN 可以挑選出用戶u 的第 pu條評論的特征向量, 商品i 的第 pi條評論的特征向量。
MPCN 作為多層次的推薦系統(tǒng), 不僅能夠挑選出重要的評論, 也可以挑選出評論中重要的詞。與評論級別的共注意力機(jī)制類似, 首先計(jì)算詞級別的相似度矩陣:
與評論級略有不同的是, 詞級別的共注意力使用了平均池化層來達(dá)到更穩(wěn)定的效果:
MPCN 使用了多指針組合機(jī)制, 即以相同的方式實(shí)施了k次評論級別的共注意力機(jī)制, 分別為用戶u 和商品i 挑選出k 條評論, 隨后通過詞級別的共注意力機(jī)制得到每條評論的加權(quán)特征向量, 那么經(jīng)過多次指針操作后可以得到:
最后MPCN 使用連接、相加或者全連接神經(jīng)網(wǎng)絡(luò)三種方式來聚集這k次操作后的特征, 進(jìn)而得到用戶u、商品i 最終的特征向量, 用于后續(xù)的分?jǐn)?shù)預(yù)測中。
Rj,k能夠反映與之間的關(guān)聯(lián)程度, 其中是用戶文檔表示中第j 個詞的特征向量,是商品文檔表示中第k 個詞的特征向量。隨后CARL 采用平均池化操作來聚集R 矩陣每行每列的特征向量, 再通過softmax 函數(shù)分別得到用戶、商品評論文檔中每個特征向量的注意力權(quán)重值, 從而能夠辨別出哪些詞相對于評論文檔是更加重要的:
因此CARL可以通過注意力矩陣T, 獲得基于用戶-商品對交互的詞的注意力權(quán)重值:
由于上述的注意力權(quán)重值是基于用戶評論文檔和商品評論文檔一起算出的, 因此如果一個詞具有更高的權(quán)重值, 那么意味著這個詞對應(yīng)的特征向量與待預(yù)測的用戶-商品對的相關(guān)性越高, 基于注意力權(quán)重得到用戶、商品評論文檔的加權(quán)特征表示:
這里的 diag ( w*)是指對角線元素為 w*的對角矩陣。
隨后, CARL 使用一個帶平均池化層的CNN 網(wǎng)絡(luò)分別進(jìn)一步提取用戶和商品評論文檔高層次特征,并再各自通過一個全連接網(wǎng)絡(luò)得到最終的評論文檔的特征表示, 用于后續(xù)的評分預(yù)測。
本文選取五個當(dāng)前最先進(jìn)的推薦系統(tǒng)來進(jìn)行可解釋性的量化評估, 這五個基于評論的深度推薦系統(tǒng)分別是ANR、CARL、CARP、MPCN 和NARRE, 5個推薦系統(tǒng)覆蓋了上述介紹的三類基于文本注意力的推薦系統(tǒng), 但在對評論建模方式互不相同。值得注意的是這五個模型分別為了得到更好推薦結(jié)果, 從評論中在不用的粒度級別標(biāo)注出與用戶偏好或者商品特征最相關(guān)的語義信息: ANR 將每個詞都分配到各個不同的屬性; CARP 進(jìn)一步將情感添加到用戶情感-商品屬性對中; MPCN 和CARL 基于語義相關(guān)聯(lián)的詞來推測用戶的偏好; 而NARRE 能夠識別與用戶偏好和商品特征最相關(guān)的評論。本文將識別重要的評論或者屬性視為一種計(jì)算詞級別注意力權(quán)重的特殊形式, 因此通過各個推薦系統(tǒng)中的所使用的注意力機(jī)制, 可以很容易地得到在評論文檔中每個詞的重要程度, 即注意力權(quán)重值。值得一提的是, 本文作為一個探究基于評論的推薦系統(tǒng)可解釋性的初步探索與嘗試, 從詞級別來對推薦系統(tǒng)的可解釋性進(jìn)行評估。
根據(jù)上述的問題定義, 本文在三個數(shù)據(jù)集上進(jìn)行人工標(biāo)注工作。三個數(shù)據(jù)集分別是來自Amazon-5cores①http://jmcauley.ucsd.edu/data/amazon/的Office Products 和Musical Instrument[30]和Yelp Challenge②https://www.yelp.com/dataset/challenge的Yelp16-17, 對于Yelp 數(shù)據(jù)集, 與之前的工作[26,31]相類似, 本文選取了2016 年到2017年時間跨度內(nèi)的數(shù)據(jù)來組成Yelp16-17, 并且為了保持?jǐn)?shù)據(jù)的統(tǒng)一, 與Amazon 數(shù)據(jù)集相類似, 本文也對Yelp16-17 進(jìn)行5-core 處理, 即每個用戶和每個商品都至少有五條評論。3 個數(shù)據(jù)集都包含用戶對商品的一個[1, 5]的評分以及文本評論。本文將一個用戶所有的評論以一個特殊符號“[SEP]”作為間隔拼接起來以形成用戶評論文檔, 并以相同的方式形成商品評論文檔。隨后本文通過截?cái)嚅L評論來將每個評論文檔的長度限制在300 個詞以內(nèi)。
用戶在購買商品后的評論通常比較簡潔[31], 但較短的評論不能包含充分的信息, 從而不能很詳細(xì)地了解用戶對評論的偏好信息, 并不利于可解釋性的評估工作。因此對于每個數(shù)據(jù)集, 本文隨機(jī)選取200 個用戶-商品對, 且保證每個用戶-商品對所對應(yīng)的目標(biāo)評論至少包含20 個詞。關(guān)于3 個數(shù)據(jù)集的數(shù)據(jù)統(tǒng)計(jì)如表一所示。本文總共探究了在3 個數(shù)據(jù)集上5 個基于評論的推薦系統(tǒng), 因此有3000 條實(shí)例需要人工進(jìn)行標(biāo)注。本文招募了4 位受過良好教育的標(biāo)注人員, 他們精通英語并且對這3 個數(shù)據(jù)集的商品信息較為熟悉。標(biāo)注人員均分為兩組, 即每一組都需要標(biāo)注1500 條實(shí)例數(shù)據(jù), 每條實(shí)例都由兩位標(biāo)注人員同時進(jìn)行標(biāo)注。值得一提的是, 在分發(fā)給標(biāo)注人員數(shù)據(jù)時, 標(biāo)注人員并不能得知標(biāo)注的數(shù)據(jù)是由哪個基于評論的推薦系統(tǒng)形成的。
表1 在3 個數(shù)據(jù)集上隨機(jī)選取的數(shù)據(jù)統(tǒng)計(jì)Table 1 Statistics of randomly selected data on three datasets
表2 推薦系統(tǒng)在隨機(jī)選取的數(shù)據(jù)上的表現(xiàn)Table 2 The performance of the recommendation system on randomly selected datasets
標(biāo)注人員為每條實(shí)例標(biāo)注一個[1, 5]范圍內(nèi)的可解釋性評分, 其中1 分代表推薦系統(tǒng)學(xué)習(xí)到的高權(quán)重詞與目標(biāo)評論中用戶的偏好或者商品的特征信息完全無關(guān); 2 分代表推薦系統(tǒng)得到的高權(quán)重的詞大部分都是無意義的詞, 只有少量的詞能夠反映目標(biāo)評論; 3 分代表推薦系統(tǒng)賦予較高權(quán)重的詞較少的是完全沒有意義的詞, 有明確反映用戶偏好或商品特征的詞; 4 分代表推薦系統(tǒng)賦予高權(quán)重的詞有多個能夠描述用戶商品對對應(yīng)的用戶偏好或者商品特征的詞; 5 分代表被推薦系統(tǒng)突出強(qiáng)調(diào)的詞大部分都是描述用戶偏好或商品特征并且情感與對應(yīng)的實(shí)例相一致。
需要特別說明的是, 標(biāo)注人員在標(biāo)注數(shù)據(jù)時會嚴(yán)格考慮推薦系統(tǒng)得到的高權(quán)重詞, 也就是說, 如果一個詞與目標(biāo)評論高度相關(guān), 能夠充分地反應(yīng)用戶的偏好或者商品的特征, 但這個詞并沒有被推薦系統(tǒng)賦予比較高的權(quán)重, 那么這樣的實(shí)例也會被標(biāo)注一個低的分?jǐn)?shù)。在標(biāo)注過程中, 標(biāo)注人員可以通過一個可視化的工具來得到推薦系統(tǒng)習(xí)得的高權(quán)重詞,如圖5 所示。本文會基于對應(yīng)的推薦系統(tǒng)內(nèi)置的注意力機(jī)制獲得的權(quán)重文檔, 計(jì)算一個權(quán)重中值 wmed,將注意力權(quán)重值小于 wmed的單詞的前景顏色置為黑色, 背景顏色置為白色; 將注意力權(quán)重值大于 wmed的詞進(jìn)行加粗且背景色置為淺灰色, 并且使用漸變的前景色來表現(xiàn)詞的重要程度, 即如果詞的注意力權(quán)重值越高那么前景色的著色越深。由于用戶標(biāo)注過程是一個主觀傾向性很大的過程, 因此在正式標(biāo)注前添加一個預(yù)標(biāo)注階段: (1)首先每一個組都隨機(jī)標(biāo)注相同的20 條實(shí)例; (2)兩位標(biāo)注人員互相檢查標(biāo)注結(jié)果, 在標(biāo)注結(jié)果的基礎(chǔ)上進(jìn)行討論最終達(dá)到一個統(tǒng)一的標(biāo)注標(biāo)準(zhǔn)和一致的標(biāo)注結(jié)果; (3)同一組內(nèi)的兩位標(biāo)注人員再獨(dú)立標(biāo)注全部的數(shù)據(jù)。
圖5 帶權(quán)重的商品評論文本可視化示例Figure 5 Visualization with an item review snippet
在人工標(biāo)注工作結(jié)束后, 本文計(jì)算了同一組內(nèi)的兩位標(biāo)注人員標(biāo)注結(jié)果在各個數(shù)據(jù)集、各個推薦系統(tǒng)內(nèi)的皮爾遜相關(guān)系數(shù), 結(jié)果如表3 所示, 其中G1、G2 分別代表兩個標(biāo)注組。皮爾遜相關(guān)系數(shù)能夠反映兩個變量之間的數(shù)值線性相關(guān)關(guān)系, 對于總體的兩個隨機(jī)變量X, Y 之間的皮爾遜相關(guān)系數(shù)可以被定義為:
表3 同一組內(nèi)兩位標(biāo)注人員標(biāo)注結(jié)果的皮爾遜相關(guān)系數(shù)(G1、G2 分別代表兩個標(biāo)注組)Table 3 Pearson’s correlation coefficient of the annotation results of two annotators in the same group (G1 and G2 respectively represent the two annotation groups)
整體標(biāo)注的皮爾遜相關(guān)系數(shù)均值為0.70, 即兩組標(biāo)注人員在標(biāo)注結(jié)果上都達(dá)到了比較高的一致性。對于每一條實(shí)例, 本文將為這條數(shù)據(jù)標(biāo)注分?jǐn)?shù)的兩位標(biāo)注人員標(biāo)注的結(jié)果的均值作為這條實(shí)例的最終的可解釋性評分, 并用于后續(xù)的進(jìn)一步分析工作中。
本文首先根據(jù)標(biāo)注得到的可解釋性分?jǐn)?shù), 來綜合地定量評估選定的5 個基于評論的深度推薦系統(tǒng)的可解釋性, 并使用方差分析說明了推薦系統(tǒng)之間的可解釋性分?jǐn)?shù)差異是具有統(tǒng)計(jì)意義的。隨后探究了可能影響推薦系統(tǒng)可解釋性的因素, 以及可解釋性高的推薦系統(tǒng)具有的一些性質(zhì)。
本文首先計(jì)算了在每個數(shù)據(jù)集、每個基于評論的推薦系統(tǒng)下的可解釋性評分均值, 如表4 所示。可以注意到對于每個模型, 整體的可解釋性評分均值都在3.0 分左右, 相較于本文制定的評分標(biāo)準(zhǔn), 并不是非常高的分?jǐn)?shù)。其中, CARL 在總體上獲得了最高的可解釋性評分, 在3 個數(shù)據(jù)集上的均值為3.21, 緊隨其后的是ANR, 可解釋性評分為3。結(jié)合獲得的可解釋性分?jǐn)?shù)以及通過CARL 獲得的帶有詞注意力權(quán)重的評論文檔, CARL 往往會為對較多的詞賦予較高的權(quán)重值, 從另一個角度來說, 這樣加大了CARL 能夠發(fā)現(xiàn)關(guān)鍵詞的概率; 從表中可以看出CARP 的可解釋性最差, 在3 個數(shù)據(jù)集上的可解釋性評分均值僅為2.75, 這可能是由于本文計(jì)算CARP 的注意力權(quán)重時是將正向情感權(quán)重與負(fù)向情感權(quán)重加權(quán)而得,這樣得到的注意力權(quán)重本身在一定程度上削弱了CARP 的可解釋性。
表4 推薦系統(tǒng)的可解釋性表現(xiàn)(最優(yōu)、次優(yōu)的表現(xiàn)分別用粗體字、下劃線標(biāo)出)Table 4 The interpretability performance for recommendation systems (The best is in boldface and second best underlined)
為了排除造成上述推薦系統(tǒng)可解釋性分?jǐn)?shù)差異的結(jié)果是隨機(jī)因素導(dǎo)致的, 本文將不同的推薦模型看作是一個研究因素, 分別基于3 個數(shù)據(jù)集上各200條數(shù)據(jù)的可解釋性分?jǐn)?shù)結(jié)果進(jìn)行方差分析。但根據(jù)預(yù)計(jì)算, 在相同數(shù)據(jù)集下方差齊性的顯著性值都小于0.05, 說明不同推薦系統(tǒng)間的可解釋性分?jǐn)?shù)的方差并不相齊, 因此本文采取一種多獨(dú)立樣本非參數(shù)檢驗(yàn)方法: 克魯斯卡爾-沃利斯檢驗(yàn)??唆斔箍?沃利斯檢驗(yàn)要求被檢測的樣本是獨(dú)立或者不相關(guān)的,由上文所述, 相同數(shù)據(jù)集下對不同的推薦系統(tǒng)可解釋性評價結(jié)果滿足推薦系統(tǒng)間互不相關(guān)的條件, 因此可以應(yīng)用克魯斯卡爾-沃利斯檢驗(yàn)。本文計(jì)算了基于三個數(shù)據(jù)集上的克魯斯卡爾-沃利斯檢驗(yàn)的顯著性值, 結(jié)果保留三位小數(shù), 如表5 所示。
表5 不同數(shù)據(jù)集下克魯斯卡爾-沃利斯檢驗(yàn)顯著性Table 5 Kruskal-Wallis test significance for different datasets
克魯斯卡爾-沃利斯檢驗(yàn)的原假設(shè)是各樣本服從的概率分布具有相同的中位數(shù), 原假設(shè)被拒絕意味著至少一個樣本的概率分布的中位數(shù)不同于其他樣本。從表5 中能夠看出, 在本文的檢測中, 各個不同數(shù)據(jù)集的顯著性值都小于0.05, 因此在3 個數(shù)據(jù)集上都拒絕原假設(shè), 說明推薦系統(tǒng)之間的可解釋性分?jǐn)?shù)差異是具有統(tǒng)計(jì)意義的, 而并非隨機(jī)因素造成的,這也為本文后續(xù)進(jìn)一步的數(shù)據(jù)分析提供了支撐。
本文探索了每個模型在每個數(shù)據(jù)集上的可解釋性評分分布, 如圖6(a)到(c)所示??梢缘贸鲆韵陆Y(jié)論,所有的推薦系統(tǒng)大部分的實(shí)例的可解釋性評分集中到[2, 4]的分?jǐn)?shù)范圍內(nèi), 這與表4 得到的結(jié)論是相一致的; 在Yelp 數(shù)據(jù)集上, 5 個推薦系統(tǒng)能夠有50%以上的可能學(xué)習(xí)到目標(biāo)評論中的相關(guān)含義, 即大部分的可解釋性評分分布在[3, 4]范圍內(nèi), 但在Musical Instruments 和Office Products 2 個數(shù)據(jù)集上, 與其他4 個推薦系統(tǒng)不同, CARP 的評分分布集中在[2, 3]上,說明CARP 相對于其他推薦系統(tǒng)具有更差的可解釋性; 從另一個方面來說, 基于所有的推薦系統(tǒng)和數(shù)據(jù)集, 平均有6.6%的實(shí)例不能被學(xué)習(xí)到有用的信息(評分分布在[1, 2]范圍內(nèi)), 即不具有可解釋性, 與之相對應(yīng)的, 評分分布在[4, 5]范圍內(nèi)所占的實(shí)例比率均值為17.3%。作為可解釋性最好的模型, CARL 評分分布在[4, 5]范圍內(nèi)在3 個數(shù)據(jù)集上平均比率為30.0%, ANR 以19.5%的比率緊隨其后; 直觀來看,在大部分的數(shù)據(jù)集和推薦系統(tǒng)上, 有超過50%的實(shí)例的可解釋性評分分布在[3, 5]分?jǐn)?shù)范圍內(nèi), 也就是說, 當(dāng)前基于評論的推薦系統(tǒng)有超過一半的可能性能捕捉到目標(biāo)評論中用戶觀點(diǎn)或者商品特征。
圖6 可解釋性評分分布Figure 6 Interpretability score distributions for each review-based recommendation system
由于長評論中可能會包含更多細(xì)粒度的信息,會涉及到用戶關(guān)注的多個屬性方面或者一個商品的多個特征, 而長評論中的一些內(nèi)容也未必能夠真正地反映評分。因此本文探究了目標(biāo)評論長度與可解釋性評分之間的關(guān)聯(lián)關(guān)系, 如圖7(a)~(c)所示。對于每一條實(shí)例, 首先取基于5 個推薦系統(tǒng)的最優(yōu)可解釋性評分作為這個實(shí)例的最終分?jǐn)?shù), 可以看出超過半數(shù)以上的實(shí)例可以達(dá)到4.0 以上的評分。并且從圖7 中可以看出, 推薦系統(tǒng)很難全面地捕捉到比較長(目標(biāo)評論長度在200 以上)的實(shí)例中用戶的觀點(diǎn)或者商品的特征。
圖7 目標(biāo)評論長度段的最優(yōu)可解釋性評分分布Figure 7 Interpretability score distributions for the best recommendation system over review length
值得一提的是, 本文同時計(jì)算了目標(biāo)評論長度與在5 個推薦系統(tǒng)可解釋性評分的最大值之間的皮爾遜相關(guān)系數(shù), 并且得到在3 個數(shù)據(jù)集上的皮爾遜相關(guān)系數(shù)的均值是–0.295, 說明目標(biāo)評論長度與可解釋性分?jǐn)?shù)確實(shí)存在著一定的負(fù)相關(guān)關(guān)系, 即目標(biāo)評論越短, 推薦系統(tǒng)越可能能夠?qū)W習(xí)到與目標(biāo)評論中反映的用戶觀點(diǎn)和商品特征相一致的信息。
大部分的推薦系統(tǒng)在提高推薦系統(tǒng)的可解釋性的同時更重要的目的是能夠提高推薦系統(tǒng)的性能,即提高評分預(yù)測的準(zhǔn)確率。令代表推薦系統(tǒng)s 對于用戶-商品實(shí)例對( u , i )的預(yù)測分?jǐn)?shù), 本文通過計(jì)算絕對誤差來表示推薦系統(tǒng)s 能否從評論中捕捉到用戶u對商品i的偏好,越大, 代表推薦系統(tǒng)能夠捕捉到信息越少。隨后對于每個推薦系統(tǒng)s, 依據(jù)在每個數(shù)據(jù)集內(nèi)對所有的實(shí)例進(jìn)行排序, 并將實(shí)例分為4 等份: Q1~Q4, 其中Q4 代表絕對誤差低, 即評分預(yù)測表現(xiàn)好的前25%, Q1 代表絕對誤差高的25%。圖8(a)~(c)展現(xiàn)了基于3 個數(shù)據(jù)集和4 個推薦系統(tǒng)在Q1~Q4 的可解釋性評分分布情況。通過圖8 可以推測出推薦系統(tǒng)的預(yù)測準(zhǔn)確性與可解釋性評分有正相關(guān)關(guān)系, 在每個數(shù)據(jù)集、每個推薦系統(tǒng)上, 都有超過50%的實(shí)例既能夠獲得3分以上的可解釋性評分, 又具有比較準(zhǔn)確的預(yù)測評分。因此可以推測, 對于可解釋性較好的實(shí)例, 推薦系統(tǒng)對于這條實(shí)例的預(yù)測分?jǐn)?shù)很有可能會更加準(zhǔn)確。
圖8 Q1~Q4 上的可解釋性評分分布Figure 8 Distribution of interpretability scores for Q1—Q4
為了進(jìn)一步探究可解釋性評分與分?jǐn)?shù)預(yù)測的準(zhǔn)確率之間的關(guān)系, 本文在每個數(shù)據(jù)集、每個推薦系統(tǒng)內(nèi)計(jì)算了可解釋性評分與絕對誤差之間的皮爾遜相關(guān)系數(shù), 結(jié)果如表5 所示。而整體的相關(guān)系數(shù)均值為–0.342, 這也驗(yàn)證了推薦系統(tǒng)評分預(yù)測的準(zhǔn)確性與可解釋性之間確實(shí)存在正相關(guān)關(guān)聯(lián)關(guān)系。因此可以推測一個更準(zhǔn)確的預(yù)測結(jié)果意味著推薦系統(tǒng)更能“理解”用戶的意圖或者商品特征。
本文最后探究了詞性分布與可解釋性評分之間的關(guān)系。本文通過ANR、CARL、CARP、MPCN 生成的帶權(quán)重的評論文本, 將每個評論文本中的詞的注意力權(quán)重進(jìn)行排序, 選取注意力權(quán)重最大的前5%的詞, 使用自然語言處理工具NLTK[32]對所選定的詞進(jìn)行詞性標(biāo)注分析(POS tagging)。由于NARRE 只能得到每條評論的注意力權(quán)重, 只能抽取出權(quán)重高的評論, 但本文認(rèn)為關(guān)注單條評論的詞性分布并沒有很大的研究價值, 因此NARRE 沒有參與到詞性分析中。根據(jù)挑選出的注意力權(quán)重高的詞, 本文選取了出現(xiàn)頻率比較高的7 類詞性: NN、JJ、RB、DT、IN、VBZ、PRP。其中“NN”為名詞、“JJ”為形容詞、“RB”為副詞、“DT”為限定詞、“IN”為介詞、“VBZ”為動詞第三人稱、“PRP”為人稱代詞。本文計(jì)算了每類詞性在對應(yīng)實(shí)例選取的詞中所占的比例, 并在每個可解釋性分?jǐn)?shù)段內(nèi)計(jì)算均值, 得到的結(jié)果如圖9~11 所示。整體來看針對不同的數(shù)據(jù)集、不同的推薦系統(tǒng),高權(quán)重的詞的詞性分布有明顯差別, 比如MPCN在3個不同的數(shù)據(jù)集上都會為更多的名詞學(xué)習(xí)到高權(quán)重;而在Yelp 數(shù)據(jù)集中, 由于選取的實(shí)例大部分是用戶對餐館的評價, 有明確的對餐館的味道、服務(wù)、環(huán)境等方面的描述, 因此本身數(shù)據(jù)集中包含的名詞、形容詞比較多, 也在圖11 中有所體現(xiàn)。盡管在同一個數(shù)據(jù)集、同一個推薦系統(tǒng)內(nèi), 不同分?jǐn)?shù)段內(nèi)所選取詞的詞性分布比較相似, 但是仍然能夠觀察出細(xì)微的區(qū)別: 在每個數(shù)據(jù)集、每個推薦系統(tǒng)內(nèi), 具有高權(quán)重的形容詞所占的比例越高, 可解釋性評分越高; 而可解釋性評分在[1, 3)范圍內(nèi)的實(shí)例往往在限定詞、介詞、動詞這幾類詞性中分布較多的高權(quán)重的詞, 但可解釋性評分相對較高的實(shí)例在這幾類詞性里的占比較低。形容詞中包含了對商品的特征的描述, 還可能會有一些情感偏向明確的詞, 因此可解釋性評分高的推薦系統(tǒng)會更有可能為形容詞賦予比較高的權(quán)重值。
圖9 詞性分布-Music InstrumentsFigure 9 The part of speech distribution of Music Instruments
圖10 詞性分布-Office ProductsFigure 10 The part of speech distribution of Office Products
表6 可解釋性評分與絕對誤差間的皮爾遜相關(guān)系數(shù)Table 6 Pearson’s correlation coefficient between interpretability score and absolute error
本文提出了一種能夠綜合評價基于評論的推薦系統(tǒng)的可解釋性的方法, 通過對5 個基于評論的深度推薦系統(tǒng), 在3 個真實(shí)的數(shù)據(jù)集上進(jìn)行的人工標(biāo)注工作, 發(fā)現(xiàn)當(dāng)前的基于評論的深度推薦系統(tǒng)內(nèi)置注意力機(jī)制有50%以上的可能性能夠精確地捕捉到用戶對目標(biāo)商品的偏好信息。本文通過對得到的可解釋性評分進(jìn)一步分析發(fā)現(xiàn), 推薦系統(tǒng)的可解釋性表現(xiàn)在一定程度上與推薦系統(tǒng)的分?jǐn)?shù)預(yù)測精度有正相關(guān)的關(guān)聯(lián)關(guān)系; 并且發(fā)現(xiàn)推薦系統(tǒng)在更短的評論上更容易捕捉到有用的信息; 可解釋性評分高的推薦系統(tǒng)會偏向?yàn)楦嗟男稳菰~賦予較高的權(quán)重。在未來的工作中, 本文計(jì)劃設(shè)計(jì)一種能夠通過推薦系統(tǒng)內(nèi)置的注意力機(jī)制得到的注意力權(quán)重值, 可以自動評估推薦系統(tǒng)的可解釋性的方法。總的來說, 本文提供了一種評價推薦系統(tǒng)可解釋性的新思路, 也為探索更好的基于評論的推薦系統(tǒng)的解決方案提供了一些啟示。