丁嘉鳴
(江南大學(xué)商學(xué)院,江蘇 無錫 214122)
隨著互聯(lián)網(wǎng)的不斷發(fā)展,消費(fèi)者的購物方式發(fā)生巨變,越來越多的消費(fèi)者傾向于在第三方購物平臺上商品購買,這些購物平臺支持消費(fèi)者發(fā)表在線評論,即商品使用一段時間后對該商品或服務(wù)的綜合感受[1]。商品的在線評論往往是用戶真實的使用體驗,讓其他消費(fèi)者能直觀地了解商品或服務(wù)的優(yōu)缺點(diǎn)。在線評論很大程度上會影響消費(fèi)者的購買決定[2],其對于商家優(yōu)化資源配置也至關(guān)重要[3]。
如今對于大量的和非結(jié)構(gòu)化的在線評論信息的處理,得益于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)的發(fā)展,如在線評論挖掘算法[4],在線評論特征提取算法[5],在線評論的推薦算法[6]相繼提出,用于對在線評論信息進(jìn)行挖掘分析。這些算法為基于在線評論的商品排序方法研究提供了支撐。
目前大多數(shù)基于在線評論商品排序的研究均是在商品的屬性確定或者提前給出的情況下展開的[7]。此外,在線評論商品排序方法本質(zhì)也屬于多屬性決策,目前較少研究將在線評論挖掘算法與多屬性決策方法結(jié)合。因此,本文使用TF-IDF 特征提取算法,確定商品特征屬性,在此基礎(chǔ)上借助情感分析[8]方法對評論進(jìn)行量化,使用離差最大化方法確定商品屬性權(quán)重,最后提出一種改進(jìn)的MULTIMOORA 的商品推薦方法,為消費(fèi)者提供決策支持。
為了解決以上問題,首先要對評論信息進(jìn)行預(yù)處理以及獲取消費(fèi)者關(guān)注的備選商品特征。首先,通過爬蟲軟件和Python 工具對消費(fèi)者關(guān)注的備選商品的在線評論信息進(jìn)行獲取和預(yù)處理。然后,通過TF-IDF算法提取商品特征,并通過計算相似度建立特征詞集合。
獲取消費(fèi)者關(guān)注的備選商品在線評論信息是進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ)性工作。針對消費(fèi)者關(guān)注的備選商品,可以借助爬蟲軟件對商品評論進(jìn)行獲取,之后再對評論進(jìn)行預(yù)處理,包括噪聲處理、分詞及詞性標(biāo)注、停用詞刪除和干擾特征詞處理。
特征提取算法一般分為兩類,第一類是無監(jiān)督的特征詞提取方法,第二類是有監(jiān)督的特征詞提取方法。考慮到無監(jiān)督的特征詞提取方法速度快、效果較好。因此本文采用無監(jiān)督的TF-IDF 方法進(jìn)行特征詞提取,再通過計算特征詞與商品標(biāo)準(zhǔn)特征詞之間的相似度對特征詞進(jìn)行歸類。
⑴TF-IDF
詞頻(TF)
詞頻是指某個詞語在評論中出現(xiàn)的次數(shù)。詞頻數(shù)越高,這個詞被提及的次數(shù)就越多。
其中,A是為特征詞,NA為該特征詞出現(xiàn)的次數(shù),V為所有特征詞出現(xiàn)的總次數(shù)。
逆文本頻率(IDF)
逆文檔頻率(IDF):衡量詞或詞組所在的文檔在整個語料庫中的頻率。
其中,N*表示所有評論的數(shù)量表示包含特征詞A的評論數(shù)
詞頻-逆文檔頻率(TF-IDF)
TF-IDF 是結(jié)合詞頻和逆文檔詞頻度量候選特征詞的指標(biāo),如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF 高,并且在其他的文章中很少出現(xiàn),則認(rèn)為該詞或短語具有較好的類別區(qū)分能力,適合用來分類。詞頻-逆文檔頻率的計算公式如下:
⑵特征詞篩選
在特征詞提取環(huán)節(jié),計算詞或短語的詞頻-逆文檔頻率并按照從大到小的順序進(jìn)行排序,可以得到與商品屬性相關(guān)的特征詞。由于提取到的特征詞語義粒度差異大,特征詞維度高,因此必須對特征詞進(jìn)行篩選。本文通過計算特征詞與商品標(biāo)準(zhǔn)特征詞之間的相似度對特征詞篩選,并建立商品特征詞集合,計算公式如下:
其中,Dis(WA,Wnorm)表示商品特征WA和商品標(biāo)準(zhǔn)特征詞Wnorm之間的距離,α一般取1.6。如果sim(WA,Wnorm)≥0.5,則認(rèn)為特征WA和商品標(biāo)準(zhǔn)特征Wnorm是一類。之后,可以得到特征詞類集合,每個特征詞類代表商品的一個屬性。
考慮到不同特征詞對應(yīng)的情感詞不同,為提高特征情感分析的準(zhǔn)確性,本文借助情感詞典進(jìn)行評論情感分詞。首先,將副詞-形容詞合并為一個詞語并借鑒知網(wǎng)的情感詞典,建立關(guān)于各類特征的積極、中立、消極情感詞典分別用表示,否定詞集合用Dneg表示。接著計算每條評論關(guān)于各類特征的情感值。
統(tǒng)計所有評論中積極和消極情感比率的均值,確定備選商品各類特征下的評價值aij:
進(jìn)一步,可得到商品評價矩陣R=(aij)m×n,i=1,2,…,m,j=1,2,…,n
在對評論進(jìn)行情感分析之后,通過公式⑸~⑻可以得到備選商品關(guān)于各屬性的評價值。之后,使用離差最大化法計算商品屬性權(quán)重,最后使用本文提出的改進(jìn)的MULTIMOORA方法對備選商品進(jìn)行排序。
⑴計算備選商品屬性權(quán)重
在獲得商品的評價矩陣R之后,對其進(jìn)行無量綱規(guī)范化處理,可得到規(guī)范化的決策矩陣K。其中K=(bij)m×n,i=1,2,…,m,j=1,2,…,n。假設(shè)備選商品的屬性權(quán)重向量為ω={ω1…ωj…ωn}且滿足約束條件=1?;陔x差最大化思想,對于某一商品屬性,如果所有備選商品評價值都差不多,則認(rèn)為商品屬性j對于所以的備選商品無差異,該商品屬性對于商品排序不起作用;反之,對于對于某一商品屬性,如果所有備選商品評價值差異很大,則認(rèn)為商品屬性j對于所以的備選商品有顯著影響,應(yīng)該賦予較大權(quán)重。因此,構(gòu)建如下的離差最大化模型:
構(gòu)建拉格朗日函數(shù),對此模型求最優(yōu)解,可以得到最優(yōu)解
再對其進(jìn)行歸一化處理可得ωj:
⑵改進(jìn)MULTIMOORA方法對備選商品進(jìn)行排序
MULTIMOORA 是一種由三種不同的方法組成的產(chǎn)品排序方法,包括比率系統(tǒng)法、參考點(diǎn)法以及完全乘法法,本文將商品特征權(quán)重納入考慮,提出一種改進(jìn)的MULTIMOORA 備選商品推薦方法。該方法由以下四個步驟組成。
Step 1比率系統(tǒng)法計算備選商品的評價值。
其中,s代表效益型屬性的數(shù)量,n?s代表成本型屬性的數(shù)量。
Step 2參考點(diǎn)法計算。
Step 3完全相乘法計算。
Step 4基于占優(yōu)理論對備選商品進(jìn)行排序[9]。
下面以消費(fèi)者購買筆記本電腦為例驗證本文提出的方法。假設(shè)一消費(fèi)者想購買一臺筆記本電腦,并且在京東購物網(wǎng)站上挑選商品,其關(guān)注了聯(lián)想、小米、戴爾、榮耀品牌下的四款筆記本電腦,并分別用A1,A2,A3,A4 表示。這四款筆記本電腦總體評分相近,每款電腦下都有超過一萬條的商品評論,消費(fèi)者很難做出選擇。因此,需要分析各款筆記本線評論信息,為消費(fèi)者提供備選商品推薦排序,幫助消費(fèi)者做出購買決策。
首先,對備選筆記本電腦在線評論信息進(jìn)行數(shù)據(jù)預(yù)處理及特征提取,得到消費(fèi)者關(guān)注的筆記本屬性,部分結(jié)果如表1所示。
表1 部分商品特征
之后,借助本文提出的情感分析方法對在線評論進(jìn)行情感分析,借助公式⑸~⑻得到商品評價矩陣。然后,借助公式⑼~⑾計算得到備選商品各屬性權(quán)重。計算得到,外觀,性能,屏幕,服務(wù)的屬性權(quán)重分別0.24,0.32,0.21,0.23。最后,使用本文提出的改進(jìn)的MULTIMOORA 方法,對備選商品排序,最終得計算結(jié)果如表2所示。
表2 改進(jìn)MULTIMOORA排序結(jié)果
此外,為驗證本文提出方法的可行性,將本文提出的方法與其他文獻(xiàn)中的方法進(jìn)行比較,實驗結(jié)果如表3所示。
表3 方法對比排序結(jié)果
從最終的排序結(jié)果來看,本文提出的方法與使用其他方法得出的結(jié)果大致相同,基本都認(rèn)為A4最值得推薦,A2 最不值得推薦。實驗結(jié)果表明,本文提出的方法有效。
本文提出一種基于在線評論的商品推薦方法。首先對評論數(shù)據(jù)進(jìn)行預(yù)處理,使用TF-IDF 算法提取消費(fèi)者關(guān)注的商品特征,再使用情感分析方法確實商品屬性評價值,并使用離差最大化方法確定商品屬性權(quán)重,最后提出一種改進(jìn)的MULTIMOORA 的商品推薦方法,為消費(fèi)者提供決策支持。
為了給消費(fèi)者提供更好的購物體驗,高效合理的商品推薦方法必不可少。未來還需要考慮虛假評論信息識別,進(jìn)一步提高商品推薦的效果。