王珠美,胡彥蓉,劉洪久
(1.浙江農(nóng)林大學(xué)信息工程學(xué)院,杭州,311300;2.浙江省林業(yè)智能監(jiān)測(cè)與信息技術(shù)研究重點(diǎn)實(shí)驗(yàn)室,杭州,311300)
隨著互聯(lián)網(wǎng)與信息技術(shù)的迅猛發(fā)展,我國(guó)的網(wǎng)絡(luò)購(gòu)物正在急速發(fā)展。根據(jù)第45 次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》數(shù)據(jù)統(tǒng)計(jì),截至2020 年3 月,我國(guó)網(wǎng)絡(luò)購(gòu)物用戶數(shù)量達(dá)到7.10 億個(gè),互聯(lián)網(wǎng)普及率達(dá)64.5%,即超過一半的中國(guó)公民都在通過網(wǎng)絡(luò)來購(gòu)物。但由于網(wǎng)絡(luò)購(gòu)物的虛擬性和產(chǎn)品的不可觸摸性,商品的在線信息成為消費(fèi)者評(píng)判商品的重要依據(jù)。根據(jù)《2015 年中國(guó)網(wǎng)絡(luò)購(gòu)物市場(chǎng)研究報(bào)告》數(shù)據(jù)統(tǒng)計(jì),消費(fèi)者在網(wǎng)上購(gòu)物時(shí),商品口碑、價(jià)格、商家的信譽(yù)成為消費(fèi)者評(píng)判商品的主要考慮因素,其中網(wǎng)絡(luò)口碑的百分比最大,達(dá)到77.5%。在線評(píng)論作為口碑的主要載體,成為消費(fèi)者獲取信息的主要來源,也是商家了解消費(fèi)者需求、產(chǎn)品需求改進(jìn)、促進(jìn)商品銷量的主要渠道。因此,越來越多的學(xué)者開始研究評(píng)論中包含的隱藏信息,通過挖掘評(píng)論的情感信息進(jìn)一步分析評(píng)論中的有效信息。
情感分析又稱情感極性分析,它是對(duì)文本進(jìn)行表達(dá)出的情緒積極、消極以及不確定的判斷。在現(xiàn)階段,情感分析主要有通過構(gòu)建情感詞典進(jìn)行分類的方法,也有機(jī)器學(xué)習(xí)方法。通過構(gòu)建情感詞典的方法主要是通過情感詞典對(duì)文本進(jìn)行詞語分析,計(jì)算情感值,然后通過判斷情感值確定文本表達(dá)的情感傾向。在基于情感詞典進(jìn)行分類的方法方面,Baccianella 等[1]提出一種通過構(gòu)建情感詞典來挖掘情感特征進(jìn)行情感判斷的方法。郭順利等[2]將用戶情感傾向細(xì)致劃分,通過構(gòu)建中文圖書評(píng)論的情感詞集,同時(shí)結(jié)合改進(jìn)的SO-PMI 算法和同義詞詞林,提出一種判別詞語情感類別的方法。也有很多學(xué)者對(duì)于特定領(lǐng)域構(gòu)建情感詞典。陳柯宇等[3]提出一種結(jié)合擴(kuò)展的情感詞典以及word2vec 工具的情感傾向分析方法。蔣盛益等[4]通過改進(jìn)的Hevner 情感模型,利用HowNet 中語義相似度計(jì)算的思想,構(gòu)建音樂領(lǐng)域的中文情感詞典。通過機(jī)器學(xué)習(xí)分析文本情感傾向的主要思想是將文本情感分析轉(zhuǎn)化為一個(gè)分類問題,然后利用算法進(jìn)行訓(xùn)練得到一個(gè)模型,最后通過這個(gè)模型進(jìn)行文本情感判斷。在機(jī)器學(xué)習(xí)方法方面,Singh 等[5]運(yùn)用相同的數(shù)據(jù)對(duì)機(jī)器學(xué)習(xí)方法和基于語義信息的方法進(jìn)行情感分類實(shí)驗(yàn),實(shí)驗(yàn)表明了基于機(jī)器學(xué)習(xí)方法的有效性。趙剛等[6]對(duì)餐廳評(píng)論情感分析時(shí),通過比較幾種經(jīng)典的機(jī)器學(xué)習(xí)算法,包含了Ada Boosting、Bayes Network、Decision Tree、C4.5 分類樹、Na?ve Bayes 分類器以及Ripper 等算法,實(shí)現(xiàn)了適合于發(fā)掘隱含屬性、展現(xiàn)商品間關(guān)聯(lián)性和判斷客戶情感傾向的網(wǎng)上商品評(píng)論情感分析模型。然而在機(jī)器學(xué)習(xí)中,文本大多都是通過詞袋模型來表示,這樣易造成文本中包含的語義信息和情感信息等問題不能很精確地描述出來,而新興的深度學(xué)習(xí)方法恰好能夠彌補(bǔ)這些缺點(diǎn)。通過神經(jīng)網(wǎng)絡(luò)模型,能夠計(jì)算得到文本中詞語的分布式向量,可以用低維且連續(xù)的形式來表達(dá)詞,能夠較好地應(yīng)用到其他深度神經(jīng)網(wǎng)絡(luò)模型,利用多層網(wǎng)絡(luò)的學(xué)習(xí),可以更加具體地表達(dá)文本特征,提高了模型的準(zhǔn)確性和工作效率。近年來,許多學(xué)者將卷積神經(jīng)網(wǎng)絡(luò)[7](Convolutional neural network, CNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[8](Long-term memory network,LSTM)、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[9](Bidirectional long-term memory network,BLSTM)等深度學(xué)習(xí)模型運(yùn)用到產(chǎn)品在線評(píng)論情感分析中去并取得了較好的成果。
但目前的研究存在以下問題:(1)文本屬性權(quán)重確定方式不精確。在情感分析方法中有多種屬性權(quán)重計(jì)算方式,其中,詞頻-逆文本頻率(Term frequency-inverse document frequency,TF-IDF)是一個(gè)被廣泛應(yīng)用數(shù)學(xué)統(tǒng)計(jì)模型,表示在文檔中詞語的重要程度,如余苗等[10]運(yùn)用TF-IDF 分類算法挖掘用戶興趣模型,從而實(shí)現(xiàn)了情報(bào)的按需分發(fā),但該方法的推薦精度還需要進(jìn)一步提高。(2)文本情感描述不明確。傳統(tǒng)的情感分析方法是需要人工標(biāo)注文本特征后,利用機(jī)器學(xué)習(xí)構(gòu)建分類模型,判斷文本的情感傾向,這樣的處理方法對(duì)于文本的情感特征描述處理不夠客觀[11],沒有辦法準(zhǔn)確地描述消費(fèi)者的情感傾向。
因此,為解決信息的有效提取和分析在線評(píng)論與商家績(jī)效之間的關(guān)系,本文提出了一種基于潛在狄利克雷分布(Latent Dirichlet allocation,LDA)的主題模型和直覺模糊TOPSIS 的農(nóng)產(chǎn)品在線評(píng)論情感分析方法。該方法的主要特點(diǎn)在于:(1)根據(jù)屬性出現(xiàn)的次數(shù)來確定各個(gè)屬性的權(quán)重。Pang 等[12]研究表明,使用詞語的出現(xiàn)次數(shù)能夠獲得比詞頻-逆文本頻率方法更好的實(shí)驗(yàn)結(jié)果。因此,本文將用屬性出現(xiàn)的次數(shù)來確定各個(gè)屬性的權(quán)重,避免了人為給定權(quán)重的不確定性。(2)利用LDA 主題模型進(jìn)行主題建模,通過計(jì)算混亂度來確定在線評(píng)論的最佳主題數(shù)。Chiru[13]通過對(duì)現(xiàn)有的主題建模算法在處理大量文檔和對(duì)已識(shí)別潛在主題進(jìn)行解析方面的比較,確定LDA 主題模型具有最高性能。同時(shí)根據(jù)LDA 模型相關(guān)參考文獻(xiàn),混亂度是測(cè)量LDA 預(yù)測(cè)能力的標(biāo)準(zhǔn)方法[14]。通過混亂度計(jì)算在線評(píng)論的最佳主題數(shù)目,保證了文檔的聚類效果。(3)采用直覺模糊數(shù)來反映消費(fèi)者不同的情感。針對(duì)消費(fèi)者情感的不確定性,直覺模糊理論可以反映評(píng)論中消費(fèi)者表達(dá)的支持、猶豫和反對(duì)程度,全面地描述評(píng)論中的情感傾向,彌補(bǔ)了只考慮消費(fèi)者情感極性的不足。
隨著科技的發(fā)展,人們對(duì)于網(wǎng)上購(gòu)物的依賴越來越大。在生活中,假設(shè)消費(fèi)者想要購(gòu)買某種農(nóng)產(chǎn)品,經(jīng)過關(guān)鍵字搜索后縮小了條件符合農(nóng)產(chǎn)品的范圍,但搜索結(jié)果往往還是呈現(xiàn)了數(shù)目較多的農(nóng)產(chǎn)品,這時(shí)候進(jìn)一步的選購(gòu)就需要消費(fèi)者具有一定的篩選能力,由于諸多因素限制,消費(fèi)者無法有效地得到需要的評(píng)論信息,在多種商品之間無法便捷輕松地做出購(gòu)買決定[15]。本文從產(chǎn)品在線評(píng)論信息過載出發(fā),設(shè)計(jì)基于LDA 主題模型和直覺模糊TOPSIS 的產(chǎn)品在線評(píng)論情感分析方法對(duì)關(guān)鍵字搜索后的商品進(jìn)行分析,挖掘在線評(píng)論中的有效信息,為消費(fèi)者挑選商品提供建議,其解決框架如圖1 所示。
統(tǒng)計(jì)主題模型近年來得到了學(xué)者的廣泛應(yīng)用,它能夠在計(jì)算機(jī)沒有完全了解文本結(jié)構(gòu)的情況下,分析出易理解且相對(duì)平穩(wěn)的語言結(jié)構(gòu),為數(shù)據(jù)集中的文本尋找一個(gè)相對(duì)簡(jiǎn)短的描述[16]。統(tǒng)計(jì)主題模型最早來源于隱含語義 檢 索(Latent semantic indexing, LSI)[17],重 大 突 破 是Hofmann 提出的PLSI(Probabilistic latent semantic indexing)模型,PLSI 模型主要是通過概率模型來計(jì)算文檔集中詞產(chǎn)生的過程,但是PLSI 對(duì)于文本的產(chǎn)生不能用概率來描述,只是簡(jiǎn)單地對(duì)部分文本進(jìn)行擬合,得到指定文本的主題混合比例[16]。針對(duì)這些不足,Blei[18]于2003 年提出的一種生成主題概率模型LDA,在PLSI 的基礎(chǔ)上,用一個(gè)服從Dirichlet 分布的隱含隨機(jī)變量表示文檔的主題混合比例來模擬文檔產(chǎn)生的過程,其模型結(jié)構(gòu)更為完整清晰,采用概率去推斷算法處理文本,可以將文本表示的維度大大降低,從而避免維度災(zāi)難,因此在文本分類、信息檢索等領(lǐng)域取得了非常好的實(shí)踐效果。
1.2.1 LDA 主題模型
LDA 模型即是3 層貝葉斯概率模型,模型包含詞—文檔—主題3 層結(jié)構(gòu),具體如圖2 所示,通常用來對(duì)大規(guī)模文檔數(shù)據(jù)進(jìn)行建模[19]。文檔中某個(gè)主題的詞匯構(gòu)成存在一定的概率,且從主題中心選擇了某個(gè)詞語也可以用概率來分析。具體訓(xùn)練過程如下[20]:
圖1 農(nóng)產(chǎn)品在線評(píng)論情感分析結(jié)構(gòu)Fig.1 Emotional analysis structure of online agricultural product reviews
(1)評(píng)論m包含的特征詞數(shù)量Nm服從泊松分布,及Nm~泊松(ξ)。
(2) 對(duì) 于 評(píng) 論m生 成 主 題 分 布 ,其 中m∈{1, 2, …,M}, 即θm~Dirichlet(α),其中M表示數(shù)據(jù)集評(píng)論的總數(shù)量,θm表示第m個(gè)評(píng)論的主題概率分布,α 為每個(gè)評(píng)論下主題的多項(xiàng)分布的Dirichlet先驗(yàn)參數(shù)。
(3)對(duì)于主題n生成特征詞分布,其中z∈{1,2,…,K},φk~Dirichlet(β),K為總的主題數(shù),β為每個(gè)主題下的詞多項(xiàng)分布的Dirichlet 先驗(yàn)參數(shù)。
(4)評(píng)論m中的特征詞wm,n(n∈{1,2,…,Nm})的生成過程,Nm為第m個(gè)主題包含的特征詞①根據(jù)主題分 布θm生 成 評(píng) 論wm,n的 特 征 詞 主 題 ,即zm,n~Multinomial(θm),zm,n表 示 的 是 第m個(gè) 評(píng) 論 的 第n個(gè) 詞 的 主題。②根據(jù)詞項(xiàng)分布φzm,n生成所選詞主題詞項(xiàng),即wm,n~Multinomial(φzm,n)。
1.2.2 吉布斯抽樣
LDA 模型中變量的聯(lián)合分布較難理解,對(duì)計(jì)算隱含變量概率分布難度很大,常見的抽樣方法有接受-拒絕抽樣、重要性抽樣、吉布斯抽樣。吉布斯抽樣是應(yīng)用于馬爾科夫蒙特卡洛(MCCM)的一種算法,通常用來分析隨機(jī)樣本的多變量概率分布,由于其在混亂度和運(yùn)行速度等方面優(yōu)于接受-拒絕抽樣和重要性抽樣,且易于實(shí)現(xiàn)和推廣應(yīng)用,因此本文采用吉布斯抽樣來實(shí)現(xiàn)對(duì)LDA 主題模型進(jìn)行主題抽取,主要的抽取過程如下:
(1)計(jì)算主題-特征詞的概率分布
圖2 LDA 模型的生成過程Fig.2 LDA model generation process
(2)根據(jù)貝葉斯公式和Dirichlet 先驗(yàn)分布,計(jì)算Dirichlet 分布期望
式中:θm,k表示數(shù)據(jù)m中主題k的概率,φk,t表示主題k中特征詞t的概率,nm,(k)表示評(píng)論m中主題k的特征詞匯,nk,(t)表示的是特征詞t在主題k中出現(xiàn)的次數(shù)。
(3)通過吉布斯抽樣得到概率分布
式中:n(k)mε表示數(shù)據(jù)m中沒有分配到主題k的特征詞個(gè)數(shù),n(t)kε表示特征詞沒有分配給主題詞k的次數(shù)。
對(duì)于文本數(shù)據(jù)集來說,LDA 模型的主題挖掘過程就是通過文檔主題概率分布θ和文檔對(duì)應(yīng)的主題向量z,求出式(4)中的最大超參數(shù)α和β的值。在LDA 主題模型中,所有文檔以及文本的特征詞都是可見變量,但是文本的主題是不可見變量,所以通過已有的數(shù)據(jù)和文本生成規(guī)則,LDA 主題模型可以實(shí)現(xiàn)參數(shù)估計(jì),分析出文本中不可見主題,有助于進(jìn)一步分析文本內(nèi)容[21]。
1.2.3 確定主題數(shù)
在文本預(yù)處理后獲取文本評(píng)論,使用LDA 主題模型對(duì)其建模,通過吉布斯抽樣確定LDA 模型參數(shù)。雖然構(gòu)建好了LDA 模型,但文本的主題數(shù)無法由模型直接確定,而主題數(shù)對(duì)抽取主題分布影響較大。當(dāng)主題數(shù)過大時(shí),會(huì)產(chǎn)生很多不具明顯分類語義信息的主題;當(dāng)主題數(shù)量過少時(shí),會(huì)產(chǎn)生比較粗粒度的主題,這樣對(duì)分類影響也很大[22]。因此,如何科學(xué)地確定主題數(shù)量非常重要。本文采用混亂度(Perplexity)來確定最優(yōu)主題數(shù)量值。
混亂度在對(duì)文檔建模過程中特別有用,它關(guān)于測(cè)試文檔概率單調(diào)遞減,在代數(shù)上等價(jià)于所有詞概率的幾何平均值倒數(shù)。其實(shí),混亂度可以理解為對(duì)于一篇文章d,所訓(xùn)練出來的模型對(duì)文檔屬于哪個(gè)主題有很多的不確定,混亂度就可以用來描述這個(gè)不確定的程度?;靵y度越小,說明聚類的效果越好。計(jì)算公式為
式中:D 為需要測(cè)試的文檔集,wd為文本d 詞匯序列,Nd為文檔d 的詞匯數(shù)量,P(wd)為文檔中產(chǎn)生wd的概率。
情感分類主要是通過自動(dòng)分析某種商品評(píng)論的文本內(nèi)容,將其分為正面情感、負(fù)面情感和中性情感這3 類。常用情感詞語又稱極性詞、評(píng)價(jià)詞,特指帶有情感傾向性的詞語。顯然,情感詞語在情感文本中處于舉足輕重的地位,情感詞語的抽取和極性判斷在情感分析創(chuàng)建開始的時(shí)候就引起了極大的興致[23]。
目前,常用的公共情感詞典有知網(wǎng)(HowNet)發(fā)布的情感詞典、臺(tái)灣大學(xué)自然語言處理實(shí)驗(yàn)室提供的中文情感詞典(National Taiwan University sentiment dictionary,NTUSD)以及清華大學(xué)提供的褒貶義詞典。本文的情感詞典構(gòu)建如圖3 所示,具體步驟如下:
(1)選用爬取到的評(píng)論數(shù)據(jù)作為數(shù)據(jù)集,對(duì)原始評(píng)論數(shù)據(jù)進(jìn)行結(jié)巴分詞以及去停用詞。(2)將預(yù)處理后的評(píng)論數(shù)據(jù)進(jìn)行篩選,按詞性對(duì)數(shù)據(jù)進(jìn)行篩選。
(3)按詞性不同對(duì)HowNet、NTUSD 和中文褒貶義詞典進(jìn)行篩選。
(4)因?yàn)橹形恼Z法的復(fù)雜性,除了基本情感詞典外,還需要標(biāo)點(diǎn)符號(hào)詞典、連接詞詞典、短語詞典等,本文根據(jù)知網(wǎng)情感詞典整理出這3 個(gè)詞典。
(5)按詞性的類別合并去重,并且人工對(duì)其進(jìn)行打分,得到本文構(gòu)建的情感詞典,分別如下:副詞詞典、連接詞詞典、否定詞詞典、短語詞典、消極詞匯詞典、積極詞匯詞典和標(biāo)點(diǎn)符號(hào)詞典。
圖3 農(nóng)產(chǎn)品在線評(píng)論情感詞典構(gòu)建Fig.3 Build an emotional dictionary for online reviews of agricultural products
1.4.1 直覺模糊數(shù)的計(jì)算
直覺模糊集理論是處理模糊性和猶豫的有用工具,直覺模糊可以同時(shí)反映支持、猶豫和反對(duì)程度[24]。基于直覺模糊理論,關(guān)鍵字搜索之后的商品在線評(píng)論的情感分析可以通過直覺模糊數(shù)簡(jiǎn)單而完整地表示。
qposij表示商品Ai的特征j 評(píng)論中積極情感評(píng)論數(shù)(kposij)的占比,也稱為積極評(píng)論占比,同理可計(jì)算得消極評(píng)論占比(qnegij)、中性評(píng)論占比(qneuij)。表達(dá)式為
因此,根據(jù)直覺模糊數(shù)的解釋,一個(gè)直覺模糊Yij=[qposij,qnegij]可被構(gòu)造用于關(guān)鍵字搜索后商品Ai的特征fj的性能。
1.4.2 TOPSIS 模型
TOPSIS 方法避免了數(shù)據(jù)的人為主觀性,不需要目標(biāo)函數(shù),能夠很好地刻畫多個(gè)影響指標(biāo)的綜合影響力度。同時(shí)對(duì)于數(shù)據(jù)分布及樣本量沒有嚴(yán)格的要求,既適用于小樣本數(shù)據(jù),也適用于多評(píng)價(jià)單元、多指標(biāo)的大樣本數(shù)據(jù),適用性較強(qiáng)。該方法基本思想如下:在確定各個(gè)屬性指標(biāo)權(quán)重的基礎(chǔ)上,歸一化原始數(shù)據(jù)矩陣,分別計(jì)算關(guān)鍵字搜索后商品與最優(yōu)方案和最劣方案間的距離,獲得各商品與最優(yōu)方案的相對(duì)接近程度,作為評(píng)價(jià)商品優(yōu)劣的依據(jù)。具體算法步驟如下:
(1)根據(jù)關(guān)鍵字搜索之后商品的整體模糊數(shù)構(gòu)造矩陣決策矩陣A=(aij)n*m,其中aij=Aij,表示關(guān)鍵字搜索之后商品Ai的特征fj的直覺模糊數(shù),n 為關(guān)鍵字搜索之后的商品個(gè)數(shù),m 為商品的特征數(shù)。
(2)為了消除不同屬性之間的量綱效應(yīng),使每個(gè)屬性特征都具有同等的表現(xiàn)力,首先對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
(3)構(gòu)成加權(quán)規(guī)范化矩陣
通過LDA 模型的構(gòu)建,得到評(píng)論-屬性的分布情況,統(tǒng)計(jì)評(píng)論的主題歸屬情況,用屬性出現(xiàn)的次數(shù)來計(jì)算各個(gè)主題的權(quán)重W=(w1,w2,…,wm)T。
式中:nj(d)為第j 個(gè)屬性在商品評(píng)論中出現(xiàn)的次數(shù),屬性的權(quán)重由該屬性出現(xiàn)的次數(shù)和所有屬性出現(xiàn)的次數(shù)之和的比重計(jì)算而得到[25]。
(4)確定正理想解C+和負(fù)理想解C-。正理想解是每個(gè)屬性評(píng)價(jià)值最好時(shí)的取值,負(fù)理想解是每個(gè)屬性最差時(shí)的取值。設(shè)正理想解C+的第j 個(gè)屬性值為c+j,負(fù)理想解C-第j 個(gè)屬性值為cj。
(5)計(jì)算各方案到正理想解C+和負(fù)理想解C-的距離。關(guān)鍵字搜索之后的商品Ai到正理想解的距離為S+i的計(jì)算公式如式(11)所示,同理可以求得S-i。
(6)計(jì)算每個(gè)商品與正理想解的相對(duì)貼近度(綜合評(píng)價(jià)值)。商品Ai(i=1,2,…,n)與正理想解C+的相對(duì)貼近度定義為
顯然,Ci∈[0,1],且Ci越大,則商品Ai越優(yōu)。
(7)確定商品的優(yōu)劣排序。綜合評(píng)價(jià)值表示各種商品與正理想解、負(fù)理想解的距離進(jìn)行比較,靠正理想解越近、離負(fù)理想解越遠(yuǎn)的備選方案的綜合評(píng)價(jià)值就越大??梢园凑站C合評(píng)價(jià)值從大到小的商品優(yōu)劣排序,確定其最優(yōu)商品。
本文選取天貓商城作為分析數(shù)據(jù)的來源,關(guān)鍵詞設(shè)置為西湖龍井,按商品銷售量從高到低進(jìn)行排序,選取排名前200 的商品作為分析對(duì)象,通過八爪魚軟件爬取商品評(píng)論數(shù)據(jù)。天貓商城是一個(gè)評(píng)論自由性較強(qiáng)的平臺(tái),消費(fèi)者評(píng)論商品信息比較隨意,因此獲取的數(shù)據(jù)中存在很多需要剔除的垃圾評(píng)論,例如“哈哈哈哈哈哈”“666”等,經(jīng)過去除垃圾評(píng)論之后一共得到110 824 條評(píng)論數(shù)據(jù),將這些在線評(píng)論作為本文實(shí)驗(yàn)的數(shù)據(jù)內(nèi)容。
然后,對(duì)評(píng)論進(jìn)行數(shù)據(jù)預(yù)處理。具體過程為:用Python 中的Jieba 分詞軟件包對(duì)評(píng)論數(shù)據(jù)進(jìn)行分詞處理;收集四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫、哈工大停用詞庫、百度停用詞列表以及中英文停用詞表,合并去重后作為本文實(shí)驗(yàn)的停用詞表,經(jīng)過Python 編程對(duì)商品評(píng)論去除停用詞。
最后,篩選評(píng)論中的詞匯,根據(jù)情感詞性進(jìn)行打分,構(gòu)成情感詞典,手動(dòng)檢查詞典的正確性,并根據(jù)商品的特性對(duì)情感詞典進(jìn)行補(bǔ)充。
2.2.1 最優(yōu)主題數(shù)目的確定
使用主題模型建模的過程中,主題數(shù)量的最優(yōu)值采用混亂度來確定,采用Gibbs 抽樣,抽樣迭代參數(shù)值設(shè)為3 000。通過設(shè)置不同的主題數(shù)量對(duì)混亂度指標(biāo)進(jìn)行分析,獲取最小混亂度的最優(yōu)主題數(shù)目,具體結(jié)果如圖4 所示。從圖4 可以看出,當(dāng)主題數(shù)目設(shè)置為20 時(shí),訓(xùn)練得到的LDA 主題模型的混亂度最低,之后混亂度逐漸增長(zhǎng)。因此,本文最優(yōu)的主題數(shù)目為20。
2.2.2 基于LDA 模型的主題挖掘
基于Python 語言的機(jī)器學(xué)習(xí)包gensim 對(duì)評(píng)論數(shù)據(jù)進(jìn)行LDA 主題建模,本文得到20 個(gè)主題及其分布情況。為了展示建模效果,這里只展示其4 個(gè)主題,每個(gè)主題的前10 個(gè)詞匯的分布情況,如表1 所示。
圖4 LDA 主題模型混亂度隨主題數(shù)值變化趨勢(shì)Fig.4 Disorder degree of LDA topic model changes with the trend of topic value
LDA 主題挖掘可以按照語義劃分,得到語義相關(guān)詞表達(dá)的若干個(gè)隱含主題。例如,Topic 0 的詞匯集合描述了主題“茶香”,Topic 1 的詞匯集合描述了主題“性價(jià)比”,Topic 2 的詞匯集合描述了主題“劃算”,Topic 3 詞匯集合描述了主題“價(jià)位”,同理可得其余16 個(gè)主題的挖掘結(jié)果描述的具體主題,如“服務(wù)、分量、促銷、外包裝、優(yōu)惠、正宗、信賴、茶葉外觀、滿意、被推薦、品牌、顏色、圖片、評(píng)論、上檔次、完整”,詳細(xì)見表2。
表1 主題挖掘結(jié)果Table 1 Topic mining results
表2 主題權(quán)重Table 2 Theme weight
2.3.1 屬性權(quán)重的確定
根據(jù)LDA 主題模型得到的評(píng)論數(shù)據(jù)集中評(píng)論-主題概率,根據(jù)公式(9)得到20 個(gè)主題的權(quán)重,從表2 中可以看出主題4(服務(wù))的權(quán)重最大,權(quán)重為0.130,可以看出消費(fèi)者在挑選茶葉時(shí)最關(guān)注的是商家的服務(wù);主題13(被推薦)的權(quán)重最小,權(quán)重為0,可以看出消費(fèi)者在挑選茶葉時(shí)受別人推薦的影響最小。同時(shí)可以分別計(jì)算200 種商品各自的評(píng)論-主題-權(quán)重分布,分析每種商品的具體情況,為調(diào)整商品特征結(jié)構(gòu)提供參考信息。
2.3.2 直覺模糊決策矩陣
根據(jù)式(6)計(jì)算可得200 個(gè)農(nóng)產(chǎn)品的直覺模糊數(shù)組成的TOPSIS 決策矩陣。這里只展示銷售量前6名的商品的前10 個(gè)主題決策矩陣,如表3 所示。從表3 中可以看出,各個(gè)商品-主題-情感傾向分布,例如,商品1 中主題0(茶香)的直覺模糊矩陣[0.828,0.046],其中0.828 表示的是商品1 評(píng)論中屬于主題0(茶香)的積極評(píng)論占比,0.046 表示的是商品1 評(píng)論中屬于主題0(茶香)的消極評(píng)論占比。由此可見,商品1 主題0 中的積極評(píng)論數(shù)量要遠(yuǎn)遠(yuǎn)多于消極評(píng)論數(shù)量,商品1 的茶香這一商品特質(zhì)符合了絕大部分購(gòu)買此商品的消費(fèi)者需求(如果有需要,筆者可以提供全部的數(shù)據(jù))。
表3 直覺模糊矩陣Table 3 Intuitionistic fuzzy matrix
2.3.3 加權(quán)規(guī)范矩陣
根據(jù)式(7)將農(nóng)產(chǎn)品的整體模糊數(shù)構(gòu)造決策矩陣進(jìn)行標(biāo)準(zhǔn)化處理,結(jié)合特征權(quán)重,計(jì)算加權(quán)規(guī)范矩陣,部分商品的加權(quán)規(guī)范矩陣如表4 所示。
表4 加權(quán)規(guī)范矩陣Table 4 Weighted gauge matrix
2.3.4 基于TOPSIS 的商品綜合評(píng)價(jià)值
根據(jù)式(11)、(12)和(13),本文計(jì)算每種農(nóng)產(chǎn)品在線評(píng)論情感傾向的正、負(fù)理解,以及每種農(nóng)產(chǎn)品在線評(píng)論的情感綜合評(píng)價(jià)值,本文選取了部分農(nóng)產(chǎn)品的綜合評(píng)價(jià)值,繪制了在線評(píng)論情感綜合評(píng)價(jià)值表,具體見表5 所示。從表5 中可以看出,200 種商品的綜合評(píng)價(jià)值最大的是第88 種商品,綜合評(píng)價(jià)值為0.614;綜合評(píng)價(jià)值最小的商品有多個(gè),綜合評(píng)價(jià)值為0。
表5 在線評(píng)論情感綜合評(píng)價(jià)值Table 5 Online comments on the value ofcomprehensive emotional assessment
為了更直觀地觀測(cè)每種農(nóng)產(chǎn)品在線評(píng)論情感綜合評(píng)價(jià)值情況,本文繪制了200 種農(nóng)產(chǎn)品在線評(píng)論情感綜合評(píng)價(jià)值折線圖,具體如圖5 所示。從圖5 中可以看出,200 種農(nóng)產(chǎn)品的綜合評(píng)價(jià)值呈現(xiàn)無規(guī)律的波動(dòng)。對(duì)200 種農(nóng)產(chǎn)品在線評(píng)論情感綜合評(píng)價(jià)指數(shù)計(jì)算可得綜合評(píng)價(jià)指數(shù)平均值為0.097,200 種農(nóng)產(chǎn)品中有76 種農(nóng)產(chǎn)品的綜合評(píng)價(jià)指數(shù)超過了平均值,銷售量前50 的農(nóng)產(chǎn)品中只有9 種農(nóng)產(chǎn)品的綜合評(píng)價(jià)指數(shù)超過了平均值,由此可見,農(nóng)產(chǎn)品的銷售量并不是影響綜合評(píng)價(jià)指數(shù)的主要因素。
圖5 農(nóng)產(chǎn)品在線評(píng)論情感綜合評(píng)價(jià)指數(shù)趨勢(shì)Fig.5 Agricultural products online review Sentiment comprehensive evaluation index trend
2.3.5 有效性分析
為驗(yàn)證基于LDA 主題模型和直覺模糊TOPSIS 的農(nóng)產(chǎn)品在線評(píng)論情感分析方法的有效性,本文采用綜合評(píng)價(jià)值與其他變量的相關(guān)性來驗(yàn)證,具體的指標(biāo)包括綜合評(píng)價(jià)值、月銷量、積極情感值,其中積極情感值是指某農(nóng)產(chǎn)品積極情感傾向的產(chǎn)品評(píng)論在該農(nóng)產(chǎn)品全部文本評(píng)論中出現(xiàn)的比例,積極情感值越大,情感傾向越強(qiáng)。變量分析具體結(jié)果如表6 所示。從表6 可以看出,在0.001 水平上,綜合評(píng)價(jià)值與店鋪銷量、積極情感值呈現(xiàn)顯著的正相關(guān)性,說明本文的綜合評(píng)價(jià)值具有合理性,評(píng)價(jià)方法是有效的。
表6 變量相關(guān)分析結(jié)果Table 6 Results of variable correlation analysis
本文提出了一種根據(jù)在線評(píng)論對(duì)商品進(jìn)行排序的方法。該方法通過計(jì)算屬性出現(xiàn)的次數(shù)計(jì)算權(quán)重,避免人為給定權(quán)重的主觀性和不確定性;充分考慮到評(píng)論的聚類效果,利用混亂度來確定最佳主題數(shù)目。除此之外,本文還考慮了消費(fèi)者對(duì)不同商品的多種情感,利用直覺模糊數(shù)全面反映消費(fèi)者的情感傾向,更符合消費(fèi)者的實(shí)際購(gòu)買情況。實(shí)驗(yàn)結(jié)果表明,本文提出的方法得到的綜合評(píng)價(jià)值與月銷售量、積極情感值呈顯著的正相關(guān)性,這說明了該分析方法具有合理性,評(píng)價(jià)方法是有效的。在實(shí)驗(yàn)過程中發(fā)現(xiàn),通過情感詞典的方法來判斷農(nóng)產(chǎn)品在線評(píng)論的情感傾向,這一方法十分依賴人工構(gòu)造的情感詞典,存在一定的主觀性。所以,客觀評(píng)價(jià)在線評(píng)論的情感傾向成為下一步工作的重點(diǎn)。
總的來說,本文結(jié)合LDA 主題模型和直覺模糊TOPSIS 理論,提出了一種農(nóng)產(chǎn)品在線評(píng)論情感分析方法。本文提出的情感分析方法具有合理性和實(shí)際應(yīng)用價(jià)值,可以幫助商家了解消費(fèi)者的購(gòu)物需求,及時(shí)調(diào)整產(chǎn)品結(jié)構(gòu),同時(shí)也為消費(fèi)者挑選商品提供參考建議,為當(dāng)今分析商品信息提供了一種新的思路。