用戶評(píng)論與產(chǎn)品銷售量的相關(guān)性研究

2020-11-16 22:34:47李躍武梁凱

電力與能源系統(tǒng)學(xué)報(bào)·下旬刊 2020年4期

李躍武梁凱

摘要：通過LSTM模型和Word2Vec對(duì)數(shù)據(jù)進(jìn)行預(yù)處理以及量化評(píng)論，可以獲得客戶對(duì)產(chǎn)品偏愛程度的相關(guān)信息。建立了視覺監(jiān)控模型來及時(shí)監(jiān)視客戶的評(píng)論，通過聚類分析，來確定產(chǎn)品的評(píng)分預(yù)警點(diǎn)。研究結(jié)果發(fā)現(xiàn)：對(duì)于微波爐產(chǎn)品，評(píng)分、評(píng)論和幫助等級(jí)與產(chǎn)品評(píng)論數(shù)量有很大的相關(guān)性。對(duì)于吹風(fēng)機(jī)、嬰兒奶嘴、微波爐的評(píng)分預(yù)警點(diǎn)分別為1、2、2。

關(guān)鍵詞：LTSM;線性回歸;SPSS;聚類分析

文本的情感傾向性分析，即針對(duì)每一條文本，實(shí)現(xiàn)正向、中性和負(fù)向的三分類，以識(shí)別其情感傾向。以此為基礎(chǔ)，去建立視覺監(jiān)控模型，處理評(píng)分評(píng)定和評(píng)論文字情感傾向性問題。通過分析之前的數(shù)據(jù)來檢測(cè)數(shù)據(jù)預(yù)警點(diǎn)。

1 基于LSTM模型的數(shù)據(jù)處理

1.1 數(shù)據(jù)處理流程

首先，歸納具有相同product_parent類型的案例，即具有相同product_parent特征的案例總數(shù)，獲取CNT_PP作為因變量。然后，使用LSTM長(zhǎng)期和短期存儲(chǔ)網(wǎng)絡(luò)處理獨(dú)立變量審閱標(biāo)題和審閱主體中的現(xiàn)有文本。利用LSTM模型，訓(xùn)練了一個(gè)文本分類器，它可以識(shí)別三種情緒：積極，中立和消極。

具體流程如下：

（1）進(jìn)行句子的特征提取。利用多維向量解決單詞的多向散度。為了解決高維向量的變化范圍，使用word2vec模型來擬合實(shí)際文本評(píng)估。

（2）完成單詞分類并轉(zhuǎn)換為高維向量后，通過建立遞歸神經(jīng)網(wǎng)絡(luò)，將矩陣形式的輸入編碼轉(zhuǎn)換為低維一維向量，同時(shí)保留最有用的信息。

（3）經(jīng)過上述處理后，評(píng)論文本被重新定義為否定/肯定評(píng)論，并對(duì)處理后的注釋進(jìn)行情感評(píng)分。（負(fù)分+正分=1），得分示例表1所示。

（4）對(duì)三種產(chǎn)品的評(píng)估得分進(jìn)行分級(jí)（[0，0.2]，（0.2，0.4]，（0.4，0.6]，（0.6，0.8]，（0.8，1.0）），并計(jì)算頻率。

1.2 數(shù)據(jù)處理分析

對(duì)自變量進(jìn)行分類，計(jì)算平均值并將其視為一個(gè)。

首先，將position_probs的值分為五個(gè)級(jí)別，每個(gè)級(jí)別的間隔為0.2。數(shù)字越大，position_probs的值越高。幫助等級(jí)的價(jià)值分為五個(gè)等級(jí)，每等級(jí)間隔為100，分別用數(shù)字表示。數(shù)值越大，幫助等級(jí)的數(shù)值越大。

接下來，計(jì)算上述處理后的每個(gè)product_parent的評(píng)分評(píng)分，有用票數(shù)和positive_probs的平均值，并將其標(biāo)準(zhǔn)化。

2 線性回歸模型的建立和求解

2.1 模型建立

本次線性回歸模型僅以微波爐產(chǎn)品為例，來分析產(chǎn)品的評(píng)分，評(píng)論和有用評(píng)分與產(chǎn)品受歡迎程度之間的相關(guān)性，使用線性回歸模型解決了該問題。首先，建立線性回歸方程：

2.2 模型求解

根據(jù)分析，R值大于90%，R平方和經(jīng)調(diào)整后大于80%。在此分析中，D-W殘留測(cè)試的值為2.212。參考Durbin Watson表并結(jié)合R的相關(guān)值，可以認(rèn)為該回歸模型的擬合效果非常好。通過分析，可以看出方差分析的顯著值為0.00，小于標(biāo)準(zhǔn)值0.05，說明自變量Star_avg_01，positive_avg_01，Helpful_avg_01和因變量Cnt_pp之間具有顯著的線性關(guān)系。同時(shí)，我們得到線性回歸方程中的相關(guān)系數(shù)，α=1.807，β=-23.164，γ=337.313，θ=26.346。

通過分析，殘差的分布沒有明顯的規(guī)律性，表明變量之間沒有自相關(guān)，因此可以直接使用回歸模型。從以上分析可以看出，對(duì)于微波爐產(chǎn)品，評(píng)分，評(píng)論和幫助等級(jí)與產(chǎn)品評(píng)論數(shù)量有很大的相關(guān)性。

3 檢測(cè)模型的建立與求解

3.1 模型準(zhǔn)備

（1）數(shù)據(jù)處理

在評(píng)價(jià)文本分析的過程中，情感分析和量化也是基于LSTM模型而進(jìn)行的，這里不再贅述。獲得每個(gè)評(píng)估的情感分?jǐn)?shù)后，將其記錄為正值。

（2）模型的基礎(chǔ)

我們的可視化模型側(cè)重于評(píng)分和評(píng)論文字情感傾向性的數(shù)據(jù)測(cè)量。通過對(duì)先前數(shù)據(jù)的分析，我們可以得到數(shù)據(jù)預(yù)警點(diǎn)進(jìn)行預(yù)警。我們的預(yù)警點(diǎn)是確定閾。當(dāng)測(cè)得的數(shù)據(jù)低于預(yù)警點(diǎn)時(shí)，公司應(yīng)注意持續(xù)關(guān)注，并采取一定措施，避免輿論失控等嚴(yán)重事故對(duì)產(chǎn)品銷售的不利影響。

接下來，我們將為三種產(chǎn)品（吹風(fēng)機(jī)，微波爐和奶嘴）建立數(shù)據(jù)測(cè)量方法和相應(yīng)的警告點(diǎn)。

3.2 模型建立

假設(shè)每個(gè)評(píng)論分布在接下來的十個(gè)評(píng)論中。換句話說，假設(shè)s評(píng)論的有效性僅在S+1到S+10評(píng)論中起作用。為了便于數(shù)據(jù)處理，最后的十個(gè)評(píng)論首先被刪除，然后進(jìn)行預(yù)測(cè)。

（1）評(píng)分預(yù)警點(diǎn)的建立

為了確定預(yù)警點(diǎn)，首先選擇每個(gè)評(píng)論文本的評(píng)分（記錄為評(píng)分）和此文本之后的10個(gè)評(píng)分的平均值（記錄為影響評(píng)分），然后對(duì)這些數(shù)據(jù)進(jìn)行無監(jiān)督的聚類處理。

完成上述步驟后，我們將使用它們的真實(shí)數(shù)據(jù)對(duì)三個(gè)產(chǎn)品進(jìn)行建模，并獲得數(shù)據(jù)的聚類結(jié)果。

將十個(gè)評(píng)論之后的每個(gè)評(píng)論平均值的評(píng)分評(píng)定值導(dǎo)入SPSS中，以進(jìn)行KNN無監(jiān)督聚類分析。分析之后，可獲得以下兩個(gè)聚類中心：（5，4.1）和（2，3.8）。將這個(gè)聚類結(jié)果與日常生活相聯(lián)系，可以將2和5作為警告點(diǎn)，分別表示評(píng)分的低級(jí)警告點(diǎn)和評(píng)分的高級(jí)警告點(diǎn)。對(duì)于微波爐來說，通過相同的分析步驟以及在相同的聚類分析操作之后，兩個(gè)聚類中心分別為（4，3.7）和（1，3.3）。將兩個(gè)值分別作為高級(jí)別警告點(diǎn)和低級(jí)別警告點(diǎn)。對(duì)于嬰兒奶嘴來說，兩個(gè)聚類中心分別為（4.8，4.3）和（2.0，4.3）。將兩個(gè)值分別作為高級(jí)別警告點(diǎn)和低級(jí)別警告點(diǎn)。

（2）文本評(píng)論預(yù)警點(diǎn)的建立

為了確定預(yù)警點(diǎn)，在此選擇了每個(gè)文本注釋的情感極值（記錄為評(píng)分）和此文本后的10個(gè)評(píng)分情感極值的平均值（記錄為影響等級(jí)），并選擇了這些數(shù)據(jù)由無監(jiān)督的群集處理。

因此，評(píng)論通常具有三個(gè)區(qū)別：正面，負(fù)面和中立。因此，在處理該實(shí)驗(yàn)時(shí)，我們選擇將實(shí)驗(yàn)數(shù)據(jù)匯總為三類。

在KNN無監(jiān)督聚類分析之后，吹風(fēng)機(jī)的相關(guān)數(shù)據(jù)可以獲得三個(gè)聚類中心：（0.93，0.83）（0.66，0.77）（0.35，0.55）。在這里，將0.93和0.35視為高警告點(diǎn)和低警告點(diǎn)。對(duì)于微波爐，我們采用相同的分析方法，在KNN無監(jiān)督聚類分析之后，可以獲得三個(gè)聚類中心，分別為（0.91，0.83）（0.58，0.73）（0.00，0.002）。在此，將0.91和0.00分別視為高警告點(diǎn)和低警告點(diǎn)。對(duì)于嬰兒奶嘴，三個(gè)聚類中心分別為（0.93，0.88）（0.66，0.76）（0.38，0.72）。在這里，將0.93和0.38視為高警告點(diǎn)和低警告點(diǎn)。

3.3 建模結(jié)果

通過聚類分析模型對(duì)上述數(shù)據(jù)進(jìn)行處理后，可以建立基于評(píng)分和輿論分析的實(shí)時(shí)檢測(cè)模型。

實(shí)時(shí)監(jiān)控模型的機(jī)制是檢測(cè)評(píng)分和情緒極性的當(dāng)前趨勢(shì)，并以視覺形式顯示出來，以便及時(shí)監(jiān)控購物評(píng)價(jià)，實(shí)現(xiàn)評(píng)論文本的高頻有效詞匯云顯示。在視覺檢測(cè)系統(tǒng)中，我們使用正面和負(fù)面的詞云來顯示評(píng)論文本，并檢測(cè)負(fù)面/正面/中性評(píng)論的數(shù)量和輿論的總體變化趨勢(shì)，實(shí)時(shí)銷售和其他參數(shù)作為數(shù)據(jù)測(cè)量手段，向制造商提供信息。圖1是一個(gè)示例（以吹風(fēng)機(jī)的銷售為例，并假設(shè)時(shí)間是最后一次售出吹風(fēng)機(jī)）。

4 總結(jié)

本文通過LSTM模型實(shí)現(xiàn)了用戶評(píng)價(jià)文本的三種分類和量化，并以此為基礎(chǔ)，建立了關(guān)于評(píng)分、評(píng)論和有用評(píng)分與產(chǎn)品受歡迎程度之間的線性回歸模型，證明了產(chǎn)品的銷量與其評(píng)分、評(píng)論和有用評(píng)分有很強(qiáng)的相關(guān)性。

在量化評(píng)論的基礎(chǔ)上，本文提出了可視化檢測(cè)模型，通過聚類分析，求得了三種產(chǎn)品的預(yù)警點(diǎn);通過對(duì)吹風(fēng)機(jī)的模擬來看，也取得了很好的效果。

參考文獻(xiàn)：

[1] 王坤亮. 漢語情感傾向自動(dòng)分類方法的研究[J]. 軟件， 2013， 34（11）： 73-76.

[2] 姚天昉，程希文，徐飛玉，等. 文本意見挖掘綜述[J]. 中文信息學(xué)報(bào)， 2008， 22（3）： 71-80.

作者簡(jiǎn)介：李躍武（1999-10），漢，男，山東聊城，本科在讀，研究方向：用戶評(píng)論與產(chǎn)品銷售量的相關(guān)性研究。