李躍武 梁凱
摘要:通過LSTM模型和Word2Vec對(duì)數(shù)據(jù)進(jìn)行預(yù)處理以及量化評(píng)論,可以獲得客戶對(duì)產(chǎn)品偏愛程度的相關(guān)信息。建立了視覺監(jiān)控模型來及時(shí)監(jiān)視客戶的評(píng)論,通過聚類分析,來確定產(chǎn)品的評(píng)分預(yù)警點(diǎn)。研究結(jié)果發(fā)現(xiàn):對(duì)于微波爐產(chǎn)品,評(píng)分、評(píng)論和幫助等級(jí)與產(chǎn)品評(píng)論數(shù)量有很大的相關(guān)性。對(duì)于吹風(fēng)機(jī)、嬰兒奶嘴、微波爐的評(píng)分預(yù)警點(diǎn)分別為1、2、2。
關(guān)鍵詞:LTSM;線性回歸;SPSS;聚類分析
文本的情感傾向性分析,即針對(duì)每一條文本,實(shí)現(xiàn)正向、中性和負(fù)向的三分類,以識(shí)別其情感傾向。以此為基礎(chǔ),去建立視覺監(jiān)控模型,處理評(píng)分評(píng)定和評(píng)論文字情感傾向性問題。通過分析之前的數(shù)據(jù)來檢測(cè)數(shù)據(jù)預(yù)警點(diǎn)。
1 基于LSTM模型的數(shù)據(jù)處理
1.1 數(shù)據(jù)處理流程
首先,歸納具有相同product_parent類型的案例,即具有相同product_parent特征的案例總數(shù),獲取CNT_PP作為因變量。然后,使用LSTM長(zhǎng)期和短期存儲(chǔ)網(wǎng)絡(luò)處理獨(dú)立變量審閱標(biāo)題和審閱主體中的現(xiàn)有文本。利用LSTM模型,訓(xùn)練了一個(gè)文本分類器,它可以識(shí)別三種情緒:積極,中立和消極。
具體流程如下:
(1)進(jìn)行句子的特征提取。利用多維向量解決單詞的多向散度。為了解決高維向量的變化范圍,使用word2vec模型來擬合實(shí)際文本評(píng)估。
(2)完成單詞分類并轉(zhuǎn)換為高維向量后,通過建立遞歸神經(jīng)網(wǎng)絡(luò),將矩陣形式的輸入編碼轉(zhuǎn)換為低維一維向量,同時(shí)保留最有用的信息。
(3)經(jīng)過上述處理后,評(píng)論文本被重新定義為否定/肯定評(píng)論,并對(duì)處理后的注釋進(jìn)行情感評(píng)分。(負(fù)分+正分=1),得分示例表1所示。
(4)對(duì)三種產(chǎn)品的評(píng)估得分進(jìn)行分級(jí)([0,0.2],(0.2,0.4],(0.4,0.6],(0.6,0.8],(0.8,1.0)),并計(jì)算頻率。
1.2 數(shù)據(jù)處理分析
對(duì)自變量進(jìn)行分類,計(jì)算平均值并將其視為一個(gè)。
首先,將position_probs的值分為五個(gè)級(jí)別,每個(gè)級(jí)別的間隔為0.2。數(shù)字越大,position_probs的值越高。幫助等級(jí)的價(jià)值分為五個(gè)等級(jí),每等級(jí)間隔為100,分別用數(shù)字表示。數(shù)值越大,幫助等級(jí)的數(shù)值越大。
接下來,計(jì)算上述處理后的每個(gè)product_parent的評(píng)分評(píng)分,有用票數(shù)和positive_probs的平均值,并將其標(biāo)準(zhǔn)化。
2 線性回歸模型的建立和求解
2.1 模型建立
本次線性回歸模型僅以微波爐產(chǎn)品為例,來分析產(chǎn)品的評(píng)分,評(píng)論和有用評(píng)分與產(chǎn)品受歡迎程度之間的相關(guān)性,使用線性回歸模型解決了該問題。首先,建立線性回歸方程:
2.2 模型求解
根據(jù)分析,R值大于90%,R平方和經(jīng)調(diào)整后大于80%。在此分析中,D-W殘留測(cè)試的值為2.212。參考Durbin Watson表并結(jié)合R的相關(guān)值,可以認(rèn)為該回歸模型的擬合效果非常好。通過分析,可以看出方差分析的顯著值為0.00,小于標(biāo)準(zhǔn)值0.05,說明自變量Star_avg_01,positive_avg_01,Helpful_avg_01和因變量Cnt_pp之間具有顯著的線性關(guān)系。同時(shí),我們得到線性回歸方程中的相關(guān)系數(shù),α=1.807,β=-23.164,γ=337.313,θ=26.346。
通過分析,殘差的分布沒有明顯的規(guī)律性,表明變量之間沒有自相關(guān),因此可以直接使用回歸模型。從以上分析可以看出,對(duì)于微波爐產(chǎn)品,評(píng)分,評(píng)論和幫助等級(jí)與產(chǎn)品評(píng)論數(shù)量有很大的相關(guān)性。
3 檢測(cè)模型的建立與求解
3.1 模型準(zhǔn)備
(1)數(shù)據(jù)處理
在評(píng)價(jià)文本分析的過程中,情感分析和量化也是基于LSTM模型而進(jìn)行的,這里不再贅述。獲得每個(gè)評(píng)估的情感分?jǐn)?shù)后,將其記錄為正值。
(2)模型的基礎(chǔ)
我們的可視化模型側(cè)重于評(píng)分和評(píng)論文字情感傾向性的數(shù)據(jù)測(cè)量。通過對(duì)先前數(shù)據(jù)的分析,我們可以得到數(shù)據(jù)預(yù)警點(diǎn)進(jìn)行預(yù)警。我們的預(yù)警點(diǎn)是確定閾。當(dāng)測(cè)得的數(shù)據(jù)低于預(yù)警點(diǎn)時(shí),公司應(yīng)注意持續(xù)關(guān)注,并采取一定措施,避免輿論失控等嚴(yán)重事故對(duì)產(chǎn)品銷售的不利影響。
接下來,我們將為三種產(chǎn)品(吹風(fēng)機(jī),微波爐和奶嘴)建立數(shù)據(jù)測(cè)量方法和相應(yīng)的警告點(diǎn)。
3.2 模型建立
假設(shè)每個(gè)評(píng)論分布在接下來的十個(gè)評(píng)論中。換句話說,假設(shè)s評(píng)論的有效性僅在S+1到S+10評(píng)論中起作用。為了便于數(shù)據(jù)處理,最后的十個(gè)評(píng)論首先被刪除,然后進(jìn)行預(yù)測(cè)。
(1)評(píng)分預(yù)警點(diǎn)的建立
為了確定預(yù)警點(diǎn),首先選擇每個(gè)評(píng)論文本的評(píng)分(記錄為評(píng)分)和此文本之后的10個(gè)評(píng)分的平均值(記錄為影響評(píng)分),然后對(duì)這些數(shù)據(jù)進(jìn)行無監(jiān)督的聚類處理。
完成上述步驟后,我們將使用它們的真實(shí)數(shù)據(jù)對(duì)三個(gè)產(chǎn)品進(jìn)行建模,并獲得數(shù)據(jù)的聚類結(jié)果。
將十個(gè)評(píng)論之后的每個(gè)評(píng)論平均值的評(píng)分評(píng)定值導(dǎo)入SPSS中,以進(jìn)行KNN無監(jiān)督聚類分析。分析之后,可獲得以下兩個(gè)聚類中心:(5,4.1)和(2,3.8)。將這個(gè)聚類結(jié)果與日常生活相聯(lián)系,可以將2和5作為警告點(diǎn),分別表示評(píng)分的低級(jí)警告點(diǎn)和評(píng)分的高級(jí)警告點(diǎn)。對(duì)于微波爐來說,通過相同的分析步驟以及在相同的聚類分析操作之后,兩個(gè)聚類中心分別為(4,3.7)和(1,3.3)。將兩個(gè)值分別作為高級(jí)別警告點(diǎn)和低級(jí)別警告點(diǎn)。對(duì)于嬰兒奶嘴來說,兩個(gè)聚類中心分別為(4.8,4.3)和(2.0,4.3)。將兩個(gè)值分別作為高級(jí)別警告點(diǎn)和低級(jí)別警告點(diǎn)。
(2)文本評(píng)論預(yù)警點(diǎn)的建立
為了確定預(yù)警點(diǎn),在此選擇了每個(gè)文本注釋的情感極值(記錄為評(píng)分)和此文本后的10個(gè)評(píng)分情感極值的平均值(記錄為影響等級(jí)),并選擇了這些數(shù)據(jù)由無監(jiān)督的群集處理。
因此,評(píng)論通常具有三個(gè)區(qū)別:正面,負(fù)面和中立。因此,在處理該實(shí)驗(yàn)時(shí),我們選擇將實(shí)驗(yàn)數(shù)據(jù)匯總為三類。
在KNN無監(jiān)督聚類分析之后,吹風(fēng)機(jī)的相關(guān)數(shù)據(jù)可以獲得三個(gè)聚類中心:(0.93,0.83)(0.66,0.77)(0.35,0.55)。在這里,將0.93和0.35視為高警告點(diǎn)和低警告點(diǎn)。對(duì)于微波爐,我們采用相同的分析方法,在KNN無監(jiān)督聚類分析之后,可以獲得三個(gè)聚類中心,分別為(0.91,0.83)(0.58,0.73)(0.00,0.002)。在此,將0.91和0.00分別視為高警告點(diǎn)和低警告點(diǎn)。對(duì)于嬰兒奶嘴,三個(gè)聚類中心分別為(0.93,0.88)(0.66,0.76)(0.38,0.72)。在這里,將0.93和0.38視為高警告點(diǎn)和低警告點(diǎn)。
3.3 建模結(jié)果
通過聚類分析模型對(duì)上述數(shù)據(jù)進(jìn)行處理后,可以建立基于評(píng)分和輿論分析的實(shí)時(shí)檢測(cè)模型。
實(shí)時(shí)監(jiān)控模型的機(jī)制是檢測(cè)評(píng)分和情緒極性的當(dāng)前趨勢(shì),并以視覺形式顯示出來,以便及時(shí)監(jiān)控購物評(píng)價(jià),實(shí)現(xiàn)評(píng)論文本的高頻有效詞匯云顯示。在視覺檢測(cè)系統(tǒng)中,我們使用正面和負(fù)面的詞云來顯示評(píng)論文本,并檢測(cè)負(fù)面/正面/中性評(píng)論的數(shù)量和輿論的總體變化趨勢(shì),實(shí)時(shí)銷售和其他參數(shù)作為數(shù)據(jù)測(cè)量手段,向制造商提供信息。圖1是一個(gè)示例(以吹風(fēng)機(jī)的銷售為例,并假設(shè)時(shí)間是最后一次售出吹風(fēng)機(jī))。
4 總結(jié)
本文通過LSTM模型實(shí)現(xiàn)了用戶評(píng)價(jià)文本的三種分類和量化,并以此為基礎(chǔ),建立了關(guān)于評(píng)分、評(píng)論和有用評(píng)分與產(chǎn)品受歡迎程度之間的線性回歸模型,證明了產(chǎn)品的銷量與其評(píng)分、評(píng)論和有用評(píng)分有很強(qiáng)的相關(guān)性。
在量化評(píng)論的基礎(chǔ)上,本文提出了可視化檢測(cè)模型,通過聚類分析,求得了三種產(chǎn)品的預(yù)警點(diǎn);通過對(duì)吹風(fēng)機(jī)的模擬來看,也取得了很好的效果。
參考文獻(xiàn):
[1] 王坤亮. 漢語情感傾向自動(dòng)分類方法的研究[J]. 軟件, 2013, 34(11): 73-76.
[2] 姚天昉, 程希文, 徐飛玉, 等. 文本意見挖掘綜述[J]. 中文信息學(xué)報(bào), 2008, 22(3): 71-80.
作者簡(jiǎn)介:李躍武(1999-10),漢,男,山東聊城,本科在讀,研究方向:用戶評(píng)論與產(chǎn)品銷售量的相關(guān)性研究。