基于多特征模型融合的社交評論分析

2019-05-24 14:20:22郭瑞祥左彬靖杜成喜肖明王杰

無線互聯(lián)科技 2019年1期

郭瑞祥左彬靖杜成喜肖明王杰

摘要：隨著社交網(wǎng)絡(luò)的日益龐大，各類評論信息產(chǎn)生的渠道和數(shù)量也飛速增長，通過人工閱讀所有評論來了解口碑情況變得日益困難，所以構(gòu)建一個精準的口碑評論分值預(yù)測模型對商家和用戶來說都顯得日益重要。文章旨在對真實口碑評論數(shù)據(jù)進行分析挖掘和多維度特征提取，并構(gòu)建一個基于多特征的加權(quán)融合模型對口碑評論的評分值進行預(yù)測。通過實驗證明，在當前數(shù)據(jù)基礎(chǔ)上，該模型可以有效地對口碑評論進行預(yù)測，相比傳統(tǒng)方法，效果更好。

關(guān)鍵詞：口碑評論；特征提取；機器學習

隨著移動互聯(lián)網(wǎng)時代的到來，個人在社交媒體貢獻著大量的內(nèi)容，發(fā)表評論已經(jīng)成為個人表達個人情緒、消費評價、對事物的看法的一種主要方式，對商家發(fā)聲反饋的渠道越來越多，但是發(fā)聲的便利性跟渠道的多樣性也帶來了一些問題，商家完整全面聆聽客戶反饋的難度也增大了?！翱诒u論”是反映一個商家或景點受歡迎程度的很直接的參考意見，此類評價分散在各個媒體渠道中，想要了解商家的大眾口碑、服務(wù)質(zhì)量，需要逐條地去閱讀各類評價，因數(shù)據(jù)量巨大很難準確評估商家在大眾心里的印象和口碑。

為了解決上述問題，本文提出一種基于多特征的加權(quán)融合模型，針對DataFountain平臺提供的互聯(lián)網(wǎng)上用戶對景區(qū)評價以及口碑分值的數(shù)據(jù)集，進行統(tǒng)計特征，N-gram，TF-IDF，Word2Vec多維的特征提取，分別訓練Lightgbm，TextCNN，RidgeRegression模型，進行模型融合。本文選用1/1+RMSE作為評價標準，在該評價標準下，通過實驗比較各算法模型的效果，結(jié)果表明，本文提出的方案取得了很好的預(yù)測效果。

1 數(shù)據(jù)描述

本文的數(shù)據(jù)基于旅游評論數(shù)據(jù)，大多源于驢媽媽、攜程等第三方平臺爬取，能很好地反映旅游社交評論的情況。主要字段為用戶ID、用戶評價，標簽字段為用戶的評論分值，如表1所示[1]。

2 模型設(shè)計及其原理

2.1 模型整體結(jié)構(gòu)

基于數(shù)據(jù)情況對文本進行特征提取和模型的設(shè)計，在數(shù)據(jù)預(yù)處理及分詞去停詞后，主要提取了N-gram，TF-IDF，Word2Vec，情感值等統(tǒng)計特征。基模型的構(gòu)成為Word2Vec+TF-IDF+N-Gram+Stats-feature+LightGBM，TF-IDF+N-Gram+Ridge，Word2Vec+TextCNN。

模型結(jié)構(gòu)如圖1所示。

2.2 特征分析及算法原理

2.2.1 特征分析

（1）N-Gram。

N-Gram是自然語言處理中一個非常重要的語言模型，在文本特征處理的時候，通常一個關(guān)鍵詞作為一個特征。但是這在一些場景下是遠遠不夠的，我們需要進一步提取更多的特征，如考慮兩兩組合提取Bi-Gram特征，根據(jù)N-Gram語言模型，計算各個Bi-Gram組合的概率，作為新的特征。本文主要提取了Bi-Gram和Tri-Gram特征。

（2）TF-IDF。

用詞頻來衡量文章中的一個詞的重要性不夠全面，有時候重要的詞出現(xiàn)的不夠多。為了解決這個問題，詞頻—反轉(zhuǎn)文件頻率（Term Frequency–Inverse Document Frequency，TF-IDF）被提出來了。TF-IDF定義為詞頻（TF）乘以逆文檔頻率（IDF），能有效地反映出一個詞在文檔中的重要性，并且具有簡單快速易理解的特點。

（3）Word2Vec。

Word2Vec[2]是一種詞的向量化表示，把文字嵌入到一個數(shù)學空間里，是詞嵌入的一種，是語言模型的一種副產(chǎn)物。用來訓練Word2Vec的語言模型主要有兩種：Skip-gram和CBOW，用一個詞語作為輸入來預(yù)測它的上下文稱為Skip-Gram，由詞的上下文來預(yù)測詞的本身稱為CBOW。模型結(jié)構(gòu)均為單隱層的神經(jīng)網(wǎng)絡(luò)，如圖2—3所示[3]。

（4）統(tǒng)計特征。

統(tǒng)計特征主要從一些實際的業(yè)務(wù)場景來考慮，本文主要借助一些外部的情感詞表來對文本中的情感程度進行統(tǒng)計，因為口碑評論分值本身也是一種情感值的反映，所以該類特征解釋性強，效果顯著。其次，還有一些標點統(tǒng)計、特殊詞統(tǒng)計特征，同樣具有明顯的效果。

本文情感值計算參考的詞表主要有：HowNet情感詞典、臺灣大學NTU情感詞典、程度副詞表以及否定詞表。

2.2.2 算法原理

（1）RidgeRegression。

（2）LightGBM。

LightGBM[4]是一個快速的、分布式的、高性能的基于決策樹算法的梯度提升框架，可以用于排序、分類、回歸以及很多其他的機器學習任務(wù)中。相比于之前的梯度提升框架（如XGBoost），LightGBM擁有很多優(yōu)化方法來加快訓練且節(jié)省效率。如直方圖算法，將連續(xù)的特征值分桶分箱加快訓練過程，減少內(nèi)存占用；leaf-wise的分裂策略，減少不必要分裂的情況下實現(xiàn)更高準確率；并行學習優(yōu)化等。

（3）TextCNN。

模型結(jié)構(gòu)如圖4所示[5]。

TextCNN是一種高效的文本分類模型，在CNN中使用不同的filter_size來模擬N-Gram模型，有效地利用文本的局部有序特征，達到極好的分類效果。TextCNN主要模型結(jié)構(gòu)包括embedding層，卷積層，maxpooling，softmax，可以結(jié)合embedding層隨機初始化和預(yù)訓練詞向量初始化結(jié)合來初步改進模型的效果，卷積層中不同的filter_size和region_size來進行詳盡的N-gram特征提取。

3 實驗過程及結(jié)果

3.1 實驗過程

實驗過程如圖5所示。

在一個機器學習任務(wù)中，數(shù)據(jù)的預(yù)處理部分直接關(guān)系到模型的效果，是至關(guān)重要的一部分。本文的預(yù)處理工作主要有：數(shù)字、表情符號、網(wǎng)址等特殊文本的轉(zhuǎn)化，拼寫檢查更正，停用詞去除，同義詞替換等。預(yù)處理完成后，對文本數(shù)據(jù)進行向量表示，在本文實驗過程中，先對預(yù)處理后的文本進行分詞，再訓練一個Word2Vec詞向量來對文本進行向量化。

在文本表示完成后，對整個任務(wù)的特征體系進行構(gòu)建，構(gòu)建2.2.1節(jié)所描述分析的特征。

再進行單模型的訓練比較實驗結(jié)果，最終進行加權(quán)模型融合選取最佳模型。

4 結(jié)語

本文提出一種基于多特征模型融合的口碑評論分值預(yù)測模型，通過對特征詳盡的探索分析和模型構(gòu)建，與一些傳統(tǒng)方法模型相比，取得了更好的效果。對相關(guān)行業(yè)具有實際的指導意義。

[參考文獻]

[1]DataFountain.景區(qū)口碑評價分值預(yù)測[EB/OL].（2018-06-23）[2018-11-05].https：//www.datafountain.cn/competitions/283/details/data-evaluation.

[2]LE Q，MIKOLOV T.Distributed representations of sentences and documents[C].Sydney：International Conference on International Conference on Machine Learning，2014.

[3]XIN R.Word2Vec parameter learning explained[M].Evansto：Eprint Arxiv，2014.

[4]KE G L，MENG Q，F(xiàn)INLEY T，et al.LightGBM： a highly efficient gradient boosting decision tree[C].Siem Reap：the Neural Information Processing Systems Conference，2017.

[5]KIM Y.Convolutional neural networks for sentence classification[M].Evansto：Eprint Arxiv，2014.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于多特征模型融合的社交評論分析