• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Stacking融合深度學習模型和傳統(tǒng)機器學習模型的短文本情感分類研究

      2018-03-30 03:26周青松范興容
      無線互聯科技 2018年24期

      周青松 范興容

      摘 要:短文本情感分類是一種面向主觀信息分類的文本分類任務,具有重要的研究價值和廣泛的應用前景,如旅游景區(qū)口碑評價、輿情跟蹤、產品聲譽分析等。為了提高短文本情感分類準確率,文章提出了一種基于Stacking融合深度學習模型和傳統(tǒng)機器學習模型的短文本情感分類方法。該方法從短文本數據集分別提取TFIDF和Word2Vec特征,并作為傳統(tǒng)機器學習模型和深度學習模型的輸入,再基于Stacking技術將多個基分類器(包括Logistic,Passive Aggressive,Ridge,SVC,SVR等傳統(tǒng)機器學習模型和深度學習文本分類模型TextRCNN)的分類結果進行融合處理,得到短文本情感分類的最終結果。該方法采用LightGBM作為Stacking最后一層的分類器,基于旅游景區(qū)網絡評論數據集進行了驗證。實驗結果表明,該方法能夠獲得比最好基分類方法更好的分類效果,而且對積極、中性和消極三類情感文本的平均分類準確率達到了71.02%。

      關鍵詞:短文本;情感分類;TFIDF;Word2Vec;Stacking

      情感分析是一個新的研究領域,也是自然語言處理的經典任務,一般文本情感分析是將文本分為3類:積極、中性、消極,對海量數據進行三分類。通過對用戶輸入的評論進行情感分析,進行情感傾向性判斷,可以用于旅游景區(qū)口碑評價、輿情跟蹤、產品聲譽分析等領域,也能為相關企業(yè)提供有力的決策支持。而且情感分析也可以應用在chatbot或者智能客服領域,實時監(jiān)控用戶情感變化,當用戶情感波動過大時,便可切換成人工客服,減少人工勞動成本。

      1 已有研究

      國內外研究者們在文本情感分類方面做了大量研究。文獻[1]使用信息增益對高維文本進行特征降維,并據此提出了一種語義優(yōu)化理解和機器學習相結合的方法。文獻[2]利用TFIDF提取特征,并直接輸入支持向量機(Support Vector Machine,SVM)以得到分類結果。文獻[3]提出一種基于語義理解的文本情感分類方法,在情感詞識別中引入了情感義原,通過賦予概念情感語義,重新定義概念的情感相似度,得到詞語情感語義值。文獻[4]提出一種多層網絡H-RNN-CNN,用于處理中文文本情感分類任務。該文獻將文本按句子進行劃分,引入句子層作為中間層,以改善文本過長帶來的信息丟失等問題,而且模型中使用循環(huán)神經網絡建模詞語序列和句子序列,并通過卷積神經網絡識別跨語句的信息。文獻[5]提出了基于卷積神經網絡算法的產品特征提取及情感分類模型,該模型采用卷積神經網絡進行短文本評論情感分類,以情感分類標簽標注相應評論中提取的產品特征詞,并利用詞向量對產品特征詞聚類。文獻[6]提出TextRCNN做文本分類,其效果優(yōu)于CNN和RNN。

      就評論數據而言,數據集中包含了大量的冗余信息,而且存在一些噪音數據(如部分用戶給予好的評價文本,但卻給出了差評的標簽),這些訓練數據很容易給模型引入較大的誤差,從而導致傳統(tǒng)的機器學習方法很難取得滿意的分類準確率。相比之下,基于深度學習的文本情感分類模型通過對語義的理解能夠更容易識別出語句中的反話。

      針對此,本文提出了一種基于Stacking融合深度學習模型和傳統(tǒng)機器學習模型的短文本情感分類方法,以充分發(fā)揮各個模型的優(yōu)勢,以進一步提高短文本情感分類準確率。

      2 短文本情感分類模型

      2.1 數據預處理流程

      本模型數據輸入主要由TFIDF特征以及Word2Vec向量組成,根據深度模型和傳統(tǒng)機器學習模型的特點分別輸入文本的TFIDF特征和由文獻[7]提出的Word2Vec向量。

      2.2 基分類器

      2.2.1 傳統(tǒng)機器學習模型

      本文采用的傳統(tǒng)機器學習模型包括分類和回歸兩類模型[8]??紤]到TFIDF特征具有高維稀疏性,本文所選模型以線性模型為主。

      具體所采用的模型描述如下。

      (1)分類模型:Passive Aggressive Classifier,Linear SVC和Ridge Classifier。

      (2)回歸模型:Logistic Regression,Ridge Regression,Passive Aggressive Regression,SVM(L2正則項)和Linear SVR。

      2.2.2 深度學習文本分類模型

      本文采用文獻[6]提出的深度學習文本分類模型TextRCNN,其結構框圖如圖1所示。TextRCNN通過前向和后向RNN得到每個詞的前向和后向表達,讓一個詞的詞向量的表達含義更為精確,且綜合了一個詞的上下文的含義。

      在TextRCNN參數選取上,輸入的Word2Vec詞向量維數為300維,考慮到評論數據具有簡短的特性,故最大詞數設為150,不足的部分補零即可,字典設置為1萬個詞,前向和后向LSTM的神經元個數設置為256,全連接層神經元為128,最后輸出層大小為3,激活函數為softmax函數。此外,在訓練時batch_size設為512,epoch設為50,添加early_stop以保證結果收斂為最優(yōu)。

      2.3 融合模型

      本文采用文獻[9]所述的Stacking方案對基分類器進行融合處理,如圖2所示。需要說明的是所有基分類器輸出的結果作為特征輸入第二層分類模型(lightGBM)中。具體地,其融合過程的基本原理是在基分類器上對訓練數據做n則交叉驗證(本文取n=5),設總訓練集為M個,總測試集為N個,先從訓練集拿出四折作為訓練數據,另外一折作驗證數據,用四折訓練好的模型去預測另外一則驗證數據,得到概率結果為Pi(i=1,2,3,…,n)。同時,用此模型去預測測試集會得到Ti(i=1,2,3,…,n),最后測試集輸出結果為T =,拼接訓練集與測試集結果為[P1,P2,…,Pn,T]。如果基分類器采用分類模型則最后生成一組(M+N)×k維向量(k為分類類別數);如果基分類器為回歸模型則生成(M+N)×1維向量。

      3 實驗設計與結果分析

      3.1 實驗環(huán)境與數據集

      本文所采用的實驗環(huán)境為Python3.6,旅游景區(qū)網絡評論數據集通過爬蟲技術從互聯網旅游網站上對景區(qū)的評論文本采集獲得。該數據集包含130 085條評論和評分,其中1代表積極,2代表中性,3代表消極。部分原始數據,如圖3所示。

      3.2 評價指標

      考慮到實際用途即是分析語句情感偏向,本文采用短文本情感分類準確率,公式描述如下:

      Accuracy = P/Q

      其中,P表示測試集中短文本情感預測正確的個數,Q表示測試集中短文本的總樣本個數。

      3.3 實驗設計及結果分析

      3.3.1 數據清洗

      由于是短評論,標點符號對于情感的偏向影響很大,所以本文直接未去掉停用詞,并采用jieba分詞進行中文文本分詞。分詞過后的部分樣本數據,如圖4所示。

      3.3.2 數據集劃分

      本文將原始數據中80%劃分為訓練集,其余作為測試集。

      3.3.3 基分類器模型與融合模型的短文本情感分類結果分析

      如表1所示,本文提出的融合方法具有最高的分類準確率(71.02%)。進一步地,由于所選TextRCNN基分類器模型未采用過深的網絡結構,該融合方法的運行速率高。

      4 結語

      為提高短文本情感分類準確率,文本提出了一種基于Stacking融合深度學習模型和傳統(tǒng)機器學習模型的短文本情感分類方法。該方法根據Stacking融合算法將多個基分類器(即Logistic,Ridge,SVC,SVR等傳統(tǒng)機器學習模型和深度學習文本分類模型TextRCNN)的分類結果進行融合處理。本文將數據集旅游網站評論數據分為訓練集和測試集,采用五則交叉驗證算法分別訓練基分類器,并對基分類器模型和融合模型的短文本情感分類結果進行了對比分析。實驗結果表明,本文提出的融合方法能夠提高短文本情感分類的準確率,最高達到71.02%,充分驗證了本方法的有效性。

      [參考文獻]

      [1]徐健鋒,許園,許元辰,等.基于語義理解和機器學習的混合的中文文本情感分類算法框架[J].計算機科學,2015(6):61-66.

      [2]樊康新.基于SVM的網絡文本情感分類系統(tǒng)的研究與設計[J].計算機時代,2015(12):34-37.

      [3]聞彬,何婷婷,羅樂,等.基于語義理解的文本情感分類方法研究[J].計算機科學,2010(6):261-264.

      [4]羅帆,王厚峰.結合RNN和CNN層次化網絡的中文文本情感分類[J].北京大學學報(自然科學版),2018(3):459-465.

      [5]李杰,李歡.基于深度學習的短文本評論產品特征提取及情感分類研究[J].情報理論與實踐,2018(2):143-148.

      [6]LAI S W,XU L H,LIU K,et al.Recurrent convolutional neural networks for text classification[C].Beijing:National Laboratory of Pattern Recognition(NLPR)Institute of Automation,Chinese Academy of Sciences,2015(333):2267-2273.

      [7]GOLDBERG Y,LEVY O.word2vec Explained: deriving Mikolov et al.s negative-sampling word-embedding method[M].Los Alamos:Eprint Arxiv,2014.

      [8]張潤,王永濱.機器學習及其算法和發(fā)展研究[J].中國傳媒大學學報(自然科學版),2016(2):10-18,24.

      [9]GHORBANI A A,OWRANGH K.Stacked generalization in neural networks: generalization on statistically neutral problems[C].Washington:International Joint Conference on Neural Networks,2001.

      轮台县| 广元市| 顺平县| 崇礼县| 高要市| 灵璧县| 五寨县| 霍林郭勒市| 礼泉县| 二连浩特市| 辽宁省| 兰西县| 岚皋县| 中山市| 渭南市| 北碚区| 积石山| 通道| 襄樊市| 勐海县| 麻阳| 黔东| 新和县| 壤塘县| 巩留县| 永兴县| 工布江达县| 宜州市| 县级市| 布尔津县| 陵水| 宜宾县| 兴山县| 哈密市| 白银市| 镇巴县| 宜州市| 遵化市| 麻栗坡县| 新丰县| 宜宾县|