高風(fēng)蕊 張志剛 西安財(cái)經(jīng)大學(xué) 信息學(xué)院
基于文本的情感分類挖掘是近年來(lái)的熱點(diǎn)研究方向之一,對(duì)資源搜索、信息過(guò)濾、垃圾郵件分類等具有重要的意義。CNN 采用前饋神經(jīng)網(wǎng)絡(luò),利用卷積層和采樣層應(yīng)用于文本分類。文獻(xiàn)[3]使用雙向RNN 來(lái)學(xué)習(xí)原始文本數(shù)據(jù)的關(guān)系模式,文獻(xiàn)[4]提出了長(zhǎng)短期記憶(LSTM)模型,進(jìn)一步,文獻(xiàn)[5]將LSTM 模型進(jìn)行了擴(kuò)展:使用雙向LSTM 從左到右對(duì)句子進(jìn)行建模,從而將句子表現(xiàn)得更加的全面。
在上述研究基礎(chǔ)上,本文提出了BLSTM-2DCP 體系結(jié)構(gòu),基于LSTM 進(jìn)行優(yōu)化,采用了BLSTM,BLSTM 將句子文本轉(zhuǎn)換為擁有時(shí)間步長(zhǎng)維和特征向量維的矩陣,結(jié)合CNN 中卷積和池化操作來(lái)給對(duì)時(shí)間步長(zhǎng)維和特征向量維上采樣。即利用BLSTM 并通過(guò)2D卷積和2D 最大池操作提取特征進(jìn)行文本分類建模任務(wù)。
整個(gè)模型由四部分組成:BLSTM 層,二維卷積層,二維最大池化層和輸出層。
(1)BLSTM 層
LSTM(長(zhǎng)短時(shí)記憶網(wǎng)絡(luò))是一種RNN 的一個(gè)變種,它和普通的循環(huán)神經(jīng)網(wǎng)絡(luò)相比,LSTM 通過(guò)門機(jī)制對(duì)通過(guò)信息的控制來(lái)緩解梯度消失問(wèn)題。該機(jī)制包括輸入門i、輸出門o、遺忘門f、控制器c(他們的輸出有一個(gè)和逐點(diǎn)乘積操作,用和⊙表示)。LSTM 輸入單元輸入數(shù)據(jù)xt,隱藏層輸出ht。設(shè)輸入序列,其中l(wèi) 是輸入文本的長(zhǎng)度,使用當(dāng)前輸入xt,前一步產(chǎn)生的狀態(tài)ht-1,以及該單元的當(dāng)前狀態(tài)ct-1,通過(guò)門機(jī)制來(lái)判斷要拋棄哪種信息和要存儲(chǔ)何種信息,并決定輸出更新的狀態(tài)ht,正如以下方程式所示:
對(duì)于序列建模任務(wù),訪問(wèn)過(guò)去和的未來(lái)上下文是有益的。Schuster 提出的BLSTM 通過(guò)引入第二個(gè)隱藏層來(lái)擴(kuò)展單向LSTM,其隱藏層到隱藏層的連接以相反的時(shí)間順序流動(dòng),這樣就不僅輸入了過(guò)去的信息還有未來(lái)的信息,則第t 個(gè)字的輸出如下式所示:
(2)卷積操作
(3)二維最大池化層
在卷積后產(chǎn)生的特征圖O上應(yīng)用最大池化操作,為卷積后的特征捕獲一個(gè)最高值的特征作為最重要的特征。對(duì)于2D 最大池,它應(yīng)用于矩陣的每個(gè)可能的窗口以提取最大值:
(4)輸出層
本文基于京東的用戶評(píng)價(jià)建立數(shù)據(jù)集,作為訓(xùn)練樣本。我們隨機(jī)選擇90%的訓(xùn)練集,10%的測(cè)試集。該樣本分為好評(píng)評(píng)論和差評(píng)評(píng)論,對(duì)于本文的文本褒貶分類,將訓(xùn)練樣本比例按分類規(guī)劃為1:1,以此更好的訓(xùn)練模型。將本文方法與廣泛使用的文本分類方法在數(shù)據(jù)集的測(cè)試準(zhǔn)確率進(jìn)行比較,同時(shí)進(jìn)行了CNN_model、LSTM_model、GRU_model,BLSTM-2DCP_model 的訓(xùn)練和測(cè)試,數(shù)據(jù)的迭代次數(shù)均為20 次。我們將BLSTM-2DCP與比其他模型進(jìn)行較,顯 示CNN_model、LSTM_mode1、 GRU_model、BLSTM-2DCP_model 的準(zhǔn)確率分別為65.97%、71.52%、72.22%、75.63%,實(shí)驗(yàn)表明,我們的模型在京東用戶評(píng)論數(shù)據(jù)集上優(yōu)于CNN_model、LSTM_model、GRU_model 模型。
本文中的模型只是基于抓取到的京東用戶評(píng)價(jià)作為數(shù)據(jù)集,只覆蓋了購(gòu)物商品評(píng)論語(yǔ)料范圍之內(nèi)的詞,超出語(yǔ)料之外的分類可能會(huì)降低。通用型比較低,并不是一個(gè)可以識(shí)別任意文本進(jìn)行文本情感分類的通用模型。該模型與比較簡(jiǎn)單的模型相比,將多占用更多的存儲(chǔ)空間并消耗更長(zhǎng)的時(shí)間運(yùn)行。