• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進的卷積記憶神經(jīng)網(wǎng)絡(luò)的文本情感分類

      2020-05-18 07:13:34陳可嘉鄭晶晶
      關(guān)鍵詞:準(zhǔn)確率卷積向量

      陳可嘉,鄭晶晶

      (福州大學(xué) 經(jīng)濟與管理學(xué)院,福建 福州 350116)

      隨著移動互聯(lián)網(wǎng)時代的到來,網(wǎng)上有大量富有情感的評論文本,如微博、知乎、豆瓣影評書評、各大購物網(wǎng)站的商品評價等,如何高效準(zhǔn)確地將這些文本的情感進行分類,是當(dāng)今研究的熱點。學(xué)者們常用的文本情感分類的方法有:基于情感詞典的方法、基于機器學(xué)習(xí)的方法、基于深度學(xué)習(xí)的方法[1]。深度學(xué)習(xí)作為機器學(xué)習(xí)的分支,無需人工進行特征的提取和構(gòu)建,彌補了機器學(xué)習(xí)的不足,因此深度學(xué)習(xí)成為近幾年文本情感分類的熱門方法[2]。常用于解決文本情感分類的深度學(xué)習(xí)模型有:卷積神經(jīng)網(wǎng)絡(luò)[3]、循環(huán)神經(jīng)網(wǎng)絡(luò)[4]、長短期記憶(long short-term memory, LSTM)神經(jīng)網(wǎng)絡(luò)[5]等。

      為了能夠提高文本情感分類的準(zhǔn)確率,減少對情感分類過程中人為的干預(yù)。筆者提出改進的卷積記憶神經(jīng)網(wǎng)絡(luò)模型,該模型可彌補機器學(xué)習(xí)方法的不足,并對現(xiàn)有的深度學(xué)習(xí)模型進行改進,融合卷積神經(jīng)網(wǎng)絡(luò)局部特征提取的優(yōu)勢和雙向長短期神經(jīng)網(wǎng)絡(luò)上下文全局特征提取的優(yōu)勢,并在池化層進行動態(tài)池化處理,以提取更多的顯著特征,進而提高文本情感分類的準(zhǔn)確率。

      1 情感分類模型

      不同方法下相關(guān)文獻及改進的卷積記憶神經(jīng)網(wǎng)絡(luò)模型的貢獻和研究重點如表1所示,利用改進的卷積記憶神經(jīng)網(wǎng)絡(luò)進行文本情感分類的步驟如圖1所示。首先要將文本進行數(shù)據(jù)預(yù)處理,將文本處理成神經(jīng)網(wǎng)絡(luò)能夠理解的詞向量矩陣,然后將形成的詞向量矩陣輸入到改進的卷積記憶神經(jīng)網(wǎng)絡(luò)中,最終通過對模型的訓(xùn)練,得到文本情感分類模型。

      1.1 數(shù)據(jù)預(yù)處理

      對于文本而言,神經(jīng)網(wǎng)絡(luò)是無法直接識別的,因此需要將文本數(shù)據(jù)映射為多維的實數(shù)向量,即文本向量化。數(shù)據(jù)預(yù)處理包括以下3個步驟。

      (1)分詞。中文文本沒有明顯的詞語之間的分界符,因而在詞語層面的分割上,中文文本比英文文本要難。是否能夠準(zhǔn)確地對文本進行分詞,對文本情感分類的準(zhǔn)確性有重要的影響。“結(jié)巴”中文分詞是一個Python中文分詞庫,支持繁體分詞和自定義詞典,選擇該方法能夠較為精確地將句子進行分詞。

      (2)詞語向量化。詞的分布式表示具有非常強大的表征能力,可以將每個詞語之間的相似度用空間向量表示出來。所謂詞語向量化就是將詞語處理成分布式詞向量的形式。目前比較主流的形成分布式詞向量的方式是Word2Vec。結(jié)合各大中文語料庫,利用Word2Vec相關(guān)技術(shù),可以得到詞向量模型,之后將經(jīng)過分詞的詞語輸入到該詞向量模型中,從而獲得每個詞的詞向量。

      表1 不同方法下相關(guān)文獻及改進的卷積記憶神經(jīng)網(wǎng)絡(luò)模型的貢獻和研究重點

      圖1 基于改進的卷積記憶神經(jīng)網(wǎng)絡(luò)的文本情感分類步驟

      (3)生成詞向量矩陣。一段文本經(jīng)過分詞,并詞向量化后,會形成一個N×m的詞向量矩陣。其中,N表示文本分詞后詞語的個數(shù),m表示詞向量的維度。由于每個文本生成的詞向量個數(shù)不同,故將文本轉(zhuǎn)換為詞向量矩陣之后,每個文本對應(yīng)的詞向量矩陣大小也不同。為了方便模型的訓(xùn)練需要把每個文本生成的詞向量矩陣大小標(biāo)準(zhǔn)化,使得所有文本生成詞向量矩陣的大小是相同的,處理方式:n=avgN+2×stdN。其中,n為詞向量矩陣大小標(biāo)準(zhǔn)化后含有詞語的個數(shù);avgN為所有文本分詞后詞語個數(shù)n*的平均值;stdN為所有文本分詞后詞語個數(shù)n*的標(biāo)準(zhǔn)差。

      然后對文本生成的詞向量矩陣進行處理,大小不足的前面填充0,超長的進行修剪。這樣獲取的n×m詞向量矩陣可以涵蓋95%的樣本。

      1.2 改進的卷積記憶神經(jīng)網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)可以通過局部連接、權(quán)值共享、下采樣來減少參數(shù)的使用,提升模型的魯棒性(robusrness),其基本實現(xiàn)步驟分為輸入層、卷積層、池化層和分類器層。卷積神經(jīng)網(wǎng)絡(luò)在文本情感分類任務(wù)上可以快速挖取對情感分類有利的局部特征詞語,然而如果單獨使用卷積神經(jīng)網(wǎng)絡(luò)進行文本的情感分類,就容易忽略文本上下文之間的時序問題,對分類結(jié)果產(chǎn)生一定的影響。

      雙向長短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)由前向LSTM神經(jīng)網(wǎng)絡(luò)與后向LSTM神經(jīng)網(wǎng)絡(luò)組合而成。兩者在自然語言處理任務(wù)中常被用來建模上下文信息,通過雙向LSTM神經(jīng)網(wǎng)絡(luò)可以更好地捕捉雙向的語義依賴。因此,筆者使用雙向LSTM神經(jīng)網(wǎng)絡(luò)作為模型的一部分,從而彌補卷積神經(jīng)網(wǎng)絡(luò)的不足。

      將卷積神經(jīng)網(wǎng)絡(luò)獲取局部信息特征的功能和雙向LSTM神經(jīng)網(wǎng)絡(luò)獲取全文信息特征的功能結(jié)合起來,形成改進的卷積記憶神經(jīng)網(wǎng)絡(luò),進而提高文本特征的提取能力。改進的卷積記憶神經(jīng)網(wǎng)絡(luò)步驟如圖2所示。

      圖2 改進的卷積記憶神經(jīng)網(wǎng)絡(luò)步驟

      (1)輸入層。輸入層后是兩個不同的并行神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò)要求的輸入數(shù)據(jù)維度不同:卷積神經(jīng)網(wǎng)絡(luò)要求一個三維的輸入,而雙向LSTM神經(jīng)網(wǎng)絡(luò)要求一個二維的輸入。文本進行數(shù)據(jù)預(yù)處理后生成的是二維矩陣,因此需要利用reshape函數(shù)調(diào)整詞向量矩陣的維數(shù)。

      (2)卷積層。將文本以詞向量矩陣Rn×m的形式作為輸入,其中n為詞向量矩陣大小標(biāo)準(zhǔn)化后所含詞語的個數(shù),m為詞向量的維度,xi∈Rn×m(i≤n)表示詞向量矩陣中第i個詞的詞向量。xi:j=xi⊕xi+1⊕…⊕xj,表示在詞向量個數(shù)為n的句子中第i個詞語到j(luò)個詞語的詞向量的拼接。卷積過程的基本步驟如下:①參數(shù)設(shè)置。卷積層是卷積神經(jīng)網(wǎng)絡(luò)的重要部分,卷積核高度的選取對模型的分類準(zhǔn)確率有很大的影響。卷積過程中組合使用不同高度的卷積核分別對詞向量矩陣進行卷積,可以增加文本特征提取的多樣性,獲取更多的語義,進而提高文本情感分類的準(zhǔn)確率。因此卷積核高度h、不同高度的卷積核的組合種類d、卷積核的數(shù)量q(筆者將不同高度的卷積核數(shù)量都設(shè)置為q,即若有3種不同高度的卷積核存在,那么總的卷積核數(shù)量為3q)都會影響模型的訓(xùn)練效果,需要通過實驗獲取這些參數(shù)的最佳值。②卷積運算及特征圖獲取。特征圖中的一個特征點ci,是由卷積核在高度為h的窗口xi:i+h-1經(jīng)過卷積運算后得到的結(jié)果,即ci=f(w·xi:i+h-1+b),其中b為偏置項,f為非線性激活函數(shù)。

      卷積核每移動一步,對整個輸入矩陣xi:j逐個窗口{x1:h,x2:h+1,…,xn-h+1:n}進行卷積,輸出得到特征圖c=[c1,c2,…,cn-h+1]。因此使用卷積核數(shù)量為q、大小為h×m的卷積核對輸入的詞向量矩陣進行卷積后,得到的特征圖大小為(n-h+1)×1×q。

      (3)動態(tài)k-max池化層。池化層的作用是對卷積得到的特征進行采樣。最常用的池化策略有兩種:最大池化和平均池化。最大池化能夠提取池化窗口中最顯著的特征,因此可以刻畫整個句子的某些含義,對于預(yù)測分類更有意義。然而使用最大池化策略會導(dǎo)致某些同樣重要的信息丟失,筆者提出動態(tài)k-max池化策略來彌補最大池化的缺陷。所謂動態(tài)k-max是指不同大小的特征圖,最大池化后提取的特征數(shù)k是不同的。卷積核的高度越低,特征圖就會越大。對于較大的特征圖,在采樣過程中可以考慮更多的采集特征,這樣可以保留更多有用的信息,此時可以將池化窗口設(shè)置得小一點,以便提取更多的特征。

      (4)時序?qū)?。將雙向LSTM神經(jīng)網(wǎng)絡(luò)作為時序?qū)?,獲取上下時序信息。利用輸入門、記憶門、輸出門決定哪些信息需要遺忘、哪些信息需要記憶、哪些信息作為輸出,進而對記憶單元進行狀態(tài)維護。將前向傳遞的最后一個輸出向量和后向傳遞最后一個輸出向量進行拼接并作為最后的特征獲取,輸入分類器層。

      雙向LSTM神經(jīng)網(wǎng)絡(luò)隱藏層的單元數(shù)量設(shè)置,是影響實驗結(jié)果的一個重要參數(shù)。當(dāng)雙向LSTM神經(jīng)網(wǎng)絡(luò)隱藏層單元數(shù)量設(shè)置為a時,則時序?qū)虞敵鎏卣鲌D大小為n×2a。

      1.3 模型訓(xùn)練

      2 實驗分析

      2.1 實驗數(shù)據(jù)準(zhǔn)備

      目前文本情感分析語料大多采用英文語料,筆者研究的是中文文本情感挖掘問題,因而采用中科院譚松波博士公布的中文酒店評論ChnSentiCorp-Htl-ba-6000作為數(shù)據(jù)來源[16],其中包含正面評論和負(fù)面評論各3 000條,并進行10折交叉驗證。ChnSentiCorp 數(shù)據(jù)集樣例如表2所示。

      表2 ChnSentiCorp 數(shù)據(jù)集樣例

      2.2 數(shù)據(jù)預(yù)處理

      (1)分詞。對于一段文本,首先去掉每個樣本的標(biāo)點符號,然后用“結(jié)巴”中文分詞將所有文本數(shù)據(jù)進行分詞,得到的相關(guān)統(tǒng)計數(shù)值如表3所示。

      表3 分詞后評論文本的相關(guān)數(shù)值統(tǒng)計情況

      (2)詞語向量化。筆者使用北京師范大學(xué)中文信息處理研究所與中國人民大學(xué)DBIIR實驗室的開源“chinese-word-vectors”中知乎Word+Ngram的詞向量模型,該詞向量模型是由Word2Vec中Skip-Gram算法結(jié)合知乎問答的中文語料訓(xùn)練得到的。將經(jīng)過分詞后的詞語輸入到詞向量模型中,可以生成300維的詞向量。

      (3)生成詞向量矩陣。根據(jù)數(shù)據(jù)集分詞后的統(tǒng)計結(jié)果,計算得到詞向量矩陣大小標(biāo)準(zhǔn)化后詞向量個數(shù)n=244。因而,每條評論數(shù)據(jù)經(jīng)過預(yù)處理后都會生成大小為244×300的詞向量矩陣。

      2.3 改進的卷積記憶神經(jīng)網(wǎng)絡(luò)

      2.3.1 輸入層

      將6 000個大小為244×300的詞向量矩陣作為改進的卷積記憶神經(jīng)網(wǎng)絡(luò)的輸入,且根據(jù)不同神經(jīng)網(wǎng)絡(luò)的需求調(diào)整輸入的詞向量矩陣的維度,調(diào)整后的矩陣如表4所示。

      表4 調(diào)整維度后不同神經(jīng)網(wǎng)絡(luò)對應(yīng)的輸入矩陣

      2.3.2 卷積層

      (1)參數(shù)設(shè)置。首先使用單一高度的卷積核,根據(jù)卷積核高度的不同,對比改進的卷積記憶神經(jīng)網(wǎng)絡(luò)模型分類準(zhǔn)確率的變化情況,如圖3所示,可以看出當(dāng)卷積核高度低于2時,會出現(xiàn)分類準(zhǔn)確率低于80%的情況;而當(dāng)卷積核高度達到4時,分類準(zhǔn)確率出現(xiàn)最大值,之后就開始下降。

      圖3 不同卷積核高度的分類準(zhǔn)確率

      組合不同高度的卷積核對詞向量矩陣進行卷積,有利于提升模型的效果。而從單一高度的卷積核實驗結(jié)果中可以發(fā)現(xiàn),卷積核高度處于2~10之間都能取得較好的效果。因此開展進一步實驗,將高度在2~10之間的卷積核進行5組組合實驗,實驗結(jié)果如圖4所示,可知當(dāng)卷積核組合高度為(2,3,4)時,模型的分類效果最好。因此在接下來的對比實驗中,將卷積核的組合高度設(shè)置為(2,3,4),即卷積核大小分別為2×300、3×300、4×300。

      圖4 不同卷積核組合高度的實驗結(jié)果對比

      卷積核數(shù)量的不同對模型分類準(zhǔn)確率也有一定影響,因此筆者做了關(guān)于卷積核數(shù)量對模型分類準(zhǔn)確率影響的實驗,實驗結(jié)果如圖5所示,可以看出卷積核的數(shù)量越多,模型分類準(zhǔn)確率越高。然而在實際訓(xùn)練過程中,當(dāng)卷積核數(shù)量達到512個時,雖然分類準(zhǔn)確率仍有較小的提高,但是模型的訓(xùn)練速度卻大大下降,因而將卷積核的數(shù)量設(shè)置為256,即大小為2×300、3×300、4×300的卷積核各256個。

      圖5 不同卷積核數(shù)量的分類準(zhǔn)確率

      (2)卷積運算及特征圖獲取。對大小為244×300×1詞向量矩陣,分別使用3種不同大小的卷積核各256個來獲取特征圖,并選取Relu作為非線性激活函數(shù)。經(jīng)過卷積運算后分別得到不同大小的特征圖,如表5所示。

      表5 不同大小的卷積核經(jīng)卷積運算的特征圖結(jié)果

      2.3.3 動態(tài)k-max池化層

      對于不同大小的卷積核,卷積后的特征圖大小不同,因此在池化層分別對應(yīng)著不同的k值和池化窗口高度L,經(jīng)過動態(tài)池化運算后生成的特征圖大小也不同,具體結(jié)果如表6所示。

      表6 不同高度的卷積核對應(yīng)的池化結(jié)果

      2.3.4 時序?qū)?/p>

      通過實驗分析雙向LSTM神經(jīng)網(wǎng)絡(luò)隱藏層的單元數(shù)量對卷積記憶神經(jīng)網(wǎng)絡(luò)分類準(zhǔn)確率的影響,進而選擇合適數(shù)量作為進一步對比實驗的參數(shù),實驗結(jié)果如圖6所示,可知當(dāng)隱藏層單元數(shù)量達到16個時,分類準(zhǔn)確率最高,之后隨著單元數(shù)量的增加分類準(zhǔn)確率下降,因此筆者將雙向LSTM神經(jīng)網(wǎng)絡(luò)隱藏層的單元數(shù)量設(shè)置為16,進而時序?qū)虞敵鎏卣鲌D大小為244×32。

      圖6 不同雙向LSTM隱藏層單元數(shù)量的分類準(zhǔn)確率

      2.3.5 分類器層

      將池化層獲取的3個局部特征圖和時序?qū)荧@取的文本上下文時序特征圖進行拼接,最后轉(zhuǎn)化為列向量,拼接流程圖如圖7所示,將拼接后的引向量輸入到分類器層,選擇softmax作為分類函數(shù)。

      圖7 拼接流程圖

      2.4 模型訓(xùn)練結(jié)果對比

      目前大多數(shù)研究采用準(zhǔn)確率(accuracy)、精確度(precision)、召回率(recall)、F1測度(F1-measure)作為情感分類實驗的模型性能評價指標(biāo)。

      (1)

      (2)

      (3)

      (4)

      式中:TP表示實際為正面評論、預(yù)測也為正面評論的樣本數(shù)量;FN表示實際為正面評論、預(yù)測為負(fù)面評論的樣本數(shù)量;TN表示實際為負(fù)面評論、預(yù)測也為負(fù)面評論的樣本數(shù)量;FP表示實際為負(fù)面評論、預(yù)測為正面評論的樣本數(shù)量。

      筆者通過實驗對比卷積神經(jīng)網(wǎng)絡(luò)、雙向LSTM神經(jīng)網(wǎng)絡(luò)、卷積記憶神經(jīng)網(wǎng)絡(luò)、改進的卷積記憶神經(jīng)網(wǎng)絡(luò)這4個模型的性能,4種模型都在中科院譚松波博士公布的中文酒店評論ChnSentiCorp-Htl-ba-6000數(shù)據(jù)集上進行實驗。4種模型分類準(zhǔn)確率對比曲線如圖8所示,顯示了各模型迭代次數(shù)和分類準(zhǔn)確率,可以看出改進的卷積記憶神經(jīng)網(wǎng)絡(luò)在第6次迭代時就已經(jīng)開始收斂,并且分類準(zhǔn)確率達到92.41%;其他3種模型分別在第11次、第13次、第7次迭代開始收斂,但分類準(zhǔn)確率都不如改進的卷積記憶神經(jīng)網(wǎng)絡(luò)。這說明改進的卷積記憶神經(jīng)網(wǎng)絡(luò)模型在分類準(zhǔn)確率上優(yōu)于其他3種模型。

      圖8 4種模型分類準(zhǔn)確率對比曲線

      筆者進一步實驗,對比4種模型的準(zhǔn)確率、精確度、召回率、F1測度,模型分類結(jié)果如表7所示。由表7可知,改進的卷積記憶神經(jīng)網(wǎng)絡(luò)在準(zhǔn)確率、精確度、召回率、F1測度4方面都優(yōu)于其他3種方法。同時也對卷積神經(jīng)網(wǎng)絡(luò)、雙向LSTM神經(jīng)網(wǎng)絡(luò)、卷積記憶神經(jīng)網(wǎng)絡(luò)這3個模型在其相關(guān)文獻中的結(jié)果進行了展示。由于相關(guān)文獻中使用的數(shù)據(jù)集的不同,因而實驗結(jié)果與筆者實驗結(jié)果存在差異。但總體來看,改進的卷積記憶神經(jīng)網(wǎng)絡(luò)的性能還是有較大的提升。這是因為卷積神經(jīng)網(wǎng)絡(luò)主要是對于局部特征的提取,雙向LSTM神經(jīng)網(wǎng)絡(luò)是對上下文特征的提取,而改進的卷積記憶神經(jīng)網(wǎng)絡(luò)結(jié)合了兩個模型的優(yōu)點,因此在性能上有很大的提升。同時,改進的卷積記憶神經(jīng)網(wǎng)絡(luò)對池化層進行了動態(tài)處理,保留了更多的顯著特征,使模型性能又進一步提升。

      表7 模型分類結(jié)果性能對比 %

      3 結(jié)論

      筆者針對文本情感分類問題,提出改進的卷積記憶神經(jīng)網(wǎng)絡(luò)模型,該模型通過融合卷積神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò)的優(yōu)點,并在池化層根據(jù)卷積核的大小動態(tài)調(diào)整池化窗口的大小,以達到提取更多顯著特征的目的。此外,筆者利用中科院譚松波博士提供的6 000條帶有標(biāo)注的酒店評論數(shù)據(jù)集,進行文本情感分類實驗。實驗結(jié)果表明:改進的卷積記憶神經(jīng)網(wǎng)絡(luò)在準(zhǔn)確率、精確度、召回率、F1測度4個性能評價指標(biāo)上都優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)、雙向LSTM神經(jīng)網(wǎng)絡(luò)、卷積記憶神經(jīng)網(wǎng)絡(luò)3個經(jīng)典的深度學(xué)習(xí)模型,而且收斂速度也快。因此,筆者提出的改進的卷積記憶神經(jīng)網(wǎng)絡(luò)模型對文本情感分類問題具有一定的可行性和有效性。

      猜你喜歡
      準(zhǔn)確率卷積向量
      向量的分解
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      聚焦“向量與三角”創(chuàng)新題
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      向量垂直在解析幾何中的應(yīng)用
      义马市| 苍南县| 平远县| 鲜城| 玉山县| 惠水县| 康定县| 修武县| 海伦市| 始兴县| 大同县| 榆林市| 绍兴市| 武川县| 聂拉木县| 吴忠市| 望江县| 洞口县| 夏津县| 清原| 嫩江县| 定结县| 玉树县| 永顺县| 米林县| 剑阁县| 饶河县| 株洲县| 府谷县| 兰西县| 大渡口区| 临泉县| 睢宁县| 威信县| 米易县| 延津县| 安阳市| 无极县| 安龙县| 远安县| 禹城市|