• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合注意力機(jī)制的多通道卷積與雙向GRU模型的文本情感分析研究

      2019-10-21 09:11:14袁和金牛為華崔克彬
      中文信息學(xué)報(bào) 2019年10期
      關(guān)鍵詞:集上注意力卷積

      袁和金,張 旭,牛為華,崔克彬

      (華北電力大學(xué) 控制與計(jì)算機(jī)工程學(xué)院,河北 保定 071003)

      0 引言

      近年來,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展以及社交媒體的不斷涌現(xiàn),越來越多的用戶習(xí)慣于通過社交媒體表達(dá)自己的觀點(diǎn)與想法,這就積累了大量的短文本數(shù)據(jù)。通過對(duì)這些信息利用情感分析的技術(shù)進(jìn)行分析,可以發(fā)現(xiàn)用戶對(duì)特定產(chǎn)品、事件上的情感傾向,從而幫助研究機(jī)構(gòu)掌握社會(huì)情緒動(dòng)態(tài)[1]。情感傾向性分析,又稱主客觀分析,以挖掘文本信息中用戶表達(dá)的情感極性為目標(biāo)。近年來,針對(duì)社交媒體的用戶觀點(diǎn)情感分析已經(jīng)成為了自然語(yǔ)言處理(natural language processing, NLP)領(lǐng)域的熱點(diǎn)問題,具有非常高的研究與實(shí)用價(jià)值。因此本文的研究目的是提出一種文本情感分析模型,以提升文本情感分析的準(zhǔn)確度。

      目前,文本情感分析方法主要可以分為三種: 基于語(yǔ)義的情感詞典方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法以及基于深度學(xué)習(xí)的方法?;谡Z(yǔ)義的情感詞典方法的基礎(chǔ)是首先構(gòu)建情感詞典,然后設(shè)定傾向性評(píng)價(jià)指標(biāo)與方法,最后通過確定閾值來判定文本的傾向性。該方法實(shí)現(xiàn)較為簡(jiǎn)單,不需要人工標(biāo)注的數(shù)據(jù)集,但是由于情感詞典在構(gòu)建時(shí)遇到的種種難題,其效果一般。基于機(jī)器學(xué)習(xí)的方法,首先需要人工對(duì)文本進(jìn)行情感傾向性標(biāo)注,其次通過人工設(shè)計(jì)特征,對(duì)文本情感特征進(jìn)行提取,最后,使用相關(guān)機(jī)器學(xué)習(xí)方法,如樸素貝葉斯、支持向量機(jī)等構(gòu)建分類器對(duì)文本情感進(jìn)行分類[2]。該方法計(jì)算量小且易于實(shí)現(xiàn),但需要人為進(jìn)行特征工程操作,且泛化能力不足。

      近年來興起的深度學(xué)習(xí)方法很好地彌補(bǔ)了上述方法的缺陷,已在圖像和語(yǔ)音識(shí)別中取得了巨大成就,并逐步應(yīng)用到自然語(yǔ)言處理領(lǐng)域中。Bengio最早使用神經(jīng)網(wǎng)絡(luò)構(gòu)建語(yǔ)言模型。Kim等[3]使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)對(duì)短文本進(jìn)行建模,完成了句子級(jí)別的文本情感分析任務(wù)。然而,這種方法也存在弊端,其忽視了待分類句子內(nèi)部詞語(yǔ)之間的相互聯(lián)系。Irsoy等[4]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)為句子進(jìn)行建模,從而進(jìn)行情感分析,但CNN缺乏對(duì)文本提取特征的能力,同時(shí)會(huì)造成模型訓(xùn)練耗時(shí)的問題。

      本文利用深度學(xué)習(xí)模型,結(jié)合基于向量表示的語(yǔ)義合成原理,提出一種融合注意力機(jī)制的多通道卷積和雙向門限循環(huán)單元(bidirectional gated recurrent unit, BGRU)模型來解決文本情感分析問題。模型采用多通道卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行有監(jiān)督學(xué)習(xí),在不同大小的窗口提取粒度不同的情感特征,從而識(shí)別更多的情感特征分類模式。雙向門限循環(huán)單元網(wǎng)絡(luò)能夠挖掘跨度更廣的語(yǔ)義依賴關(guān)系,從而更加充分地利用整個(gè)文本中的特征信息,有效識(shí)別文本情感極性。同時(shí),在該模型中引入注意力機(jī)制(Attention Mechanism),更加有效地識(shí)別句子中信息表征量大的部分。

      本文主要貢獻(xiàn)如下:

      (1) 提出一種多通道卷積和雙向門限循環(huán)單元結(jié)合的網(wǎng)絡(luò)模型。該模型能夠利用不同尺寸的卷積核在不同通道內(nèi)提取文本中粒度不同的特征信息,同時(shí)能夠保留文本信息間的序列關(guān)系,有效地獲取文本評(píng)論中句子內(nèi)部及句子之間的相互聯(lián)系。

      (2) 引入注意力機(jī)制。注意力機(jī)制能夠自適應(yīng)地結(jié)合文本上下文信息,提取影響情感極性分類的關(guān)鍵文本特征,使模型能夠更關(guān)注于文本中重要的部分,有效提升模型分類準(zhǔn)確度。

      (3) 引入Maxout神經(jīng)元,更好地提升模型抵抗梯度彌散的能力,加快模型收斂的速度;增強(qiáng)模型的泛化能力,提升模型魯棒性。

      1 相關(guān)工作

      1.1 情感分析

      在過去的研究中,基于情感詞典的情感分析方法和基于傳統(tǒng)機(jī)器學(xué)習(xí)的監(jiān)督學(xué)習(xí)方法,在情感分析任務(wù)中取得了很多成功。但是基于情感詞典的方法需要人為制定大量的判別規(guī)則,且泛化能力較差?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的方法需要對(duì)所輸入文本進(jìn)行大量的預(yù)處理工作和復(fù)雜的特征工程。近年來,深度學(xué)習(xí)在情感分析工作中取得了重大的突破。一方面,深度學(xué)習(xí)方法不需要過多的預(yù)處理工作,緩解了模型對(duì)特征工程的依賴,極大地降低了人力成本;另一方面,基于深度學(xué)習(xí)的網(wǎng)絡(luò)模型能夠自學(xué)習(xí)提取文本情感特征,在情感分析任務(wù)中比傳統(tǒng)機(jī)器學(xué)習(xí)方法有更好的分類效果。

      相較與一般前饋神經(jīng)網(wǎng)絡(luò)而言,RNN引入了記憶單元使網(wǎng)絡(luò)具備了一定的記憶性,能夠較好地結(jié)合序列信息對(duì)數(shù)據(jù)進(jìn)行建模。但其也存在一定的弊端,即會(huì)在訓(xùn)練過程中出現(xiàn)梯度爆炸和梯度彌散等問題,從而造成訓(xùn)練過程停滯。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory, LSTM)和門限循環(huán)單元在傳統(tǒng)RNN的基礎(chǔ)上引入門機(jī)制,較好地克服了RNN的弊端。基于此,很多模型在基本的LSTM、GRU模型上進(jìn)行改進(jìn),取得了不錯(cuò)的效果。Socher等[5]使用Tree-LSTM提取文本的語(yǔ)義特征。Ke等[6]在LSTM之上額外引入了外部記憶單元,提升了模型對(duì)歷史信息的處理能力,但由于外部記憶矩陣參數(shù)量較大,準(zhǔn)確度提升有限。Schuster等提出的BRNN(bidirectional RNN)模型,通過采用雙向RNN的方式,同時(shí)處理正向與反向的信息,然后,將其輸出連接到同一個(gè)輸出層上,這樣便能夠記錄序列的雙向上下文信息。Tang等[7]在雙向LSTM的基礎(chǔ)上,引入注意力機(jī)制,提出CLSTM模型以此來解決文本級(jí)情感分析問題,取得了不錯(cuò)的效果。依據(jù)上述分析可以得知,使用RNN模型能夠有效解決情感分析任務(wù),其演化模型LSTM及GRU能夠在克服RNN弊端的基礎(chǔ)上捕捉文本長(zhǎng)時(shí)依賴。然而LSTM和GRU模型是基于時(shí)序的,很難進(jìn)行并行化訓(xùn)練。對(duì)于大規(guī)模數(shù)據(jù)集而言,需要非常長(zhǎng)的訓(xùn)練時(shí)間。因此,基于CNN的方法開始受到廣泛的關(guān)注。

      Kim[3]利用Word2Vec訓(xùn)練得到詞向量,將句子映射成二維特征矩陣,使用一層卷積層對(duì)文本特征進(jìn)行提取,之后連接池化層對(duì)最能代表文本情感詞匯的特征進(jìn)行提取,提取后的結(jié)果作為全連接層的輸入,進(jìn)而進(jìn)行情感極性分類。Kalchbrenner等[8]提出了一種DCNN模型,這是一種動(dòng)態(tài)的卷積神經(jīng)網(wǎng)絡(luò)模型。在一次卷積操作之后,將序列中前K個(gè)最大的特征值進(jìn)行保留,并送入分類器中進(jìn)行分類。Santos等[9]提出一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該方法提取文本字符級(jí)的特征,不需要任何關(guān)于句子句法結(jié)構(gòu)的輸入。Yin等[10]使用多通道不同尺寸的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行句子分類。基于CNN方法能夠有效提取文本內(nèi)特征,同時(shí)大幅度降低模型訓(xùn)練時(shí)間;其弊端在于無法考慮句子內(nèi)部及句子間的依賴關(guān)系,丟失文本的序列性質(zhì)的特征。

      為了充分發(fā)揮CNN及RNN的各自優(yōu)勢(shì),越來越多的研究者將CNN與RNN相結(jié)合進(jìn)行文本情感傾向性分析。Wang等[11]使用一層CNN和一層RNN構(gòu)成融合模型,進(jìn)行文本情感分析,實(shí)驗(yàn)證明效果優(yōu)于單純使用CNN和RNN模型。Wang等[12]提出區(qū)域CNN-LSTM網(wǎng)絡(luò)模型,其創(chuàng)新在于將文本按照句子為單位劃分區(qū)域,并行地進(jìn)行卷積操作,之后將提取到的特征進(jìn)行融合,作為L(zhǎng)STM的輸入,進(jìn)而進(jìn)行情感分類。Zhang等[13]使用基于Convolution-GRU模型對(duì)推特內(nèi)容進(jìn)行情感極性判別。

      對(duì)上述模型進(jìn)行分析,本文有如下思考:

      (1) 對(duì)于詞語(yǔ)的向量化表示,高維分布式向量表示賦予具有相似詞義的詞語(yǔ)之間的高相似性。與此同時(shí),與獨(dú)熱表示相比,詞嵌入方式可以更好地解決短文本的詞義冗余等問題,減少計(jì)算量。

      (2) CNN在文本處理中能夠?qū)W習(xí)提取到位于文本不同位置上的局部特征。RNN模型能夠更好地考慮文本內(nèi)的序列關(guān)系,并且能夠?qū)W習(xí)到較長(zhǎng)序列文本依賴而不僅僅局限于局部特征之中。

      (3) CNN與RNN模型的結(jié)合,一方面能夠充分利用CNN對(duì)文本特征較強(qiáng)的提取能力;另一方面可以發(fā)揮RNN在時(shí)間序列維度上強(qiáng)大的記憶能力及對(duì)文本的表征建模能力。這種結(jié)合方式對(duì)于提升情感分析準(zhǔn)確度,具有較強(qiáng)的研究意義與研究?jī)r(jià)值。

      1.2 卷積神經(jīng)網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)(CNN)最早應(yīng)用于計(jì)算機(jī)視覺中,近年來,其在文本分類領(lǐng)域也有出色的表現(xiàn)[14]。CNN主要通過卷積層和池化層來學(xué)習(xí)輸入的局部特征,對(duì)表征的重要信息進(jìn)行提取與保留。CNN無需過多的預(yù)處理工作便能夠達(dá)到預(yù)定效果,顯著地減輕了對(duì)特征工程的依賴。

      CNN主要由輸入層、卷積層、池化層和全連接層組成。對(duì)于應(yīng)用于自然語(yǔ)言處理領(lǐng)域的CNN而言,輸入層為詞匯的向量表示。對(duì)于給定長(zhǎng)度為n的句子,輸入層矩陣的表示,如式(1)所示。

      其中,m為詞向量維度。卷積層使用尺寸不同的卷積核對(duì)輸入矩陣進(jìn)行卷積操作,提取輸入數(shù)據(jù)的局部特征,得到文本的特征向量,如式(2)所示。

      其中,x為詞嵌入矩陣,W為權(quán)重矩陣,b為偏置量,f為卷積核激活函數(shù)。

      經(jīng)過卷積操作得到的特征向量,可以通過池化層進(jìn)行進(jìn)一步的下采樣,以提取序列中最重要的特征信息。池化后的輸出作為全連接層的輸入,進(jìn)而對(duì)文本情感極性進(jìn)行分類。

      1.3 門限循環(huán)單元

      門限循環(huán)單元是對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)的改進(jìn)。GRU通過引入更新門與重置門,有效地解決了RNN網(wǎng)絡(luò)在訓(xùn)練過程的梯度爆炸與梯度彌散問題。相較LSTM而言,GRU精簡(jiǎn)了網(wǎng)絡(luò)結(jié)構(gòu),減少了模型參數(shù),提升了模型訓(xùn)練速度。在自然語(yǔ)言處理任務(wù)中,GRU網(wǎng)絡(luò)可以學(xué)習(xí)詞語(yǔ)在句子中的長(zhǎng)期依賴關(guān)系,更好地對(duì)文本進(jìn)行表征建模。

      GRU網(wǎng)絡(luò)通過記憶單元來記憶存儲(chǔ)句子中重要的特征信息,同時(shí)能夠?qū)Σ恢匾畔⑦M(jìn)行遺忘。每一個(gè)GRU網(wǎng)絡(luò)神經(jīng)元包括1個(gè)記憶單元和2個(gè)門單元。

      在t時(shí)刻,對(duì)于給定的輸入xt,GRU的隱藏層輸出為ht,其具體的計(jì)算過程如式(3)~(5)所示。

      其中,W為連接兩層的權(quán)重矩陣,σ和tanh為激活函數(shù),z、r分別為更新門和重置門。

      1.4 注意力機(jī)制

      注意力機(jī)制的概念可以理解為從大量信息中有選擇地篩選出重要信息并且聚焦到這些內(nèi)容上,同時(shí)忽略大多數(shù)不重要的信息。聚焦的過程體現(xiàn)在權(quán)重系數(shù)的計(jì)算上,權(quán)重越大則代表對(duì)該部分的關(guān)注度越高。在情感分析任務(wù)中引入注意力機(jī)制,可以使神經(jīng)網(wǎng)絡(luò)更多地關(guān)注文本中包含情感信息較多的部分。

      在自然語(yǔ)言處理領(lǐng)域, Bahdanau等[15]首次將注意力機(jī)制應(yīng)用于自然語(yǔ)言處理領(lǐng)域,在機(jī)器翻譯任務(wù)上將翻譯和對(duì)齊同時(shí)進(jìn)行,實(shí)驗(yàn)證明了注意力機(jī)制在NLP任務(wù)中的有效性。Wang等[16]將多層注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合用于句子關(guān)系分類任務(wù)中,模型在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,使用注意力機(jī)制的模型比未使用的模型有更高的分類精度。Huang等[17]提出了一種結(jié)合注意力機(jī)制的LSTM網(wǎng)絡(luò),通過對(duì)特定目標(biāo)進(jìn)行向量化處理,將特定目標(biāo)作為注意力機(jī)制輸入LSTM網(wǎng)絡(luò),提升了模型的準(zhǔn)確度。鑒于融合注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)出色,本文在對(duì)文本進(jìn)行情感分析的任務(wù)中,在使用深度神經(jīng)網(wǎng)絡(luò)挖掘文本高層抽象語(yǔ)義的基礎(chǔ)上,引入注意力機(jī)制,使網(wǎng)絡(luò)模型能夠更多地關(guān)注能夠幫助識(shí)別文本情感極性的部分。

      2 一種融合注意力機(jī)制的多通道CNN與雙向GRU的網(wǎng)絡(luò)模型

      為了能夠提取更加有效的文本信息進(jìn)行建模,本文提出了融合注意力機(jī)制的多通道卷積與雙向GRU模型(multi-channel convolution and bidirectional GRU with attention mechanism,ATT-MCNN-BGRUM)。模型主要包含詞向量層、多通道卷積層、特征融合層、雙向GRU層、注意力層、Maxout層。模型結(jié)構(gòu)如圖1所示。

      該模型首先使用GloVe預(yù)訓(xùn)練詞向量將文本中的詞語(yǔ)映射成為低維的實(shí)數(shù)向量表示,建立表示文本的初始特征矩陣,將其作為模型的輸入。模型的多通道卷積層提取文本不同粒度的特征信息,并將特征信息進(jìn)行融合送入雙向GRU層。雙向GRU層可以在保留序列信息的基礎(chǔ)上,有效獲取句子內(nèi)部及句子間的相互聯(lián)系,對(duì)文本進(jìn)行建模。在雙向GRU層上引入注意力機(jī)制,更好地把握文本中重要信息。最后將輸出送入分類器中,得到文本情感分類結(jié)果。

      2.1 問題定義

      對(duì)于給定文本的數(shù)據(jù)集D,其中包含有文本X{x1,x2,...,xm}和每個(gè)文本所包含的情感標(biāo)簽Y{y1,y2,...,ym}。其中,每個(gè)文本句子Xi由n個(gè)詞組成,表示為Xi{xi1,xi2,...xin},則最終的目標(biāo)函數(shù),如式(7)所示。

      其中:θ代表該模型中涉及到的所有參數(shù),f(·)為該網(wǎng)絡(luò)模型的數(shù)學(xué)形式表達(dá)。

      圖1 融合注意力機(jī)制的多通道卷積與雙向GRU模型

      2.2 多通道卷積門限循環(huán)神經(jīng)網(wǎng)絡(luò)

      多通道卷積門限循環(huán)神經(jīng)網(wǎng)絡(luò)(MCNN-BGRU)首先使用多通道卷積神經(jīng)網(wǎng)絡(luò)提取文本不同粒度的特征信息。然后特征信息經(jīng)融合,使用雙向GRU網(wǎng)絡(luò)順序集成文本特征,完成文本的特征表達(dá)。

      多通道卷積神經(jīng)網(wǎng)絡(luò)接收詞向量作為網(wǎng)絡(luò)的輸入。詞向量核心在于將詞語(yǔ)通過映射,用一種低維實(shí)數(shù)向量表示。定義數(shù)據(jù)集中句子最大長(zhǎng)度為n,文本可表示為由n個(gè)d維的詞向量拼接而成的二維矩陣x∈Rd×n,如式(8)所示。

      其中,⊕為拼接運(yùn)算符,wi∈Rd為句子中第i個(gè)詞對(duì)應(yīng)的詞向量。

      CNN能夠高效提取詞匯在句中的局部上下文信息[18]。對(duì)于卷積操作,選擇不同尺寸的卷積核大小,可以提取廣度不同的上下文信息,即不同粒度的序列特征信息。

      假定第i個(gè)通道卷積操作所使用的卷積核w∈Rh×d,其中h為濾波器窗口寬度,控制單詞的個(gè)數(shù),則提取后的一個(gè)特征cij可以表示為式(9)。

      式(9)中,b∈R為偏置項(xiàng),f(·)為卷積核函數(shù)。

      xi:i+h-1∈Rh×d代表h個(gè)詞構(gòu)成的局部濾波窗口,濾波窗口逐步滑動(dòng)至xn-h+1:n,{x1:h,x2:h+1,xn-h+1:n}所對(duì)應(yīng)的第i個(gè)通道,所得到的特征序列如式(10)所示。

      將文本經(jīng)過多通道卷積層產(chǎn)生的特征序列進(jìn)行連接,形成融合特征序列c。 假設(shè)通道個(gè)數(shù)為k,則如式(11)所示。

      為了更有意義的充分利用粒度不同的序列特征,本文將多通道卷積操作提取到的特征序列進(jìn)行融合,共同作為雙向GRU的輸入。使用共享權(quán)重的雙向GRU將粒度不同的特征信息映射到相同的向量空間內(nèi)。

      對(duì)于給定的n維輸入(x1,x2,...,xn),在t時(shí)刻,BGRU的隱藏層輸出ht,其具體的計(jì)算過程如式(12)~(13)所示。

      2.3 融合注意力機(jī)制的MCNN-BGRU網(wǎng)絡(luò)

      MCNN-BGRU模型考慮了句子之間的語(yǔ)義信息,同時(shí)能夠處理文本序列的長(zhǎng)依賴關(guān)系,實(shí)現(xiàn)對(duì)文本的充分表征與挖掘。為了使模型能夠高度關(guān)注文本中的重要信息,本文在上述模型的基礎(chǔ)上結(jié)合注意力機(jī)制構(gòu)建ATT-MCNN-BGRU模型。注意力機(jī)制示意圖如圖2所示。

      圖2 注意力機(jī)制示意圖

      注意力機(jī)制的核心在于通過結(jié)合文本上下文信息,感知重要的語(yǔ)義特征。通過給序列層中各隱藏節(jié)點(diǎn)分配合適的注意力權(quán)重進(jìn)行重要度的劃分。權(quán)重越大,代表對(duì)于情感極性分類越重要。構(gòu)建注意力機(jī)制方式,如式(15)~(17)所示。

      其中,a為學(xué)習(xí)函數(shù),僅由隱藏狀態(tài)序列ht決定。BGRU層的隱層狀態(tài)序列ht送入到學(xué)習(xí)函數(shù)中,經(jīng)過加權(quán)處理,得到注意力權(quán)值α。 依據(jù)注意力權(quán)值,對(duì)所有的序列層中所有節(jié)點(diǎn)的隱含向量進(jìn)行加權(quán),得到最終的文本特征向量s。

      2.4 模型訓(xùn)練

      為了解決模型訓(xùn)練中的梯度彌散問題,使得模型能夠更好的優(yōu)化,具備更好的訓(xùn)練效果,本文引入Maxout神經(jīng)元,構(gòu)成ATT-MCNN-BRGUM模型。Maxout神經(jīng)元如圖3所示。

      圖3 Maxout神經(jīng)元示意圖

      每一個(gè)Maxout神經(jīng)元都由多個(gè)不同的激活函數(shù)神經(jīng)元組成,其輸出是其中的最大值,如式(18)所示。

      本文使用softmax函數(shù)接收ATT-MCNN-BGRUM模型的輸出,得到待分類句子的情感極性判別,如式(19)所示。

      其中W為權(quán)重矩陣,b為偏置。

      其中,i為句子索引,j表示類別的索引,λ表示L2正則化損失函數(shù)的懲罰項(xiàng),θ表示模型設(shè)置的參數(shù)。

      3 實(shí)驗(yàn)與分析

      本文將ATT-MCNN-BGRUM模型應(yīng)用到情感分析任務(wù)上。在實(shí)驗(yàn)中采用Pennington等[19]提出的預(yù)訓(xùn)練好的300維GloVe詞向量進(jìn)行初始化。對(duì)于詞典中不存在的詞,采用均勻分布U(-ε,ε)進(jìn)行初始化設(shè)定,其中ε設(shè)置為0.01。該情感分析模型運(yùn)行于Ubuntu 16.04系統(tǒng),使用的深度學(xué)習(xí)框架為Keras 1.2.2。

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      本實(shí)驗(yàn)所采用的數(shù)據(jù)集為IMDb數(shù)據(jù)集和SST-2數(shù)據(jù)集。IMDb數(shù)據(jù)集共包含50 000條來自美國(guó)電影評(píng)價(jià)網(wǎng)站的數(shù)據(jù)集,文本平均長(zhǎng)度為294,按照情感極性可以劃分為積極(Positive)和消極(Negative)兩種情感類別。SST-2數(shù)據(jù)集來自于Stanford Sentiment Treebank,是對(duì)電影評(píng)論數(shù)據(jù)集MR數(shù)據(jù)集的擴(kuò)展[3],約有11 855條文本。本文的目標(biāo)是區(qū)分不同文本的情感極性,即Positive和Negative。本文所需的實(shí)驗(yàn)數(shù)據(jù)的統(tǒng)計(jì)如表1所示。

      表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)信息

      3.2 實(shí)驗(yàn)參數(shù)設(shè)置

      在本文實(shí)驗(yàn)中,為了獲取豐富的特征信息,三通道所選取的卷積核窗口寬度分別為2,3,4。此外,為了防止訓(xùn)練過度,出現(xiàn)過擬合的現(xiàn)象,本文在實(shí)驗(yàn)過程中使用了dropout機(jī)制和權(quán)重正則化限制。模型的詳細(xì)超參數(shù)設(shè)置如表2所示。

      表2 參數(shù)設(shè)置

      3.3 實(shí)驗(yàn)對(duì)比

      將本文融合注意力機(jī)制的多通道卷積與雙向GRU混合模型方法ATT-MCNN-BGRUM,與以下方法在兩個(gè)不同的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。

      本文的對(duì)照模型大致分為四組: 傳統(tǒng)機(jī)器學(xué)習(xí)方法組、CNN組、RNN組以及融合CNN、RNN模型方法組。下面對(duì)部分待對(duì)比模型進(jìn)行簡(jiǎn)要介紹。

      ① CNN-rand/CNN-static

      該方法首先構(gòu)建n×k詞向量矩陣,之后使用不同尺寸的濾波器對(duì)詞向量矩陣進(jìn)行卷積操作,再將得到的特征序列進(jìn)行最大池化操作,最后進(jìn)行分類。CNN-rand與CNN-static兩種方法的區(qū)別在于CNN-rand的詞向量來自于隨機(jī)初始化設(shè)置而CNN-static來自于Word2Vec方法。

      ② CNN-multi-channel

      該方法是對(duì)CNN-static的改進(jìn),其核心在于使用雙通道的詞匯矩陣對(duì)原始文本進(jìn)行表示,兩通道經(jīng)過卷積操作得到的特征經(jīng)過拼接送入全連接層進(jìn)行分類。

      ③ DCNN

      該方法核心思想在于使用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行建模。模型中包含兩組卷積。其中卷積使用寬卷積,很好地對(duì)文本的邊緣信息進(jìn)行提取;采用k-max-pooling方法,降低了池化操作對(duì)序列信息的丟失。

      ④ LSTM/GRU

      LSTM和GRU為RNN的兩種變體模型。

      ⑤ Bi-LSTM

      該方法能夠結(jié)合序列正反兩個(gè)方向信息對(duì)文本進(jìn)行建模,解決了文本長(zhǎng)依賴問題。

      ⑥ ATT-BLSTM

      該方法在Bi-LSTM的基礎(chǔ)上引入了注意力機(jī)制,能夠有效地捕獲文本中的關(guān)鍵信息。

      ⑦ CNN-LSTM-Word2vec/CNN-GRU-Word2vec

      該方法將CNN與LSTM/GRU模型相結(jié)合,提出CNN-LSTM-Word2Vec/CNN-GRU-Word2Vec對(duì)短文本進(jìn)行情感分析。該模型使用Word2Vec構(gòu)建詞向量,卷積后進(jìn)行最大池化,最后通過LSTM/GRU對(duì)文本序列進(jìn)行建模,從而完成情感分析任務(wù)。

      3.4 結(jié)果分析

      本文選取IMDb數(shù)據(jù)集及SST-2數(shù)據(jù)集中的積極和消極情感數(shù)據(jù)對(duì)比本文提出的模型和對(duì)比實(shí)驗(yàn),依據(jù)二分類準(zhǔn)確率,驗(yàn)證本文提出方法的有效性。實(shí)驗(yàn)結(jié)果如表3所示。

      表3 模型在不同數(shù)據(jù)集上的準(zhǔn)確度統(tǒng)計(jì)(%)

      從表3可以看出,本文提出的ATT-MCNN-BGRUM模型在兩個(gè)數(shù)據(jù)集上均取得了比其他網(wǎng)絡(luò)模型更好的分類效果。在IMDb數(shù)據(jù)集上,模型的分類效果達(dá)到90.8%,在SST-2數(shù)據(jù)集上,分類效果達(dá)到90.5%。分別比對(duì)照組的最優(yōu)分類模型準(zhǔn)確率提升1.5%和0.6%。

      對(duì)于CNN組,CNN-multi-channel方法較CNN與DCNN方法在SST-2數(shù)據(jù)集上分類準(zhǔn)確率提升5.4%和1.3%,這說明引入多通道卷積模型對(duì)文本進(jìn)行不同粒度的特征提取的必要性。在IMDb數(shù)據(jù)集上引入注意力機(jī)制的LSTM模型較Bi-LSTM模型在IMDb和SST-2數(shù)據(jù)及上分別提升2.7%和0.6%。這說明雙向RNN模型能夠結(jié)合文本上下文信息,提升分類準(zhǔn)確率;注意力機(jī)制能夠提升模型關(guān)注更重要序列信息的能力,進(jìn)一步提升模型精度。本文模型較ATT-BLSTM模型在IMDb及SST-2數(shù)據(jù)集上分類精確度分別提升1.5%和2.3%,ATT-MCNN-GBRUM模型在SST-2上相較于CNN-LSTM-Word2Vec和CNN-GRU-Word2Vec模型提升1.0%和0.6%。

      將本文模型在IMDb數(shù)據(jù)集上訓(xùn)練過程進(jìn)行分析。圖4展示了本文模型在IMDb數(shù)據(jù)集和SST-2數(shù)據(jù)集上40個(gè)epoch內(nèi)的訓(xùn)練過程,其中包含在訓(xùn)練過程中準(zhǔn)確率和Loss值的變化情況。本文模型在前25訓(xùn)練輪次,訓(xùn)練準(zhǔn)確率有較大幅度的提升,在后15訓(xùn)練輪次,訓(xùn)練準(zhǔn)確率呈小幅度波動(dòng)上升,最終趨于平穩(wěn)。本文模型在IMDb與SST-2數(shù)據(jù)集上初始Loss值分別為0.821 9與1.076 2,模型Loss值隨著迭代次數(shù)增加而不斷降低,模型對(duì)訓(xùn)練數(shù)據(jù)的擬合程度不斷提升。在訓(xùn)練階段的第40輪次,本文模型在IMDb及SST-2數(shù)據(jù)集上的Loss值分別下降至0.105 4和0.123 8。

      圖4 模型訓(xùn)練過程

      圖5展示了本文模型在兩數(shù)據(jù)集上驗(yàn)證及測(cè)試過程。對(duì)于IMDb數(shù)據(jù)集,模型驗(yàn)證準(zhǔn)確率在前20輪穩(wěn)步提升,在21-40輪次,模型在合理范圍內(nèi)波動(dòng)。對(duì)于SST-2數(shù)據(jù)集,模型在前25輪次驗(yàn)證準(zhǔn)確率呈平穩(wěn)上升趨勢(shì),在后15輪次,訓(xùn)練準(zhǔn)確率出現(xiàn)小幅度的震蕩,最終趨于平穩(wěn)。將本文模型在兩數(shù)據(jù)集上進(jìn)行測(cè)試,對(duì)于IMDb數(shù)據(jù)集,當(dāng)運(yùn)行至第23個(gè)epoch時(shí),模型分類效果達(dá)到最優(yōu),此時(shí)的準(zhǔn)確率為90.8%。對(duì)于SST-2數(shù)據(jù)集,模型在27個(gè)輪次分類效果達(dá)到最優(yōu),此時(shí)的分類準(zhǔn)確率為90.5%。

      圖5 模型驗(yàn)證及測(cè)試過程

      為了驗(yàn)證Maxout神經(jīng)元的有效性,將本文所提出的ATT-MCNN-BGRUM與去除Maxout神經(jīng)元的ATT-MCNN-BGRU模型進(jìn)行對(duì)比實(shí)驗(yàn)。圖6對(duì)比了兩種模型在訓(xùn)練及測(cè)試過程中的準(zhǔn)確率的變化情況。通過對(duì)兩模型的訓(xùn)練過程中準(zhǔn)確率的變化進(jìn)行分析,發(fā)現(xiàn)引入Maxout神經(jīng)元的網(wǎng)絡(luò)模型相比之下能夠更快地收斂,發(fā)揮模型的分類性能。同時(shí),引入Maxout神經(jīng)元的模型在訓(xùn)練準(zhǔn)確率上較沒有引入的模型有了1.1%的提升,說明其能夠在模型的訓(xùn)練過程中起到優(yōu)化作用。

      圖6 有無Maxout訓(xùn)練及測(cè)試準(zhǔn)確率對(duì)比

      表4對(duì)比了兩種模型測(cè)試準(zhǔn)確率,ATT-MCNN-BGRUM較ATT-MCNN-BGRU模型在IMDb、SSTB數(shù)據(jù)及上分別提升了0.5%與0.4%,這說明引入Maxout神經(jīng)元有助于提升模型的性能,提高分類的準(zhǔn)確率。

      表4 模型有無Maxout分類準(zhǔn)確度對(duì)比(%)

      3.5 網(wǎng)絡(luò)訓(xùn)練時(shí)間分析

      本文在相同深度學(xué)習(xí)框架、相同硬件環(huán)境下對(duì)比分析不同網(wǎng)絡(luò)在IMDb和SST-2數(shù)據(jù)集上完成一次迭代的訓(xùn)練時(shí)間,結(jié)果如表5所示。

      表5 不同模型完成一次迭代的訓(xùn)練時(shí)間

      從表5結(jié)果可以看出,LSTM,GRU網(wǎng)絡(luò)訓(xùn)練時(shí)間遠(yuǎn)遠(yuǎn)高于CNN訓(xùn)練時(shí)間。在IMDb數(shù)據(jù)集上,GRU、LSTM模型的訓(xùn)練時(shí)間分別為285秒和369秒,分別是CNN模型的4.19倍和5.43倍。這主要是因?yàn)镽NN網(wǎng)絡(luò)接收的是序列化輸入,所以訓(xùn)練時(shí)間要遠(yuǎn)高于接收平行化輸入的CNN網(wǎng)絡(luò)。多通道CNN模型較傳統(tǒng)CNN模型訓(xùn)練耗時(shí)略有增加,因此本文采用多通道卷積對(duì)文本提取粒度不同的特征信息,進(jìn)而降低整個(gè)模型訓(xùn)練耗時(shí)的做法是有依據(jù)的。采用雙向LSTM模型和雙向GRU模型對(duì)文本進(jìn)行建模,進(jìn)行情感分類會(huì)大幅提升神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間。其在IMDb和SST-2數(shù)據(jù)集較單向LSTM、GRU分別增長(zhǎng)3.44倍、2.97倍和4.07倍、3.26倍。同時(shí),引入注意力機(jī)制的LSTM模型在IMDb數(shù)據(jù)集上訓(xùn)練時(shí)間提升30.89%,說明在模型中引入注意力機(jī)制也會(huì)在一定程度上增加模型訓(xùn)練時(shí)間。

      經(jīng)過CNN提取特征后的GRU模型(CNN-GRU-Word2Vec)在IMDb和SST-2數(shù)據(jù)集上訓(xùn)練一輪次的時(shí)間分別為99秒和61秒,較GRU模型的285秒和107秒有了大幅度的下降。同時(shí)結(jié)合表3準(zhǔn)確率進(jìn)行分析,CNN-LSTM-Word2Vec模型和CNN-GRU-Word2Vec模型較單一,RNN模型一方面能夠提升模型分類準(zhǔn)確率,另一方面可以大幅縮短模型訓(xùn)練時(shí)間。本文模型在引入了注意力機(jī)制和雙向GRU模型后,在兩個(gè)數(shù)據(jù)集上的訓(xùn)練時(shí)間,均低于引入注意力機(jī)制的單向LSTM模型,從而說明了本文在一定程度降低了模型訓(xùn)練時(shí)間,有更優(yōu)的訓(xùn)練性能。

      4 結(jié)語(yǔ)

      本文提出一種融合注意力機(jī)制的基于多通道卷積與雙向GRU模型用于文本情感分析任務(wù)。該方法采用多通道卷積方式對(duì)詞嵌入矩陣做粒度不同的特征提取,并將不同通道所提取的特征進(jìn)行融合,作為雙向GRU的輸入,從而對(duì)文本進(jìn)行建模。引入注意力機(jī)制,使模型能夠更加關(guān)注那些對(duì)判斷情感極性影響大的部分。將模型在不同的數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明,該方法比本文提到的其他對(duì)比方法在情感極性分類的準(zhǔn)確性上有了進(jìn)一步的提升。

      在下一步工作中,可以考慮將注意力機(jī)制進(jìn)行改進(jìn);同時(shí)將集成學(xué)習(xí)的思想引入模型中,提升模型的穩(wěn)定性及泛化能力。

      猜你喜歡
      集上注意力卷積
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      Cookie-Cutter集上的Gibbs測(cè)度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      復(fù)扇形指標(biāo)集上的分布混沌
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
      泰顺县| 增城市| 集安市| 甘泉县| 浮梁县| 凤翔县| 滦南县| 七台河市| 镇雄县| 青川县| 志丹县| 盘锦市| 临沧市| 哈密市| 钟山县| 徐州市| 会东县| 凭祥市| 萨迦县| 福贡县| 杭锦旗| 宜宾市| 黔西县| 普格县| 固镇县| 淮滨县| 临汾市| 永春县| 南丰县| 当阳市| 永丰县| 英山县| 鲁山县| 黑龙江省| 武陟县| 石阡县| 敖汉旗| 溧阳市| 辉南县| 璧山县| 乾安县|