孫敏,李旸,莊正飛,錢濤
(安徽農(nóng)業(yè)大學(xué)信息與計(jì)算機(jī)學(xué)院,安徽合肥230036)
生活在互聯(lián)網(wǎng)技術(shù)快速發(fā)展的時(shí)代,使用互聯(lián)網(wǎng)技術(shù)通過社交網(wǎng)絡(luò)進(jìn)行即時(shí)通訊、發(fā)布信息、表達(dá)情感等已是一種普遍現(xiàn)象。情感分析[1](sentiment analysis),又稱傾向性分析,意見抽?。╫pinion extraction),意見挖掘(opinion mining),情感挖掘(sentiment mining),主觀分析(subjec?tivity analysis),其主要任務(wù)就是對用戶生成的文本內(nèi)容進(jìn)行分析,以此來判定文本中的情感極性:積極、中性或消極。
1990年,Elman[2]提出循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)模型,RNN的輸出取決于當(dāng)前的輸入和上一個(gè)節(jié)點(diǎn)輸出的結(jié)果,可以學(xué)習(xí)上下文的語義信息,但容易出現(xiàn)梯度消失問題。為 了 解 決 此 問 題,1997年,Hochreiter等[3]提 出 長 短 時(shí) 記 憶(long short-term memory,LSTM)網(wǎng)絡(luò),LSTM通過加入“門”機(jī)制改善了RNN的梯度消失,但LSTM的結(jié)構(gòu)復(fù)雜,導(dǎo)致訓(xùn)練時(shí)間長、參數(shù)較多等問題。Cho等[4]進(jìn)一步將LSTM的單元狀態(tài)和隱層狀態(tài)進(jìn)行合并,提出一種結(jié)構(gòu)較為簡單的門限循環(huán)單元(gated recurrent unit,GRU)網(wǎng)絡(luò)模型。雙向門限循環(huán)單元(bi?directional gated recurrent unit,BGRU)網(wǎng)絡(luò)模型由一個(gè)單向向前傳播的GRU和一個(gè)單向向后傳播的GRU組成,輸出結(jié)果由這兩個(gè)GRU共同決定。劉洋[5]首先采用GRU對時(shí)間序列進(jìn)行預(yù)測,再對其結(jié)果進(jìn)行二階指數(shù)平滑優(yōu)化,提高時(shí)間序列預(yù)測的精度。李驍?shù)龋?]利用BGRU對互聯(lián)網(wǎng)文本信息進(jìn)行序列自動(dòng)標(biāo)注,可以快速、準(zhǔn)確地提取輸入序列的特定信息。2014年,GoogleMind團(tuán)隊(duì)首次提出采用內(nèi)容注意力機(jī)制做圖像分類,有效提高了圖像識(shí)別精度[7]。隨后,Bahdanau等[8]將注意力機(jī)制應(yīng)用到自然語言處理(natural language processing,NLP)領(lǐng)域,使用注意力機(jī)制將源語言端每個(gè)詞學(xué)到的表達(dá)和預(yù)測翻譯的詞聯(lián)系起來,提高了翻譯的準(zhǔn)確率。2017年,谷歌提出自注意力機(jī)制(Self-Attention)并用于機(jī)器翻譯取得了更好的翻譯效果。自注意力機(jī)制依賴更少的參數(shù),僅需關(guān)聯(lián)單個(gè)序列的不同位置以計(jì)算序列的表示,更容易獲取文本內(nèi)部依賴關(guān)系,使模型能夠更好地學(xué)習(xí)文本特征[9]。趙勤魯?shù)龋?0]使用LSTM-Attention網(wǎng)絡(luò)模型實(shí)現(xiàn)文本特征提取。LSTM提取詞語與詞語以及句子與句子的特征信息,分層注意力機(jī)制關(guān)注重要的詞語和句子,有效提取文本特征,準(zhǔn)確率得到了一定的提升。田生偉等[11]采用注意力機(jī)制和雙向長短時(shí)記憶(bidirectional long short-term memory,BLSTM)結(jié)合的方法對維吾爾語事件時(shí)序關(guān)系進(jìn)行識(shí)別,該方法可以同時(shí)獲取事件隱含語義信息和事件語義特征,融合事件內(nèi)部結(jié)構(gòu)特征后,實(shí)驗(yàn)證明了該方法在維吾爾語事件時(shí)序關(guān)系識(shí)別任務(wù)上的有效性。黃兆瑋等[12]結(jié)合GRU和注意力機(jī)制進(jìn)行遠(yuǎn)程監(jiān)督關(guān)系抽取,采用GRU神經(jīng)網(wǎng)絡(luò)提取文本特征,然后在實(shí)體對上構(gòu)建句子級(jí)的注意力機(jī)制,準(zhǔn)確率、召回率和PR曲線都取得了比較顯著的進(jìn)步。王偉等[13]提出基于BGRU-Attention文本情感分類模型,先使用BGRU提取文本深層次信息的特征;再使用注意力機(jī)制分配相應(yīng)的權(quán)重;最后進(jìn)行情感分類,也驗(yàn)證了所提模型的有效性。吳小華等[14]提出使用自注意力機(jī)制和BLSTM對中文短文本進(jìn)行情感分析。首先,對文本進(jìn)行字向量化表示,采用BLSTM提取文本上下文語義特征信息,再通過自注意力機(jī)制動(dòng)態(tài)調(diào)整特征權(quán)重,由softmax分類器得到情感類別。由于BLSTM結(jié)構(gòu)較為復(fù)雜,導(dǎo)致模型的訓(xùn)練時(shí)間較長、參數(shù)較多等問題,因此本文將文本用Global Vector(GloVe)向量化,提出基于BGRU和自注意力機(jī)制的情感分析模型,實(shí)驗(yàn)結(jié)果證明了該方法的有效性。
對于短文本t=(w1,w2,…,wn),其中wi為文本中的第i個(gè)字,短文本的情感分析實(shí)際上就是對短文本t進(jìn)行特征的提取并對其進(jìn)行分析,最終確定其所屬的情感類別。一般情況下中性的情感意義并不大,所以本文主要把情感分為兩個(gè)極性,即正向情感和負(fù)向情感,也稱積極情感和消極情感。基于BGRU和自注意力機(jī)制的情感分析模型包括詞向量輸入層、雙向門控循環(huán)網(wǎng)絡(luò)層、自注意力層、sigmoid層,模型結(jié)構(gòu)如圖1所示。
圖1基于BGRU和自注意力機(jī)制的情感分析模型結(jié)構(gòu)Fig.1 Sentiment analysis model structure based on BGRU and self-attention mechanism
利用深度學(xué)習(xí)方法進(jìn)行文本分類的情感分析首先需要將文本進(jìn)行向量化,即把文本用詞向量的形式進(jìn)行表示。常用的文本向量表示方法主要有基于向量空間模型、one-hot模型和Word2Vec模型。向量空間模型中詞向量維度與詞典中詞的個(gè)數(shù)呈線性相關(guān),如果詞典中詞數(shù)不斷增多則會(huì)引起維度災(zāi)難;one-hot的向量表示很簡單但忽略了詞與詞語義的相關(guān)性;Word2Vec模型中包括兩種構(gòu)建詞向量的方法,都是基于局部上下文信息的方法,分別為CBOW和Skip-Gram。Global Vector融合了矩陣分解的全局統(tǒng)計(jì)信息和局部上下文信息的優(yōu)勢,不僅可以加快模型的訓(xùn)練速度,而且還可以控制詞的相對權(quán)重。因此,本文使用Global Vector詞向量訓(xùn)練方法。
標(biāo)準(zhǔn)的循環(huán)神經(jīng)網(wǎng)絡(luò)在處理文本時(shí),只能向前傳播獲取當(dāng)前文本的上文信息,沒有考慮到下文信息對當(dāng)前預(yù)測結(jié)果的影響。Schuster等[15]提出雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(bidrectional recurrent neural networks,BRNN)模型解決循環(huán)神經(jīng)網(wǎng)絡(luò)未考慮到下文信息對當(dāng)前預(yù)測結(jié)果的影響,使用正反兩個(gè)方向的RNN處理正反向的序列,最后將二者的輸出連接到同一個(gè)輸出層,在獲取文本上文信息的同時(shí)獲取文本的下文信息。將BRNN中的隱含層神經(jīng)元換成GRU記憶神經(jīng)單元,即可得到雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)。給定一個(gè)n維輸入(x1,x2,…,xn),其中xt(t=1,2,…,n)是詞向量。在t時(shí)刻:BGRU的輸出由兩個(gè)相反方向的GRU共同組合決定。具體的計(jì)算公式如下:
注意力機(jī)制可以得到稀疏數(shù)據(jù)中的重要特征,其本質(zhì)是一個(gè)query(Q)到一系列(key(K)-value(V))鍵值對的映射,首先將query和每個(gè)key通過點(diǎn)積、拼接或感知器等相似度函數(shù)計(jì)算得到權(quán)重;其次通過softmax函數(shù)對計(jì)算得出的權(quán)重進(jìn)行歸一化處理;最后將權(quán)重和與之相對應(yīng)的value加權(quán)求和得出最后的Attention。當(dāng)K=V=Q時(shí),即自注意力機(jī)制,處理文本時(shí)會(huì)直接將一個(gè)句子中任意兩個(gè)單詞的聯(lián)系通過一個(gè)計(jì)算步驟直接聯(lián)系起來,獲取句子內(nèi)部的詞依賴關(guān)系、句子的內(nèi)部結(jié)構(gòu)以及同一個(gè)句子中單詞之間的一些句法特征或者語義特征,更有利于有效地獲取遠(yuǎn)距離相互依賴的特征。除此之外,自注意力機(jī)制還可以增加計(jì)算的并行性。計(jì)算公式如下所示:
其中Q∈Rn是BGRU的n維輸出向量是調(diào)節(jié)因子,一般為詞向量的維度,主要避免因QKT內(nèi)積結(jié)果過大導(dǎo)致softmax不是1就是0的情況。
本文訓(xùn)練BGRU和自注意力的情感分析模型中的參數(shù)包括雙向門限循環(huán)神經(jīng)網(wǎng)絡(luò)和自注意力機(jī)制中的全部參數(shù)。本模型使用的優(yōu)化器是Adam,因?yàn)锳dam優(yōu)化器結(jié)合了RMSProp和AdaGrad二者的優(yōu)點(diǎn),還可以計(jì)算參數(shù)的自適應(yīng)學(xué)習(xí)率。為了防止在訓(xùn)練過程中過擬合,在BGRU神經(jīng)網(wǎng)絡(luò)之后加入Dropout函數(shù),通過在每一次的迭代中隨機(jī)丟棄部分訓(xùn)練參數(shù)來提高模型的泛化能力。本模型使用Sigmoid函數(shù)進(jìn)行分類:
其中j表示類別,文中主要分為積極和消極,取值是1或者0。θ為本文模型中的任意參數(shù)。訓(xùn)練模型的參數(shù)θ使用的損失函數(shù)是交叉熵?fù)p失函數(shù)。本文總樣本為(X,Y)=((x1,y1),(x2,y2),…,(xi,yt),…,(xN,yN)),X為評(píng)論文本,Y為評(píng)論文本真實(shí)的標(biāo)簽,取值是0或者1。交叉熵?fù)p失函數(shù)的計(jì)算公式如下:
其中xi為評(píng)論文本,yt為評(píng)論文本的真實(shí)標(biāo)簽,yp為該評(píng)論文本屬于積極類別的概率,N為樣本總數(shù)。
本文的實(shí)驗(yàn)在公開帶有情感標(biāo)簽的電影評(píng)論IMDB數(shù)據(jù)集上,對本文提出的情感模型進(jìn)行驗(yàn)證和分析。實(shí)驗(yàn)環(huán)境具體配置如表1所示。
表1實(shí)驗(yàn)環(huán)境配置Tab.1 Configuration of the experimental environment
實(shí)驗(yàn)的數(shù)據(jù)主要來自于電影評(píng)論IMDB數(shù)據(jù)集,電影情感評(píng)論的標(biāo)簽主要分為兩種0或者1,如果情感評(píng)論是積極的標(biāo)記為1,情感評(píng)論是消極的標(biāo)記為0。數(shù)據(jù)集的劃分情況如表2所示。
表2數(shù)據(jù)集Tab.2 Data set
實(shí)驗(yàn)參數(shù)的設(shè)置直接影響模型的分類效果,但實(shí)驗(yàn)中又有很多的超參數(shù)需要設(shè)置與調(diào)整,實(shí)驗(yàn)在每一次迭代完成之后,會(huì)根據(jù)準(zhǔn)確率和損失率對所設(shè)置的超參數(shù)進(jìn)行調(diào)整,經(jīng)過多次實(shí)驗(yàn)以及多次迭代具體的參數(shù)設(shè)置見表3。
表3參數(shù)設(shè)置Tab.3 Parameter settings
評(píng)價(jià)是實(shí)驗(yàn)中一個(gè)重要的環(huán)節(jié),可以直接反映出模型的好壞,本實(shí)驗(yàn)在電影評(píng)論情感分析的樣本上采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1-Measure作為評(píng)價(jià)情感分析結(jié)果好壞的標(biāo)準(zhǔn)。準(zhǔn)確率評(píng)估的是對模型正確分類的能力;精確率評(píng)估的是查準(zhǔn)率;召回率評(píng)估的是查全率;F1-Measure是綜合評(píng)價(jià)指標(biāo)。
其中TP表示積極分類預(yù)測為積極分類數(shù);FN表示積極分類預(yù)測為消極分類數(shù);FP表示消極分類預(yù)測為積極分類數(shù);TN表示消極分類預(yù)測為消極分類數(shù)。
詞向量能夠有效地反映詞與詞之間的關(guān)聯(lián)度以及語義信息,理論上來說詞向量維度越大越好,但實(shí)際應(yīng)用中需要考慮實(shí)驗(yàn)的整體性能和整體代價(jià),從而選出最合適的詞向量維度。表4為不同詞向量維度的模型實(shí)驗(yàn)結(jié)果,由表4可知,當(dāng)詞向量維度為50時(shí),模型的整體性能最差,主要是因?yàn)樵~向量維度過小,使得詞中包含的上下文相互影響的語義信息較少;當(dāng)詞向量維度為200時(shí),模型的整體性能最好,訓(xùn)練的時(shí)間相對較小,主要是因?yàn)樵~中上下文的關(guān)聯(lián)度比較大,包含更豐富的文本語義信息。因此本模型把詞向量的維度設(shè)置成200。
表4不同詞向量維度的模型實(shí)驗(yàn)結(jié)果Tab.4 Experimental results of models with different words vector dimensions
表5為不同節(jié)點(diǎn)數(shù)的模型實(shí)驗(yàn)結(jié)果,由表5可知,當(dāng)BGRU隱含層節(jié)點(diǎn)數(shù)為50時(shí),模型的準(zhǔn)確率和F1-Measure最低,因?yàn)楣?jié)點(diǎn)數(shù)過少不能夠完全提取語義信息;當(dāng)節(jié)點(diǎn)數(shù)由50增加到100時(shí),模型的準(zhǔn)確率和F1-Measure達(dá)到最大;隨著節(jié)點(diǎn)數(shù)的繼續(xù)增加,準(zhǔn)確率和F1-Measure都呈現(xiàn)下降的趨勢,說明當(dāng)節(jié)點(diǎn)數(shù)不斷增加時(shí),模型的整體性能越來越差。所以,本實(shí)驗(yàn)中BGRU隱含層節(jié)點(diǎn)數(shù)選擇為100。
表5不同節(jié)點(diǎn)數(shù)的模型實(shí)驗(yàn)結(jié)果Tab.5 Experimental results of models with different number of nodes
Dropout主要是為了解決訓(xùn)練過程中產(chǎn)生的過擬合現(xiàn)象。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中以特定概率值隨機(jī)丟棄一定數(shù)量的神經(jīng)元,只讓部分神經(jīng)元參與模型的訓(xùn)練和參數(shù)的學(xué)習(xí),保證模型在訓(xùn)練學(xué)習(xí)參數(shù)的過程中無法過度依賴于某些局部特征,能夠提升模型的訓(xùn)練效率和泛化能力,不同Dropout值的模型實(shí)驗(yàn)結(jié)果如表6所示。當(dāng)Dropout取值為0.5時(shí),模型的準(zhǔn)確率最高,整體性能最好。
表6不同Dropout值的模型實(shí)驗(yàn)結(jié)果Tab.6 Experimental results of models with different Dropout values
本實(shí)驗(yàn)?zāi)P团c以下幾種常見模型進(jìn)行對比分析。為了使對比的結(jié)果更具有可比性和準(zhǔn)確性,所有模型詞向量的輸入都是GloVe200維,每個(gè)對比模型中的參數(shù)值選取都一樣。
1)LSTM:LSTM在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上加入了門限控制。本文對比實(shí)驗(yàn)使用的是Zaremba等[16]描述的網(wǎng)絡(luò)結(jié)構(gòu)作為標(biāo)準(zhǔn)模型,并設(shè)置LSTM隱含層節(jié)點(diǎn)數(shù)為100。
2)BLSTM:采用Zaremba等[16]描述的LSTM網(wǎng)絡(luò)來構(gòu)建BLSTM網(wǎng)絡(luò)模型,可以同時(shí)考慮上下文信息。本文設(shè)置BLSTM隱含層節(jié)點(diǎn)數(shù)為100。
3)BGRU:BGRU在BLSTM基礎(chǔ)上減少“門”的數(shù)量,使結(jié)構(gòu)更加簡單。其中本文設(shè)置BGRU隱含層節(jié)點(diǎn)數(shù)為100。
4)Self-Attention:此模型只包含自注意力機(jī)制。
5)BGRU+Self-Attention:此模型主要將雙向門限循環(huán)網(wǎng)絡(luò)和自注意力機(jī)制并聯(lián)對文本進(jìn)行情感分析,其中設(shè)置BGRU隱含層節(jié)點(diǎn)數(shù)為100。
6)BGRU-Self-Attention:文本提出的將雙向門限循環(huán)網(wǎng)絡(luò)和自注意力機(jī)制以鏈?zhǔn)椒绞浇Y(jié)合對文本進(jìn)行情感分析,其中設(shè)置BGRU隱含層節(jié)點(diǎn)數(shù)為100。
實(shí)驗(yàn)在測試集上計(jì)算出準(zhǔn)確率、精確率、召回率和F1-Measure,具體模型實(shí)驗(yàn)結(jié)果見表7。
表7 6種模型的實(shí)驗(yàn)結(jié)果Tab.7 Experimental results of six models
由表7可知,本文提出的BGRU-Self-Attention模型的Accuracy、Precision、Recall和F1-Measure這4個(gè)評(píng)價(jià)指標(biāo)分別為91.23%、91.21%、91.24%和91.23%,其中Accuracy和F1-Measure均優(yōu)于其他的5種模型。通過LSTM和BLSTM對比的實(shí)驗(yàn)結(jié)果可知,在LSTM基礎(chǔ)上增加了向后傳播單元的BLSTM可以同時(shí)考慮上下文信息,因此得到的情感極性的分類更準(zhǔn)確;通過對比BLSTM和BGRU的實(shí)驗(yàn)結(jié)果可知,減少了“門”數(shù)量的BGRU,使得模型結(jié)構(gòu)相對簡單,減少了訓(xùn)練的參數(shù),分類的準(zhǔn)確率也得到了一定的提升;通過對比BGRU+Self-Attention和BGRU-Self-Attention的結(jié)果可知,將BGRU和Self-Attention以并行的方式進(jìn)行融合的結(jié)果要遠(yuǎn)遠(yuǎn)低于將BGRU和Self-Attention以鏈?zhǔn)椒绞竭M(jìn)行融合,主要可能是因?yàn)榉謩e利用BGRU和Self-Attention對文本上下文語義信息的獲取和關(guān)注文本中詞的重要程度,再將二者的特征進(jìn)行融合,降低了文本中詞與詞之間的相似度,然而鏈?zhǔn)降娜诤戏椒ㄊ鞘紫壤肂GRU提取文本的上下文信息,對提取得到的信息再通過自注意力機(jī)制動(dòng)態(tài)調(diào)整特征的權(quán)重,有利于模型快速抓住最重要的特征。通過對比BGRU+Self-Attention、BGRU-Self-Attention和任意的單個(gè)LSTM、BLSTM、BGRU和Self-Attention模型的結(jié)果可知,兩種模型的組合在情感分析的任務(wù)中要比單個(gè)LSTM、BLSTM、BGRU和Self-Attention模型效果好,其原因在于組合模型利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)提取序列化特征上下文的學(xué)習(xí)能力,自注意力機(jī)制動(dòng)態(tài)調(diào)整特征的權(quán)重,更容易捕獲句子中長距離的相互依賴的特征。
選擇IMDB數(shù)據(jù)集,參數(shù)設(shè)置參考表3(其中詞向量維度為200,BGRU隱藏層節(jié)點(diǎn)數(shù)為100,Dropout值為0.5),6種模型準(zhǔn)確率隨迭代次數(shù)的變化見圖2,由圖2可知,隨著迭代次數(shù)的增加,各個(gè)模型的準(zhǔn)確率大體都在逐漸增加。除Self-Attention模型外,在第二次迭代時(shí)所有模型的準(zhǔn)確率都達(dá)到86%以上。本文模型的曲線相對于其他5條曲線變化比較平穩(wěn)、波動(dòng)較小,驗(yàn)證集準(zhǔn)確率的值處于較高的位置,尤其在第7次迭代后達(dá)到93%以上,說明本文模型在提取文本特征情感分析任務(wù)中表現(xiàn)更穩(wěn)定。
圖2 6種模型驗(yàn)證集準(zhǔn)確率與迭代次數(shù)的關(guān)系Fig.2 Relationship of accuracy and iteration number of verification set for six models
選擇IMDB數(shù)據(jù)集,參數(shù)設(shè)置參考表3(其中詞向量維度為200,BGRU隱藏層節(jié)點(diǎn)數(shù)為100,Dropout值為0.5),6種模型損失率隨迭代次數(shù)的變化見圖3,由圖3可知,Self-Attention模型相對于其他的5種模型損失率變化波動(dòng)最大而且極其不穩(wěn)定;而本文所使用的模型損失率下降速度較快且很快到達(dá)了一個(gè)相對較低的穩(wěn)定值,說明本文設(shè)計(jì)的模型取得了較好的收斂效果。
圖3 6種模型驗(yàn)證集損失率與迭代次數(shù)的關(guān)系Fig.3 Relationship of loss rate and iteration number of verification set for six models
迭代時(shí)間指的是完成一次實(shí)驗(yàn)所需要的時(shí)間。圖4為迭代時(shí)間隨迭代次數(shù)的變化曲線??傮w來看各個(gè)模型的迭代時(shí)間沒有很大的波動(dòng),整體時(shí)間呈平穩(wěn)趨勢。Self-Attentin模型和LSTM模型的迭代時(shí)間最短,主要原因是自注意力處理句子中的每個(gè)詞時(shí)會(huì)和該句子中的所有詞進(jìn)行注意力計(jì)算,因此增加了計(jì)算的并行性。LSTM只提取一個(gè)方向的語義信息;BGRU是BLSTM的一種改進(jìn),減少“門”的數(shù)量,并把細(xì)胞狀態(tài)和隱藏狀態(tài)結(jié)合在一起,因此結(jié)構(gòu)更加簡單,訓(xùn)練參數(shù)減少,因此訓(xùn)練的時(shí)間也降低很多;本文提出模型的迭代時(shí)間高于BGRU和Self-Attention,因?yàn)锽GRU會(huì)提取文本的上下文語義信息,之后再將提取得到的信息用自注意力獲取遠(yuǎn)距離相互依賴的特征,訓(xùn)練時(shí)間肯定比單個(gè)模型訓(xùn)練時(shí)間長。
圖4 6種模型迭代時(shí)間與迭代次數(shù)的關(guān)系Fig.4 Relationship of iteration time and iteration number for six models
本文提出一種基于BGRU和自注意力機(jī)制的情感分析方法,該方法首先用GloVe將文本轉(zhuǎn)換為詞向量,即對文本進(jìn)行向量化表示之后通過雙向門限循環(huán)網(wǎng)絡(luò)獲取上下文的語義特征信息,然后引入自注意力機(jī)制對提取得到的特征進(jìn)行重要程度動(dòng)態(tài)調(diào)整,從而提高模型對文本類別的分類能力,在IMDB數(shù)據(jù)集上實(shí)驗(yàn)證明了基于BGRU和自注意力機(jī)制算法在文本情感分類方面的有效性。盡管本模型在IMDB數(shù)據(jù)集上的準(zhǔn)確率、綜合評(píng)價(jià)指標(biāo)較高,損失率較低,但是如果數(shù)據(jù)集的數(shù)量比較大,準(zhǔn)確率和綜合評(píng)價(jià)指標(biāo)可能會(huì)有所下降,同時(shí)訓(xùn)練的時(shí)間有所增加,且GRU等序列模型屬于遞歸模型,并行能力相對較弱,后續(xù)研究將就這兩方面做出改進(jìn)。
江漢大學(xué)學(xué)報(bào)(自然科學(xué)版)2020年4期