• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于BiGRU和膠囊網(wǎng)絡(luò)的文本情感分類(lèi)研究

      2022-07-07 20:39:56張?zhí)?/span>陳輝
      現(xiàn)代信息科技 2022年4期
      關(guān)鍵詞:深度學(xué)習(xí)

      張?zhí)? 陳輝

      摘? 要:為了避免池化層重要特征信息的丟失以及改善CNN和RNN無(wú)法全面提取特征的局限性,文章提出一種基于BiGRU和膠囊網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)模型—BGCapNet模型,該模型使用兩個(gè)不同尺寸的BiGRU進(jìn)行特征提取,實(shí)現(xiàn)文本長(zhǎng)距離相互依賴(lài)的特性,膠囊網(wǎng)絡(luò)獲取更豐富的特征信息并通過(guò)膠囊預(yù)測(cè)進(jìn)行情感分類(lèi)。為了評(píng)估模型的有效性,在電影評(píng)論IMDB和SST-2這兩個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,BGCapNet模型在影評(píng)數(shù)據(jù)集上的準(zhǔn)確率和F1值優(yōu)于其他傳統(tǒng)方法,有效提高了文本情感分類(lèi)的效果。

      關(guān)鍵詞:文本情感分類(lèi);BGCapNet;BiGRU;膠囊網(wǎng)絡(luò);深度學(xué)習(xí)

      中圖分類(lèi)號(hào): TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章標(biāo)號(hào):2096-4706(2022)04-0031-04

      Study on Text Sentiment Classification Based on BiGRU and Capsule Networks

      ZHANG Tian, CHEN Hui

      (College of Computer Science and Engineering, Anhui University of Science and Technology, Huainan? 232001, China)

      Abstract: In order to avoid the loss of important feature information in the pool layer and improve the limitation that CNN and RNN can not fully extract features, this paper proposes a neural network model based on BiGRU and capsule network—BGCapNet model. The model uses two BiGRU with different sizes for feature extraction to realize the characteristics of long-distance interdependence of text. The capsule network obtains richer feature information and classifies emotion through capsule prediction. In order to evaluate the effectiveness of the model, experiments are carried out on two data sets of film review IMDB and SST-2. The experimental results show that the accuracy and F1 value of BGCapNet model in film review data set are better than other traditional methods, and the effect of text emotion classification is effectively improved.

      Keywords: text sentiment classification; BGCapNet; BiGRU; capsule network; deep learning

      0? 引? 言

      文本情感分析是自然語(yǔ)言處理、文本挖掘和計(jì)算機(jī)語(yǔ)言學(xué)的一個(gè)重要研究領(lǐng)域,主要是對(duì)網(wǎng)絡(luò)平臺(tái)上存在的帶有情感傾向的主觀性評(píng)論文本進(jìn)行抽取、整理和分類(lèi),對(duì)文本中包含的情感詞進(jìn)行情感判斷,以便政府機(jī)關(guān)、社會(huì)團(tuán)體和個(gè)人等隨時(shí)掌控社會(huì)情緒動(dòng)態(tài),適時(shí)做出相應(yīng)干預(yù),促進(jìn)社會(huì)和諧。

      早期的情感分類(lèi)任務(wù)主要基于人為規(guī)則制定。傳統(tǒng)的文本情感分析方法主要包括基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法。基于情感詞典的方法在分類(lèi)時(shí)嚴(yán)重依賴(lài)于情感詞典,通過(guò)將目標(biāo)詞與詞典中的情感詞進(jìn)行比對(duì)的方式實(shí)現(xiàn)分類(lèi)。該方法適用性差,無(wú)法廣泛應(yīng)用于多個(gè)領(lǐng)域,構(gòu)造詞典時(shí)過(guò)于依賴(lài)人力物力,靈活度不高,難以應(yīng)對(duì)不斷變化的詞形詞意,不能適時(shí)地將網(wǎng)絡(luò)新詞囊括其中[1,2]。而基于機(jī)器學(xué)習(xí)的方法雖然取得了良好的效果,但過(guò)于依賴(lài)訓(xùn)練集,需要耗費(fèi)大量的人力和時(shí)間進(jìn)行語(yǔ)料標(biāo)注,成本較高,效率低下,又容易忽視句子的上下文聯(lián)系和語(yǔ)義關(guān)聯(lián),計(jì)算復(fù)雜度大,泛化能力不強(qiáng)[3]。為了解決手工特征提取這一問(wèn)題,學(xué)者們提出了深度學(xué)習(xí)算法。

      近年來(lái),越來(lái)越多的研究者傾向于采用深度學(xué)習(xí)(Deep Learning, DL)算法來(lái)研究情感分類(lèi)問(wèn)題。李慧[4]采用統(tǒng)計(jì)學(xué)方法抽取屬性特征詞,結(jié)合互信息和信息熵等方法提高了分詞的準(zhǔn)確性;李洋等[5]為避免忽略詞的上下文含義,提出將CNN和BiLSTM進(jìn)行特征融合,提高了特征提取能力;孫玉霞[6]為解決主流模型訓(xùn)練時(shí)間長(zhǎng)且無(wú)法充分提取文本特征的問(wèn)題,提出了在BiGRU層提取特征的基礎(chǔ)上,通過(guò)添加注意力(Attention)機(jī)制來(lái)提取更重要的特征,提高了特征提取的能力,證明了該模型的有效性。2011年,Hinton等[7]提出膠囊是一小群神經(jīng)元,神經(jīng)元的活動(dòng)用于表示一個(gè)實(shí)體的各種屬性;Sabour等[8]率先將這一概念應(yīng)用到神經(jīng)網(wǎng)絡(luò)中,采用一種新的動(dòng)態(tài)路由算法來(lái)選擇主動(dòng)膠囊,CapsNet的實(shí)驗(yàn)表明,在圖像分類(lèi)領(lǐng)域,膠囊的魯棒性明顯優(yōu)于CNN;Zhao等[9]首次在情感分類(lèi)任務(wù)中采用膠囊網(wǎng)絡(luò)進(jìn)行研究,連續(xù)兩個(gè)卷積層采用動(dòng)態(tài)路由替代池化操作,減少了CNN在池化層上特征信息丟失的概率,分類(lèi)精度更高??傊?,膠囊網(wǎng)絡(luò)在情感分類(lèi)任務(wù)中的應(yīng)用,改善了CNN和RNN提取特征的局限性,提高了特征提取的準(zhǔn)確率。E8783FAC-404F-4C25-BD25-730475807DD4

      為了解決CNN最大池化特征信息丟失以及RNN無(wú)法全面提取特征的問(wèn)題,本文提出一種基于BiGRU和膠囊網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)模型。首先使用兩個(gè)不同尺寸的BiGRU作為特征提取器,實(shí)現(xiàn)文本長(zhǎng)距離相互依賴(lài)的特性,其次膠囊網(wǎng)絡(luò)作為頂層分類(lèi)器獲取更豐富的特征信息,同時(shí)對(duì)向量特征進(jìn)行情感預(yù)測(cè),最后通過(guò)非線性壓縮函數(shù)對(duì)特征向量的長(zhǎng)度進(jìn)行壓縮,以表示實(shí)體的分類(lèi)概率。

      1? 網(wǎng)絡(luò)模型設(shè)計(jì)

      BGCapNet網(wǎng)絡(luò)模型經(jīng)過(guò)基本的預(yù)處理步驟后,由3個(gè)模塊組成:基于Word2Vec的詞嵌入層、基于BiGRU的特征提取層、膠囊網(wǎng)絡(luò)層,網(wǎng)絡(luò)模型整體結(jié)構(gòu)如圖1所示。下面將對(duì)各模塊進(jìn)行詳細(xì)闡述。

      1.1? 詞嵌入層

      利用預(yù)先訓(xùn)練好的Word2Vec[3]方法將每個(gè)單詞表示為多維分布向量,將含有單詞的句子輸入到嵌入層中,將每個(gè)單詞轉(zhuǎn)換為多維單詞向量,最終得到矩陣M=[x1,x2 ,…,xi,…,xL]∈RL×d,其中xi=[wi1,wi2,…,wij,…,wid],對(duì)應(yīng)句子中的單詞向量。每個(gè)句子都可作為單詞的序列,通過(guò)詞嵌入層的映射,既保留了句子的語(yǔ)序,又可將句子表示為矩陣形式,最終得到向量表示。

      1.2? BiGRU特征提取層

      循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一種能夠獲取方向上時(shí)間信息的網(wǎng)絡(luò)。與基礎(chǔ)神經(jīng)網(wǎng)絡(luò)相比,它在同一層的神經(jīng)元之間也建立了權(quán)連接,能夠傳輸當(dāng)前時(shí)間的信息。GRU是一種特殊的RNN結(jié)構(gòu),相較于LSTM結(jié)構(gòu),GRU結(jié)構(gòu)簡(jiǎn)單,參數(shù)少,更容易進(jìn)行訓(xùn)練,在需要少量樣本的情況下,研究者更傾向于使用GRU。GRU單元結(jié)構(gòu)如圖2所示。

      GRU有兩個(gè)門(mén),分別是重置門(mén)和更新門(mén),它們能夠捕捉時(shí)間序列中的長(zhǎng)短期依賴(lài)關(guān)系。在圖2中,ht和ht-1分別表示當(dāng)前狀態(tài)和前一時(shí)刻狀態(tài)的輸出,xt表示當(dāng)前時(shí)刻的輸入,[ht-1,xt]表示ht-1與ht進(jìn)行拼接,重置門(mén)rt和更新門(mén)zt是分別通過(guò)點(diǎn)乘Wr & [ht-1,xt]和Wz & [ht-1,xt]得到的,σ和tanh分別為sigmoid層和tanh層。通過(guò)rt和zt,我們能夠計(jì)算出t時(shí)刻的狀態(tài)輸出ht。計(jì)算公式為:

      BiGRU是一個(gè)基于窗口的特征提取器,比BiLSTM更簡(jiǎn)單,訓(xùn)練速度更快。本文采用BiGRU層進(jìn)行特征提取,由兩個(gè)方向相反的GRU單元構(gòu)成。BiGRU在t時(shí)刻的隱層狀態(tài)是通過(guò)t-1時(shí)刻的正向隱層狀態(tài)輸和反向隱層狀態(tài)輸加權(quán)求和得到的,計(jì)算公式為:

      1.3? 膠囊網(wǎng)絡(luò)層

      膠囊網(wǎng)絡(luò)使用膠囊作為網(wǎng)絡(luò)的基本單元,膠囊能夠表示部分實(shí)體的屬性,能夠使用特征向量而不是標(biāo)量來(lái)表示可視實(shí)體,在語(yǔ)義表達(dá)方面有較大的發(fā)展空間。本文所提出的膠囊網(wǎng)絡(luò)的輸入和輸出都是向量,不僅可以在BiGRU層提取到大量豐富的特征信息,而且能對(duì)語(yǔ)義、方位等信息進(jìn)行編碼,大大提升了獲取深層特征信息的能力。

      在膠囊網(wǎng)絡(luò)中,最外層是主膠囊層,用膠囊輸出向量取代BiGRU層的標(biāo)量輸出,保留了單詞的局部順序和語(yǔ)義表示;接下來(lái)進(jìn)入連接層,采用路由協(xié)議生成下一層膠囊,這一過(guò)程代替了池化操作,減少了重要信息(如位置、語(yǔ)義等)的丟失;在整個(gè)過(guò)程中通過(guò)動(dòng)態(tài)路由算法來(lái)自動(dòng)更新耦合系數(shù)c的權(quán)值,通過(guò)計(jì)算特征向量的模長(zhǎng)得出不同的分類(lèi)概率,從而進(jìn)行文本情感分類(lèi)。如圖3所示,u是上一層膠囊的輸入向量,c稱(chēng)為耦合系數(shù),是通過(guò)動(dòng)態(tài)路由更新迭代得到的,u和c進(jìn)行線性組合就得到向量s,s為膠囊j的輸入,計(jì)算公式為:

      為了使特征向量的模長(zhǎng)能夠表示實(shí)體的分類(lèi)概率,使用非線性壓縮函數(shù)將特征向量長(zhǎng)度限制在0~1之間。在公式(11)中,若s非常大趨于1,vj趨于1,反之vj趨于0。

      2? 實(shí)驗(yàn)結(jié)果與分析

      本文選取的數(shù)據(jù)集為已整理并標(biāo)注好的IMDB和SST-2電影評(píng)論語(yǔ)料,對(duì)其進(jìn)行數(shù)據(jù)劃分,數(shù)據(jù)集分布情況如表1所示。在提出的模型上進(jìn)行實(shí)驗(yàn),并與其他算法模型進(jìn)行實(shí)驗(yàn)結(jié)果對(duì)比,證明該模型的有效性和適用性。

      2.1? 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

      本實(shí)驗(yàn)在Windows10系統(tǒng)上進(jìn)行,以pycharm作為開(kāi)發(fā)環(huán)境,編程語(yǔ)言為Python3.8,深度學(xué)習(xí)框架為keras和Tensorflow,處理器為Intel(R) Core(TM)i5-6200U CPU @ 2.40 GHz,運(yùn)行內(nèi)存為4 G。實(shí)驗(yàn)過(guò)程中,Word2Vec預(yù)訓(xùn)練模型將每一個(gè)單詞映射為300維的向量,BiGRU1和BiGRU2的尺寸分別為256和200,dropout的值設(shè)為0.2,學(xué)習(xí)率為0.001,批次大小設(shè)為100。

      2.2? 評(píng)價(jià)指標(biāo)

      為了更好地評(píng)估BGCapNet網(wǎng)絡(luò)模型在文本情感分類(lèi)任務(wù)中的性能,本文使用準(zhǔn)確率、F1值作為本次實(shí)驗(yàn)的評(píng)價(jià)指標(biāo),具體公式為:

      2.3? 實(shí)驗(yàn)結(jié)果分析

      本文選取準(zhǔn)確率和F1值作為評(píng)價(jià)指標(biāo),對(duì)比實(shí)驗(yàn)選擇了目前情感分析任務(wù)中常用的幾種深度學(xué)習(xí)網(wǎng)絡(luò)模型,不同分類(lèi)模型在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示。從表2中可以看出,相較于其他傳統(tǒng)深度學(xué)習(xí)模型,本文提出的模型取得了較明顯的效果,CNN-rand模型在兩種數(shù)據(jù)集上的準(zhǔn)確率和F1值的分類(lèi)效果欠佳,這是因?yàn)樵谟?xùn)練過(guò)程中沒(méi)有考慮到詞與詞之間的順序問(wèn)題和上下文聯(lián)系,Capsule模型相較于CNN有較高的分類(lèi)效果,表示比起CNN,Capsule具有更好的特征提取能力。

      通過(guò)數(shù)據(jù)結(jié)果對(duì)比可以得出,在IMDB數(shù)據(jù)集上進(jìn)行情感分類(lèi)時(shí),相較于CNN-static、BiLSTM、Capsule等傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò),本文提出的模型具有較好的分類(lèi)效果,準(zhǔn)確率和F1值分別達(dá)到82.5%和87.3%,與其他模型最高準(zhǔn)確率相比分別提高了0.2%和1.2%;在SST-2數(shù)據(jù)集上進(jìn)行情感分類(lèi)時(shí),CNN-multichannel模型的分類(lèi)效果最高,這是因?yàn)樗鼘tatic與non-static聯(lián)合作為兩通道的詞向量,提取到了更深層次的特征信息。除此之外,本文提出模型的分類(lèi)效果分別達(dá)到87.6%和90.0%,相較于其他六種網(wǎng)絡(luò)模型,準(zhǔn)確率和F1值均有不同程度的提高。因此,本文提出的基于BiGRU和膠囊網(wǎng)絡(luò)的模型在解決文本情感分類(lèi)問(wèn)題上,較之傳統(tǒng)深度學(xué)習(xí)算法性能得到了提升。由此可見(jiàn),本文提出的模型是有效的。E8783FAC-404F-4C25-BD25-730475807DD4

      3? 結(jié)? 論

      本文提出一種基于BiGRU和膠囊網(wǎng)絡(luò)、用于文本情感分類(lèi)任務(wù)的模型,該模型不僅能提取到大量豐富的特征信息,而且能對(duì)語(yǔ)義、方位等信息進(jìn)行編碼,從而提高了獲取深層特征的能力。通過(guò)與目前情感分析中常用的幾種深度學(xué)習(xí)網(wǎng)絡(luò)模型對(duì)比得出,本文提出的模型在準(zhǔn)確率和F1值上有了明顯的提升,證明了模型在情感分類(lèi)任務(wù)中的適用性。盡管該模型在情感分類(lèi)任務(wù)中有較好的分類(lèi)效果,但由于膠囊網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、參數(shù)較多、計(jì)算量大,故容易造成模型訓(xùn)練的時(shí)間較長(zhǎng)。因此在以后的研究中,加強(qiáng)對(duì)模型的訓(xùn)練,優(yōu)化參數(shù),減少計(jì)算量,力求在取得較好分類(lèi)效果的同時(shí)縮短訓(xùn)練時(shí)間;也可以將該模型應(yīng)用于其他情感分析任務(wù)中,以驗(yàn)證模型在不同領(lǐng)域的性能,并對(duì)模型加以改進(jìn),以取得更好的效果。

      參考文獻(xiàn):

      [1] 洪巍,李敏.文本情感分析方法研究綜述 [J].計(jì)算機(jī)工程與科學(xué),2019,41(4):180-187.

      [2] 李然,林政,林海倫,等.文本情緒分析綜述 [J].計(jì)算機(jī)研究與發(fā)展,2018,55(1):30-52.

      [3] 彭曉彬.基于word2vec的文本情感分析方法研究 [J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2016(7):58-59.

      [4] 李慧,柴亞青.基于卷積神經(jīng)網(wǎng)絡(luò)的細(xì)粒度情感分析方法 [J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2019,3(1):95-103.

      [5] 李洋,董紅斌.基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析 [J].計(jì)算機(jī)應(yīng)用,2018,38(11):3075-3080.

      [6] 孫玉霞.基于BiGRU-Attention模型的文本情感分析研究 [D].阜新:遼寧工程技術(shù)大學(xué),2019.

      [7] HINTON G E,KRIZHEVSKY A,WANG S D. Transforming Auto-Encoders [C]// Artificial Neural Networks and Machine Learning - ICANN 2011. Espoo:Proceedings,2011:14-17.

      [8] MALLIS G I,SCHMIDT D H,LINDENBAUM J. Superior bioavailability of digoxin solution in capsules[J]. Clinical Pharmacology & Therapeutics,1975,18(6):761-768.

      [9] ZHAO W,YE J,YANG M,et al. Investigating Capsule Networks with Dynamic Routing for Text Classification [C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels,Association for Computational Linguistics,2018:3110-3119.

      作者簡(jiǎn)介:張?zhí)穑?997—),女,漢族,山東菏澤人,碩士研究生在讀,主要研究方向:自然語(yǔ)言處理、文本情感分析;陳輝(1973—),男,漢族,安徽廬江人,副教授,碩士生導(dǎo)師,博士,主要研究方向:無(wú)線傳感器網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、物聯(lián)網(wǎng)技術(shù)及應(yīng)用。E8783FAC-404F-4C25-BD25-730475807DD4

      猜你喜歡
      深度學(xué)習(xí)
      從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
      面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
      基于自動(dòng)智能分類(lèi)器的圖書(shū)館亂架圖書(shū)檢測(cè)
      搭建深度學(xué)習(xí)的三級(jí)階梯
      有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
      電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
      利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
      考試周刊(2016年94期)2016-12-12 12:15:04
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      都匀市| 扎鲁特旗| 图木舒克市| 武宁县| 泸溪县| 苏尼特左旗| 万山特区| 永寿县| 都江堰市| 普安县| 西乌| 英超| 陆河县| 南靖县| 山西省| 北安市| 云浮市| 内丘县| 福海县| 荥经县| 定西市| 卢氏县| 台州市| 马边| 南和县| 宁陵县| 孟州市| 固阳县| 昂仁县| 尉犁县| 广水市| 贞丰县| 厦门市| 舞钢市| 贞丰县| 左云县| 建湖县| 信丰县| 武宁县| 临夏市| 务川|