• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于BiLSTM-CapsNet混合模型的社交文本情感分析

      2022-06-09 07:46:56葉慧雯王子民張秀文趙子涵楊玉東
      關(guān)鍵詞:細(xì)粒度語(yǔ)義卷積

      季 陳,葉慧雯,王子民,張秀文,趙子涵,楊玉東,2

      (1.南京工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 211816;2.淮陰工學(xué)院 電子信息工程學(xué)院,江蘇 淮安 223003)

      隨著互聯(lián)網(wǎng)信息技術(shù)的快速發(fā)展,微信、QQ、微博等社交媒體用戶(hù)數(shù)以?xún)|計(jì),通過(guò)社交媒體可以發(fā)表心情、感想和對(duì)各類(lèi)事件的看法等,其內(nèi)容包括新聞資訊、熱點(diǎn)事件、產(chǎn)品評(píng)論、娛樂(lè)八卦等眾多方面,能夠直觀地反映用戶(hù)的情感傾向[1]。近年來(lái),文本情感分析在政府輿情監(jiān)控、企業(yè)管理決策、個(gè)人情緒管理等方面發(fā)揮著重要作用。

      隨著情感分析技術(shù)方法、算法和資源的不斷發(fā)展,現(xiàn)有的研究基于不同的監(jiān)督環(huán)境產(chǎn)生了3種主要的方法[2]。基于情感詞典[3]的方法:郗亞輝[4]通過(guò)詞語(yǔ)和詞語(yǔ)之間有情感的交互和上下文的約束等聯(lián)系擴(kuò)展情感詞典以提高文本分析的準(zhǔn)確率;Xu等[5]利用不同情感詞之間的上下級(jí)關(guān)系對(duì)情感詞典進(jìn)行擴(kuò)充達(dá)到提高準(zhǔn)確率的目的?;跈C(jī)器學(xué)習(xí)的方法:Pang等[6]首次在針對(duì)電影評(píng)論的情感分析中使用支持向量機(jī)(Support vector machine,SVM)進(jìn)行情感二分類(lèi),將電影評(píng)論文本分為了積極與消極兩類(lèi);李婷婷等[7]利用文本的詞性、情感程度等,構(gòu)造出了不同的特征,提出了SVM和條件隨機(jī)場(chǎng)相結(jié)合的分類(lèi)模型,提高了文本分類(lèi)的準(zhǔn)確率;針對(duì)情感詞在不同的上下文語(yǔ)境中具有不同含義的問(wèn)題,Cai等[8]在一種三層情感詞典的基礎(chǔ)上將SVM和梯度提升決策樹(shù)(Gradient boosting decision tree,GBDT)結(jié)合形成情感分析混合模型,有效提高了文本情感分析的效果?;谏疃葘W(xué)習(xí)的方法:Kim等[9]最先開(kāi)始使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN),用不同的卷積核對(duì)文本不同位置的局部語(yǔ)義進(jìn)行特征提取,改善了文本分類(lèi)的效果,但CNN中的池化操作會(huì)帶來(lái)信息的丟失問(wèn)題;楊玉娟等[10]在word2vec的基礎(chǔ)上引入了術(shù)語(yǔ)頻率-逆文檔頻率算法形成詞向量,同時(shí)在長(zhǎng)短期記憶網(wǎng)絡(luò)(Long short-term memory,LSTM)模型中加入了注意力機(jī)制,提高了文本分析的準(zhǔn)確率。

      綜合以上3種文本情感分析方法,基于情感詞典方法依賴(lài)人工構(gòu)建情感詞典,基于機(jī)器學(xué)習(xí)的方法依賴(lài)人工構(gòu)建文本特征,實(shí)時(shí)性較差?;谏疃葘W(xué)習(xí)的方法相比于情感詞典方法和機(jī)器學(xué)習(xí)方法,可以從經(jīng)計(jì)算機(jī)處理過(guò)的文本詞匯中自動(dòng)提取語(yǔ)義特征[11],實(shí)時(shí)性較強(qiáng),但是文本的上下文信息和位置語(yǔ)義信息無(wú)法依靠單一的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行提取。

      膠囊網(wǎng)絡(luò)(Capsule network,CapsNet)模型是在卷積神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行的改進(jìn),用動(dòng)態(tài)路由代替了CNN中的池化操作,解決了池化操作帶來(lái)的信息丟失問(wèn)題,能很好地提取情感詞在全文的位置語(yǔ)義信息;雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-directional long short-term memory,BiLSTM)模型由兩個(gè)方向相反的LSTM模型上下疊加構(gòu)成,單獨(dú)的LSTM模型只能獲取文本單向的上文或下文信息,本文利用BiLSTM代替LSTM可以更好地捕捉文本雙向的語(yǔ)義依賴(lài)。

      綜上,針對(duì)現(xiàn)有文本情感分析方法實(shí)時(shí)性不強(qiáng),不能同時(shí)提取文本上下文信息和局部語(yǔ)義特征等問(wèn)題,本文提出一種改進(jìn)膠囊網(wǎng)絡(luò)的BiLSTMCapsNet混合模型進(jìn)行文本情感分析,這一模型由BiLSTM模型和CapsNet模型組成混合模型,既能利用BiLSTM模型可提取文本上下文信息的優(yōu)勢(shì),又能利用CapsNet模型可提取文本位置語(yǔ)義信息的優(yōu)勢(shì),可以很好地提高文本情感分析的效果。

      1 BiLSTM-CapsNet混合模型的建立

      BiLSTM-CapsNet混合模型主要分為4步:文本預(yù)處理、文本建模、特征提取和情感分類(lèi)。文本預(yù)處理的目的是去除噪聲,只保留具有語(yǔ)義特征的詞語(yǔ);文本建模就是將文本數(shù)據(jù)轉(zhuǎn)化為可以由計(jì)算機(jī)處理的數(shù)值型數(shù)據(jù)的過(guò)程;特征提取使用CapsNet提取局部語(yǔ)義特征,再使用BiLSTM提取上下文特征信息。情感分類(lèi)采用softmax分類(lèi)器進(jìn)行分類(lèi)。基于BiLSTM-CapsNet混合模型的文本情感分類(lèi)如圖1所示。

      圖1 基于BiLSTM-CapsNet混合模型的文本情感分類(lèi)

      1.1 數(shù)據(jù)預(yù)處理

      文本數(shù)據(jù)不僅包含了具有語(yǔ)義特征的詞匯還包含了一些影響分類(lèi)效果的噪聲特征,數(shù)據(jù)預(yù)處理的目的在于去除噪聲,保留具有語(yǔ)義特征的詞匯。數(shù)據(jù)預(yù)處理操作步驟如下所示:

      (1)過(guò)濾掉文本中的標(biāo)點(diǎn)符號(hào)和特殊字符;(2)使用Jieba等分詞工具進(jìn)行分詞,若是英文這步操作省略;

      (3)文本數(shù)據(jù)中含有各種沒(méi)有具體語(yǔ)義的停用詞,將會(huì)影響到分類(lèi)效果,使用哈工大停用詞表去除噪聲數(shù)據(jù);

      (4)文本中的標(biāo)簽也需要進(jìn)行處理,將文本型的標(biāo)簽數(shù)據(jù)轉(zhuǎn)化成計(jì)算機(jī)能夠識(shí)別的數(shù)值型數(shù)據(jù)。

      1.2 文本建模

      社交文本數(shù)據(jù)是高度非結(jié)構(gòu)化的數(shù)據(jù),需要將其轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)值型數(shù)據(jù)進(jìn)行處理。本文選用了word2vec工具,word2vec將每個(gè)詞映射到一個(gè)高維向量中,訓(xùn)練所得的向量可以表示詞對(duì)詞之間的關(guān)系。word2vec主要依賴(lài)其自帶的框架結(jié)構(gòu)將不可計(jì)算的非結(jié)構(gòu)化的文本詞匯轉(zhuǎn)化成可計(jì)算的結(jié)構(gòu)化的高維實(shí)數(shù)向量。

      1.3 局部語(yǔ)義特征提取

      膠囊網(wǎng)絡(luò)模型用于文本分類(lèi)結(jié)構(gòu)圖如圖2所示,主要分為4個(gè)部分:卷積層、主膠囊層、卷積膠囊層和全連接膠囊層。第一部分是一個(gè)標(biāo)準(zhǔn)的卷積層,通過(guò)多個(gè)不同的卷積核在句子的不同位置提取特征。第二部分為主膠囊層,該層是將卷積操作中的標(biāo)量輸出替換為矢量輸出,從而保留了文本的單詞順序和語(yǔ)義信息。第三部分為卷積膠囊層,在這一層中,膠囊通過(guò)與變換矩陣相乘來(lái)計(jì)算子膠囊與父膠囊的關(guān)系,然后根據(jù)路由協(xié)議計(jì)算上層膠囊層。第四部分是全連接膠囊層,膠囊乘上變換矩陣,然后按照路由協(xié)議生成最終的膠囊及其對(duì)每個(gè)類(lèi)的概率。其中Flatten函數(shù)用在卷積層到全連接層的過(guò)渡,把多維的輸入一維化。本文采用了膠囊網(wǎng)絡(luò)的前3層進(jìn)行文本局部語(yǔ)義特征的提取。

      圖2 膠囊網(wǎng)絡(luò)用于文本分類(lèi)模型結(jié)構(gòu)圖

      假設(shè)數(shù)據(jù)集文本中的一個(gè)詞為w(i),經(jīng)過(guò)word2vec工具轉(zhuǎn)化為詞向量V(w(i))),則詞向量矩陣Sij={V(w(1)),V(w(2)),…,V(w(n))}。膠囊網(wǎng)絡(luò)在卷積層中用濾波器對(duì)詞向量矩陣Sij進(jìn)行卷積操作達(dá)到文本局部語(yǔ)義特征提取的作用,計(jì)算方法如式(1)所示

      式中:b0為偏置項(xiàng),Wα為卷積運(yùn)算操作的濾波器,X i:j+K1-1表示濾波器每次移動(dòng)的單詞窗口為X i至X i+K1-1,f()為非線(xiàn)性激活函數(shù)ReLU,若有B個(gè)濾波器,即α=1,2,…,B,則mα i表示膠囊網(wǎng)絡(luò)提取的文本局部語(yǔ)義特征。

      1.4 上下文信息提取

      LSTM模型適用于處理和預(yù)測(cè)時(shí)間序列中時(shí)間間隔和延遲相對(duì)較長(zhǎng)的事件,提出的目的主要是為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中存在的梯度消失或者梯度爆炸問(wèn)題,是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),但是LSTM建模存在一個(gè)問(wèn)題,無(wú)法編碼從后向前的文本信息。BiLSTM模型是由兩個(gè)方向相反的LSTM模型上下疊加構(gòu)成,可以更好地捕捉雙向的語(yǔ)義依賴(lài),在更細(xì)粒度的文本分類(lèi)過(guò)程中,BiLSTM模型有更好的表現(xiàn)。BiLSTM模型結(jié)構(gòu)如圖3所示。

      圖3 BiLSTM用于文本分類(lèi)模型結(jié)構(gòu)圖

      如圖3所示,w(i)表示文本中的詞匯,V(w(i))表示經(jīng)word2vec轉(zhuǎn)化的詞向量,詞向量拼接形成了詞向量矩陣Sij,其中Sij={V(w(1)),V(w(2)),…,V(w(n))},然后利用BiLSTM模型進(jìn)行上下文信息提取,得到BiLSTM的輸出h n,計(jì)算方法如式(2)所示

      1.5 混合模型

      基于BiLSTM-CapsNet混合模型的文本情感特征提取流程圖如圖4所示。

      圖4 文本情感特征提取流程圖

      輸入層將文本數(shù)據(jù)集進(jìn)行預(yù)處理后,通過(guò)word2vec將文本中的詞匯轉(zhuǎn)化成詞向量,設(shè)置詞向量維度為100,然后通過(guò)嵌入層將文本詞向量進(jìn)行拼接,形成文檔詞向量矩陣,如式(3)所示

      式中:w(n)表示詞語(yǔ),V(w(n))表示詞向量,Sij表示詞向量矩陣,⊕表示拼接操作。

      局部語(yǔ)義特征提取是由膠囊網(wǎng)絡(luò)的一層卷積層和兩層膠囊層組成,以嵌入層的詞向量矩陣Sij作為輸入,采用大小為3×100,4×100,5×100的濾波器各128個(gè)進(jìn)行卷積運(yùn)算,通過(guò)卷積操作來(lái)提取各個(gè)位置的局部特征

      式中:Oij表示Conv層的輸出。使用動(dòng)態(tài)路由操作代替池化操作,再進(jìn)行兩次膠囊層的特征提取。

      式中:gij表示CapsNet的輸出,同時(shí)作為BiLSTM的輸入。隱藏層大小設(shè)置為128,sigmoid作為激活函數(shù),從BiLSTM模型的兩個(gè)方向輸入序列,通過(guò)隱藏層提取文本的上下文信息,如式(6)所示

      式中:gijt表示在t時(shí)刻的文檔矩陣,hijt表示在t時(shí)刻BiLSTM的輸出,再使用CapsNet的全連接層進(jìn)行連接,最后通過(guò)softmax函數(shù)進(jìn)行文本情感分類(lèi),如式(7)所示

      式中:b i為偏置項(xiàng),Wi表示全連接層到輸出層的權(quán)重系數(shù),dijt表示t時(shí)刻全連接層的輸出向量。

      2 試驗(yàn)與結(jié)果

      2.1 試驗(yàn)數(shù)據(jù)集

      當(dāng)前文本情感分析的主要任務(wù)可分為詞級(jí)別情感分析,句子/文檔級(jí)情感分析和目標(biāo)級(jí)情感分析3類(lèi),本文主要研究是基于句子/文檔級(jí)的情感分析。從粒度上劃分,情感分析又可以分為粗粒度和細(xì)粒度。粗粒度的情感分析就是對(duì)文本的正負(fù)極性進(jìn)行分類(lèi),而細(xì)粒度的情感分析可以根據(jù)要求的不同分成多類(lèi),本文的細(xì)粒度情感分析試驗(yàn)把情感分成了7類(lèi),分別是0:生氣(anger)、1:厭惡(disgust)、2:傷心(sandness)、3:喜歡(like)、4:害怕(fear)、5:驚喜(surprise)、6:開(kāi)心(happiness)。本文試驗(yàn)采用了兩組數(shù)據(jù)集,一組做細(xì)粒度情感分析,另一組做粗粒度情感分析。

      細(xì)粒度情感分析試驗(yàn)數(shù)據(jù)集采用的是NLPCC2014微博情緒識(shí)別數(shù)據(jù)集,截取其中部分如表1所示。粗粒度情感分析試驗(yàn)數(shù)據(jù)集為產(chǎn)品評(píng)論數(shù)據(jù)集,截取其中部分如表2所示。

      表1 NLPCC2014微博情緒識(shí)別數(shù)據(jù)集樣例

      表2 產(chǎn)品評(píng)論數(shù)據(jù)集部分樣例

      試驗(yàn)采用了Python作為算法的實(shí)現(xiàn)語(yǔ)言,詞向量分別取200維,文本長(zhǎng)度取固定長(zhǎng)度100,選用Adam作為優(yōu)化函數(shù),具體設(shè)置如表3所示。

      表3 模型參數(shù)設(shè)置

      為驗(yàn)證本文提出的BiLSTM-CapsNet混合模型的情感分析性能,兩組試驗(yàn)分別對(duì)比了6組模型,其中包括CNN模型、BiLSTM模型、CapsNet模型、CNN+CapsNet模型、CNN+BiLSTM模型和本文提出的BiLSTM-CapsNet模型。從準(zhǔn)確率、精確率、召回率和F1值4個(gè)評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行比較。

      2.2 評(píng)價(jià)標(biāo)準(zhǔn)

      文本情感分類(lèi)常用的評(píng)價(jià)指標(biāo)有精確率(Precision)、召回率(Recall)和F1值。

      精確率定義如式(8)

      式中:TP為正樣本判斷為正樣本的數(shù)量即正樣本判斷正確的數(shù)量,F(xiàn)P為正樣本判斷為負(fù)樣本的數(shù)量即正樣本判斷錯(cuò)誤的數(shù)量。

      召回率定義如式(9)

      式中:FN為負(fù)樣本判斷為正樣本的數(shù)量即負(fù)樣本判斷錯(cuò)誤的數(shù)量。

      F1值是精確率和召回率的調(diào)和平均值,定義如式(10)

      2.3 細(xì)粒度情感分類(lèi)試驗(yàn)

      細(xì)粒度情感分析試驗(yàn)采用了NLPCC2014微博情緒識(shí)別數(shù)據(jù)集,試驗(yàn)結(jié)果如表4所示。

      由表4可知,在細(xì)粒度情感分析試驗(yàn)中,本文文本情感分析算法模型在召回率和綜合評(píng)價(jià)指標(biāo)F1值方面,相較于單一的CNN、BiLSTM、CapsNet模型和混合的CNN+BiLSTM、CNN+CapsNet模型都達(dá)到了最好的結(jié)果。在準(zhǔn)確率方面,本文文本情感分析算法模型優(yōu)于單一的BiLSTM、CapsNet模型和混合的CNN+BiLSTM、CNN+CapsNet模型,與單一的CNN模型準(zhǔn)確率相當(dāng)。

      表4 細(xì)粒度情感分析試驗(yàn)結(jié)果

      2.4 粗粒度情感分析試驗(yàn)

      粗粒度情感分析試驗(yàn)采用了評(píng)論數(shù)據(jù)集,試驗(yàn)結(jié)果如表5所示。

      表5 粗粒度情感分析試驗(yàn)結(jié)果

      由表5可知在粗粒度情感分析試驗(yàn)中,本文文本情感分析算法模型在準(zhǔn)確率、召回率和綜合評(píng)價(jià)指標(biāo)F1值方面,相較于單一的CNN、BiLSTM、CapsNet模型和混合的CNN+BiLSTM、CNN+CapsNet模型,都達(dá)到了最好的結(jié)果。

      3 結(jié)束語(yǔ)

      本文結(jié)合BiLSTM模型和CapsNet模型各自?xún)?yōu)勢(shì)構(gòu)成的BiLSTM-CapsNet混合模型,既能同時(shí)利用BiLSTM和CapsNet特征提取的優(yōu)勢(shì),又能很好地理解待處理文本的語(yǔ)義。通過(guò)細(xì)粒度情感分析和粗粒度情感分析兩組試驗(yàn),分別對(duì)比了6種模型,驗(yàn)證了本文提出的模型在細(xì)粒度和粗粒度情感分析試驗(yàn)中都具有較明顯的優(yōu)勢(shì),能夠更好地完成文本情感分析的任務(wù)。

      本文提出的BiLSTM-CapsNet混合模型在試驗(yàn)中使用的訓(xùn)練時(shí)間資源都高于單一的CNN、BiLSTM和CapsNet模型,與同類(lèi)的CNN+BiLSTM、CNN+CapsNet混合模型相當(dāng),所以如何使用更少的時(shí)間資源進(jìn)一步提高本文模型文本情感分析的準(zhǔn)確率是下一步的工作目標(biāo)。

      猜你喜歡
      細(xì)粒度語(yǔ)義卷積
      融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
      語(yǔ)言與語(yǔ)義
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      基于雙線(xiàn)性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
      支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
      “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語(yǔ)義模糊
      宁国市| 虹口区| 舟曲县| 宜丰县| 六安市| 漳平市| 灌南县| 灵璧县| 扶沟县| 海兴县| 开封市| 临澧县| 同江市| 辽源市| 南投市| 井研县| 如东县| 崇阳县| 庄河市| 利川市| 东乡| 仁布县| 福鼎市| 罗田县| 黄龙县| 金湖县| 西乡县| 东港市| 民丰县| 哈尔滨市| 临汾市| 通州区| 上栗县| 方正县| 香格里拉县| 南乐县| 衡东县| 会宁县| 农安县| 汉川市| 福海县|