• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于局部上下文和GCN的方面級情感分類模型

      2022-03-28 06:31:44鄭陽雨蔣洪偉
      關(guān)鍵詞:注意力語義卷積

      鄭陽雨,蔣洪偉

      (北京信息科技大學(xué) 信息管理學(xué)院,北京100192)

      0 引言

      近年來,很多人在各種電商網(wǎng)站的評論區(qū)及其他社交平臺上發(fā)布評論來表達自己的情感或觀點,社交平臺文本數(shù)據(jù)呈指數(shù)級增長。對這些海量數(shù)據(jù)進行情感分析有助于獲取用戶的態(tài)度信息,了解用戶的真正需求,幫助企業(yè)做出判斷和決策。方面級情感分析就是要獲取商品各方面(方面表示商品的屬性或特征)的情感[1]。

      傳統(tǒng)機器學(xué)習(xí)方法通常通過構(gòu)建情感詞典或情感特征,再使用樸素貝葉斯模型(naive Bayesian model,NBM)、支持向量機(support vector machine,SVM)等分類器進行情感分類[2-3]。但是人工構(gòu)建特征工程耗費大量的人力,有時需要結(jié)合語法分析等外部知識,模型的靈活性較差。

      近年來興起的深度學(xué)習(xí)方法能夠自動學(xué)習(xí)方面和上下文的低維表示,較好地彌補了機器學(xué)習(xí)方法的缺陷。其中深度學(xué)習(xí)方法使用的預(yù)訓(xùn)練語言模型將自然語言用向量表示,通過對向量的操作來學(xué)習(xí)自然語言的交互特性。在最具影響力的語言模型中,Devlin等[4]提出的基于轉(zhuǎn)換器的雙向編碼器表示(bidirectional encoder representations from transformers,BERT)預(yù)訓(xùn)練模型使用雙層的Transformer結(jié)構(gòu)在大型語料庫上訓(xùn)練,摒棄了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的結(jié)構(gòu),取得了突破性進展。Zeng等[5]認(rèn)為方面的情感極性與相近的上下文更相關(guān),提出了局部上下文關(guān)注(local context focus,LCF)機制,能更準(zhǔn)確地預(yù)測方面的情感。Tang等[6]將目標(biāo)方面和上下文綜合考慮完成對句子的語義建模。Wei Xue等[7]基于CNN和門控機制提出的基于方面詞嵌入的門控卷積網(wǎng)絡(luò)(gated convolutional network with aspect embedding,GCAE)模型易于并行訓(xùn)練。Zhang等[8]在句子的依存關(guān)系樹上建立神經(jīng)網(wǎng)絡(luò),來利用句法信息和單詞的長距離依賴關(guān)系。

      許多研究將注意力機制[9]和神經(jīng)網(wǎng)絡(luò)結(jié)合,關(guān)注句子中更重要的部分。梁斌等[10]將CNN和多種注意力機制結(jié)合,與單純的CNN、基于單注意力機制的CNN和基于注意力機制的長短時記憶(long short-term memory,LSTM)網(wǎng)絡(luò)模型相比,取得更好的情感分類效果。Song等[11]針對RNN難以獲得由時間截斷的反向傳播帶來的長期依賴關(guān)系,采用注意力機制構(gòu)建上下文和方面之間的模型。Ma等[12]通過方面和上下文的交互式學(xué)習(xí)提高情感分類性能。Huang等[13]通過注意力機制為方面和句子建模,模型性能優(yōu)于以前基于LSTM的模型。

      以上神經(jīng)網(wǎng)絡(luò)算法雖然考慮了方面的局部上下文,但忽略了其中隱含的情感信息。本文基于LCF模型,將門控卷積網(wǎng)絡(luò)(gated convolutional network,GCN)[14]作為補充,進一步選擇與方面相關(guān)的情感特征,并且采用表現(xiàn)出色的BERT預(yù)訓(xùn)練模型獲得詞嵌入,用于情感分類。

      1 模型結(jié)構(gòu)

      為了進行方面級情感分析,本文提出一種基于局部上下文和門控卷積網(wǎng)絡(luò)的方面級情感分類模型(aspect level sentiment classification model based on local context and gated convolutional network,LCGCN)。模型結(jié)構(gòu)如圖1所示,共包括5層:第一層是詞向量輸入層,使用預(yù)訓(xùn)練的BERT模型對輸入的文本進行編碼;第二層是動態(tài)加權(quán)層,使用上下文特征動態(tài)加權(quán)(context features dynamic weighted,CDW)的方法[5]捕捉局部上下文和方面的相關(guān)信息;第三層是門控卷積層,使用GCN捕捉與方面相關(guān)的情感特征;第四層是注意力層,采用多頭自注意力(multi-head self-attention,MHSA)機制捕捉句子內(nèi)部的語義關(guān)聯(lián);最后是輸出層,使用Softmax分類器計算情感極性的概率分布,完成情感極性分類。

      圖1 LCGCN模型結(jié)構(gòu)

      1.1 詞向量輸入層

      該層的任務(wù)是將語言文字映射為低維向量。本文使用BERT模型獲得詞嵌入矩陣,來獲取文本的雙向語義關(guān)系,充分抓取文本的語義特征。面對詞語在不同句中擁有不同語義的問題,使模型更好地理解句子的整體語義,模型捕捉局部上下文特征的同時構(gòu)建全局上下文表示。

      局部上下文是指方面的鄰近詞,且與方面的語義相關(guān)。為了確定句子中的哪些詞是方面的局部上下文,將評論語句作為初始局部上下文序列,使用CDW方法捕捉局部上下文特征。全局上下文包含詞與詞在句子層次上的依賴關(guān)系,為了充分保留句子的整體語義,并學(xué)習(xí)全局上下文和方面之間的相關(guān)性,把整個評論語句和方面詞組合成句子對,作為全局上下文序列,例如“All of my co-workers stated that the food was amazing”,對于方面“food”,“that the”和“was amazing”可定義為“food”的局部上下文,它們與“food”的語義更相關(guān),而全局上下文考慮整條語句,來學(xué)習(xí)方面的特征。

      1.2 動態(tài)加權(quán)層

      該層對全局上下文不做處理,以充分保留方面信息和句子的整體語義。為了捕捉方面和局部上下文的相關(guān)信息,本文采用Zeng等[5]提出的語義相關(guān)距離(semantic-relative distance,SRD)衡量初始局部上下文單詞和特定方面的相關(guān)程度,接著使用CDW方法[5]獲得與方面語義相關(guān)的上下文特征。

      第i個位置的上下文詞和特定方面之間的語義相關(guān)距離定義為

      (1)

      式中:p為方面的中心位置;m為方面的長度。當(dāng)di高于閾值時,語義相關(guān)的局部上下文的特征將得到絕對保留,而當(dāng)di不超過閾值時,與語義較不相關(guān)的局部上下文的特征將得到加權(quán)衰減,因此需要為每個局部上下文詞構(gòu)造特征向量來對特征加權(quán),第i個位置的局部上下文詞對于特定方面的語義相關(guān)的權(quán)重向量定義為

      (2)

      (3)

      1.3 門控卷積層

      門控卷積層采用GCN選擇與方面相關(guān)的情感特征,GCN包含卷積網(wǎng)絡(luò)和門控單元,卷積網(wǎng)絡(luò)用于提取不同粒度的上下文特征,且通過并行計算減少運行時間,門控單元輸出情感特征。

      (4)

      式中:frelu為ReLU激活函數(shù),Wa和Va為權(quán)重矩陣;ba為偏置;a表示方面特征。

      (5)

      式中:ftanh為Tanh激活函數(shù):Ws為權(quán)重矩陣:bs為偏置:s表示情感特征。選擇方面特征和情感特征的相關(guān)信息:

      cGCN=s·a

      (6)

      式中:cGCN是與方面相關(guān)的情感特征;“·”為向量點積。

      1.4 注意力層

      ocon=[cGCN;cG]×Wo

      (7)

      式中:“;”表示水平拼接;Wo為權(quán)重矩陣。

      MHSA首先計算注意力分?jǐn)?shù),再對輸入句子加權(quán)求和,在不同子空間中獲得句子內(nèi)部的語義關(guān)聯(lián)。本文使用縮放點積注意力(Scaled dot-product attention,SDA)函數(shù)計算詞的注意力分?jǐn)?shù):

      (8)

      (9)

      式中:Q、K和V通過注意力層的輸入ocon和各自的權(quán)重矩陣Wq∈Rdh×dq、Wk∈Rdh×dk、Wv∈Rdh×dv相乘得到,維度分別為dq、dk、dv,它們都通過dh/h得到,dh為隱藏層的維度,h為頭的數(shù)量,fSoftmax表示Softmax函數(shù)。

      假設(shè)第i個頭部學(xué)習(xí)到的注意力表示為

      Hi=fSDA(Qi,Ki,Vi)

      (10)

      式中:Qi、Ki、Vi是在第i個頭部通過注意力層的輸入和權(quán)重矩陣相乘得到。所有頭部學(xué)習(xí)到的注意力將拼接起來,對輸入特征表示加權(quán),再經(jīng)過一次線性映射得到注意力層的輸出oMHSA:

      oMHSA=ftanh({H1;H2;…;Hh}·WMHSA)ocon

      (11)

      式中:“;”表示向量拼接;ftanh為Tanh激活函數(shù),以增強該層的學(xué)習(xí)能力;WMHSA為權(quán)重矩陣;oMHSA為注意力層的輸出,包含句子內(nèi)部的語義關(guān)聯(lián)。

      1.5 輸出層

      該層的任務(wù)是輸出每條評論語句中方面的情感極性,包括積極、中性和消極3種情感。取出特征矩陣的第一條向量,它匯集了該矩陣的所有信息,再經(jīng)過線性變換并輸入到激活函數(shù)中得到特征表示:

      xpool=ftanh(oMHSA[:,0]·Wd×d)

      (12)

      式中:oMHSA[:,0]表示特征矩陣oMHSA的第一條向量;Wd×d表示維度為d×d的權(quán)重矩陣;d為隱藏層的維度;ftanh表示Tanh激活函數(shù)。將xpool輸入到全連接網(wǎng)絡(luò)中,得到最終表示:

      xdense=xpool·Wd×C

      (13)

      式中:Wd×C表示維度為d×C的權(quán)重矩陣;d為隱藏層的維度;C為情感類別的數(shù)量。最終使用Softmax預(yù)測情感極性y:

      (14)

      式中,fSoftmax為Softmax函數(shù)。

      1.6 模型訓(xùn)練

      本文通過最小化交叉熵?fù)p失函數(shù)對模型進行訓(xùn)練和更新,得到最優(yōu)模型參數(shù)。由于中性情感是一種非常模糊的情感狀態(tài),標(biāo)記中性情感的訓(xùn)練樣本是不可靠的,因此在損失函數(shù)中加入標(biāo)簽平滑正則化(label smoothing regularization,LSR)[15],來防止模型在訓(xùn)練過程中給每個訓(xùn)練實例分配完全的概率,進而減少過擬合,如用0.1和0.9的平滑值替換分類器的完全概率0和1。

      對于訓(xùn)練樣本x,原始的真實分布為q(c|x),平滑的真實分布q′(c|x)通過LSR計算:

      q′(c|x)=(1-ε)q(c|x)+εu(c)

      (15)

      式中:ε為平滑參數(shù);c為情感標(biāo)簽;u(c)為標(biāo)簽的先驗分布,設(shè)置為均勻分布u(c)=1/C,C為情感類別的數(shù)量。模型將預(yù)測分布p(c)和平滑的真實分布q′(c)的交叉熵作為損失函數(shù),損失值為

      (16)

      2 實驗與結(jié)果分析

      2.1 數(shù)據(jù)集和參數(shù)設(shè)置

      本文采用的數(shù)據(jù)是SemEval2014 Task4的競賽數(shù)據(jù)集,包含筆記本和餐廳兩個領(lǐng)域的用戶評論子數(shù)據(jù)集,有3種情感標(biāo)簽:積極、中性和消極。數(shù)據(jù)集在不同情感極性下的訓(xùn)練集和測試集評論數(shù)量如表1所示。

      表1 實驗數(shù)據(jù)統(tǒng)計

      實驗中,Glove[16]詞向量維度為300,BERT預(yù)訓(xùn)練模型的維度為768。為了避免過擬合,本文在試驗中采用了Dropout機制,LCGCN模型在兩個子數(shù)據(jù)集上采用相同的超參數(shù)設(shè)置,如表2所示。

      表2 模型的參數(shù)設(shè)置

      2.2 實驗結(jié)果與分析

      為了全面評價和分析本文模型的性能,在SemEval2014 Task4數(shù)據(jù)集上進行實驗,并與基線模型進行對比?;€模型如下:

      1)AOA(attention-over-attention)[13]、交互注意力網(wǎng)絡(luò)(interactive attention networks,IAN)[12]、基于方面詞嵌入的注意力LSTM(attention-based LSTM with aspect embedding,ATAE-LSTM)[17]均使用Glove訓(xùn)練詞向量,結(jié)合LSTM和注意力機制提取文本特征。AOA使用一個LSTM建模文本,IAN使用兩個LSTM為方面和上下文單獨建模,ATAE-LSTM按照注意力權(quán)重對LSTM的隱層狀態(tài)加權(quán)求和,用于情感分類。

      2)特定方面圖卷積網(wǎng)絡(luò)(aspect-specific graph convolutional network,ASGCN)[8]、記憶網(wǎng)絡(luò)(memory networks,MemNet)[18]、目標(biāo)獨立的LSTM(target-dependent LSTM,TD-LSTM)[6]同樣使用Glove訓(xùn)練詞向量。ASGCN使用圖卷積網(wǎng)絡(luò)抽取方面特征,MemNet結(jié)合深度記憶網(wǎng)絡(luò)和注意力機制,實現(xiàn)情感分類,TD-LSTM使用兩個反向的LSTM分別構(gòu)建左上下文和右上下文,實現(xiàn)情感分類。

      3)GCAE-Glove和GCAE-BERT[7]分別使用Glove和BERT模型訓(xùn)練詞向量,結(jié)合CNN和門控機制進行情感分類。

      4)LCF[5]使用BERT訓(xùn)練詞向量,使用CNN和MHSA處理全局上下文和局部上下文,實現(xiàn)情感分類。

      為了保證實驗結(jié)果的準(zhǔn)確性,本次實驗的模型均運行在相同的實驗環(huán)境下。各模型的準(zhǔn)確率和F1值如表3所示。

      表3 各模型的準(zhǔn)確率和F1值對比

      從表3可以看出,相較于基線模型,本文提出的模型LCGCN在兩個數(shù)據(jù)集上取得了比其他模型更好的分類效果,與LCF模型相比,準(zhǔn)確率和F1值提高1~2個百分點,表明GCN能準(zhǔn)確選擇與方面相關(guān)的情感特征。相較于本文模型,GCAE-BERT模型沒有區(qū)分局部上下文和全局上下文,未能充分獲取上下文特征,也沒有使用自注意力機制獲取句子內(nèi)部的語義關(guān)聯(lián),模型準(zhǔn)確率和F1值較低。相比于使用Glove訓(xùn)練詞向量的模型(如AOA、IAN、ASGCN、ATAE_LSTM、MemNet、TD_LSTM、GCAE-Glove),使用BERT的模型(如LCF、LCGCN、GCAE-BERT)實驗效果更好,表明BERT預(yù)訓(xùn)練模型能更好地編碼詞語語義。

      僅使用循環(huán)神經(jīng)網(wǎng)絡(luò)建模句子和方面的模型TD_LSTM效果總體上不夠理想,原因是模型很難記住長距離信息,AOA模型和IAN模型都使用了循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力機制,結(jié)果顯示在餐廳數(shù)據(jù)集上IAN的模型效果只差1%~2%,而在筆記本數(shù)據(jù)集上IAN的準(zhǔn)確率和F1值比AOA模型分別高出4%和6%,原因可能是IAN使用了兩個LSTM建模方面和句子,有效避免筆記本數(shù)據(jù)集中方面和句子之間的依賴關(guān)系。ASGCN模型與ATAE_LSTM模型相比,忽略了不同上下文信息對方面的重要性,模型效果較差。MemNet模型比基于LSTM的模型效果更好,可能是LSTM通過順序的方式對所有的上下文執(zhí)行相同的操作,不能明確反映出每個上下文詞的重要性。

      3 結(jié)束語

      本文基于LCF模型進行改進,提出了一種基于局部上下文和GCN的方面級情感分類模型LCGCN,保留了LCF模型中方面的局部上下文與該方面更相關(guān)的思想,使用門控卷積網(wǎng)絡(luò)獲得與方面相關(guān)的情感特征,采用多頭自注意力機制捕捉句子內(nèi)部的語義關(guān)聯(lián),還通過標(biāo)簽平滑正則化進一步解決過擬合問題,將BERT向量表示方法用于模型中,增強了模型性能。通過實驗將本文模型和已有的模型作對比,證明了本文模型在情感分類任務(wù)中的有效性。

      在下一步的工作中,考慮將句法結(jié)構(gòu)特征融入到模型中,利用外部知識提高情感分類效果。

      猜你喜歡
      注意力語義卷積
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      語言與語義
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語義模糊
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
      宾川县| 韶山市| 明星| 汉中市| 铁岭市| 西峡县| 冀州市| 大石桥市| 武安市| 拜泉县| 贡觉县| 双柏县| 且末县| 黄平县| 庄河市| 富阳市| 绍兴县| 卓尼县| 施秉县| 济源市| 德化县| 柘荣县| 调兵山市| 搜索| 尼玛县| 永川市| 新余市| 沐川县| 郧西县| 斗六市| 茶陵县| 运城市| 韶山市| 镇巴县| 武清区| 恩施市| 九龙县| 武夷山市| 开平市| 张家口市| 大悟县|