• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      用于面向目標的情感分析的分級預(yù)測策略

      2021-03-29 03:08:04王衛(wèi)紅
      浙江工業(yè)大學學報 2021年2期
      關(guān)鍵詞:極性標簽卷積

      王衛(wèi)紅,吳 成

      (浙江工業(yè)大學 計算機科學與技術(shù)學院,浙江 杭州 310023)

      面向目標的情感分析的主要任務(wù)是給定句子中的目標詞,判斷該目標詞在當前句子中的情感極性。以句子“the food is good but the service is bad.”為例,在該句子中存在兩個目標詞“food”和“service”,這兩個目標詞在句子中的情感極性分別為正向與負向,在該任務(wù)上,神經(jīng)網(wǎng)絡(luò)的模型已經(jīng)達到了較高的準確率。大部分神經(jīng)網(wǎng)絡(luò)模型都使用了注意力機制來捕捉目標與上下文的關(guān)系,但是注意力機制捕捉的詞級別的特征可能會引入一些噪音。以“the dish tastes bad but its vegetable is delicious though it looks ugly.”為例,基于注意力機制的模型會在“bad”和“ugly”這些詞上分配較大的權(quán)重??梢允褂靡环N分層預(yù)測的策略來解決這個問題。將任務(wù)分為兩個階段:首先給所有的詞分配一個軟標簽來標記該詞作為意見詞的概率,然后將所有標記的意見詞的軟標簽作為特征來判斷目標的情感極性。由于日常生活中人們語言使用非常自由,目標詞的情感詞在前后都可能出現(xiàn),并且隨著語境的變化相同的情感詞有可能表達不同的情感,因此需要對詞進行靈活的向量嵌入。筆者使用Bert對該過程建模,計算每個詞的軟標簽概率[1]。卷積層在捕捉局部特征上有較好的表現(xiàn)[2],不僅在圖像處理上有很好的效果[3-5],在文本分類上相對于其他神經(jīng)網(wǎng)絡(luò)效果也較好,因此使用卷積神經(jīng)網(wǎng)絡(luò)提取局部特征。此外,詞語與目標詞的距離也是一個重要特征,離目標詞越近越可能是該目標的意見詞,因此引入位置權(quán)重來捕捉該特征。

      1 相關(guān)工作

      在面向目標的情感分析任務(wù)中,以前的方法主要是監(jiān)督學習并配合人工特征進行訓練[6-8],通常忽略上下文信息以及目標與上下文的關(guān)系,一些使用該方法的神經(jīng)網(wǎng)絡(luò)模型在該任務(wù)上達到了較高的準確率。該方法具有一定的缺陷,比如AE-LSTM和ATAE-LSTM模型[9]僅僅將目標詞的向量嵌入與上下文單詞的向量嵌入拼接在一起來表示目標詞與上下文的關(guān)系,都沒有將目標詞與上下文充分聯(lián)系起來。Bert作為一種預(yù)訓練的語言模型,極大地增強了詞語之間的聯(lián)系,使用實驗語料對Bert進行微調(diào),捕捉上下文關(guān)系,可以得到更靈活準確的向量嵌入。大部分SOTA的模型都使用了注意力機制來衡量句子中各單詞的關(guān)系。IAN模型[10]采用了分開的兩個LSTM層[11]和交互式的注意力機制;Hazarika等[12]使用注意力機制對句子內(nèi)的目標詞依賴進行建模,一次性對所有的目標詞的情感極性進行分類;MemNet[13],RAM[14],TRMN[15],IARM[16]等使用句子級的深度記憶網(wǎng)絡(luò)和多跳注意力機制將目標詞信息整合到句子表示中,其中TRMN和IARM考慮了句子中各目標詞之間的關(guān)系信息,著重對目標詞和上下文以及目標詞之間的關(guān)系進行建模。

      考慮到卷積神經(jīng)網(wǎng)絡(luò)在文本分類和目標級情感分類問題上表現(xiàn)良好,筆者設(shè)計的模型采用了卷積神經(jīng)網(wǎng)絡(luò)。GCAE[17]和PG-CNN[18]都是基于卷積神經(jīng)網(wǎng)絡(luò)的模型,使用門機制對目標詞和上下文進行建模。為進一步提升建模效果,引入位置權(quán)重對單詞之間的距離信息進行編碼。

      2 模型介紹

      目標級情感分析的任務(wù)是判別句子中目標詞的情感極性,分為正向、中立和負向。筆者設(shè)計的模型架構(gòu)如圖1所示。

      圖1 模型組織架構(gòu)

      該模型由4 部分組成:1) 對上下文和目標詞進行向量嵌入的Bert層;2) 基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取器;3) 計算各單詞軟標簽概率的軟標簽計算層;4) 結(jié)合位置權(quán)重和軟標簽概率輸出情感極性的情感分類層。為方便起見,將一個句子表示為

      s=[w1,w2,…,wn]

      (1)

      式中wi表示句子的第i個單詞。

      目標詞位置表示為

      t=[t,t+1,…,t+m-1]

      (2)

      式中:t≥1;t+m-1≤n,其中m為目標詞長度。

      2.1 Bert向量嵌入

      自2018年誕生以來,Bert打破了很多自然語言處理任務(wù)的最好效果記錄,因此采用Bert作為預(yù)訓練語言模型。在使用Bert進行向量嵌入之前,使用SemEval語料的分類任務(wù)為Bert作微調(diào)工作。Bert模型由12 個Transformer block組成,在堆疊的12 個模塊中,淺層模塊通常學習的是比較基礎(chǔ)的詞語類信息,深層模塊學習的是比較抽象的語義信息,分別取倒數(shù)第1~3 層的隱藏向量作為嵌入向量。實驗結(jié)果顯示倒數(shù)第2 層的隱藏向量效果最好,原因可能是倒數(shù)第1 層模塊太靠近下游的訓練任務(wù),因此在語義的學習上反而不如倒數(shù)第2 層。最終采用倒數(shù)第2 層的隱藏向量作為嵌入的詞向量和卷積層的輸入。

      2.2 卷積層特征提取

      卷積神經(jīng)網(wǎng)絡(luò)在局部特征提取上相比于其他類型的網(wǎng)絡(luò)(如RNN)通常具有更大優(yōu)勢,因此采用卷積神經(jīng)網(wǎng)絡(luò)進行語句局部信息的提取。在卷積核的選擇上,受TextCNN模型啟發(fā),選擇3 種不同大小的卷積核來提取不同維度的特征,然后將特征拼接后進行平均池化操作,最終得到固定大小的卷積層特征,卷積核大小分別為3,4,5。

      假設(shè)每種卷積核有d1個模板,對于大小為sj的卷積核來說,可以用Wconvj∈Rd1×sj×2d′0表示其中的d1個卷積核模板的集合;用bconvj∈Rd1表示偏置;用xconvj表示卷積后的結(jié)果,計算式為

      (3)

      式中:RELU表示非線性的激活函數(shù);°表示點積操作。

      將3 個卷積核的結(jié)果進行拼接即為最終的計算結(jié)果,計算式為

      (4)

      最后使用平均池化層計算htarget為

      (5)

      2.3 軟標簽計算

      在目標級情感分析中,通常做法是通過上下文信息判斷每個詞是否為情感詞,然后將判定為情感詞的詞語提取出來作為最終判斷目標詞情感極性的特征。但是,這種以“硬標簽”的方式直接判定一個詞是否為情感詞,會造成在鏈式法則求導時出現(xiàn)不可微的點,從而不能使用后向傳播方法;同時,由于對情感詞的錯誤判定,在后續(xù)特征提取時會造成更大的誤差。筆者通過引入軟標簽來避免這兩個問題,使用門機制對細胞的歷史信息進行過濾,加強軟標簽與目標詞的相關(guān)性。

      (6)

      在上述計算過程中有一個問題,就是LSTM單元中存儲的信息可能與目標詞的關(guān)系不大。以預(yù)測“tasty food but the service was dreadful!”中的“service”一詞的情感極性為例,將整句話輸入LSTM層之后,有可能會由于“tasty”一詞從而將整句的情感極性簡單地預(yù)測為正面的,而沒有考慮到“service”目標詞的相關(guān)極性。筆者嘗試通過引入門機制來解決這個問題,門機制可以根據(jù)歷史信息和當前詞與目標詞的關(guān)系對當前細胞的歷史信息進行過濾。其計算式為

      (7)

      式中Wg∈Rd′1×d′1為權(quán)重矩陣。

      為加重目標詞的影響力,將其信息加入到LSTM的輸入中,計算式為

      (8)

      式中:WD∈Rd′1為權(quán)重參數(shù);li-1為第i-1個單詞的情感詞概率。

      為防止LSTM輸入的向量維度過大,將目標詞向量與詞向量增加一個額外的運算操作。在得到LSTM層的輸出之后,當前詞的情感詞概率的計算式為

      (9)

      式中ei=1,表示當前詞相對于當前的目標詞為情感詞。

      2.4 情感分類

      最后的模塊模型采用全連接層作為分類器??紤]到情感詞與目標詞之間的位置關(guān)系對情感判定的影響,給模型引入額外的特征,即相對位置權(quán)重。一般來說,離目標詞越近,越能用于判斷目標詞的情感極性,基于這種考慮,筆者設(shè)計的位置權(quán)重為

      (10)

      式中β表示用來控制由與目標詞的距離引起的位置權(quán)重的衰減速率。

      將詞概率與位置權(quán)重相結(jié)合,對上下文和相對位置特征進行整合,計算式為

      ci=li×posi

      (11)

      進一步將詞向量進行整合,預(yù)測目標詞的情感極性,計算式為

      (12)

      訓練過程中使用的損失函數(shù)為

      (13)

      式中:T為訓練數(shù)據(jù)數(shù)量;yi為樣本i的真實標簽,是一個獨熱向量;pi,j表示樣本i預(yù)測為極性j的概率;γ‖θ‖2為L2正則化損失。

      3 實驗結(jié)果

      3.1 實驗設(shè)置

      實驗使用的數(shù)據(jù)集是SemEval2014中的任務(wù)4,數(shù)據(jù)集為Laptop以及Restaurant,其統(tǒng)計數(shù)據(jù)如表1所示,評論分成3 個情感極性,即正向、中立和負向。

      表1 數(shù)據(jù)集統(tǒng)計分布

      實驗中,首先用SemEval的分類任務(wù)對Bert進行微調(diào),然后取Bert倒數(shù)第2 層的隱向量作為模型的嵌入向量,卷積核大小分別為3,4,5,每個卷積核有128 個過濾器。LSTM的輸出是400 維,卷積層的輸出是384 維。模型中使用了Adam進行梯度下降優(yōu)化,學習速率設(shè)置為0.003,batchsize設(shè)置為128。為了防止過擬合,設(shè)置dropout的概率為0.5,L2正則的參數(shù)為0.000 01,用來調(diào)節(jié)位置權(quán)重的超參數(shù)β為40。

      3.2 模型結(jié)果比較

      將筆者設(shè)計的模型與之前的SOTA模型進行比較。其他模型信息為

      1) GCAE模型,該模型基于卷積神經(jīng)網(wǎng)絡(luò),使用門控Tanh-RELU單元控制信息流,對目標和上下文進行建模。

      2) PG-CNN模型,該模型使用CNN作為基礎(chǔ)架構(gòu),并使用門控機制來將目標信息編碼進CNN結(jié)構(gòu)中。

      3) Hazarika模型,該模型使用雙層LSTM結(jié)構(gòu)對目標詞之間的依賴進行檢測,用注意力機制對句子中的所有目標詞進行一次性分類輸出。其中雙層LSTM設(shè)計如下:首先,第1 層LSTM基于句子中的每個目標詞對整句信息進行編碼,其具體做法是將中間層中具有上下文信息的單詞嵌入進行提取,將這些單詞的向量進行簡單拼接,輸入LSTM,得到整句的編碼向量;然后,將第1 層的輸出作為第2 層的LSTM的輸入來捕捉目標詞之間的依賴信息。

      4) Memnet模型,該模型使用了多跳注意力機制。具體做法是:將目標詞的向量嵌入作為注意力模塊第1 層的詢問,并將注意力計算結(jié)果與目標詞的線性變換相加作為中間記憶,然后進一步作為詢問參與下一層的注意力計算。注意力機制最后一層的計算結(jié)果作為情感極性的向量表示,用來進行分類。

      5) RAM模型,與Memnet類似,該模型也使用了多跳注意力機制,但是在計算中間記憶時加入了位置權(quán)重來對句子中的特征進行提取。

      6) IARM模型,該模型混合使用了循環(huán)記憶網(wǎng)絡(luò)與注意力機制。構(gòu)建記憶網(wǎng)絡(luò)的方法類似于Hazarika的模型的第1 層LSTM,使用基于目標詞信息對整句進行編碼,使用記憶網(wǎng)絡(luò)對目標詞之間的依賴來進行建模,而不是像Hazarika使用的LSTM。

      在以上模型中,除了GCAE和PG-CNN,其他模型都采用了注意力機制對目標詞和上下文進行建模。注意力機制雖然能較好地捕捉到情感詞,但是沒有充分考慮各個詞位置之間的關(guān)系,從而混淆了目標詞的真實情感極性。根據(jù)歷史信息對每一步的單詞單獨估計其作為情感詞的概率,并且額外引入相對位置權(quán)重衡量每個情感詞對目標詞的貢獻。Memnet,RAM和IRAM模型是基于記憶網(wǎng)絡(luò)進行設(shè)計的,僅僅提取了句子級別的特征,沒有考慮單個詞對目標情感極性的貢獻,也就失去了情感詞的信息。利用上下文歷史信息對每個單詞的情感詞概率進行建模,充分利用了情感詞的信息?;诰矸e構(gòu)建了GCAE和PG-CNN的模型,但是這兩個模型的表現(xiàn)并不出色,其主要原因是原始的卷積層傾向于捕捉整個句子中最重要的特征,而不是尋找與目標詞相關(guān)的特征。直觀上離目標詞越近的詞與目標詞的關(guān)系越密切,因此筆者設(shè)計了相對位置權(quán)重公式。通過以上策略對模型進行改進,效果對比如表2所示。

      表2 各模型結(jié)果比較

      3.3 模塊分析

      為估計各模塊對模型的貢獻,對模型中相應(yīng)的模塊進行移除操作或使用常用模型替代,觀察其最終效果,效果對比如表3所示。

      表3 模型模塊分析對比

      相比于之前的模型,筆者設(shè)計的模型使用了基于歷史信息的軟標簽方法。注意力機制將目標詞作為詢問來計算其與上下文的關(guān)系,基于歷史信息即之前的軟標簽概率和細胞狀態(tài)計算當前軟標簽概率。為進一步評估軟標簽方法的效果,用注意力機制替代了該模塊。結(jié)果顯示:使用注意力機制的模型在Restaurant和Laptop這兩個數(shù)據(jù)集上的準確率分別下降了1.55%和0.75%,Marco-F1則分別下降了2.21%和1.75%,說明采用軟標簽的方法是有效的。筆者也采用硬標簽機制替換軟標簽機制進行效果評估。在硬標簽機制中,一個詞只能作為情感詞或非情感詞處理,標簽值非0即1。軟標簽機制以0和1的概率來表示當前詞作為情感詞的概率,處理方式更為靈活。實驗結(jié)果表明使用軟標簽相比于硬標簽對實驗效果有著巨大的提升。

      筆者也測試了不使用歷史信息和位置權(quán)重的模型的效果。不使用歷史信息是指不將前一時間步的軟標簽信息和細胞狀態(tài)作為當前時間步的輸入,僅僅使用隱層的權(quán)值矩陣來計算當前時間步軟標簽的概率。結(jié)果表明:不使用歷史信息,模型在兩個數(shù)據(jù)集的準確率分別下降了1.89%和0.62%,說明歷史信息在模型中起著重要作用;不使用位置權(quán)重,模型在兩個數(shù)據(jù)集上的準確率分別下降了0.69%和0.55%,說明位置權(quán)重對于模型效果也有著明顯的提升作用。

      4 結(jié) 論

      提出了一種基于計算情感詞概率的分層策略來完成目標級情感分析任務(wù),通過3 個途徑提高了該任務(wù)的識別效果:1) 軟標簽的使用;2) 歷史信息的有效利用;3) 相對位置權(quán)重的嵌入。在SemEval2014上的實驗結(jié)果表明:筆者設(shè)計的模型相比Memnet、RAM和IARM等SOTA模型有一定提高。該模型存在的不足是:在實際工作中,同一個情感詞在不同的上下文環(huán)境中有時有著不同的語義,會導致模型錯判目標的情感極性,下一步的工作將解決這個問題。

      猜你喜歡
      極性標簽卷積
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      跟蹤導練(四)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      基于傅里葉域卷積表示的目標跟蹤算法
      標簽化傷害了誰
      表用無極性RS485應(yīng)用技術(shù)探討
      一種新型的雙極性脈沖電流源
      基于多進制查詢樹的多標簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      西乌珠穆沁旗| 丹巴县| 新宁县| 桃江县| 邢台市| 衡东县| 富锦市| 江孜县| 牟定县| 秦皇岛市| 鄂州市| 彩票| 阜平县| 钟祥市| 马关县| 新巴尔虎右旗| 萨迦县| 昌黎县| 淄博市| 景宁| 黑河市| 乌兰察布市| 石泉县| 昌平区| 文安县| 凌云县| 曲周县| 东至县| 射阳县| 饶阳县| 冀州市| 伊通| 蓝田县| 青浦区| 尼玛县| 黎城县| 莱阳市| 马关县| 吉林市| 新巴尔虎右旗| 抚松县|