基于雙向注意力機(jī)制的問答情感分析技術(shù)研究

2021-10-12 20:36:25廖美紅

企業(yè)科技與發(fā)展 2021年9期

廖美紅

【關(guān)鍵詞】雙向注意力;問答情感分析;深度學(xué)習(xí)

【中圖分類號】TP391.1 【文獻(xiàn)標(biāo)識碼】A 【文章編號】1674-0688（2021）09-0095-03

0 引言

隨著時代發(fā)展進(jìn)程的不斷加快，處于Web2.0時代背景下，各大電商平臺獲得了迅猛發(fā)展，大量賣家選擇刷單作為提升自家店鋪銷量和信譽(yù)度的方法，這種不正當(dāng)行為給用戶購物帶來了負(fù)面影響。所以，如何準(zhǔn)確地挖掘產(chǎn)品評論輿情，對虛假的網(wǎng)絡(luò)平臺嚴(yán)格遏制，成為目前各大電商平臺迫切需要解決的問題之一[1]。于是，各大電商平臺近年來逐漸推出問答型評論這一功能，此功能可以滿足潛在買家對自己所關(guān)注商品，提出自己疑惑的問題，平臺會以用戶的購物信譽(yù)度隨機(jī)挑選已經(jīng)購買此產(chǎn)品的用戶，對問題進(jìn)行回答[2]。這一功能的應(yīng)運(yùn)而生相較傳統(tǒng)商品評論，在很大程度上避免了產(chǎn)生虛假信息，也能夠為潛在購買者提供更可靠、具體的回答[3-5]。怎樣對問答型評論內(nèi)信息進(jìn)行充分挖掘與分析，為商家和平臺用戶提供可靠的產(chǎn)品信息導(dǎo)向，本文提出通過深度學(xué)習(xí)基于雙向注意力機(jī)制的問答情感分析技術(shù)進(jìn)行問答情感分類。這不僅在目前有關(guān)問答文本情感分析研究領(lǐng)域上具有理論創(chuàng)新意義，也能保證電商平臺公平性，幫助商家調(diào)整產(chǎn)品營銷策略，提升信息轉(zhuǎn)化率，促進(jìn)我國電商事業(yè)良好發(fā)展具有指導(dǎo)價值。

1 主要技術(shù)概述

1.1 分布式詞向量模型

在運(yùn)用深度學(xué)習(xí)前期，一般在文本表示上要構(gòu)建向量空間模型，自1986年Hinton提出詞向量，作為向低維空間映射的向量，用于表示詞語間語義關(guān)系的一種形式。在以往研究中，大多采用訓(xùn)練語言模型獲得詞向量，建立連續(xù)詞袋模型，以上下文為依據(jù)，對目標(biāo)詞語進(jìn)行預(yù)測，能夠獲得對應(yīng)詞向量。該模型給定wt該詞的上下文ct=wt-n，…，wt-1，wt+1，…，wt+n;那么，該詞出現(xiàn)條件概率公式如下[6]：

給定訓(xùn)練樣本（w1，…，wt），建立連續(xù)詞袋模型目標(biāo)函數(shù)公式如下：

1.2 長短時記憶神經(jīng)網(wǎng)絡(luò)

長短時記憶神經(jīng)網(wǎng)絡(luò)于1997年提出，作為循環(huán)神經(jīng)網(wǎng)絡(luò)的一個變體，能夠成功地解決循環(huán)神經(jīng)網(wǎng)絡(luò)內(nèi)存在的梯度消失、爆炸等問題，廣泛應(yīng)用于文本分類、語音識別、機(jī)器翻譯等領(lǐng)域。相較傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)，因為記憶單元加入其中能夠很好地保存歷史信息，所以能夠有效避免梯度爆炸、衰減問題。

傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)主要是單向序列模型，本文運(yùn)用的是雙向循環(huán)神經(jīng)網(wǎng)絡(luò)，包括兩個循環(huán)神經(jīng)網(wǎng)絡(luò)，■t、■t分別代表過去、未來信息高層語義，公式如下[7]：

雙向長短時記憶網(wǎng)絡(luò)能夠替換雙向循環(huán)神經(jīng)網(wǎng)絡(luò)中前、后各項網(wǎng)絡(luò)，均為長短時記憶網(wǎng)絡(luò)（如圖2所示）。

1.3 語料資源

首先，在語料收集中，本文運(yùn)用爬蟲程序收集源于京東、淘寶平臺“問大家”這一問答功能中的問答評論，集中在美妝、鞋、數(shù)碼產(chǎn)品這三大領(lǐng)域，問答評論共計收集20余萬條。

其次，在語料標(biāo)注中，本文主要劃分為兩個部分，一是判斷問答型評論情感，二是標(biāo)注規(guī)范問答評論的正、負(fù)情感。

最后，在語料統(tǒng)計中，本文所統(tǒng)計的問答文本情感分類語料庫信息，統(tǒng)計了3個領(lǐng)域各自10 000條問答文本，共計30 000條（見表1），作為統(tǒng)計的語料內(nèi)情感類別分布情況。

根據(jù)表1統(tǒng)計情況發(fā)現(xiàn)每一個領(lǐng)域都存在正、負(fù)情感數(shù)量差距，所以面向問答文本情感分類面臨巨大的不平衡問題。

一般情況下，分類任務(wù)內(nèi)機(jī)器學(xué)習(xí)領(lǐng)域衡量分類指標(biāo)包括正確率、召回率、精準(zhǔn)率、F值，表示公式如下[8]：

公式（4）～公式（6）中：分類預(yù)測總計樣本數(shù)量用TP表示;其他分類器錯誤預(yù)測樣本數(shù)目用FP表示;分類器錯誤預(yù)測其他類別樣本數(shù)目用FN表示;其他分類被分類器正確預(yù)測對應(yīng)類別樣本數(shù)目用TN表示。

其中，F(xiàn)作為精準(zhǔn)率、召回率評價指標(biāo)，公式如下[9]：

根據(jù)公式（7），在β為1的情況下，召回率、精準(zhǔn)率二者同樣關(guān)鍵，在β>1的情況下，相較召回率，精準(zhǔn)率更加重要，反之，β<1則召回率更加重要，本文中β值均取1。

2 基于雙向注意力機(jī)制的問答情感分類

該方法不同于傳統(tǒng)情感分類，對于問答文本情感分類運(yùn)用上文提出的雙向神經(jīng)網(wǎng)絡(luò)解決，建立雙向注意力機(jī)制神經(jīng)網(wǎng)絡(luò)模型（如圖3所示）。

首先，在輸入映射層，主要需要轉(zhuǎn)變問、答文本內(nèi)詞語為詞向量，輸入至該神經(jīng)網(wǎng)絡(luò)中。

其次，在Bi-LSTM層，需要運(yùn)用上文提出的雙向LSTM獲得問、答文本高層語義信息。

再次，在注意力層，運(yùn)用注意力機(jī)制分別在問答文本內(nèi)提取關(guān)鍵情感相匹配信息。

最后，在Softmax層，經(jīng)該層完成問答文本向量的情感分類。

3 實驗分析

3.1 實驗設(shè)計

結(jié)合上述兩部分的基礎(chǔ)技術(shù)與建立的雙向注意力機(jī)制神經(jīng)網(wǎng)絡(luò)模型，對前期提取的10 000條問答數(shù)據(jù)集作為輸入樣本展開試驗分析，劃分了70%的訓(xùn)練集、10%的樣本集、20%的測試集。在對樣本進(jìn)行分詞后，通過Word2vec訓(xùn)練詞向量共計200 000條問答。在本次實驗中，運(yùn)用SVM算法經(jīng)Kreas完成LSTM神經(jīng)網(wǎng)絡(luò)模型，驗證本文提出該分析技術(shù)的準(zhǔn)確率與FI值。

3.2 實驗結(jié)果

為了驗證本文提出的基于雙向注意力機(jī)制的問答情感分析技術(shù)的準(zhǔn)確性與有效性，對比設(shè)計了幾種情感方法，得出試驗結(jié)果（見表2）。

根據(jù)表2能夠發(fā)現(xiàn)，相較SVM分類器，運(yùn)用神經(jīng)網(wǎng)絡(luò)分析具備更優(yōu)越的性能，證明了本文提出對問答情感分析采用神經(jīng)網(wǎng)絡(luò)方法的可行性;通過分別對比Uni-ATT Q、Uni-ATT A、Bi-ATT 3種輸入方法發(fā)現(xiàn)，問答文本情感分析如果拼接處理并不適合;通過在本次雙向注意力機(jī)制神經(jīng)網(wǎng)絡(luò)模型中輸出問答文本，對比Bi-ATT與單向注意力機(jī)制分析方法Uni-ATT Q、Uni-ATT A能夠看出本文提出此分析方法的性能更好。

根據(jù)以上研究結(jié)果，為了進(jìn)一步驗證本文提出此種問答情感分析技術(shù)的有效性，選擇目前該研究領(lǐng)域更新型處理方法展開對比，其中對比CNN-Tensor（此方法目前在句子級情感分類領(lǐng)域的性能最優(yōu)）、ATT-LSTM（作為目前該研究領(lǐng)域在屬性級情感分析中能夠達(dá)到的性能最優(yōu)方法，經(jīng)LSTM隱層輸出即可獲得分析權(quán)重）、BiMPM（此方法能夠在該研究領(lǐng)域問答匹配任務(wù)上達(dá)到最優(yōu)性能），通過對比得出試驗結(jié)果（見表3）。

根據(jù)表3能夠發(fā)現(xiàn)，本文基于雙向注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型對問答文本情感分析的準(zhǔn)確率與FI值，相較其他幾種方法明顯更優(yōu)，證實了該方法能夠準(zhǔn)確地對問答文本情感相匹配信息進(jìn)行有效的捕捉。將本文提出的方法對比BiMPM方法，反映出問答情感匹配機(jī)制的應(yīng)用性能優(yōu)勢，并且將Bi-ATT相較其他方法，同樣發(fā)現(xiàn)本文提出的方法可以對問答文本中情感匹配信息進(jìn)行高準(zhǔn)確率的捕捉。

4 結(jié)論

本文提出了基于雙向注意力機(jī)制的問答情感分析技術(shù)，建立了基于雙向注意力機(jī)制神經(jīng)網(wǎng)絡(luò)模型，并對本文所應(yīng)用的主要技術(shù)進(jìn)行說明，通過輸入映射層、Bi-LSTM層、注意力層、Softmax層構(gòu)建了分析模型。將本文提出的方法對比了幾種情感分類方法，根據(jù)試驗結(jié)果發(fā)現(xiàn)本文提出此分析方法的性能更好;為了證實本文提出此分析技術(shù)的準(zhǔn)確度，又進(jìn)一步對比分析了目前最新的幾種處理方法，研究發(fā)現(xiàn)本文提出的基于雙向注意力機(jī)制問答情感分析方法準(zhǔn)確率更高，達(dá)到76%的問答情感分析準(zhǔn)確率，F(xiàn)I值最終為62%，在實驗中相較其他分析技術(shù)的應(yīng)用效果明顯提升。

參考文獻(xiàn)

[1]翟社平，楊媛媛，邱程，等.基于注意力機(jī)制Bi-LSTM算法的雙語文本情感分析[J].計算機(jī)應(yīng)用與軟件，2019，36（12）：251-255.

[2]陳亞茹，陳世平.融合自注意力機(jī)制和BiGRU網(wǎng)絡(luò)的微博情感分析模型[J].小型微型計算機(jī)系統(tǒng)，2020，41（8）：24-29.

[3]支淑婷，李曉戈，王京博，等.基于多注意力長短時記憶的實體屬性情感分析[J].計算機(jī)應(yīng)用，2019，39（1）：160-167.

[4]梁斌，劉全，徐進(jìn)，等.基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析[J].計算機(jī)研究與發(fā)展，2017，54（8）：1724-1735.

[5]林原，李家平，許侃，等.基于多頭注意力的雙向LSTM情感分析模型研究[J].山西大學(xué)學(xué)報（自然科學(xué)版），2020，43（1）：1-7.

[6]王麗亞，劉昌輝，蔡敦波，等.CNN-BiGRU網(wǎng)絡(luò)中引入注意力機(jī)制的中文文本情感分析[J].計算機(jī)應(yīng)用，2019，39（10）：2841-2846.

[7]孫凱.基于詞注意力的BiLSTM和CNN集成模型的中文情感分析[J].計算機(jī)科學(xué)與應(yīng)用，2020，10（2）：312-324.

[8]胡德敏，褚成偉，胡晨，等.預(yù)訓(xùn)練模型下融合注意力機(jī)制的多語言文本情感分析方法[J].小型微型計算機(jī)系統(tǒng)，2020，41（2）：278-284.

[9]胡朝舉，梁寧.基于深層注意力的LSTM的特定主題情感分析[J].計算機(jī)應(yīng)用研究，2019，36（4）：121-125.