崔滕
摘要:隨著我國移動互聯(lián)網(wǎng)和互聯(lián)網(wǎng)金融的快速發(fā)展,為更好地讓商家和用戶理解與分析電商平臺上的用戶評論,為了獲取商品評論中的情感特征并捕捉更多的情感信息,可以使用深度學習技術(shù)來構(gòu)建模型。文章提出構(gòu)建BERT-BiLSTM-CRF模型,該模型將深層語言模型BERT與雙向長短記憶網(wǎng)絡和條件隨機場模型(BiLSTM+CRF) 相結(jié)合建立新模型,運用BERT模型的嵌入層對句子進行分割,將其轉(zhuǎn)為詞向量后傳遞到BiLSTM模型中,從而獲得文本中的屬性和情感詞,并使用條件隨機場來解決遠程依賴關(guān)系無法識別的缺陷。實驗結(jié)果表明,通過國際語義評測大會提供的數(shù)據(jù)集,實驗驗證了本模型在文本情感分析精度方面的優(yōu)越性。
關(guān)鍵詞:情感分析;深度學習;雙向長短時記憶模型;BERT
中圖分類號:TP391? ? ? 文獻標識碼:A
文章編號:1009-3044(2023)31-0034-04
開放科學(資源服務)標識碼(OSID) :
0 引言
情感分析技術(shù)(sentiment analysis)[1]是一種能夠?qū)χ饔^性文本或句子中所包含的情感色彩進行分析、處理和抽取的技術(shù),是一種重要的自然語言處理技術(shù),應用廣泛,如方面級情感分析可以用于輿情分析、個性化推薦和搜索等領(lǐng)域中。在方面級情感分析中,方面是指句子中被描述、顯式或隱式提及的實體或概念,而情感則是對方面的描述或評價。方面情感分析可以分為方面提取和方面情感分析兩個子任務。方面提取的目標是從文本中識別出句子中的方面,而方面情感分析則是對提取出的內(nèi)容進行情感判斷。 在方面情感分析中,術(shù)語是指特定領(lǐng)域中常用的詞匯或表達方式,可以幫助識別和描述方面的情感。通過對句子中的術(shù)語進行分析,可以更準確地判斷方面的情感。 方面情感分析的結(jié)果通常以方面類別和情感極性兩個維度進行描述。方面類別是對方面進行分類,常見的類別包括產(chǎn)品特征、服務質(zhì)量、用戶體驗等。情感極性則是對方面的情感進行判斷,通常分為正面、負面和中性。如今,在互聯(lián)網(wǎng)技術(shù)的快速發(fā)展下,人們可以通過網(wǎng)絡對已購買的商品或感興趣的事物進行評論[2],這些評論數(shù)據(jù)對于企業(yè)和輿情相關(guān)部門都具有十分重要的價值。通過對產(chǎn)品的評論數(shù)據(jù)進行情感分析,企業(yè)可以更好地了解客戶需求,進行個性化的銷售,提高收益。同樣的,輿情相關(guān)部門可以通過分析事件評論進行輿情分析和觀點挖掘等,快速做出反應,控制和引導輿論,避免重大的輿情問題的發(fā)生。情感分析的早期方法也就是第一階段主要是基于情感詞典的匹配方式,需要人為構(gòu)建情感詞典。雖然這種方法在文本情感分類方面具有一定的靈活性,但是隨著時代的發(fā)展,文本中的情感信息不易顯現(xiàn),使用情感詞典的方法進行情感分析已經(jīng)達不到預期的效果。第二階段是基于機器學習的情感分類方法,使用樸素貝葉斯、隨機森林和支持向量機等算法進行分類。雖然相對于第一階段的方法,基于機器學習的方法能夠帶來不錯的效果,但是它仍然存在局限性,只適用于小型結(jié)構(gòu)化或標記化的數(shù)據(jù)集。第三階段是現(xiàn)在廣泛使用的深度學習,使用卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡和注意力機制等深度學習技術(shù),能夠更好地處理大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)集,有效提高情感分類的準確性和效率。對于情感分析的歷史,在1995年,Picard R W提出情感分析的概念,開始了相關(guān)研究;2002年,Turney P等人提出基于無監(jiān)督學習方法的文本情感分析模型,但此模型方法輸入的特征需要手動設計,這是一大缺點;隨后,深度學習的概念被提出,后廣泛應用于情感分析中;2015年,Le P等人提出了一種名為樹形長短期記憶(Tree-LSTM) 模型的方法。該模型可以增強從單詞層面到整個句子層面的特征合成能力,從而提高自然語言處理任務的性能。雖然情感分析的模型被越來越優(yōu)化,但其結(jié)果仍受情感詞典質(zhì)量和判斷情感規(guī)則的影響[3]。目前,研究上多采用Word2vec、BERT等基線模型的方法獲取文本向量,但以上方法有著忽略詞的上下文聯(lián)系等方面的缺陷。因此,本文提出使用混合模型BERT-BiLSTM-CRF的方法提取向量來解決問題。
1 基于BERT-BiLSTM-CRF模型的情感分析
1.1 循環(huán)神經(jīng)網(wǎng)絡
循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network) [4]是一種神經(jīng)網(wǎng)絡,能夠發(fā)掘序列數(shù)據(jù)中的語義信息,因此在自然語言處理等領(lǐng)域應用廣泛。與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡不同,RNN增加了循環(huán)結(jié)構(gòu),使得網(wǎng)絡能夠記憶先前處理過的信息,并將其應用于后續(xù)的輸入數(shù)據(jù)中。這種設計能夠有效地處理可變長度的輸入序列,并在文本分類、機器翻譯等任務中取得很好的表現(xiàn)。使得隱藏層不僅可以受到當前輸入的影響,還可以接收上一時刻隱藏層的影響。
循環(huán)神經(jīng)網(wǎng)絡的核心思想是通過循環(huán)地傳遞信息來處理序列數(shù)據(jù)。在循環(huán)神經(jīng)網(wǎng)絡中,每個神經(jīng)元的輸出不僅依賴于當前輸入,還依賴于上一時刻的輸出。因此,循環(huán)神經(jīng)網(wǎng)絡可以更好地處理序列數(shù)據(jù)中的時序信息和長期依賴關(guān)系,從而提高模型的性能和準確性。
具體來說,循環(huán)神經(jīng)網(wǎng)絡將每個時刻的輸入和上一時刻的輸出作為輸入,通過隱藏層中的循環(huán)結(jié)構(gòu)來保留并傳遞上下文信息。這樣,循環(huán)神經(jīng)網(wǎng)絡可以有效地挖掘出特征中的語義信息,從而提高模型的性能和泛化能力。在自然語言處理等領(lǐng)域,循環(huán)神經(jīng)網(wǎng)絡已經(jīng)被廣泛用在翻譯、語音識別、情感分析等領(lǐng)域。循環(huán)神經(jīng)網(wǎng)絡設計展開如圖1所示。
1.2 BERT
Devlin[5]等人提出基于Transformer的模型BERT,BERT是一種預訓練的語言模型,其與傳統(tǒng)模型不同,它采用了遮擋語言模型(Masked Language Model, MLM) 生成深度的雙向語言表征。BERT模型對自然語言處理領(lǐng)域有著很大的提升與改善。傳統(tǒng)模型使用單向訓練或?qū)蓚€單向訓練相結(jié)合,而BERT則使用了多層的Transformer結(jié)構(gòu),以將句子轉(zhuǎn)化為詞向量,從而對語境進行更加透徹的分析。BERT-base的Encoder由12層結(jié)構(gòu)相同的Transformer Encoder結(jié)構(gòu)構(gòu)成。雖然這些Encoder在結(jié)構(gòu)上相同,但其之間的權(quán)重不可以共享。這意味著每個Encoder都具有獨立的參數(shù),可以對不同位置的輸入進行不同的處理,從而進一步提高模型的性能。總之,BERT模型是一種基于深度雙向語言表征的預訓練語言模型,在自然語言處理領(lǐng)域中具有廣泛的應用前景。通過使用多層的Transformer結(jié)構(gòu),BERT模型能夠更好地對語境進行分析,提高模型的性能和泛化能力。BERT結(jié)構(gòu)如圖2所示。
1.3 Bilstm模型
在自然語言處理中,單詞的順序?qū)τ诰渥拥暮x影響很大,但傳統(tǒng)的深度神經(jīng)網(wǎng)絡模型并沒有考慮輸入數(shù)據(jù)的順序。為處理這種現(xiàn)象,Zaremba[6]等提出RNN模型的概念,然而RNN模型存在梯度消失與爆炸的問題。為了更好地處理長序列數(shù)據(jù),Hochreiter等提出了LSTM模型,LSTM模型引入三個門控單元,從而控制信息流動,使得模型可以學習哪些信息需要記憶、哪些信息需要遺忘,并能夠捕捉較長距離的依賴關(guān)系。但LSTM模型只涉及由前到后的信息,無法獲得當前位置后的信息。因此,BiLSTM模型被推出 ,該模型由雙向LSTM組成,可以同時編碼從前向后和從后向前的信息。BiLSTM模型在自然語言處理任務中經(jīng)常被用于建模上下文信息,它能夠更好地捕捉雙向的語義依賴關(guān)系。BILSTM結(jié)構(gòu)如圖3所示。
1.4 CRF模型
CRF是自然語言處理領(lǐng)域中常用的基礎(chǔ)模型,適用于分詞、命名實體識別和詞性標注等任務。CRF是一個無向概率圖模型,用于將序列數(shù)據(jù)進行標記。CRF模型采用了全局歸一化的隨機場模型和條件隨機場模型的優(yōu)點,從而可以獲得全局最優(yōu)的標記結(jié)果。在訓練過程中,為了簡化模型,CRF僅訓練正確選擇相鄰標簽情況下的單個標簽決策,以最大程度地減少誤差。這種簡化的訓練方法可以提高訓練效率,并在實踐中表現(xiàn)良好,這種基于局部標簽決策的方法被稱為“隨機場自動回歸”(CRF-AR) ,其核心思想是通過建立每個標記對應的概率分布來確定最優(yōu)標記序列。
1.5 本文構(gòu)建的基于BERT-BiLSTM-CRF的模型
基于BERT-BiLSTM-CRF[7]的文本情感識別方法。首先,通過BERT作語義信息表示,繼而將BERT編碼以后的詞向量通過雙向長短期記憶網(wǎng)絡學習上下文特征,得到隱藏層向量,然后通過CRF層學習相鄰標簽之間的依賴關(guān)系,得到全局最優(yōu)的句子級標簽序列,最終依據(jù)該標簽序列對方面詞進行抽取。文本情感模型如圖4所示。
綜上所述,基于BERT-BiLSTM-CRF算法模型的情感分析的步驟主要有以下4步:
1) 數(shù)據(jù)預處理:對文本數(shù)據(jù)進行清洗、分詞等處理,得到符合模型輸入要求的格式,送入BERT模型。
2) 模型訓練:使用BERT-BiLSTM-CRF模型對預處理后的數(shù)據(jù)進行訓練。
3) 模型預測:使用訓練好的BERT-BiLSTM-CRF模型對新的文本數(shù)據(jù)進行情感分析。對于每個輸入文本,模型會輸出一個標注序列,其中每個標注表示該位置的字符的情感類別,例如正向情感或負向情感。
4) 結(jié)果后處理:對模型輸出的標注序列進行后處理,例如去除無意義的標簽、合并相鄰的相同標簽等,得到最終的情感分析結(jié)果。
2 實驗結(jié)果分析
2.1 數(shù)據(jù)集預處理
在方面級情感分析領(lǐng)域,常用的數(shù)據(jù)集主要包括SemEval(國際語義評測大會)數(shù)據(jù)集。本文采用的數(shù)據(jù)集來自2014年國際語義評測大會(SemEval-2014) Task4提供的數(shù)據(jù)集:Res-14和Laptop-14,以及2015年國際語義評測大會(SemEval-2015) Task12提供的數(shù)據(jù)集Res-15:
1) SemEval-2014Task4數(shù)據(jù)集,由3000條左右餐廳評論、1800條左右筆記本評論組成,一部分劃為測試集,其余作為訓練數(shù)據(jù)集。去除有沖突情感極性或沒有方面項的數(shù)據(jù)后,餐廳類訓練樣本2021個,測試樣本606個。筆記本類訓練樣本1488,測試樣本422個。
2) SemEval-2015Task12數(shù)據(jù)集由2000條左右餐廳評論組成,去除有沖突情感極性或沒有方面項的數(shù)據(jù)后,訓練樣本1315個,測試樣本685個。由于本章是對評論中給定的方面詞進行情感極性判別,所以剔除數(shù)據(jù)集中不含有方面詞的評論文本。為保證數(shù)據(jù)源的公平性,還對兩個Res數(shù)據(jù)集進行平均,最終得出關(guān)于Res和Laptop兩個對象的評論情感分析結(jié)果。
數(shù)據(jù)集相關(guān)統(tǒng)計信息如表1所示。數(shù)據(jù)集中方面的情感極性分為三類,分別為Positive、Negative和Neutral,每條評論都至少包含一個方面詞。表中SN表示評論數(shù)量,AN表示方面詞數(shù)量,Pos表示方面情感極性為Positive的標簽數(shù)量,Neg表示方面情感極性為Negative的標簽數(shù)量,Neu表示方面情感極性為Neutral的標簽數(shù)量。
文本預處理的過程[8]為:去除多余無用符號:如HTML標簽、特殊符號等;糾錯處理:對文本中的拼寫錯誤、語法錯誤等進行檢查和糾正,以便于后續(xù)處理和分析;剔除無意義單詞:可以使用自定義停用詞表和刪除特殊符號的方法。自定義停用詞表可以剔除文本數(shù)據(jù)中那些頻繁出現(xiàn)但無實際意義的單詞;刪除特殊符號可以通過使用正則表達式把文本中的特殊符號刪除,以便于后續(xù)處理和分析;提取句子主干,使用SentenceBERT等模型提取句子主干,以削減冗余信息,避免句子過長無法訓練的問題;索引長度標準化,對處理后的文本數(shù)據(jù)進行索引和標準化,以便于后續(xù)模型的訓練和應用,如表2所示。
2.2 實驗配置
硬件環(huán)境:64位系統(tǒng),AMDRyzen75800HwithRadeonGraphics處理器,16.0GB內(nèi)存,amdradeon(TM)graphics顯卡。
軟件環(huán)境:Python3.6,TensorFlow1.14.0。
Transformer設為12層,隱藏層的維度設為768,注意力機制的頭數(shù)設為12。模型總參數(shù)大小為110MB。特征提取層主要由BILSTM構(gòu)成。
模型訓練方面:設置批次大小為64,最大序列長度為512,隱藏層個數(shù)為13,epoch為4,batchsize設定為256,優(yōu)化器選用lamb,dropout率為0.5。
2.3 實驗評價指標
實驗分析數(shù)據(jù)[9]是消極還是積極,若預測結(jié)果為積極,則標記為1,反之標記為0,如表3所示。
表3中,TP含義:預測是積極,實際是積極;FP:預測是積極,實際是消極;FN:預測是消極,實際是積極;TN:預測是消極,實際是消極。而對于研究中的評價指標,本文有以下幾種:
1) 召回率(Recall score) :表示模型的實際為1的樣本,預測也為1的概率,計算公式如下:
[R=TPTP+FN]
2) 精準率(Precision score) :在所有預測為1的樣本中,實際上有多少個樣本真的為1,其計算公式為:
[P=TPTP+FP]
3) F1值(F1-score) :是對以上兩個指標進行加權(quán)平均的結(jié)果,其計算公式為:
[F1=2PRP+R]
2.4 實驗結(jié)果分析
本文將準確率、召回率和F1值[10]三個方面作為評價指標。其中,準確率衡量了分類器對負樣本的區(qū)分能力,召回率衡量了分類器對正樣本的識別能力,而F1值是綜合考慮準確率和召回率的指標,能夠全方面地反映出分類性能。用F1值分析評估分類器時,如果分類器性能越好,則其值(F1值)越接近于1。所以本文將F1值作為主要的評價指標。
本實驗在對比模型上,樣本分別選取了BERT、BILSTM、CNN模型進行訓練與結(jié)果比較。具體描述如下。
1) BERT:首先使用預處理模型使參數(shù)與之前預設的參數(shù)一致,利用預訓練文本特征后輸入BERT情感分類。
2) BILSTM:定義參數(shù)的大小同2層BILSTM模型的結(jié)構(gòu)一樣,使用全連接層,最后通過Sof Max分類器得出結(jié)果。
3) CNN:使用TensorFlow中的CNN,調(diào)整input與卷積核參數(shù),迭代次數(shù)為100,epoch次數(shù)為5,詞向量的維度為20。
由表4的整體結(jié)果分析可知,BERT-BILSTM-CRF模型精度與BERT、BILSTM和CNN精度相比分別提高了3.32%、9.1%和4.35%。BERT-BILSTM-CRF模型相對于傳統(tǒng)文本模型在進行情感分析上可以獲得更好的結(jié)果。
3 結(jié)論
針對網(wǎng)絡評論文本中包含豐富的情感信息,通過詳細介紹文本情感分析領(lǐng)域中常用的情感分析方法和算法,本文設計了基于BERT-BiLSTM-CRF的模型,對電商平臺的評論文本進行情感分析。在BERT模型的基礎(chǔ)上,加入BiLSTM+CRF模型。首先,通過BERT作語義信息表示,繼而將BERT編碼以后的詞向量通過雙向長短期記憶網(wǎng)絡學習上下文特征,得到隱藏層向量,然后通過CRF層學習相鄰標簽之間的依賴關(guān)系,得到全局最優(yōu)的句子級標簽序列,最終依據(jù)該標簽序列對方面詞進行抽取。結(jié)果證明,基于BERT-BiLSTM-CRF混合模型用于文本的情感分析,在提高情感分析的精確性方面具有優(yōu)越性。
參考文獻:
[1] ZHANG X J,HUANG S,ZHAO J Q,et al.Exploring deep recurrent convolution neural networks for subjectivity classification[J].IEEE Access,2018(7):347-357.
[2] 王鵬嶺,應欣慧,梁家瑞,等.網(wǎng)購評論情感分析:以某化妝品為例[J].電腦知識與技術(shù),2022,18(13):21-23.
[3] 康月,薛惠珍,華斌.面向深度學習網(wǎng)絡的細粒度商品評價分析[J].計算機工程與應用,2021,57(11):140-147.
[4] 郭佳怡,唐矛寧,宋濤,等.旅游景區(qū)印象分析系統(tǒng)V1.0:2022SR0471334[P].2022-04-14.
[5] DEVLIN J,CHANG M,LEE K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].[2022-10-20].https://arxiv.org/abs/1810.04805.pdf.
[6] ZAREMBA W,RAY A,SCHNEIDER J,et al.Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World[2021-10-12].https://arxiv.org/abs/1703. 06907.
[7] 趙宏,傅兆陽,趙凡.基于BERT和層次化Attention的微博情感分析研究[J].計算機工程與應用,2022,58(5):156-162.
[8] 王美榮.基于卷積神經(jīng)網(wǎng)絡的文本分類算法[J].佳木斯大學學報(自然科學版),2018,36(3):354-357.
[9] 趙富,楊洋,蔣瑞,等.融合詞性的雙注意力Bi-LSTM情感分析[J].計算機應用,2018,38(S2):103-106,147.
[10] 石文華,高羽,胡英雨.基于情感傾向和觀察學習的在線評論有用性影響因素研究[J].北京郵電大學學報(社會科學版),2015,17(5):32-39.
【通聯(lián)編輯:謝媛媛】