• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      文本方面級(jí)情感分析方法研究綜述

      2023-09-15 03:33:54汪紅松李嘉展曾碧卿
      軟件導(dǎo)刊 2023年9期
      關(guān)鍵詞:文本目標(biāo)情感

      汪紅松,李嘉展,曾碧卿

      (華南師范大學(xué) 軟件學(xué)院,廣東 佛山 528225)

      0 引言

      文本情感分析[1]也稱為觀點(diǎn)挖掘[2-3],是自然語言處理(Natural Language Processing,NLP)的重要內(nèi)容之一,其主要任務(wù)是挖掘并分析人們對(duì)不同主題、屬性等的觀點(diǎn)和態(tài)度[2]。文本情感分析的主要流程如圖1 所示,其中數(shù)據(jù)預(yù)處理是情感抽取的準(zhǔn)備工作,主要進(jìn)行分詞、命名實(shí)體識(shí)別等。情感抽取模塊主要用于處理輸入的數(shù)據(jù),提取輸入數(shù)據(jù)的特征表示。

      Fig.1 Text sentiment analysis processing flow圖1 文本情感分析處理流程

      在情感分析領(lǐng)域,狹義的情感分析通常定義為對(duì)外界事物的態(tài)度,如正面、負(fù)面、中立等。傳統(tǒng)上,情感分析一般分為3 個(gè)層次:句子級(jí)別、文檔級(jí)別、方面級(jí)別。早在2002 年,Pang 等[4]提出利用機(jī)器學(xué)習(xí)的方法,將文檔的情感傾向作為情感分類依據(jù)。隨著研究的深入,Wawre 等[5]利用多種監(jiān)督方式,提出將句子表達(dá)的情感極性視為分類問題。近年來,受到深度學(xué)習(xí)的影響,方面級(jí)情感分析(Aspect-based Sentiment Analysis,ABSA)逐漸成為新的研究熱點(diǎn),通過引入不同的場景任務(wù)來分析不同的情感元素[6]。

      1 相關(guān)研究

      根據(jù)文本的層次粒度,情感分析可分為粗粒度情感分析和細(xì)粒度情感分析[7]。粗粒度情感分析主要側(cè)重于句子級(jí)與文檔級(jí)的情感分類,細(xì)粒度情感分析通常側(cè)重于對(duì)方面詞的情感極性進(jìn)行判斷。隨著近些年研究的深入,粗粒度的情感分析缺乏捕獲實(shí)體與句子中相關(guān)方面情感極性的能力,無法滿足文本層次粒度更細(xì)的情感分類要求,因此細(xì)粒度文本情感分析受到更廣泛的關(guān)注[8]。

      1.1 方面術(shù)語抽取

      方面術(shù)語抽?。ˋspect Extraction,AE)是ABSA 中的一項(xiàng)關(guān)鍵任務(wù),旨在提取句子中存在的方面詞[9]。目前,方面術(shù)語抽取主要分為顯式方面術(shù)語抽取與隱式方面術(shù)語抽取。

      顯式方面術(shù)語是指文本中能夠清晰指明的方面詞與目標(biāo)情感詞,常結(jié)合統(tǒng)計(jì)學(xué)習(xí)的方法,如條件隨機(jī)場(Conditional Random Field,CRF)和隱馬爾可夫[10]等。Zschornack 等[11]利用注意力機(jī)制,提出基于Bi-LSTM 與CRF 的分類器,借助詞性標(biāo)記作為輔助功能,在Bi-LSTM 編碼器作用下實(shí)現(xiàn)了顯式方面術(shù)語抽取。

      隱式方面術(shù)語是指在文本中沒有明顯指出的方面詞與目標(biāo)情感詞,如“袋子里裝滿了食物,無法再裝下水杯”,實(shí)體詞“袋子”存在一個(gè)隱式方面詞“容量”。由于隱式方面術(shù)語缺乏上下文線索信息,隱式方面術(shù)語抽取具有較大難度[12]。Liao 等[13]對(duì)隱式事實(shí)情感文本進(jìn)行分類,提出一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和語義依賴樹的多層語義融合模型,該模型能夠?qū)W習(xí)詞語級(jí)、語句級(jí)別的語義信息,識(shí)別事實(shí)隱式情感文本特征。此外,由于缺乏足夠的標(biāo)注數(shù)據(jù),很難精準(zhǔn)地抽取方面術(shù)語,Wang 等[14]首次提出自訓(xùn)練學(xué)習(xí)方式來解決方面術(shù)語提取中標(biāo)注數(shù)據(jù)不足的問題。

      1.2 方面級(jí)情感分析

      ABSA 屬于細(xì)粒度的情感分析任務(wù),首先識(shí)別給定文本中的方面詞與目標(biāo)情感詞,再預(yù)測(cè)方面詞的情感極性[15]。ABSA 主要對(duì)方面詞與相應(yīng)目標(biāo)情感詞的關(guān)系進(jìn)行建模,針對(duì)不同的方面術(shù)語提取更精細(xì)的情感信息。例如“the battery life is also relatively excellent”,方面術(shù)語“battery life”的目標(biāo)詞“excellent”表達(dá)正面情感。因此,ABSA側(cè)重于分析方面詞與目標(biāo)情感詞的關(guān)系,以獲取更精細(xì)的情感極性。在早期的研究中,對(duì)于輸入句子存在多個(gè)方面詞的情況,常常采用多次輸入同樣數(shù)據(jù)的方法來分析方面詞的情感極性。隨著研究的深入,人們逐漸發(fā)現(xiàn)同一個(gè)句子中不同方面詞之間存在情感關(guān)聯(lián),并通過引入上下文的觀念,逐步豐富關(guān)于ABSA 的研究。

      為了進(jìn)一步了解ABSA,本文以Web of science 為檢索文獻(xiàn)平臺(tái),以 “方面級(jí)情感分析”“Aspect Based Sentiment Analysis”為主題詞,利用Web of science 官方數(shù)據(jù)工具對(duì)2010—2022 年以ABSA 為主題的文獻(xiàn)進(jìn)行分析。同時(shí),以主題詞為中心,通過VOSviewer 工具生成如圖2 所示的共現(xiàn)圖??傮w上,早期ABSA 研究主要依賴于機(jī)器學(xué)習(xí)等方法,引入深度學(xué)習(xí)方法后,以深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的模型成為主流的ABSA 研究方法。

      Fig.2 Co-occurrence diagram of subject words圖2 主題詞共現(xiàn)圖

      2 方面級(jí)情感分析方法與技術(shù)

      目前,ABSA 研究主要分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)方法主要包括機(jī)器學(xué)習(xí)、情感詞典等。由于機(jī)器學(xué)習(xí)在情感分析中屬于淺層學(xué)習(xí),不涉及特征學(xué)習(xí),基于深度學(xué)習(xí)的方法利用非線性網(wǎng)絡(luò)模型來獲得更符合任務(wù)需求的函數(shù),從而實(shí)現(xiàn)對(duì)數(shù)據(jù)特征的自動(dòng)學(xué)習(xí)。

      2.1 方面級(jí)情感分析數(shù)據(jù)集

      目前,研究者可以使用公開數(shù)據(jù)集,也可以通過收集、篩選、過濾等步驟構(gòu)建數(shù)據(jù)集。表1 列舉了目前ABSA 研究進(jìn)行模型訓(xùn)練常用的數(shù)據(jù)集。

      Table 1 Introduction to common datasets表1 常用數(shù)據(jù)集簡介

      2.2 評(píng)估指標(biāo)

      情感分類任務(wù)模型通常采用混淆矩陣來評(píng)估其性能,評(píng)價(jià)指標(biāo)包括準(zhǔn)確率(Accuracy)、精確度(Precision)、召回率(Recall)以及F1 值等。評(píng)價(jià)指標(biāo)由TP、FP、FN、TN 幾個(gè)元素組成,具體公式如表2 所示。其中,TP 表示分類器正確地將正類樣本預(yù)測(cè)為正類的樣本數(shù)量,F(xiàn)P 表示分類器錯(cuò)誤地將負(fù)類樣本預(yù)測(cè)為正類的樣本數(shù)量,F(xiàn)N 表示分類器錯(cuò)誤地將正類樣本預(yù)測(cè)為負(fù)類的樣本數(shù)量,TN 表示分類器正確地將負(fù)類樣本預(yù)測(cè)為負(fù)類的樣本數(shù)量。

      Table 2 Evaluation indicators表2 評(píng)估指標(biāo)

      2.3 傳統(tǒng)方面級(jí)情感分析方法

      傳統(tǒng)的ABSA 任務(wù)主要通過基于規(guī)則的方法和基于統(tǒng)計(jì)的方法來完成[16]?;谝?guī)則的方法需要大量詞匯極性標(biāo)注工作以及由語言學(xué)家制定的詞典規(guī)則,分類任務(wù)的準(zhǔn)確率與詞匯標(biāo)注結(jié)果和規(guī)則設(shè)定相關(guān)?;诮y(tǒng)計(jì)的方法根據(jù)上下文中相似情感詞的共現(xiàn)頻率,將其歸為相同極性,因此一個(gè)詞的情感極性與上下文中其他詞的共現(xiàn)頻率相關(guān)。表3列出了傳統(tǒng)ABSA 分析方法的優(yōu)缺點(diǎn)。

      2.3.1 基于規(guī)則的方面級(jí)情感分析

      基于規(guī)則的方法通常使用基礎(chǔ)詞典,通過擴(kuò)充基礎(chǔ)情感詞典,挖掘目標(biāo)詞之間的相互聯(lián)系。Zhang 等[17]根據(jù)方面詞之間的依賴關(guān)系確定句子的情感極性,通過聚合句子以預(yù)測(cè)整個(gè)文本情感;Tan 等[18]利用先驗(yàn)情感詞典將財(cái)經(jīng)新聞分為正面或者負(fù)面,并通過構(gòu)建情感詞典確定財(cái)經(jīng)新聞文章中每個(gè)句子的情感極性;Gao 等[19]通過構(gòu)建情感詞庫和識(shí)別不同語言特征來獲得不同情感原因的組成比例,并提出基于規(guī)則的情感原因檢測(cè)方法,實(shí)驗(yàn)結(jié)果證明了情感詞典有利于ABSA 分類任務(wù)。

      2.3.2 基于統(tǒng)計(jì)的方面級(jí)情感分析

      基于統(tǒng)計(jì)的方法不依賴于語言學(xué)家所制定的語言規(guī)則[20],通常從給定的單個(gè)語料庫中提取方面詞,但不同語料庫中方面詞分布特征的差異未得到充分利用。因此,Pu等[21]利用逐點(diǎn)互信息檢測(cè)名詞短語,并降低依存關(guān)系的負(fù)面影響,再根據(jù)句法依存規(guī)則對(duì)方面詞進(jìn)行提??;Han等[22]提出一種基于特定領(lǐng)域情感詞典的分類方法,通過引入互信息來分配詞典中帶有詞性標(biāo)簽的方面詞,并根據(jù)方面詞情感值從未標(biāo)記的語料庫中選擇訓(xùn)練數(shù)據(jù),再由基于SentiWordNet 的情感分類器進(jìn)行文本情感分析。

      通過上述分析可以發(fā)現(xiàn),傳統(tǒng)的方面級(jí)情感分析方法能適應(yīng)不同領(lǐng)域的目標(biāo)任務(wù)。此外,基于統(tǒng)計(jì)的方法不依賴于語言學(xué)家制定的規(guī)則,減少了人工干預(yù)[23]?;谡Z料庫的方法雖然簡單,但需要一個(gè)較大的數(shù)據(jù)集來檢測(cè)方面詞極性,才能對(duì)給定的文本進(jìn)行情感分析,依舊無法高效地挖掘不同細(xì)粒度實(shí)體識(shí)別的情感信息。因此,為了更好地探索細(xì)粒度情感分析任務(wù),學(xué)者們將研究方向轉(zhuǎn)向面向深度學(xué)習(xí)的情感分析模型。

      2.4 基于深度學(xué)習(xí)的方面級(jí)情感分析

      深度學(xué)習(xí)展現(xiàn)了強(qiáng)大的特征提取和文本表達(dá)能力以及可擴(kuò)展性,受到研究人員的高度關(guān)注。因此,在ABSA 任務(wù)中,基于深度學(xué)習(xí)的方法逐漸成為人們的研究熱點(diǎn)。基于深度學(xué)習(xí)的ABSA 分類方法利用神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分類時(shí),主要有3個(gè)任務(wù)[24],如圖3所示。

      Fig.3 Aspect-based sentiment analysis tasks of deep learning圖3 深度學(xué)習(xí)的方面級(jí)情感分析任務(wù)

      (1)文本表示。文本表示通常使用關(guān)鍵字集,在用向量表達(dá)文本時(shí),特征提取算法基于預(yù)定義的關(guān)鍵字對(duì)文本中的目標(biāo)詞權(quán)重進(jìn)行計(jì)算,形成數(shù)字向量,即文本的特征向量[25]。

      (2)目標(biāo)表示。目標(biāo)表示是ABSA 用于表達(dá)不同情感的重要任務(wù)之一,主要任務(wù)是生成與上下文交互的向量,通常使用詞嵌入方法得到目標(biāo)的向量表示。

      (3)情感分類。情感分類主要是為了識(shí)別特定目標(biāo)詞的情感極性。例如句子“服務(wù)器的顯卡算力充足,但使用成本昂貴”中,目標(biāo)詞“顯卡算力”對(duì)應(yīng)的上下文情感詞是“充足”,情感極性為積極,而“價(jià)格”對(duì)應(yīng)的上下文情感詞是“昂貴”,情感極性為消極。針對(duì)此類任務(wù),通常通過引入注意力機(jī)制來解決。

      基于深度學(xué)習(xí)的ABSA 任務(wù)關(guān)鍵在于文本表示和目標(biāo)表示,盡管近年來該領(lǐng)域受到研究人員的廣泛關(guān)注,但目前還缺少適應(yīng)多種場景任務(wù)的ABSA 框架。因此,利用深度學(xué)習(xí)方法完成ABSA 任務(wù)目前仍處于發(fā)展階段。

      2.4.1 基于注意力機(jī)制的方面級(jí)情感分析

      早期的研究方法依賴于人工設(shè)計(jì)或提取與目標(biāo)相關(guān)的情感信息,但這些方法高度依賴于人工設(shè)計(jì)的特征向量[26]。為了明確目標(biāo)實(shí)體與上下文中情感信息的關(guān)系,有學(xué)者提出從目標(biāo)信息挖掘目標(biāo)詞的情感極性[27],但這些方法只考慮目標(biāo)信息而忽略了上下文信息?;谧⒁饬C(jī)制的神經(jīng)網(wǎng)絡(luò)模型能隱式地將目標(biāo)與上下文信息聯(lián)系起來,因此在自然語言處理領(lǐng)域受到人們關(guān)注。

      Wang 等[28]結(jié)合注意力機(jī)制和LSTM,提出ATAELSTM(Attention-based LSTM with Aspect Embedding)網(wǎng)絡(luò)模型,通過將方面詞與句子的隱藏特征表示相結(jié)合,提出基于方面詞的注意力權(quán)重以及將方面詞向量與輸入向量結(jié)合的方法;Chen 等[29]提出基于多注意機(jī)制的記憶神經(jīng)網(wǎng)絡(luò)模型(Recurrent Attention Network on Memory,RAM),通過記憶存儲(chǔ)單元捕獲長距離文本中特定方面詞的情感極性;Ma 等[30]為了充分利用上下文的語義關(guān)系,協(xié)調(diào)目標(biāo)與上下文詞之間的依賴關(guān)系,提出MGAN 模型(Multigrained Attention Network),加強(qiáng)了目標(biāo)與上下文詞之間的相互聯(lián)系[31]。同時(shí),有學(xué)者將傳統(tǒng)方法與注意機(jī)制相結(jié)合。Lu 等[32]提出基于規(guī)則的交互式注意力神經(jīng)網(wǎng)絡(luò)模型(Interactive Rule Attention Network,IRAN),該模型通過語法規(guī)則編碼器,進(jìn)一步提高了目標(biāo)詞與上下文交互能力。

      2.4.2 基于預(yù)訓(xùn)練語言模型的方面級(jí)情感分析

      在序列化語言模型中,例如RNN 雖能捕獲長距離依賴關(guān)系,但由于復(fù)合函數(shù)求導(dǎo)涉及鏈?zhǔn)椒▌t,容易出現(xiàn)梯度消失問題。而對(duì)于CNN 模型,由于卷積核的存在,導(dǎo)致特征提取時(shí)存在局部最優(yōu)問題。因此,2017 年谷歌提出Transformer 模型框架[33],通過模塊化結(jié)構(gòu)引入矩陣運(yùn)算,提高了模型的并行能力。針對(duì)RNN 和注意力機(jī)制在建模時(shí)存在并行化能力低、梯度消失的問題,Song 等[34]采用注意力機(jī)制的編碼器對(duì)目標(biāo)詞及上下文進(jìn)行建模,提出結(jié)合BERT 預(yù)訓(xùn)練語言模型的注意力編碼網(wǎng)絡(luò)。

      在ABSA 研究中,通常將預(yù)訓(xùn)練語言模型用于處理輸入文本,并將其融入到更深層次的神經(jīng)網(wǎng)絡(luò)中。Bai 等[35]在BERT 模型基礎(chǔ)上融合語義信息,提出了圖注意力網(wǎng)絡(luò)模 型(Relational Graph Attention Network BERT,RGATBERT),在語義標(biāo)簽依賴信息的加持下,提升了ABSA 的分類性能;Zhang 等[36]為了將動(dòng)態(tài)語義與ABSA 模型融合,提出動(dòng)態(tài)加權(quán)的語言模型(Dynamic Re-weighting BERT,DRBERT),通過動(dòng)態(tài)加權(quán)分配以更好地進(jìn)行方面感知的情感理解。此外,有學(xué)者為了使ABSA 模型成為通用框架,將ABSA 建模為生成類任務(wù)。Yan 等[37]將每個(gè)ABSA 子任務(wù)目標(biāo)重新定義為指針?biāo)饕颓楦蓄悇e索引混合的序列,并使用統(tǒng)一的生成公式,結(jié)合預(yù)訓(xùn)練語言模型BART 來完成所有端到端框架中的ABSA 任務(wù)。

      2.4.3 基于圖神經(jīng)網(wǎng)絡(luò)的方面級(jí)情感分析

      雖然上述方法被廣泛應(yīng)用于ABSA,但這些模型缺乏解釋相關(guān)句法約束和長距離詞依賴性的機(jī)制,仍難以挖掘細(xì)粒度實(shí)體在文本中的句法依賴信息。為解決上述問題,Zhang 等[38]結(jié)合依存關(guān)系樹的圖卷積神經(jīng)網(wǎng)絡(luò),利用句法信息與目標(biāo)詞的依賴關(guān)系挖掘文本的依存信息,證明了句法信息對(duì)長距離文本分類的重要性。由于語言的復(fù)雜性,當(dāng)句子中存在多個(gè)方面詞時(shí),會(huì)導(dǎo)致目標(biāo)詞與上下文信息不匹配。針對(duì)這種情況,Li等[39]提出雙通道圖卷積神經(jīng)網(wǎng)絡(luò)模型(Dual Graph Convolutional Networks,DualGCN),其中包含一個(gè)具有自注意機(jī)制的情感模塊,利用句法結(jié)構(gòu)和語義相關(guān)性減少依賴解析的錯(cuò)誤。

      當(dāng)前大部分基于圖神經(jīng)網(wǎng)絡(luò)的情感分類方法主要集中在學(xué)習(xí)句子依存樹的上下文詞與目標(biāo)詞的依存信息,缺乏利用特定目標(biāo)詞的上下文情感知識(shí)。因此,Liang 等[40]提出基于依存關(guān)系樹和情感知識(shí)的圖卷積神經(jīng)網(wǎng)絡(luò)模型Sentic GCN,該模型利用上下文詞與目標(biāo)詞之間的依賴關(guān)系和情感信息,通過聚合SenticNet 中的情感知識(shí)學(xué)習(xí)上下文詞語和特定方面的情感依賴關(guān)系,增強(qiáng)方面詞與上下文的語義相關(guān)性。此外,對(duì)于特定方面詞的分析,Chen 等[41]提出面向方面詞的離散意見生成樹模型(Discrete Opinion Tree GCN,DotGCN),該方法將方面詞與上下文之間的注意力分?jǐn)?shù)作為句法距離得到新的生成樹。

      同時(shí),由于依存句法樹多數(shù)通過句法分析器生成,而句法分析器的編碼模式引入了噪聲。為了緩解噪聲問題,Tian 等[42]設(shè)計(jì)了類別感知網(wǎng)絡(luò),利用注意力機(jī)制區(qū)分不同的邊緣關(guān)系,增加了方面詞相關(guān)的上下文權(quán)重。類似的,Liang 等[43]首次提出結(jié)合句子成分信息與依賴信息,構(gòu)造雙語法感知注意力網(wǎng)絡(luò)(Bi-Syntax aware Graph Attention Network,BiSyn-GAT),針對(duì)上下文內(nèi)部與上下文之間的關(guān)系進(jìn)行建模,進(jìn)而提高對(duì)語法信息的有效利用率,降低無關(guān)噪聲的干擾,增強(qiáng)方面詞與上下文之間的情感交互。

      2.4.4 基于目標(biāo)的方面級(jí)情感分析

      目標(biāo)—方面級(jí)情感分析(Target Aspect-Based Sentiment Analysis,TABSA)是ABSA 領(lǐng)域的另一個(gè)研究熱點(diǎn)。TABSA 的主要任務(wù)是識(shí)別目標(biāo)和方面的細(xì)粒度信息,例如在句子“l(fā)ocation1 is your best bet for secure although expensive and location2 is too far”中有“l(fā)ocation1”和“l(fā)ocation2”兩個(gè)不同的目標(biāo)詞,目標(biāo)詞“l(fā)ocation1”有“safety”和“price”兩個(gè)不同的方面詞,而目標(biāo)詞“l(fā)ocation2”只有“price”一個(gè)方面詞。

      Saeidi 等[44]提出一個(gè)用于TABSA 的基準(zhǔn)數(shù)據(jù)集Senti-Hood,該數(shù)據(jù)集被標(biāo)注為城市社區(qū)領(lǐng)域,在邏輯回歸函數(shù)和LSTM 模型的訓(xùn)練下,提供一個(gè)更加強(qiáng)大的基線。對(duì)于TABSA,以往的方法是將方面詞權(quán)重初始化為同一個(gè)值,再計(jì)算平均向量,但這種方式將不同方面詞與目標(biāo)之間的情感關(guān)系過度簡單化。因此,Ma 等[45]提出分層注意力模型Sentic LSTM,通過引入外部知識(shí)來擴(kuò)展LSTM 單元,解決了分層注意力機(jī)制在推斷給定目標(biāo)詞和相關(guān)情感詞時(shí)關(guān)系不明確的問題。為了從預(yù)定義的方面詞集合中提取細(xì)粒度的意見極性,Liu 等[46]提出利用外部“記憶鏈”,結(jié)合延遲內(nèi)存更新機(jī)制的網(wǎng)絡(luò)架構(gòu),在TABSA 基線任務(wù)上取得了實(shí)質(zhì)性改進(jìn)。

      針對(duì)方面詞在不同上下文中具有相同向量表示而丟失了上下文相關(guān)信息的現(xiàn)象,Liang 等[47]在輸入層嵌入預(yù)訓(xùn)練語言模型向量,并提出新的模型架構(gòu),利用稀疏系數(shù)向量從上下文中調(diào)整目標(biāo)詞和方面詞的嵌入,而不是使用上下文無關(guān)或隨機(jī)初始化的向量,并且在優(yōu)化方面詞表示過程中,讓其盡量遠(yuǎn)離無關(guān)的目標(biāo)詞。

      2.4.5 基于外部情感知識(shí)的方面級(jí)情感

      雖然神經(jīng)網(wǎng)絡(luò)在ABSA 中具有優(yōu)異的表現(xiàn),但神經(jīng)網(wǎng)絡(luò)模型性能與數(shù)據(jù)集大小有密切聯(lián)系,若缺乏數(shù)據(jù)會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)模型發(fā)揮不出應(yīng)有的性能。但現(xiàn)有的用于ABSA的公共數(shù)據(jù)集都相對(duì)較小,為了解決數(shù)據(jù)集與神經(jīng)網(wǎng)絡(luò)不匹配的問題,學(xué)者們提出了基于外部情感知識(shí)的方法[48]。

      基于外部情感知識(shí)的方法能夠減少模型對(duì)數(shù)據(jù)的依賴,并且結(jié)構(gòu)化知識(shí)和情感知識(shí)能夠提高模型性能。在結(jié)構(gòu)知識(shí)方面,Nguyen 等[49]提出將句子結(jié)構(gòu)信息融入注意力機(jī)制的網(wǎng)絡(luò)模型ALAN,結(jié)合LSTM 神經(jīng)網(wǎng)絡(luò),取得了較好的分類效果;Wang 等[50]認(rèn)為詞與從句之間的情感信息同樣需要得到重視,因此在句子層面采用語義分割方法將句子分割成若干個(gè)子句,進(jìn)一步證明了上下文語義信息對(duì)于方面詞的重要性。

      2.4.6 基于深度學(xué)習(xí)的方面級(jí)情感分析方法對(duì)比

      為了更清晰地對(duì)比上述方法,表4 列舉了部分基于深度學(xué)習(xí)的ABSA 實(shí)驗(yàn)效果,表中粗體字表示同類型方法中較優(yōu)的結(jié)果。在處理ABSA 任務(wù)時(shí),通常會(huì)利用不同模型的優(yōu)勢(shì)以及避免模型缺陷來達(dá)到較優(yōu)的結(jié)果,因此可以預(yù)測(cè)未來針對(duì)ABSA 的任務(wù)會(huì)更加專注于結(jié)合不同方法,并且通過對(duì)預(yù)訓(xùn)練模型的微調(diào),實(shí)現(xiàn)更好的情感分析效果。

      Table 4 Aspect-based sentiment analysis methods based on deep learning表4 基于深度學(xué)習(xí)的方面級(jí)情感分析方法

      基于注意力機(jī)制的方法在計(jì)算時(shí),考慮了目標(biāo)詞與上下文信息?;陬A(yù)訓(xùn)練語言模型的方法提供了更好的模型初始化參數(shù),將注意力機(jī)制與預(yù)訓(xùn)練語言模型相結(jié)合,使得目標(biāo)任務(wù)具備更好的泛化性?;趫D神經(jīng)網(wǎng)絡(luò)的方法能處理非連續(xù)的目標(biāo)詞,解決非歐式空間問題,借助語法解析樹獲得語義相關(guān)性更強(qiáng)的目標(biāo)詞。基于外部情感知識(shí)的方法常結(jié)合語料庫來提升模型的情感分析能力?;谀繕?biāo)的方法需根據(jù)給定的目標(biāo)詞,形成目標(biāo)詞和方面詞的組合,推斷出文本的情感極性。

      同時(shí),從表中可以看出,綜合運(yùn)用不同模型,并取其利、去其弊,能達(dá)到較優(yōu)的效果,這也說明了當(dāng)前方面級(jí)情感分析研究方法的趨勢(shì),即結(jié)合不同方法,運(yùn)用大規(guī)模預(yù)訓(xùn)練模型并進(jìn)行參數(shù)微調(diào),以期得到更好的實(shí)驗(yàn)效果。上述方法的具體比較如表5所示。

      Table 5 Comparison of aspect-based sentiment analysis methods based on deep learning表5 基于深度學(xué)習(xí)的方面級(jí)情感分析方法比較

      3 方面級(jí)情感分析發(fā)展趨勢(shì)

      國內(nèi)外學(xué)者針對(duì)不同的ABSA 任務(wù)已提出了各種各樣的模型框架,并取得豐碩的研究成果,模型的精度、數(shù)據(jù)處理能力都在不斷提升。目前,ABSA 尚處于發(fā)展階段,仍存在許多值得研究的問題。

      3.1 隱式情感分析

      目前大部分ABSA 的研究對(duì)象是顯式的目標(biāo)情感詞,而對(duì)于隱式ABSA 的研究還處在初步發(fā)展階段。例如反諷、隱喻等特殊形式的文本,通常隱含與字面相反的意思,以夸張、比喻等手法對(duì)人或者事物進(jìn)行揭露[51]。隱式情感的表達(dá)方式在生活中廣泛存在,如“手機(jī)只是你生活的一部分,而你確是它的全部,請(qǐng)放下身邊雜事,多陪陪手機(jī)”,該句子的真實(shí)情感是諷刺人們過度使用手機(jī)。但隱式情感分析的復(fù)雜性和不確定性使隱式情感分析成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)。隱式情感分析的主要任務(wù)是從文本中挖掘出蘊(yùn)含的情感信息,現(xiàn)有的主要方法是基于特征和規(guī)則以及基于上下文的方法。

      Lou 等[52]利用外部情感常識(shí)檢索情感信息和句子的句法信息,為每個(gè)句子構(gòu)建情感圖和依賴圖,通過交互式建模情感信息和依賴信息,推斷出句子的隱含情感;Mao等[53]提出無需任何預(yù)處理即可在單詞級(jí)別識(shí)別和解釋隱喻情感的方法,并在機(jī)器翻譯任務(wù)中,能夠識(shí)別隱喻詞并將其替換成常見的同義詞;Javdan 等[54]在ABSA 任務(wù)基礎(chǔ)上,利用BERT 模型提取上下文對(duì)話序列和對(duì)話回復(fù)之間的情感關(guān)系,并確定提取的方面詞是否具有諷刺意義。

      3.2 情感文本生成

      文本生成不僅僅關(guān)注文本傳遞的信息(摘要、問答),傳遞文本的方式也同樣值得關(guān)注。對(duì)于ABSA 而言,情感文本生成是生成以方面詞為中心的文本,如具有特定情感(興奮、生氣、傷心等)的文本。Wang 等[55]采用無監(jiān)督學(xué)習(xí)的方式,在文本生成器中建立一個(gè)基于懲罰的目標(biāo),通過訓(xùn)練多個(gè)生成器和多分類器生成具有特定情感標(biāo)簽的文本;Du 等[56]提出在情感文本生成的每一步中采用自回歸高斯分布對(duì)回復(fù)語義進(jìn)行建模,增強(qiáng)了以實(shí)體詞為中心的情感表達(dá),降低了傳統(tǒng)情感對(duì)話過程中無意義回復(fù)的頻率。因此,目前在情感文本生成領(lǐng)域,研究熱點(diǎn)逐漸轉(zhuǎn)向以方面詞為中心的情感表達(dá),豐富以實(shí)體詞為中心的情感文本信息。

      3.3 多模態(tài)情感分析

      社交媒體上并不僅有文本能夠表達(dá)人們的情感,圖片、音頻、視頻等同樣能夠表達(dá)人們的情感。因此,通過設(shè)計(jì)用于提取視覺特征語義的新方法對(duì)多模態(tài)數(shù)據(jù)進(jìn)行統(tǒng)一分析已成為一個(gè)重要的研究領(lǐng)域。進(jìn)行多模態(tài)情感分析時(shí),需要對(duì)帶有情感色彩的圖文、視頻等多媒體信息的主題或某些方面進(jìn)行分析、處理、歸納和推理。Liang 等[57]將多模態(tài)情感分析與諷刺識(shí)別相結(jié)合,從模態(tài)內(nèi)情感依賴關(guān)系和模態(tài)間情感依賴關(guān)系兩方面出發(fā),對(duì)輸入樣本進(jìn)行聯(lián)合學(xué)習(xí),推斷多模態(tài)數(shù)據(jù)的諷刺識(shí)別結(jié)果;Ju 等[58]結(jié)合多模態(tài)方面術(shù)語提取和多模態(tài)情感法分類,提出帶有輔助的跨模態(tài)關(guān)系檢測(cè)聯(lián)合學(xué)習(xí)方法,利用輔助文本圖像控制視覺信息的應(yīng)用,并根據(jù)聯(lián)合提取的方面信息獲取方面級(jí)別的情感分類。

      總而言之,ABSA 的研究熱點(diǎn)和未來面臨的問題與挑戰(zhàn)還不止于此。對(duì)于文本而言,不僅需要考慮最終的情感極性,而且需要考慮用戶生成的文本是否符合語法規(guī)則,以及如何處理表情符號(hào)等問題。此外,尋找一個(gè)合適的統(tǒng)一框架來完成各種ABSA 任務(wù)也是目前的發(fā)展趨勢(shì)之一。

      4 結(jié)語

      隨著信息技術(shù)的快速發(fā)展,社交平臺(tái)數(shù)量的急劇上漲,以用戶為中心的言論信息量也呈爆發(fā)式增長。言論信息可用于情緒化分析,已廣泛應(yīng)用于電子商務(wù)、心理治療、輿情監(jiān)控等領(lǐng)域,具有較高的商業(yè)價(jià)值與社會(huì)價(jià)值。在情感分析領(lǐng)域,對(duì)于ABSA 的研究是一個(gè)重要的子任務(wù)。本文簡要介紹了情感分析的常用方法,主要闡述ABSA 近年來常用的分類技術(shù)和研究熱點(diǎn),并簡要分析ABSA 未來的發(fā)展趨勢(shì)。

      目前,深度學(xué)習(xí)具有自動(dòng)提取特征、較強(qiáng)的非線性數(shù)據(jù)處理能力以及能顯著降低人工標(biāo)注成本等優(yōu)勢(shì),在情感分析研究中得到了廣泛應(yīng)用,但是深度學(xué)習(xí)所帶來的紅利也漸進(jìn)尾聲,單純的模型復(fù)用和模型疊加并不能很好地提高分類效果。隨著研究的深入,基于淺層的情感分類任務(wù)逐漸陷入瓶頸。文本情感分析的研究任務(wù)逐漸向情感理解、情感生成、情感交互方面不斷深入,研究范圍已從單模態(tài)數(shù)據(jù)逐漸拓展到多模態(tài)數(shù)據(jù)。因此,ABSA 的研究還在不斷發(fā)展中,對(duì)于復(fù)雜語法、諷刺識(shí)別、跨領(lǐng)域多模態(tài)等情感分析任務(wù)的研究正方興未艾。

      猜你喜歡
      文本目標(biāo)情感
      如何在情感中自我成長,保持獨(dú)立
      失落的情感
      北極光(2019年12期)2020-01-18 06:22:10
      情感
      在808DA上文本顯示的改善
      基于doc2vec和TF-IDF的相似文本識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:06
      如何在情感中自我成長,保持獨(dú)立
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      我們的目標(biāo)
      如何快速走進(jìn)文本
      新目標(biāo)七年級(jí)(下)Unit?。尘毩?xí)(一)
      洪湖市| 洪洞县| 大新县| 镇巴县| 聂荣县| 盐源县| 若羌县| 江孜县| 盐边县| 建水县| 张家界市| 西乌珠穆沁旗| 连云港市| 昌邑市| 伊金霍洛旗| 肃宁县| 同仁县| 响水县| 安龙县| 长垣县| 苍梧县| 襄樊市| 平乡县| 兰溪市| 渑池县| 巴里| 石河子市| 高阳县| 南城县| 湖州市| 平原县| 静乐县| 黔东| 尼玛县| 和林格尔县| 湖州市| 沂源县| 古交市| 花莲县| 民勤县| 凤凰县|