• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      文本情緒原因檢測研究綜述

      2020-04-01 18:12:34陳珊珊姚攀
      現(xiàn)代計算機 2020年6期
      關(guān)鍵詞:子句規(guī)則情緒

      陳珊珊,姚攀

      (四川大學(xué)計算機學(xué)院,成都610065)

      0 引言

      當(dāng)今是一個信息豐富,網(wǎng)絡(luò)發(fā)達(dá)的社會,互聯(lián)網(wǎng)為人們的工作生活帶來極大便利,人們利用社交媒體了解時事、分享經(jīng)歷、表達(dá)情緒,網(wǎng)絡(luò)空間中出現(xiàn)了大量包含情緒的文本數(shù)據(jù),例如產(chǎn)品評論或者對熱點事件的討論等。從海量文本中識別和理解情緒成為自然語言處理領(lǐng)域中重要的研究方向之一。早期,對情緒分析的研究大多數(shù)集中在情緒分類、情緒識別等任務(wù)[1]。但是,在實際生活中,企業(yè)組織或服務(wù)人員有時更關(guān)心文本中表達(dá)某種情緒背后的原因。他們可以根據(jù)消費者產(chǎn)生情感的原因,有效地提高產(chǎn)品的性能或服務(wù)質(zhì)量。例如,某顧客發(fā)布一條評論,“旅店的無線網(wǎng)絡(luò)極其差勁,嚴(yán)重影響我工作,太讓人生氣了,下次不會再來了。”酒店經(jīng)理更想知道顧客為什么不喜歡他們的酒店,而不是簡單的情緒分類。在確定情緒產(chǎn)生的原因后,他們可以改善無線網(wǎng)絡(luò)環(huán)境,吸引更多的客人,這顯然比單純了解顧客是否滿意更加具有實踐上的指導(dǎo)意義,所以對文本情緒原因檢測的研究具有重大的商業(yè)應(yīng)用價值。相比與一般情緒分類任務(wù),情緒原因檢測需要更深層次的理解情緒與情緒原因間的關(guān)系,具有更高的難度。

      本文結(jié)構(gòu)分為三個部分,第一節(jié)介紹文本情緒原因檢測的任務(wù)描述和主要方法;第二節(jié)介紹相關(guān)語料資源的基本情況;第三節(jié)總結(jié)和展望。

      1 文本情緒原因檢測研究現(xiàn)狀

      1.1 任務(wù)描述

      情緒原因檢測任務(wù)是指識別文本中觸發(fā)某一情緒的原因[1],具體做法是將文本分割為多個子句,在已知情緒表達(dá)的情況下,識別文本中的子句是否包含情緒原因。如例句1,已知“傷心”的情緒,識別目標(biāo)是原因所在子句“卻被告知丈夫殉職的噩耗”。

      1.2 規(guī)則方法

      文獻(xiàn)[1]首次提出情緒原因檢測任務(wù),基于Sinica語料庫構(gòu)建了一個較小的情緒原因數(shù)據(jù)集[1],通過觀察、分析數(shù)據(jù)集,總結(jié)出與文本情緒原因有關(guān)的常見使役動詞、原因連詞、感知動詞、連詞、其他線索詞等,歸納了七組語言學(xué)線索,并構(gòu)建相應(yīng)的規(guī)則系統(tǒng)。隨著社交媒體的發(fā)展,情緒原因檢測在微博文本中有了較大的需求。由于微博文本語言表達(dá)口語化和生活化,多為短句,并含有較多表情符號,與普通新聞文本存在差異,解決新聞文本的規(guī)則并不適用于微博本文,文獻(xiàn)[2]在文獻(xiàn)[1]提出的規(guī)則基礎(chǔ)上,針對微博文本的特點重新定義了適用于微博文本的規(guī)則。文獻(xiàn)[3]提出從情緒原因到情緒表達(dá)可以看作一個認(rèn)知的過程],研究產(chǎn)生情緒的常識知識有助于情緒原因檢測,文中搜集了情緒原因詞對,構(gòu)建情緒——情緒原因常識知識庫,并利用其他情緒表達(dá)知識庫對其進(jìn)行擴展,用基于規(guī)則的方法實現(xiàn)情緒原因檢測。實驗顯示常識庫可以作為基于規(guī)則模型的情緒原因檢測方法的有效補充,提高情緒原因檢測的效果。

      1.3 機器學(xué)習(xí)方法

      基于規(guī)則的方法不能覆蓋所有語言規(guī)則,存在規(guī)則繁多、覆蓋率低的缺點;針對不同風(fēng)格的文本,需要重新構(gòu)建相應(yīng)規(guī)則。與傳統(tǒng)的基于規(guī)則方法相比,基于統(tǒng)計機器學(xué)習(xí)的方法不需要更新大量的規(guī)則,所以研究人員選擇機器學(xué)習(xí)的方法來解決文本情緒原因檢測問題。

      基于機器學(xué)習(xí)的方法又可以分為分類方法和序列標(biāo)注方法。采用分類的方法,文獻(xiàn)[4]將情緒原因檢測任務(wù)看作多標(biāo)簽分類問題,并泛化文獻(xiàn)[1]提出的規(guī)則,設(shè)計了基于語言學(xué)規(guī)則的特征和情緒原因檢測的通用特征。文獻(xiàn)[5]將情緒原因檢測看作二分類問題,將人工構(gòu)建的規(guī)則,候選原因子句與情緒表達(dá)的位置關(guān)系,情緒原因的詞性標(biāo)注作為特征編碼候選原因子句,用SVM對子句進(jìn)行分類。文獻(xiàn)[6]利用卷積核的學(xué)習(xí)方法訓(xùn)練多核分類器,用于識別情緒原因事件,文中定義了一個7元組描述情緒原因事件,使用語法結(jié)構(gòu)來獲取情緒原因的結(jié)構(gòu)特征和詞匯特征。

      分類模型將文本中每個子句單獨對待,無法捕捉子句標(biāo)簽之間的關(guān)系。文獻(xiàn)[7]將情緒原因檢測任務(wù)看作序列標(biāo)注問題,文中分析了詞性特征,情緒表達(dá)與情緒原因之間的相對距離特征,語言學(xué)規(guī)則特征,采用條件隨機場算法(CRF)對特征序列進(jìn)行學(xué)習(xí)和標(biāo)注。序列標(biāo)注模型可以克服分類模型無法利用文本子句間關(guān)系的缺點,同時模型融入詞法、相對距離和語法規(guī)則等特征,提高模型識別效果。

      1.4 神經(jīng)網(wǎng)絡(luò)方法

      情緒表達(dá)與情緒原因的關(guān)系通常是語義相關(guān)的,基于規(guī)則和機器學(xué)習(xí)的方法都只是在對于情緒原因子句上的特征進(jìn)行分析和提取,少有考慮到情緒表達(dá)子句與原因子句間的語義關(guān)系。由于神經(jīng)網(wǎng)絡(luò)模型自動學(xué)習(xí)特征的優(yōu)勢,越來越多的研究人員使用神經(jīng)網(wǎng)絡(luò)模型來解決情緒原因檢測問題。

      (1)考慮情緒表達(dá)子句與原因子句間的關(guān)系

      文獻(xiàn)[8]從問答系統(tǒng)的角度來解決文本情緒原因檢測問題,研究結(jié)合注意力機制的記憶網(wǎng)絡(luò)[8],建模文本中情緒表達(dá)與情緒原因之間的相關(guān)關(guān)系。將文本分成多個子句,模型接受候選情緒原因子句和情緒表達(dá)關(guān)鍵詞兩個輸入,通過注意力機制建模兩個輸入的關(guān)系,以此判斷候選情緒原因子句是否為情緒原因子句。該方法為后續(xù)的研究者提供新的研究思路與方向。文獻(xiàn)[9]提出將情緒表達(dá)關(guān)鍵詞作為查詢輸入,這一做法忽略了情緒表達(dá)關(guān)鍵詞的上下文所包含的信息。例如例句2,其中情緒表達(dá)關(guān)鍵詞為“沮喪”,情緒原因子句為子句④“馬刺隊的鄧肯也宣布退役”:

      例句2:

      ①在2016年,

      ②湖人隊的科比宣布退役,

      ③同一年,

      ④馬刺隊的鄧肯也宣布退役。

      ⑤ 馬刺隊的隊員和鄧肯的粉絲都感到十分沮喪。

      若將“沮喪”作為查詢輸入,文本中每個子句作為被查詢內(nèi)容,那么子句②與子句④都是將是滿足查詢輸入的答案。然而,顯然子句②雖然滿足“沮喪”,但它卻并不是正確的查詢結(jié)果。針對該問題,文獻(xiàn)[9]提出應(yīng)當(dāng)將情緒表達(dá)關(guān)鍵詞所在子句中的其他詞的語義也納入考慮,即將整個情緒表達(dá)子句作為查詢輸入。在此例子中查詢輸入就由“沮喪”變?yōu)榱苏麄€子句⑤??紤]了情緒表達(dá)關(guān)鍵詞的上下文后,對情緒原因檢測的識別效果有了進(jìn)一步提升。

      (2)考慮文檔中各子句間的關(guān)系

      文獻(xiàn)[10]提出了使用整個文本和情緒表達(dá)作為輸入,考慮文本中各個候選原因子句間的語義影響,使用注意力機制在詞語級、短語級層次上對候選原因子句與情緒表達(dá)間的對應(yīng)關(guān)系建模,再在句子級融合子句間的上下文信息,通過這種多層級網(wǎng)絡(luò)模型來確定情緒原因子句。情緒原因檢測任務(wù)除了考慮情緒表達(dá)與情緒原因的關(guān)系之外,子句與情緒表達(dá)的相對位置關(guān)系和子句間的標(biāo)簽關(guān)系[11]也是有助于情緒原因檢測的重要特征。在只考慮情緒表達(dá)子句與原因子句間的關(guān)系的建模方式中,將文本分成多個子句分別與情緒表達(dá)所在子句配對,這種建模方式可能導(dǎo)致一個文檔中沒有子句被預(yù)測為原因子句,或者太多子句被預(yù)測為原因子句。為了解決該問題,文獻(xiàn)[11]將情緒原因檢測任務(wù)轉(zhuǎn)化為重新排序后的子句預(yù)測問題,將原始文本中的子句按照距離情緒表達(dá)子句的相對距離,按其絕對值大小升序排序,預(yù)測每個子句是否為情緒原因子句,將子句的預(yù)測結(jié)果作為特征,用于預(yù)測下一個子句是否為情緒原因子句。文獻(xiàn)[12]提出一種RNN-Trans?former層級網(wǎng)絡(luò),對整篇文檔采用Transformer編碼子句的方法進(jìn)行情緒原因檢測,使用Transformer的編碼方式能充分利用整篇文檔的信息,更有效的編碼子句間的相互作用關(guān)系。實驗結(jié)果證明了使用Transformer對多個子句的編碼效果使用RNN編碼子句間關(guān)系的效果更好[12]。

      2 語料資源

      目前,仍然缺少情緒原因檢測的中文微博數(shù)據(jù)集。對于中文微博的情緒原因檢測,大都是研究人員各自構(gòu)建數(shù)據(jù)集。文獻(xiàn)[6]針對表述規(guī)范的文本,公開了基于新聞文本構(gòu)建的情緒原因檢測數(shù)據(jù)集,彌補了之前沒有公開數(shù)據(jù)集的空白,進(jìn)而推進(jìn)了情緒原因檢測任務(wù)的發(fā)展。目前,該數(shù)據(jù)集已經(jīng)成為情緒原因檢測任務(wù)的基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集包含了喜(Happi?ness)、悲(Sadness)、懼(Fear)、怒(Anger)、惡(Disgust)、驚(Surprise)六種情緒[6];包含2105篇文檔,11799個子句,其中包括2167個情緒原因子句,情緒原因數(shù)量的分布情況如表1;原因子句與情緒表達(dá)子句的距離分布如表2,“0”表示原因子句與情緒表達(dá)在同一子句,“-”表示原因子句在情緒表達(dá)子句左邊,“+”表示原因子句在情緒表達(dá)子句右邊,經(jīng)過分析可發(fā)現(xiàn)大部分情緒原因子句在情緒表達(dá)子句的前一個子句或者同一子句。

      表1 情緒原因數(shù)量的分布情況

      表2原因子句與情緒表達(dá)子句的距離分布情況

      3 結(jié)語

      本文對情緒原因檢測的研究進(jìn)展進(jìn)行了介紹,簡單介紹了文本情緒原因檢測任務(wù)和相關(guān)數(shù)據(jù)集的基本情況,重點介紹了解決情緒原因檢測問題的三大主要方法,分析了這幾類方法的改進(jìn)思想。情緒原因檢測任務(wù)將有助于情緒的識別,問答系統(tǒng)的發(fā)展,增強人機交互體驗,具有較高的研究價值和應(yīng)用價值。情緒原因檢測是情緒分析領(lǐng)域一個新的研究方向,在實驗效果上仍然有很大的提升空間。目前仍存在缺少公開中文微博數(shù)據(jù)集以及已公開數(shù)據(jù)量較少的問題,這給該任務(wù)提出新的挑戰(zhàn),需要進(jìn)一步探索新的解決方法。

      猜你喜歡
      子句規(guī)則情緒
      命題邏輯中一類擴展子句消去方法
      撐竿跳規(guī)則的制定
      數(shù)獨的規(guī)則和演變
      命題邏輯可滿足性問題求解器的新型預(yù)處理子句消去方法
      西夏語的副詞子句
      西夏學(xué)(2018年2期)2018-05-15 11:24:42
      小情緒
      小情緒
      小情緒
      讓規(guī)則不規(guī)則
      Coco薇(2017年11期)2018-01-03 20:59:57
      TPP反腐敗規(guī)則對我國的啟示
      慈利县| 克拉玛依市| 财经| 玉树县| 岳普湖县| 昭平县| 报价| 青冈县| 铜川市| 东宁县| 平顶山市| 襄垣县| 乌审旗| 渭源县| 汾阳市| 高台县| 朝阳区| 饶河县| 微山县| 韶山市| 明光市| 攀枝花市| 建昌县| 义乌市| 石棉县| 乡城县| 邻水| 南召县| 宁远县| 民县| 泸定县| 修武县| 白玉县| 彰武县| 潜山县| 屏南县| 友谊县| 革吉县| 若羌县| 衡水市| 武川县|