• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      多標(biāo)簽文本情緒分類研究綜述

      2020-11-25 07:10:23霍君慧
      現(xiàn)代計(jì)算機(jī) 2020年14期
      關(guān)鍵詞:詞典標(biāo)簽分類

      霍君慧

      (四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

      0 引言

      多標(biāo)簽文本情緒分類主要工作是提取文本中的情緒內(nèi)容,如,喜悅、生氣、悲傷、憤怒等,然后對(duì)這些內(nèi)容打上特定的一個(gè)或多個(gè)情緒標(biāo)簽。分析文本中的情緒是一個(gè)廣泛的研究領(lǐng)域。通過分析文本中的情緒,商家從中分析用戶的心理,提高自己的服務(wù);制造商從中分析產(chǎn)品的不足,提高產(chǎn)品質(zhì)量,提升用戶的滿意度。Aman S[1]提出了一種識(shí)別情緒類別、情緒強(qiáng)度和文本中表示情緒的單詞/短語的情緒標(biāo)注方案,該方法在博客語料庫(kù)上,情緒分類的準(zhǔn)確率為73.89%,明顯高于基線。

      傳統(tǒng)的情緒分析只是將一條信息歸為單一的情緒類別,然而在現(xiàn)實(shí)生活中一條信息可能屬于幾個(gè)不同的情緒類別,Yang J 等人[2]通過圖形表情符號(hào)、標(biāo)點(diǎn)符號(hào)和詞匯來標(biāo)記文本,來進(jìn)行多標(biāo)簽文本情緒分類。

      1 基于詞典的方法

      基于詞典的多標(biāo)簽情緒分類方法是在情緒詞典庫(kù)的基礎(chǔ)上,將文本中的情緒關(guān)鍵詞提取出來,從而對(duì)該文本進(jìn)行情緒分類。同時(shí),生成的詞典具有廣泛的用途,包括預(yù)測(cè)文章中的情緒分布,識(shí)別新聞事件中的情緒,提高情緒分類的準(zhǔn)確率等。對(duì)情感詞典的構(gòu)建方式一般有基于啟發(fā)式規(guī)則、基于圖、基于詞對(duì)齊模型、基于表示學(xué)習(xí)的方法。

      Ma C 等人[3]設(shè)計(jì)了基于文本和嵌入式會(huì)話信使情緒估計(jì)的聊天系統(tǒng),該系統(tǒng)是在一個(gè)評(píng)估文本聊天消息的情緒內(nèi)容評(píng)估模塊的基礎(chǔ)上,通過關(guān)鍵字提取文本中的相關(guān)情緒,再通過句法特征、語音合成及相關(guān)的情緒手勢(shì)來評(píng)估文本的情緒。

      由于情緒詞典中的情緒詞會(huì)受時(shí)間、領(lǐng)域、語言和文化的影響,即同一個(gè)情緒詞在不同的時(shí)間、領(lǐng)域、語言和文化的環(huán)境中表達(dá)的情緒可能會(huì)不同,因此在跨時(shí)間、跨領(lǐng)域、跨語言、跨文化的多標(biāo)簽文本情緒分類任務(wù)中的效果不是很理想。

      在跨時(shí)間環(huán)境中,人類的大腦可能會(huì)在不同的時(shí)間對(duì)相同的情緒做出不同的表現(xiàn),Liu S[4]通過使用支持向量機(jī)對(duì)中性、積極或消極三種情緒狀態(tài)進(jìn)行分類,在訓(xùn)練集上加入不同的天數(shù),實(shí)驗(yàn)結(jié)果表明實(shí)驗(yàn)結(jié)果的準(zhǔn)確率會(huì)隨著訓(xùn)練天數(shù)的增加而增加,極大地提高了情緒分類器的泛化能力。

      在跨領(lǐng)域的環(huán)境中,Scheve C V 等人[5]提出了一個(gè)結(jié)合跨領(lǐng)域的方法來研究情緒和社會(huì)的結(jié)構(gòu),分析了社會(huì)對(duì)認(rèn)知和情感相互作用的影響,考察了情緒是如何在社會(huì)中被激發(fā)和表達(dá)的,研究了社會(huì)是如何影響情緒的處理和調(diào)節(jié)。

      在跨語言的環(huán)境中,Choi J 等人[6]記錄了正負(fù)效價(jià)(valence)、主動(dòng)/被動(dòng)覺醒(arousal)、已知會(huì)影響情緒識(shí)別的屬性的基本情緒(basic)和非基本情緒(non-basic)等情緒,來解決跨語言中的不對(duì)稱問題。

      在跨文化的環(huán)境中,Sanchez J 等人[7]通過讓墨西哥人說西班牙語和讓美國(guó)人說英語在兩分鐘內(nèi)盡可能多的列出情緒,對(duì)兩種語言的數(shù)據(jù)進(jìn)行分析,結(jié)果表明在兩種語言中兩國(guó)人對(duì)情感的認(rèn)知顯示出了相同的比例分布,對(duì)情感的處理是跨文化不變的。Li A 等人[8]研究了文化對(duì)表情、聲音和感知的影響,從而探討了中日兩國(guó)在情感表達(dá)和情感感知上的差異,研究表明相互沖突的信號(hào)會(huì)受到文化背景的影響。

      基于詞典的情緒分類方法一般步驟為:①文本預(yù)處理,包括分詞(主要的分詞工具有jieba 分詞、Snow-NLP、Yaha 分詞等)和去除停用詞(文本中有許多詞語不用于表示情緒,但是出現(xiàn)的頻率卻很多,如中文中“的”,可以將其去除,來提高分類效率)。②載入情緒詞典(包括積極詞典、消極詞典、否定詞詞典、程度副詞詞典)。③多標(biāo)簽文本情緒分類。

      此外,基于詞典的情緒分類方法在情感詞標(biāo)注的準(zhǔn)確率較低和情感詞覆蓋率較低的情況下,分類效果會(huì)降低,而且該方法會(huì)受到時(shí)間、語言、領(lǐng)域等方面的影響,所以如何構(gòu)建高質(zhì)量的情緒詞典仍然是這個(gè)研究領(lǐng)域的重點(diǎn)。

      2 基于規(guī)則的方法

      基于規(guī)則的多標(biāo)簽情緒分類是在定義一個(gè)規(guī)則的基礎(chǔ)上進(jìn)行分類的方法。Zhang X[9]等人將基于規(guī)則的方法應(yīng)用到中文微博文本上,通過總結(jié)表達(dá)情緒的基本語義規(guī)則,對(duì)中文微博文本進(jìn)行情緒分類,并與基于SVM 的方法進(jìn)行比較,其結(jié)果優(yōu)于基于SVM 的方法。

      多標(biāo)簽情緒分類的研究多集中在對(duì)文本中情緒的顯示表達(dá)上,對(duì)于隱含的情緒分類研究較少,Udochukwu O 等人[10]提出了一種基于規(guī)則的隱含情緒分類方法,并在三個(gè)不同的數(shù)據(jù)集上進(jìn)行評(píng)估,在F-measure上有17-30%的優(yōu)勢(shì),并在給出的“Happy”、“Angry-Disgust”、“Sad”上的平均F-measure 為82.7%,高于監(jiān)督學(xué)習(xí)分類的基線近17%。Liu H 等人[11]通過構(gòu)建基于規(guī)則的情緒分類系統(tǒng),來識(shí)別真實(shí)數(shù)據(jù)集中的密集分類。

      基于規(guī)則的多標(biāo)簽情緒分類方法加入一些規(guī)則來提高多標(biāo)簽情緒分類的準(zhǔn)確率,在數(shù)據(jù)量較小時(shí),比較簡(jiǎn)單,容易維護(hù)。

      3 基于主題的方法

      基于主題的方法一般是先從詞語中生成主題,再?gòu)闹黝}中提取情緒。Bao S 等人[12]提出了一個(gè)情緒主題模型,該模型從情緒中產(chǎn)生一組潛在的主題,然后從每個(gè)主題中產(chǎn)生情緒詞,在新聞數(shù)據(jù)集上,該模型能夠有效識(shí)別每個(gè)情緒所在的潛在主題。

      Li Q 等人[13]提出了兩種基于社交媒體的情緒主題模型,第一種模型是對(duì)現(xiàn)有監(jiān)督主題模型的擴(kuò)展,從單詞生成主題模型,再?gòu)拿總€(gè)主題中獲取情緒。而第二種模型是直接從社會(huì)情緒中產(chǎn)生話題,將潛在主題和作者的情緒聯(lián)系起來,從而發(fā)現(xiàn)能夠表現(xiàn)情感焦點(diǎn)的潛在主題。

      Lei J 等人[14]通過使用三種剪枝策略來自動(dòng)構(gòu)建基于社會(huì)情緒檢測(cè)的詞匯級(jí)情緒詞典。并提出了一個(gè)基于主題的方法來構(gòu)建一個(gè)主題級(jí)詞典。

      Xu H[15]通過構(gòu)建基于主題的條約圖模型,通過LDA 來確定基于主題的單詞關(guān)系,然后將其集成到分布式的單詞嵌入學(xué)習(xí)中,該模型能夠同時(shí)使用不同種類的詞嵌入來進(jìn)行情緒分類,并應(yīng)用于生物醫(yī)學(xué)領(lǐng)域,優(yōu)于當(dāng)時(shí)最先進(jìn)的方法。

      傳統(tǒng)的基于主題的分類算法中的主題一般是上下文敏感的,為了解決這個(gè)問題,Yanghui 等人[16]構(gòu)建情境情緒主題模型,將上下文無關(guān)的主題與背景主題(非歧義性文本信息)和上下文主題(跨不同集合的上下文相關(guān)文本信息)進(jìn)行區(qū)分,以自適應(yīng)社會(huì)情緒分類。

      基于主題的多標(biāo)簽情緒分類方法依賴于主題模型,對(duì)主題模型的要求較高。

      4 基于機(jī)器學(xué)習(xí)的方法

      傳統(tǒng)的基于機(jī)器學(xué)習(xí)的情緒分類方法通常是通過語言模型來提取文本特征,然后通過使用機(jī)器學(xué)習(xí)方法來進(jìn)行分類。

      基于機(jī)器學(xué)習(xí)的常用情緒分類方法是通過樸素貝葉斯、支持向量機(jī)、最大熵等方法來進(jìn)行多標(biāo)簽文本情緒分類。Pang B[17]等人在電影評(píng)論的基礎(chǔ)上,測(cè)試三種機(jī)器學(xué)習(xí)方法(樸素貝葉斯、支持向量機(jī)、最大熵)的文本情緒分類效果,結(jié)果表明支持向量機(jī)要比樸素貝葉斯和最大熵的效果好。Roth D[18]等人將監(jiān)督機(jī)器學(xué)習(xí)和BOW 方法,應(yīng)用在兒童通話故事的敘事領(lǐng)域中,對(duì)文本中的情感內(nèi)容和非情感內(nèi)容進(jìn)行分類,結(jié)果令人鼓舞。Li J 等人[19]提出了一個(gè)基于多標(biāo)簽的最大熵模型,通過對(duì)多個(gè)用戶的共同評(píng)分和多個(gè)情緒標(biāo)簽進(jìn)行建模,然后對(duì)短文本進(jìn)行情緒分類。

      基于機(jī)器學(xué)習(xí)的多標(biāo)簽文本分類在許多數(shù)據(jù)集上的實(shí)現(xiàn)效果很好,但是在特征提取時(shí)可能會(huì)出現(xiàn)特征向量系數(shù)、提取難度較大等問題。

      5 基于深度學(xué)習(xí)的方法

      基于深度學(xué)習(xí)的多標(biāo)簽情緒分類方法一般是將詞嵌入得到的詞向量作為情緒分類模型的輸入,輸入到深度學(xué)習(xí)模型中,常用的深度學(xué)習(xí)模型有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等。

      Akhtar M S 等人[20]通過使用多任務(wù)集成框架,將CNN、長(zhǎng)短記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和GRU(Gated Recurrent Unit)三種深度學(xué)習(xí)模型集成,來解決情緒分類中粗細(xì)粒度和不同范圍的領(lǐng)域(即tweet、Facebook 信息、博客等)問題。

      Kumar A[21]提出了一種注意神經(jīng)網(wǎng)絡(luò),在雙向長(zhǎng)短記憶網(wǎng)絡(luò)的基礎(chǔ)上,加入外部知識(shí)(分布類同義詞典),以提高情緒預(yù)測(cè)能力。并在SemEval 2016 Task 6 數(shù)據(jù)集上進(jìn)行評(píng)估,提高了3.2 個(gè)F-score 分。

      基于深度學(xué)習(xí)的多標(biāo)簽情緒分類模型能夠從數(shù)據(jù)中提取出更為深層次的特征,在學(xué)習(xí)和表達(dá)等方面明顯優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,但是該種方法會(huì)受到詞向量的影響,因此構(gòu)建更好的詞向量仍然是研究的熱點(diǎn)。

      6 結(jié)語

      本文對(duì)多標(biāo)簽情緒分類進(jìn)行了研究,從基于情緒詞典、基于主題、基于規(guī)則、基于機(jī)器學(xué)習(xí)、基于深度學(xué)習(xí)五個(gè)方面來介紹其方法,多標(biāo)簽情緒分類是從文本中提取出情緒,是自然語言處理的一個(gè)分支,可應(yīng)用于市場(chǎng)分析、金融預(yù)測(cè)、輿情監(jiān)控等領(lǐng)域,可以預(yù)見,在未來的文本分類研究領(lǐng)域中,將會(huì)涌現(xiàn)出大量的人對(duì)多標(biāo)簽情緒分類進(jìn)行研究。

      猜你喜歡
      詞典標(biāo)簽分類
      分類算一算
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      分類討論求坐標(biāo)
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      數(shù)據(jù)分析中的分類討論
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      評(píng)《現(xiàn)代漢語詞典》(第6版)
      教你一招:數(shù)的分類
      詞典例證翻譯標(biāo)準(zhǔn)探索
      標(biāo)簽化傷害了誰
      吴江市| 自治县| 富源县| 普兰店市| 惠东县| 炉霍县| 英德市| 岳普湖县| 炎陵县| 澜沧| 南康市| 邯郸市| 镇康县| 浑源县| 崇文区| 杂多县| 岫岩| 社会| 东兴市| 新邵县| 靖州| 库尔勒市| 大英县| 土默特右旗| 宜川县| 公主岭市| 西乌珠穆沁旗| 和静县| 张家口市| 庆阳市| 翁源县| 乳源| 涟源市| 金湖县| 虞城县| 长治县| 万源市| 六枝特区| 阿拉尔市| 施秉县| 高阳县|