• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于BiLSTM+Self-Attention的多性格微博情感分類

      2022-01-24 08:36:30馮媛媛劉克劍李偉豪
      關(guān)鍵詞:博文分類器性格

      馮媛媛,劉克劍,李偉豪

      (西華大學(xué)計算機與軟件工程學(xué)院,四川 成都 610039)

      近年來,微博已成為最受歡迎的社交網(wǎng)絡(luò)平臺之一。人們可以通過微博隨時、隨地分享和交流信息,表達情感和發(fā)表觀點,實現(xiàn)信息的即時分享、傳播互動。截至2020 年10 月,微博月活躍用戶已達5.23 億。微博所攜帶的大量信息流尤其是公眾情感,對輿論起著重要作用。

      情感分類是情感分析的研究主題之一,根據(jù)情感極性對文本進行分類。一般地,情感極性分為3 類:積極、中性和消極。現(xiàn)有的情感分類技術(shù)主要分為:基于情感詞典的分類方法、基于傳統(tǒng)機器學(xué)習(xí)的分類方法和基于深度學(xué)習(xí)的分類方法?;谠~典的方法主要利用情感詞典和語言規(guī)則進行情感分類。Turney 等[1]計算評論中的情感極性均值,并將其作為評論整體的情感極性。同時,有研究[2-4]表明,否定詞、程度副詞等對于判斷整個句子的情感極性有相當(dāng)大的影響。王銀等[5]在大連理工大學(xué)的情感詞匯本體庫基礎(chǔ)上,構(gòu)建了程度副詞詞典、否定詞詞典、網(wǎng)絡(luò)用語詞典、表情符號詞典以及關(guān)系連詞詞典5 個詞典,通過權(quán)值計算微博文本情感值。張公讓等[6]通過建立程度副詞詞典、否定詞詞典和情感詞典,對各家快遞服務(wù)的客戶評價實現(xiàn)了情感預(yù)測。雖然基于詞典的方法可以獲得很好的分類效果,但是該方法嚴重依賴于情感詞典,靈活性和適應(yīng)較差。

      基于傳統(tǒng)機器學(xué)習(xí)的方法通常是從語料庫中提取有效的文本特征,實現(xiàn)情感分類。Zhang 等[7]將條件隨機場(CRF)運用到文章句子的語境分析中,通過分析句子的語境,有效提取情感特征,實現(xiàn)情感分類。Gao 等[8]調(diào)查了用戶容忍度和商品知名度對情感分類的影響,提出了一種近似解碼算法(approached decoding algorithm)對商品評論進行情感分類。馮成剛等[9]比較了常用的3 種機器學(xué)習(xí)算法(SVM、NB 和K最鄰近算法)、3 種特征選擇方法(信息增益、互信息、加權(quán)似然對數(shù))以及特征權(quán)重方法(布爾權(quán)重、詞頻權(quán)重,詞頻-逆詞頻)對中文微博情感分類的影響。Haque 等[10]利用線性SVM、梯度下降和隨機森林等機器學(xué)習(xí)方法對亞馬遜3 個種類的商品評論進行情感分類,其中SVM 在音樂領(lǐng)域的分類效果最好?;趥鹘y(tǒng)機器學(xué)習(xí)的情感分析方法分類效果趨于更準(zhǔn)確,但它依賴于帶有標(biāo)記的語料庫的質(zhì)量。

      基于深度學(xué)習(xí)的方法主要是利用詞向量對文本中的詞語進行表示,進而構(gòu)建句子級或篇章級的語義表示,通過采用深度學(xué)習(xí)模型學(xué)習(xí)文本中的情感特征,實現(xiàn)情感分類。目前大多數(shù)情感分類主要采用基于深度學(xué)習(xí)的方法。胡榮磊等[11]將長短記憶網(wǎng)絡(luò)(LSTM)與注意力機制結(jié)合,對酒店評論文本進行了情感分析。Xu 等[12]在LSTM的基礎(chǔ)之上,引入了一種緩存機制來幫助循環(huán)單元更有效地保存情感信息。貴向泉等[13]提出將時序卷積網(wǎng)絡(luò)(TCN)與BiLSTM+Attention 模型相融合的文本情感分類方法,利用TCN的因果卷積和擴張卷積結(jié)構(gòu)獲取更高層次的文本序列特征,并通過雙向長短期記憶網(wǎng)絡(luò)進一步提取全局特征,最后,引入自注意力機制(self-attention)幫助模型優(yōu)化特征向量,提高情感分類的準(zhǔn)確度。

      由于微博有字數(shù)限制,文本偏口語化、生活化,使用網(wǎng)絡(luò)流行語和表情符,因此,對于實現(xiàn)微博文本情感分類來說是一個挑戰(zhàn)。學(xué)者們提出了一些方法來提高情感分類的準(zhǔn)確率。金志剛等[14]結(jié)合表情符和文本情感特征,通過CNN 捕獲局部特征,并將其作為情感分類器的輸入,訓(xùn)練出微博情感分類器。李勇敢等[15]從中文微博觀點句識別、情感傾向性分類和情感要素抽取3 個方面實現(xiàn)了中文微博情感自動分析。針對現(xiàn)有大多數(shù)微博文本情感分析未結(jié)合深度學(xué)習(xí)模型和情感符號的情況,張仰森等[16]提出了一種雙重注意力模型的方法,構(gòu)建了一個包含情感詞、否定詞、程度副詞、網(wǎng)絡(luò)詞和微博表情符的微博情感符號庫,通過將注意力模型和情感符號相結(jié)合,有效增強了捕獲微博情感語義的能力。Barbosa 等[17]在普通文本特征的基礎(chǔ)上,提取了微博文本特有的一些特征,包括轉(zhuǎn)發(fā)、回復(fù)、hash-tag、URL、標(biāo)點符號、表情符號以及以大寫字母開頭的單詞數(shù)目等,采用有監(jiān)督的方法實現(xiàn)Twitter 文本的情感分類。

      值得注意的是,目前大多數(shù)情感分類研究忽略了用戶性格這一因素。心理學(xué)研究表明,性格會影響人們的表達方式。不同性格的人在表達情感時,表達方式會有所不同[18]。心理學(xué)領(lǐng)域的“大五”理論,定 義 了5 種 人 格 特 征,分 別 是 開 放 性(openness)、責(zé)任性(conscientiousness)、外向性(extroversion)、宜 人 性(agreeableness)、神 經(jīng) 質(zhì)(neuroticism)。外向型人格的人在表達時使用的詞語通常與社交活動、家人相關(guān)。擁有高宜人人格的人更具有同情心、樂于助人,與人相處融洽。責(zé)任型人格的人通常比較可靠,有責(zé)任心,自律。劉亦真[19]基于微博平臺,分析研究了不同人格傾向的微博用戶在情緒表達上的特點。Verhoeven 等[20]在短文數(shù)據(jù)集上訓(xùn)練性格分類模型,將其輸出作為元特征來預(yù)測Facebook 用戶的性格特征。張巖峰等[21]利用微博用戶的文本及行為等特征,使用提升決策樹、支持向量機以及貝葉斯邏輯遞歸3 種機器學(xué)習(xí)方法進行實驗,得出通過微博的文本特征和非文本特征都能分析出用戶人格特質(zhì)的結(jié)論。

      在以上情感分類研究中,大多數(shù)在提取文本情感特征時,并沒有考慮到用戶性格特征,但也有研究者結(jié)合了用戶性格特征。袁婷婷[22]通過建立性格詞典并利用LTSM 模型對不同性格的文本進行情感預(yù)測,但忽略了上下文語境信息也會影響情感分析。賈莉等[23]在結(jié)合用戶性格信息的基礎(chǔ)上利用BiLSTM 模型,在微博文本情感預(yù)測上雖然有所提升,但未充分利用到文本的局部信息。吳小華等[24]提出了BiLSTM 結(jié)合自注意力機制的模型來進行情感預(yù)測,但沒有考慮到性格對語句表達有所影響這一因素。為此,本文在結(jié)合用戶性格信息的基礎(chǔ)上,提出了一種利用雙向長短期記憶網(wǎng)絡(luò)和自注意力機制來實現(xiàn)微博情感分類的方法。該方法通過提取不同性格的用戶情感特征,分別訓(xùn)練出各自的基本分類器,再采用集成學(xué)習(xí)策略進行結(jié)果融合,進而實現(xiàn)情感分類。

      1 相關(guān)研究工作

      1.1 大五人格模型

      大五人格模型是研究者運用最廣的一種模型。大五人格模型將人格劃分為5 個維度:開放型、外向型、宜人型、責(zé)任型和神經(jīng)質(zhì)型。表1 列出了不同人格的主要表現(xiàn)。

      表1 大五人格特征

      在對微博文本進行情感分析時,筆者發(fā)現(xiàn)不同性格有不同的表達特點,例如:高外向型人格在表達時通常使用“聚會”“團隊”“老鐵們”等與家人、朋友以及社交相關(guān)的詞語;低外向型人格則會使用“宅”“安靜”等詞語。為了能夠增強這些詞語對情感表達的貢獻率,更好地提取不同性格的深層次情感特征,本文在BiLSTM的基礎(chǔ)上采用了自注意力機制對微博中詞語的重要程度進行權(quán)重分配。

      為了有效提取不同性格的情感特征,需要對微博用戶的性格進行預(yù)測和分類,因此,本文提出了一種基于規(guī)則的性格分類方法來對微博用戶的性格進行預(yù)測和分類,根據(jù)性格分類結(jié)果,將微博文本進行分組,并分別提取不同性格分組的文本情感特征。該方法能夠充分利用用戶性格信息有效提取情感特征。

      1.2 雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)

      循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)的延伸。然而,標(biāo)準(zhǔn)的RNN 卻有梯度消失和梯度爆炸問題。為了解決這2 個問題,Hochreiter 等[25]提出了長短期記憶網(wǎng)絡(luò)(LSTM),但是,LSTM 只能獲取正向的信息,無法獲取逆向的信息。對于文本來說,理解前后文信息對其更加有幫助。BiLSTM 由一個正向的LSTM 和一個逆向的LTSM 所組成,能夠同時獲取上下文信息[26]。BiLSTM 結(jié)構(gòu)圖如圖1 所示。

      圖1 BiLSTM 模型結(jié)構(gòu)

      1.3 自注意力機制(self-attention)

      自注意力機制[27],就是將注意力集中在需要重點關(guān)注的目標(biāo)上,分配更多的權(quán)重,獲取目標(biāo)的更多細節(jié)信息,忽略不重要的信息。自注意力機制是對自己本身的詞語進行Attention 計算,不用考慮直接距離長短,能夠充分考慮句子之間、不同詞語之間的語義及語法聯(lián)系,捕獲句子的內(nèi)部結(jié)構(gòu)。其計算公式為

      式中:Q,K,V為模型中計算得到的向量矩陣;f(Q,KT)計算Q和K的相似度;dk為詞向量維度;起調(diào)節(jié)作用,通過Softmax 函數(shù)進行歸一化。

      2 結(jié)合BiLSTM 和自注意力機制的微博情感分類模型(P-BiLSTM-SA)

      基于性格特征,結(jié)合雙向長短記憶網(wǎng)絡(luò)和自注意力機制,本文提出了一種BiLSTM 和自注意力機制相結(jié)合的微博情感分類模型(P-BiLSTM-SA 模型),總體結(jié)構(gòu)如圖2 所示。首先,將用戶性格相似的文本歸為一類,因為相同性格的人,其表達方式具有相似性;接著,對文本進行預(yù)處理并利用word2vec 訓(xùn)練出詞向量,形成詞向量矩陣;然后,將各組詞向量矩陣分別作為BiLSTM的輸入,經(jīng)過BiLSTM 層輸出后進入Self-Attention 層,對特征進行權(quán)重賦值,提取深層次的情感特征,從而訓(xùn)練出5 個基于不同性格的情感分類器和一個通用情感分類器;最后,根據(jù)集成學(xué)習(xí)融合分類器預(yù)測結(jié)果,輸出最終情感分類結(jié)果。圖2 中:E、A、C 分別表示外向型、宜人型、責(zé)任型;H 和L 表示性格的高、低特質(zhì),例如HE 為高外向型,LE 為低外向型;All 表示通用文本,即數(shù)據(jù)集中所有微博用戶的文本。

      圖2 模型總體結(jié)構(gòu)

      2.1 基于微博用戶性格的文本分組

      本文采取基于規(guī)則的方法來對用戶性格進行預(yù)測。在進行性格預(yù)測時,由于開放型和神經(jīng)質(zhì)型較難區(qū)分[28-29],所以本文只考慮了其余3 種人格:外向型、宜人型和責(zé)任型。

      2.1.1 特征表示

      微博用戶發(fā)表的微博內(nèi)容包括了圖片、視頻、地理位置信息等。同時,用戶在微博中的交互行為[30]會在一定程度上反映出該用戶真實性格。為此,本文結(jié)合了文本信息和用戶行為特征綜合預(yù)測用戶性格。表2 示出了用戶微博信息中的具體特征表示。

      表2 特征表示

      2.1.2 性格分類

      熵權(quán)法是一種確定多因素綜合評價問題中各因素權(quán)重系數(shù)的有效方法。本文利用該方法計算影響性格判定的指標(biāo)權(quán)重,從而計算出影響性格判定的最終值。具體步驟如下。

      1)將各指標(biāo)進行標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)化值Y,其中Ypc,Yv,Yl,Ym,Yli,Yc,Yre,Yf,分別為指標(biāo)Photo_Comment_Num,Video_Num,Location_Num,Mention_Num,Like_Num,Comment_Num,Retweeted_Num,F(xiàn)ollower_Num的標(biāo)準(zhǔn)化值。

      2)根據(jù)Ej=計算出各指標(biāo)的信息熵。通過信息熵計算出各指標(biāo)的權(quán)重。Ej表示第j個指標(biāo)的信息熵;pij表示在第j個指標(biāo)前提下,第i個用戶在該指標(biāo)中的概率。其權(quán)重計算公式為

      式中Wi表示第i個指標(biāo)的權(quán)重,即Wpc,Wv,Wl,Wm,Wli,Wc,Wre,Wf,分別為指標(biāo)Photo_Comment_Num,Video_Num,Location_Num,Mention_Num,Like_Num,Comment_Num,Retweeted_Num,F(xiàn)ollower_Num的權(quán)重。

      3)計算影響性格判定的最終值,并根據(jù)表3進行性格判定。表中:C(u)、J(u)、Y(u)分別表示微博用戶u的微博內(nèi)容豐富程度、交互主動性以及影響力;k1,k2,k3,k4,k5,k6為判定式的閾值。

      表3 判定規(guī)則

      a.外向型人格。

      外向型人格的人一般喜歡參加各類社交活動,與他人分享自己的經(jīng)歷[17],所以發(fā)表的微博數(shù)量較多,通常帶有圖片、小視頻或者地理位置信息,并且能獲得較多的點贊和評論。此外,外向型的人與他人的互動也較為頻繁。因此,外向型的人往往會在他們的微博中更多的提及(@)他人,參與互動;具有內(nèi)向型人格的人發(fā)表較少的微博,獲得的點贊、評論以及轉(zhuǎn)發(fā)也非常少。微博用戶u發(fā)表的微博內(nèi)容特征計算公式為

      b.責(zé)任型人格。

      具有責(zé)任型人格的微博用戶發(fā)表的微博更傾向于表達自律、責(zé)任感及條理等內(nèi)容,發(fā)表的微博能夠受到更多的關(guān)注,影響力較大,受到轉(zhuǎn)發(fā)數(shù)、點贊數(shù)以及@數(shù)這3 個因素影響。微博用戶u的微博影響力[31]計算公式為

      c.宜人型人格。

      宜人性型人格的人性格開朗,助人為樂、謙遜、值得信賴,充滿正義感,擁有較多的粉絲,由于比較重視自己的形象,所發(fā)布的微博通常充滿積極性和正能量。被轉(zhuǎn)發(fā)微博的數(shù)量越多,該用戶的交互主動性[30]就越高,同樣的,粉絲數(shù)量對交互主動性也有影響。微博用戶的交互主動性計算公式為

      各閾值的確定依據(jù)了微博用戶分別在外向型、責(zé)任型和宜人型3 類性格計算中得到的各類性格最終值的平均值和標(biāo)準(zhǔn)差。為了平衡數(shù)據(jù),取標(biāo)準(zhǔn)差的算術(shù)平方根。如果其值高于平均值與算術(shù)平方根之和,則該用戶為高特質(zhì);如果其值低于平均值與算術(shù)平方根之差,則該用戶為低特質(zhì)。

      2.2 結(jié)合BiLSTM 和self-attention的情感分類器構(gòu)建

      在本文中,基于用戶性格以及通用文本的情感分類器皆是由BiLSTM+self-attention 機制訓(xùn)練得到,網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

      圖3 基于性格分類的情感分類器構(gòu)建

      2.2.1 BiLSTM 層

      對于微博文本,為了更準(zhǔn)確地理解詞的語義信息,需要考慮前后文本聯(lián)系,且詞與詞之間具有長程相關(guān)性。雖然LSTM 能夠捕獲較長距離的語義依賴關(guān)系,但是普通的LSTM 只能捕捉正向的語義信息,忽略了逆向的語義信息。BiLSTM 模型由一個正向的LSTM 和一個逆向的LSTM 組成,能夠同時捕捉句子的前后文信息。因此,本文采用BiLSTM 模型對微博文本進行語義信息編碼。對于一條微博文本{v1,v2,···,vt}(vt∈Rd,vt為詞向量矩陣,d為詞向量維數(shù)),則BiLSTM 模型輸出為h={h1,h2,···,hN},H∈RN×d,N為句子長度,d為隱藏層維度。

      2.2.2 self-attention 層

      自注意力機制通過對BiLSTM 每一個輸出狀態(tài)hi加權(quán),從而得到一個既聯(lián)系上下文信息又重點突出不同性格情感特征的微博句子表示向量矩陣,為

      式中:C表示句子中每個詞加權(quán)后的特征表示;?i表示第i個詞對于整條微博文本的重要程度,其計算公式為

      2.2.3 情感分類

      模型的最后一層為全連接網(wǎng)絡(luò)層,采用Softmax 函數(shù)作為激活函數(shù),計算微博文本各個情感標(biāo)簽的預(yù)測概率,其計算公式為

      式中:W=[w1,w2,···,wn]為全連接網(wǎng)絡(luò)層的權(quán)值;b=[b1,b2,···,bn]為偏置數(shù)。

      2.3 情感分類器分類結(jié)果融合

      圖4 情感分類器預(yù)測結(jié)果融合

      3 實驗與分析

      3.1 實驗數(shù)據(jù)

      本文實驗所用的數(shù)據(jù)來自于從新浪微博爬取的228 個微博用戶數(shù)據(jù),包括用戶的微博內(nèi)容和作者基本信息。數(shù)據(jù)集中,微博文本共10 萬1 649 條。刪除轉(zhuǎn)發(fā)微博,并進行清洗過后,采用半自動化的方式對文本進行情感極性的標(biāo)記,其中,積極微博有2 萬5 138 條,消極微博有2 萬3 783 條。本文按照7∶2∶1的比例將微博文本分為訓(xùn)練集、驗證集和測試集。

      同一位微博用戶可能同時具有多種性格,因此會屬于不同的性格集合。根據(jù)所爬取微博用戶的基本信息,分別計算微博用戶在外向型、宜人型和責(zé)任型的相應(yīng)數(shù)值,在此基礎(chǔ)上分別得到3 類性格類型的均值和標(biāo)準(zhǔn)差,并取標(biāo)準(zhǔn)差的算術(shù)平方根。根據(jù)2.1.2 節(jié)的方法計算得到:外向型的平均值為152.46,標(biāo)準(zhǔn)差的算數(shù)平方根為16.22;宜人型的平均值為680.01,標(biāo)準(zhǔn)差的算數(shù)平方根為45.27;責(zé)任型的平均值為1284.55,標(biāo)準(zhǔn)差的算數(shù)平方根為80.16。因 此,閾 值k1,k2,k3,k4,k5,k6分 別 為168.69,136.24,725.28,634.74,1 364.71,1 204.39。其中,在爬取的微博數(shù)據(jù)集中,低責(zé)任型性格的微博文本數(shù)量很少,所以在本文中不予考慮。基于微博用戶性格的各文本分組的數(shù)據(jù)分布詳情如表4所示。

      表4 數(shù)據(jù)集分布

      3.2 模型實驗參數(shù)設(shè)置

      在實驗中,詞向量為200 維,優(yōu)化函數(shù)為Adam,損失函數(shù)為多元交叉熵。各模型具體參數(shù)如表5 和表6 所示。

      表5 P-BiLSTM 和P-LSTM 參數(shù)設(shè)置

      表6 BiLSTM-SA 和P-BiLSTM-SA 參數(shù)設(shè)置

      3.3 實驗指標(biāo)評價

      為了驗證本文提出模型的有效性,本文采用以下4 個指標(biāo)進行評價。

      1)準(zhǔn)確率(accuracy):被模型正確預(yù)測的微博文本數(shù)量占所有微博文本數(shù)量的比例。

      2)召回率(recall):被正確預(yù)測為積極(消極)的微博文本數(shù)量占實際為積極(消極)的微博文本數(shù)量的比例。

      3)精確率(precision):被正確預(yù)測為積極(消極)的微博文本數(shù)量占所有被預(yù)測為積極(消極)的微博文本數(shù)量的比例。

      4)F1值(F1score):由精確率和召回率的加權(quán)處理得到。F1值越大,模型效果越好。

      3.4 微博情感分類實驗

      3.4.1 模型對比實驗

      在本文模型中,采用了自注意力機制來學(xué)習(xí)不同性格微博用戶的文本表達特征。在采用相同數(shù)據(jù)集的基礎(chǔ)上,將本文提出的模型P-BiLSTMSA 與P-LSTM[22]、P-BiLSTM[23]以及未融入性格因素的模型BiLSTM-SA[24]進行了對比。其對比實驗結(jié)果如表7 所示。

      表7 模型實驗對比結(jié)果

      1)與BiLSTM-SA 相比,P-BiLSTM-SA的情感分類效果更好,說明融入性格因素對于微博情感分類具有一定的幫助。

      2)模型BiLSTM-SA 和模型P-BiLSTM,在4 種指標(biāo)上的表現(xiàn)相接近,說明在模型訓(xùn)練過程中,自注意力機制能獲取到更深層次的情感信息,而且根據(jù)性格對文本分類也有利于模型提取不同性格的特征。2 種方法都對微博文本的情感分類有效。

      3)與P-BiLSTM 相比,P-BiLSTM-SA 在準(zhǔn)確率、精確率、召回率和F1上平均提升了0.017,說明利用自注意力機制關(guān)注文本的局部關(guān)鍵信息對情感分類有一定的幫助。

      總之,對比其他3 個模型,本文模型在準(zhǔn)確率、召回率、精確率和F1值上的效果更優(yōu)。說明事先根據(jù)用戶的性格對微博文本進行分類,使得模型中的自注意力機制能夠有針對性地學(xué)習(xí)到不同性格的深層次情感特征,從而有利于提升情感分類效果。同時,通過集成學(xué)習(xí)方法融合各分類器輸出,減少了泛化誤差。

      3.4.2 實例實驗結(jié)果對比

      性格影響人的表達方式。為了驗證性格對情感分類的有效性,本文選取了另外爬取的11 位微博用戶的微博文本(約1 400 條),基于P-BiLSTMSA 模型和BiLSTM-SA 模型再次進行了測試,測試結(jié)果如表8 所示,P-BiLSTM-SA 模型在4 個評價指標(biāo)上的表現(xiàn)明顯優(yōu)于BiLTM-SA,再次證明了本文所提出模型的有效性。為了更加形象地對比這2 個模型的預(yù)測效果,表9 給出了一些實例的具體實驗結(jié)果對比??梢钥闯觯篐C 性格的用戶通常具有責(zé)任心、認真且自律;HE 性格的用戶充滿熱情,活潑;HA 性格的用戶通常直率、大方;“累”“痛苦”往往是LE 性格的用戶在表達消極情緒時所具有的特征;文本(3)和文本(5)雖然都在闡述某人能力不錯,但由于不同性格的表達方式有所差異,所以2 個文本表達的情感完全不同;文本(6)和文本(7)都在表達積極的情感,高特質(zhì)用戶傾向于積極向上的表達方式,而低特質(zhì)用戶的表達方式則是恰好相反,說明發(fā)表這2 條文本的微博用戶雖然都是宜人型和外向型人格,表達的情感極性也相同,但因為這2 個用戶在兩類性格方面的高低特質(zhì)不同,各自表達情感的方式也就完全不同。本文提出的模型P-BiLSTM-SA 能在訓(xùn)練中更好地學(xué)習(xí)到這些深層次情感信息,從而提升了微博的情感分類效果。

      表8 P-BiLSTM-SA 與BiLSTM-SA 實驗結(jié)果對比

      表9 模型P-BiLSTM-SA 和模型BiLSTM-SA 部分實例預(yù)測結(jié)果對比

      4 結(jié)論

      本文基于不同性格的微博用戶在表達情感時各不相同的特點,提出了一種結(jié)合性格因素的深度學(xué)習(xí)模型P-BiLSTM-SA。該方法既考慮到BiLSTM能學(xué)習(xí)文本前后文語境信息,兼顧了全文整體特征的優(yōu)勢,又利用self-attention 機制表示不同特征的重要性,捕獲了深層次的情感特征。最后通過實驗驗證了本文方法的有效性。

      在互聯(lián)網(wǎng)上,表情符號、顏文字等也是人們表達情感的途徑之一,未來可考慮將這些因素納入情感分析之中。同時,許多用戶在微博上采用多語言混合的方式表達情感,比如:“我今天very happy”,未來可考慮對此類文本進行語碼轉(zhuǎn)換以提升情感分類效果。

      猜你喜歡
      博文分類器性格
      第一次掙錢
      貓的性格爪知道
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      誰和誰好
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
      性格反轉(zhuǎn)
      你的性格像《哆啦A夢》中的誰
      打電話2
      新巴尔虎右旗| 米易县| 乐业县| 米易县| 延寿县| 德钦县| 扬中市| 岗巴县| 海安县| 临夏县| 广汉市| 武冈市| 司法| 颍上县| 贡嘎县| 阳城县| 左贡县| 湘潭市| 横山县| 桂东县| 亳州市| 孟连| 鞍山市| 靖安县| 乾安县| 德昌县| 梅州市| 元谋县| 昂仁县| 呼图壁县| 肇东市| 长汀县| 独山县| 布尔津县| 扬中市| 丹凤县| 江陵县| 兴城市| 罗江县| 桐乡市| 运城市|