• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語境分類與遺傳算法的微博情感分析方法

      2021-02-04 06:53:44
      軟件導(dǎo)刊 2021年1期
      關(guān)鍵詞:主題詞極性遺傳算法

      (廣西大學(xué)計算機與電子信息學(xué)院,廣西南寧 530004)

      0 引言

      微博是基于互聯(lián)網(wǎng)的應(yīng)用,在其上發(fā)布和瀏覽信息具有低成本、便捷和及時等特征,隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,微博逐漸發(fā)展成為主流社交平臺之一。目前,微博擁有大量的活躍用戶,這些用戶隨時隨地發(fā)布或更新他們的狀態(tài)、感悟和評論等信息。這些信息涉及面廣,蘊含了大量價值。對微博文本進行情感傾向分析是當前微博數(shù)據(jù)挖掘研究的熱點內(nèi)容之一。挖掘微博文本情感傾向可得到用戶對產(chǎn)品的喜愛程度[1]、政策支持度[2]、熱點話題傾向[3]和立場[4]等相關(guān)信息,對產(chǎn)品生產(chǎn)和銷售改進、政策研究及民眾熱點立場把握等問題都有重要參考價值。

      文本情感傾向分析屬于自然語言研究范疇,自然語言描述觀點的多樣性是影響文本情感傾向分析精度的主要因素之一。與新聞、論壇和貼吧等具備良好內(nèi)容分類的媒體相比,微博內(nèi)容寬泛,分類性差。當前,文本情感分析主要有基于情感詞典和基于機器學(xué)習(xí)兩種方法,均是在對文本進行分詞的基礎(chǔ)上通過某種算法進行文本情感極性計算。大量研究結(jié)果表明,這兩種研究方法進行情感分析的精度均受到文本內(nèi)容領(lǐng)域相關(guān)度的制約。由于同一詞語在不同語境中可能表現(xiàn)出不同的情感極性,因此不區(qū)分詞語語境對微博文本進行情感分析使得其精度難以保證。采用LDA 擴展模型是當前文本情感分析重要方法之一,但該方法的當前研究未能考慮同一詞語在不同語境下情感極性差異及非特征情感詞對微博文本情感極性的影響,若能將此二者加以考慮,則基于LDA 擴展模型的文本情感分析精度將得到進一步提升。因此,本文提出一種基于語境分類和遺傳算法的微博情感分析方法。

      1 相關(guān)工作

      當前,文本情感分析主要有基于情感詞典和基于機器學(xué)習(xí)兩種方法。基于情感詞典的方法是先抽取文本的情感特征詞[5],然后將情感特征詞和情感詞典中的詞語進行比對,運用情感詞典中標注詞語的情感極性計算微博情感傾向。該方法的分類精度依賴于情感詞典,情感詞典的好壞直接影響情感傾向計算結(jié)果。基于機器學(xué)習(xí)的方法是先提取文本特征,然后對特征運用某種算法進行分類[6],從而得到文本情感傾向。基于機器學(xué)習(xí)的方法分為強監(jiān)督、弱監(jiān)督和無監(jiān)督3 種方法。強監(jiān)督方法主要有支持向量機[7]、樸素貝葉斯[8]和決策樹[9]等,這類方法的精度依賴于標簽數(shù)據(jù)的準確率。弱監(jiān)督方法主要有長短期記憶網(wǎng)絡(luò)[10]、卷積神經(jīng)網(wǎng)絡(luò)[11]、循環(huán)神經(jīng)網(wǎng)絡(luò)[12]等,這類方法需要海量的標簽數(shù)據(jù)對模型進行訓(xùn)練才能保證精度。無監(jiān)督方法主要有LDA[13]、K-近鄰算法[14]、隨機森林[15]等,與有監(jiān)督方法相比,無監(jiān)督方法不依賴于標簽數(shù)據(jù),受數(shù)據(jù)量大小影響較小。在無監(jiān)督方法中,LDA 得到研究者的廣泛關(guān)注。LDA 是一種具有良好可擴展性的主題分類模型,一方面能發(fā)現(xiàn)語料文檔的隱含主題,在機器學(xué)習(xí)方法中無需標簽數(shù)據(jù)便可自動獲得與情感詞典相似的語義直接關(guān)聯(lián)效果,另一方面能得到“文本—主題—詞語”關(guān)系,具有良好降維性能。因此,越來越多的研究者將LDA 模型擴展應(yīng)用于文本情感分析。孫艷等[16]在LDA 模型中融入情感模型,用LDA 得到情感特征詞的情感極性,用情感特征詞的情感極性分類表達微博的情感傾向;歐陽繼紅等[17]在LDA 模型中引入情感層,聯(lián)合微博情感傾向的整體分布和情感特征詞的局部分布進行計算,從而獲得文檔級別的情感傾向;蘇瑩等[18]引入樸素貝葉斯改進LDA,得到了篇章級和句子級情感傾向;李勇敢等[19]通過LDA 和句子依存關(guān)系計算微博情感傾向;黃良發(fā)等[20]將表情符號和用戶性格特征融入LDA 中計算微博情感傾向;García 等[21]將LDA 與Word2vec 相結(jié)合,通過詞的相似性判斷新詞極性,以獲得句子情感傾向。

      上述LDA 擴展模型是先提取文本情感特征詞,然后利用情感特征詞的極性計算句子或篇章的情感極性,在情感極性分類計算速度和精度上獲得了良好效果,但仍然存在兩個問題未能解決:一是同一詞語在不同語境下的情感極性可能存在差異,例如有兩條微博:“新買的U 盤,內(nèi)存真的很大”和“樓上裝修的聲音未免太大了吧”。因這兩條微博內(nèi)容上分別屬于不同的主題語境,“大”在第一條微博中有容量大的含義,極性表現(xiàn)為正極,而在第二條微博中有吵鬧之意,極性表現(xiàn)為負極;二是沒有考慮非情感特征詞對句子或篇章情感極性的影響,例如對于微博文本“我們單位是一個好單位、我們雖然下班晚、但是我們上班早啊!”,用上述LDA 擴展方法得到的情感特征詞是“好”、“晚”和“早”,微博文本情感傾向計算結(jié)果為正向極性,但如果將“好”+“單位”、“晚”+“下班”、“早”+“上班”結(jié)合起來,即將情感特征詞“好”、“晚”、“早”和非特征情感詞“單位”、“下班”、“上班”一起考慮,微博文本情感極性實為負極。

      針對以上兩個問題,為進一步提高采用LDA 模型擴展方法進行文本情感極性分析精度,本文提出一種基于語境分類和遺傳算法的微博情感分析方法。該方法先用LDA模型對微博進行語境主題分類,并將微博詞語劃分到不同語境主題中,形成微博主題集和微博主題詞集,然后對每個主題的微博和主題詞集,采用遺傳算法計算所有詞語(包括情感特征詞和非情感特征詞)的情感值,最后利用詞語情感值計算微博情感傾向。

      2 微博情感分析方法

      2.1 整體流程

      基于語境分類和遺傳算法的微博情感分類方法整體流程如下:①微博數(shù)據(jù)預(yù)處理,對微博數(shù)據(jù)進行篩選、分詞;②LDA 微博主題語境詞集構(gòu)建,利用LDA 對微博進行主題語境分類,構(gòu)建微博主題詞集;③基于遺傳算法的主題微博情感傾向計算。整體流程如圖1 所示。

      Fig.1 Overall flow chart圖1 整體流程

      2.2 微博數(shù)據(jù)預(yù)處理

      微博平臺面向大眾人群,有些用戶發(fā)布的信息目的性并不明確,其中有相當多的句子并不帶有觀點傾向。因此,先去除非觀點句,只保留帶有情感傾向的句子,再進行分詞。中文分詞工具主要有Jieba、SnowNLP、THULAC、NL?PIR 和PKU-SEG 等,微博內(nèi)容較為簡短,選擇PKU-SEG 進行分詞能較好地保持句子原有的組詞關(guān)系。

      2.3 LDA 微博主題語境詞集構(gòu)建

      微博是相對開放和自由的媒體,相較于新聞、論壇等具備良好主題分類性能的媒體,其內(nèi)容范圍更寬泛和隨意,沒有嚴格的分類結(jié)構(gòu),因此在微博文本集中有相當多的詞語在不同的語境中表現(xiàn)出不同的情感傾向。針對此種情況,本文首先對微博中的詞語進行主題語境分類,按照不同語境對同一詞語的情感極性加以區(qū)分,以提升微博情感分類判別精度。LDA 是一種文檔主題生成概率模型,能夠得到“文檔—主題”、“主題—詞語”分布,本文應(yīng)用LDA 模型對微博文檔集及其詞語進行主題語境歸類,依據(jù)主題語境劃分構(gòu)造微博主題集和微博主題語境詞集。

      2.3.1 LDA 微博主題語境分類

      LDA 微博主題模型如圖2 所示。LDA 微博主題模型是人工設(shè)定k 個主題,預(yù)處理后的語料庫D 有m條微博,記為D={d1,d2,…,dm},微博分詞后去重的詞語個數(shù)為c,詞集記為W={word1,word2,…wordc}。微博i的主題條件分布記為,i∈(1,2,…,m),采用LDA 微博主題模型可得到所有文檔的主題條件分布,歸一化后如公式(1)所示。

      Fig.2 LDA Microblog theme model圖2 LDA 微博主題模型

      同樣可得到詞語wordt的主題條件分布記為,t∈(1,2,…,c),歸一化后如式(2)所示。

      結(jié)合式(1)和式(2),可得到主題和詞語的聯(lián)合分布如式(3)所示。

      用?(t)代表去掉第t個詞語后的主題分布。用Gibbs 采樣法得到第t個詞語對應(yīng)主題的條件概率如式(4)所示。

      將微博d中所有詞語的主題概率分布相加后得到該微博在k個主題下的概率分布Ad=,選擇概率最大的值作為第d條微博所屬主題語境歸類pdMax=。

      2.3.2 微博主題語境詞集構(gòu)建

      按照上述最大概率劃分方法,完成微博集合的主題語境分類,形成微博主題集T={T1,T2,…,Tk},其中Tj={dj1,dj2,…,djy},j∈(1,2,…k),y表示主題j的微博數(shù)量。對Tj中的微博進行分詞、去重得到主題j的詞集Zj,Zj=(vj1,vj2,…,vjn),n表示第j個主題詞語去重后的個數(shù)。全部k個主題的詞集就構(gòu)成LDA 微博主題詞集Z={Z1,Z2,…,Zk},LDA 微博主題詞集構(gòu)建算法偽代碼如算法1 所示。

      2.4 基于遺傳算法的微博情感傾向計算

      考慮到非特征情感詞對微博文本情感傾向的影響,本文在計算出LDA 微博主題詞集后,分別計算每個主題語境中所有詞語的情感值,這些詞語包括非特征情感詞和特征情感詞,最后利用詞語的情感值計算出微博情感傾向。各主題詞集詞語的情感值用人工標注情感傾向的微博(標簽數(shù)據(jù))通過遺傳算法計算自動獲得。詞語情感值計算方法首先在預(yù)先設(shè)定范圍內(nèi)給詞語賦一個隨機初始情感值;然后通過設(shè)計與標簽數(shù)據(jù)相關(guān)的目標函數(shù)和適應(yīng)度函數(shù)實現(xiàn)詞語情感值自我優(yōu)化,得到詞語最優(yōu)情感值;最后利用主題詞語的最優(yōu)情感值計算微博最優(yōu)情感傾向值。用主題語境詞集Zj作為遺傳算法中的個體,個體Chromx對應(yīng)Zj中所有詞語的情感值,記作Chromx={wx1,wx2,…,wx3}。其中,wxt是個體x中第t個詞語的情感值,每個詞語的情感值對應(yīng)個體的染色體編碼。

      種群由M個個體組成,記為P={Chrom1,Chrom2,…,ChromM},個體初始詞語情感值為[-10,10]的一個隨機值,如圖3 所示。種群在遺傳算法中不斷迭代優(yōu)化,當?shù)螖?shù)達到預(yù)先設(shè)定值時所計算出的個體詞語情感值為主題語境下所有詞語的最優(yōu)情感值。

      Fig.3 The emotional score of some initial words corresponds to the graph圖3 部分初始詞語情感分值對應(yīng)情況

      2.4.1 遺傳算法目標優(yōu)化函數(shù)

      實際上,有些詞語在不同語境中的情感傾向并不相同,因此與這種情況相對應(yīng),本文設(shè)置同一詞語在不同個體中的情感值不同,將詞語劃到不同主題語境就是為了考慮這種差異性。為使個體中微博的情感傾向向標簽數(shù)據(jù)情感傾向靠攏,即為了應(yīng)用標簽數(shù)據(jù)自動獲得詞語的情感傾向,本文設(shè)計遺傳算法的目標函數(shù)實現(xiàn)詞語情感值優(yōu)化。利用式(5)計算主題j下第s條微博的情感值。

      其中,wordt是微博djs中的詞語,wjt(Chromx(wordt))表示詞語wordt在個體Chromx中的情感值。當Senti(Zj,Tj,Chromx,djs)大于等于0 表示為正極(positive),反之則表示為負極(negative)。class(djs)表示微博djs的情感傾向,如式(6)所示。

      本文設(shè)定Acc(Chromx,Tj)為:在主題j下,個體Chromx中微博的情感傾向與標簽數(shù)據(jù)情感傾向的差異度,如式(7)所示,該值越小則個體Chromx中微博的情感傾向越靠近標簽數(shù)據(jù)的情感傾向。

      2.4.2 基于遺傳算法的詞語情感值計算

      為使差異度越小的個體被保留的概率越大,本文設(shè)定適應(yīng)度函數(shù)如式(9)所示。

      Fig.4 Multi-point crossover圖4 多點交叉

      Fig.5 Gene mutation圖5 基因變異

      2.4.3 微博情感傾向計算

      通過遺傳算法得到最小差異度個體Chrommin,個體中染色體的編碼對應(yīng)主題詞集詞語的最優(yōu)情感值。在最小差異度個體Chrommin中,先用式(5)將微博中所有詞語的情感值相加,得到微博情感值,再用式(6)進行判斷,若情感值大于等于0,表示該微博具有正極的情感傾向,反之表示具有負極的情感傾向。計算實例如圖6 所示。

      Fig.6 An example of sentiment compute圖6 情感傾向計算實例

      3 實驗結(jié)果與分析

      3.1 實驗數(shù)據(jù)集

      數(shù)據(jù)來源于2012-2014 年NLPCC 公開的數(shù)據(jù)集[22],共17 253 條微博。刪除非觀點句后有7 188 條微博,將該數(shù)據(jù)作為微博情感傾向計算的語料庫,其中積極的有3 314 條,消極的有3 874 條,采用十折交叉驗證對本文方法進行訓(xùn)練和測試。

      NLPCC 數(shù)據(jù)集有none、happiness、like、sadness、disgust、anger、fear 和surprise 8 種標簽。將8 種標簽簡化為正極和負極兩種標簽,如表1 所示。

      Table 1 Label classification表1 標簽分類

      標簽歸類后,將微博內(nèi)容按照統(tǒng)一格式存放,數(shù)據(jù)格式如表2 所示,微博的極性1 表示正極,-1 表示負極。

      Table 2 Samples of Microblog表2 微博文本樣例

      3.2 實驗過程與結(jié)果

      在本文中,所有詞語對微博情感極性的影響均參與計算,對微博進行分詞后保留微博中的所有詞語,PKU-SEG分詞結(jié)果樣例如表3 所示。

      Table 3 Samples of PKU-SEG segmentation result on Microblog表3 微博PKU-SEG 分詞結(jié)果樣例

      微博分詞后,采用LDA 微博主題模型構(gòu)建主題詞集。LDA 微博主題模型中需要預(yù)先設(shè)置主題數(shù)目k值,選擇適合的k值有利于主題分類。本文設(shè)置k值為5(收集的數(shù)據(jù)分為5 個主題),微博主題語境分類樣例如表4 所示。

      Table 4 Samples of Microblog topic context classification表4 微博主題語境分類樣例

      微博主題語境分類結(jié)果是:主題一與產(chǎn)品和產(chǎn)品評論相關(guān);主題二與個人情緒表達相關(guān);主題三是社會現(xiàn)狀評論和事件描述;主題四是關(guān)于社會知名人士的微博動態(tài)評論;主題五是比較口語化的流行網(wǎng)絡(luò)用語,分類結(jié)果與實際相符。完成微博主題語境分類后構(gòu)建微博主題詞集,如表5 所示。

      Table 5 Part of the subject word sets表5 部分主題詞集

      得到主題詞集后,利用基于遺傳算法的微博情感傾向計算方法計算詞語情感值。在算法中隨機產(chǎn)生種群P,種群大小設(shè)定為1 000,對個體進行選擇、交叉和變異操作。在本文中,將當前主題微博詞語去重后的詞語個數(shù)作為個體編碼長度,染色體編碼采用實數(shù)整數(shù)編碼,編碼范圍在[-10,10]區(qū)間,初始詞語情感值如表6 所示。用標簽數(shù)據(jù)、目標函數(shù)和適應(yīng)度函數(shù)對每個主題中的詞集運行遺傳算法,使情感值不斷迭代優(yōu)化,直到達到預(yù)定迭代次數(shù)后停止計算(本文設(shè)定迭代閾值為2 000),得到詞語情感值優(yōu)化結(jié)果如表7 所示。

      Table 6 Word initial sentiment score表6 初始詞語情感值

      Table 7 Optimization results of words sentiment score表7 詞語情感值優(yōu)化結(jié)果

      在基于遺傳算法的微博情感傾向計算方法中,用目標函數(shù)在優(yōu)化后的種群中選擇差異度最小的個體作為當前主題詞語情感值,如表8 所示。

      Table 8 Examples of the optimal sentiment score of a word表8 最優(yōu)詞語情感值示例

      微博主題語境分類后,不同的主題中可能有相同詞語,這種分類方法與同一個詞語在不同主題語境下情感傾向存在差異的實際相符,同一詞語在不同主題下的情感值如表9 所示。

      Table 9 Examples of the sentiment score of the same word in different topics表9 同一詞語在不同主題的情感值示例

      主題分類后,通過計算該主題下微博分詞對應(yīng)情感值之和判斷微博情感傾向,當微博分詞情感值之和大于等于0 時,微博的情感傾向為正極,小于0 時微博的情感傾向為負極。

      3.3 方法對比

      將本文方法(LDA-GA)與LDA、樸素貝葉斯分類(NB)、隨機森林(RF)、決策樹(DT)分別進行微博情感傾向計算對比。將精確度(P)、召回率(R)和F1 值作為評價指標,對比結(jié)果如表10 所示。

      實驗結(jié)果表明,LDA 方法的F1 值高于DT、NB 和RF 算法。原因在于,采用LDA 方法進行微博情感分析是基于語義的“文本—詞語”主題分類進行情感計算,而DT、NB 和RF 算法將詞語轉(zhuǎn)換成詞向量,未考慮詞語的語義信息,從而導(dǎo)致微博情感傾向計算效果并不夠理想。本文方法LDA-GA 的精確度、召回率和F1 值均高于LDA 方法。原因在于,LDA 方法僅利用特征情感詞計算微博情感極性,而本文方法利用遺傳算法計算所有詞語情感值,將特征情感詞和非特征情感詞聯(lián)合起來計算微博情感極性,并且根據(jù)不同主題語境計算詞語情感值,對不同主題語境下同一詞語的情感極性加以區(qū)分。

      Table 10 The experimental results of emotional tendency comparation表10 情感傾向計算對比實驗結(jié)果

      4 結(jié)語

      采用LDA 擴展模型是當前文本情感分析的重要方法之一,該方法存在兩個問題未能解決:一是同一詞語在不同語境下情感極性可能存在差異,二是沒有考慮非情感特征詞對句子或篇章情感傾向的影響。針對這兩個問題,本文提出一種基于語境分類和遺傳算法的微博情感分析方法。該方法首先利用LDA 模型構(gòu)造微博主題集及微博主題詞集,然后用微博標簽數(shù)據(jù)逐一對各微博主題詞集應(yīng)用遺傳算法自動迭代計算出詞集中詞語的情感值,最后通過主題詞集詞語的情感值計算微博文本情感極性。實驗結(jié)果表明,與基于LDA、樸素貝葉斯分類、隨機森林、決策樹的微博情感分析方法對比,本文方法的精確度、召回率和F1 均得到提高。本文方法在遺傳算法中需要反復(fù)進行迭代計算,耗時大,下一步研究工作是考慮遺傳算法加速問題。

      猜你喜歡
      主題詞極性遺傳算法
      跟蹤導(dǎo)練(四)
      基于自適應(yīng)遺傳算法的CSAMT一維反演
      一種基于遺傳算法的聚類分析方法在DNA序列比較中的應(yīng)用
      基于遺傳算法和LS-SVM的財務(wù)危機預(yù)測
      表用無極性RS485應(yīng)用技術(shù)探討
      基于改進的遺傳算法的模糊聚類算法
      一種新型的雙極性脈沖電流源
      我校學(xué)報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
      我校學(xué)報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
      2014年第16卷第1~4期主題詞索引
      龙泉市| 微山县| 桦川县| 安平县| 荥经县| 东阿县| 通化县| 张家川| 大邑县| 宾阳县| 嘉祥县| 汉源县| 丰镇市| 札达县| 长葛市| 南投市| 海丰县| 股票| 称多县| 平南县| 满城县| 潍坊市| 鹤庆县| 乌海市| 金乡县| 清丰县| 信阳市| 宣汉县| 新竹县| 镇赉县| 胶南市| 蒙山县| 夏河县| 三都| 龙井市| 泉州市| 崇阳县| 韶山市| 通许县| 永泰县| 新巴尔虎右旗|