• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于情感傾向點互信息算法的情感分析方法研究

      2021-05-20 00:41:24王恩慧
      科學(xué)技術(shù)創(chuàng)新 2021年12期
      關(guān)鍵詞:負向互信息類別

      王恩慧

      (北京交通大學(xué),北京100044)

      1 概述

      隨著網(wǎng)絡(luò)的快速發(fā)展和一些受到民眾歡迎的社交媒體平臺的出現(xiàn),例如微博、推特等,促進了人與人之間更加便捷的溝通。用戶在社交網(wǎng)絡(luò)上與他人分享自己的感受和觀點,形成了海量的社交網(wǎng)絡(luò)數(shù)據(jù)信息[1]。情感分析技術(shù)在電子商務(wù)、金融、輿情分析[2]等多個不同領(lǐng)域都有應(yīng)用。例如,應(yīng)用于輿情分析,相關(guān)部門可以及時地了解公眾對輿情熱點的態(tài)度和情感,有效地對大眾未來的情感傾向趨勢做出預(yù)測和判斷。目前機器學(xué)習(xí)的分類方法穩(wěn)定性較差,對于同一條文本評論,有可能前一次的分類結(jié)果與后一次的不同,而基于情感詞典的方法只要將評論中的情感詞存在于情感詞典中,根據(jù)目標(biāo)詞與種子詞之間的相似度,評論的情感傾向性就能準(zhǔn)確的判斷[3]。據(jù)此,本文以推特數(shù)據(jù)為基礎(chǔ)開展了關(guān)于推特評論的情感分析研究。

      2 相關(guān)方法介紹

      2.1 TF-IDF 算法

      TF-IDF 是一種常用的加權(quán)技術(shù),基于統(tǒng)計的方法評估每個詞在文檔中的重要程度,詞的重要程度隨著它在文檔中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它出現(xiàn)的頻率下降。由于詞在不同文本中出現(xiàn)的頻率有差異,表現(xiàn)出的重要程度也有所不同。TF 表示詞頻,即一個詞在文檔中出現(xiàn)的頻率,計算方法如公式(1)。所示詞頻為特征詞在該文本中出現(xiàn)的頻率,頻率越高則認為特征在文本中越重要,僅以詞頻衡量詞權(quán)重的計算方式較為簡單,然而單一考慮特征在文本中出現(xiàn)的次數(shù),導(dǎo)致一些無意義卻又反復(fù)出現(xiàn)的詞語詞頻反而很高,影響分類效果。IDF 指反文檔頻率,用來表示詞的類別區(qū)分能力,指的是該詞在文檔中出現(xiàn)的次數(shù)越少,則IDF 越大,計算方法如公式(2)所示。TF-IDF充分考慮了TF 的缺點,將TF 和IDF 結(jié)合起來,選出文檔中重要度高的詞語,計算方法如公式(3)所示。

      2.2 情感傾向點互信息算法

      點互信息算法(PMI)的基本思想是對兩個詞語在文檔中同時出現(xiàn)的概率進行計算,概率越大,表示其相關(guān)性就越緊密,關(guān)聯(lián)度越高。計算方法如公式(4)所示。PMI 值大于0 則兩個詞語是相關(guān)的,值越大,相關(guān)性越強;PMI 等于0 表示兩個詞語是統(tǒng)計獨立的,不相關(guān)也不互斥;PMI 小于0 表示兩個詞語是不相關(guān)的、互斥的。

      情感傾向點互信息算法(SO-PMI)首先選擇兩組種子詞,一組褒義的(Pwords)和一組貶義的(Nwords)作為算法的基準(zhǔn)詞。將詞語word1 跟Pwords 的點間互信息與word1 跟Nwords 的點間互信息相減做差,根據(jù)得到的差值對詞語word1 的情感傾向做出判斷,計算方法如公式(5)所示。差值大于0 時word1 為正面傾向,差值等于0 時word1 為中性傾向,差值小于0 時word1為負面傾向。

      2.3 評價指標(biāo)

      在機器學(xué)習(xí)領(lǐng)域的算法評估中,常用到混淆矩陣這一概念。在二元分類的情況下,及正負兩種分類的時候,混淆矩陣包括真正(TP)、真負(TN)、假正(FP)、假負(FN)。對于樣本而言,真正指的是預(yù)測的類別與真實的類別都為正向,真負指的是預(yù)測的類別與真實的類別都為負向,假正指的是預(yù)測的類別為正向而真實的類別為負向,假負指的是預(yù)測的類別為負向而真實的類別為正向。精確率(Precision)表示被分為正例的樣本數(shù)據(jù)中實際為正向所占的比例,即P=TP/(TP+FP)。召回率(Recall)是覆蓋面的度量,用作度量樣本數(shù)據(jù)中有多少的分類結(jié)果為正向,即R=TP/(TP+FP)。精確率和召回率兩個指標(biāo)有時候會出現(xiàn)矛盾的情況,因此需要綜合考慮這兩個指標(biāo),F(xiàn)-Score 是兩個指標(biāo)的加權(quán)調(diào)和平均,計算方法如公式(6)所示。當(dāng)參數(shù)a=1 時,就是機器學(xué)習(xí)算法評估中最常見的F1 值,計算方法如公式(7)所示,F(xiàn)1 值越大說明模型的分類效果越好。

      3 實驗結(jié)果及分析

      本文基于情感傾向點互信息算法對與新冠疫情相關(guān)的評論文本進行情感傾向分析和情感強度計算。首先,以TF-IDF 算法提取種子詞,以弱監(jiān)督的方式對單個用戶的情感變化和群體的情感分布進行分析。其次,以多人投票確定最終數(shù)據(jù)標(biāo)簽的方式對測試數(shù)據(jù)進行標(biāo)注,以準(zhǔn)確率、召回率、F 值作為評價指標(biāo),對模型的效率和有效性進行驗證。

      本文選擇政府、民眾、社會都比較關(guān)心的“新冠疫情”作為研究話題,以2020 年5 月1 日到2020 年7 月8 日推特平臺上的網(wǎng)民評論共51853 條作為實驗數(shù)據(jù),存儲在MongoDB 數(shù)據(jù)庫中。數(shù)據(jù)庫中的每條記錄都有許多字段,不僅有該條推文的內(nèi)容、發(fā)布時間、是否為轉(zhuǎn)發(fā)、獲贊數(shù)、轉(zhuǎn)發(fā)數(shù)等,還有專門的用戶字段,包括唯一識別用戶的ID、所在地區(qū)、是否實名認證、粉絲數(shù)、總推文數(shù)等。由于網(wǎng)絡(luò)評論中含有很多噪聲比如網(wǎng)址、特殊符號表情符等,因此需要先使用正則表達式對原始評論數(shù)據(jù)內(nèi)容進行清洗,去除停用詞、特殊符號及表情等,并進行大小寫轉(zhuǎn)換,只提取相關(guān)的主題評論內(nèi)容。

      在完成數(shù)據(jù)預(yù)處理后,需要選取種子詞。情感傾向點互信息算法是基于詞與詞之間共現(xiàn)關(guān)系的弱監(jiān)督算法,需要事先選取兩組種子詞:一組貶義詞,即負向詞,另一組褒義詞,即正向詞。本文利用TF-IDF 算法分別選取若干個重要度較高的詞語,并人工篩選其中情感傾向較為明顯的作為種子詞,分別選擇了50個褒義詞和50 個貶義詞作為兩種情感傾向的種子詞,即基準(zhǔn)詞。選定種子詞后,利用情感傾向點互信息算法根據(jù)種子詞與目標(biāo)詞之間的共現(xiàn)關(guān)系,判斷目標(biāo)詞的情感傾向,并將目標(biāo)詞的情感傾向添加到情感詞典中,對情感詞典進行擴充。一條推文的情感可以先進行分詞,根據(jù)情感詞典逐個計算句中詞語的情感值,加權(quán)求和得到整條推文的情感強度和情感傾向。當(dāng)情感值屬于[0,0.5)區(qū)間時情感傾向為負向,越接近0,負向的程度越強烈,當(dāng)情感值屬于(0.5,1]區(qū)間時情感傾向為正向,越接近1,正向的程度越強烈,當(dāng)情感值在0.5 附近時表示情感傾向接近于中立。

      本文對每個社交網(wǎng)絡(luò)用戶的情感變化進行研究。根據(jù)推文ID 在MongoDB 數(shù)據(jù)庫中進行檢索,可以映射到發(fā)布該條推文的社交網(wǎng)絡(luò)用戶,收集用戶與疫情話題相關(guān)的推文內(nèi)容,以用戶推文集合的情感分析結(jié)果作為用戶在疫情話題中的情感。

      首先,按照時間對推文進行切分,每周作為一個時間段,觀察用戶從2020 年5 月1 日到2020 年7 月8 日的情感值動態(tài)變化。大部分用戶都是間歇性的參與話題討論,持續(xù)活躍的用戶相對較少。本文選取活躍時間大于6 周的64 個用戶,觀察其情感值的變化。通過反復(fù)實驗發(fā)現(xiàn),用戶的情感強度不斷波動,但是用戶整體的情感傾向基本沒有變化,即一個用戶一開始的情感是負向的,雖然時強時弱,但是并不會變成正向。同時,通過觀察實驗結(jié)果發(fā)現(xiàn),用戶的情感強度會逐漸變?nèi)?,即情感值逐漸趨于0.5,無論是正向或負向都是情感演化過程的中間狀態(tài),最終用戶的情感會逐漸趨于中立。

      其次,本文還研究了從2020 年5 月1 日到2020 年7 月8日共10 周時間內(nèi)群體的情感傾向分布情況。由于情感值接近0.5 時,表示用戶的情感趨于中立,因此在實驗中特別定義情感值在[0.45,0.55]區(qū)間內(nèi)的用戶為中立。本文分別統(tǒng)計了不同時間段內(nèi)的用戶群體情感傾向的比例,并計算了每種情感傾向在10周時間內(nèi)的平均占比。雖然每周情感傾向的占比情況不盡相同,但是整體來看,都是負向情感占主導(dǎo)。這是由于新冠疫情的突然爆發(fā)打亂了原本的生活方式和工作節(jié)奏,很多人們不僅面臨失業(yè)待業(yè)的風(fēng)險,還可能面臨死亡威脅。疫情對經(jīng)濟、社會也都產(chǎn)生了許多的負面影響,導(dǎo)致大部分人都存有憂慮、恐懼等負面情緒[4]。

      最后,本文對模型的有效性進行驗證。由于標(biāo)簽質(zhì)量會直接影響測試的準(zhǔn)確性,為了提高標(biāo)簽的質(zhì)量,本文隨機選取2000條用戶推文進行數(shù)據(jù)標(biāo)注,以多人投票的方式?jīng)Q定推文的標(biāo)簽,避免了主觀性帶來的影響。然后以標(biāo)注的數(shù)據(jù)作為測試集,以精準(zhǔn)率,召回率,F(xiàn) 值作為評價指標(biāo),對方法的有效性進行測試,結(jié)果如表1 所示。實驗結(jié)果證明了基于情感傾向點互信息的情感分析方法的有效性,能夠有效地為輿情分析提供幫助。

      表1 測試結(jié)果

      4 結(jié)論

      本文以推特作為研究數(shù)據(jù)源,基于情感傾向點互信息算法對從2020 年5 月1 日到2020 年7 月8 日與新冠疫情相關(guān)的評論文本進行情感傾向和情感強度分析。以TF-IDF 算法并結(jié)合人工篩選提取種子詞,以弱監(jiān)督的方式對社交網(wǎng)絡(luò)用戶的情感值變化和群體的情感傾向分布變化進行分析。其次,以多人投票確定最終數(shù)據(jù)標(biāo)簽的方式對測試數(shù)據(jù)進行標(biāo)注,以準(zhǔn)確率、召回率、F 值作為評價指標(biāo),對模型的效率和有效性進行驗證。實驗結(jié)果表明,該模型能夠為應(yīng)對輿情治理和應(yīng)對輿情危機提供輔助和理論依據(jù)。

      猜你喜歡
      負向互信息類別
      miRNA-145負向調(diào)控子宮內(nèi)膜異位癥中OCT4的表達
      miR-21負向調(diào)控宮頸癌HeLa細胞株中hTERT的表達
      2019年A股負向輿情百案榜
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      基于不同星級酒店的負向評論類別及管理反饋策略比較分析與匹配
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      改進的互信息最小化非線性盲源分離算法
      電測與儀表(2015年9期)2015-04-09 11:59:22
      基于增量式互信息的圖像快速匹配方法
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      安国市| 玉树县| 北票市| 芜湖县| 师宗县| 镇江市| 青浦区| 华亭县| 五莲县| 宁波市| 庄浪县| 福贡县| 沁水县| 宁陵县| 恩平市| 双辽市| 剑河县| 怀集县| 鹤壁市| 平邑县| 修水县| 凤翔县| 鄂尔多斯市| 浦东新区| 兴义市| 商丘市| 萨嘎县| 大丰市| 宁国市| 瑞丽市| 保靖县| 宿松县| 莱州市| 富宁县| 吴川市| 景东| 敦化市| 宁夏| 工布江达县| 罗平县| 湟中县|