• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度學習的微博輿情監(jiān)測模型研究與實現(xiàn)

      2023-12-18 18:13:49成哲丞
      計算機時代 2023年11期
      關(guān)鍵詞:爬蟲輿情注意力

      成哲丞

      關(guān)鍵詞:Java 分布式爬蟲;Elasticsearch;注意力機制;Bi-LSTM;輿情預(yù)警

      中圖分類號:TP391.1 文獻標識碼:A 文章編號:1006-8228(2023)11-124-03

      0 引言

      網(wǎng)絡(luò)空間不是法外之地,網(wǎng)絡(luò)輿情監(jiān)管和應(yīng)對是一個非常棘手的問題。目前針對網(wǎng)絡(luò)輿情監(jiān)測的研究主要存在以下問題。

      ⑴ 針對單一事件:當前對網(wǎng)絡(luò)輿情的監(jiān)測往往都是針對已發(fā)生的且有著負面影響的事件,通常研究的輿情事件比較單一[1]。

      ⑵ 實時性差:由于網(wǎng)絡(luò)事件所帶來的海量數(shù)據(jù),當前對事件進行輿情監(jiān)測時不能夠很及時,且往往沒有考慮當數(shù)據(jù)量大時,系統(tǒng)的運行效率問題[2]。

      ⑶ 準確率低:當前對網(wǎng)絡(luò)輿情事件的預(yù)警研究較少,且由于評論數(shù)據(jù)的多樣性、復(fù)雜性,導(dǎo)致輿情預(yù)警的準確率不夠高。

      針對上訴問題,且為了提升輿情監(jiān)測系統(tǒng)的性能和準確率,以新浪微博作為數(shù)據(jù)源,本文在傳統(tǒng)輿情監(jiān)測系統(tǒng)架構(gòu)和情感分析方法的基礎(chǔ)上提出了一種基于深度學習的微博輿情監(jiān)測模型。本模型旨在監(jiān)測和分析微博熱搜的輿情信息,了解公眾對某個話題或事件的態(tài)度和反應(yīng),及時對發(fā)生負面輿情的事件進行監(jiān)測。

      1 熱搜數(shù)據(jù)采集與處理

      1.1 基于Java 的分布式數(shù)據(jù)爬取框架

      本節(jié)針對性地設(shè)計實現(xiàn)了一個基于Java 的分布式數(shù)據(jù)爬取框架,該框架可快速爬取新浪微博熱搜榜的全部評論數(shù)據(jù)。該框架的結(jié)構(gòu)如圖1 所示。

      該框架重要組成部件的相關(guān)功能作用如下:

      ⑴ 爬蟲定時器(SpiderTimer):爬蟲定時器負責定時地調(diào)用爬蟲啟動器;

      ⑵ 爬蟲任務(wù)池(SpiderTask Pool):爬蟲任務(wù)池負責管理子爬蟲任務(wù)的權(quán)值,權(quán)值越大的子爬蟲任務(wù)會被優(yōu)先相應(yīng);

      ⑶ 爬蟲管理器(SpiderManager):爬蟲管理器會將子爬蟲任務(wù)分配給爬蟲線程池。同時爬蟲管理器還會將爬蟲返回的結(jié)果交給結(jié)果處理器;

      ⑷ 爬蟲線程池(SpiderThread Pool):爬蟲線程池負責將得到的子爬蟲任務(wù)分配給池內(nèi)空閑的線程,一條線程對應(yīng)一個爬蟲。

      1.2 數(shù)據(jù)預(yù)處理

      爬取到的原始評論數(shù)據(jù)可能存在著沒有結(jié)構(gòu)化,格式不規(guī)范等問題。為了之后更好地進行情感分析,提高情感分析模型的準確性,“純凈”的數(shù)據(jù)集是十分必要的,因此需要對爬取到的原始評論數(shù)據(jù)進行規(guī)范化處理。規(guī)范化處理主要包括三個部分:數(shù)據(jù)清洗、文本分詞和去除停用詞。經(jīng)過上述規(guī)范化處理之后,將會得到“純凈”的標準化數(shù)據(jù)。

      1.3 基于Elasticsearch 的分布式搜索存儲方法

      考慮到輿情監(jiān)測模型的實際需求,基于Elasticsearch[3]的分布式搜索存儲方法會維護一個熱搜哈希表。熱搜哈希表中存儲的是登上過新浪微博熱搜榜的熱搜信息。哈希表的Key 值為熱搜名,Value 值為熱搜的相關(guān)信息。熱搜的相關(guān)信息包括熱搜名、導(dǎo)語、話題閱讀次數(shù)、話題討論次數(shù)、媒體報道次數(shù)、通用唯一標識符、年齡和情感狀況。

      哈希表中的一條數(shù)據(jù)對應(yīng)一條熱搜,也對應(yīng)著Elasticsearch 中的一個索引庫。該方法的存儲邏輯如圖2 所示。

      考慮到實際環(huán)境下評論總數(shù)每天可達數(shù)十萬,甚至上百萬條。及時地刪除過時話題的數(shù)據(jù),釋放服務(wù)器資源是十分必要的。方法的刪除邏輯如圖3 所示。

      2 融合改進注意力機制的Bi-LSTM 情感分析方法

      2.1 方法原理

      為了對用戶評論進行情感分類,本章提出了一種融合改進注意力機制的Bi-LSTM 情感分析方法。該方法會降低熱搜話題自身所帶情感度的影響,更關(guān)注用戶自身評論,更精確地分析用戶評論的情感傾向。該方法所用模型的結(jié)構(gòu)圖如圖4 所示。

      由圖4 可知,各層的工作內(nèi)容為詞嵌入層:通過Word2vec 中的Skip-Gram 模型[4]對熱搜話題和評論進行向量化處理;語義特征提取層:通過引入雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)來獲取評論中上下文之間的信息;改進注意力層:通過引入改進注意力機制[5]來降低話題自身所帶情感度的影響。輸出分類層:將上一層的輸出結(jié)果進行全連接,再通過Softmax 函數(shù)進行情感分類。其中改進注意力機制的工作流程如圖5 所示。

      由圖5 可知,先計算計算話題詞(query)與用戶評論詞(key)的相似度。再選擇某種方式將相似度轉(zhuǎn)換成最終的注意力得分(目的降低話題詞的權(quán)重),這里可以選擇將相似度取反的方式。接著通過softmax 函數(shù)對注意力分數(shù)做一個歸一化,得到每個key-value 的注意力權(quán)重,將注意力權(quán)重與每個key 對應(yīng)的value相乘,再求和,就可以得到最后的輸出結(jié)果。

      2.2 對比實驗結(jié)果

      本實驗選用了CNN 和Bi-LSTM 兩種當下最為常用的深度學習模型來做對比實驗。實驗數(shù)據(jù)集選用了CCIR 2020“疫情期間網(wǎng)民情緒識別”評測活動數(shù)據(jù)集和微博情感分析數(shù)據(jù)集,并把上述兩個數(shù)據(jù)集都進行了8:1:1 的劃分。實驗指標選用了準確率(Accuracy)、查準率(Precision)和F1 值(F1-Score)三種。實驗結(jié)果對比情況如圖6 所示。

      從圖6 實驗結(jié)果可以看出,融合改進注意力機制的Bi-LSTM 情感分析方法在公開數(shù)據(jù)集一和二上的效果都明顯優(yōu)于CNN 和Bi-LSTM 兩個模型。

      3 基于情感分析的輿情預(yù)警等級計算方法

      基于情感分析的輿情預(yù)警等級計算方法[6]先利用用戶評論的情感極性、點贊數(shù)和轉(zhuǎn)發(fā)數(shù)計算出熱搜話題的情感度。再根據(jù)熱搜話題的閱讀量、評論數(shù)、熱搜話題情感度和熱搜話題類型來計算話題的輿情預(yù)警等級。輿情預(yù)警等級計算方法的原理如圖7 所示。

      3.1 熱搜話題情感度計算

      先計算熱搜話題下所有評論的情感傾向得分之和,其中正向情感得分為1,中性情感得分為0,負向情感得分為-1。再根據(jù)得分之和和評論數(shù)量計算熱搜話題的平均情感傾向得分Score。為了減小不同話題之間平均情感傾向得分的差異,便于更加直觀的得出熱搜話題的情感度,最后利用Sigmoid 函數(shù)將平均情感傾向得分映射到(0,100)區(qū)間中,得到熱搜話題的情感度E。熱搜話題情感度的計算公式如下:

      3.2 熱搜話題輿情預(yù)警等級計算

      參考網(wǎng)絡(luò)輿情預(yù)警等級的劃分,本方法將新浪微博熱搜話題輿情預(yù)警等級分為了無風險、低風險、中風險、高風險和緊急預(yù)警這五種等級。熱搜話題的情感度是定性的,決定了熱搜話題的情感度好壞情況。熱搜話題情感度[0,50)被認為是負面話題,[ 50,100]被認為是正面話題。而話題閱讀量、話題評論量、媒體報道數(shù)、話題類型等數(shù)據(jù)是定量的,會影響熱搜話題的輿情狀況,但不會改變熱搜話題的情感極性。熱搜話題輿情預(yù)警等級計算公式如下:

      其中,β1、β2、β3分別是話題閱讀量、話題評論量、媒體報道數(shù)各自相較于其他熱搜平均水平的百分比,同時還需對這些百分比設(shè)定一個最高值限制。β4表示話題類型的權(quán)重值,不同的話題類型設(shè)有不同的權(quán)值。計算完輿情預(yù)警等級分數(shù),就可以將輿情預(yù)警等級分數(shù)映射到不同的輿情預(yù)警等級標簽上。

      4 總結(jié)

      隨著互聯(lián)網(wǎng)的普及和社交媒體的興起,網(wǎng)絡(luò)輿情監(jiān)測和管理變得越來越重要。本文提出的基于深度學習的微博輿情監(jiān)測模型可以實時監(jiān)測微博上的輿情狀況,了解公眾對某個事件或話題的態(tài)度和看法,從而幫助企業(yè)、政府等各方面做出更加準確的決策,預(yù)防發(fā)生輿情危機。

      猜你喜歡
      爬蟲輿情注意力
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
      讓注意力“飛”回來
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      電子測試(2018年1期)2018-04-18 11:53:04
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      A Beautiful Way Of Looking At Things
      輿情
      中國民政(2016年16期)2016-09-19 02:16:48
      輿情
      中國民政(2016年10期)2016-06-05 09:04:16
      輿情
      中國民政(2016年24期)2016-02-11 03:34:38
      邯郸县| 丰都县| 天峨县| 武鸣县| 江源县| 句容市| 宝坻区| 汝阳县| 灯塔市| 左贡县| 武平县| 拉萨市| 嘉荫县| 峨眉山市| 兴城市| 得荣县| 绥芬河市| 湟中县| 察雅县| 墨脱县| 武清区| 武安市| 文化| 河间市| 靖江市| 阿拉善右旗| 黎川县| 邵东县| 仲巴县| 连山| 威宁| 德钦县| 中牟县| 湖北省| 台山市| 平果县| 赫章县| 龙里县| 襄城县| 松原市| 广汉市|