• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于文本挖掘技術的網(wǎng)絡輿情特征研究

      2019-12-10 09:48駱明王含含盛博廖安靈
      電腦知識與技術 2019年28期
      關鍵詞:文本挖掘情感分析網(wǎng)絡輿情

      駱明 王含含 盛博 廖安靈

      摘要:隨著互聯(lián)網(wǎng)時代的到來,新媒體產(chǎn)業(yè)發(fā)展迅速,移動互聯(lián)網(wǎng)成為網(wǎng)絡輿情傳播的主要媒介。而網(wǎng)絡通信的日漸發(fā)達也給網(wǎng)絡社會安全帶來了很大的隱患。該文擬通過對在線社交網(wǎng)絡中的輿情傳播問題進行研究,并對傳播數(shù)據(jù)的進行特征分析,揭示輿情傳播的內(nèi)在規(guī)律。該文首先利用Python網(wǎng)絡爬蟲技術對新浪微博“#溫州11歲男孩失聯(lián)5天# 家人重金50萬求線索”這一事件的轉(zhuǎn)發(fā)數(shù)據(jù)和評論數(shù)據(jù)進行了爬取。然后,針對評論數(shù)據(jù)進行預處理,并利用情感得分算法算出每條評論的情感得分,繪制出情感得分隨時間變化的情感極性圖,從理論上論證了輿情被證實前后,用戶評論的情感極性逐漸由積極變?yōu)橄麡O。最后,針對轉(zhuǎn)發(fā)數(shù)據(jù)繪制了轉(zhuǎn)發(fā)時間的頻率分布直方圖,進一步論證了輿情傳播的兩大特點——高效性和時效性。

      關鍵詞:網(wǎng)絡輿情;網(wǎng)絡爬蟲技術;文本挖掘;情感分析

      中圖分類號:TP393? ? ? ? 文獻標識碼:A

      文章編號:1009-3044(2019)28-0010-03

      1 網(wǎng)絡輿情概述

      1.1 輿情

      輿情是社會個體民眾基于某個社會熱點問題,在特定的社會范圍內(nèi),對社會所持有的針對熱點事件的發(fā)生和發(fā)展所產(chǎn)生的對某個特定群體具有重要意義的觀點和看法,也是個體民眾對社會中某個熱點問題的態(tài)度。

      1.2 移動互聯(lián)網(wǎng)下的網(wǎng)絡輿情

      近年來,新媒體時代的到來改變了網(wǎng)絡輿情信息傳播的主流方式,主要體現(xiàn)在移動互聯(lián)網(wǎng)在信息傳播方面占據(jù)更重要的地位。當前輿論傳播模式主要有兩種,傳統(tǒng)傳播媒體(如電視、報紙等)和新興傳播媒體(如互聯(lián)網(wǎng)和手機)。傳統(tǒng)的輿情傳播模式是 20 世紀的主流傳播模式,隨著 web2.0 的到來,人們從公眾變成網(wǎng)民,在移動互聯(lián)網(wǎng)平臺上瀏覽輿情信息、發(fā)表評論,使輿情得到了比傳統(tǒng)傳播媒體更快速的發(fā)展,成為輿情信息傳播的主要力量。

      2 數(shù)據(jù)的獲取與處理

      2.1 數(shù)據(jù)源的選擇

      本文以移動互聯(lián)網(wǎng)環(huán)境下新浪微博中的熱點話題“兒童拐賣”為例,進行了樣本數(shù)據(jù)的采集及其信息傳播特點研究。

      2.2 采用的技術手段

      2.2.1 網(wǎng)絡爬蟲技術

      網(wǎng)絡爬蟲就是模擬用戶對網(wǎng)頁進行訪問,接受請求響應,然后根據(jù)需求設計相應的提取規(guī)則,自動地抓取互聯(lián)網(wǎng)信息的程序。

      在設計爬蟲算法時,首先需要對網(wǎng)頁的內(nèi)容進行分析,分析出所需要提取信息的加載方式,然后針對不同的加載方式設計不同的爬蟲算法。

      針對靜態(tài)加載方式,只需要對網(wǎng)頁的源碼進行分析,找到所需信息的存儲位置,設計相應的XPath提取規(guī)則,利用Selenium模塊進行提取即可。

      2.2.2? 特征詞詞頻分析技術

      目前做詞頻分析的方法有多種,主要思想都是先將非結(jié)構化的文本內(nèi)容進行分詞處理,然后構建詞袋模型,進行詞頻統(tǒng)計分析。本文首先通過Python中的jieba分詞對文本評論進行分詞處理,隨后調(diào)用CountVectorizer函數(shù)將文本評論向量化,并根據(jù)特征詞構建詞袋模型,統(tǒng)計特征詞詞頻進行詞云圖分析。

      2.2.3 文本情感分析技術

      文本情感分析的根本是識別文檔中重要的文本特征,如詞性和詞頻率、情緒詞、詞語強度以及否定詞等。本文采用基于樸素貝葉斯模型的SnowNLP情感得分算法對文本評論進行情感分析。

      2.3 數(shù)據(jù)說明

      在此本文利用Python網(wǎng)絡爬蟲技術對新浪微博“#溫州11歲男孩失聯(lián)5天# 家人重金50萬求線索”的評論數(shù)據(jù)和轉(zhuǎn)發(fā)數(shù)據(jù)進行了爬取,選取的爬取字段如表1和表2所示。

      3 評論數(shù)據(jù)的分析

      3.1 評論數(shù)據(jù)的預處理

      3.1.1 原始數(shù)據(jù)處理

      由于評論數(shù)據(jù)中存在大量的空白評論、表情評論以及重復評論等雜數(shù)據(jù),為了有利于后文對文本數(shù)據(jù)的處理,本文首先對評論數(shù)據(jù)進行了清洗,去除空白評論、表情評論等雜數(shù)據(jù),得到了9316條有效評論數(shù)據(jù)。

      然后統(tǒng)計出每個分詞出現(xiàn)的頻數(shù)即為該詞的詞頻。針對特征詞詞頻的分析,本文采用比較直觀的詞云圖分析法(詞頻越高,該詞在詞云圖中的字體越大)進行研究。

      本文以時間作為分析維度,對證實為輿論前后的數(shù)據(jù)分別進行特征詞詞頻分析,并將結(jié)果保存為Excel文件格式。然后,利用Python中的wordcloud模塊繪制詞云圖如圖2和圖3所示。

      從詞云圖來看,證實為輿論前,“希望”“孩子”“平安”等詞出現(xiàn)的頻率較高,表明人們對孩子安全的關注,希望孩子平安無事。而證實為輿論后,詞云圖中出現(xiàn)了“造謠”“傳謠”“家里人”等詞,表明了人們對利用這種事件來制造輿論的做法的普遍不滿。

      3.2 情感分析

      主觀性的評論文本包含著一些情感色彩,情感是一種態(tài)度、思想,是一種感覺引發(fā)的判斷。

      情感分析也被稱為意見挖掘,用來研究人們對某些實體的情緒。情感分析相比于傳統(tǒng)的市場研究方法,例如調(diào)查或民意調(diào)查,具有在成本和時間上的優(yōu)勢,它是通過非侵入性的方法來提取用戶的意見和情緒的。本文基于樸素貝葉斯模型,運用SnowNLP進行評論的情感分析。

      3.2.1 基于文本的樸素貝葉斯算法

      樸素貝葉斯算法適用于獨立的特征屬性之間,它的基本思想是通過特征屬性對樣本進行分類,包括待分類項、分類器、類別這三要素,其中分類器的質(zhì)量和分類器的構造方法、樣本特性和樣本數(shù)量有關。

      基于文本的樸素貝葉斯算法描述過程為:

      3.2.2 數(shù)據(jù)集的構造

      在所有數(shù)據(jù)中隨機抽取出出了1000條數(shù)據(jù)進行人工標注,一共得到了710條積極情感和248條消極情感評論,其余42條評論無法確定其情感傾向。(如表4所示)

      3.2.3 模型的訓練

      得到標注的數(shù)據(jù)后,將其中766條作為訓練集,192條作為測試集,帶入模型進行訓練,并利用測試集測試模型進度為83.33%。

      情感得分示例如圖4和圖5所示,評論“假的。虛假報警。央視新聞剛講”,很明顯這是一個消極評論,利用模型計算其情感得分為0.046852330033,與實際相符。評論“希望孩子平平安安,趕快回家”為積極評論,利用模型計算其情感得分為0.919668529778,同樣與實際情況吻合。

      3.2.4 輿情情感極性分析

      利用模型計算得到每條評論的情感得分,并與時間繪制成情感極性變化圖(如圖6),圖中虛線部分表示該條輿論被證實的時刻。

      4 轉(zhuǎn)發(fā)數(shù)據(jù)的分析

      轉(zhuǎn)發(fā)行為,是微博用戶之間進行信息傳播一種方法。本文通過研究用戶發(fā)生轉(zhuǎn)發(fā)行為的時間來研究移動互聯(lián)網(wǎng)下的輿情傳播的特點。

      從圖中可以看出,在該條輿論發(fā)布時,較短時間內(nèi)發(fā)生了大量的轉(zhuǎn)發(fā)體現(xiàn)出了輿情傳播的高效性;并且一經(jīng)被證實后轉(zhuǎn)發(fā)數(shù)量驟減,體現(xiàn)出了輿情傳播的時效性。

      5 總結(jié)與展望

      5.1 總結(jié)

      本文利用Python網(wǎng)絡爬蟲技術進行數(shù)據(jù)的獲取,得到了兩種數(shù)據(jù),一種是微博的轉(zhuǎn)發(fā)數(shù)據(jù),另一種是微博的評論數(shù)據(jù)。并分別利用這兩種數(shù)據(jù)對移動互聯(lián)網(wǎng)下的網(wǎng)絡輿情傳播的特點進行了研究。

      ①評論數(shù)據(jù)

      從文本挖掘、情感分析方面出發(fā),構建情感得分算法,計算出每條評論的情感得分,研究情感極性隨時間的變化。研究發(fā)現(xiàn)在輿情被證實前后用戶評論的情感極性逐漸由積極變?yōu)橄麡O。

      ②轉(zhuǎn)發(fā)數(shù)據(jù)

      繪制轉(zhuǎn)發(fā)時間的頻率分布直方圖。研究證實了,移動互聯(lián)網(wǎng)下的網(wǎng)絡輿情傳播的特點:高效性、時效性。

      5.2 展望

      ①本文采用的是基于樸素貝葉斯模型的情感得分算法,得到的模型精度只有83.33%。后續(xù)研究可以考慮采用一些其他的深度學習模型來提高模型的預測精度,例如:卷積神經(jīng)網(wǎng)絡。

      ②本文雖然獲取了兩種數(shù)據(jù),但是主要利用的確是評論數(shù)據(jù),后續(xù)研究將利用轉(zhuǎn)發(fā)數(shù)據(jù)構建微博信息傳播網(wǎng)絡,深入的分析移動互聯(lián)網(wǎng)下的網(wǎng)絡輿情傳播特點。

      參考文獻:

      [1] 王永友,黃揚琦.網(wǎng)絡輿情異質(zhì)種群對大學生價值觀形成的影響及消解機制[J].重慶郵電大學學報(社會科學版),2018,30(06):80-87.

      [2] 邢云菲. 移動環(huán)境下網(wǎng)絡輿情信息傳播特征及路徑研究[D].吉林大學,2016.

      [3] 崔樹娟,賓晟,孫更新,等.基于大數(shù)據(jù)分析的多關系社交網(wǎng)絡輿情傳播模型研究[J].中南民族大學學報(自然科學版),2018,37(02):114-120.

      [4] 張碩.基于復雜網(wǎng)絡的輿情信息傳播機制研究[D].首都經(jīng)濟貿(mào)易大學,2018.

      [5] 付璐.新浪微博傳播機制研究[J].科教導刊(中旬刊),2018(05):138-139.

      [6] 張嵐嵐.新浪微博的網(wǎng)絡輿情分析研究[D].華東師范大學,2011.

      [7] 劉敏,王向前,李慧宗,等.基于文本挖掘的網(wǎng)絡商品評論情感分析[J].遼寧工業(yè)大學學報(自然科學版),2018,38(05):330-335.

      [8] 封麗.面向微博短文本的情感分析和特征抽取[J].農(nóng)業(yè)圖書情報學刊,2018,30(09):56-60.

      [9] 劉貴香,蔡永明,劉璐,英玉超.社交網(wǎng)絡信息傳播機制研究——以新浪微博為例[J].經(jīng)貿(mào)實踐,2018(06):69-70.

      [10] 孫海燕.網(wǎng)絡輿情傳播模型研究[D].山東大學,2014.

      [11] 邢長征,李珊.文本情感分析的深度學習方法[J].計算機應用與軟件,2018,35(08):102-106.

      [12] 王晰巍,張柳,李師萌,等.新媒體環(huán)境下社會公益網(wǎng)絡輿情傳播研究——以新浪微博“畫出生命線”話題為例[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(06):93-101.

      [13] 吳信東,李毅,李磊.在線社交網(wǎng)絡影響力分析[J].計算機學報,2014,37(04):735-752.

      [14] 孔杏,林慶.主觀性文本情感分類研究綜述[J].信息技術,2018,42(08):126-130+134.

      【通聯(lián)編輯:代影】

      猜你喜歡
      文本挖掘情感分析網(wǎng)絡輿情
      在線評論情感屬性的動態(tài)變化
      淺析網(wǎng)絡輿情治理
      基于社會穩(wěn)定視角的網(wǎng)絡輿情預警機制構建的思考
      慧眼識璞玉,妙手煉渾金
      苍溪县| 军事| 平乐县| 绥棱县| 秦皇岛市| 台山市| 会同县| 犍为县| 尖扎县| 肇庆市| 泰来县| 四会市| 淳安县| 六安市| 胶南市| 阿荣旗| 屏山县| 无锡市| 临沂市| 南投县| 杭州市| 江津市| 阳原县| 永靖县| 新源县| 门头沟区| 团风县| 咸阳市| 通化市| 泸州市| 平遥县| 宜州市| 兴安盟| 莱西市| 西华县| 南召县| 郧西县| 随州市| 托里县| 博野县| 咸丰县|