駱明 王含含 盛博 廖安靈
摘要:隨著互聯(lián)網(wǎng)時代的到來,新媒體產(chǎn)業(yè)發(fā)展迅速,移動互聯(lián)網(wǎng)成為網(wǎng)絡輿情傳播的主要媒介。而網(wǎng)絡通信的日漸發(fā)達也給網(wǎng)絡社會安全帶來了很大的隱患。該文擬通過對在線社交網(wǎng)絡中的輿情傳播問題進行研究,并對傳播數(shù)據(jù)的進行特征分析,揭示輿情傳播的內(nèi)在規(guī)律。該文首先利用Python網(wǎng)絡爬蟲技術對新浪微博“#溫州11歲男孩失聯(lián)5天# 家人重金50萬求線索”這一事件的轉(zhuǎn)發(fā)數(shù)據(jù)和評論數(shù)據(jù)進行了爬取。然后,針對評論數(shù)據(jù)進行預處理,并利用情感得分算法算出每條評論的情感得分,繪制出情感得分隨時間變化的情感極性圖,從理論上論證了輿情被證實前后,用戶評論的情感極性逐漸由積極變?yōu)橄麡O。最后,針對轉(zhuǎn)發(fā)數(shù)據(jù)繪制了轉(zhuǎn)發(fā)時間的頻率分布直方圖,進一步論證了輿情傳播的兩大特點——高效性和時效性。
關鍵詞:網(wǎng)絡輿情;網(wǎng)絡爬蟲技術;文本挖掘;情感分析
中圖分類號:TP393? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)28-0010-03
1 網(wǎng)絡輿情概述
1.1 輿情
輿情是社會個體民眾基于某個社會熱點問題,在特定的社會范圍內(nèi),對社會所持有的針對熱點事件的發(fā)生和發(fā)展所產(chǎn)生的對某個特定群體具有重要意義的觀點和看法,也是個體民眾對社會中某個熱點問題的態(tài)度。
1.2 移動互聯(lián)網(wǎng)下的網(wǎng)絡輿情
近年來,新媒體時代的到來改變了網(wǎng)絡輿情信息傳播的主流方式,主要體現(xiàn)在移動互聯(lián)網(wǎng)在信息傳播方面占據(jù)更重要的地位。當前輿論傳播模式主要有兩種,傳統(tǒng)傳播媒體(如電視、報紙等)和新興傳播媒體(如互聯(lián)網(wǎng)和手機)。傳統(tǒng)的輿情傳播模式是 20 世紀的主流傳播模式,隨著 web2.0 的到來,人們從公眾變成網(wǎng)民,在移動互聯(lián)網(wǎng)平臺上瀏覽輿情信息、發(fā)表評論,使輿情得到了比傳統(tǒng)傳播媒體更快速的發(fā)展,成為輿情信息傳播的主要力量。
2 數(shù)據(jù)的獲取與處理
2.1 數(shù)據(jù)源的選擇
本文以移動互聯(lián)網(wǎng)環(huán)境下新浪微博中的熱點話題“兒童拐賣”為例,進行了樣本數(shù)據(jù)的采集及其信息傳播特點研究。
2.2 采用的技術手段
2.2.1 網(wǎng)絡爬蟲技術
網(wǎng)絡爬蟲就是模擬用戶對網(wǎng)頁進行訪問,接受請求響應,然后根據(jù)需求設計相應的提取規(guī)則,自動地抓取互聯(lián)網(wǎng)信息的程序。
在設計爬蟲算法時,首先需要對網(wǎng)頁的內(nèi)容進行分析,分析出所需要提取信息的加載方式,然后針對不同的加載方式設計不同的爬蟲算法。
針對靜態(tài)加載方式,只需要對網(wǎng)頁的源碼進行分析,找到所需信息的存儲位置,設計相應的XPath提取規(guī)則,利用Selenium模塊進行提取即可。
2.2.2? 特征詞詞頻分析技術
目前做詞頻分析的方法有多種,主要思想都是先將非結(jié)構化的文本內(nèi)容進行分詞處理,然后構建詞袋模型,進行詞頻統(tǒng)計分析。本文首先通過Python中的jieba分詞對文本評論進行分詞處理,隨后調(diào)用CountVectorizer函數(shù)將文本評論向量化,并根據(jù)特征詞構建詞袋模型,統(tǒng)計特征詞詞頻進行詞云圖分析。
2.2.3 文本情感分析技術
文本情感分析的根本是識別文檔中重要的文本特征,如詞性和詞頻率、情緒詞、詞語強度以及否定詞等。本文采用基于樸素貝葉斯模型的SnowNLP情感得分算法對文本評論進行情感分析。
2.3 數(shù)據(jù)說明
在此本文利用Python網(wǎng)絡爬蟲技術對新浪微博“#溫州11歲男孩失聯(lián)5天# 家人重金50萬求線索”的評論數(shù)據(jù)和轉(zhuǎn)發(fā)數(shù)據(jù)進行了爬取,選取的爬取字段如表1和表2所示。
3 評論數(shù)據(jù)的分析
3.1 評論數(shù)據(jù)的預處理
3.1.1 原始數(shù)據(jù)處理
由于評論數(shù)據(jù)中存在大量的空白評論、表情評論以及重復評論等雜數(shù)據(jù),為了有利于后文對文本數(shù)據(jù)的處理,本文首先對評論數(shù)據(jù)進行了清洗,去除空白評論、表情評論等雜數(shù)據(jù),得到了9316條有效評論數(shù)據(jù)。
然后統(tǒng)計出每個分詞出現(xiàn)的頻數(shù)即為該詞的詞頻。針對特征詞詞頻的分析,本文采用比較直觀的詞云圖分析法(詞頻越高,該詞在詞云圖中的字體越大)進行研究。
本文以時間作為分析維度,對證實為輿論前后的數(shù)據(jù)分別進行特征詞詞頻分析,并將結(jié)果保存為Excel文件格式。然后,利用Python中的wordcloud模塊繪制詞云圖如圖2和圖3所示。
從詞云圖來看,證實為輿論前,“希望”“孩子”“平安”等詞出現(xiàn)的頻率較高,表明人們對孩子安全的關注,希望孩子平安無事。而證實為輿論后,詞云圖中出現(xiàn)了“造謠”“傳謠”“家里人”等詞,表明了人們對利用這種事件來制造輿論的做法的普遍不滿。
3.2 情感分析
主觀性的評論文本包含著一些情感色彩,情感是一種態(tài)度、思想,是一種感覺引發(fā)的判斷。
情感分析也被稱為意見挖掘,用來研究人們對某些實體的情緒。情感分析相比于傳統(tǒng)的市場研究方法,例如調(diào)查或民意調(diào)查,具有在成本和時間上的優(yōu)勢,它是通過非侵入性的方法來提取用戶的意見和情緒的。本文基于樸素貝葉斯模型,運用SnowNLP進行評論的情感分析。
3.2.1 基于文本的樸素貝葉斯算法
樸素貝葉斯算法適用于獨立的特征屬性之間,它的基本思想是通過特征屬性對樣本進行分類,包括待分類項、分類器、類別這三要素,其中分類器的質(zhì)量和分類器的構造方法、樣本特性和樣本數(shù)量有關。
基于文本的樸素貝葉斯算法描述過程為:
3.2.2 數(shù)據(jù)集的構造
在所有數(shù)據(jù)中隨機抽取出出了1000條數(shù)據(jù)進行人工標注,一共得到了710條積極情感和248條消極情感評論,其余42條評論無法確定其情感傾向。(如表4所示)
3.2.3 模型的訓練
得到標注的數(shù)據(jù)后,將其中766條作為訓練集,192條作為測試集,帶入模型進行訓練,并利用測試集測試模型進度為83.33%。
情感得分示例如圖4和圖5所示,評論“假的。虛假報警。央視新聞剛講”,很明顯這是一個消極評論,利用模型計算其情感得分為0.046852330033,與實際相符。評論“希望孩子平平安安,趕快回家”為積極評論,利用模型計算其情感得分為0.919668529778,同樣與實際情況吻合。
3.2.4 輿情情感極性分析
利用模型計算得到每條評論的情感得分,并與時間繪制成情感極性變化圖(如圖6),圖中虛線部分表示該條輿論被證實的時刻。
4 轉(zhuǎn)發(fā)數(shù)據(jù)的分析
轉(zhuǎn)發(fā)行為,是微博用戶之間進行信息傳播一種方法。本文通過研究用戶發(fā)生轉(zhuǎn)發(fā)行為的時間來研究移動互聯(lián)網(wǎng)下的輿情傳播的特點。
從圖中可以看出,在該條輿論發(fā)布時,較短時間內(nèi)發(fā)生了大量的轉(zhuǎn)發(fā)體現(xiàn)出了輿情傳播的高效性;并且一經(jīng)被證實后轉(zhuǎn)發(fā)數(shù)量驟減,體現(xiàn)出了輿情傳播的時效性。
5 總結(jié)與展望
5.1 總結(jié)
本文利用Python網(wǎng)絡爬蟲技術進行數(shù)據(jù)的獲取,得到了兩種數(shù)據(jù),一種是微博的轉(zhuǎn)發(fā)數(shù)據(jù),另一種是微博的評論數(shù)據(jù)。并分別利用這兩種數(shù)據(jù)對移動互聯(lián)網(wǎng)下的網(wǎng)絡輿情傳播的特點進行了研究。
①評論數(shù)據(jù)
從文本挖掘、情感分析方面出發(fā),構建情感得分算法,計算出每條評論的情感得分,研究情感極性隨時間的變化。研究發(fā)現(xiàn)在輿情被證實前后用戶評論的情感極性逐漸由積極變?yōu)橄麡O。
②轉(zhuǎn)發(fā)數(shù)據(jù)
繪制轉(zhuǎn)發(fā)時間的頻率分布直方圖。研究證實了,移動互聯(lián)網(wǎng)下的網(wǎng)絡輿情傳播的特點:高效性、時效性。
5.2 展望
①本文采用的是基于樸素貝葉斯模型的情感得分算法,得到的模型精度只有83.33%。后續(xù)研究可以考慮采用一些其他的深度學習模型來提高模型的預測精度,例如:卷積神經(jīng)網(wǎng)絡。
②本文雖然獲取了兩種數(shù)據(jù),但是主要利用的確是評論數(shù)據(jù),后續(xù)研究將利用轉(zhuǎn)發(fā)數(shù)據(jù)構建微博信息傳播網(wǎng)絡,深入的分析移動互聯(lián)網(wǎng)下的網(wǎng)絡輿情傳播特點。
參考文獻:
[1] 王永友,黃揚琦.網(wǎng)絡輿情異質(zhì)種群對大學生價值觀形成的影響及消解機制[J].重慶郵電大學學報(社會科學版),2018,30(06):80-87.
[2] 邢云菲. 移動環(huán)境下網(wǎng)絡輿情信息傳播特征及路徑研究[D].吉林大學,2016.
[3] 崔樹娟,賓晟,孫更新,等.基于大數(shù)據(jù)分析的多關系社交網(wǎng)絡輿情傳播模型研究[J].中南民族大學學報(自然科學版),2018,37(02):114-120.
[4] 張碩.基于復雜網(wǎng)絡的輿情信息傳播機制研究[D].首都經(jīng)濟貿(mào)易大學,2018.
[5] 付璐.新浪微博傳播機制研究[J].科教導刊(中旬刊),2018(05):138-139.
[6] 張嵐嵐.新浪微博的網(wǎng)絡輿情分析研究[D].華東師范大學,2011.
[7] 劉敏,王向前,李慧宗,等.基于文本挖掘的網(wǎng)絡商品評論情感分析[J].遼寧工業(yè)大學學報(自然科學版),2018,38(05):330-335.
[8] 封麗.面向微博短文本的情感分析和特征抽取[J].農(nóng)業(yè)圖書情報學刊,2018,30(09):56-60.
[9] 劉貴香,蔡永明,劉璐,英玉超.社交網(wǎng)絡信息傳播機制研究——以新浪微博為例[J].經(jīng)貿(mào)實踐,2018(06):69-70.
[10] 孫海燕.網(wǎng)絡輿情傳播模型研究[D].山東大學,2014.
[11] 邢長征,李珊.文本情感分析的深度學習方法[J].計算機應用與軟件,2018,35(08):102-106.
[12] 王晰巍,張柳,李師萌,等.新媒體環(huán)境下社會公益網(wǎng)絡輿情傳播研究——以新浪微博“畫出生命線”話題為例[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(06):93-101.
[13] 吳信東,李毅,李磊.在線社交網(wǎng)絡影響力分析[J].計算機學報,2014,37(04):735-752.
[14] 孔杏,林慶.主觀性文本情感分類研究綜述[J].信息技術,2018,42(08):126-130+134.
【通聯(lián)編輯:代影】