陳華 蔡燕 杜翔
[摘 要] 情感分析也被稱作情緒分類或是意見挖掘,在越來越注重居民幸福感和獲得感的今天,對居民情感研究的文獻數(shù)量呈上升趨勢,運用大數(shù)據(jù)分析技術(shù),將網(wǎng)絡(luò)爬蟲、文本情感分析等技術(shù)結(jié)合使用,通過對微博數(shù)據(jù)的整理和分析,總結(jié)得出居民情感時空變化的特征及規(guī)律,從而得出贛州市地區(qū)居民的情感分布情況。
[關(guān) 鍵 詞] 居民情感;微博;數(shù)據(jù)分析
[中圖分類號] B842.6 [文獻標志碼] A [文章編號] 2096-0603(2018)32-0294-01
居民在日常生活中具有移動性和情感多變性,用戶通過使用微博發(fā)布的地理坐標、文字,較好地表現(xiàn)與記錄了這兩個特性。本文通過利用計算機技術(shù)大量采集新浪微博數(shù)據(jù),并將微博文本中表達的情感提取出來,根據(jù)時間推移深度分析和挖掘居民留下的“情感足跡”,從而篩選出我們需要的數(shù)據(jù),達到分析贛州市地區(qū)居民情感變化的目的。
目前各行各業(yè)都通過挖掘大數(shù)據(jù),為顧客提供更加優(yōu)化的服務(wù),創(chuàng)造更多價值。比如沃爾瑪?shù)乃阉?,通過大量的文本分析、機器學(xué)習(xí)和同義詞挖掘等,開發(fā)設(shè)計了一個最新的搜索引擎Polaris,為網(wǎng)上用戶提供了語義搜索技術(shù),使在線購物的完成率提高了10%~15%,使沃爾瑪增加了數(shù)十億美元的收入。
在對居民情感變化研究上我們運用大數(shù)據(jù)分析技術(shù),將網(wǎng)絡(luò)爬蟲、文本情感分析等技術(shù)結(jié)合使用,通過對微博數(shù)據(jù)的整理和分析,總結(jié)得出居民情感時空變化的特征及規(guī)律,從而得出贛州市地區(qū)居民的情感分布情況。
一、提取并篩選數(shù)據(jù)
本文使用Python中urllib2包中的方法向新浪服務(wù)器發(fā)送HTTP請求,通過模擬登錄、微博數(shù)據(jù)抓取與篩選、URL管理三個步驟,登錄連接新浪微博數(shù)據(jù)庫。進入數(shù)據(jù)庫后,對數(shù)據(jù)進行采集,考慮到本文的研究對象為贛州居民,因此,用戶所在地不是“江西 贛州”的進行過濾(所在地是注冊微博時所在的地方,所以所在地不是“江西 贛州”的用戶一般不是贛州居民),通過運行本文設(shè)計的網(wǎng)絡(luò)爬蟲,采集微博數(shù)據(jù)共413450條。所獲取的微博數(shù)據(jù)內(nèi)容包括:用戶ID、昵稱、用戶所在地區(qū)、微博發(fā)布時間、微博發(fā)布位置的坐標、用戶性別、用戶年齡及微博文本等。
二、分析數(shù)據(jù)
本文嘗試使用基于情感詞典與語義規(guī)則情感分析模型對微博文本進行情感傾向計算得到如下圖的微博文本情感數(shù)據(jù)。
三、結(jié)論
1.居民情感整體較為積極。情感程度為“高”的最多,范圍最廣,占56.51%,集中在區(qū)域中心。以一個城市來說,贛州綠化到位、美食眾多、生活節(jié)奏緩慢、全年氣候溫和,是一個宜居的城市,所以,居民在此居住大多都會產(chǎn)生較為積極的情感,從整體來看,由于計算的是每個網(wǎng)格內(nèi)的情感均值,一些極端情感被平均化,所以情感均值在“高”這個程度的網(wǎng)格所占比例最大,且集中在中心區(qū)域。
2.在校大學(xué)生為微博的主要使用人群且活動范圍在校園。通過微博數(shù)據(jù)可以發(fā)現(xiàn),熱點中有多個是高校,且在高校區(qū)微博密度最大且呈離散狀,并沒有連在一起,這不僅可以說明在校大學(xué)生為微博的主要使用人群,而且還能體現(xiàn)大學(xué)生的主要活動范圍就在校園中。
3.旅游資源開發(fā)程度較低。通過微博數(shù)據(jù)發(fā)現(xiàn),旅游熱點的微博密度大部分為“低”,說明景點對居民的吸引力較低。
參考文獻:
[1]于靜.基于微博大數(shù)據(jù)的游客情感及時空變化研究[D].西安:陜西師范大學(xué),2015.
[2]楊柯帆.中文微博短文本主題挖掘方法研究與原型系統(tǒng)開發(fā)[D].大連:大連海事大學(xué),2016.
[3]康浩.微博文本情感分類方法與應(yīng)用研究[D].長沙:國防科技大學(xué),2012.