摘 要:針對(duì)微博客在信息更新頻率、組織結(jié)構(gòu)、用戶關(guān)聯(lián)等方面與其他社會(huì)化媒體有較大差異,具有驚人的聚合力和滲透力,文章通過(guò)研究其特點(diǎn)提出了五維一體的微博輿情監(jiān)測(cè)指標(biāo)體系(MBPOI),用以衡量和評(píng)價(jià)微博客中話題/事件的輿情度。同時(shí)以A自動(dòng)化世界活動(dòng)為例分析,對(duì)指標(biāo)體系和分析挖掘系統(tǒng)進(jìn)行驗(yàn)證,結(jié)果表明該指標(biāo)體系使用五種統(tǒng)計(jì)方式(QI,II,RI,PI,CI),從多維度、多層次量化話題/事件的影響力有較好的效果,為A公司自動(dòng)化世界活動(dòng)監(jiān)控和追蹤提供了有效的社會(huì)化媒體分析依據(jù)。
關(guān)鍵詞:微博客;輿情監(jiān)測(cè)指標(biāo);中文信息處理;社會(huì)化媒體
1 概述
國(guó)內(nèi)已有一些輿情指標(biāo)體系的研究,這些研究多數(shù)建立在輿情分析和網(wǎng)絡(luò)安全的基礎(chǔ)上,國(guó)內(nèi)外已有一些相關(guān)的研究工作,如基于網(wǎng)絡(luò)性能度量指標(biāo)[1],社會(huì)學(xué)角度計(jì)量社會(huì)穩(wěn)定指標(biāo)體系[2]等。還有一些系統(tǒng)開(kāi)發(fā)工作,如:中國(guó)傳媒大學(xué)網(wǎng)絡(luò)輿情研究所的IRI網(wǎng)絡(luò)輿情指數(shù)和Imonitor輿情系統(tǒng),中科院計(jì)算所的網(wǎng)絡(luò)安全輿情指數(shù)和天璣監(jiān)測(cè)系統(tǒng),TRS公司的網(wǎng)絡(luò)輿情指標(biāo)體系和網(wǎng)絡(luò)輿情監(jiān)控解決方案以及skeye輿情監(jiān)控系統(tǒng)。
前人的研究[3]一般針對(duì)常規(guī)社會(huì)化媒體來(lái)構(gòu)建輿情指標(biāo)體系,然而微博在傳播機(jī)制、聚合力、影響力等特點(diǎn)與傳統(tǒng)社會(huì)化媒體有很大的不同,常規(guī)的輿情指標(biāo)體系和監(jiān)測(cè)工具已不完全適用。因此,文章針對(duì)微博的特點(diǎn),提出了專(zhuān)門(mén)的微博輿情監(jiān)測(cè)指標(biāo)體系,基于該體系實(shí)現(xiàn)了微博監(jiān)控與分析系統(tǒng),并通過(guò)“A自動(dòng)化世界活動(dòng)”實(shí)例分析,驗(yàn)證該指標(biāo)體系和系統(tǒng)的有效性。
2 微博輿情監(jiān)測(cè)指標(biāo)體系構(gòu)建
微博用戶及傳播的信息具有自由化、隱蔽化、發(fā)散化、復(fù)雜化等特點(diǎn),微博輿情指標(biāo)的選取要有相對(duì)穩(wěn)定性或具有自動(dòng)更新機(jī)制,能夠在時(shí)間上延續(xù)和空間上擴(kuò)展,從而用于衡量話題/事件的輿情態(tài)勢(shì)進(jìn)行有效的引導(dǎo)。其定義如下:
定義1:MBPOI={Quantity Index(QI), Intensity Index(II), Relation Index(RI), Polarity Index(PI),Confidence Index(CI)}
其中QI表示量度指標(biāo),II表示強(qiáng)度指標(biāo), RI表示關(guān)聯(lián)指標(biāo),PI表示情感傾向指標(biāo),CI信度指標(biāo)。
圖1 微博輿情監(jiān)控指標(biāo)體系圖
2.1 量度
量度體現(xiàn)了總體演化趨勢(shì),事件持續(xù)、輿情參與度等宏觀方面的度量。
量度將加入分類(lèi)模型,對(duì)話題相關(guān)信息更有效的過(guò)濾,增加量度的準(zhǔn)確度;同時(shí),引入聚類(lèi)模型,有效的發(fā)現(xiàn)領(lǐng)域相關(guān)熱點(diǎn)話題,提煉關(guān)聯(lián)話題。
2.2 強(qiáng)度
強(qiáng)度體現(xiàn)了輿情熱點(diǎn)和行為活躍性分布、涉及話題/事件的重要程度、興趣熱點(diǎn)等方面的度量。
分析的數(shù)據(jù)來(lái)源是將整體數(shù)據(jù)集中進(jìn)行過(guò)濾、歸類(lèi)獲得。強(qiáng)度可以對(duì)話題/事件相關(guān)博主影響力進(jìn)行計(jì)算,以確定話題意見(jiàn)領(lǐng)袖;同時(shí),話題/事件一般有產(chǎn)生、熱議、消減的周期,強(qiáng)度計(jì)算將話題周期也納入計(jì)算范圍,進(jìn)行及時(shí)預(yù)警。
2.3 關(guān)聯(lián)度
關(guān)聯(lián)度體現(xiàn)了波及的傳播關(guān)聯(lián)網(wǎng)絡(luò)、層次維度,涉及話題/事件的覆蓋面、影響力等方面的度量。
分析來(lái)源于整體數(shù)據(jù)中抽取的用戶粉絲和關(guān)注信息。關(guān)聯(lián)度可以在網(wǎng)絡(luò)圖中,增加話題相關(guān)博主重要性,關(guān)聯(lián)緊密度的分析,并以節(jié)點(diǎn)的大小,弧的粗細(xì)來(lái)可視化展示。同時(shí),可將話題相關(guān)微博在博主中轉(zhuǎn)博的路徑進(jìn)行勾勒,以便捷的進(jìn)行溯源和追蹤。
2.4 情感度
情感度體現(xiàn)了情緒傾向和社會(huì)狀態(tài),涉及關(guān)注、社會(huì)心理、和諧等方面的度量。
分析數(shù)據(jù)來(lái)源于話題相關(guān)博文和用戶發(fā)布的博文的評(píng)論內(nèi)容,文章采取基于HowNet1的詞粒度語(yǔ)義傾向性分析方法,建立具有強(qiáng)烈褒貶傾向的詞典,在設(shè)定種子情感詞后,使用HowNet計(jì)算相似度。根據(jù)博文中情感詞語(yǔ)與詞典中詞語(yǔ)的語(yǔ)義傾向相似度來(lái)判斷博文內(nèi)容和評(píng)論的支持度分布。
2.5 信任度
信任度體現(xiàn)了權(quán)威性和可信度,涉及話題/事件的準(zhǔn)確、真實(shí)、有用性等方面的度量。
信任度的數(shù)據(jù)來(lái)源為話題相關(guān)的某一條博文內(nèi)容發(fā)布用戶發(fā)布站點(diǎn)的相關(guān)屬性數(shù)據(jù)。以上屬性建立影響力模型,基于模型判斷某條博文的可信度。信任度將建立不同細(xì)分領(lǐng)域的影響力模型,并結(jié)合領(lǐng)域?qū)<抑R(shí)不斷調(diào)整模型,以達(dá)到對(duì)信息可信度的有效判斷。
3 微博客實(shí)時(shí)監(jiān)控分析系統(tǒng)
在微博輿情指標(biāo)體系的基礎(chǔ)上,文章實(shí)現(xiàn)了微博客實(shí)時(shí)監(jiān)控分析分布式系統(tǒng),server負(fù)責(zé)分配站點(diǎn)、調(diào)度URL、抽取與分析任務(wù)分配等以實(shí)現(xiàn)采集分析系統(tǒng)的負(fù)載均衡,client端實(shí)現(xiàn)其具體監(jiān)控與分析功能,圖2為系統(tǒng)client的模塊設(shè)計(jì),由微博用戶登陸模塊、采集模塊、抽取模塊、中文信息處理模塊、分析模塊組成。
文章采集時(shí)使用HttpClient2和Heritrix3開(kāi)源工具,將網(wǎng)頁(yè)下載的同時(shí)以ARC文件形式保存到本地,本地ARC文件作為備份,用于系統(tǒng)評(píng)測(cè)。信息抽取模塊采用xPath定位html網(wǎng)頁(yè)中所需的內(nèi)容,對(duì)html樹(shù)進(jìn)行進(jìn)行抽取,實(shí)現(xiàn)對(duì)各個(gè)站點(diǎn)以可配置的形式對(duì)微博內(nèi)容定向抽取有價(jià)值信息,使用了JS異步加載模式,無(wú)法直接獲得,文章實(shí)現(xiàn)了Json插件用于處理動(dòng)態(tài)頁(yè)面內(nèi)容。
分析模塊以微博輿情指標(biāo)體系為理論,在中文信息處理處理模塊的基礎(chǔ)上進(jìn)行,中文信息處理模塊包括分詞、名詞短語(yǔ)識(shí)別、共指消解、語(yǔ)義相似度計(jì)算[9]等,使用哈工大自然語(yǔ)言處理工具進(jìn)行內(nèi)容識(shí)別與預(yù)處理,識(shí)別內(nèi)容將作為指標(biāo)體系分析五種方法的數(shù)據(jù)輸入,由各分析算法進(jìn)行處理,具體處理方法在第2節(jié)已做詳細(xì)介紹。
圖2 微博客監(jiān)控分析系統(tǒng)圖
4 微博輿情指標(biāo)體系實(shí)例分析
根據(jù)用戶單位的具體微博活動(dòng)主題監(jiān)測(cè)的需求,選取A公司自動(dòng)化活動(dòng)為主題做實(shí)例研究。A公司在新浪設(shè)有官方微博,本次實(shí)驗(yàn)在微博監(jiān)測(cè)分析指標(biāo)數(shù)據(jù)選取時(shí),選取新浪微博數(shù)據(jù)作為量度、情感度、關(guān)聯(lián)度的分析源,強(qiáng)度的數(shù)據(jù)源則有主流的11個(gè)微博網(wǎng)站構(gòu)成,網(wǎng)站列表在圖5中有所展示。
本次實(shí)驗(yàn)收集2011年3月1日至2011年8月2日時(shí)間段內(nèi)11個(gè)微博網(wǎng)站的話題相關(guān)數(shù)據(jù),其中,在新浪微博中A公司自動(dòng)化相關(guān)的微博和A公司自動(dòng)化世界官方發(fā)布的微博數(shù)據(jù)量,如圖3所示。
4.1 量度分析結(jié)果
量度分析相關(guān)話題發(fā)布內(nèi)容的總量,量度分析結(jié)果如圖4所示,A公司自動(dòng)化世界3月入駐的新浪微博,評(píng)論數(shù)值在3月下旬比轉(zhuǎn)發(fā)和微博量高出很多,5月上旬量度達(dá)到頂峰,相關(guān)的微博和評(píng)論出現(xiàn)了井噴的異?,F(xiàn)象,隨后量度值降低。通過(guò)查閱采集數(shù)據(jù)不難發(fā)現(xiàn)這是由于5月10-12日有A公司自動(dòng)化世界活動(dòng),相關(guān)博主紛紛發(fā)布展會(huì)參會(huì)心得體驗(yàn),公司官方博主也加強(qiáng)與粉絲的互動(dòng);6月下旬的評(píng)論和轉(zhuǎn)發(fā)量度升高幅度較大,通過(guò)分析發(fā)現(xiàn)這段時(shí)間A公司自動(dòng)化世界發(fā)布了一些用戶感興趣的工廠照片并發(fā)起了一個(gè)有獎(jiǎng)投票,增加互動(dòng)獲得較多的轉(zhuǎn)發(fā)和評(píng)論。
該指標(biāo)為企業(yè)微博營(yíng)銷(xiāo)管理措施提供了有效的實(shí)時(shí)跟蹤和效果反饋功能。
圖4 A公司自動(dòng)化世界的量度分析
4.2 強(qiáng)度分析結(jié)果
強(qiáng)度分析話題各個(gè)微博站點(diǎn)中出現(xiàn)的強(qiáng)度分布,圖5為截止到2011年8月2日所有監(jiān)控站點(diǎn)微博相關(guān)信息量。統(tǒng)計(jì)圖表明A公司自動(dòng)化世界活動(dòng)話題強(qiáng)度分布,有效話題統(tǒng)計(jì)依次為新浪微博、騰訊微博和搜狐微博,百度i貼吧雖然信息量較多,但以水貼為主,去噪后有效信息較少。同時(shí)部分站點(diǎn)話題強(qiáng)度基本為零,如同學(xué)網(wǎng)、做啥、嘀咕等。
該分析結(jié)果可以為A公司自動(dòng)化世界活動(dòng)下一步官方參與互動(dòng),設(shè)置官方微博的站點(diǎn)提供有效的支持。
4.3 情感度分析結(jié)果
情感度分析話題中的大眾博文中體現(xiàn)的總體輿情傾向,圖6可看出5月份自動(dòng)化世界活動(dòng)期間中立情感度值更高,用戶對(duì)A公司自動(dòng)化活動(dòng)多是客觀的描述,包括各界媒體的報(bào)道、活動(dòng)的通知以及活動(dòng)情況的互相轉(zhuǎn)述等信息。其次用戶是正面評(píng)價(jià)居多反映出此次活動(dòng)的新引力,以及對(duì)A公司自動(dòng)化世界的認(rèn)可,如“大愛(ài)自動(dòng)化世界”,“太專(zhuān)業(yè)了,希望有一套”等信息。同時(shí)包括極少量的負(fù)面信息,如“為什么沒(méi)有我,恨死了”等信息。
該分析結(jié)果可以直接為自動(dòng)化世界提供清晰的整理出意見(jiàn)和建議,并及時(shí)解決負(fù)面話題進(jìn)行危機(jī)公關(guān)。
圖6 情感傾向度分析
4.4 關(guān)聯(lián)度分析結(jié)果
關(guān)聯(lián)度分析構(gòu)建出話題相關(guān)博主的社會(huì)化網(wǎng)絡(luò)關(guān)聯(lián),分析其核心任務(wù)和核心群體。分析結(jié)果可以清晰的分析出話題相關(guān)的意見(jiàn)領(lǐng)袖和核心群體,便于公司自動(dòng)化世界活動(dòng)對(duì)此類(lèi)用戶增加公關(guān)互動(dòng),使得營(yíng)銷(xiāo)策略得意迅速推廣。
5 結(jié)束語(yǔ)
文章提出的微博輿情監(jiān)測(cè)指標(biāo)體系,與其他傳統(tǒng)輿情指標(biāo)體系相比,微博輿情監(jiān)測(cè)指標(biāo)體系融合了多層面和多粒度指標(biāo),各項(xiàng)熵值指標(biāo)相互融合又相對(duì)獨(dú)立,共同標(biāo)識(shí)事件、活動(dòng)、話題的微博輿情態(tài)勢(shì)。同時(shí),在該體系的基礎(chǔ)上實(shí)現(xiàn)微博監(jiān)控分析系統(tǒng),系統(tǒng)智能的采集微博數(shù)據(jù)并自動(dòng)分析統(tǒng)計(jì)指標(biāo)結(jié)果。最后以A公司自動(dòng)化世界為實(shí)例初步驗(yàn)證該輿情指標(biāo)體系的有效性和可行性。
下一步,指標(biāo)體系將融合社會(huì)學(xué)、傳播學(xué)的領(lǐng)域?qū)<覙?gòu)建模型支持,精細(xì)化輿情指標(biāo)的計(jì)算方法,并融入微博監(jiān)測(cè)與分析系統(tǒng),更好的為個(gè)人、企業(yè)、國(guó)家提供全方位把握微博輿情的分析指標(biāo)與系統(tǒng)支持。
參考文獻(xiàn)
[1]Salim Hariri,Qu Guangzhi,Tushneem Dharmagadda,et al.Impact analysis offaults and attacks in large-scale networks.IEEE Security&Privacy.2003,1(5):49-54.
[2]閻耀軍.社會(huì)穩(wěn)定的計(jì)量及預(yù)警預(yù)控管理系統(tǒng)的構(gòu)建[J].社會(huì)學(xué)研究,2004(3):54-60.
[3]Kanagasabi Rajaraman, Ah-Hwee Tan. Topic Detection, Tracking, and Trend Analysis Using Self-Organizing Neural Networks. Lecture Notes in Computer Science, 2001(LANI2035):102-107.
[4]http://rp-www.cs.usyd.edu.au/~aquigley/3dfade.
[5]S.A. Golder, D. Willkinson, B.A. Huberman. Rhythms of Social Interaction: Messaging within a Massive Online Network[J].3rd International Conference on Communities and Technologies, 2010,10(6):583~593.
[6]李耘濤,劉妍,劉毅.網(wǎng)絡(luò)輿情灰色預(yù)警評(píng)價(jià)研究[J].情報(bào)雜志,2011,30(4):24-27.
作者簡(jiǎn)介:白傳棟(1975,12-),男,漢族,山東省鄆城縣,講師,碩士,研究方向:機(jī)電一體化。