靳銳 張宏莉
摘 要:隨著社交網(wǎng)絡(luò)在世界范圍內(nèi)的蓬勃發(fā)展,社交網(wǎng)絡(luò)公眾意見分析成為了一個(gè)重要的研究領(lǐng)域,通過分析社交網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)研究公眾意見。社交網(wǎng)絡(luò)中公眾意見在許多領(lǐng)域,如政治、經(jīng)濟(jì)、商業(yè)、金融、貿(mào)易、公共政策實(shí)行等,都扮演著重要的角色。然而,相關(guān)的理論與技術(shù)并不成熟,面臨著很多挑戰(zhàn),如不確定性問題的定量化計(jì)算、機(jī)器學(xué)習(xí)方法與自然語言處理在社交網(wǎng)絡(luò)公眾意見分析中的應(yīng)用、公眾意見分析理論體系的構(gòu)建等。本文對社交網(wǎng)絡(luò)公眾意見分析的研究現(xiàn)狀進(jìn)行了綜述。
關(guān)鍵詞:公眾意見分析;社交網(wǎng)絡(luò);社會(huì)計(jì)算;機(jī)器學(xué)習(xí);自然語言處理
文章編號:2095-2163(2019)04-0327-05 中圖分類號:TP391.41 文獻(xiàn)標(biāo)志碼:A
0 引 言
公眾意見分析領(lǐng)域的研究由來已久,自從政府形態(tài)出現(xiàn)以來,公眾意見分析的相關(guān)研究與應(yīng)用即已日漸突顯其重要的實(shí)用價(jià)值。政府在執(zhí)行政策的時(shí)候,如收稅等,需要了解公眾對政府政策的態(tài)度,這也是早期開展公眾意見分析的宗旨意圖,不過系統(tǒng)的學(xué)術(shù)研究卻是近代才見到、并得到發(fā)展的[1-3]。
隨著社交網(wǎng)絡(luò)在世界范圍內(nèi)的廣泛應(yīng)用,人們越來越習(xí)慣于通過社交網(wǎng)絡(luò)進(jìn)行公眾意見表達(dá)。近年來,存在于社交網(wǎng)絡(luò)空間內(nèi)的公眾意見對政治選舉、政策施行、金融交易、自然災(zāi)害避險(xiǎn)、群體性事件的形成與爆發(fā)、經(jīng)濟(jì)發(fā)展、以及商業(yè)、貿(mào)易、市場營銷等領(lǐng)域產(chǎn)生重大影響,相關(guān)領(lǐng)域的網(wǎng)絡(luò)公眾意見成為重要的、甚至決定事件成敗的情報(bào)信息,為此準(zhǔn)確把握公眾意見的走向已然成為當(dāng)下亟待獲取有效成果的研究熱點(diǎn)課題之一。
隨著社交網(wǎng)絡(luò)的發(fā)展,社會(huì)計(jì)算[4]思想開始出現(xiàn),這是社交網(wǎng)絡(luò)數(shù)據(jù)分析的理論基礎(chǔ)之一。2007年底在哈佛大學(xué)舉辦了計(jì)算社會(huì)學(xué)研討會(huì),2008年4月,美國軍方在亞利桑那州立大學(xué)舉辦了社會(huì)計(jì)算、行為建模和預(yù)測研討會(huì)。在此基礎(chǔ)上,2009年Lazer等人[5]在《Science》雜志上提出計(jì)算社會(huì)學(xué)的概念,指出社交網(wǎng)絡(luò)上的大量信息,如博客、論壇、聊天、消費(fèi)記錄、電子郵件等,都是對現(xiàn)實(shí)社會(huì)的人及組織行為的映射,網(wǎng)絡(luò)數(shù)據(jù)可用來分析個(gè)人和群體的行為模式,標(biāo)志著計(jì)算科學(xué)和社會(huì)科學(xué)在社交網(wǎng)絡(luò)數(shù)據(jù)分析領(lǐng)域的研究出現(xiàn)交叉與融合,社會(huì)計(jì)算的相關(guān)研究正成為世界范圍內(nèi)新的前沿科學(xué)探討和應(yīng)用焦點(diǎn)。
社會(huì)計(jì)算思想提出后,受到學(xué)界研究人員的充分重視,相關(guān)的研究人員依據(jù)該思想開始對社交網(wǎng)絡(luò)信息進(jìn)行研究與分析,獲得一系列的研究成果,并將其陸續(xù)融入應(yīng)用在計(jì)算機(jī)產(chǎn)業(yè)當(dāng)中,創(chuàng)造出可觀社會(huì)價(jià)值[6-8]。
在911恐怖事件的影響推動(dòng)下,2003年美國首創(chuàng)情報(bào)與安全信息學(xué)的概念,其核心思想則立足于研究如何開發(fā)智能算法通過數(shù)據(jù)信息處理技術(shù)、安全策略的集成等使情報(bào)采集和安全分析更加系統(tǒng)化、科學(xué)化,保障國際安全、國家安全、社會(huì)安全、商業(yè)安全和個(gè)人安全。美國亞利桑那大學(xué)關(guān)于國家社會(huì)安全問題做出了周密考查,進(jìn)而開啟了“情報(bào)與安全信息學(xué)(ISI)”[6]的全面深入研究,卡內(nèi)基梅隆大學(xué)也開展了公共衛(wèi)生事件等領(lǐng)域的學(xué)術(shù)研討。
當(dāng)前,社會(huì)計(jì)算方法廣泛用于社區(qū)發(fā)現(xiàn)、用戶商業(yè)推薦分析、金融交易傾向分析、社會(huì)媒體挖掘,如社區(qū)與意見領(lǐng)袖發(fā)現(xiàn)、社交網(wǎng)絡(luò)用戶行為分析、網(wǎng)絡(luò)觀點(diǎn)與態(tài)度分析等[7-9]。
公眾意見分析領(lǐng)域的研究仍然處于發(fā)展初期階段,理論體系還沒有完全建立起來,在各個(gè)領(lǐng)域的實(shí)際應(yīng)用還有很大的潛力有待挖掘。本文首先討論了網(wǎng)絡(luò)公眾意見分析的相關(guān)研究與關(guān)鍵技術(shù),然后綜述當(dāng)前研究現(xiàn)狀,并指出該領(lǐng)域后續(xù)可能的研究方向。對此可得研究論述如下。
1 公眾意見分析研究的背景
公眾意見分析領(lǐng)域的研究,起源于政府機(jī)構(gòu)為了執(zhí)行政府政策而進(jìn)行的民意調(diào)查,并在人類社會(huì)的各個(gè)時(shí)代一直發(fā)揮著重要的作用,著名公眾意見研究專家V.O. Key, Jr.曾經(jīng)說過一句很經(jīng)典的話,“即使是最殘酷的暴君也需要知道民眾的想法,即使僅僅是為了更好地鎮(zhèn)壓他們。”[10],這句話透徹地指出,在國家政府事務(wù)運(yùn)行過程中,對公眾意見進(jìn)行調(diào)查分析與研究是不容回避的工作,而且可以盡量避免社會(huì)沖突,從而降低社會(huì)成本。
在社交網(wǎng)絡(luò)時(shí)代到來后,民眾開始使用社交網(wǎng)絡(luò)進(jìn)行公眾意見的表達(dá),大量的網(wǎng)絡(luò)公眾意見匯集在一起并相互交織,從而形成了一個(gè)帶有鮮明感情色彩、意見多樣化并相對統(tǒng)一的主流觀點(diǎn),而且往往代表普通民眾的廣泛意見,在此基礎(chǔ)上則對社會(huì)中的其它人群產(chǎn)生重大影響[7-9]。
1.1 公眾意見分析研究的起源
公眾意見研究和政府形式是同時(shí)出現(xiàn)的,最早期的公眾意見表達(dá)形式是叛亂與起義反抗,在人類歷史進(jìn)程中,不斷有農(nóng)民起義事件發(fā)生,當(dāng)大范圍的農(nóng)民起義涌現(xiàn)時(shí),統(tǒng)治者可以得到了一個(gè)明確的信息:政府正在喪失民眾支持。拒絕納稅是另外一個(gè)明顯的表現(xiàn),當(dāng)國王看到自己派出去的納稅官員被殺死的時(shí)候,即會(huì)知曉民眾正在反對其高壓統(tǒng)治。之后,統(tǒng)治者們逐漸認(rèn)識到對公眾意見施以調(diào)查分析的重要性,開始針對公眾意見進(jìn)行調(diào)查與分析研究,并即時(shí)調(diào)整政府政策,而不是繼續(xù)使矛盾趨于激化。于是對公眾意見進(jìn)行處理研究的各種方法即已轉(zhuǎn)入活躍發(fā)展期[10]。
1931年,Droba發(fā)表了一篇名為《用于測量公眾意見的5種方法》的學(xué)術(shù)論文,在文中系統(tǒng)總結(jié)了5種對公眾意見進(jìn)行分析與度量的方法。一般認(rèn)為,這篇文獻(xiàn)是近代公眾意見分析學(xué)術(shù)研究領(lǐng)域起點(diǎn)之一[1]。1962年,Key發(fā)表了另外一篇非常重要的學(xué)術(shù)論文,在該文章中闡述了公眾意見與政治制度之間的關(guān)系[2]。1973年,Mueller[3]發(fā)表了題為《戰(zhàn)爭、總統(tǒng)、公眾意見》的文章,進(jìn)一步強(qiáng)調(diào)了公眾意見在國家政治活動(dòng)中的重要地位。
1.2 社交網(wǎng)絡(luò)時(shí)代公眾意見的社會(huì)角色
2010~2012年間,在非洲大陸與阿拉伯世界國家中,經(jīng)歷了一次舉世矚目的社會(huì)變革運(yùn)動(dòng),史稱Arab Spring運(yùn)動(dòng)[7]。社交網(wǎng)絡(luò)在此次社會(huì)變革中發(fā)揮了關(guān)鍵性作用,其顯著的社會(huì)功能受到相關(guān)研究人員的廣泛重視。研究可知,這些國家有著一些共性,均存在一定的社會(huì)矛盾,如貧富差距大、失業(yè)率高等;主流媒體的社會(huì)覆蓋面與作用不完備,社交網(wǎng)絡(luò)媒體在一定程度上承擔(dān)了信息傳播的功能;民眾利用社交網(wǎng)絡(luò)渠道選擇發(fā)布信息或個(gè)人觀點(diǎn),形成了強(qiáng)大的公眾意見;網(wǎng)絡(luò)公眾意見在很大程度上決定了社會(huì)現(xiàn)實(shí)中的民意走向。有學(xué)者指出,這些國家利用社交網(wǎng)絡(luò)技術(shù)所帶來的便利,可以提高社會(huì)發(fā)展動(dòng)力并降低社會(huì)成本,但同時(shí)也必須準(zhǔn)備面對社交網(wǎng)絡(luò)廣泛使用帶來的社會(huì)現(xiàn)實(shí)局面[11-12]。在社交網(wǎng)絡(luò)時(shí)代,網(wǎng)絡(luò)公眾意見似乎獲得了更重要的社會(huì)角色。
1.3 社交網(wǎng)絡(luò)時(shí)代公眾意見的重要性
在當(dāng)今的社交網(wǎng)絡(luò)時(shí)代,公眾意見發(fā)揮了重要作用,政府工作運(yùn)轉(zhuǎn)與政策實(shí)行等必然受到網(wǎng)絡(luò)輿論監(jiān)督;在其它領(lǐng)域,如金融交易、國際貿(mào)易、商業(yè)實(shí)體發(fā)展、市場營銷等,網(wǎng)絡(luò)公眾意見也開始占據(jù)至關(guān)重要的位置。例如,當(dāng)一個(gè)商業(yè)實(shí)體的產(chǎn)品在社交網(wǎng)絡(luò)空間中獲得了更多的負(fù)面評價(jià),那么后果往往是,商業(yè)實(shí)體可能要面臨著巨大的經(jīng)濟(jì)損失。在社交網(wǎng)絡(luò)時(shí)代,網(wǎng)絡(luò)公眾意見的社會(huì)功能與作用是不能被忽視的,在某些條件下,還可能會(huì)起到?jīng)Q定性作用[7,9,12]。
2 社交網(wǎng)絡(luò)公眾意見分析關(guān)鍵技術(shù)
2.1 社會(huì)計(jì)算
2.1.1 社會(huì)計(jì)算理論
(1)社會(huì)計(jì)算思想。2009年,Lazer等人在《Science》上發(fā)表了著名的學(xué)術(shù)觀點(diǎn),指出,在社交媒體,如博客、論壇、聊天記錄、日志文件、電子郵件等所發(fā)布的內(nèi)容和相應(yīng)的網(wǎng)絡(luò)行為都是社會(huì)中個(gè)人或組織行為的映射。這個(gè)學(xué)術(shù)思想的提出具有劃時(shí)代意義,為通過分析和計(jì)算社交網(wǎng)絡(luò)中的用戶行為數(shù)據(jù)來判斷社會(huì)人群的傾向性、挖掘社區(qū)行為、分析公眾意見等研究提供了理論依據(jù)[5]。
(2)小世界理論。1998年,Watts 和 Strogatz在《Nature》上發(fā)表了一篇重要的學(xué)術(shù)論文,文中提出著名的“小世界理論”。該理論與社會(huì)計(jì)算思想類似,提供了在社交網(wǎng)絡(luò)上信息傳播六步距離的基本理論描述,這是分析社交網(wǎng)絡(luò)信息傳播規(guī)律的基礎(chǔ)理論依據(jù)之一[13]。
2.1.2 網(wǎng)絡(luò)結(jié)構(gòu)模型
自從Watts and Strogatz (1998)與Barabási and Albert (1999)研究社交網(wǎng)絡(luò)結(jié)構(gòu)建模開始,網(wǎng)絡(luò)建模已經(jīng)獲得了長足進(jìn)步。一個(gè)社交網(wǎng)絡(luò)的結(jié)構(gòu)示例如圖1所示[13-15]。
這里,針對研究中的網(wǎng)絡(luò)數(shù)學(xué)模型可具體描述如下。
2.1.3 社交網(wǎng)絡(luò)分析的技術(shù)指標(biāo)
定量化的分析方法已全面應(yīng)用于社交網(wǎng)絡(luò)分析中,相關(guān)的研究人員提出了眾多技術(shù)指標(biāo)的數(shù)學(xué)定義,用來輔助技術(shù)分析或表示社交網(wǎng)絡(luò)特征,對此內(nèi)容可做解析論述如下。
2.1.3.1 聚類系數(shù)
社交網(wǎng)絡(luò)具有強(qiáng)社區(qū)結(jié)構(gòu)特性,在一個(gè)群體中的人傾向于與群體內(nèi)的人交流的程度比群體外的人要大,這個(gè)特性可用聚類系數(shù)表示。
聚類系數(shù)用來計(jì)算與一個(gè)節(jié)點(diǎn)連接的友好節(jié)點(diǎn)數(shù)量密度。當(dāng)一個(gè)社交網(wǎng)絡(luò)具有強(qiáng)社區(qū)結(jié)構(gòu)時(shí),則往往會(huì)有較高的平均聚類系數(shù)。
2.1.3.2 中心性
(1)度中心性。 度中心性的定義如下:
(2)緊密度中心性。緊密度中心性評測的是一個(gè)節(jié)點(diǎn)相對于其它節(jié)點(diǎn)的緊密度。其定義可寫作如下數(shù)學(xué)形式:
時(shí)下,還有其它度量中心性的指標(biāo),限于篇幅,這里從略。
2.1.3.3 連接強(qiáng)度
2.1.4 社會(huì)計(jì)算方法
(1)確定性問題。確定性問題的計(jì)算,可以應(yīng)用表1中的技術(shù)參數(shù)與網(wǎng)絡(luò)數(shù)學(xué)模型進(jìn)行計(jì)算,當(dāng)前這種方法獲得了大范圍的應(yīng)用,諸如可用于社區(qū)發(fā)現(xiàn),網(wǎng)絡(luò)用戶行為分析等。
(2)不確定性問題。社會(huì)計(jì)算任務(wù)中,存在著諸多不確定性問題需要進(jìn)行各類定量化的計(jì)算與分析,如公眾事件信息熵的計(jì)算,大眾心理壓力指數(shù)計(jì)算、網(wǎng)絡(luò)輿論攻擊強(qiáng)度計(jì)算、網(wǎng)絡(luò)社會(huì)性話題爭議度計(jì)算、群體性行為復(fù)雜度計(jì)算、網(wǎng)絡(luò)群體社會(huì)性攻擊行為計(jì)算等等。
有相關(guān)的研究人員提出一種計(jì)算方法,可以用來解決這類不確定性研究中的定量化計(jì)算問題[17]。
2.2 社交網(wǎng)絡(luò)數(shù)據(jù)挖掘
社交網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)的任務(wù)是對社交網(wǎng)絡(luò)中的關(guān)系型數(shù)據(jù)進(jìn)行分析,往往不涉及文本內(nèi)容,多是用于研究關(guān)注用戶群體的社區(qū)關(guān)系,挖掘群體行為等,是當(dāng)前的研究熱點(diǎn)之一。
社交網(wǎng)絡(luò)公眾意見分析有一部分工作需要借助社交網(wǎng)絡(luò)數(shù)據(jù)挖掘算法進(jìn)行分析,如相似意見社區(qū)發(fā)現(xiàn),相似或不同意見表達(dá)者的用戶行為分析、公眾意見的社交網(wǎng)絡(luò)傳播模式分析等。
2.3 自然語言處理
自然語言處理技術(shù)是網(wǎng)絡(luò)文本分析的基礎(chǔ),在公眾意見分析領(lǐng)域中占有重要地位,有很多工作需要借助自然語言技術(shù)對網(wǎng)絡(luò)公眾意見進(jìn)行過濾與分析,因而成為應(yīng)用基礎(chǔ)性技術(shù)之一。
2.4 機(jī)器學(xué)習(xí)
社交網(wǎng)絡(luò)公眾意見分析研究中有很多任務(wù)需要進(jìn)行數(shù)據(jù)分類處理或計(jì)算優(yōu)化,如社交網(wǎng)絡(luò)用戶分類、公眾事件分類、評論類別分類、情感信息分類等等,機(jī)器學(xué)習(xí)是一種有效的方法。機(jī)器學(xué)習(xí)是數(shù)據(jù)分析中強(qiáng)有力的模型工具,通過使用機(jī)器學(xué)習(xí)算法可以獲得普通方法無法得到的優(yōu)異結(jié)果。
2.5 博弈論
公眾意見與生俱來特性決定了其在社會(huì)政治活動(dòng)、經(jīng)濟(jì)發(fā)展、社會(huì)群體行為組織等各項(xiàng)事務(wù)中的重要角色[7,10,12]。因而就必然經(jīng)常處于多個(gè)社會(huì)角色的博弈當(dāng)中,并且最終發(fā)揮重要作用。
3 結(jié)束語
社交網(wǎng)絡(luò)公眾意見分析研究涉及多個(gè)領(lǐng)域的技術(shù),如信息論、最大熵理論、社會(huì)計(jì)算、社交網(wǎng)絡(luò)數(shù)據(jù)挖掘、自然語言處理、博弈論等。尤其在海量社交網(wǎng)絡(luò)數(shù)據(jù)分析的背景下,網(wǎng)絡(luò)公眾意見分析研究對相關(guān)的研究人員提出了挑戰(zhàn)。網(wǎng)絡(luò)公眾意見是社會(huì)各項(xiàng)事務(wù)能夠合理運(yùn)行的博弈因素之一,對其探索、及付諸應(yīng)用則屬于網(wǎng)絡(luò)空間安全的研究范疇,在未來工作中可能會(huì)加入更多的社會(huì)性因素,其涉及的安全問題往往帶有社會(huì)性。
參考文獻(xiàn)
[1]DROBA D D. Methods used for measuring public opinion[J]. American Journal of Sociology, 1931,37(3):410-423.
[2] SHAPIRO R Y. Public opinion and American democracy[J]. American Journal of Sociology, 1963, 69(1):982-1017.
[3] MUELLER J E. War, presidents and public opinion[M]. New York:Wiley, 1973.
[4] Wikipedia. Social computing[EB/OL]. [2017-01-05]. https://en.wikipedia.org/wiki/Social_computing.
[5] LAZER D, PENTLAND A, ADAMIC L, et al. Computational social science[J]. Science, 2009,323(5915) :721-723.
[6] CHEN H, WANG F Y, ZENG D. Intelligence and security informatics for homeland security:Information,communication, and transportation[J]. IEEE Transactions on Intelligent Transportation Systems , 2004, 5(4):329-341.
[7] LERMAN K,GILDER A, DREDZE M, et al. Reading the markets:Forecasting public opinion of political candidates by news analysis[C]// Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). Manchester, United Kingdom:ACM, 2008,1:473-480.
[8] AKCORA C G, BAYIR M A, DEMIRBAS M, et al. Identifying breakpoints in public opinion[C]//1st Workshop on Social Media Analytics (SOMA 10). Washington, DC, USA:ACM, 2010:62-66.
[9] LI Juan, ZHOU Xueguang, CHEN Bin. Research on analysis and monitoring of Internet Public Opinion[M]//Du Z. Proceedings of the 2012 International Conference of Modern Computer Science and Applications. Advances in Intelligent Systems and Computing. Berlin/ Heidelberg:Springer, 2013,191:449-453.
[10]BROOKER R, SCHAEFER T. Public opinion in the 21st century:Let the people speak[M]. United States:Houghton Mifflin,2005.
[11]Wikipedia. Arab spring[EB/OL]. [2017-01-05]. https://en.wikipedia.org/wiki/Arab_Spring.
[12]KHONDKER H H. Role of the new media in the Arab Spring[J]. Globalizations,2011,8(5):675-679.
[13]WATTS D J, STROGATZ S H. Collective dynamics of ‘smallworld networks[J]. Nature, 1998, 393(6684):440-442.
[14]BARABSI A, ALBERT R. Emergence of scaling in random networks[J]. Science, 1999, 286(5439):509-512.
[15]CHAKRABARTI D, FALOUTSOS C. Graph mining:Laws, generators and algorithms[J]. ACM Computing Surveys, 2006, 38(1):2.
[16]TANG L, LIU H. Community detection and mining in social media[M]//HAN Jiawei, GETOOR L, WANG Wei,et al. Synthesis Lectures on Data Mining and Knowledge Discovery. California, USA:Morgan & Claypool Publishers,2010, 2(1):1-137.
[17]JIN R, ZHANG H L, ZHANG Y, et al. Calculation method of Chinese public event information entropy[J]. Journal of Software, 2016,27(11):2855-2869.