汪行東 胡志方
摘要:由于大數(shù)據(jù)技術(shù)的迅速普及,很多城市與媒體積極引入大數(shù)據(jù)輿情技術(shù)輔助輿情監(jiān)測(cè)、管理與應(yīng)對(duì)決策。從統(tǒng)計(jì)學(xué)角度來(lái)看,大數(shù)據(jù)技術(shù)存在著樣本截?cái)鄦栴}、系統(tǒng)性偏誤、情緒衡量偏誤、遺漏變量偏誤等缺陷,故應(yīng)積極革新大數(shù)據(jù)輿情技術(shù),創(chuàng)新輿情信息采集方式,增強(qiáng)輿情分析人員的統(tǒng)計(jì)素養(yǎng)和理論素養(yǎng),避免大數(shù)據(jù)輿情技術(shù)帶來(lái)輿情誤判的風(fēng)險(xiǎn)。
關(guān)鍵詞:大數(shù)據(jù);輿情;統(tǒng)計(jì)
中圖分類號(hào):G206.2文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-8122(2019)11-0055-02
隨著大數(shù)據(jù)的發(fā)展,對(duì)海量的網(wǎng)絡(luò)信息進(jìn)行采集、挖掘、分析的技術(shù)日趨成熟,這為主流媒體應(yīng)用大數(shù)據(jù)綜合分析輿論、提高輿論引導(dǎo)力提供了新的可能。各地政府、機(jī)構(gòu)紛紛引入大數(shù)據(jù)輿情分析技術(shù)、建設(shè)大數(shù)據(jù)輿情決策平臺(tái),通過互聯(lián)網(wǎng)海量信息進(jìn)行挖掘和處理,為敏感、重點(diǎn)輿情的引導(dǎo)工作助力[1, 2],其中典型輿情平臺(tái)包括百度輿情、新浪輿情、清博輿情等。從本質(zhì)上講,大數(shù)據(jù)技術(shù)是統(tǒng)計(jì)學(xué)的一種應(yīng)用,通過抓取海量媒介信息,使用統(tǒng)計(jì)建模相關(guān)的技術(shù),建立包括機(jī)器學(xué)習(xí)在內(nèi)的統(tǒng)計(jì)模型,對(duì)輿情的發(fā)生、發(fā)展和輿論引導(dǎo)過程進(jìn)行評(píng)估,為輿情應(yīng)對(duì)決策、決策評(píng)估提供依據(jù)。大數(shù)據(jù)技術(shù)雖然具有很多優(yōu)點(diǎn),但從統(tǒng)計(jì)學(xué)的角度出發(fā),缺點(diǎn)也是十分明顯的。如何克服其缺陷,完善大數(shù)據(jù)決策,是本文探討的關(guān)鍵。
一、從統(tǒng)計(jì)層面看大數(shù)據(jù)輿情技術(shù)的主要缺陷
(一)樣本截?cái)鄦栴}
樣本截?cái)啵═runcation)問題主要指樣本并非隨機(jī)抽取的,不是從全部個(gè)體,而是從其中一部分中獲取的觀測(cè)值,這部分觀測(cè)值可能會(huì)出現(xiàn)都大于或小于某個(gè)值,出現(xiàn)“掐頭”或“去尾”的問題。大數(shù)據(jù)輿情獲取的信息來(lái)源于網(wǎng)絡(luò)平臺(tái),主要集中于網(wǎng)站及自媒體平臺(tái)的公開意見表達(dá)。第一,由于網(wǎng)絡(luò)、自媒體平臺(tái)的使用存在一定的門檻,從而天然地排除了很多不會(huì)使用網(wǎng)絡(luò)媒體的年長(zhǎng)群體或者經(jīng)濟(jì)地位較低,無(wú)法負(fù)擔(dān)網(wǎng)絡(luò)媒體成本的人的意見。第二,雖然網(wǎng)絡(luò)存在一定的匿名性,但網(wǎng)絡(luò)意見的表達(dá)會(huì)受到各種因素的影響,并非所有的意見均呈現(xiàn)在網(wǎng)絡(luò)空間中。主要表現(xiàn)為:其一,意見表達(dá)行為受到主體性格、自信水平的影響,很多人并不愿意在網(wǎng)絡(luò)上表達(dá)自己的主張;其二,意見的表達(dá)會(huì)受到意見性質(zhì)的影響,如果主體認(rèn)為自己的意見會(huì)受到反對(duì)或招致攻擊,往往會(huì)選擇沉默,形成傳播學(xué)上所謂的“沉默的螺旋”效應(yīng)。隨著實(shí)名制的不斷推廣,網(wǎng)友在表達(dá)與主流意見不同的意見時(shí)更趨于減弱自己的聲音。第三,網(wǎng)上表達(dá)的意見也并非都能采集到。特別是由于自媒體具有一定的社交屬性,信息的擴(kuò)散和意見的表達(dá)變得極為便利,但基于人際傳播裂變的意見擴(kuò)散,因涉及隱私問題也是大數(shù)據(jù)技術(shù)所無(wú)法采集的。一方面,自媒體特有的社交屬性,使得信息的擴(kuò)散較為方便。基于人際傳播的信息擴(kuò)散和意見表達(dá),是大數(shù)據(jù)的數(shù)據(jù)采集無(wú)法進(jìn)入的領(lǐng)域;另一方面,網(wǎng)絡(luò)上的意見表達(dá)僅是網(wǎng)民意見表達(dá)行為的一部分,大量的輿情行為發(fā)生在線下,這也是無(wú)法觀察到的。從這個(gè)意義上,大數(shù)據(jù)搜集的是截?cái)鄶?shù)據(jù)(Truncated Data),忽略了人際傳播中的意見表達(dá)和線下行為,將大大影響輿情監(jiān)測(cè)的穩(wěn)健性(Robust)。
(二)系統(tǒng)性偏誤
系統(tǒng)性偏誤指與抽樣技術(shù)無(wú)關(guān),不會(huì)隨著抽樣的樣本容量擴(kuò)大而減小的常數(shù)項(xiàng)偏誤。大數(shù)據(jù)輿情技術(shù)宣稱進(jìn)行全網(wǎng)信息采集,一般不存在樣本容量擴(kuò)大的問題。但在實(shí)際操作中,受限于抓取能力和時(shí)間成本,大數(shù)據(jù)輿情平臺(tái)的數(shù)據(jù)抓取也局限于微博、微信公眾號(hào)、新聞客戶端、媒體網(wǎng)站等,由于輿情事件具有不同的突發(fā)性,是無(wú)法預(yù)料其會(huì)在微博爆發(fā)、微信公眾號(hào)爆發(fā),還是在許久文件未更新的博客中爆發(fā)。由于技術(shù)能力限制會(huì)導(dǎo)致樣本產(chǎn)生系統(tǒng)性偏誤,進(jìn)而影響大數(shù)據(jù)的輿情預(yù)警和決策能力。
(三)情緒衡量偏誤
輿情中包含了情緒,情緒是輿情研究中必然涉及的對(duì)象。要判斷網(wǎng)民在輿情事件中的情緒是“支持或反對(duì)”某一觀點(diǎn)或者“喜歡或不喜歡”某一事物和個(gè)體,一般是抽取其評(píng)論語(yǔ)句、留言語(yǔ)句中的某一個(gè)或某些字詞(即特征),判斷該詞屬于哪種情緒(即分類),意即分詞技術(shù)。國(guó)內(nèi)學(xué)者陳浩基于心理學(xué)情緒結(jié)構(gòu)理論、情緒分析技術(shù)、情緒詞庫(kù)等構(gòu)建了基本情緒詞庫(kù)和情緒維度詞庫(kù),獲得了快樂、悲傷、憤怒、恐懼和厭惡等五種基本的社會(huì)情緒[3]。但實(shí)際上,由于情緒的高度復(fù)雜性和漢語(yǔ)的語(yǔ)義模糊性,對(duì)情緒進(jìn)行精確地區(qū)分的努力,即使是引入強(qiáng)大的機(jī)器學(xué)習(xí)技術(shù),對(duì)情緒分詞處理仍存在一定的困難。近年新產(chǎn)生的一些情緒詞匯,如“白骨精(白領(lǐng)+骨干+精英)、果醬(過獎(jiǎng))”等,由于語(yǔ)言的約定俗成性、新詞的不斷涌現(xiàn)會(huì)給情緒判斷帶來(lái)極大的困難。
(四)遺漏變量偏誤
一方面,沉默的螺旋理論認(rèn)為,人們趨向于表達(dá)與主流意見一致的觀點(diǎn);當(dāng)個(gè)人意見與主流意見不一致時(shí),個(gè)體會(huì)傾向于改變自己的意見或者干脆選擇沉默[5];另一方面,群體動(dòng)力學(xué)的研究成果證實(shí)群體壓力和趨同心理的存在。網(wǎng)絡(luò)上發(fā)表意見的人,隸屬于不同小團(tuán)體進(jìn)而在輿論領(lǐng)域進(jìn)行競(jìng)爭(zhēng),群體中的個(gè)體會(huì)表達(dá)趨同的意見,進(jìn)而隱藏個(gè)體的不同意見[6]。這兩種機(jī)制的存在導(dǎo)致個(gè)體的意見表達(dá)并不能反映個(gè)體的真實(shí)意見,而在大數(shù)據(jù)分析中又難以對(duì)這兩種機(jī)制的影響進(jìn)行剔除,可能會(huì)導(dǎo)致對(duì)輿情估計(jì)的偏大或偏小,也會(huì)導(dǎo)致輿情風(fēng)險(xiǎn)評(píng)估模型出現(xiàn)遺漏變量偏誤(Omitted Variable Bias)。
二、避免大數(shù)據(jù)輿情技術(shù)缺陷的應(yīng)對(duì)方法
技術(shù)是一把雙刃劍,在帶來(lái)益處的同時(shí)不可避免的具有一定的局限性,警惕大數(shù)據(jù)輿情技術(shù)缺陷,構(gòu)建更為合理的大數(shù)據(jù)輿情監(jiān)測(cè)管理機(jī)制,是輿情工作發(fā)展的重要方向。
首先,革新大數(shù)據(jù)技術(shù),提升信息采集的范圍和分詞技術(shù),避免系統(tǒng)性偏誤、情緒衡量偏誤和遺漏變量偏誤。引入更為穩(wěn)健的計(jì)量工具模型,通過機(jī)器學(xué)習(xí)和人工采集等方式及時(shí)更新情緒分詞,將大大提升輿情分析的準(zhǔn)確性。
其次,應(yīng)破除對(duì)大數(shù)據(jù)技術(shù)的盲信盲從,增強(qiáng)輿情分析人員的統(tǒng)計(jì)素養(yǎng)。輿情分析人員對(duì)統(tǒng)計(jì)知識(shí)的理解,會(huì)方便其對(duì)輿情平臺(tái)呈現(xiàn)出的結(jié)果進(jìn)行判斷,更有利于做出正確的決策。
最后,加強(qiáng)輿情相關(guān)理論研究和總結(jié),特別是黨和政府的各級(jí)領(lǐng)導(dǎo)干部關(guān)于輿論和新聞傳播規(guī)律應(yīng)高度重視,做到先進(jìn)思想武裝人,方能更好地從事黨的輿論工作。
三、結(jié)語(yǔ)
隨著大數(shù)據(jù)輿情技術(shù)的日趨普及,越來(lái)越多的黨政部門與媒體部門傾向于采用大數(shù)據(jù)技術(shù)來(lái)監(jiān)控社會(huì)輿情,為黨政部門了解社情民意提供了新的通道。在依賴于新技術(shù)的同時(shí),我們也應(yīng)意識(shí)到從統(tǒng)計(jì)技術(shù)層面而言,大數(shù)據(jù)輿情技術(shù)存在樣本截?cái)鄦栴}、系統(tǒng)性偏誤、情緒衡量偏誤、遺漏變量偏誤等問題,應(yīng)從不斷革新輿情分析技術(shù)、創(chuàng)新輿情采集方式、增強(qiáng)輿情分析人員素養(yǎng)等角度,避免大數(shù)據(jù)輿情技術(shù)的缺陷導(dǎo)致輿情誤判等風(fēng)險(xiǎn),更加科學(xué)地了解社情民意。
參考文獻(xiàn):
[1]李雙.從輿情起步,邁上大數(shù)據(jù)輿情和社會(huì)治理之路——以浙江在線輿情中心為例淺談黨媒如何做好“To G”服務(wù)[J].傳媒評(píng)論,2018(6): 12-14.
[2]喻國(guó)明.當(dāng)前社會(huì)輿情的結(jié)構(gòu)性特點(diǎn)與分析性發(fā)現(xiàn)——基于2014年中國(guó)社會(huì)網(wǎng)絡(luò)輿情的大數(shù)據(jù)分析[J].江淮論壇,2015(5): 136-143.
[3]陳浩.中國(guó)社會(huì)的脈搏:網(wǎng)絡(luò)集群情緒的測(cè)量與應(yīng)用: 第十七屆全國(guó)心理學(xué)學(xué)術(shù)會(huì)議[Z].北京: 2014.
[4]王世泓.基于情緒詞典擴(kuò)展技術(shù)的中文微博情緒分析[D].南京航空航天大學(xué),2015.
[5](美)M·麥考姆斯,T·貝爾著.郭鎮(zhèn)之譯.大眾傳播的議程設(shè)置作用[J].新聞大學(xué),1999(2):32-36.
[6]高憲春,解葳.新媒體融合語(yǔ)境下網(wǎng)絡(luò)群體對(duì)輿論生成的影響[J].當(dāng)代傳播,2015(3): 76-79.
[責(zé)任編輯:楊楚珺]