丁晟春 包舟 劉笑迎
關(guān)鍵詞: 突發(fā)事件; 輿情; 用戶行為; 信息傳播; 行為預(yù)測(cè)
DOI:10.3969 / j.issn.1008-0821.2023.09.010
〔中圖分類號(hào)〕G203 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2023) 09-0111-13
大數(shù)據(jù)時(shí)代, 在線社交網(wǎng)絡(luò)的發(fā)展加速了信息的傳播, 也使得人們表達(dá)觀點(diǎn)的方式與渠道更加便捷多樣, 網(wǎng)絡(luò)輿情作為發(fā)展的產(chǎn)物, 同樣反映了公眾的心聲。同時(shí), 互聯(lián)網(wǎng)技術(shù)的發(fā)展使得當(dāng)前數(shù)據(jù)獲取十分便捷, 用戶的信息與行為能夠在社交網(wǎng)絡(luò)中留下痕跡, 可以便捷地使用其中的數(shù)據(jù)來(lái)分析用戶的行為, 分析輿情背后反映出來(lái)的問(wèn)題, 幫助掌握信息傳播的態(tài)勢(shì)。因此, 研究影響在線社交網(wǎng)絡(luò)中突發(fā)事件輿情信息傳播規(guī)律的因素, 對(duì)于了解網(wǎng)絡(luò)輿情傳播的規(guī)律, 促進(jìn)有利于社會(huì)穩(wěn)定的輿情信息的傳播是十分必要的。
然而, 現(xiàn)有研究多停留在針對(duì)傳播模型或者預(yù)測(cè)模型的研究上, 對(duì)用戶行為的研究始終處于被動(dòng)的問(wèn)題解決層面。如果在突發(fā)事件輿情信息傳播過(guò)程中, 預(yù)測(cè)出一條信息或者一個(gè)事件出現(xiàn)后, 用戶做出了什么樣的反應(yīng)以及信息的傳播路徑, 即可及時(shí)對(duì)該類用戶進(jìn)行定向引導(dǎo)。
本研究探索影響用戶行為的多種因素, 針對(duì)用戶交互行為構(gòu)建預(yù)測(cè)模型, 并總結(jié)揭示用戶對(duì)于突發(fā)事件輿情傳播的行為規(guī)律。從理論意義上來(lái)說(shuō),反映了在線社交網(wǎng)絡(luò)中用戶交互、信息傳播之間的聯(lián)系和規(guī)律, 為互聯(lián)網(wǎng)的輿論導(dǎo)向和輿論掌控提供理論依據(jù)。從現(xiàn)實(shí)意義上來(lái)說(shuō), 監(jiān)控輿情并根據(jù)當(dāng)前態(tài)勢(shì)對(duì)信息進(jìn)行分析, 既有助于提高政府的管理水平, 又可以幫助企業(yè)準(zhǔn)確預(yù)見(jiàn)可能形成關(guān)注效應(yīng)的商機(jī)或危機(jī)。因此, 對(duì)用戶的交互行為進(jìn)行分析與預(yù)測(cè)具備一定的前瞻性。
1相關(guān)研究
1.1輿情傳播相關(guān)研究
輿情事件中信息傳播預(yù)測(cè)是指獲取相關(guān)數(shù)據(jù),然后結(jié)合其他方法將已有的數(shù)據(jù)進(jìn)行處理與分析,并通過(guò)獲得的規(guī)律, 進(jìn)一步預(yù)測(cè)未來(lái)信息傳播的態(tài)勢(shì)。下面將分別從研究目的和研究角度進(jìn)行分析。
從研究目的來(lái)看, 現(xiàn)有研究多數(shù)利用社交網(wǎng)絡(luò)平臺(tái)中可獲取到的大量數(shù)據(jù), 通過(guò)大數(shù)據(jù)處理、文本內(nèi)容分析、網(wǎng)絡(luò)結(jié)構(gòu)分析等, 獲得熱門(mén)話題、傳播熱度及傳播效果等。如裴可鋒等[1] 明確了話題序列具備非線性、時(shí)變性等特征, 提出了離散話題熱度預(yù)測(cè)模型來(lái)預(yù)測(cè)話題的熱度。劉超等[2] 在一項(xiàng)關(guān)于新浪微博中的“轉(zhuǎn)發(fā)” 行為研究中, 對(duì)轉(zhuǎn)發(fā)者與粉絲之間的關(guān)系進(jìn)行了構(gòu)建, 提出了基于“關(guān)注網(wǎng)絡(luò)” 的轉(zhuǎn)發(fā)預(yù)測(cè)模型。Zhang L 等[3] 主要研究了微博中廣告類型的博文, 把微博傳播的效果用快慢、深淺和廣狹來(lái)表示, 構(gòu)建了樹(shù)形的傳播模式, 最終得到的結(jié)論是廣告類型和博文發(fā)布者入度和出度等對(duì)提出的3 個(gè)維度均有影響, 但效果不完全一致。
從研究角度來(lái)看, 國(guó)內(nèi)外學(xué)者大都基于傳播模型視角、復(fù)雜網(wǎng)絡(luò)視角以及用戶行為視角這3 個(gè)角度對(duì)信息傳播情況進(jìn)行研究。如Anderson R M 等[4]提出, 以SIR 模型為基礎(chǔ), 加入潛伏節(jié)點(diǎn)表示在某時(shí)刻潛伏者在網(wǎng)絡(luò)中的比例, 該模型被稱作SEIR模型, 使之更加符合現(xiàn)實(shí)世界中人們看到消息時(shí)會(huì)對(duì)傳播信息有猶豫不定的狀態(tài)。Liu Q M 等[5] 基于異質(zhì)網(wǎng)絡(luò)視角, 提出在SEIR 傳播模型中接觸到謠言的節(jié)點(diǎn)具有被刪掉的概率, 總結(jié)了謠言傳播閾值的計(jì)算公式, 對(duì)謠言的傳播行為進(jìn)行了動(dòng)力學(xué)分析。Wu S M 等[6] 把推特平臺(tái)的用戶分為普通和精英兩類, 對(duì)這些不同類型的用戶進(jìn)行了被關(guān)注程度、信息傳播方向、信息熱度等問(wèn)題的探究, 結(jié)果發(fā)現(xiàn)精英更易被關(guān)注, 更能控制信息的傳播方向。
由此可見(jiàn), 國(guó)內(nèi)學(xué)者大多以微博作為輿情傳播研究的主要平臺(tái), 現(xiàn)在也開(kāi)始逐漸拓展到微信公眾號(hào)、抖音短視頻等新的平臺(tái), 而國(guó)外學(xué)者大多以Twitter 作為研究輿情的平臺(tái), 同時(shí)也在擴(kuò)展Face?book 等平臺(tái)?,F(xiàn)有研究多停留在針對(duì)傳播模型或者預(yù)測(cè)模型的研究上, 對(duì)用戶行為的研究尚處于被動(dòng)的問(wèn)題解決層面。
1.2用戶行為預(yù)測(cè)相關(guān)研究
預(yù)測(cè)模型本質(zhì)上是通過(guò)已有的數(shù)據(jù)去推測(cè)未知的或者未來(lái)某個(gè)時(shí)間的數(shù)據(jù), 有助于揭示已知話題的內(nèi)在規(guī)律, 并且能夠?yàn)槲磥?lái)的決策提供依據(jù)。
研究發(fā)現(xiàn), 從預(yù)測(cè)對(duì)象來(lái)看, 當(dāng)前對(duì)于用戶行為的研究一種是從用戶群體角度進(jìn)行研究[7] ; 另一種是從用戶個(gè)體角度對(duì)用戶傳播信息的意愿進(jìn)行研究[8] 。從預(yù)測(cè)方法來(lái)看, 當(dāng)前對(duì)于在線社交網(wǎng)絡(luò)上的用戶行為進(jìn)行預(yù)測(cè)的方法大致分為兩種, 一種主要是通過(guò)構(gòu)建傳統(tǒng)的傳染病模型, 大多用于對(duì)用戶群體的行為預(yù)測(cè), 結(jié)合仿真工具去模擬[9] ; 另一種是通過(guò)選擇對(duì)應(yīng)的特征變量, 結(jié)合機(jī)器學(xué)習(xí)相關(guān)算法構(gòu)建或改進(jìn)模型, 用于網(wǎng)絡(luò)輿情中對(duì)用戶轉(zhuǎn)發(fā)信息行為的預(yù)測(cè)或者用于企業(yè)為用戶選擇推薦算法等[10] 。
當(dāng)前對(duì)于用戶信息傳播行為的預(yù)測(cè)大多為二分類, 主要預(yù)測(cè)用戶是否會(huì)對(duì)帖子進(jìn)行轉(zhuǎn)發(fā), 在方法的使用上有所不同, 也都有各自的優(yōu)缺點(diǎn)。支持向量機(jī)具有較好的泛化能力, 適用于小樣本或者非線性數(shù)據(jù)的處理, 比較適合用于二分類, 多分類的運(yùn)算較復(fù)雜并且誤差較大; 神經(jīng)網(wǎng)絡(luò)能夠處理十分復(fù)雜的非線性關(guān)系數(shù)據(jù), 且學(xué)習(xí)能力強(qiáng), 但是要注意參數(shù)的選取, 這對(duì)于學(xué)習(xí)過(guò)后的預(yù)測(cè)結(jié)果十分重要; 隨機(jī)森林在處理大樣本中具有一定優(yōu)勢(shì), 但在某些噪音較大的數(shù)據(jù)分類問(wèn)題上可能存在過(guò)擬合問(wèn)題; 貝葉斯原理簡(jiǎn)單易懂, 能夠增量式處理數(shù)據(jù),但是無(wú)法處理特征組合的數(shù)據(jù)情況。
綜上, 從用戶行為視角做的研究多為轉(zhuǎn)發(fā)這一個(gè)行為的預(yù)測(cè), 也大都基于傳統(tǒng)的傳播動(dòng)力學(xué)模型仿真的方法, 這都不足以反映用戶行為。因此, 通過(guò)分析用戶行為視角的輿情傳播, 本研究認(rèn)為, 用戶的行為一方面受到用戶個(gè)人的影響, 另一方面可能受到平臺(tái)中其他各種屬性的影響, 從而做出轉(zhuǎn)發(fā)、點(diǎn)贊、評(píng)論3 種行為。對(duì)點(diǎn)贊、評(píng)論和轉(zhuǎn)發(fā)的預(yù)測(cè)屬于多分類問(wèn)題, 在線社交網(wǎng)絡(luò)中的網(wǎng)民用戶數(shù)據(jù)量大, 多種特征指標(biāo)可能會(huì)有權(quán)重的計(jì)算, 因此,用神經(jīng)網(wǎng)絡(luò)方法進(jìn)行預(yù)測(cè), 并輔以機(jī)器學(xué)習(xí)方法進(jìn)行對(duì)比, 最終采納更具有泛化能力的方法。
2用戶交互行為預(yù)測(cè)模型構(gòu)建
2.1模型構(gòu)建與預(yù)測(cè)思路
本文模型構(gòu)建與預(yù)測(cè)思路框架如圖1所示, 主要包括用戶行為影響因素理論基礎(chǔ)、用戶屬性與交互行為分析、特征選取、預(yù)測(cè)實(shí)驗(yàn)與結(jié)果分析等過(guò)程。
1) 數(shù)據(jù)采集: 根據(jù)突發(fā)事件的相關(guān)定義, 結(jié)合事件的影響力, 選取事件, 并對(duì)其中做出交互行為的用戶及用戶屬性數(shù)據(jù)進(jìn)行采集。
2) 用戶屬性與交互行為分析: 主要研究點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論這3 種交互行為, 從地域分布、關(guān)注數(shù)、粉絲數(shù)和微博數(shù)等用戶屬性方面對(duì)做出交互行為的用戶進(jìn)行統(tǒng)計(jì)分析, 獲取用戶行為規(guī)律, 得到有效用戶屬性。
3) 用戶興趣傾向分析: 根據(jù)文獻(xiàn)梳理得到在線社交網(wǎng)絡(luò)用戶行為影響因素, 并對(duì)用戶標(biāo)簽屬性進(jìn)行采集處理, 采用LDA 算法進(jìn)行興趣主題聚類,得到用戶興趣指標(biāo)。
4) 特征選?。?根據(jù)用戶屬性與交互行為統(tǒng)計(jì)分析得出的有效用戶屬性, 以及用戶興趣傾向分析得出的結(jié)果, 選取特征, 明確各特征內(nèi)指標(biāo)的含義和計(jì)算方法。
5) 預(yù)測(cè)實(shí)驗(yàn): 實(shí)驗(yàn)首先進(jìn)行數(shù)據(jù)的處理, 包括隨機(jī)欠抽樣、數(shù)據(jù)標(biāo)準(zhǔn)化、二級(jí)指標(biāo)權(quán)重的計(jì)算, 接著采用BP 神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林兩種方法進(jìn)行預(yù)測(cè), 得出BP 神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)效果更優(yōu)。
6) 結(jié)果分析: 使用BP 神經(jīng)網(wǎng)絡(luò)模型進(jìn)行進(jìn)一步的實(shí)驗(yàn)分析, 包括兩類事件預(yù)測(cè)結(jié)果差異分析、預(yù)測(cè)失誤分析、兩類事件中用戶行為類別及其特征表現(xiàn)。
2.2用戶交互行為定義
一個(gè)復(fù)雜的在線社交網(wǎng)絡(luò)中一定存在一張巨大的社交關(guān)系網(wǎng), 而每個(gè)用戶的社交關(guān)系網(wǎng)又是通過(guò)自己使用社交軟件并在其中做出各種行為的基礎(chǔ)上產(chǎn)生的, 其中包括人際信任關(guān)系、交互行為關(guān)系等,主流的用戶行為如圖2 所示。
從用戶角度出發(fā), 用戶可能會(huì)產(chǎn)生一種組建或者加入某個(gè)團(tuán)體的行為, 如喜歡某個(gè)明星或者網(wǎng)紅的用戶可能會(huì)關(guān)注博主的超級(jí)話題或者加入其粉絲群; 另外, 用戶會(huì)主動(dòng)去發(fā)布原創(chuàng)微博、從其他平臺(tái)分享鏈接到新浪微博中或者發(fā)起直播, 這是用戶表達(dá)態(tài)度、傳播信息的一種方式; 用戶與用戶之間還會(huì)產(chǎn)生情感互惠的交互行為, 如A 對(duì)B 所發(fā)布的微博進(jìn)行認(rèn)同評(píng)論, A 為B 的微博增加了流量的同時(shí), B也獲得了情感上的認(rèn)同。
本研究主要從用戶與用戶之間的關(guān)系和行為的角度, 對(duì)用戶交互行為進(jìn)行研究。旨在預(yù)測(cè)單個(gè)用戶的具體行為, 而由于微博平臺(tái)數(shù)據(jù)采集的局限性,瀏覽量數(shù)據(jù)無(wú)法具體到單個(gè)用戶, 且做出交互行為過(guò)程中必然包含了瀏覽行為, 因此, 本研究的選取行為類型為點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)這3 種, 主要行為及其描述如表1 所示。
2.3數(shù)據(jù)獲取
為了避免單一事件的特殊性, 本研究選擇兩種熱度不同、類型不同的突發(fā)事件作為主體, 選擇對(duì)這兩類事件做出交互行為的用戶作為研究對(duì)象, 分析做出不同交互行為的用戶的特征, 包括對(duì)以點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)3 種行為進(jìn)行突發(fā)事件輿情信息傳播的用戶進(jìn)行對(duì)比, 得到在線社交網(wǎng)絡(luò)中突發(fā)事件用戶交互行為的相關(guān)規(guī)律, 將兩種突發(fā)事件類型的相關(guān)用戶行為與屬性進(jìn)行對(duì)比, 更加全面地分析突發(fā)事件的用戶行為影響因素。
本研究結(jié)合突發(fā)事件的分類以及事件的影響力兩方面, 綜合考慮選取了發(fā)生于2021 年3 月15 日的#北京沙塵#事件(下文簡(jiǎn)述為“事件一”), 與2021 年3 月28 日的#山東發(fā)現(xiàn)1 例南非變異株無(wú)癥狀感染者#事件(下文簡(jiǎn)述為“事件二”)中做出交互行為的用戶, 對(duì)這些用戶的屬性與交互行為進(jìn)行統(tǒng)計(jì)分析以選取模型特征。其中, #北京沙塵#屬于突發(fā)事件中的自然災(zāi)害事件, #山東發(fā)現(xiàn)1 例南非變異株無(wú)癥狀感染者#屬于突發(fā)事件中的公共衛(wèi)生事件。經(jīng)調(diào)查發(fā)現(xiàn), 新浪微博官方認(rèn)證過(guò)的用戶發(fā)布的帖文更容易產(chǎn)生信息的傳播, 即用戶的交互行為更多, 因此選擇話題下被認(rèn)證過(guò)的大V 用戶所發(fā)表的熱門(mén)帖子作為研究對(duì)象。經(jīng)過(guò)篩選后, 事件一選擇了“新京報(bào)我們視頻”“王石”“沸點(diǎn)天際線” 發(fā)布的北京沙塵相關(guān)微博, 時(shí)間跨度為2021 年3 月15 日—4 月13 日, 事件二選擇了“都市快報(bào)”和“你好泰安” 所發(fā)布的有關(guān)變異病毒的微博, 時(shí)間跨度為2021 年3 月28 日—4 月18 日, 將同一話題下熱門(mén)微博的同一行為數(shù)量加和得到該類交互行為總數(shù)。為了避免個(gè)體樣本產(chǎn)生差異, 所選話題事件中3 種交互行為任意一項(xiàng)用戶量小于20 的微博均不考慮在內(nèi)。
經(jīng)調(diào)查發(fā)現(xiàn), 新浪微博具有反爬蟲(chóng)機(jī)制, 點(diǎn)贊用戶僅被允許查看一部分, 轉(zhuǎn)發(fā)用戶的獲取過(guò)程中也會(huì)顯示“由于部分用戶進(jìn)行定向轉(zhuǎn)發(fā), 你無(wú)法查看剩余轉(zhuǎn)發(fā)內(nèi)容” 這種警示話語(yǔ), 評(píng)論內(nèi)容可以獲取到完整的信息, 評(píng)論數(shù)據(jù)是通過(guò)向下滑動(dòng)而獲得, 滑動(dòng)至顯示“查看更多”, 多次點(diǎn)擊, 直至滑動(dòng)到底部, 則會(huì)發(fā)現(xiàn)顯示的評(píng)論數(shù)量指的是一級(jí)評(píng)論和二級(jí)評(píng)論的加和, 在此只考慮一級(jí)評(píng)論, 即信息的首次傳播。在用戶信息數(shù)據(jù)獲取過(guò)程中還發(fā)現(xiàn), 部分用戶所發(fā)表的微博數(shù)量極高, 轉(zhuǎn)發(fā)方式全部為一鍵轉(zhuǎn)發(fā), 不會(huì)發(fā)表任何觀點(diǎn)和言論, 并且其轉(zhuǎn)發(fā)間隔時(shí)間也相近, 經(jīng)查閱發(fā)現(xiàn), 這類用戶屬于“機(jī)器人”, 在預(yù)處理過(guò)程中將所有無(wú)法獲取到的用戶、“機(jī)器人” 用戶、廣告用戶等全部排除在外, 不做分析。
截至數(shù)據(jù)采集當(dāng)天, 所選事件話題的熱門(mén)微博獲得的做出交互行為的用戶數(shù)量如表2 所示。
2.4用戶屬性—興趣—交互行為分析
2.4.1用戶屬性—交互行為分析
1) 地域—交互行為分析
地域是影響突發(fā)事件傳播的一個(gè)關(guān)鍵要素, 身處不同地區(qū)的用戶對(duì)同一突發(fā)事件的關(guān)注度與做出的傳播行為都會(huì)有差別。用戶在注冊(cè)時(shí)可以自主選擇填寫(xiě)或不填寫(xiě)以及填寫(xiě)哪個(gè)地區(qū)。本文默認(rèn)用戶填寫(xiě)地區(qū)信息真實(shí), 在此前提下進(jìn)行地區(qū)分布的分析。
根據(jù)上述數(shù)據(jù)處理規(guī)則將地區(qū)數(shù)據(jù)做出統(tǒng)計(jì),并且將事件一、事件二的地域分布情況作圖, 如圖3、圖4 所示。
從圖3 中可以看出, 對(duì)“北京沙塵” 事件微博博文做出交互行為反應(yīng)的用戶, 所在地比例差距較大。橫向來(lái)看, 3 種行為地區(qū)分布綜合比例最高的地區(qū)分別為北京、廣東、上海, 綜合比例最低的為貴州、澳門(mén)、青海??v向來(lái)看, 轉(zhuǎn)發(fā)用戶的比例差距較大, 北京地區(qū)的轉(zhuǎn)發(fā)比例高達(dá)27.00%, 而澳門(mén)地區(qū)用戶轉(zhuǎn)發(fā)比例為0.00%; 點(diǎn)贊用戶的地區(qū)分布相對(duì)來(lái)說(shuō)比較平均, 極差僅為13.20%; 評(píng)論用戶的地區(qū)分布處于點(diǎn)贊和轉(zhuǎn)發(fā)用戶之間。
從圖4 中能夠看到, 3 種互動(dòng)行為所占比例最高的都是山東的用戶, 點(diǎn)贊行為中有超過(guò)一半都是山東用戶, 而評(píng)論和轉(zhuǎn)發(fā)用戶分布相對(duì)較為平均。綜合來(lái)看, 整體比例較高的地區(qū)除山東和海外以外, 還有北京、廣東、江蘇、上海; 除山東、北京和廣東, 其他地區(qū)的用戶做出的行為分布比較平均, 都在10%以內(nèi)。
很明顯, “北京沙塵” 這一突發(fā)事件發(fā)生在北京, 并且波及到了幾個(gè)鄰近的省市地區(qū), 因此, 北京用戶3 種行為的綜合互動(dòng)程度最高。點(diǎn)贊這一行為付出的行為代價(jià)是最低的, 各個(gè)省份的用戶幾乎都可以輕易對(duì)這一突發(fā)事件做出點(diǎn)贊的行為反應(yīng)。由于“海外” 這一地點(diǎn)包括了除中國(guó)以外的所有國(guó)家和地區(qū), 或者一部分人為了不暴露自己真正的地點(diǎn)而選擇隨意填寫(xiě)海外, 故以下分析均將其排除在外。
此外, 從圖4 中可以看出, 除北京外排名前六的有廣東、江蘇、上海、河南、山東、河北, 對(duì)于評(píng)論行為, 排名前六的和點(diǎn)贊的城市完全重合, 但排名順序有所差異, 轉(zhuǎn)發(fā)城市在前五名的基礎(chǔ)上新增了浙江省, 河北省排名第七位。統(tǒng)計(jì)發(fā)現(xiàn), 以上城市或是發(fā)展較快的地區(qū), 推測(cè)北上廣的用戶更加關(guān)注時(shí)事, 或是與北京的地理位置距離較近的地區(qū),很可能為北京沙塵事件的見(jiàn)證者或者親身體驗(yàn)者,更容易通過(guò)點(diǎn)贊和轉(zhuǎn)發(fā)行為去為話題增加熱度, 也對(duì)此更有發(fā)言權(quán), 傾向于在評(píng)論區(qū)發(fā)表言論。
同樣地, 南非變異病毒株樣本是在青島被檢測(cè)出來(lái)的, 山東的用戶對(duì)此事件反應(yīng)較大, 對(duì)于點(diǎn)贊行為, 除了山東以外, 比例最高的省份有北京、廣東、上海、四川、福建, 均是2020年人均GDP 排名前6 的省份, 可見(jiàn)同北京沙塵這一自然災(zāi)害事件一樣, 身處經(jīng)濟(jì)發(fā)展快速的城市的用戶行為比較活躍, 更容易對(duì)突發(fā)事件發(fā)表意見(jiàn), 為事件增加熱度。
綜上, 熱度高的自然災(zāi)害類事件中做出點(diǎn)贊行為用戶主要分布在全國(guó)各地和事件發(fā)生地, 評(píng)論和轉(zhuǎn)發(fā)行為用戶主要發(fā)生在較為發(fā)達(dá)的地區(qū); 熱度低的公共衛(wèi)生類事件中做出點(diǎn)贊行為的主要分布在事件發(fā)生地及其周邊地區(qū), 做出轉(zhuǎn)發(fā)和評(píng)論的主要分布在發(fā)達(dá)地區(qū)。因而推測(cè)城市發(fā)達(dá)度和與事發(fā)地距離兩方面可能會(huì)對(duì)用戶傳播信息的交互行為產(chǎn)生影響。
2) 活躍度—交互行為分析
在其他數(shù)據(jù)中, 用戶在該平臺(tái)內(nèi)的關(guān)注數(shù)、發(fā)布微博數(shù)等屬性也包含了用戶行為的部分信息。關(guān)注是指用戶在新浪微博平臺(tái)中發(fā)出的一種主動(dòng)行為; 發(fā)布微博是用戶自主在該平臺(tái)發(fā)表的個(gè)人觀點(diǎn)或者對(duì)自己感興趣的微博進(jìn)行轉(zhuǎn)發(fā), 最終在個(gè)人主頁(yè)進(jìn)行展示, 并且能夠被自己粉絲看到。本部分對(duì)這些數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。
做出交互行為的用戶的其他屬性分布情況均以氣泡圖的形式進(jìn)行展示, 由于不同事件及不同行為間數(shù)據(jù)量差別較大, 故以區(qū)間比例的形式進(jìn)行等比縮放后作圖展現(xiàn)其分布情況, 其中, 縱軸表示3 種交互行為, 橫軸表示做出行為的用戶屬性, 氣泡大小表示該區(qū)間內(nèi)用戶占比, 并且其數(shù)據(jù)區(qū)間為左開(kāi)右閉。
兩個(gè)事件的關(guān)注數(shù)情況如圖5、圖6 所示。對(duì)于兩件突發(fā)事件而言, 事件一的關(guān)注數(shù)最小為0,最大為10000, 而事件二的關(guān)注數(shù)極差達(dá)到了20 000。由于微博機(jī)制的限制, 大部分用戶的關(guān)注上限是2 000, 兩個(gè)事件均有95%以上的用戶關(guān)注數(shù)在2000以下。
將3 個(gè)行為分開(kāi)來(lái)看, 進(jìn)行點(diǎn)贊的用戶關(guān)注的用戶整體集中在300 以下, 說(shuō)明發(fā)出點(diǎn)贊行為的用戶并沒(méi)有關(guān)注過(guò)多的上級(jí)用戶; 做出評(píng)論行為的用戶所關(guān)注的上級(jí)用戶分布集中在500 以下, 比點(diǎn)贊用戶的關(guān)注數(shù)量整體偏多, 而轉(zhuǎn)發(fā)行為的用戶比以上兩行為所關(guān)注的用戶又偏多一些, 表現(xiàn)為關(guān)注數(shù)超過(guò)1000的占比較大。
綜上分析可以看出, 兩類突發(fā)事件絕大多數(shù)用戶的關(guān)注數(shù)集中在500 以下, 說(shuō)明這些用戶是真實(shí)的社交網(wǎng)絡(luò)的活躍用戶, 反而關(guān)注數(shù)太多的用戶有“機(jī)器人” 的嫌疑。點(diǎn)贊用戶、評(píng)論用戶和轉(zhuǎn)發(fā)用戶所關(guān)注的上級(jí)用戶呈現(xiàn)出遞增趨勢(shì), 說(shuō)明在用戶互動(dòng)方面, 點(diǎn)贊用戶不是非?;钴S, 評(píng)論用戶的活躍度一般, 轉(zhuǎn)發(fā)用戶的活躍度最高, 關(guān)注人數(shù)整體偏多。
圖7和圖8展示了做出3種交互行為的用戶自注冊(cè)以來(lái)所發(fā)布微博數(shù)量的比例分布情況??梢钥闯?, 兩事件整體分布相似, 均是隨著微博數(shù)的增加, 更易做出傳播力度較大的交互行為。兩事件在細(xì)分區(qū)間的分布上有些許不同, 如事件一的轉(zhuǎn)評(píng)贊行為分布中, 分布小于等于100 條微博的用戶和大于1 000條的用戶幾乎呈中心對(duì)稱分布, 而事件二則是發(fā)布微博超過(guò)1 000條的用戶整體多于小于等于100 條的用戶量。
將行為分開(kāi)來(lái)看, 發(fā)布微博數(shù)量小于等于100的用戶更傾向于做出點(diǎn)贊和評(píng)論行為, 而微博數(shù)大于1000的用戶則更傾向于做出轉(zhuǎn)發(fā)行為, 其他發(fā)布量在100~1 000條微博的用戶, 做出3 種交互行為的比例都較少。
根據(jù)統(tǒng)計(jì)分析可知, 事件熱度會(huì)影響用戶整體質(zhì)量, 同時(shí), 當(dāng)用戶極少發(fā)布微博時(shí), 說(shuō)明其整體行為活躍度都較低, 更容易做出傳播力度較小的交互行為。而當(dāng)用戶發(fā)布微博較多時(shí), 則更容易做出傳播力度較大的行為, 這與關(guān)注數(shù)和粉絲數(shù)屬性的分析結(jié)果相同并且表現(xiàn)更加明顯。
3) 影響力—交互行為分析
粉絲數(shù)指的是用戶在新浪微博平臺(tái)中別人對(duì)自己的關(guān)注數(shù)量。用戶在社交網(wǎng)絡(luò)平臺(tái)主動(dòng)發(fā)布微博、參與話題討論、與他人微博進(jìn)行交互互動(dòng)做出轉(zhuǎn)評(píng)贊等行為之后, 會(huì)有和自己關(guān)注領(lǐng)域或者關(guān)注用戶相似的其他用戶與自己進(jìn)行互動(dòng)和關(guān)注。在微博評(píng)價(jià)機(jī)制中, 粉絲數(shù)在一定程度上代表了用戶的影響力和受歡迎程度。本文對(duì)兩事件的交互行為用戶做出了粉絲數(shù)的統(tǒng)計(jì)分析, 如圖9、圖10 所示。
從圖9、圖10 可以看出, 兩事件所涉及的交互行為用戶整體比例均呈現(xiàn)“頭重腳輕” 或者兩邊高中間低的形狀, 即絕大多數(shù)用戶要么粉絲數(shù)小于等于100, 要么大于1 000, 很少有粉絲數(shù)處于中間位置的用戶。
但兩事件所涉及的交互行為用戶還存在一定的差別, 一方面在于粉絲數(shù)在1~100 之間的用戶中,事件一的點(diǎn)贊用戶最多, 評(píng)論和轉(zhuǎn)發(fā)的用戶幾乎相同, 而事件二粉絲數(shù)在這個(gè)區(qū)間的用戶從高到低分別是點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā); 另一方面在于粉絲數(shù)大于1 000的用戶的分布, 事件一和事件二中的粉絲數(shù)小于等于100 的用戶占比從高到低分別是點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā), 大于1 000的用戶分布則與其完全相反。
由此可見(jiàn), 對(duì)自然災(zāi)害類突發(fā)事件產(chǎn)生交互行為的用戶, 甚至新浪微博中的絕大多數(shù)的用戶, 粉絲量都較少; 公共衛(wèi)生類突發(fā)事件的衍生事件由于沒(méi)有受到足夠多用戶的關(guān)注, 導(dǎo)致粉絲質(zhì)量參差不齊。
4) 用戶屬性—交互行為相關(guān)性分析
在廣大用戶群體中, 部分用戶不屑于填寫(xiě)一些非必要信息, 昵稱和個(gè)人簡(jiǎn)介是可能重復(fù)的文字信息, 并且若干官方媒體是一個(gè)集體而非個(gè)人, 因此, 不便于作為獨(dú)有的特征進(jìn)行分析, 不將昵稱和個(gè)人簡(jiǎn)介作為用戶屬性繼續(xù)進(jìn)行后續(xù)的分析。由于微博平臺(tái)數(shù)據(jù)采集的局限性, 是否與博主互粉等屬性數(shù)據(jù)難以采集, 且事件話題下存在多條微博, 與某位博主互粉對(duì)整體事件互動(dòng)行為研究影響較小,故不將互粉作為用戶屬性納入后續(xù)分析。最后, 選擇剩余的有效屬性, 考慮交互行為內(nèi)部有3 種類型的區(qū)別, 按照對(duì)微博的貢獻(xiàn)程度, 將3 種行為按照點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)的順序分別打上標(biāo)簽, 同時(shí)不包括隨機(jī)選擇的未對(duì)話題微博做出任何交互行為的用戶, 此時(shí)得到的用戶屬性與3 種行為種類的相關(guān)性如表3 所示。
根據(jù)表3可以看出, 注冊(cè)時(shí)間均與兩事件的交互行為類型沒(méi)有顯著相關(guān), 而其余用戶屬性均與交互行為類型呈現(xiàn)顯著相關(guān)。具體表現(xiàn)為, 在兩類事件中, 性別與行為類別呈負(fù)相關(guān), 即男生更容易做出偏轉(zhuǎn)發(fā)等傳播信息的行為, 而非通過(guò)點(diǎn)贊去傳播一條突發(fā)事件信息。關(guān)注數(shù)、粉絲數(shù)和微博數(shù)越多, 說(shuō)明用戶更容易做出對(duì)原微博貢獻(xiàn)率大的行為, 即傳播這一突發(fā)事件信息的概率越高。此外,與事發(fā)地距離越近、人均GDP 數(shù)字越大, 越容易傳播信息。因此, 本研究將前6 個(gè)屬性作為用戶行為預(yù)測(cè)的備選特征。
2.4.2用戶興趣傾向分析
已有文獻(xiàn)研究表明, 用戶興趣與其做出的交互行為間存在一定聯(lián)系。席林娜等[11] 在基于計(jì)劃行為的微博用戶行為預(yù)測(cè)研究中指出, 用戶興趣是影響其轉(zhuǎn)發(fā)行為的因素之一, 陳姝等[12] 研究得出,微博文本與用戶興趣的語(yǔ)義相似度對(duì)用戶轉(zhuǎn)發(fā)行為影響顯著。趙丹等[13] 研究得出, 新媒體環(huán)境下的網(wǎng)絡(luò)輿情傳播在一定程度上符合興趣驅(qū)動(dòng)、興趣衰減及周期性規(guī)律。考慮到用戶歷史文本內(nèi)容所表現(xiàn)出的興趣往往根據(jù)外界環(huán)境與自身情況的不同而變化, 而突發(fā)事件類的微博傾向于陳述客觀事實(shí)和真實(shí)情況, 因此, 本文不考慮用戶歷史發(fā)表的文字信息與突發(fā)事件發(fā)博用戶歷史發(fā)表微博內(nèi)容之間的相似程度, 而是考慮用戶長(zhǎng)期穩(wěn)定關(guān)注的領(lǐng)域來(lái)體現(xiàn)用戶興趣, 在微博的用戶信息中表現(xiàn)為“標(biāo)簽”。相關(guān)研究表明, 背景信息代表了用戶的整體偏好,穩(wěn)定且不易改變[14] , 且通過(guò)分析用戶填寫(xiě)個(gè)人信息的行為特點(diǎn)與內(nèi)容分布規(guī)律, 發(fā)現(xiàn)背景信息可以直觀體現(xiàn)用戶興趣偏好[15-16] 。
在對(duì)標(biāo)簽進(jìn)行采集和預(yù)處理后, 本文采用LDA(Latent Dirichlet Allocation)算法對(duì)填寫(xiě)了標(biāo)簽數(shù)據(jù)的用戶進(jìn)行興趣主題的聚類, 采用困惑度作為選擇最優(yōu)主題的評(píng)價(jià)標(biāo)準(zhǔn), 經(jīng)過(guò)計(jì)算和實(shí)驗(yàn)發(fā)現(xiàn), 確定5 個(gè)主題類別當(dāng)作用戶興趣的指標(biāo), 得到每個(gè)用戶標(biāo)簽屬于某類主題的概率及主題下包含的關(guān)鍵詞,其分類結(jié)果如表4 所示。
2.5特征選取與計(jì)算
根據(jù)文獻(xiàn)梳理以及用戶屬性統(tǒng)計(jì)分析, 突發(fā)事件用戶3 種交互行為的影響因素即預(yù)測(cè)模型的特征指標(biāo)如表5 所示。
其中, 地域計(jì)算公式中α 和β 分別為地理距離和人均GDP的權(quán)重, 活躍度計(jì)算公式中θ 和γ 分別是被關(guān)注數(shù)和發(fā)微博數(shù)的權(quán)重。
3實(shí)驗(yàn)及其結(jié)果分析
3.1數(shù)據(jù)處理
針對(duì)2.3所示的兩類事件中做出交互行為的用戶數(shù)據(jù)集進(jìn)行處理, 其中事件一做出行為用戶總量為50 659, 事件二做出行為用戶總量為9084。
1)抽樣
由于不同類別的樣本量的比例差距較大, 如事件二中轉(zhuǎn)發(fā)數(shù)只有394, 而點(diǎn)贊數(shù)達(dá)到了8 077, 點(diǎn)贊用戶大約是轉(zhuǎn)發(fā)用戶量的20倍, 為了避免因?yàn)闃颖镜谋壤罹啻蠖鴮?dǎo)致分類效果差的可能性, 本文使用隨機(jī)欠抽樣方法多次調(diào)整樣本量的比例, 最終調(diào)至1∶14進(jìn)行預(yù)測(cè)。根據(jù)新浪微博提供的主頁(yè)信息, 可以獲得的用戶數(shù)據(jù)主要包括: 用戶昵稱、性別、個(gè)人簡(jiǎn)介、關(guān)注數(shù)、粉絲數(shù)、微博數(shù)、所在地、生日、注冊(cè)時(shí)間、標(biāo)簽。結(jié)合選取的特征, 對(duì)采集的數(shù)據(jù)進(jìn)行集成整理, 得到如圖11 的數(shù)據(jù)。
2) 標(biāo)準(zhǔn)化與權(quán)重分配
之后, 對(duì)集成數(shù)據(jù)進(jìn)行統(tǒng)一處理, 得到標(biāo)準(zhǔn)且可用的數(shù)據(jù), 具體處理方法主要包括數(shù)據(jù)標(biāo)準(zhǔn)化和權(quán)重計(jì)算兩部分。其中, 數(shù)據(jù)標(biāo)準(zhǔn)化采用log法,權(quán)重計(jì)算采用熵值法, 公式分別如式(1) ~ (3)所示。
對(duì)兩事件分別按照以上步驟進(jìn)行計(jì)算, 為了令其適應(yīng)全部的突發(fā)事件, 將結(jié)果進(jìn)行平均, 最終得到地域指標(biāo)及活躍度指標(biāo)的權(quán)重結(jié)果, 如表6所示。
3) 處理結(jié)果
將數(shù)據(jù)預(yù)處理后的兩個(gè)事件的用戶信息分別存儲(chǔ)在兩個(gè)表格文件內(nèi), 部分?jǐn)?shù)據(jù)組成如圖12所示。
3.2實(shí)驗(yàn)過(guò)程與設(shè)計(jì)
為保證模型效果評(píng)價(jià)的準(zhǔn)確性與科學(xué)性, 實(shí)驗(yàn)針對(duì)兩組突發(fā)事件分別進(jìn)行BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型與隨機(jī)森林模型的預(yù)測(cè), 根據(jù)模型中的用戶屬性來(lái)預(yù)測(cè)做出點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)3 種交互行為的類別。
在BP 神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)中, 輸入層為5 個(gè)節(jié)點(diǎn),分別是性別、影響力、活躍度、地域指數(shù)、興趣類別, 對(duì)應(yīng)數(shù)據(jù)中的第2、3、4、5、6 列, 輸出層為3, 分別為點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)這3 種行為種類, 對(duì)應(yīng)數(shù)據(jù)最后一列, 但在神經(jīng)網(wǎng)絡(luò)構(gòu)建時(shí)修改為100、101、001 代表用戶交互行為的3 個(gè)類別, 構(gòu)建出預(yù)測(cè)網(wǎng)絡(luò)。根據(jù)經(jīng)驗(yàn)公式算得初始單層隱藏層節(jié)點(diǎn)數(shù)設(shè)為23, 將學(xué)習(xí)率設(shè)為0.005, 最大迭代次數(shù)設(shè)為500, 隱藏層和輸出層的激活函數(shù)分布采用Tansig 和Logsig 函數(shù)。
在隨機(jī)森林實(shí)驗(yàn)中, 隨機(jī)抽?。福埃颖咀鳛橛?xùn)練集, 剩余樣本為測(cè)試集。使用RandomForest?Classifier 分類方法進(jìn)行分類, 為了避免3 類行為的樣本分布不平衡而對(duì)結(jié)果產(chǎn)生不利影響, 使用class_weight = ‘balanced 增加樣本少的類別的權(quán)重。同時(shí), 為了獲得效果最佳的模型, 采用網(wǎng)格搜索法進(jìn)行交叉驗(yàn)證來(lái)獲得最優(yōu)超參數(shù), 最終得到n_estimators為150, max_depth 為9 時(shí), 參數(shù)最優(yōu)。
由于樣本是隨機(jī)根據(jù)比例進(jìn)行選擇的, 每次實(shí)驗(yàn)所得結(jié)果略有差別, 故采用進(jìn)行多次實(shí)驗(yàn)取均值的方式得到預(yù)測(cè)結(jié)果, 最終根據(jù)公式計(jì)算得到兩個(gè)事件的精確率和宏平均的對(duì)比, 如表7 所示。
從表7 中可以看出, 兩種預(yù)測(cè)方法均具有不錯(cuò)的分類精度, 但從整體結(jié)果來(lái)看, BP 神經(jīng)網(wǎng)絡(luò)模型在兩類突發(fā)事件用戶行為中的預(yù)測(cè)結(jié)果略優(yōu)于隨機(jī)森林模型, 這是因?yàn)轭A(yù)處理后的特征值多為連續(xù)值而非離散值所導(dǎo)致的, 并且在實(shí)驗(yàn)中隨機(jī)森林交叉驗(yàn)證較為耗時(shí)。所以, 在同樣樣本量的情況下,本研究認(rèn)為BP 神經(jīng)網(wǎng)絡(luò)具有更好的泛化能力, 由訓(xùn)練數(shù)據(jù)集訓(xùn)練得到的預(yù)測(cè)模型也能很好地適應(yīng)測(cè)試數(shù)據(jù), 加之在未來(lái)隨著在線社交網(wǎng)絡(luò)用戶群體更加龐大, 預(yù)測(cè)數(shù)據(jù)量也將更大, 故認(rèn)為BP 神經(jīng)網(wǎng)絡(luò)是更適合的突發(fā)事件用戶交互行為預(yù)測(cè)的模型。
3.3實(shí)驗(yàn)結(jié)果分析
為了進(jìn)一步探究3種用戶傳播信息行為各自的預(yù)測(cè)情況, 本文基于BP 神經(jīng)網(wǎng)絡(luò)對(duì)用戶傳播信息行為類型具體預(yù)測(cè)結(jié)果進(jìn)行了分析, 結(jié)果如圖13、圖14 所示, 可以看出, 3 種行為預(yù)測(cè)結(jié)果略有差別: 事件一除轉(zhuǎn)發(fā)行為外, 其余行為的精確率和宏平均F1 值整體都略低于事件二的預(yù)測(cè)結(jié)果; 做出評(píng)論行為的用戶的預(yù)測(cè)結(jié)果較為平穩(wěn); 做出點(diǎn)贊和轉(zhuǎn)發(fā)行為的用戶的預(yù)測(cè)準(zhǔn)確率有所波動(dòng)。
事件一和事件二之間預(yù)測(cè)結(jié)果存在偏差的原因主要是事件類型與事件熱度的不同: 事件一屬于熱度高的自然災(zāi)害類事件, 做出3 種交互行為的用戶量大, 導(dǎo)致了參與預(yù)測(cè)的樣本量較大且不同用戶之間的特征差異?。?事件二屬于熱度較低的公共衛(wèi)生事件, 做出3 種行為的用戶之間的特征區(qū)別度較大,這兩個(gè)原因?qū)е铝藘深愂录脩羧后w的來(lái)源差異,因此, 事件一整體預(yù)測(cè)效果略差于事件二。
本文對(duì)兩類事件預(yù)測(cè)正確的和預(yù)測(cè)錯(cuò)誤的數(shù)據(jù)分別整合對(duì)比, 得到了不同交互行為的不同表現(xiàn),并且總結(jié)了其中的原因, 主要有以下幾點(diǎn):
3.3.1第一類事件的實(shí)驗(yàn)結(jié)果分析
1) 事件一的評(píng)論和轉(zhuǎn)發(fā)行為預(yù)測(cè)具有較好的效果, 而點(diǎn)贊行為的預(yù)測(cè)效果相對(duì)較差。經(jīng)分析發(fā)現(xiàn), 事件一話題在當(dāng)時(shí)一段時(shí)間內(nèi)熱度很高, 尤其是該話題曾經(jīng)位于“微博熱搜榜”, 各類用戶瀏覽到信息的可能性都比較高, 習(xí)慣于通過(guò)熱搜榜來(lái)關(guān)注熱點(diǎn)話題的用戶都為此貢獻(xiàn)了一定的點(diǎn)贊量。從用戶屬性—交互行為的統(tǒng)計(jì)分析結(jié)果也可以看出,其點(diǎn)贊用戶的地域分布較為平均, 表明來(lái)自全國(guó)各地的不同比例的用戶都對(duì)這一個(gè)事件做出了點(diǎn)贊行為, 并且由于北京既是事件突發(fā)地, 又屬于經(jīng)濟(jì)發(fā)達(dá)地區(qū), 導(dǎo)致地域指標(biāo)出現(xiàn)一定偏差, 進(jìn)而對(duì)結(jié)果產(chǎn)生了一定影響。
2) 對(duì)預(yù)測(cè)分類的結(jié)果進(jìn)行比較分析發(fā)現(xiàn), 評(píng)論與轉(zhuǎn)發(fā)行為預(yù)測(cè)錯(cuò)誤的原因可能在于部分評(píng)論用戶和轉(zhuǎn)發(fā)用戶存在重合的情況, 微博在評(píng)論時(shí)有“同時(shí)轉(zhuǎn)發(fā)” 的選項(xiàng)可以勾選, 在轉(zhuǎn)發(fā)時(shí)有“同時(shí)評(píng)論” 的選項(xiàng)可以勾選, 導(dǎo)致訓(xùn)練集中存在指標(biāo)完全重合的樣本, 最終導(dǎo)致測(cè)試集的評(píng)論和轉(zhuǎn)發(fā)數(shù)據(jù)中有部分用戶互相預(yù)測(cè)錯(cuò)誤。如用戶“今日黃村”實(shí)際做了評(píng)論行為, 但最終結(jié)果把其預(yù)測(cè)為做出轉(zhuǎn)發(fā)行為, 調(diào)查后發(fā)現(xiàn), 該賬號(hào)對(duì)話題微博的評(píng)論內(nèi)容為“轉(zhuǎn)發(fā)微博” 4 個(gè)字, 如圖15 所示, 說(shuō)明他并沒(méi)有對(duì)該話題產(chǎn)生有用的評(píng)論, 只是轉(zhuǎn)發(fā)時(shí)勾選了“同時(shí)評(píng)論” 的選項(xiàng)。
3.3.2第二類事件的實(shí)驗(yàn)結(jié)果分析
事件二點(diǎn)贊和評(píng)論行為預(yù)測(cè)具有較好的效果,而轉(zhuǎn)發(fā)行為的預(yù)測(cè)效果相對(duì)較差。經(jīng)分析發(fā)現(xiàn), 事件二做出轉(zhuǎn)發(fā)行為用戶中有很大一部分賬號(hào)用戶相對(duì)其他用戶屬性有些偏離, 如圖16 和圖17 所示,類似“襄陽(yáng)旅游” “襄陽(yáng)校園” 等賬號(hào), 日活躍量偏高且賬號(hào)之間的相似度較高, 其雖然對(duì)該突發(fā)事件的關(guān)注度及關(guān)聯(lián)度不高, 但存在抱團(tuán)“蹭熱度”“蹭流量” 的嫌疑, 導(dǎo)致事件二轉(zhuǎn)發(fā)用戶中多了一部分偏離模型的屬性, 進(jìn)而使得預(yù)測(cè)結(jié)果出現(xiàn)了一定的偏差。
3.3.3行為類別及其特征表現(xiàn)
對(duì)預(yù)測(cè)正確的各行為中的用戶屬性進(jìn)行對(duì)比,總結(jié)發(fā)現(xiàn), 在熱度高的自然災(zāi)害類事件和熱度低的公共衛(wèi)生類事件中預(yù)測(cè)正確的樣本中, 對(duì)突發(fā)事件做出傳播的各交互行為所具備的條件如表8 所示。
4結(jié)論與展望
本文對(duì)在線社交網(wǎng)絡(luò)中突發(fā)事件用戶行為提出一種預(yù)測(cè)模型, 基于文獻(xiàn)得出在突發(fā)事件中的用戶行為影響因素, 結(jié)合突發(fā)事件用戶行為統(tǒng)計(jì)分析所得出的結(jié)論, 根據(jù)用戶的特征屬性來(lái)預(yù)測(cè)可能做出點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)的信息傳播行為類別。為體現(xiàn)突發(fā)事件特殊性, 本文將性別和地域指標(biāo)(與突發(fā)事件事發(fā)地區(qū)的距離和人均GDP)、用戶活躍度(關(guān)注數(shù)和微博數(shù))和影響力(粉絲數(shù)), 以及興趣主題作為預(yù)測(cè)模型中的重要指標(biāo)。最終對(duì)兩個(gè)事件分別進(jìn)行了預(yù)測(cè)、結(jié)果評(píng)價(jià)以及結(jié)果分析, 實(shí)驗(yàn)結(jié)果顯示, BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)效果更優(yōu), 與類似研究和預(yù)測(cè)模型相比, 預(yù)測(cè)結(jié)果在兩個(gè)不同事件中均體現(xiàn)出較好的準(zhǔn)確性, 同時(shí)也驗(yàn)證了模型的有效性, 總結(jié)了突發(fā)事件中做出3 種交互行為的用戶屬性。
本研究的預(yù)測(cè)模型具有一定解釋意義與可行性,但仍存在局限。首先, 本文僅用兩個(gè)事件來(lái)說(shuō)明預(yù)測(cè)方法的可行性, 在統(tǒng)計(jì)學(xué)方面意義不足; 其次,由于微博平臺(tái)數(shù)據(jù)采集的局限性與不確定性, 模型包含的用戶屬性有限, 未考慮到用戶互粉、興趣真實(shí)性等情況。未來(lái)研究一方面可通過(guò)增加實(shí)證案例來(lái)提升統(tǒng)計(jì)學(xué)意義, 提升方法可行性信服度; 另一方面可以依靠更龐大的數(shù)據(jù)庫(kù), 完善數(shù)據(jù)處理層面, 增加預(yù)測(cè)過(guò)程中的特征變量, 從而實(shí)現(xiàn)更精準(zhǔn)的預(yù)測(cè)。