劉海鷗 劉旭 姚蘇梅 謝姝琳
摘 要:[目的/意義]在線社交用戶的信息行為對(duì)網(wǎng)絡(luò)輿論生態(tài)環(huán)境的構(gòu)建具有重要的指導(dǎo)意義。[方法/過(guò)程]借鑒“用戶畫(huà)像”的思想,提出了在線社交用戶輿情畫(huà)像的概念,圍繞人類動(dòng)力學(xué)研究視角構(gòu)建了在線社交用戶的輿情畫(huà)像模型,最后從輿情信息傳播的時(shí)間間隔分布、活躍度分布、時(shí)間間隔重標(biāo)度、交互熱度、陣發(fā)性和記憶性等方面對(duì)在線社交用戶信息傳播行為特征進(jìn)行了實(shí)證分析。[結(jié)果/結(jié)論]研究結(jié)果表明,在線社交用戶“輿情畫(huà)像”可全面揭示其網(wǎng)絡(luò)信息行為特征,實(shí)現(xiàn)對(duì)用戶基本信息與輿情傳播信息的有效收集、有效識(shí)別與定量分析,從而為網(wǎng)絡(luò)輿情生態(tài)環(huán)境的完善提供參考。
關(guān)鍵詞:輿情畫(huà)像;在線社交用戶;信息傳播
DOI:10.3969/j.issn.1008-0821.2019.09.007
〔中圖分類號(hào)〕G252.0 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2019)09-0064-10
Abstract:[Purpose/Significance]The information behavior of online social users has important guiding significance for the construction of the ecological environment of network public opinion.[Method/Process]Referring to the idea of“user portrait”,this paper proposed the concept of online social user's public opinion portrait,and constructed a public opinion portrait model of online social user from the perspective of human dynamics.Finally,we discussed the public opinion information dissemination from the distribution of time interval,activity,time interval rescale and interaction heat.[Result/Conclusion]The results showed that online social users' portraits of public opinion could fully reveal their behavior characteristics and quantitatively analyze the basic information of users and the information of public opinion dissemination,thus point out the direction for the development of the network public opinion ecological environment.
Key words:public opinion portrait;online social users;information dissemination
定量分析在線社交用戶的信息行為是認(rèn)識(shí)人類復(fù)雜行為特征的基礎(chǔ),其不僅可以直觀地體現(xiàn)網(wǎng)絡(luò)用戶偏好的主題領(lǐng)域、用戶情感強(qiáng)度與態(tài)度傾向,同時(shí)還有助于深入研究用戶的情感傾向與群體行為,為網(wǎng)絡(luò)輿情生態(tài)環(huán)境的構(gòu)建奠定基礎(chǔ)[1]。傳統(tǒng)用戶行為的研究多通過(guò)泊松分布進(jìn)行探討,將相關(guān)事件發(fā)生速率近似假設(shè)為一個(gè)常數(shù),即假定兩個(gè)相同行為相繼發(fā)生的時(shí)間間隔是指數(shù)分布的。在此基礎(chǔ)上,眾多學(xué)者致力于解釋社交用戶的復(fù)雜信息行為,如Barabási A L[2]基于優(yōu)先級(jí)的排隊(duì)決策過(guò)程解釋個(gè)體等待時(shí)間的胖尾現(xiàn)象;Vázquez A等[3]的社交用戶記憶性模型、Shang M S等[4]的社交用戶興趣驅(qū)動(dòng)模型、陽(yáng)長(zhǎng)征[5]的社交媒體用戶行為框架模型等也對(duì)人類復(fù)雜的行為特征在不同維度進(jìn)行了解釋。Wang P[6]對(duì)用戶論壇的發(fā)帖與回帖行為的規(guī)律性進(jìn)行了分析,發(fā)現(xiàn)了用戶論壇發(fā)帖間隔的時(shí)間特征,即同一用戶在天、小時(shí)和分鐘的時(shí)間尺度具有冪函數(shù)的特征。Kan A等[7]研究了用戶論壇行為規(guī)律,發(fā)現(xiàn)了用戶的發(fā)帖的時(shí)間特征,即時(shí)間間隔符合1.7的冪指數(shù)律。郭進(jìn)利[8]通過(guò)實(shí)證發(fā)現(xiàn)博文評(píng)論的時(shí)間間隔分布服從冪律分布,并在此基礎(chǔ)上構(gòu)建了人類興趣衰減的動(dòng)力學(xué)模型。何靜等[9]研究了群體和個(gè)體微博用戶的信息發(fā)布的時(shí)間間隔,并論證了轉(zhuǎn)發(fā)數(shù)與粉絲數(shù)量的相關(guān)關(guān)系。Song Y D等[10]從單一個(gè)體的角度挖掘了用戶在微博及博客平臺(tái)的行為數(shù)據(jù),得出人類在博客和微博上的時(shí)間間隔分別服從α=1.3和α=2.0冪律分布。Bao Y Y等[11]以粉絲數(shù)量最多的15位微博用戶為研究對(duì)象,發(fā)現(xiàn)個(gè)體水平上發(fā)布微博的行為表現(xiàn)出陣發(fā)性特征,時(shí)間間隔服從指數(shù)為1.4的冪律分布。Chun H等[12]分析了在線社交網(wǎng)絡(luò)Cyworld的用戶留言記錄,發(fā)現(xiàn)以36min和1天為界限,時(shí)間間隔呈現(xiàn)三段冪指數(shù)律:α=1.696、α=0.91和α=2.276。通過(guò)上述研究可以看出,在線社交行為已經(jīng)成為人類生活中非常重要的構(gòu)成部分,受網(wǎng)絡(luò)信息傳遞的影響,在線社交用戶信息行為的研究已成為網(wǎng)絡(luò)輿情領(lǐng)域不可回避的熱點(diǎn)問(wèn)題之一。
隨著社交網(wǎng)絡(luò)的興起,用戶社交平臺(tái)上的用戶活動(dòng)痕跡也化為數(shù)據(jù),成為描述用戶畫(huà)像的重要數(shù)據(jù)來(lái)源[13-14]。用戶畫(huà)像最早被定義為建立在“一系列真實(shí)數(shù)據(jù)上,可體現(xiàn)用戶行為、態(tài)度與習(xí)慣差異的目標(biāo)用戶模型”[15]。如國(guó)外學(xué)者Ravi L[16]、Sánchez P等[17]圍繞用戶的個(gè)人信息、興趣偏好以及搜索行為對(duì)用戶畫(huà)像模型進(jìn)行了刻畫(huà);我國(guó)學(xué)者張亞明[18]、王妍妍[19]、王慶等[20]、陳晶[21]、謝姝琳[22]、孫晶晶[23]建構(gòu)了各類用戶的行為畫(huà)像,以此揭示用戶的周期性行為與活動(dòng)規(guī)律,從而為全面分析網(wǎng)絡(luò)用戶的信息行為奠定了基礎(chǔ)。但是,當(dāng)前基于微博、論壇等多種社交平臺(tái)數(shù)據(jù)探討在線社交用戶畫(huà)像及其輿情信息行為的研究很少,只有少數(shù)相關(guān)文獻(xiàn)對(duì)微博/論壇/博客等社交平臺(tái)的發(fā)帖留言以及博文的評(píng)論互動(dòng)特征進(jìn)行了統(tǒng)計(jì)分析,但是僅從發(fā)帖和評(píng)論互動(dòng)的單一視角難以全面、真實(shí)有效地描繪社交平臺(tái)用戶行為特征。鑒于此,本文借鑒了“用戶畫(huà)像”思想,提出了在線社交用戶“輿情畫(huà)像”的概念,通過(guò)分析我國(guó)應(yīng)用最廣泛、傳播覆蓋最深入的社交平臺(tái)(騰訊QQ、新浪微博、人人網(wǎng)、天涯論壇)的用戶相關(guān)數(shù)據(jù),構(gòu)建基于網(wǎng)絡(luò)在線社交平臺(tái)的用戶輿情畫(huà)像概念模型,圍繞人力動(dòng)力學(xué)研究視角對(duì)在線社交用戶輿情信息行為特征進(jìn)行定量的實(shí)證分析,從而清晰地揭示在線社交用戶輿情信息傳播的規(guī)律,為完善我國(guó)網(wǎng)絡(luò)輿情生態(tài)環(huán)境提供參考。
1 在線社交用戶的輿情畫(huà)像
1.1 輿情畫(huà)像的提出
本文在研究過(guò)程中嘗試借鑒“用戶畫(huà)像”的思想,提出了在線社交用戶“輿情畫(huà)像”的理念,并從研究對(duì)象、畫(huà)像目標(biāo)、構(gòu)成要素、研究方法等方面與用戶畫(huà)像進(jìn)行了類比,具體見(jiàn)表1所示。
類比元素用戶畫(huà)像輿情畫(huà)像研究對(duì)象用戶在線社交用戶輿情信息傳播行為畫(huà)像目標(biāo)各類用戶人物原型(3~7個(gè))我國(guó)最為典型的社交平臺(tái)如新浪微博、騰訊QQ、天涯論壇和人人網(wǎng)上的若干個(gè)用戶構(gòu)成要素用戶的自然屬性、關(guān)系屬性、興趣屬性、能力屬性、行為屬性、信用屬性等在線社交用戶的基本屬性特征和信息行為特征(時(shí)間間隔分布、活躍度分布、時(shí)間間隔重標(biāo)度、交互周期、交互熱度、陣發(fā)性和記憶性等)研究方法采用定性與單標(biāo)簽建模的分析方法基于人類動(dòng)力學(xué)的定量分析方法其中,“在線社交用戶輿情信息傳播行為”是輿情畫(huà)像的研究對(duì)象,將之類比于用戶畫(huà)像研究中的“目標(biāo)用戶”;用戶畫(huà)像的研究目標(biāo)一般為各類用戶人物原型(3~7個(gè)),而本文將輿情畫(huà)像的研究目標(biāo)界定為“我國(guó)最為典型的社交平臺(tái)如新浪微博、騰訊QQ、天涯論壇和人人網(wǎng)上的若干個(gè)用戶”;在構(gòu)成要素方面,用戶畫(huà)像一般圍繞用戶的自然屬性、關(guān)系屬性、興趣屬性、能力屬性、行為屬性、信用屬性等展開(kāi)論述,本文結(jié)合在線社交用戶輿情信息傳播的特點(diǎn),將輿情畫(huà)像的構(gòu)成要素細(xì)分為社交用戶基本屬性特征和信息行為特征兩大方面,基本屬性特征主要涵蓋社交用戶年齡、性別、學(xué)歷、住所等自然數(shù)據(jù),信息行為特征主要基于人類動(dòng)力學(xué)視角探討在線社交用戶信息傳播的時(shí)間間隔分布、活躍度分布、時(shí)間間隔重標(biāo)度、交互周期、交互熱度、陣發(fā)性和記憶性等;在研究方法方面,目前的用戶畫(huà)像多采用定性與單標(biāo)簽建模的分析方法,因此難以對(duì)用戶畫(huà)像進(jìn)行細(xì)粒度的刻畫(huà),而本文的輿情畫(huà)像則通過(guò)抓取在線社交用戶的行為數(shù)據(jù)進(jìn)行多個(gè)指標(biāo)的人類動(dòng)力學(xué)定量分析,因此勾勒的“輿情畫(huà)像”粒度更為清晰。
由此,在線社交用戶信息傳播行為的“輿情畫(huà)像”具體步驟為:1)基于人類動(dòng)力學(xué)視角構(gòu)建在線社交用戶的“輿情畫(huà)像模型”,細(xì)分畫(huà)像的構(gòu)成維度;2)以我國(guó)最為典型的社交平臺(tái)如新浪微博、騰訊QQ、天涯論壇和人人網(wǎng)為例,獲取上述各個(gè)平臺(tái)每個(gè)用戶的ID、用戶登錄時(shí)間、用戶信息發(fā)布時(shí)間、用戶發(fā)帖數(shù)和回帖數(shù)、用戶粉絲數(shù)與關(guān)注數(shù)等個(gè)人基本特征數(shù)據(jù)和用戶信息行為數(shù)據(jù),對(duì)抓取的個(gè)人基本特征數(shù)據(jù)進(jìn)行了顯著性檢驗(yàn);3)通過(guò)人類動(dòng)力學(xué)計(jì)算方法進(jìn)行實(shí)證分析,勾勒出在線社交用戶輿情信息傳播的概況,并進(jìn)一步分析用戶的態(tài)度觀點(diǎn)傾向與群體行為特征。
1.2 在線社交用戶的輿情畫(huà)像模型
在構(gòu)建在線社交用戶輿情畫(huà)像時(shí),通常會(huì)使用高度精煉的特征標(biāo)識(shí)即標(biāo)簽來(lái)描繪用戶的基本屬性特征和在線行為特征,并基于此形成輿情畫(huà)像的輪廓,作為在線社交用戶的虛擬化代表,并從多個(gè)維度刻畫(huà)用戶輿情畫(huà)像模型。通常來(lái)說(shuō),獲取的用戶社交行為活動(dòng)數(shù)據(jù)越多,構(gòu)建的畫(huà)像特征越精準(zhǔn)。但由于網(wǎng)絡(luò)隱私保護(hù)和數(shù)據(jù)獲取成本,很難構(gòu)建完全匹配用戶特征的精確畫(huà)像模型。因此,數(shù)據(jù)獲取的過(guò)程需要考慮具體的使用情景。基于此,本文在獲取上述社交平臺(tái)的用戶信息及行為特征時(shí),主要抓取以下兩個(gè)維度的信息:一是用戶的基本特征數(shù)據(jù)如年齡、地址、性別、學(xué)歷、職業(yè);二是反應(yīng)用戶社交平臺(tái)的操作和使用行為,例如訪問(wèn)次數(shù)、點(diǎn)擊率、互動(dòng)評(píng)論、瀏覽時(shí)長(zhǎng)等。其中,用戶的基本特征數(shù)據(jù)包括賬號(hào)ID、網(wǎng)名、性別、學(xué)歷、職業(yè)、所在地、終端設(shè)備等,通過(guò)注冊(cè)社交平臺(tái)時(shí)提交的個(gè)人檔案頁(yè)(Profile Pages)獲取,這種方式成本較低且數(shù)據(jù)來(lái)源準(zhǔn)確。這些數(shù)據(jù)包含了社交用戶細(xì)粒度和高精確度的基本信息。而用戶的行為信息數(shù)據(jù)主要是平臺(tái)操作情況,包括用戶發(fā)布信息的內(nèi)容、發(fā)布時(shí)間、發(fā)布信息編號(hào)、以及獲得的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊數(shù)等數(shù)據(jù)。根據(jù)用戶的在線社交特性,本文基于上述兩大維度(基本信息及行為信息)構(gòu)建出在線社交用戶的輿情畫(huà)像概念模型,具體如圖1所示。
1.3 輿情畫(huà)像的數(shù)據(jù)來(lái)源與分析
本文實(shí)證數(shù)據(jù)主要來(lái)自新浪微博、騰訊QQ、天涯論壇、人人網(wǎng)等我國(guó)較為知名的社交平臺(tái)。對(duì)于每個(gè)用戶,本文收集了用戶ID、用戶登錄時(shí)間、用戶信息發(fā)布時(shí)間、用戶發(fā)帖數(shù)和回帖數(shù)、用戶粉絲數(shù)與關(guān)注數(shù)等;對(duì)每條信息,收集了信息ID、信息被轉(zhuǎn)發(fā)和評(píng)論的時(shí)間、信息的轉(zhuǎn)發(fā)數(shù)和評(píng)論數(shù)等;由此可通過(guò)唯一的信息ID對(duì)每條信息的傳播動(dòng)力學(xué)特征進(jìn)行分析,即通過(guò)追蹤用戶ID可探討在線社交用戶的信息傳播行為。其中,新浪微博是我國(guó)著名的微博社交平臺(tái),目前月活躍用戶3.92億,日活躍用戶1.72億。新浪微博每位用戶及其發(fā)布的信息均有唯一的ID標(biāo)識(shí)碼,本文以滾雪球抽樣的方法獲取了新浪微博的189 031條信息。QQ是由騰訊開(kāi)發(fā)的一款基于Internet的集體即時(shí)通信網(wǎng)絡(luò)信息交流工具,聊天成員因?yàn)槟撤N共同興趣與話題聚集起來(lái),是我國(guó)廣大網(wǎng)民網(wǎng)絡(luò)信息交流的重要工具。本文批量抓取QQ群中包括群名稱、群號(hào)、群人數(shù)、群主、地域、分類、標(biāo)簽、群簡(jiǎn)介等相關(guān)內(nèi)容,由此返XLS(X)/CSV/JSON結(jié)果文件,共獲得騰訊QQ群的94 692條記錄。天涯社區(qū)是一個(gè)在我國(guó)乃至全球都具有一定影響力的網(wǎng)絡(luò)社區(qū),每月覆蓋品質(zhì)用戶超過(guò)2億,共抓取到天涯社區(qū)用戶的41 158條記錄。作為中國(guó)領(lǐng)先的實(shí)名制社交網(wǎng)絡(luò)平臺(tái),人人網(wǎng)在用戶數(shù)量、頁(yè)面瀏覽量、訪問(wèn)次數(shù)和用戶花費(fèi)時(shí)長(zhǎng)等方面具有一定的優(yōu)勢(shì)。本文通過(guò)分析頁(yè)面http://s.xnimg.cn/a44177/allunivlist.js獲得了人人網(wǎng)高校數(shù)據(jù)的js文件,該文件中包含了人人網(wǎng)用戶所在國(guó)家、城市、學(xué)校、熱點(diǎn)話題等信息,由此共獲取了人人網(wǎng)用戶的247 416條記錄。獲取的每個(gè)數(shù)據(jù)集包含用戶的基本特征數(shù)據(jù)以及信息行為數(shù)據(jù),其中,用戶的基本特征數(shù)據(jù)主要包括ID、用戶名稱、性別、年齡、職業(yè)、所在地、終端設(shè)備等;行為信息數(shù)據(jù)主要包含用戶發(fā)布信息的特征值,如信息內(nèi)容概要、發(fā)布的時(shí)間、信息生成編號(hào)、獲得的評(píng)論與轉(zhuǎn)發(fā)和點(diǎn)贊數(shù)量等。并對(duì)獲取的數(shù)據(jù)進(jìn)行了顯著性檢驗(yàn),得到皮爾遜相關(guān)系數(shù)(簡(jiǎn)稱)以及統(tǒng)計(jì)量,具體如表2所示。
表2中的計(jì)算結(jié)果體現(xiàn)了不同社交用戶個(gè)人基本特征關(guān)于PCC、χ2統(tǒng)計(jì)量上與信息行為相關(guān)性的對(duì)比情況。如表1中星號(hào)(*)所示,χ2統(tǒng)計(jì)量的計(jì)算結(jié)果顯示,表1中的大多數(shù)個(gè)人基本特征通過(guò)了置信水平為95%時(shí)的顯著性檢驗(yàn)。但個(gè)人基本特征“用戶名”并沒(méi)有體現(xiàn)在表1中,這是因?yàn)椤坝脩裘眱H是一個(gè)體現(xiàn)社交用戶個(gè)性的符號(hào),其對(duì)用戶信息行為的影響基本可以忽略不計(jì)。其他的個(gè)人基本特征中,PCC的大小表明了用戶的基本信息特征和行為信息之間的線性相關(guān)關(guān)系的強(qiáng)弱程度。例如用戶的“地域”基本特征的統(tǒng)計(jì)值最高,由此說(shuō)明了活躍用戶的地理分布主要位于一線城市及發(fā)達(dá)地區(qū),這些地區(qū)的用戶數(shù)量要明顯高于其他地區(qū),并且附帶著較強(qiáng)的信息行為。這一現(xiàn)象的出現(xiàn)與我國(guó)的經(jīng)濟(jì)發(fā)展不均衡有關(guān),東部沿海、內(nèi)陸及西部地區(qū)的發(fā)展存在較大差異,導(dǎo)致發(fā)達(dá)地區(qū)的用戶量及活躍強(qiáng)度高于其他地區(qū),呈現(xiàn)出地理區(qū)位的不均衡特性。
2 在線社交用戶信息傳播特征統(tǒng)計(jì)分析
本部分主要借鑒了人類動(dòng)力學(xué)相關(guān)指標(biāo)如時(shí)間間隔分布、活躍程度分布、時(shí)間間隔重標(biāo)度、交互熱度分布、陣發(fā)性與記憶性等對(duì)在線社交用戶的信息行為特征進(jìn)行實(shí)證分析。
2.1 時(shí)間間隔分布
時(shí)間間隔是人類動(dòng)力學(xué)研究的核心統(tǒng)計(jì)量。是指某事件或者行為(如網(wǎng)絡(luò)購(gòu)物、社交互動(dòng)、網(wǎng)絡(luò)信息傳遞等)兩次發(fā)生期間的時(shí)間間隔。該統(tǒng)計(jì)量可用于度量用戶信息行為的發(fā)生頻率和周期,為理解其輿情信息行為的生成機(jī)制并分析其規(guī)律特征提供理論依據(jù)。圖2顯示了本文新浪微博、騰訊QQ、天涯論壇、人人網(wǎng)4個(gè)數(shù)據(jù)集中用戶信息交互的時(shí)間間隔分布,其中,QQ群的時(shí)間間隔是相鄰兩條對(duì)話的時(shí)間差,其他數(shù)據(jù)集的時(shí)間間隔為所討論話題下發(fā)布相鄰內(nèi)容的時(shí)間差。每個(gè)數(shù)據(jù)集的時(shí)間間隔均服從冪律分布,冪指數(shù)集中在1.57~1.99的范圍內(nèi),QQ群的圖像出現(xiàn)一個(gè)彎曲的頭部,但在超過(guò)一個(gè)數(shù)量級(jí)的部分服從指數(shù)為1.58的冪律分布。天涯論壇的冪指數(shù)為1.57,與QQ群非常接近,這是由于天涯論壇和QQ群“重內(nèi)容,輕關(guān)系”,1個(gè)話題或1條消息拋出后,具有相似經(jīng)歷的用戶會(huì)形成共鳴并產(chǎn)生互動(dòng)討論的熱情,用戶對(duì)于話題和信息的興趣由其本身引起,好友等熟人社交關(guān)系會(huì)帶來(lái)一定影響,但并不會(huì)產(chǎn)生爆發(fā)性的討論行為??梢钥闯觯诰€社交用戶信息交互過(guò)程中具有顯著的重尾分布特征,即信息出現(xiàn)爆發(fā)性的效應(yīng),短時(shí)期內(nèi)相同話題下聚集大量活躍用戶和海量相關(guān)信息行為,但只有極少數(shù)信息會(huì)在短時(shí)間內(nèi)形成爆發(fā)性特征。例如鹿晗表白關(guān)曉彤的微博“給大家介紹一下,這是我的女朋友@關(guān)曉彤”引起爆炸性的信息行為,一度導(dǎo)致新浪的服務(wù)器故障。
從圖2還可以看出,4個(gè)數(shù)據(jù)集的冪指數(shù)排列為人人網(wǎng)、新浪微博、QQ群、天涯論壇,本文從圖的有向性和使用意圖兩個(gè)維度給出解釋?;趫D的有向性視角,人人網(wǎng)的好友關(guān)系是雙向的,形成雙向圖,天涯論壇提供了“加好友”和“加關(guān)注”兩種選擇,好友關(guān)系可能是單向或雙向的,微博提供單向的好友關(guān)系,構(gòu)成單向圖,QQ群成員由于某種相同的特性聚集在一起。例如:在同一個(gè)班級(jí)、企業(yè),或同時(shí)學(xué)習(xí)一種知識(shí)等,群成員可能相互認(rèn)識(shí),也可能互不相識(shí),群中的好友關(guān)系很弱。好友關(guān)系可以形成信息的雙向傳播,進(jìn)而增強(qiáng)好友互動(dòng),好友之間發(fā)送信息頻率和活躍性增強(qiáng),促進(jìn)信息的傳播,而關(guān)注關(guān)系只能形成單向傳播,好友互動(dòng)性較弱,發(fā)布信息的頻率也較少,因而形成了如上的冪指數(shù)特征。基于使用意圖視角,用戶加入QQ群是為了獲取信息,這些信息與群組中的大部分人相關(guān),人們?cè)谖⒉┖腿巳司W(wǎng)上發(fā)布的信息大多與自身相關(guān),這類信息發(fā)布比較隨意,發(fā)生的頻率較大,而與群體相關(guān)的信息相對(duì)個(gè)人信息數(shù)量較少,而且發(fā)布的頻率也較小,因此QQ群的冪指數(shù)低于人人網(wǎng)和新浪微博的數(shù)據(jù)集。
2.2 活躍程度分布
不同的人發(fā)布信息的數(shù)量、頻率等均不相同,形成了每個(gè)人的網(wǎng)絡(luò)信息活動(dòng)強(qiáng)度,通過(guò)對(duì)活動(dòng)強(qiáng)度進(jìn)行標(biāo)量,可以對(duì)比不同活躍程度的個(gè)體并分析其對(duì)社交用戶信息行為的影響。本文利用在線社交活動(dòng)強(qiáng)度的研究方法來(lái)對(duì)比不同活躍程度的成員之間的差異。個(gè)體發(fā)布行為的活躍程度計(jì)算公式為Ai=ni/Ti。其中,ni表示個(gè)體發(fā)布信息的總量,TI表示發(fā)布第一條信息與最后一條信息相隔的時(shí)間,Ai表示個(gè)體的活躍程度。圖3表示4個(gè)數(shù)據(jù)集活躍程度的互補(bǔ)累積函數(shù)分布,計(jì)算公式為F(t)=P(t>A),表示活躍程度大于A的值出現(xiàn)概率的和。由圖3可以看出,活躍度高的個(gè)體所占總數(shù)的概率較少,活躍度低的個(gè)體占到整體的大部分比例。此外,活躍程度的分布非常廣泛,不同用戶的活躍程度相差較大,最高活躍程度的用戶與最低活躍程度的用戶之間相差3~7個(gè)數(shù)量級(jí),如人人網(wǎng)高低活躍度之間相差3個(gè)數(shù)量級(jí),QQ群相差7個(gè)多的數(shù)量級(jí)。以人人網(wǎng)為例,人人網(wǎng)的最高活躍程度集中在10-3~10-2之間,10-3~10-2部分的圖像呈現(xiàn)坡度非常陡峭的下降趨勢(shì),而且最大值明顯小于其他數(shù)據(jù)集的最高活躍程度。這是由于人人網(wǎng)用戶粘性減弱,在網(wǎng)站停留時(shí)間明顯減少,客戶不斷流失,人人網(wǎng)的活躍程度明顯低于用戶在微博上的活躍程度,人人網(wǎng)的一份聲明也表明,其獨(dú)立用戶數(shù)相比之前減少了4 500萬(wàn),本文對(duì)新浪微博、天涯論壇和人人網(wǎng)近3個(gè)月的用戶訪問(wèn)情況對(duì)比也發(fā)現(xiàn),人人網(wǎng)的訪問(wèn)量明顯低于微博和天涯論壇,因此,提升吸引力、增加用戶粘性和活躍程度是人人網(wǎng)亟待解決的一項(xiàng)重要問(wèn)題。
2.3 時(shí)間間隔重標(biāo)度
為了進(jìn)一步研究在線社交用戶信息傳播時(shí)間間隔分布的潛在規(guī)律,本文對(duì)在線社交用戶信息傳播的時(shí)間間隔進(jìn)行重新標(biāo)度。本文通過(guò)公式t/〈t〉標(biāo)度在線社交用戶連續(xù)的兩個(gè)發(fā)布行為時(shí)間間隔,其中t為時(shí)間間隔,〈t〉為時(shí)間間隔的均值,本文將p(t)〈t〉視為t/〈t〉的函數(shù),以此來(lái)分析重新標(biāo)度后的效果,其中重標(biāo)度效果較好的幾組數(shù)據(jù)時(shí)間間隔分布如圖4所示。由圖4可以看出,重標(biāo)度后的圖像基本可以擬合為一條曲線F(t),且曲線F(t)與在線社交用戶信息傳播行為的時(shí)間間隔均值是相互獨(dú)立的,這表明時(shí)間間隔服從函數(shù)p(t)=(1/〈t〉)F(t/〈t〉),從而揭示了在線社交用戶的信息傳播行為具有某種相似的潛在機(jī)制。例如在社交用戶的信息傳播過(guò)程中,活躍程度越大的用戶,信息傳播的時(shí)間間隔越窄。QQ群和天涯論壇的圖像類似,在上方均存在一些散亂的點(diǎn),這是由于數(shù)據(jù)集對(duì)內(nèi)容和關(guān)系的側(cè)重程度不同造成的,新浪微博和人人網(wǎng)更重視關(guān)系,QQ群和天涯論壇更側(cè)重于內(nèi)容,這些散亂的點(diǎn)是經(jīng)常處于沉默狀態(tài)的個(gè)體,遇到困難或其他需要幫助的情況下,在一段時(shí)間內(nèi)出現(xiàn)爆發(fā)性發(fā)言形成的。
2.4 交互熱度分布
信息交互熱度對(duì)在線社交用戶的信息行為具有重要影響[24]。在線社交用戶信息交互熱度的計(jì)算方法為:Pi=Ni/Ti。其中,Ni表示對(duì)在線社交用戶對(duì)某一話題討論的信息總量,Ti表示某一話題交互周期的長(zhǎng)短,兩者的比值就表示在線社交用戶信息交互的熱度。鑒于QQ群中用戶的討論內(nèi)容較為隨意,話題的聚焦性不是很強(qiáng),因此難以對(duì)其討論信息進(jìn)行界定,故不對(duì)QQ群的話題交互熱度進(jìn)行討論。本文在線社交用戶交互熱度分布具體如圖5所示。從圖中可以看出,不同話題中最高與最低的交互熱度相差5個(gè)左右的數(shù)量級(jí)??梢钥闯?,天涯論壇用戶信息交互熱度的分布與其他幾個(gè)社交平臺(tái)存在較大的差異,其交互熱度強(qiáng)的話題所占平臺(tái)發(fā)布的總話題數(shù)量的概率相對(duì)較高,這說(shuō)明論壇是引起話題熱度討論的主要聚集地之一。例如天涯論壇中某位名人2018年5月發(fā)表了一篇關(guān)于某熱播劇話題內(nèi)容的帖子,截至6月份共獲得了3000+的回復(fù)和評(píng)論,但是在6月份則僅有很少的回復(fù)和評(píng)論數(shù)量。由此可以看出,網(wǎng)絡(luò)用戶一開(kāi)始對(duì)這個(gè)熱播劇的話題具有較高的熱度,但隨著時(shí)間的推移,用戶的興趣慢慢變小,討論的數(shù)量也急劇下降,直至最后完全喪失了關(guān)注的興趣,此時(shí)論壇用戶的交互熱點(diǎn)降至最低。
2.5 陣發(fā)性和記憶性
陣發(fā)性和記憶性是衡量人類網(wǎng)絡(luò)信息行為的兩個(gè)重要指標(biāo)。其中,陣發(fā)性是指人類行為在時(shí)間間隔服從冪律分布時(shí)所出現(xiàn)的短時(shí)間內(nèi)的信息密集爆發(fā)和長(zhǎng)時(shí)間的網(wǎng)絡(luò)靜默現(xiàn)象,其計(jì)算方法為:B=(σt-mt)/(σt+mt)。式中B表示在線社交用戶信息行為的陣發(fā)性,其取值范圍為(-1,1),B的值越趨近于-1,表示在線社交用戶信息行為的周期性越強(qiáng);數(shù)值越接近于1,在線社交用戶信息行為的陣發(fā)性則越明顯。記憶性是指一個(gè)長(zhǎng)時(shí)間間隔后出現(xiàn)較長(zhǎng)的時(shí)間間隔現(xiàn)象,或者一個(gè)短時(shí)間間隔后跟著的另一個(gè)短時(shí)間間隔的現(xiàn)象,即該行為發(fā)生的時(shí)間序列具有一定的可記憶性。記憶性的計(jì)算方法為:M=(1/Nt-1)·∑Nt-1((ti-m1)(ti+1-m2)/σ1σ2)。其中,M表示人類行為的記憶性,Nt表示人類行為時(shí)間間隔的總數(shù);按照發(fā)生時(shí)間排序,信息行為的時(shí)間間隔可分為序列1和序列2,序列1由前N-1個(gè)元素構(gòu)成,序列2由后N-1個(gè)元素構(gòu)成;σ1和σ2分別表示序列1和序列2的標(biāo)準(zhǔn)差,而m1、m2則分別表示序列1和序列2的均值。記憶性M的取值范圍也為(-1,1),M的值越趨近于1,表示在線社交用戶信息行為的記憶性越強(qiáng);M的值越趨近于-1,則表示用戶信息行為的反記憶性越強(qiáng)。計(jì)算每個(gè)個(gè)體的陣發(fā)性和記憶性的值,圖6表示陣發(fā)性與記憶性的二維投影,4個(gè)數(shù)據(jù)集的B值集中在正值,表現(xiàn)出強(qiáng)陣發(fā)性,M值較為分散,表現(xiàn)出弱記憶性,發(fā)布行為具有不可測(cè)性,與電子郵件發(fā)送、圖書(shū)借閱和手機(jī)通訊記錄相類似,在線社交用戶的信息傳播行為呈現(xiàn)“強(qiáng)陣發(fā)弱記憶”的特征。如以人人網(wǎng)為例,人人網(wǎng)最初名為“校內(nèi)網(wǎng)”,主要的用戶群體聚焦于高校大學(xué)生。雖然校內(nèi)網(wǎng)后來(lái)更名為人人網(wǎng),在用戶群體上也跨出了校園內(nèi)部這個(gè)范圍,但是絕大多數(shù)的在線人群依然為高校大學(xué)生群體。而對(duì)高校大學(xué)生來(lái)說(shuō),其網(wǎng)絡(luò)活動(dòng)具有明顯的階段性特征:在臨近考試周的時(shí)候,其網(wǎng)上活躍度會(huì)明顯下降;在臨近放假階段,其網(wǎng)上活躍度將持續(xù)攀升;而在真正的放假期間,由于家庭、社會(huì)等因素的干擾,校內(nèi)網(wǎng)絡(luò)活動(dòng)的活躍度逐漸下降至冰點(diǎn),甚至可能為0;在假期結(jié)束面臨開(kāi)學(xué)時(shí),學(xué)生又會(huì)重新回到到專屬于他們的校內(nèi)平臺(tái),關(guān)注于與校園生活相關(guān)的興趣話題中,因此,人人網(wǎng)用戶的網(wǎng)絡(luò)信息活動(dòng)具有明顯的強(qiáng)陣發(fā)性和弱記憶性。
3 結(jié) 語(yǔ)
在線社交用戶的信息傳播行為的研究對(duì)完善網(wǎng)絡(luò)輿情生態(tài)環(huán)境具有重要意義,輿情畫(huà)像可以充分挖掘在線社交網(wǎng)絡(luò)數(shù)據(jù)并抽象出用戶群體的典型特征,進(jìn)而提煉出不同類型用戶群體的行為標(biāo)簽,洞悉其情感強(qiáng)度與態(tài)度傾向,最終用于網(wǎng)絡(luò)輿情的治理。本文提出了在線社交用戶輿情畫(huà)像的理念,通過(guò)對(duì)微博、QQ群、天涯論壇、人人網(wǎng)等社交平臺(tái)的深入挖掘,構(gòu)建了在線社交用戶的輿情畫(huà)像模型,然后對(duì)其信息傳播行為的時(shí)間統(tǒng)計(jì)特征進(jìn)行了實(shí)證分析。本文貢獻(xiàn)主要包括如下兩個(gè)方面:1)借鑒“用戶畫(huà)像”的思想,提出了在線社交用戶輿情畫(huà)像的概念,并從研究對(duì)象、畫(huà)像目標(biāo)、構(gòu)成要素、研究方法多個(gè)維度與用戶畫(huà)像進(jìn)行了類比,由此構(gòu)建了在線社交用戶的輿情畫(huà)像模型?!拜浨楫?huà)像”在微觀層面對(duì)用戶的基本信息與傳播行為信息進(jìn)行了有效的收集、識(shí)別與標(biāo)簽化管理,有利于深入揭示其信息傳播行為特征,從而為完善網(wǎng)絡(luò)輿情生態(tài)環(huán)境奠定了基礎(chǔ)。2)基于輿情畫(huà)像模型,從時(shí)間間隔分布、活躍度分布、時(shí)間間隔重標(biāo)度、交互周期、交互熱度、陣發(fā)性和記憶性等方面對(duì)在線社交用戶信息傳播行為的時(shí)間統(tǒng)計(jì)特征進(jìn)行了實(shí)證分析。研究結(jié)果表明,在線社交用戶信息傳
播的時(shí)間間隔服從重尾分布,其活躍程度的分布非常廣泛,不同用戶的活躍程度相差較大;而時(shí)間間隔的重新標(biāo)度方法則在一定程度上消除了不同活躍程度個(gè)體所造成的影響,揭示了用戶在線社交行為具有某種相似的潛在機(jī)制;此外,本文在線社交用戶的信息交互周期與熱度分布的實(shí)驗(yàn)結(jié)果還表明,論壇社區(qū)中交互周期長(zhǎng)、熱度強(qiáng)的話題所占平臺(tái)發(fā)布的總話題數(shù)量的概率相對(duì)較高;而人人網(wǎng)用戶則呈現(xiàn)出較明顯的“強(qiáng)陣發(fā)弱記憶”特征。上述研究成果的取得在宏觀層面有助于構(gòu)建在線社交網(wǎng)絡(luò)輿情信息資源庫(kù),強(qiáng)化對(duì)輿情話題的及時(shí)追蹤與有效治理,從而建立多元化的網(wǎng)絡(luò)輿情應(yīng)對(duì)機(jī)制。
需要指出的是,本研究主要從人類動(dòng)力學(xué)的視角對(duì)其輿情信息傳播特征進(jìn)行分析,由此構(gòu)建的在線社交用戶輿情畫(huà)像還不夠細(xì)致、全面,且海量數(shù)據(jù)環(huán)境下不同社會(huì)化媒體平臺(tái)對(duì)網(wǎng)絡(luò)輿情熱度的影響存在一定的差異[25-26]。擬在今后的研究中進(jìn)一步考慮與社交用戶信息傳播行為需求相關(guān)的多維度因素,構(gòu)制完整的描述性標(biāo)簽體系,以此勾勒全面的在線社交用戶的輿情畫(huà)像,深入探討不同在線社交平臺(tái)用戶的信息傳播行為差異。
參考文獻(xiàn)
[1]張鵬,崔彥琛,蘭月新,等.基于扎根理論與詞典構(gòu)建的微博突發(fā)事件情感分析與輿情引導(dǎo)策略[J].現(xiàn)代情報(bào),2019,39(3):122-130.
[2]Barabási A L.The Origin of Bursts and Heavy Tails in Human Dynamics[J].Nature,2005,435:207-211.
[3]Vázquez A.Modeling Bursts and Heavy Tails in Human Dynamics[J].Physical Review E,2006,73(3):036127.
[4]Shang M S.Interest-Driven Model for Human Dynamics[J].Chinese Physics Letters,2010,27(4):048701.
[5]陽(yáng)長(zhǎng)征.社交網(wǎng)絡(luò)中危機(jī)信息時(shí)間距離對(duì)用戶行為框架的差異影響研究[J].情報(bào)理論與實(shí)踐,2019,42(5):67-72.
[6]Wang P.Heterogenous Scaling in the Inter-event Time of On-line Bookmarking[J].Physica A,2011,390(12):2395-2400.
[7]Kan A,Chan J.A Time Decoupling Approach for Studying Forum Dynamics[J].World Wide Web,2013,16(5-6):595-620.
[8]郭進(jìn)利.博客評(píng)論的人類行為動(dòng)力學(xué)實(shí)證研究和建模[J].計(jì)算機(jī)應(yīng)用研究,2011,28(4):1422-1424.
[9]何靜,郭進(jìn)利,徐雪娟.微博用戶行為統(tǒng)計(jì)特性及其動(dòng)力學(xué)分析[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013,(7/8):94-99.
[10]Song Y D,Zhang C,Wu M.The Study of Human Behavior Dynamics Based on Blogosphere[C]//Proceedings of the Web Information Systems and Mining(WISM),2010:87-91.
[11]Bao Y Y,Xin Z H.Human Activity Pattern on Microblogging Interaction[C]//Proceedings of the Information Management,Innovation Management and Industrial Engineering,2011:303-306.
[12]Chun H,Kwak H,Eom Y H,et al.Comparison of Online Social Relations in Volume vs Interaction:A Case Study of Cyworld[C]//Proceedings of the 8th ACM SIGCOMM Conference on Internet Measurement,2008:57-70.
[13]蘇妍嫄.國(guó)內(nèi)外用戶畫(huà)像研究綜述[J].情報(bào)理論與實(shí)踐,2018,41(11):155-160.
[14]張亞明.基于用戶畫(huà)像的圖書(shū)館大數(shù)據(jù)知識(shí)服務(wù)情境化推薦[J].圖書(shū)館學(xué)研究,2018,(12):16-20.
[15]孫晶晶.基于用戶畫(huà)像的旅游情境化推薦服務(wù)研究[J].情報(bào)理論與實(shí)踐,2018,41(10):87-92.
[16]Ravi L.A Collaborative Location Based Travel Recommendation System Through Enhanced Rating Prediction for the Group of Users[J].Computational Intelligence and Neuroscience,2016,(2):1291358.
[17]Sánchez P,Bellogín A.Building User Profiles Based on Sequences for Content and Collaborative Filtering[J].Information Processing and Management,2019,(56):192-211.
[18]張亞明.在線社交活動(dòng)中的用戶畫(huà)像及其信息傳播行為研究[J].情報(bào)科學(xué),2018,36(12):17-21.
[19]王妍妍.基于大數(shù)據(jù)深度畫(huà)像的個(gè)性化學(xué)習(xí)精準(zhǔn)服務(wù)模式[J].圖書(shū)館學(xué)研究,2019,(15):16-20.
[20]王慶,趙發(fā)珍.基于用戶畫(huà)像的圖書(shū)館資源推薦模式設(shè)計(jì)與分析[J].現(xiàn)代情報(bào),2018,38(3):105-109.
[21]陳晶.移動(dòng)數(shù)字圖書(shū)館用戶畫(huà)像模型及情境化推薦方法[J].圖書(shū)館,2019,(3):103-108.
[22]謝姝琳.面向情境化推薦服務(wù)的圖書(shū)館用戶畫(huà)像研究[J].圖書(shū)館學(xué)研究,2018,(10):29-35.
[23]孫晶晶.用戶畫(huà)像模型及其在圖書(shū)館領(lǐng)域中的應(yīng)用[J].圖書(shū)館理論與實(shí)踐,2018,41(7):98-101.
[24]林萍,解一涵,魏靜.信息傳播平臺(tái)對(duì)網(wǎng)絡(luò)輿情熱度的影響分析[J].現(xiàn)代情報(bào),2018,38(5):94-99.
[25]劉海鷗.面向云計(jì)算的大數(shù)據(jù)知識(shí)服務(wù)情景化推薦[J].圖書(shū)館建設(shè),2014,(7):31-35.
[26]唐雪梅,朱利麗.社會(huì)化媒體情緒化信息傳播研究的理論述評(píng)析[J].現(xiàn)代情報(bào),2019,39(3):115-121.
(責(zé)任編輯:陳 媛)