• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      H7N9疫情背景下的微博信息傳播特性研究

      2016-07-19 02:07:27劉寶立董榮勝蔡國永
      計算機應用與軟件 2016年6期
      關(guān)鍵詞:冪律博文寬度

      劉寶立 董榮勝 蔡國永

      (桂林電子科技大學廣西可信軟件重點實驗室 廣西 桂林 541004)

      ?

      H7N9疫情背景下的微博信息傳播特性研究

      劉寶立董榮勝蔡國永

      (桂林電子科技大學廣西可信軟件重點實驗室廣西 桂林 541004)

      摘要自主研制微博爬蟲系統(tǒng)WeiboCrawler。針對2013年3月爆發(fā)的甲型H7N9流感疫情,使用該系統(tǒng)抓取了新浪微博中與該主題相關(guān)的數(shù)據(jù)集,包括用戶信息、原創(chuàng)和轉(zhuǎn)發(fā)博文信息。以原創(chuàng)博文為根節(jié)點,基于轉(zhuǎn)發(fā)關(guān)系采用遞歸方法構(gòu)造博文轉(zhuǎn)發(fā)樹,為了嚴格、清晰地描述微博信息傳播過程,對博文轉(zhuǎn)發(fā)樹進行形式化定義,進而研究微博信息傳播過程及轉(zhuǎn)發(fā)樹的大小、深度、寬度等結(jié)構(gòu)特性。結(jié)果表明:博文轉(zhuǎn)發(fā)樹的結(jié)構(gòu)特性分布符合長尾分布,博文轉(zhuǎn)發(fā)樹具有深度小、密度大的結(jié)構(gòu)特性;博文流行程度取決于博文轉(zhuǎn)發(fā)樹的寬度,而與博文轉(zhuǎn)發(fā)樹的深度無關(guān);在博文轉(zhuǎn)發(fā)的不同階段,信息傳播表現(xiàn)出相似的傳播特性??紤]微博平臺信息傳播的特點以及博文轉(zhuǎn)發(fā)樹的結(jié)構(gòu)特性,結(jié)合Galton-Watson分支過程,給出一種新的信息流傳播模型,使用該模型對博文轉(zhuǎn)發(fā)樹的大小、深度、寬度三項結(jié)構(gòu)特性進行仿真,發(fā)現(xiàn)該模型能較準確地體現(xiàn)信息傳播的結(jié)構(gòu)特性。

      關(guān)鍵詞轉(zhuǎn)發(fā)信息傳播結(jié)構(gòu)特性社交網(wǎng)絡傳播模型

      0引言

      社交媒體作為傳播觀點和意見的重要平臺在近年來得到了巨大的發(fā)展,其中最具代表性的是微博客服務。微博客服務為信息傳播提供了一種獨特的方式,用戶在使用微博客推送消息時,消息受到字數(shù)限制。在新浪微博和twitter中,用戶推送的消息內(nèi)容不能超過140個字符,微博客用戶之間的關(guān)系無需一定是雙向關(guān)注關(guān)系,也就是說,如果用戶A關(guān)注了用戶B,無需用戶B也關(guān)注用戶A,用戶A的個人主頁中就會顯示用戶B發(fā)布的博文。新浪微博作為在中國大陸最受歡迎的社交媒體之一,自從2009年發(fā)布以來,積累了巨大的用戶群,截止到2013年12月,新浪微博的月活躍用戶(MAU)數(shù)量和日活躍用戶(DAU)數(shù)量分別達到了1.291億和6160萬[1]。如此巨大的用戶數(shù)量以及新浪微博本身便于信息傳播的特點,使得新浪微博中信息的傳播和共享達到了前所未有的高度。

      微博客服務具有用戶數(shù)量巨大、通信迅速和跨平臺等特性,這些特性使其迅速成為社會熱點事件期間信息傳播的重要媒介。對微博客服務中的信息傳播進行的研究有很多[2-5],但是有一個方面沒有得到應有的關(guān)注,即微博客平臺中信息傳播的結(jié)構(gòu)特性研究,也就是微博客服務中信息傳播的實際機制是怎樣的。

      社交媒體中的信息傳播具有一定的結(jié)構(gòu)特性,結(jié)構(gòu)特性指的是信息傳播的深度、廣度等特性,文獻[6]研究了網(wǎng)絡連鎖信中信息傳播的結(jié)構(gòu)特性。那么在微博客服務中,特別是在特定的應急事件背景下,信息傳播的結(jié)構(gòu)特性是怎樣的呢?若能構(gòu)建一種相應的信息傳播模型來對這些結(jié)構(gòu)特性進行仿真,顯然是具有價值的。研究信息傳播的結(jié)構(gòu)特性為信息傳播模型的設計提供了參考,也能夠為輿情監(jiān)控、應急事件響應提供有價值的信息。本文以2013年3月底中國大陸爆發(fā)的甲型H7N9流感疫情為主題背景。研究的微博數(shù)據(jù)集來源于新浪微博,包括與H7N9流感相關(guān)的原創(chuàng)微博數(shù)據(jù)、轉(zhuǎn)發(fā)微博數(shù)據(jù)以及所有的原創(chuàng)用戶和轉(zhuǎn)發(fā)用戶信息。為了研究微博信息傳播的結(jié)構(gòu)特性,基于微博轉(zhuǎn)發(fā)功能遞歸構(gòu)造了博文轉(zhuǎn)發(fā)樹,并對其進行了形式化定義。在此基礎上對微博信息傳播的過程和結(jié)構(gòu)特性進行了實證研究,研究發(fā)現(xiàn)博文轉(zhuǎn)發(fā)樹結(jié)構(gòu)特性表現(xiàn)為傳播寬度大、濃度密集;博文最終的流行程度取決于博文轉(zhuǎn)發(fā)樹的寬度,而與轉(zhuǎn)發(fā)樹的深度無關(guān)。以基本結(jié)構(gòu)特性分析為基礎,對博文轉(zhuǎn)發(fā)樹中不同層次的博文轉(zhuǎn)發(fā)進行了研究,發(fā)現(xiàn)信息傳播在不同的階段表現(xiàn)出了相似的傳播特性。以結(jié)構(gòu)特性研究為基礎,結(jié)合Galton-Watson分支過程構(gòu)建了一種新的信息傳播模型,使用該模型對博文轉(zhuǎn)發(fā)樹的結(jié)構(gòu)特性進行了仿真,得到了與實際情況較吻合的效果。

      1相關(guān)工作

      社交媒體中的信息傳播已經(jīng)成為了一個熱門的研究領域。Lerman等[7]對Twitter和Digg社交網(wǎng)絡上的信息傳播進行了實證分析發(fā)現(xiàn)了網(wǎng)絡結(jié)構(gòu)會影響信息流的傳播動力學特性,具體來說由于Digg相比于Twitter具有更濃密的網(wǎng)絡結(jié)構(gòu),因此Digg中信息傳播的速度更快,而Twitter中信息傳播的更遠;Suh等[8]對影響twitter博文轉(zhuǎn)發(fā)率的因素進行了研究,發(fā)現(xiàn)在博文的內(nèi)容特征方面,URLs和Hashtag與博文受到轉(zhuǎn)發(fā)具有很強的關(guān)系。

      微博客服務在近年來政治活動期間的信息傳播中扮演了重要的角色,其中最著名的例子是奧巴馬總統(tǒng)在2008年的選舉中成功的利用了社交媒體。有關(guān)這方面的研究工作也有很多,Stieglitz等[9]研究了Twitter中與政治相關(guān)的微博中的情感信息是否會影響其轉(zhuǎn)發(fā)速率;Starbird等[10]研究了2011年埃及政治起義期間微博信息傳播活動。

      應急事件期間的通信是非常重要的,近年來,微博客服務作為信息傳播的重要媒介,為各種應急事件期間的有效通信發(fā)揮了重要的作用。Li等[11]以2011年日本福島地震和海嘯后的核輻射危機為背景,研究了具有警告和安撫意味的相關(guān)微博轉(zhuǎn)發(fā)模式,發(fā)現(xiàn)當政府部門發(fā)布比普通民眾更多的具有安撫作用的微博后,那么政府部門發(fā)布的信息會慢慢失去影響力;有關(guān)地震災害期間網(wǎng)民如何使用社交媒體進行應急響應的研究包括[12,13];另外Mendoza等[14]探索了2011年智力發(fā)生地震后twitter用戶的行為,特別研究了真實消息和錯誤謠言的傳播情況。

      社交媒體信息傳播還包括另一個研究領域,也就是對建立信息傳播分析模型的研究。Galuba等[15]研究了Twitter中含有URL信息的傳播,并提出了使用LT(線性閾值模型)模型來對用戶會轉(zhuǎn)發(fā)哪些URL信息進行預測;Yang等[16]基于LT模型構(gòu)建了LIM(線性影響力模型)來預測信息傳播過程中節(jié)點之間的交互;Cha等[17]引進級聯(lián)模型研究Fickr社交網(wǎng)絡中信息的傳播。

      2數(shù)據(jù)獲取與說明

      本文的數(shù)據(jù)集是與2013年3月底中國大陸爆發(fā)的甲型H7N9流感相關(guān)的新浪微博數(shù)據(jù)。數(shù)據(jù)的獲取采用自主研制的微博爬蟲系統(tǒng)WeiboCrawler并結(jié)合新浪微博開放API完成,新浪微博提供開放的API,用戶可以在經(jīng)過新浪微博開放平臺認證的情況下獲得相應數(shù)據(jù)獲取權(quán)限,這一點與Twitter提供的API類似。

      微博爬蟲系統(tǒng)獲取數(shù)據(jù)的一個重要前提是微博的模擬登陸過程。新浪微博模擬登錄過程是WeiboCrawler與新浪微博服務器之間建立數(shù)據(jù)請求連接的前提。微博登錄過程中密碼加密采用的是RSA公鑰加密算法。具體加密過程如下:

      username_=urllib.quote(username)

      username=base64.encodestring(username)[:-1]

      rsaPublickey=int(pubkey, 16)

      key=rsa.PublicKey(rsaPublickey, 65537)

      message=str(servertime) +′ ′ +str(nonce) + ′ ′ +str(password)

      passwd=rsa.encrypt(message,key)

      passwd=binascii.b2a_hex(passwd)

      對用戶名和密碼進行加密,在建立請求連接時作為授權(quán)信息發(fā)送給服務器,獲取請求返回的內(nèi)容,從而實現(xiàn)了模擬登錄。

      圖1展示了WeiboCrawler系統(tǒng)的數(shù)據(jù)獲取流程。數(shù)據(jù)獲取流程分為三步:(1) 首先使用WeiboCrawler系統(tǒng)向新浪微博高級搜索頁面發(fā)送搜索請求,然后通過關(guān)鍵詞匹配找出與H7N9相關(guān)的所有原創(chuàng)博文頁面,接下來從頁面中提取出所有的原創(chuàng)博文ID;(2) 以上一步中得到的原創(chuàng)博文ID為線索,調(diào)用新浪微博API中的statuses/show()接口,通過該接口可以得到每一條原創(chuàng)博文信息及其對應的博主信息;接下來調(diào)用API中的statuses/repost_timeline()接口,以原創(chuàng)博文作為根節(jié)點,逐層遍歷當前博文的轉(zhuǎn)發(fā)博文及其用戶信息,同時提取博文間的轉(zhuǎn)發(fā)關(guān)系;(3) 最后調(diào)用friendships/show()接口獲取存在轉(zhuǎn)發(fā)關(guān)系的用戶之間的關(guān)系類型,并根據(jù)博文轉(zhuǎn)發(fā)關(guān)系構(gòu)建原創(chuàng)博文的轉(zhuǎn)發(fā)樹。

      圖1 數(shù)據(jù)獲取流程圖

      數(shù)據(jù)集合的描述性信息如表1所示。最終得到的數(shù)據(jù)集合包括52 679條原創(chuàng)博文、1 728 850條轉(zhuǎn)發(fā)博文,博文信息屬性包括博文ID、博文用戶ID、博文創(chuàng)建時間、文本信息、博文獲得的轉(zhuǎn)發(fā)次數(shù)以及評論次數(shù)等屬性;另外還包括1 314 778個用戶信息,用戶信息屬性包括ID、地理位置、帳號注冊時間、粉絲數(shù)量、好友數(shù)量以及發(fā)表的博文數(shù)量等屬性。

      表1 數(shù)據(jù)集合描述

      3博文轉(zhuǎn)發(fā)樹形式化定義

      本部分對博文轉(zhuǎn)發(fā)樹進行形式化定義。每一棵博文轉(zhuǎn)發(fā)樹都由某一條原創(chuàng)博文及其對應的轉(zhuǎn)發(fā)博文組成。首先給出博文的結(jié)構(gòu)定義,然后給出博文轉(zhuǎn)發(fā)樹的形式化定義。博文集合用TS表示,其中包括原創(chuàng)博文OT和轉(zhuǎn)發(fā)博文RT。博文轉(zhuǎn)發(fā)樹集合用TRTS表示(共有22 364棵博文轉(zhuǎn)發(fā)樹)。

      3.1博文結(jié)構(gòu)

      博文分為原創(chuàng)博文和轉(zhuǎn)發(fā)博文,下面分別對原創(chuàng)博文OT和轉(zhuǎn)發(fā)博文RT的結(jié)構(gòu)進行形式化定義:

      定義1

      OT=〈id,user,time,text,repostCount,commentCount〉

      其中:

      id表示原創(chuàng)博文的編號,每一條原創(chuàng)博文都有一條唯一的編號;

      user表示博文OT的博主;

      time為日期類型數(shù)值,表示OT創(chuàng)建的時間;

      text為文本類型數(shù)據(jù),表示OT的內(nèi)容;

      repostCount,表示博文OT被轉(zhuǎn)發(fā)的次數(shù);

      commentCount,表示博文OT獲得的評論次數(shù);

      定義2

      RT=〈st_id,id,user,time,text,repostCount,commentCount〉

      其中:

      st_id(sourcetweetid)表示與該轉(zhuǎn)發(fā)博文具有直接轉(zhuǎn)發(fā)關(guān)系的源博文(可能為轉(zhuǎn)發(fā)博文,也可能為原創(chuàng)博文)的編號;

      id表示該轉(zhuǎn)發(fā)博文的編號,每一條轉(zhuǎn)發(fā)博文都有一條唯一的編號;

      user表示博文RT的博主;

      time為日期類型數(shù)值,表示RT創(chuàng)建的時間;

      text為文本類型數(shù)據(jù),表示RT的內(nèi)容;

      repostCount表示博文RT被轉(zhuǎn)發(fā)的次數(shù);

      commentCount表示博文RT獲得的評論次數(shù);

      3.2博文轉(zhuǎn)發(fā)樹TRT

      為了研究信息傳播結(jié)構(gòu)特性,遞歸構(gòu)造每一條原創(chuàng)博文的博文轉(zhuǎn)發(fā)樹,該博文轉(zhuǎn)發(fā)樹是有向的并且屬于根樹,如圖2所示。樹的根節(jié)點(OT)表示原創(chuàng)博文,樹中的其他節(jié)點(RTi)表示該原創(chuàng)博文的所有轉(zhuǎn)發(fā)博文。

      圖2 博文轉(zhuǎn)發(fā)樹

      圖2是博文轉(zhuǎn)發(fā)樹的一個實例,其中:

      OT∈{OT|(OT∈TS)∧(OT.repostCount>0)}

      其中,RTi表示該原創(chuàng)博文的所有轉(zhuǎn)發(fā)博文,博文轉(zhuǎn)發(fā)樹有四個重要的結(jié)構(gòu)特性,即樹的大小(size)、樹的深度(depth)、樹的寬度(width)、樹的度(degree)。

      下面給出博文轉(zhuǎn)發(fā)樹TRT∈(TRTS)的形式化定義:

      定義3

      TRT=〈N,E,Ndegree,size,depth,level,Li_d,width,degree〉

      其中:

      N表示轉(zhuǎn)發(fā)樹中的節(jié)點,對應博文;

      E表示有向邊,對應轉(zhuǎn)發(fā)關(guān)系;

      Ndegree表示節(jié)點度,指的是節(jié)點具有的孩子數(shù)量,也就是某一條博文的直接轉(zhuǎn)發(fā)數(shù)量;

      size表示轉(zhuǎn)發(fā)樹的大小,對應轉(zhuǎn)發(fā)樹中的博文總數(shù),size=OT.repostCount+1;

      depth表示轉(zhuǎn)發(fā)樹的深度,指的是從根節(jié)點到葉子節(jié)點的最長路徑長度;

      level為博文轉(zhuǎn)發(fā)樹的層次,其中0≤level≤depth;

      Li_d指轉(zhuǎn)發(fā)樹的層次度,也就是轉(zhuǎn)發(fā)樹第i層節(jié)點度最大的節(jié)點的度;

      width表示轉(zhuǎn)發(fā)樹的寬度,寬度等于具有最多節(jié)點數(shù)量的那一層的節(jié)點數(shù)量和;

      degree表示轉(zhuǎn)發(fā)樹的度,指的是轉(zhuǎn)發(fā)樹中節(jié)點度最大的節(jié)點的度;

      由上述博文轉(zhuǎn)發(fā)樹的定義可知,圖2中的轉(zhuǎn)發(fā)樹的大小為9,樹的深度為3,樹的寬度為5,樹的度為3(節(jié)點RT1的節(jié)點度),RT1處于博文轉(zhuǎn)發(fā)樹的第1層,該博文轉(zhuǎn)發(fā)樹的第一層的層次度為3。

      4信息傳播結(jié)構(gòu)特性實證研究

      本部分對信息傳播的結(jié)構(gòu)特性進行實證研究,博文轉(zhuǎn)發(fā)樹提供了有關(guān)信息傳播的重要描述性信息,博文轉(zhuǎn)發(fā)樹的大小反映博文的受歡迎程度相關(guān);博文轉(zhuǎn)發(fā)樹的深度與博文的穿透力相關(guān);博文轉(zhuǎn)發(fā)樹的寬度與博文的擴散能力相關(guān);博文轉(zhuǎn)發(fā)樹度的分布反映轉(zhuǎn)發(fā)樹中的關(guān)鍵節(jié)點,因為一棵博文轉(zhuǎn)發(fā)樹的度指的是轉(zhuǎn)發(fā)樹中節(jié)點度最大的節(jié)點的度。

      H7N9數(shù)據(jù)集合中共包含22 364棵博文轉(zhuǎn)發(fā)樹(不考慮未被轉(zhuǎn)發(fā)的原創(chuàng)博文,也就是轉(zhuǎn)發(fā)次數(shù)為0的原創(chuàng)博文沒有考慮),每一棵轉(zhuǎn)發(fā)樹都可以被看作是一棵有向樹,信息從一個節(jié)點傳播到另一個節(jié)點。這里主要關(guān)注兩個問題:(1) 信息傳播過程的結(jié)構(gòu)特性有哪些?(2) 信息的傳播過程是否具有階段依賴性,即信息的傳播在轉(zhuǎn)發(fā)樹的不同層次中是否會表現(xiàn)出不同的特征?我們發(fā)現(xiàn),與文獻[6]中的寬度小、深度大的傳播樹型結(jié)構(gòu)特征相比,H7N9博文轉(zhuǎn)發(fā)樹呈現(xiàn)出密度大、深度小的特征;另外信息的傳播過程不具有階段依賴性。

      4.1博文轉(zhuǎn)發(fā)樹的結(jié)構(gòu)特性

      根據(jù)3.2節(jié)中對博文轉(zhuǎn)發(fā)樹的形式化定義,對博文轉(zhuǎn)發(fā)樹的大小、寬度、深度、度四項結(jié)構(gòu)特征屬性進行了統(tǒng)計分析。

      圖3-圖6分別顯示了博文轉(zhuǎn)發(fā)樹的大小、寬度、深度和度四項結(jié)構(gòu)特征屬性的分布情況。

      圖3 博文轉(zhuǎn)發(fā)樹大小分布  圖4 博文轉(zhuǎn)發(fā)樹寬度分布

      圖5 博文轉(zhuǎn)發(fā)樹深度分布  圖6 博文轉(zhuǎn)發(fā)樹度分布

      四項結(jié)構(gòu)特征屬性的統(tǒng)計公式依次為(說明:|A|表示集合A中元素的數(shù)量):

      (1)

      (2)

      (3)

      (4)

      其中,|TRTS|表示轉(zhuǎn)發(fā)樹集合的大小,對于任一點坐標(k,PTRT.size=k),其統(tǒng)計意義是(以式(1)為例):轉(zhuǎn)發(fā)樹大小為k的轉(zhuǎn)發(fā)樹在所有轉(zhuǎn)發(fā)樹中所占的比例。

      對數(shù)據(jù)進行了線性擬合,線性擬合采用的冪律分布函數(shù)為:p(X=x)=c·x-γ,其中c,γ∈R+,x∈N+,置信度設為95%。

      首先從四項特征屬性的分布情況可以看出其均具有長尾分布特征,這說明絕大多數(shù)的轉(zhuǎn)發(fā)樹的大小、寬度、深度、度都非常小,屬性值很大的轉(zhuǎn)發(fā)樹只占非常小的一部分。從圖3、圖4可以看出博文轉(zhuǎn)發(fā)樹的大小和寬度均服從冪律分布,冪律分布指數(shù)分別為1.447、1.507。冪律分布本身并沒有什么特別之處,但是這兩者的冪律指數(shù)很相似,這表明博文轉(zhuǎn)發(fā)樹的大小會隨著樹的寬度的變大而增大??梢詫涞膶挾瓤醋鰯U散系數(shù),將樹的大小用來衡量博文的受歡迎程度,那么可知擴散系數(shù)會影響博文最終的受歡迎程度,圖7很好地表明了博文轉(zhuǎn)發(fā)樹的這一特點。從圖8可以看出博文轉(zhuǎn)發(fā)樹的深度與博文轉(zhuǎn)發(fā)樹的大小無關(guān)。博文轉(zhuǎn)發(fā)樹具有的另一個特點是深度很小,在22 364棵博文轉(zhuǎn)發(fā)樹中,有77%的博文轉(zhuǎn)發(fā)樹的深度都不超過2。結(jié)合這四項結(jié)構(gòu)特征屬性分布可知,對于博文轉(zhuǎn)發(fā)樹集合中大小、寬度、度都很大的那一部分轉(zhuǎn)發(fā)樹來說,它們的深度很淺,這體現(xiàn)了博文轉(zhuǎn)發(fā)樹具有密度大的特點。大量的節(jié)點都聚集在樹的有限的幾個層次中,另外博文轉(zhuǎn)發(fā)樹深度小、密度大的特點也體現(xiàn)了微博平臺中信息傳播的有效性,即信息擴散到大量的節(jié)點后迅速消散衰減。

      圖7 博文轉(zhuǎn)發(fā)樹的大小與寬度的關(guān)系圖8 博文轉(zhuǎn)發(fā)樹的大小與深度的關(guān)系

      4.2信息傳播的階段無關(guān)特性

      在4.1節(jié)中對基本結(jié)構(gòu)特性研究的基礎上,本節(jié)研究信息傳播是否與傳播階段相關(guān),也就是在不同的階段,信息傳播過程是否會表現(xiàn)出不同的特性。圖9展示了博文轉(zhuǎn)發(fā)樹不同層次的層次度(即Li_d,某一層中節(jié)點度最大的節(jié)點的度)分布。由于大多數(shù)的博文轉(zhuǎn)發(fā)樹的深度都很小,因此只給出了博文轉(zhuǎn)發(fā)樹第0層(根節(jié)點所在的層次)到第3層的度分布情況。

      圖9 博文轉(zhuǎn)發(fā)樹的不同層次度分布

      對于任一點坐標(k,P(k|level=i)),統(tǒng)計公式如下:

      (5)

      其中i∈{0,1,2,3},概率P(k|level=i)表示具有第i層且該層層次度為k的轉(zhuǎn)發(fā)樹在所有的轉(zhuǎn)發(fā)樹中所占的比例。第0層到第3層的冪律分布指數(shù)依次為1.531、1.403、1.487和1.484。從圖9中首先可以看出具有大量孩子的節(jié)點很少會出現(xiàn)在樹的深層次中;另外由不同層次的冪律分布指數(shù)可知,隨著樹的層次的加深,冪律指數(shù)的分布并沒有太大的變化,這與文獻[18]中所提到隨著樹的深度的增加冪律指數(shù)分布會變得更加“陡峭”的現(xiàn)象不同,體現(xiàn)了該數(shù)據(jù)集中的微博信息傳播在不同的階段的傳播機制不會有太大的變化。我們認為導致這種現(xiàn)象的原因一方面是不同的社交平臺的機制不同,另一方面是由于H7N9疫情具有突發(fā)性的特點,這一特征可以為微博平臺中信息傳播預測模型的設計提供有價值的參考。

      5信息傳播仿真模型

      微博空間信息傳播過程構(gòu)成了博文轉(zhuǎn)發(fā)樹集合,博文轉(zhuǎn)發(fā)樹的結(jié)構(gòu)特性表現(xiàn)為深度小、密度大。結(jié)合信息傳播的網(wǎng)絡結(jié)構(gòu)特性和微博平臺信息傳播的特征,本部分構(gòu)建一個基于Galton-Watson[19]分支過程的新的信息傳播模型對博文轉(zhuǎn)發(fā)樹的結(jié)構(gòu)特性進行仿真。

      5.1模型構(gòu)建

      Galton-Watson分支過程是概率論中生成隨機樹的一個經(jīng)典模型,是隨機圖理論中的重要部分,它曾被成功地用來進行家族姓氏演變消亡過程的模擬[20]。家族姓氏演變消亡的過程與微博平臺信息傳播的過程具有很大的相似之處,一個家族中的男性控制著家族姓氏的演變消亡,而在微博平臺中信息的傳播依賴于轉(zhuǎn)發(fā)博文的用戶。因此選擇采用Galton-Watson過程來對微博信息傳播進行仿真。但微博平臺中的信息傳播與家族姓氏的演變存在一個關(guān)鍵的不同,在微博平臺中信息的傳播具有快速擴散、迅速消亡的特點,而家族姓氏演變消亡的過程則要慢得多??紤]到微博平臺信息傳播這一關(guān)鍵特性,在仿真模型中考慮在特定情況下結(jié)束信息擴散過程。

      綜合以上考慮,構(gòu)建如下信息傳播模型:

      (1) 設P(m)是關(guān)于一系列獨立同分布的固定概率;

      (2) 每一棵博文轉(zhuǎn)發(fā)樹TRT的形成起始于根節(jié)點,并以離散的步驟進行。在形成博文轉(zhuǎn)發(fā)樹的第i層時,第i層的每一個葉子節(jié)點按照概率P(m)獨立生成一定數(shù)量的孩子節(jié)點,即葉子節(jié)點具有m個孩子的概率為P(m);

      (3) 當m=0時,N是一個葉子節(jié)點,當m>0時,將節(jié)點N加入到博文轉(zhuǎn)發(fā)樹的第i+1層;

      (4) 引入一個信息傳播結(jié)束概率k,表示到達博文轉(zhuǎn)發(fā)樹第n層時信息結(jié)束傳播的概率,即博文轉(zhuǎn)發(fā)樹能夠到達第n層的概率pn如下:

      pn=k(1-k)n-1

      (6)

      由以上定義的模型可知,該模型包含兩個參數(shù):分布概率P和信息傳播結(jié)束概率k。對于分布概率P(m),使用最大似然估計法進行計算,設T(x)為該模型下生成博文轉(zhuǎn)發(fā)樹x的概率,f(m,x)為博文轉(zhuǎn)發(fā)樹x中具有m個孩子節(jié)點的節(jié)點數(shù)量,P(m)為博文轉(zhuǎn)發(fā)樹x中具有m個孩子節(jié)點的節(jié)點概率,則可得如下等式:

      T(x)=∏mP(m)f(m,x)

      (7)

      由式(7)有如下對數(shù)似然函數(shù):

      (8)

      根據(jù)最大似然估計法對P(m)求導得:

      (9)

      從式(9)可知P(m)等于博文轉(zhuǎn)發(fā)樹中具有m個孩子節(jié)點的節(jié)點比例。對于概率k,計算方法如下:將公式pn=k(1-k)n-1與博文轉(zhuǎn)發(fā)樹的深度分布進行擬合,擬合結(jié)果如圖10所示,得到k的值為0.46。

      圖10 博文轉(zhuǎn)發(fā)深度擬合

      5.2模型驗證

      根據(jù)5.1節(jié)中對信息傳播模型的定義,本部分對模型進行驗證。量化后的參數(shù)P(m)如表2所示,由于不同的孩子節(jié)點數(shù)量值較多,此處只給出占比例較大的部分。參數(shù)k的值為0.46。

      表2 參數(shù)P(m)

      將量化后的參數(shù)代入傳播模型進行仿真,得到生成的博文轉(zhuǎn)發(fā)樹結(jié)構(gòu)特性數(shù)據(jù)集合,共22 364棵博文轉(zhuǎn)發(fā)樹,仿真結(jié)果如圖11-圖13所示。

      圖11 博文轉(zhuǎn)發(fā)樹大小分布仿真結(jié)果圖12 博文轉(zhuǎn)發(fā)樹寬度分布仿真結(jié)果

      圖13 博文轉(zhuǎn)發(fā)樹深度分布仿真結(jié)果

      仿真實驗采用的是Matlab工具,從圖11-圖13可以看出博文轉(zhuǎn)發(fā)樹的大小、寬度和深度分布均服從冪律分布,在這里采用與4.1節(jié)部分同樣的方法對數(shù)據(jù)進行了線性擬合。線性擬合采用的冪律分布函數(shù)為:p(X=x)=c·x-γ,其中c,γ∈R+,x∈N+,置信度設為95%。仿真得到的博文轉(zhuǎn)發(fā)樹大小、寬度和深度冪律指數(shù)依次為1.412、1.464和3.640,這與真實博文轉(zhuǎn)發(fā)樹中的冪律指數(shù)(實際博文轉(zhuǎn)發(fā)樹大小、寬度、深度冪律指數(shù)依次為1.447、1.507和3.976)分布較為吻合,這說明該傳播模型能較準確的模擬真實的信息傳播情況。

      6結(jié)語

      本文以2013年3月底中國大陸爆發(fā)的甲型H7N9流感疫情為主題背景,微博數(shù)據(jù)集合來源于新浪微博,利用博文之間的轉(zhuǎn)發(fā)關(guān)系,構(gòu)造了每一條原創(chuàng)博文的博文轉(zhuǎn)發(fā)樹,分析了H7N9疫情期間新浪微博中信息傳播的結(jié)構(gòu)特性。對博文轉(zhuǎn)發(fā)樹的四項結(jié)構(gòu)特征屬性進行研究發(fā)現(xiàn)博文轉(zhuǎn)發(fā)樹具有密度大、深度小的結(jié)構(gòu)特性,博文最終的流行程度受博文轉(zhuǎn)發(fā)樹寬度的影響,微博信息傳播在不同的傳播階段表現(xiàn)出了相似的傳播特性。根據(jù)真實數(shù)據(jù)集合表現(xiàn)出的結(jié)構(gòu)特性,結(jié)合Galton-Watson分支過程構(gòu)建了一種新的微博信息傳播模型,使用該模型進行仿真得到的結(jié)果較準確地反映了信息傳播的結(jié)構(gòu)特性。這些發(fā)現(xiàn)能夠為微博平臺中信息傳播預測、輿情監(jiān)控引導和應急事件響應提供有價值的信息。

      參考文獻

      [1] 新浪微博關(guān)鍵數(shù)據(jù):月活躍用戶[EB/OL].http://tech.qq.com/a/20140315/004999.htm.

      [2]ZhengbiaoGuo,ZhitangLi,HaoTu.SinaMicroblog:AnInformation-drivenOnlineSocialNetwork[C]//InternationalConferenceonCyberworlds,2011:160-167.

      [3]DongWang,HosungPark,GaogangXie,etal.AGenealogyofInformationSpreadingonMicroblogs:aGalton-Watson-basedExplicativeModel[C]//ProceedingsofIEEEINFOCOM,2013:2391-2399.

      [4]EytanBakshy,ItamarRosenn,CameronMarlow,etal.TheRoleofSocialNetworksinInformationDiffusion[C]//Proceedingsofthe21stInternationalConferenceonWorldWideWeb,2012:519-528.

      [5]PengyiFan,PeiLi,ZhihongJiang,etal.MeasurementandAnalysisofTopologyandInformationPropagationonSina-Microblog[C]//IEEEInternationalConferenceonIntelligenceandSecurityInformatics,2011:396-401.

      [6]DavidLiben-Nowell,JonKleinberg.TracinginformationflowonaglobalscaleusingInternetchain-letterdata[J].ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,2008,105(12):4633-4638.

      [7]KristinaLerman,RumiGhosh.InformationContagion:AnEmpiricalStudyoftheSpreadofNewsonDiggandTwitterSocialNetworks[C]//ProceedingsoftheFourthInternationalAAAIConferenceonWeblogsandSocialMedia,2010:90-97.

      [8]BongwonSuh,LichanHong,PeterPirolli,etal.WanttobeRetweeted?LargeScaleAnalyticsonFactorsImpactingRetweetinTwitterNetwork[C]//IEEESecondInternationalConferenceonSocialComputing,2010:177-184.

      [9]StefanStieglitz,LinhDangxuan.PoliticalCommunicationandInfluencethroughMicroblogging-AnEmpiricalAnalysisofSentimentinTwitterMessagesandRetweetBehavior[C]//Proceedingsofthe45ndHawaiiInternationalConferenceonSystemSciences,2012:3500-3509.

      [10]KateStarbird,LeysiaPalen.(How)WilltheRevolutionbeRetweeted?InformationDiffusionandthe2011EgyptianUprising[C]//ProceedingsoftheACM2012conferenceonComputerSupportedCooperativeWork,2012:7-16.

      [11]JessicaLi,ArunVishwanath,HRaghavRao.RetweetingthefukushimanuclearRadiationDisaster[J].CommunicationsoftheACM,2014,57(1):78-85.

      [12]YanQu,PhilipFeiWu,XiaoqingWang.OnlineCommunityResponsetoMajorDisaster:AStudyofTianyaForuminthe2008SichuanEarthquake[C]//Proceedingsofthe42ndHawaiiInternationalConferenceonSystemSciences,2009:1-11.

      [13]YanQu,ChenHuang,PengyiZhang,etal.MicrobloggingafteraMajorDisasterinChina:ACaseStudyofthe2010YushuEarthquake[C]//ProceedingsoftheACM2011conferenceonComputersupportedcooperativework,2011:25-34.

      [14]MarceloMendoza,BarbaraPoblete,CarlosCastillo.TwitterUnderCrisis:CanwetrustwhatweRT?[C]//ProceedingsoftheFirstWorkshoponSocialMediaAnalytics,2010:71-79.

      [15]WojciechGaluba,KarlAberer,DipanjanChakraborty,ZoranDespotovic,WolfgangKellerer.OuttweetingtheTwitterers-PredictingInformationCascadesinMicroblogs[C]//Proceedingsof3rdWorkshoponOnlineSocialNetworks,2010:1-9.

      [16]JaewonYang,JureLeskovec.ModelingInformationDiffusioninImplicitNetworks[C]//IEEEInternationalConferenceonDataMining,2010:599-608.

      [17]MeeyoungCha,AlanMislove,KrishnaPGummadi.Ameasurement-drivenanalysisofinformationpropagationintheflickrsocialnetwork[C]//Proceedingsofthe18thinternationalconferenceonWorldwideweb,2009:721-730.

      [18]RaviKumar,MohammadMahdian,MaryMcGlohon.DynamicsofConversations[C]//Proceedingsofthe16thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,2010:553-556.

      [19]GaltonF,WatsonHW.Ontheprobabilityoftheextinctionoffamilies[J].InMendelianHeredity,AnnalofMathematicalStatistics,1944,4:385.

      [20]WilliamJReed,BarryDHughes.Onthedistributionoffamilynames[J].PhysicaAStatisticalMechanicsanditsApplications,2003,319(7):579-590.

      STUDY ON CHARACTERISTICS OF MICROBLOGGING INFORMATIONDISSEMINATIONUNDERH7N9FLUBACKGROUND

      Liu BaoliDong RongshengCai Guoyong

      (Guangxi Key Laboratory of Trusted Software,Guilin University of Electronic Technology,Guilin 541004,Guangxi,China)

      AbstractWe researched and developed the microblogging crawler system—WeiboCrawler independently. Aiming at the type A H7N9 flu epidemic broken out in March 2013, by using this system we captured the dataset correlated with this topic from Sina microblogging, including user information, original and forwarded microblogs information. Taking the original microblog as the root node, we constructed the microblogs forwarding tree (MFT) with recursion method based on forwarding relationship. To describe the process of information dissemination clearly and strictly, we gave the formal definition on the microblogs forwarding tree, and then studied the microblogging information dissemination process and the structural characteristics of MFT in size, depth and width, etc. Result showed that the distribution of MFT structural characteristics is in line with long-tailed distribution, the MFT has the characteristics of small depth and large density, the popularity of microblogs depends on the width of the MFT but has nothing to do with the depth of MFT. At different stages of microblogs forwarding, the information disseminations show similar characteristics. Considering the characteristics of information dissemination on microblogging platform and the structural characteristic of MFT, and combining the Galton-Watson branching process, we presented a new information flow dissemination model and simulated the three structural characteristics of MFT in size, depth and width with the model, we found that this model can quite accurately reflect the structural characteristics of information dissemination.

      KeywordsForwardingInformation disseminationStructural characteristicsSocial networksDissemination model

      收稿日期:2014-12-04。廣西自然科學基金項目(2011GXNSFA01 8156);廣西高等學校高水平創(chuàng)新團隊及卓越學者計劃;桂林電子科技大學創(chuàng)新團隊項目。劉寶立,碩士生,主研領域:社會計算,數(shù)據(jù)挖掘,形式化技術(shù)。董榮勝,教授。蔡國永,教授。

      中圖分類號TP391

      文獻標識碼A

      DOI:10.3969/j.issn.1000-386x.2016.06.075

      猜你喜歡
      冪律博文寬度
      第一次掙錢
      誰和誰好
      馬屁股的寬度
      四川地區(qū)降水冪律指數(shù)研究
      冪律流底泥的質(zhì)量輸移和流場
      Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
      紅細胞分布寬度與血栓的關(guān)系
      對抗冪律
      孩子成長中,對寬度的追求更重要
      人生十六七(2015年5期)2015-02-28 13:08:24
      打電話2
      夹江县| 湖北省| 淮安市| 汉川市| 岳阳县| 秦安县| 甘谷县| 定陶县| 鄂州市| 文昌市| 乐昌市| 金昌市| 成武县| 安乡县| 旅游| 鄂伦春自治旗| 镇远县| 阿拉尔市| 平塘县| 永济市| 呼图壁县| 宣汉县| 富顺县| 沾化县| 平和县| 隆昌县| 嘉鱼县| 佛坪县| 靖西县| 新丰县| 乳山市| 瑞安市| 崇仁县| 忻城县| 浦城县| 鄂尔多斯市| 苍南县| 乐平市| 蛟河市| 天祝| 诏安县|