黃偉 曹春萍
摘? 要: 隨著社交網(wǎng)絡(luò)的迅速發(fā)展,掌握信息傳播的規(guī)律,進(jìn)行信息傳播的管理越來越重要,而提取信息傳播特點(diǎn)和建立模型已經(jīng)成為研究熱點(diǎn)。傳統(tǒng)信息傳播模型并未考慮易感染者的類型以及時間網(wǎng)絡(luò)等行為因素,對信息傳播規(guī)律的研究不夠準(zhǔn)確。針對信息傳播及用戶行為的分析,改進(jìn)模型增加雙重易感染者、潛伏者等傳播個體和優(yōu)化傳播過程的微博網(wǎng)絡(luò)傳播算法(MDSLIR)。該算法使得用戶可以根據(jù)傳播方式及時獲取、傳播和免疫信息,從而更好對社交網(wǎng)絡(luò)信息進(jìn)行管理。以新浪微博為例,研究微博信息的演化規(guī)律,使用微博上的真實數(shù)據(jù)進(jìn)行仿真測試,并與傳統(tǒng)算法進(jìn)行比較,實驗結(jié)果表明MDSLIR算法的有效性和可行性。
關(guān)鍵詞: 微博;不完整閱讀;潛伏者;雙重易感染者;信息傳播
【Abstract】: With the rapid development of social networks, it is more and more important to master the law of information dissemination and the management of information dissemination. The extraction of information dissemination characteristics and model building has become a research hotspot. The traditional information dissemination model does not consider the types of vulnerable people and the behavioral factors such as time network, and the research on the law of information dissemination is not accurate enough. For the analysis of information dissemination and user behavior, the improved model increases the micro-blog network propagation algorithm (MDSLIR), which is a dual-susceptible person, a latent person, etc., and an optimized propagation process. The algorithm enables users to acquire, disseminate and immunize information in a timely manner according to the propagation mode, thereby better managing social network information. Taking Sina Weibo as an example, the evolution law of microblog information is studied. The real data on Weibo is used for simulation test and compared with traditional algorithms. The experimental results show the validity and feasibility of MDSLIR algorithm.
【Key words】: Microblog; Incomplete reading; Lurked; Double susceptible; Information propagation
0? 引言
近年OSN(Online Social Networks),如Face book、微博、微信、推特等,在Web 2.0的時代下,表現(xiàn)出非常迅速的發(fā)展趨勢[1]。以微博為代表的社交網(wǎng)絡(luò)平臺,隨著明星、網(wǎng)紅和媒體內(nèi)容的越來越深入人們生活,用戶使用頻率越來越高[2]。與傳統(tǒng)信息傳播相比,微博傳播渠道多樣信息豐富。此外,由于微博社交網(wǎng)絡(luò)結(jié)合了媒體發(fā)布和用戶交流兩大
特性,使得信息可以在網(wǎng)絡(luò)上以一種裂變的方式傳播,這比傳統(tǒng)媒體傳播的速度和廣度都有了極大地提高。因此,如何分析,如何預(yù)測微博社交網(wǎng)絡(luò)中信息的傳播特征,構(gòu)建傳播模型,有著十分重要的理論價值和現(xiàn)實意義。
1? 相關(guān)研究
在過去的研究中,諸如疾病,悖論和謠言等信息傳播現(xiàn)象受到了極大地關(guān)注,Kermack和McKe n d rick提出了感染流行病模型(Susceptible Infected Removed,SIR),大多數(shù)關(guān)于建模信息的研究是建立在SIR流行病模型的基礎(chǔ)上的[3]。為了結(jié)合考慮不同疾病的傳染特征,后續(xù)研究人員提出了幾種改進(jìn)模型,如易感染模型(Susceptible Infected,SI),易感受感染模型(Susceptible Infected Susceptible,SIS),離散的SIR模型等[4]。使用文獻(xiàn)[5-6]將傳染病的傳播個體與途徑和社交網(wǎng)絡(luò)進(jìn)行比對,發(fā)現(xiàn)兩者在傳播中甚是相似,因此提出了SIR模型能夠使用在社交網(wǎng)絡(luò)上。文獻(xiàn)[7]研究不同社交網(wǎng)絡(luò)之間的傳播模式,在信息傳播的預(yù)測上使用聚類分析,根據(jù)已知的傳播行為,預(yù)測未來的傳播行為。文獻(xiàn)[8]表示盡管研究人員利用流行病模型研究了微博的信息傳播,但是并未考慮用戶的不完整閱讀的行為,因此在模型中考慮了不完整閱讀的因素,提出了一種微博易感染受感染移除的模型(Microblog Susceptible Infected Removed,Mb-SIR)。文獻(xiàn)[9]考慮到易感染者并不是一定要經(jīng)過感染才能免疫,而是直接從易感染者到免疫人群,提出了包含直接免疫的SIR模型。文獻(xiàn)[11-13]考慮用戶的遺忘規(guī)律,通過遺忘規(guī)律和SIR模型的結(jié)合,描述了一個更加系那是的傳播過程。
上述的文獻(xiàn)研究利用了經(jīng)典的傳染病模型,在傳統(tǒng)的SIR模型的基礎(chǔ)上,結(jié)合社交網(wǎng)絡(luò)信息傳播與傳染病模型的規(guī)律,對傳統(tǒng)的SIR模型進(jìn)行改進(jìn)。不僅為微博網(wǎng)絡(luò)中信息傳播過程的進(jìn)一步研究奠定了基礎(chǔ),也促進(jìn)了微博信息傳播的研究。但是上述文獻(xiàn)存在不同方面的缺點(diǎn),并不能將所有的影響因素都考慮進(jìn)去。如文獻(xiàn)[8]在考慮不完整閱讀的時候,卻疏于考慮一些易感人群與傳染人群接觸后,出于對話題的不感興趣,會直接變成免疫人群;另外對于一些潛在人群,在多次經(jīng)過朋友推薦后,也會變成傳播人群這方面也考慮欠佳。
為了對社交網(wǎng)絡(luò)的信息傳播規(guī)律進(jìn)行更真實地演繹,本文結(jié)合微博信息傳播的真實情況,提出一個MDSLIR模型(Microbiog Double Susceptible Lurked Infected Removed)。該模型針對用戶的不完整閱讀和直接免疫行為進(jìn)行分析,并且提出雙重易感染者概念,初次接觸的易感染者和關(guān)注已久的易感染者,還考慮了潛在人群的傳播情況,在完善信息傳播途徑的同時增加傳播個體分類。通過對MDSLIR模型的研究,用戶可以從信息傳播的特點(diǎn)出發(fā),及時地,準(zhǔn)確地根據(jù)自身需求進(jìn)行獲取、傳播和免疫信息。
本文的結(jié)構(gòu)安排如下,第二部分介紹本文提出的新模型MDSLIR的優(yōu)點(diǎn),不同人群的傳播特性圖,以及算法的工作過程;第三部分進(jìn)行實驗結(jié)果分析;第四部分結(jié)束語。
2? MDSLIR模型
當(dāng)用戶在微博上發(fā)布消息后,他的粉絲原本應(yīng)該看到這些信息,卻因一部分粉絲受到網(wǎng)絡(luò)延時或個人時間的限制,并不能看到博主的這條消息,稱為不完整閱讀行為;而在能看到消息的粉絲中,有一定概率會對該消息進(jìn)行轉(zhuǎn)發(fā)的,稱為易感染者。一部分粉絲對博主的消息不感興趣而不轉(zhuǎn)發(fā)的行為,稱為直接免疫。還有另一部分的粉絲,剛開始對博主發(fā)的消息不感興趣,但隨著朋友的多次傳播和鼓勵,就有一定概率會去轉(zhuǎn)發(fā)該信息,稱為潛伏? 者[16]。傳統(tǒng)的SIR模型中,易感染者成為感染者的概率不受其他因素限制,而在微博的傳播過程中,由于不完整閱讀、直接免疫、潛伏者、雙重易感染者等情況,使得傳統(tǒng)SIR傳播模型在微博中適用性不夠。
綜上所述,本文改進(jìn)傳統(tǒng)的SIR微博傳播模型,對傳播個體進(jìn)行細(xì)化的同時完善傳播途徑。將博主的粉絲分為易感染者1(S1-Susceptible)、易感染者2(S2-Susceptible)、潛伏者(L-Lurked)、感染者(I-Infected)、免疫者(R-Removed)。易感染者表示還沒有看到該博文的粉絲;感染者表示看到了博文,并且轉(zhuǎn)發(fā)的粉絲;潛伏者表示看到博文,暫時不轉(zhuǎn)發(fā)的粉絲;免疫者表示看到博文永遠(yuǎn)不轉(zhuǎn)發(fā)的粉絲。兩種易感染者,第一種是第一次看到消息的易感染者,第二種是該易感染者之前就對博主的信息感興趣,并且想更多的了解博主的其他信息。注意,S1和S2的個體存在明顯差別,盡管都是易感染者。差別主要體現(xiàn)在兩個方面,第一,前者的形成來自于個人的心理,后者是社會傳染的結(jié)果。其次S1中的人只知道博主的該條信息,與這些人相比,S2中的人就是博主的忠實粉絲,了解更多博主的信息,這些人有很大概率會是傳播者,小概率成為免疫者。同時,還增加了不完整閱讀行為和直接免疫的情況,如圖1所示。
3? 實驗結(jié)果分析
3.1? 數(shù)據(jù)采集
本文采用八爪魚爬蟲工具從微博中爬取實驗數(shù)據(jù)集,以2017年4月份到8月份微博的數(shù)據(jù)內(nèi)容作為采集數(shù)據(jù)對象。綜合使用數(shù)據(jù)挖掘技術(shù)[17-21],采集方式為從某一用戶出發(fā),獲取用戶的粉絲數(shù)據(jù),然后抓取用戶間的關(guān)注關(guān)系以及數(shù)據(jù)集中每個用戶在該段時間內(nèi),轉(zhuǎn)發(fā)、評論和發(fā)表微博的總數(shù)。將微博用戶作為網(wǎng)絡(luò)中的節(jié)點(diǎn),用戶間的關(guān)注關(guān)系作為節(jié)點(diǎn)的邊。構(gòu)建用戶關(guān)注關(guān)系數(shù)據(jù)集U,數(shù)據(jù)集中包含1857個用戶節(jié)點(diǎn)的微博信息。
升高后快速降為0。為了簡化模擬真實微博的傳播過程,設(shè)定閱讀率為1。
為了驗證MDSLIR模型的準(zhǔn)確性和能否有效反映出微博信息的傳播特征,本文使用相同的仿真環(huán)境和數(shù)據(jù)集,分別對MDSLIR模型、SIR模型和SCIR模型進(jìn)行實驗對比,如圖3所示。
相較于SIR模型,本文MDSLIR模型增加了潛伏節(jié)點(diǎn)使其在傳播范圍和傳播速率上受到了限制,達(dá)到穩(wěn)定狀態(tài)的時間較長;而相較于SCIR模型,本文MDSLIR模型增加了直接免疫行為以及雙重易感節(jié)點(diǎn)使得到達(dá)穩(wěn)定狀態(tài)的時間比SCIR模型短。真實的傳播過程中,由于易感節(jié)點(diǎn)的類型不同,會影響信息傳播的速度;而不完整閱讀、直接免疫、潛伏免疫等行為會阻礙信息傳播。故三種模型的性能可采用微博轉(zhuǎn)發(fā)率即傳播節(jié)點(diǎn)的比例來驗證。例如,“鹿晗關(guān)曉彤戀情”該話題通過多次迭代之后,SIR,SLIR,MDSLIR模型中傳播節(jié)點(diǎn)比例分別約為49%,30%,17%。傳統(tǒng)的SIR,SCIR模型是相對理想的傳播模型,而本文MDSLIR模型考慮了更多影響因素,更真實地反映了微博信息的傳播過程。
為了驗證雙重易感節(jié)點(diǎn)即轉(zhuǎn)發(fā)概率對信息傳播的影響,本文針對不同易感節(jié)點(diǎn)的轉(zhuǎn)發(fā)概率進(jìn)行仿真實驗,結(jié)果如圖4所示。
其中,1)在傳播網(wǎng)絡(luò)到達(dá)穩(wěn)定之前,R(t)免疫節(jié)點(diǎn)密度隨P2和Q1的增大而減小,這是由于P2和Q1為易感節(jié)點(diǎn)變?yōu)楦腥竟?jié)點(diǎn)的概率,即轉(zhuǎn)發(fā)率。轉(zhuǎn)發(fā)率越大說明易感節(jié)點(diǎn)轉(zhuǎn)發(fā)該微博的可能性增加,因此免疫節(jié)點(diǎn)密度會下降;2)P2和Q1改變對傳播網(wǎng)絡(luò)中的最終節(jié)點(diǎn)密度不產(chǎn)生影響,即R(t)最終趨向1;3)P2和Q1的增加使得微博信息傳播達(dá)到穩(wěn)定的時間變長。
實驗結(jié)果表明MDSLIR模型更能準(zhǔn)確地展現(xiàn)微博信息的傳播過程,反映出信息在微博網(wǎng)絡(luò)中的傳播特性。模型中提出的不完整閱讀行為,使得微博平臺可以通過調(diào)整閱讀率篩選出有害信息,而使積極向上的信息可以有效及時的傳播;新增加的潛伏者表明信息的傳播不是突然爆發(fā)的,而是需要一個過渡期即潛伏期,也就是說可以通過潛伏期可以控制惡意信息的傳播;另外,對易感人群進(jìn)行區(qū)分,能夠更加細(xì)化轉(zhuǎn)發(fā)效率的高低,使得實驗仿真更加接近真實的微博信息傳播情況。傳統(tǒng)的傳播模型并不能對微博信息傳播進(jìn)行準(zhǔn)確地控制,因此本文MDSLIR模型通過增加潛伏節(jié)點(diǎn)、區(qū)分易感人群和完善信息的傳播途徑,更好地適應(yīng)微博信息傳播場景,使得管理者能夠根據(jù)信息隨時間的傳播采取不同的控制手段。
4? 結(jié)束語
本文提出了一種更真實反映微博信息傳播過程及狀態(tài)轉(zhuǎn)移的MDSLIR模型,該模型考慮了微博信息傳播的真實情況,在原有的SIR模型上進(jìn)行改進(jìn),增加雙重易感染者、潛伏者等傳播個體,優(yōu)化了不完整閱讀行為、直接免疫等信息傳播過程及對狀態(tài)轉(zhuǎn)移進(jìn)行了新的闡述。以新浪微博為例,構(gòu)建微博信息傳播的傳播網(wǎng)絡(luò),對網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)據(jù)進(jìn)行仿真并與其它傳統(tǒng)模型進(jìn)行比較,分析了模型中各參數(shù)對傳播過程的影響。實驗結(jié)果表明,本文模型能夠很好地反映微博信息傳播過程。本文提出的微博傳播模型未考慮到粉絲看到博文時的多次轉(zhuǎn)發(fā)情況以及微博博主的粉絲的影響力因素,另外,在噪聲數(shù)據(jù)的處理上也考慮稍欠佳,未來將會對這些不足進(jìn)行改進(jìn),完善傳播模型。
參考文獻(xiàn)
[1] ZHAO Y R, WANG Y T, WU M Z. Overlapping Community Detection Based on Node-influence Propagation in Heterogeneous Social Networks[J]. Journal of Chinese Computer Systems, 2015, 36(10): 2190-2196.
[2] 中國互聯(lián)網(wǎng)絡(luò)信息中心, 第 40 次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R], [2017-08-08]. 北京: 民主與法制時報, 2017.
[3] Kermack W O, Mckendrick A G. A Contribution to the Mathematical Theory of Epidemics.[J]. Bulletin of Mathe matical Biology, 1991, 53(1-2): 89-118.
[4] Allen L J. Some discrete-time SI, SIR, and SIS epidemic models[J]. Mathematical Biosciences, 1994, 124(1): 83.
[5] Sudbury A. The Proportion of the Population Never Hearing a Rumour[J]. Journal of Applied Probability, 1985, 22(2): 443-446.
[6] Zhou J, Liu Z, Li B. Influence of network structure on rumor propagation[J]. Physics Letters A, 2007, 368(6): 458-463.
[7] 周雪峰, 徐恪, 張藍(lán)珊, 等. 社交網(wǎng)絡(luò)的傳播測量與時間序列聚類分析[J]. 小型微型計算機(jī)系統(tǒng), 2015, 36(7): 1545-1552.
[8] Su Q, Huang J, Zhao X. An information propagation model considering incomplete reading behavior in microblog[J].Physica A Statistical Mechanics & Its Applications, 2015, 419(2): 55-63.
Ding X, Liu Q, Zhang W. An improved model for information dissemination and prediction on microblog networks[J]. Journal of University of Science & Technology of China, 2014.
Zhao L, Xie W, Gao H O, et al. A rumor spreading model with variable forgetting rate[J]. Physica A Statistical Mechanics & Its Applications, 2013, 392(23): 6146-6154.
Zhao L, Qiu X, Wang X, et al. Rumor spreading model considering forgetting and remembering mechanisms in inhomogeneous networks[J]. Physica A Statistical Mechanics & Its Applications, 2013, 392(4): 987-994.
Zhao L, Wang Q, Cheng J, et al. Rumor spreading model with consideration of forgetting mechanism: A case of online blogging LiveJournal[J]. Physica A Statistical Mechanics & Its Applications, 2011, 390(13): 2619-2625.
Wang B, Zhang J, Guo H, et al. Model Study of Information Dissemination in Microblog Community Networks[J]. Discrete Dynamics in Nature and Society, 2016, (2016-10- 26), 2016, 2016(1): 1-11.
王亞奇, 蔣國平. 復(fù)雜網(wǎng)絡(luò)中考慮不完全免疫的病毒傳播研究[J]. 物理學(xué)報, 2010, 59(10): 6734-6743.
王振飛, 張利瑩, 張行進(jìn), 等. 面向時間感知的微博傳播模型研究[J]. 計算機(jī)科學(xué), 2017, 44(2): 275-278. 平, 蘇光大, 人臉識別技術(shù)綜述[J], 中國圖像圖形學(xué)報(A版), 2000, 5(11): 885-894.
卓廣平. 數(shù)據(jù)挖掘開發(fā)及應(yīng)用研究[J]. 軟件, 2015, 36(5): 81-83.
史尤昭. 數(shù)據(jù)挖掘技術(shù)研究與應(yīng)用[J]. 軟件, 2015, 36(11): 38-42.
李晉宏, 戴海濤. 可穿戴設(shè)備數(shù)據(jù)挖掘及可視化技術(shù)的研究[J]. 軟件, 2015, 36.
崔仁桀. 數(shù)據(jù)挖掘在學(xué)生專業(yè)成績預(yù)測上的應(yīng)用[J]. 軟件, 2016, 37(1): 24-27.
胡健, 王理江. 數(shù)據(jù)挖掘在選課推薦中的研究[J]. 軟件, 2016, 37(4): 119-121