盧 開,周艷菊
中南大學(xué) 商學(xué)院,長沙410000
基于各類社交媒體形成以用戶生成內(nèi)容(User Generated Content,UCG)為主要信息傳播方式的虛擬社區(qū),成為群眾聚集的新場所。依賴于品牌依戀、人際依戀和社區(qū)依戀三大情感動機,虛擬社區(qū)用戶形成穩(wěn)定的信息共享與相互影響機制[1],這使得以虛擬社區(qū)為主要傳播媒介,以“領(lǐng)導(dǎo)型”用戶為信息擴散中心的網(wǎng)絡(luò)營銷(Online Μarketing)開始流行,也為新零售時代的到來創(chuàng)造了有利條件。
虛擬社區(qū)運營的核心是“人”,意見領(lǐng)袖們對信息的傳播和導(dǎo)向、群體行為的形成和發(fā)展等方面都起到重要作用[1],而意見領(lǐng)袖們的領(lǐng)導(dǎo)能力通常用影響力來度量。用戶之間存在的社會影響(Social Influence),促使其行為受自身特點與人際關(guān)系圈共同決定,這是信息擴散的內(nèi)在動因[2],而信息擴散通過用戶的社交活動及形成的交互網(wǎng)絡(luò)來體現(xiàn)[3],因此,從交互行為數(shù)據(jù)入手,探索用戶的信息擴散能力,是影響力評價的關(guān)鍵。
經(jīng)過多年的研究發(fā)展,不少學(xué)者對經(jīng)典節(jié)點排序算法進行了不同角度的改良:劉忠華等人在改進Κ-shell分解和節(jié)點基本屬性的基礎(chǔ)上,提出了基于Κullback-Leibler 的節(jié)點排序方法[4];Rui 等人利用節(jié)點逆向秩信息和鄰居節(jié)點產(chǎn)生的影響,提出了基于影響最大化的反向節(jié)點排序方法,以此估計節(jié)點影響力[5]。有些學(xué)者從網(wǎng)絡(luò)結(jié)構(gòu)出發(fā)來進行節(jié)點影響力度量:朱曉霞等人基于多個社交網(wǎng)絡(luò)共同構(gòu)成的多層網(wǎng)絡(luò)拓撲結(jié)構(gòu),構(gòu)建了多層社交網(wǎng)絡(luò)中的影響力節(jié)點識別方法[6];楊劍楠等人基于多層耦合網(wǎng)絡(luò)分析,提出了基于節(jié)點層間相似性的節(jié)點重要性識別方法[7]。也有學(xué)者將網(wǎng)絡(luò)分析方法與其他領(lǐng)域的理論進行有效結(jié)合:齊林等人將兩類不平等映射為節(jié)點在網(wǎng)絡(luò)中的能力與權(quán)力的二重異質(zhì)性,設(shè)計了評價節(jié)點重要度的DH指標[8];Lin等人將網(wǎng)絡(luò)整體結(jié)構(gòu)和傳播動力學(xué)特征進行耦合分析,并利用差分方程考察節(jié)點傳播特征,進行重要性度量[9]。交互網(wǎng)絡(luò)的時間維度也是國內(nèi)外學(xué)者的關(guān)注點:Tang等人對時序網(wǎng)絡(luò)中的介數(shù)中心度、接近中心度等特征進行了定義,并在此基礎(chǔ)上提出了基于時間切片網(wǎng)絡(luò)的節(jié)點重要性預(yù)測方法[10]。
通過文獻梳理發(fā)現(xiàn),目前節(jié)點排序方法的相關(guān)研究中,實驗數(shù)據(jù)多為Club、Arpa、Workspace等線下網(wǎng)絡(luò),使用真實網(wǎng)絡(luò)數(shù)據(jù)驗證模型在虛擬社區(qū)網(wǎng)絡(luò)中的適用性與有效性的研究較少。更重要的是,大多數(shù)研究多從整體網(wǎng)絡(luò)結(jié)構(gòu)出發(fā),少有學(xué)者考慮群聚效應(yīng)所產(chǎn)生的局部社區(qū)特征差異對算法效果的影響:同質(zhì)性(Homophily)用戶自發(fā)形成相同的行為模式[11],而群體規(guī)范(Group Norm)使得同質(zhì)性用戶更愿意在自己的“小圈子”里活動,中心人物影響力擴散存在“飽和效應(yīng)”[12],且局部聚集程度越強,越不利于信息在社區(qū)全局的廣泛擴散。由此可見,群體規(guī)范對用戶信息擴散能力產(chǎn)生的干擾,可能會影響用戶影響力度量的準確性。
綜上所述,本文提出一種考慮網(wǎng)絡(luò)局部特征的節(jié)點影響力評價方法,從中觀層面出發(fā),分析凝聚子群結(jié)構(gòu)特征,在此基礎(chǔ)上對用戶影響力進行分析與討論。
2.1.1 社區(qū)發(fā)現(xiàn)
2.1.2 凝聚子群分析
凝聚子群分析(Cohesive Subgroup Analysis,CSA)是一種社區(qū)子結(jié)構(gòu)分析方法。虛擬社區(qū)用戶自發(fā)形成凝聚子群,各子群結(jié)構(gòu)特征的差異對內(nèi)部用戶的交互行為產(chǎn)生影響,凝聚子群分析可用來分析其結(jié)構(gòu)特征與運營機制。凝聚子群分析的主要內(nèi)容有:互惠性(Reciprocity)通常用來衡量社區(qū)用戶之間存在相互交流現(xiàn)象的程度;密度(Density)是用來衡量社區(qū)用戶間關(guān)系密切程度的指標;直徑(Diameter)用以衡量信息傳播范圍;平均最短路徑(Average Shortest Path)為所有節(jié)點對之間使用Dijkstra 算法計算最短路徑后的平均值,通常用來判斷社區(qū)的小世界特性。
2.1.3 節(jié)點排序
通過節(jié)點排序來度量用戶影響力,挖掘意見領(lǐng)袖,是常用的方法。節(jié)點排序算法主要有基于中心性分析的度中心性(DC)、中介中心度(BC)、接近中心度(CC),以及考慮鄰居節(jié)點拓撲結(jié)構(gòu)的聚集系數(shù)指標、考慮網(wǎng)絡(luò)全局信息的特征向量指標等;基于隨機游走的PageRank算法(以下簡稱PR算法)在谷歌公司創(chuàng)立之初用于評價網(wǎng)頁質(zhì)量,是節(jié)點挖掘算法中最著名的鏈接分析算法之一;Hits 算法也是經(jīng)典鏈接分析算法之一,它使用內(nèi)容權(quán)威值(Authority)和鏈接權(quán)威值(Hub)來分別衡量用戶的信息質(zhì)量與傳播傾向。
2.1.4 創(chuàng)新擴散理論與Bass模型
創(chuàng)新擴散理論根據(jù)創(chuàng)新(Invention)與模仿(Imitation)這兩個信息擴散主要過程的信息采用速度差異,將潛在用戶分為創(chuàng)新者、早期接受者、早期大眾、晚期大眾和落后者五類:少數(shù)創(chuàng)新者和早期接受者優(yōu)先“認知”信息,再對大眾實施“說服”,最終引導(dǎo)“決策”;而模仿者群體(包括早期大眾、晚期大眾等)除了被創(chuàng)新者“說服”外,新信息的接受與傳遞還受個人特征與偏好的影響[14]。在創(chuàng)新擴散理論基礎(chǔ)上,Bass模型指出信息擴散不僅取決于創(chuàng)新采用者們自身的創(chuàng)新能力,模仿采用者的模仿能力也是決定因素之一。Bass 模型的三大建模要素為潛在用戶數(shù)量、創(chuàng)新系數(shù)和模仿系數(shù):潛在用戶數(shù)量指信息達到完全擴散時的接受者總量;創(chuàng)新系數(shù)為用戶受渠道選擇、廣告偏好等主觀因素的影響,主動接受新產(chǎn)品、新信息的可能性;模仿系數(shù)為用戶受到已采用群體的口口相傳,從而被動接受的可能性[15]。
虛擬社區(qū)中,潛在局部用戶群體的群體規(guī)范差異會影響用戶的信息傳播,少有研究考慮這點。社區(qū)發(fā)現(xiàn)算法能夠挖掘出潛在群體,而凝聚子群分析可以分析不同潛在的局部群體在信息接受與主動傳遞上的水平差異。鑒于此,本文考慮將用戶重要性分析與局部群體特征分析進行有效結(jié)合,提出一種基于凝聚子群分析的用戶局部影響力評價模型(Cohesive Subgroup Analysis Based Local Leadership,CSA-LL)。
CSA-LL模型的建模依據(jù)與步驟如下:
(1)用戶全局影響力度量
虛擬社區(qū)中,信息感知與接受比創(chuàng)新者更謹慎的早期接受者通常作為社區(qū)中的意見領(lǐng)袖,促進信息流通,影響關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)與其他用戶的行為發(fā)展[16],在信息擴散過程中發(fā)揮著重要作用。正是信息早期接受者們迅速向大眾傳播,擴散的爆發(fā)期才得以到來[14]。Bass也指出,創(chuàng)新采用者對新產(chǎn)品、新服務(wù)等信息的早期擴散影響較大,是大多數(shù)模仿采用者接觸并采用信息的前提[15]。因此,意見領(lǐng)袖挖掘是探究虛擬社區(qū)中信息擴散過程的關(guān)鍵,而準確度量用戶在全局網(wǎng)絡(luò)中的重要程度,是挖掘意見領(lǐng)袖、分析其在群體規(guī)范下的信息傳播能力以及影響力度量的研究前提。
PR算法和Hits算法皆是度量用戶重要性的有效算法,但單一算法無法包含用戶所有性質(zhì),且無法適用于所有網(wǎng)絡(luò),混合指標常作為用戶影響力排序的手段[17]。本研究采用混合指標的方法,將PR 算法與Hits 算法中更能體現(xiàn)用戶信息質(zhì)量與影響他人程度的Authority 維度(簡稱H(a)算法)進行有效結(jié)合,作為評價用戶重要性的定量指標,并將之定義為用戶的全局影響力(Overall Influence,OI)。
基于多屬性的影響力度量,多使用專家打分、層次分析法等過于依賴個人素養(yǎng)的主觀賦權(quán)法進行屬性賦權(quán),這只在熟悉研究對象與屬性特征時才有較好的效果。在多屬性決策中,信息熵越小的屬性,所含信息量越多,作用越大,因此,取決于客觀數(shù)據(jù)的客觀賦權(quán)法——熵值法能夠提升賦權(quán)效果與合理性[18]。PR算法和H(a)算法均為基于鏈接分析的排序算法,但算法原理、節(jié)點權(quán)重傳播模型、適用數(shù)據(jù)量等方面均存在差異,難以主觀判斷兩者在不同網(wǎng)絡(luò)中的性能優(yōu)劣[19],使用基于信息離散度的熵值法,能夠提高全局影響力度量中屬性賦權(quán)的合理性與準確性。
綜上所述,用戶全局影響力的計算方法如下:
對虛擬社區(qū)用戶交互行為原始數(shù)據(jù)進行清洗和預(yù)處理。之后,以用戶名作為節(jié)點vi,合并形成節(jié)點集合V,vi∈V 。對存在交互的節(jié)點(vm,vn),vm,vn∈V,根據(jù)方向與強度,建立加權(quán)有向邊ej,合并形成邊集合E,ej∈E 。將節(jié)點集合V 與邊集合E 作為輸入,建立加權(quán)有向網(wǎng)絡(luò)G(V,E),計算所有節(jié)點vi∈V 在G 中的PR數(shù)值和H(a)數(shù)值并歸一化,形成節(jié)點屬性向量:
合并所有節(jié)點屬性向量,使用熵值法計算權(quán)重向量:
最終,使用混合指標度量用戶全局影響力:
(2)凝聚子群挖掘
用戶的信息傳播并非僅取決于意見領(lǐng)袖的“說服”,個人偏好與行為特征也是決定因素之一。受人口統(tǒng)計學(xué)特征、UGC 特征(包括主題、情感、豐富度與可讀性等)、社區(qū)活動參與度、活躍時間等因素的影響,用戶的內(nèi)容發(fā)布、交互頻率等行為特征有所不同。存在相同行為特征的用戶會自發(fā)聚集,形成凝聚子群,且結(jié)構(gòu)趨于穩(wěn)定,對外部信息存在一定抵制,形成群體規(guī)范,進而產(chǎn)生了用戶密度、互惠水平等子群結(jié)構(gòu)特征的差異,這是造成各子群內(nèi)部信息擴散效率不同的主要原因。因此,有必要挖掘與分析子群特征,探索子群信息擴散效率,進而分析其對用戶信息傳播能力的影響。
本文使用社區(qū)發(fā)現(xiàn)算法挖掘潛在的凝聚子群。對G(V,E)使用不同社區(qū)發(fā)現(xiàn)算法進行子群挖掘并計算模塊度Q,選取Q 值最大的結(jié)果:
(3)子群結(jié)構(gòu)分析與信息擴散效率度量
創(chuàng)新擴散理論指出,累計擴散數(shù)量大致呈S曲線分布,意見領(lǐng)袖促成了擴散前期的爆發(fā)式增長。然而,隨著擴散的推移,模仿型群體的重要性逐漸增強。Bass模型指出,模仿系數(shù)越大,潛在群體接受新產(chǎn)品、新信息的可能性越大,而且新的采用者會參與下一階段的擴散。類似地,虛擬社區(qū)用戶的信息擴散,在早期受社區(qū)等級、口碑等用戶個體因素的影響更大,但信息采用群體能自發(fā)推動個體用戶下一階段的內(nèi)容傳遞,形成“口口相傳”,可以低成本、高效率地提升用戶發(fā)布信息的傳播速率,擴大信息覆蓋范圍,個體傳播能力得到提升,這也是各個企業(yè)偏好于在活躍的在線社區(qū)中實施病毒式營銷策略的內(nèi)因。因此,探討子群的擴散效率,并考慮其對用戶信息傳遞效率的提升作用,能夠提高用戶影響力度量的準確性。
其中,直徑與平均最短路徑和的數(shù)值與信息傳播效率呈負相關(guān),取值為與1的差值。
上述子群結(jié)構(gòu)特征指標皆可描述信息擴散現(xiàn)象,但偏重角度有所不同,使用混合指標法結(jié)合各類特征,用以綜合評價子群信息傳遞效率,是科學(xué)合理的。同樣使用熵值法計算子群結(jié)構(gòu)特征權(quán)重向量:
最終,使用混合指標來度量每個子群的信息傳遞效率,并將其定義為凝聚子群內(nèi)部的信息擴散效率(Information Diffusion Efficiency of Subgroups,IDES),計算公式為:
(4)用戶影響力排序
創(chuàng)新擴散理論強調(diào)意見領(lǐng)袖個體與采用者群體均為擴散效果的重要影響因素,Bass模型也指出意見領(lǐng)袖的創(chuàng)新系數(shù)和采用群體的模仿系數(shù)是決定傳播速度與程度的主要因素。此外,每個用戶的潛在擴散群體都是社區(qū)全體用戶,Bass模型建模要素中的潛在用戶體量不予考慮。綜上所述,將用戶個體全局影響力和所在群體的信息擴散效率進行結(jié)合,計算用戶影響力數(shù)值:
其中,CS(vi)為節(jié)點vi所在的子群編號。通過上式獲取數(shù)值排序后的Top-K個節(jié)點,即為影響力高的意見領(lǐng)袖序列。CSA-LL模型彌補了經(jīng)典節(jié)點排序算法與已有研究未考慮子群特征對用戶信息擴散的影響這一不足之處,用戶影響力度量與排序結(jié)果更為合理與準確。
本文選取豆瓣網(wǎng)第二大社區(qū)“窮游天下”小組中最后回復(fù)時間在2019.9.16 至2019.10.18 的用戶交互行為數(shù)據(jù),維度包括評論、熱評、轉(zhuǎn)發(fā)、收藏四種交互行為涉及的用戶名。
表1 異常節(jié)點示例
對清洗后的數(shù)據(jù)集進行二次檢測,結(jié)果不再包含異常數(shù)據(jù),清洗效果較好。各類交互行為數(shù)據(jù)統(tǒng)計量如表2所示。
表2 一般統(tǒng)計量
不同的用戶評論包含的信息存在差異:(1)評論者對某一發(fā)帖進行初次評論,是以其對發(fā)帖者的信息傳遞的有效接收為前提;(2)帖子為非發(fā)帖用戶提供了互動平臺,發(fā)帖者在其中起到了中介作用,而用戶之間持續(xù)溝通更依賴于雙方的同質(zhì)性,發(fā)帖者的作用減弱;(3)置頂?shù)臒衢T評論比普通評論更能顯示信息的接收程度。因此,對各種評論關(guān)系進行如表3 所示的權(quán)重設(shè)置,n為相應(yīng)維度的產(chǎn)生次數(shù),對合并重復(fù)邊的權(quán)值取倒數(shù),作為最終的相異權(quán),形成邊集合E。
表3 社區(qū)用戶交互維度與權(quán)重設(shè)置
使用預(yù)處理得到的數(shù)據(jù)構(gòu)建網(wǎng)絡(luò)G(V,E),計算所有節(jié)點的PR值與H(a)值,并使用熵值法得到ω(node_prop)=[0.455,0.545],再使用上述數(shù)據(jù)與式(3)計算得出所有節(jié)點的全局影響力OI值。選取GN算法、Louvain算法、Infomap 算法和LPA 算法,分別對G(V,E)進行社區(qū)發(fā)現(xiàn),得到Qˉ=[0.592,0.650,0.614,0.516] ,最終選取Q值最大的VCS(Louvain),網(wǎng)絡(luò)結(jié)構(gòu)示例如圖1 所示。子群數(shù)量與體量如圖3所示,最終得到295個子群,人數(shù)超過100人的子群有30個,人數(shù)不超過2人的邊緣子群有191 個。對VCS(Louvain)中的子群分別構(gòu)建網(wǎng)絡(luò),使用式(5)和(6)計算得出互惠性、密度、直徑、平均最短路徑4 個結(jié)構(gòu)特征,并使用熵值法計算得出ω(cs_struc)=[0.582,0.341,0.039,0.038],再使用式(7)得到所有子群的信息擴散效率IDES 值。在得到所有節(jié)點的OI 值與其所屬子群的IDES 值后,使用式(8)計算得出節(jié)點的CSA-LL 數(shù)值作為用戶影響力度量與排序指標,結(jié)果如表4所示。
圖1 網(wǎng)絡(luò)構(gòu)建與社區(qū)劃分結(jié)果示例
為了驗證CSA-LL模型的性能優(yōu)勢,從用戶營銷能力角度入手,比較本模型與標準方法的差異。AISAS模型[23]強調(diào)了網(wǎng)絡(luò)營銷中搜索(Search)和分享(Share)的重要性,企業(yè)社交媒體營銷效果影響因素的相關(guān)研究通常使用企業(yè)內(nèi)容分享數(shù)據(jù)作為其營銷效果和發(fā)展?jié)摿Φ亩攘縖24]。本文借鑒AISAS模型,使用分享數(shù)據(jù)對用戶進行營銷能力排序,再使用肯德爾相關(guān)性系數(shù)(Κendall’s tau-b)計算其與各節(jié)點排序算法結(jié)果的相關(guān)性,作為衡量營銷能力的指標??系聽栂禂?shù)τ 的范圍為[-1,1],τ=1 時兩組隨機序列完全一致,τ=-1 時完全不一致,τ=0 時完全不相關(guān)。
表4 節(jié)點排序?qū)Ρ仁纠?/p>
豆瓣社區(qū)中,除了轉(zhuǎn)發(fā)功能外,內(nèi)容收藏機制——“豆列”也屬于具有特色的分享行為:不同于其他平臺收藏機制的隱私性,豆瓣社區(qū)用戶可收藏其他平臺的內(nèi)容放入豆列,也能查看他人的豆列列表。因此,使用被轉(zhuǎn)發(fā)與被收藏數(shù)量之和(以下簡稱“Rel&Col”)進行節(jié)點營銷能力排序。將共存在1 575 次被轉(zhuǎn)發(fā)和被收藏的437個節(jié)點在各排序算法中的序列編號作為輸入,使用SPSS計算肯德爾系數(shù),結(jié)果如表5所示。從表5中可以看出,各算法的節(jié)點排序序列與營銷能力序列均呈顯著正相關(guān),且CSA-LL模型比PR和H(a)的相關(guān)性稍高,并通過了顯著性檢驗。這說明,CSA-LL模型輸出的用戶,具備更高的營銷能力與發(fā)展?jié)摿?,模型效果得到驗證,也證實了基于信息擴散的分析視角對用戶影響力算法性能的提升作用。
表5 Κendall相關(guān)性分析結(jié)果
4.3.1 實驗1:基于豆瓣社區(qū)網(wǎng)絡(luò)的LT模型實驗
圖2 用戶個體傳播LT模型實驗輸出結(jié)果(豆瓣網(wǎng)絡(luò))
在用戶個體傳播實驗中,單一根節(jié)點依次為RootSeed(CSA-LL,PR,H(a))=[“No See ?!保坝欣硐氲某载洝?,“她們叫我小地圖”],輸出結(jié)果如圖2所示:圖(a)顯示,RootSeed(CSA-LL)在激活閾值θv的所有不同水平下的LT_num 數(shù)值分布具有明顯優(yōu)勢,短期傳播性能更強;圖(b)顯示,θ <0.2 時,所有RootSeed(ai)達到飽和傳播時的活躍人數(shù)峰值差距不大,如子圖(c),θ ≥0.2 時RootSeed(CSA-LL)的LT_num 數(shù)值均更大,且θ=1,即所有用戶的被激活難度水平最高時,CSALL 是唯一的LT_num 數(shù)值大于100 的算法,CSA-LL模型輸出用戶個體的飽和傳播性能最強。為避免偶然性,選取除去上述節(jié)點以外的根節(jié)點進行實驗,RootSeed(CSA-LL,PR,H(a))=[“三國輕輕魚笑”,“出發(fā)吧”,“喵仔”],得到相同結(jié)論。
在用戶群體傳播實驗中,選取各算法排序的Top-20節(jié)點作為RootSeed(ai),實驗結(jié)果如圖3 所示。圖(a)與圖(b)顯示的結(jié)論與上一實驗類似:所有θ 水平下的RootSeeds(CSA-LL)短期傳播性能比PR 算法和H(a)算法更高;θ <0.2 時三種算法的飽和傳播性能相當,而節(jié)點激活難度提升時,CSA-LL算法性能更好。
綜上所述,較之于PR算法和H(a)算法,CSA-LL模型輸出用戶的信息傳播能力要更優(yōu),模型可行性與有效性得到驗證,也證實了子群信息擴散效率對用戶傳播能力的正向影響作用,以及基于信息視角進行用戶影響力分析的優(yōu)勢。
4.3.2 實驗2:基于Advogato 網(wǎng)絡(luò)與Polblog 網(wǎng)絡(luò)的LT模型實驗
為驗證CSA-LL 模型在不同虛擬社區(qū)網(wǎng)絡(luò)上的魯棒性,選取Advogato 網(wǎng)絡(luò)和Polblog 網(wǎng)絡(luò),使用LT 模型進行實驗分析。Advogato 是一個面向免費軟件開發(fā)人員的虛擬社區(qū),以用戶為節(jié)點、用戶之間的信任程度為邊構(gòu)成信任關(guān)系網(wǎng)絡(luò);Polblog網(wǎng)絡(luò)(Political Blogosphere Dataset)是美國政客們在線上發(fā)表博客的互動關(guān)系數(shù)據(jù)。分別使用CSA-LL 模型對兩個網(wǎng)絡(luò)進行影響力度量與排序,中間計算與排序結(jié)果如表6和表7所示,分析比較不同算法輸出用戶的信息傳播能力。
圖3 用戶群體傳播LT模型實驗輸出結(jié)果(豆瓣網(wǎng)絡(luò))
表6 CSA-LL模型實現(xiàn)
對Advogato 網(wǎng)絡(luò)排序結(jié)果(表7 Part.1)進行LT 模型傳播實驗。用戶個體傳播實驗中,PR 算法和H(a)算法與CSA-LL 模型第一次出現(xiàn)排序差異的序號不同,節(jié)點選取RootSeed(CSA-LL,PR)=[429,431] ,RootSeed(CSA-LL,H(a))=[438,577] ;用戶群體傳播實驗的輸入節(jié)點為各算法的Top-20節(jié)點集合。
用戶個體傳播實驗結(jié)果如圖4 所示:圖(a)顯示,在短期傳播中,LT_num('429')>LT_num('431') 、LT_num('438')>LT_num('577')在所有激活閾值水平下均成立,CSA-LL 模型輸出用戶的短期傳播優(yōu)勢明顯;圖(b)顯示,在飽和傳播中,各算法在用戶激活難度較低時的活躍人群峰值差異不大,但用戶激活難度較高時,CSA-LL模型的優(yōu)勢再次體現(xiàn)。用戶群體傳播實驗結(jié)果如圖5所示,所得結(jié)論與個體傳播實驗相同?;谝陨辖Y(jié)果,CSA-LL模型在Advogato網(wǎng)絡(luò)中的可行性和有效性得到驗證。
表7 節(jié)點排序示例
對Polblog 網(wǎng)絡(luò)排序結(jié)果(表7 Part.2)進行LT 模型傳播實驗。用戶個體傳播實驗的節(jié)點選取分別為:
圖4 用戶個體傳播LT模型實驗輸出結(jié)果(Advogato網(wǎng)絡(luò))
圖5 用戶群體傳播LT模型實驗輸出結(jié)果(Advogato網(wǎng)絡(luò))
RootSeed(CSA-LL,PR)=[1101,641]
RootSeed(CSA-LL,H(a))=[1051,642]
用戶群體傳播實驗的輸入節(jié)點也為Top-20節(jié)點集合。
用戶個體傳播實驗結(jié)果如圖6所示:圖(a)顯示,在短期傳播中,用戶激活難度較低時,LT_num('1051')>LT_num('642')成立,而θ ≥0.2 時,CSA-LL模型與H(a)算法的性能相當;圖(b)顯示,在飽和傳播中,各算法輸出結(jié)果的峰值與谷值差異不大,但拐點出現(xiàn)時θ(CSA-LL)=0.1 >θ(PR)=θ(H(a))=0.01,CSA-LL模型輸出用戶對高激活難度用戶實現(xiàn)有效傳播的能力更強。用戶群體傳播實驗結(jié)果如圖7所示,所得結(jié)論與個體傳播實驗類似,CSA-LL 模型用戶激活難度低時的短期傳播效果更好,而激活難度較高或達到飽和擴散時,效果與前兩者相當。
圖6 用戶個體傳播LT模型實驗輸出結(jié)果(Polblog網(wǎng)絡(luò))
圖7 用戶群體傳播LT模型實驗輸出結(jié)果(Polblog網(wǎng)絡(luò))
上述結(jié)果可能是由于Polblog 網(wǎng)絡(luò)性質(zhì)所導(dǎo)致:Polblog用戶均來自美國政客圈,彼此熟悉,實際的激活難度較??;各算法Top-20 用戶均來自122 號和198 號子群,且IDES('112')=0.389,IDES('198')=0.376,子群的信息擴散效率對傳播影響不大,且對于Polblog 這種小規(guī)模網(wǎng)絡(luò),用戶達到飽和傳播時可能均已覆蓋大多數(shù)用戶,導(dǎo)致峰值差異不大。為了驗證推斷,進行補充實驗:選取拐點θ=0.1 作為所有用戶的激活閾值,設(shè)置不同傳播階段,進行群體傳播實驗。結(jié)果如圖8 所示:在step <6 時,CSA-LL 模型輸出用戶的基礎(chǔ)激活人數(shù)更多,傳播速度更快,子群信息擴散對用戶短期傳播能力具有顯著效果,而當達到飽和傳播時,各算法輸出的活躍人數(shù)占比77%,上述假設(shè)得到驗證。基于以上結(jié)果,CSA-LL 模型在Polblog 網(wǎng)絡(luò)中具有較好的可行性和有效性。
圖8 用戶群體傳播LT模型補充實驗結(jié)果(Polblog網(wǎng)絡(luò))
綜上所述,CSA-LL 模型在不同虛擬社區(qū)網(wǎng)絡(luò)中的魯棒性得到驗證,同時也再次驗證了基于信息擴散視角進行用戶影響力度量,比標準方法的性能更強。
4.3.3 實驗3:基于豆瓣社區(qū)網(wǎng)絡(luò)的IC模型實驗
考慮到傳播模型的種類可能對結(jié)論產(chǎn)生影響,選取LT模型之外的信息傳播模型,對實驗1、實驗2得到的結(jié)論進行穩(wěn)健性檢驗。
圖9 IC模型實驗輸出結(jié)果(豆瓣網(wǎng)絡(luò))
綜上所述,子群信息擴散效率對用戶信息傳播能力具有正向影響這一結(jié)論的穩(wěn)健性得到驗證,較之標準方法,本文提出的基于信息擴散視角的用戶影響力度量方法具有更好的性能。
針對以往研究少有考慮群體規(guī)范對信息傳播效率影響的問題,本文提出一種適用于虛擬社區(qū)網(wǎng)絡(luò)的用戶影響力度量方法——CSA-LL 模型,從傳播性能與營銷能力兩個角度出發(fā),結(jié)合豆瓣社區(qū)網(wǎng)絡(luò)、Advogato 網(wǎng)絡(luò)和Polblog 網(wǎng)絡(luò),使用LT 模型、IC 模型、AISAS 模型、Κendall相關(guān)性分析等方法,分析比較CSA-LL模型與PageRank算法和Hits算法的差異,驗證了模型的可行性、有效性和在不同虛擬社區(qū)網(wǎng)絡(luò)中的魯棒性,也證實了基于信息擴散的分析視角進行用戶影響力度量的準確性。本文選取的社區(qū)發(fā)現(xiàn)算法大多屬非重疊社區(qū)發(fā)現(xiàn),對于存在社區(qū)重疊的用戶,找到準確度量其所屬區(qū)域信息擴散效率的方法,可以提高模型效果,這是之后的研究重點。