• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      特定話題傳播網(wǎng)絡(luò)中的意見領(lǐng)袖檢測方法①

      2016-02-20 06:51:26郭躬德
      計算機系統(tǒng)應(yīng)用 2016年12期
      關(guān)鍵詞:領(lǐng)袖網(wǎng)頁影響力

      蘭 天, 郭躬德

      1(福建師范大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院, 福州 350007)2(福建師范大學(xué) 網(wǎng)絡(luò)安全與密碼技術(shù)福建省重點實驗室, 福州 350007)3(龍巖學(xué)院 網(wǎng)絡(luò)信息中心, 龍巖 364012)

      特定話題傳播網(wǎng)絡(luò)中的意見領(lǐng)袖檢測方法①

      蘭 天1,2,3, 郭躬德1,2

      1(福建師范大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院, 福州 350007)2(福建師范大學(xué) 網(wǎng)絡(luò)安全與密碼技術(shù)福建省重點實驗室, 福州 350007)3(龍巖學(xué)院 網(wǎng)絡(luò)信息中心, 龍巖 364012)

      針對中文微博目前已有的意見領(lǐng)袖識別模型存在的不足, 提出一種特定話題轉(zhuǎn)播網(wǎng)絡(luò)中的意見領(lǐng)袖檢測方法. 識別模型通過轉(zhuǎn)發(fā)關(guān)系建立信息傳播網(wǎng)絡(luò), 以用戶自身權(quán)威值和轉(zhuǎn)發(fā)用戶的支持力來評價用戶的影響力. 通過對微博兩周以來特定話題下意見領(lǐng)袖的檢測實驗, 結(jié)果表明該方法能夠有效地識別特定話題下的意見領(lǐng)袖.

      意見領(lǐng)袖; 輿情監(jiān)控; 傳播網(wǎng)絡(luò); 識別模型

      1 引言

      在web 2.0時代對互聯(lián)網(wǎng)發(fā)展的極大推動下, “數(shù)據(jù)網(wǎng)絡(luò)”這一概念普遍深入人心, 人們的日常生活和互聯(lián)網(wǎng)相結(jié)合已經(jīng)成為這個時代的明顯特征. 在《第34次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》[1]中顯示, 截止2014年6月, 中國網(wǎng)民用戶群已達6.32億, 其中手機用戶群已達5.27億. 國際上, twitter平臺在2006年興起并不斷流行和推廣, 該平臺已成為訪問量最大的網(wǎng)站之一. 國內(nèi)與之對應(yīng)的新浪微博一枝獨秀, 而微博客這一信息即時傳播、用戶關(guān)系分享的社交網(wǎng)絡(luò)平臺, 已成為中國網(wǎng)民上網(wǎng)的主要活動之一. 同時新浪微博也應(yīng)用了很多策略來達到他的領(lǐng)袖地位, 例如邀請了政府組織、媒體機構(gòu)、名人名流等地加入, 使得重大信息的發(fā)布都變得尤其迅速. 據(jù)2015年微博發(fā)布的第三季度財報中顯示, 截止2015年9月30日, 微博月活躍用戶數(shù)已經(jīng)達到2.12億人. 同時, 微博也已經(jīng)成為社會輿論傳播、社會風(fēng)氣導(dǎo)向的重要地點, 因此微博輿情監(jiān)控便成為國家政府和網(wǎng)絡(luò)監(jiān)管部門面前的一個大課題.

      微博輿情監(jiān)控的主要手段是找到輿論傳播中的“意見領(lǐng)袖”. “意見領(lǐng)袖”這一概念最早由美國傳播學(xué)者Lazarsfeld[2]在1948年提出, 他認為意見領(lǐng)袖在信息傳播中扮演著對他人傳遞信息并施加影響的作用. 而后Rogers[3]在研究中表示, 意見領(lǐng)袖同時具有“信息中間人”和“有影響力的人”兩種角色. 在消息流通如此迅速的社交網(wǎng)站中, 意見領(lǐng)袖更是扮演著舉足輕重的作用. 近幾年, 國內(nèi)對意見領(lǐng)袖的研究逐漸升溫, 主要研究領(lǐng)域在于論壇、博客、學(xué)術(shù)論文、微博等. 隨著新浪微博成為社交領(lǐng)域的領(lǐng)頭地位, 意見領(lǐng)袖的研究已成為一大課題.

      微博中用戶通常針對某一主題發(fā)布微博, 表達自己的見解和看法. 而其他用戶可以通過轉(zhuǎn)發(fā)行為來進行信息的擴散, 并通過轉(zhuǎn)發(fā)關(guān)系構(gòu)建了一個信息網(wǎng)絡(luò).隨著消息網(wǎng)絡(luò)中的用戶逐漸提高形成了輿論群體, 其中部分用戶成為意見領(lǐng)袖, 引導(dǎo)著輿論的發(fā)展方向和傳播速度. 因此本文通過特定主題下的轉(zhuǎn)發(fā)關(guān)系, 結(jié)合網(wǎng)頁排序算法來識別消息網(wǎng)絡(luò)中的意見領(lǐng)袖, 同時驗證該算法的有效性.

      2 相關(guān)工作

      目前應(yīng)用于微博意見領(lǐng)袖識別的方法主要有: ①基于網(wǎng)頁排序算法進行改進, 使其適用于微博消息網(wǎng)絡(luò)中對用戶影響力的排序; ②基于用戶特征提取影響力指標(biāo), 建立評分模型; ③基于消息轉(zhuǎn)播網(wǎng)絡(luò), 對網(wǎng)絡(luò)節(jié)點進行分析評價.

      基于網(wǎng)頁排序算法, 主要是對網(wǎng)頁排序中傳統(tǒng)的PageRank[4]和HITS[5]算法進行改進. Weng[6]根據(jù)twitter中的用戶結(jié)構(gòu)和微博主題之間的相似度, 提出了TwitterRank算法, 使PageRank算法有效地移植到twitter中. Xiao[7]根據(jù)中文微博特定結(jié)構(gòu), 構(gòu)建了收聽網(wǎng)絡(luò)和信息轉(zhuǎn)發(fā)網(wǎng)絡(luò), 并根據(jù)傳播行為特征提出了類PageRank的WeiboRank算法. Yuang[8]利用被關(guān)注度替代粉絲數(shù)來消除微博中虛假粉絲數(shù)的影響, 重新定義影響因子, 并結(jié)合PageRank對用戶影響力進行評價. Lu[9]根據(jù)特定話題下的用戶個體特征和轉(zhuǎn)發(fā)特征, 引入時間衰減函數(shù), 提出了PageRank的改進意見領(lǐng)袖模型(IOLM). Xiong[10]根據(jù)微博信息轉(zhuǎn)發(fā)關(guān)系, 構(gòu)建了意見領(lǐng)袖網(wǎng), 將HITS算法應(yīng)用于用戶權(quán)威值和中心值計算, 提出了HITS-BOWR算法.

      在評分模型構(gòu)建方面, 主要分析影響力相關(guān)屬性,對特定參數(shù)進行提取. Liu[11]從用戶影響力和用戶活躍度兩個角度考慮, 提出了使用層次分析法和粗糙集決策分析法對意見領(lǐng)袖特征進行識別, 并提取決策規(guī)則,最后在研究中發(fā)現(xiàn)意見領(lǐng)袖是主題依賴的. Wang[12]在研究中得出用戶的關(guān)注量、粉絲量、身份認證和發(fā)布的微博量這四個方面是意見領(lǐng)袖識別的關(guān)鍵, 并以這四個方面作為參數(shù)建立了意見領(lǐng)袖識別模型. Li[13]提出以活躍度、傳播力和覆蓋度三個指標(biāo)來評估微博意見領(lǐng)袖的影響力, 構(gòu)建評估指標(biāo)體系, 并利用層次分析法和屬性特征權(quán)重排序得到影響力的最終值. Ding[14]綜合考慮了轉(zhuǎn)發(fā)關(guān)系、回復(fù)關(guān)系、復(fù)制關(guān)系、閱讀關(guān)系, 提出了基于多關(guān)系網(wǎng)絡(luò)的隨機游走模型MultiRank, 并將用戶分為“多話題層次影響力個體”和“單話題層次影響力個體”. Wang[15]根據(jù)意見領(lǐng)袖在信息傳播中難以量化表示的問題, 提出了一種基于消息傳播的微博意見領(lǐng)袖影響力建模與測量分析方法, 可以定量地對傳播過程的初始影響力、影響力衰減指數(shù)及其影響力持續(xù)時間等指標(biāo)進行評價.

      在基于消息轉(zhuǎn)播網(wǎng)絡(luò)的研究中, 主要在轉(zhuǎn)發(fā)關(guān)系的基礎(chǔ)上進行研究, 分析節(jié)點的影響力. Zhao[16]根據(jù)影響力擴散模型(IDM)存在的缺陷, 引入了有效關(guān)鍵詞語概念, 并對信息設(shè)置影響因子, 提出了一種新的影響力擴散概率模型(IDPM), 更加有效地評價影響力. Zhou[17]針對傳統(tǒng)意見交互模型的構(gòu)建環(huán)境是封閉的社交網(wǎng)絡(luò), 提出一種基于意見領(lǐng)袖引導(dǎo)作用的網(wǎng)絡(luò)輿論演化分析方法. Zhang[18]根據(jù)區(qū)分微博中用戶的轉(zhuǎn)發(fā)行為分為“主題相關(guān)轉(zhuǎn)發(fā)”和“跟隨轉(zhuǎn)發(fā)”兩種關(guān)系, 指出被轉(zhuǎn)發(fā)概率高而具有高影響力的用戶不一定是專家,提出了一種基于主題模型的概率生成模型.

      3 背景知識

      PageRank[4]是一種根據(jù)網(wǎng)頁之間的超鏈接關(guān)系進行評級的網(wǎng)頁排名算法. 該算法基于“從許多優(yōu)質(zhì)的網(wǎng)頁鏈接過來的網(wǎng)頁, 必定還是優(yōu)質(zhì)網(wǎng)頁”的回歸關(guān)系, 來判定網(wǎng)頁的重要性. 該算法認為一個網(wǎng)頁A對于另一個網(wǎng)頁B的鏈接可以認為是網(wǎng)頁A對網(wǎng)頁B進行了一次支持性投票, 根據(jù)每個網(wǎng)頁獲得的票數(shù)來代表自己的重要性. PageRank同時還考慮各網(wǎng)頁本身的特性, 越重要的頁面對支持的頁面將給予較高的PageRank值. PageRank算法應(yīng)用需要滿足: ①網(wǎng)頁之間必須是強連通的; ②網(wǎng)頁鏈接不能指向自身.

      圖1 PageRank網(wǎng)頁鏈接示意圖

      如圖1所示為網(wǎng)頁之間通過超鏈接關(guān)系形成的鏈接網(wǎng)絡(luò), 網(wǎng)頁B和網(wǎng)頁C鏈接到網(wǎng)頁A, 表示網(wǎng)頁B和網(wǎng)頁C對網(wǎng)頁A支持. PageRank值(PR值)的計算公式如下:

      公式(1)中, PR(A)為網(wǎng)頁A的PageRank值, 即網(wǎng)頁重要性評分. i表示鏈接到網(wǎng)頁A的網(wǎng)頁, 在圖1中有網(wǎng)頁B和網(wǎng)頁C. C(Ti)表示網(wǎng)頁i鏈接到其他網(wǎng)頁的數(shù)量, 當(dāng)一個網(wǎng)頁的鏈出頁面越多, 支持力越低. d表示網(wǎng)頁轉(zhuǎn)移概率, 即用戶關(guān)閉當(dāng)前頁面隨機瀏覽另一個頁面的概率.

      Wang[12]于2011年的研究中對中文微博和意見領(lǐng)袖特征進行分析, 得出關(guān)注用戶數(shù)量、粉絲數(shù)量、是否被驗證身份和發(fā)布的微博數(shù)量這四個方面是意見領(lǐng)袖識別的關(guān)鍵. 在文獻11中提出了微博客用戶重要性評分模型(原始模型):

      公式(2)中4個乘法因子分別對應(yīng)于關(guān)注用戶數(shù)量、發(fā)布的微博數(shù)量、粉絲數(shù)量和是否被驗證身份, 并進行規(guī)范化.

      Lu[9]在2015年的研究中對原始模型進行修正, 在研究中表明用戶之間的轉(zhuǎn)發(fā)關(guān)系不可忽略, 因為粉絲數(shù)少的用戶的某條微博也可能受到很多關(guān)注, 同時得到大量的轉(zhuǎn)發(fā), 在某一話題下, 該用戶的影響力也是可以很高的. 針對轉(zhuǎn)發(fā)關(guān)系, Lu在研究中結(jié)合了PageRank算法的基本思想, 根據(jù)用戶的轉(zhuǎn)發(fā)行為構(gòu)建了一個關(guān)系網(wǎng)絡(luò), 并考慮了影響力的時間衰減. 在文獻[8]中提出了意見領(lǐng)袖識別模型(IOLM):

      公式(4)中, S(Tt)表示主題T下用戶t的影響力, 與公式(2)的計算方法相同. C(Ti)表示用戶i轉(zhuǎn)載微博的總量, 參數(shù)γ作為權(quán)重參數(shù). 公式(5)中, day表示未發(fā)表微博的天數(shù).

      以上學(xué)者提出的三種意見領(lǐng)袖的檢測算法仍然存在各自的缺點, 本文結(jié)合三種算法的優(yōu)點, 以特定主題下的微博轉(zhuǎn)發(fā)關(guān)系構(gòu)建信息傳播網(wǎng)絡(luò), 提出一種在特定話題轉(zhuǎn)發(fā)網(wǎng)絡(luò)下的意見領(lǐng)袖檢測方法.

      4 特定話題下的意見領(lǐng)袖識別模型

      基于Twitter的研究表明: 在信息傳播過程中, 用戶影響力與其粉絲數(shù)量呈弱相關(guān)[19], 粉絲數(shù)量只是意見領(lǐng)袖的必要條件. 而草根用戶在特定話題下的傳播中更容易獲得用戶的關(guān)注而提升影響力[6]. 由于微博中具有許多社會名人、網(wǎng)絡(luò)紅人等, 他們本身具有大量的粉絲, 使得他們發(fā)布的信息更容易傳播出去, 但在某些話題下他們更加傾向于對事件進行傳播而不具有權(quán)威性. 傳統(tǒng)意見領(lǐng)袖檢測方法往往將影響力和傳播力等價關(guān)聯(lián), 這樣導(dǎo)致粉絲數(shù)較少的草根用戶的影響力被社會名人等粉絲大戶淹沒. HITS-BOWR算法[10]中明確地計算了用戶的權(quán)威值和中心值, 但是該算法僅僅考慮了轉(zhuǎn)發(fā)關(guān)系, 忽略了用戶本身發(fā)布的微博內(nèi)容產(chǎn)生的其他影響, 經(jīng)過多次迭代后仍然容易使同一用戶的權(quán)威值和中心值較為接近.

      Liu在2011年研究中提出, 意見領(lǐng)袖是主題依賴的[11], 因此用戶的影響力往往隨話題的領(lǐng)域性而發(fā)生變化權(quán)威性變化. 同樣地, 傳統(tǒng)意見領(lǐng)袖檢測方法缺少對主題進行區(qū)分, 由于不同主題的影響力是相互獨立的, 用戶過去的發(fā)布的熱門話題微博影響力不能或者只能部分影響到新發(fā)布的微博. 因此在考慮用戶當(dāng)前話題影響力時, 以往發(fā)布話題微博的影響力只能作為用戶活躍度的一部分.

      在話題微博生存期方面, 意見領(lǐng)袖的話題影響力并不是簡單地隨時間的推移進行衰減, 因為微博主題本身具有一定的生存期, 在主題的熱度也隨時間而下降, 但是早期的意見領(lǐng)袖對該主題造成的影響不并隨著時間而下降, 相反地, 有可能因為粉絲數(shù)的轉(zhuǎn)發(fā)關(guān)系而是影響力繼續(xù)上升. 因此本文針對傳統(tǒng)意見領(lǐng)袖存在的以上三個方面的缺點進行改進, 使得算法能更加較有效地檢測出具有主題相關(guān)性和話題權(quán)威性的意見領(lǐng)袖.

      4.1 用戶影響力計算方法

      本文將權(quán)威性的評分指標(biāo)分為用戶本身在該話題下具有的權(quán)威性和其他用戶通過轉(zhuǎn)發(fā)關(guān)系貢獻的支持力. 特定話題的微博消息轉(zhuǎn)發(fā)網(wǎng)絡(luò)中, 用戶具有的權(quán)威性衡量指標(biāo)分為: ①參與用戶發(fā)布特定話題的微博的用戶數(shù)(取代用戶粉絲數(shù)); ②用戶發(fā)布的微博在消息網(wǎng)絡(luò)傳播中的節(jié)點熱度; ③其他用戶對該話題微博的專注度. 轉(zhuǎn)發(fā)網(wǎng)絡(luò)中, 轉(zhuǎn)發(fā)用戶對某一微博的支持力主要體現(xiàn)在當(dāng)日內(nèi)該微博得到用戶的重視程度.

      定義1. 特定話題下發(fā)布的微博的用戶具有的權(quán)威性評價公式:

      公式(5)中, A函數(shù)對用戶特定話題下的轉(zhuǎn)發(fā)量進行評價, K函數(shù)對話題在信息傳播網(wǎng)中的推動力進行評價, P函數(shù)對用戶的話題專注度進行評價, 在數(shù)據(jù)預(yù)處理階段對同一屬性的數(shù)據(jù)進行最大最小值規(guī)范化處理. 并且使三個函數(shù)的最大值控制在2以下.

      定義2. 特定話題下用戶發(fā)布的微博轉(zhuǎn)發(fā)量評價函數(shù)

      公式(6)中, Forwardu表示用戶u在特定話題i下發(fā)表的微博得到的轉(zhuǎn)發(fā)量.n表示意見領(lǐng)袖參考數(shù)量, 由于微博轉(zhuǎn)發(fā)數(shù)量呈現(xiàn)長尾效應(yīng)(在下一節(jié)實驗部分證明), 極大部分微博只有很少的轉(zhuǎn)發(fā)量, 因此傳播網(wǎng)絡(luò)中的總體轉(zhuǎn)發(fā)量均值很低, 只需要研究轉(zhuǎn)發(fā)量排名前n個的用戶, 在研究中n取60. Top(n)表示轉(zhuǎn)發(fā)量前n名的用戶的標(biāo)簽. Max()為取最大值函數(shù). 轉(zhuǎn)發(fā)量可以較好地表征用戶對微博的興趣程度, 因此該公式可以評價出微博受到的關(guān)注程度. 由于轉(zhuǎn)發(fā)量的長尾現(xiàn)象,導(dǎo)致大部分用戶的值為負數(shù), 因此在這里最小值都設(shè)為0.001.

      圖2 最小二乘法計算擬合曲線斜率

      定義3. 用戶對話題的專注度

      公式(8)中, TNumu表示用戶在發(fā)布特定話題當(dāng)日的轉(zhuǎn)發(fā)其他話題微博的數(shù)量.

      圖3 話題微博信息傳播樹狀圖

      在微博消息傳播網(wǎng)絡(luò)中, 用戶通過轉(zhuǎn)發(fā)關(guān)系對微博信息進行擴展, 同時微博與轉(zhuǎn)發(fā)微博之間滿足一對多關(guān)系, 因此特定話題微博的消息傳播網(wǎng)絡(luò)可以以樹狀圖的形式展示. 如圖3所示, 在信息傳播的樹狀圖中有明顯的層次關(guān)系, 第i層的微博與第i+1層的微博有一對多的轉(zhuǎn)發(fā)關(guān)系, 與i-1層有一對一的轉(zhuǎn)發(fā)關(guān)系,相鄰兩層之間有直接的轉(zhuǎn)發(fā)關(guān)系. 并且由于影響力的支持直接影響上一層微博, 相隔層數(shù)越多, 支持力越弱, 因此可以通過迭代關(guān)系進行計算支持力.

      定義4. 特定主題的意見領(lǐng)袖識別模型(TOLM):公式(9)中, TScore(u)即為特定主題的意見領(lǐng)袖識別模型中用戶U的影響力評分. γ為權(quán)重參數(shù), 實驗中取0.8, l表示具有通過轉(zhuǎn)發(fā)關(guān)系相連接的用戶, 通過迭代關(guān)系可知, 相鄰層數(shù)越多的用戶, 具有的權(quán)重越低.

      4.2 數(shù)據(jù)收集和模型檢測框架

      研究中所分析的數(shù)據(jù)都來自于新浪微博中熱點話題下用戶的信息轉(zhuǎn)發(fā)網(wǎng)絡(luò). 當(dāng)前流行的數(shù)據(jù)獲取方法主要有兩種: 1)由新浪微博開放平臺提供的應(yīng)用程序編程接口(簡稱微博API); 2)網(wǎng)絡(luò)爬蟲程序?qū)崟r抓取.一方面, 由于微博API對接口開放的限制, 部分接口為高級權(quán)限接口, 需要申請才可以調(diào)用, 不利于數(shù)據(jù)收集的全面性; 另一方面, 由于微博API數(shù)據(jù)搜索返回的數(shù)量限制, 不利于數(shù)據(jù)收集的完整性. 因此在研究中主要還是通過設(shè)計爬蟲腳本來抓取微博數(shù)據(jù).

      研究中的模型框架如圖4所示, 第一步中需要人工輸入需要檢測的話題關(guān)鍵詞信息, 或者通過詞共現(xiàn)聚類方法找出特定話題下的熱點詞匯, 關(guān)鍵詞信息直接關(guān)系著后續(xù)微博的話題類別. 微博信息分析階段,主要是提取三部分內(nèi)容: ①用戶(近期微博發(fā)布情況);②話題微博(轉(zhuǎn)發(fā)數(shù), 轉(zhuǎn)發(fā)用戶, 時間); ③粉絲(參與轉(zhuǎn)發(fā)的用戶信息). 在數(shù)據(jù)庫信息反饋階段, 由于話題的輿論走向和意見領(lǐng)袖的影響力與日發(fā)生變化, 需要定時更新話題熱點詞匯以及用戶的影響力. 在同一話題下, 原創(chuàng)微博之間具有相互獨立性, 并且都以樹狀網(wǎng)絡(luò)的傳播方式呈現(xiàn); 總體上相同話題下的多個原創(chuàng)微博信息傳播呈現(xiàn)出森林結(jié)構(gòu).

      圖4 模型檢測框架

      5 實驗結(jié)果分析

      本實驗通過網(wǎng)絡(luò)爬蟲軟件, 于2016年3月2日至3月18日對新浪微博熱門話題下的微博信息進行抓取,并存入數(shù)據(jù)庫. 如表1所示, 在研究中提取了三個話題類別, 并剔除重復(fù)微博和干擾用戶(包括廣告用戶、話題無關(guān)用戶、僵尸用戶等).

      表1 研究中的話題微博內(nèi)容

      實驗一. 微博話題生存期變化情況

      圖5 話題微博生存期數(shù)量變化示意圖

      圖6 兩周內(nèi)話題微博日發(fā)布量和總量變化示意圖

      圖7 兩周內(nèi)用戶日參與量變化示意圖

      由圖5中“人機圍棋大戰(zhàn)”、“唐安琪燒傷”和“張怡寧 福原愛”三個話題下的微博可以看出, 熱門話題下的微博發(fā)布情況, 遵循從潛伏期到爆發(fā)期, 再從爆發(fā)期到冷淡期這一規(guī)律, 并且潛伏期到爆發(fā)期的過程較短. 由圖6和圖7可以看出, 在話題的爆發(fā)期間內(nèi), 用戶的參與度達到頂峰, 并且微博發(fā)布量也隨之達到頂峰, 最后微博發(fā)布總量趨向于平緩, 也表示著話題的生存期結(jié)束. 因此可以認為, 意見領(lǐng)袖的檢測關(guān)鍵時間就在潛伏期到爆發(fā)期這一階段, 這一階段微博發(fā)布量大,用戶參與度高; 而爆發(fā)期到冷淡期, 隨著用戶參與量的降低, 話題熱度的下降, 用戶影響力難以擴散. 因此,引證了意見領(lǐng)袖的出現(xiàn)具有時效性這一特點. 同樣, 話題潛伏期到爆發(fā)期這一階段的微博發(fā)布量變化曲線的斜率突增, 有利于對事件的發(fā)展進行判斷.

      實驗二. 轉(zhuǎn)發(fā)網(wǎng)絡(luò)中的長尾現(xiàn)象

      圖8 用戶相同話題下的微博轉(zhuǎn)發(fā)量呈長尾現(xiàn)象

      圖9 用戶在相同話題下的微博發(fā)布量呈長尾現(xiàn)象

      圖10 轉(zhuǎn)發(fā)關(guān)系樹狀圖中轉(zhuǎn)發(fā)層次的微博數(shù)量呈長尾現(xiàn)象

      用戶對于某話題的關(guān)注行為, 主要體現(xiàn)在發(fā)布與話題相關(guān)的微博, 或者轉(zhuǎn)發(fā)話題相關(guān)的微博. 在圖8和圖9中我們可以看出, 用戶們普遍對某話題的關(guān)注行為不會超過兩次, 因此在用戶影響力評估時, 不需要像傳統(tǒng)意見檢測那樣對關(guān)注行為的數(shù)量耗費太多資源. 在話題“人機圍棋大戰(zhàn)”的數(shù)據(jù)庫中, 微博轉(zhuǎn)發(fā)量超過100的原創(chuàng)微博數(shù)量共有60篇, 研究中對這60篇微博分別建立轉(zhuǎn)發(fā)關(guān)系樹狀, 對轉(zhuǎn)發(fā)層次的平均數(shù)進行分析, 同樣發(fā)現(xiàn)樹狀圖中的轉(zhuǎn)發(fā)層次與微博數(shù)量呈長尾現(xiàn)象, 如圖10. 由于用戶轉(zhuǎn)發(fā)關(guān)系共現(xiàn)的支持力以層次關(guān)系迭代運算, 為了節(jié)約成本提高實時性方面, 可以對迭代次數(shù)進行控制, 一般控制在5以內(nèi).

      實驗三. 意見領(lǐng)袖的排名

      表2 不同指標(biāo)下的意見領(lǐng)袖排名

      在表2列出了不同指標(biāo)下的意見領(lǐng)袖排名情況,可以用戶自身權(quán)威值的評價可以很好地突出草根用戶,轉(zhuǎn)發(fā)量的評價可以表示出用戶對其他用戶的影響力,而粉絲量與用戶的影響力只是呈現(xiàn)弱相關(guān)關(guān)系, 因此用戶自身權(quán)威值加支持力來評價一個用戶的影響力能更加貼近實際情況. 在表3中列出了前12名意見領(lǐng)袖的詳細信息, 可以發(fā)現(xiàn)在3月9日這一天的意見領(lǐng)袖數(shù)量較多, 因為該話題在這一天的消息傳播最為迅速,話題的推動力較強, 因此用戶的影響力更容易擴散,同時通過粉絲數(shù)和轉(zhuǎn)發(fā)量排名的比較, 更能模型中通過話題參與用戶來取代粉絲量的有效性.

      表3 模型評分前12名意見領(lǐng)袖信息

      6 結(jié)語

      研究中提出的基于PageRank的意見領(lǐng)袖檢測方法主要以Wang和Lu提出的基本模型為基礎(chǔ), 通過轉(zhuǎn)發(fā)關(guān)系建立了信息傳播網(wǎng)絡(luò), 結(jié)合PageRank的影響力評價方法來對特定話題下的意見領(lǐng)袖進行識別, 提出了特定主題的意見領(lǐng)袖識別模型(TOLM). 未來工作中將進一步結(jié)合話題微博下的情感信息這一屬性來評價意見領(lǐng)袖的影響, 同時加強話題信息傳播網(wǎng)絡(luò)的完整性.

      1 中國互聯(lián)網(wǎng)絡(luò)信息中心.第34次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告.互聯(lián)網(wǎng)天地,2014,(7).

      2 Lazarsfeld PF, Berelson B, Gaudet H. The people’s choice. Eco-Architecture: Harmonisation between Architecture and Nature, 1944, 18(Jan): 154.

      3 Rogers EM, Shoemaker FF. Communication of innovations; a cross-cultural approach. Man, 1971, 9(2): 476.

      4 Brin BS, Page L. The anatomy of a large scale hypertextual Web search engine. Computer Networks and ISDN Systems, 2012.

      5 Jon M, Kleinberg. Authoritative sources in a hyperlinked environment. Journal of the Acm, 1998, 46(5): 604–632.

      6 Weng J, Lim EP, Jiang J, et al. TwitterRank: Finding topic-sensitive influential twitterers. Proc. of the Third International Conference on Web Search and Web Data Mining, WSDM 2010. New York, NY, USA. February 4–6, 2010. 261–270.

      7肖宇,許煒,商召璽.微博用戶區(qū)域影響力識別算法及分析.計算機科學(xué),2012,39(9):38–42.

      8 原福永,馮靜,符茜落.微博用戶的影響力指數(shù)模型.現(xiàn)代圖書情報技術(shù),2012,(6):60–64.

      9 盧偉勝,郭躬德.基于特定話題的微博意見領(lǐng)袖在線檢測方法.計算機應(yīng)用與軟件,2015,32(5):70–74.

      10 熊濤,何躍.微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)中意見領(lǐng)袖的識別與分析.現(xiàn)代圖書情報技術(shù),2013,(6):55–62.

      11劉志明,劉魯.微博網(wǎng)絡(luò)輿情中的意見領(lǐng)袖識別及分析.系統(tǒng)工程,2011,(6):8–16.

      12 王君澤,王雅蕾,禹航,等.微博客意見領(lǐng)袖識別模型研究.新聞與傳播研究,2011,(6):81–88.

      13 李玉貞,胡勇,熊熙,等.微博意見領(lǐng)袖的評估模型.信息安全與通信保密,2013,(2):79–81.

      14 丁兆云,周斌,賈焰,等.微博中基于多關(guān)系網(wǎng)絡(luò)的話題層次影響力分析.計算機研究與發(fā)展,2013,50(10):2155–2175.

      15 王晨旭,管曉宏,秦濤,等.微博消息傳播中意見領(lǐng)袖影響力建模研究.軟件學(xué)報,2015,26(6):1473–1485.

      16 趙靜.影響力擴散概率模型及其用于意見領(lǐng)袖發(fā)現(xiàn)研究[碩士學(xué)位論文].重慶:重慶郵電大學(xué),2013.

      17 周而重,鐘寧,黃佳進.基于意見領(lǐng)袖引導(dǎo)作用的網(wǎng)絡(luò)輿論演化研究.計算機科學(xué),2013,40(11):287–290.

      18 張臘梅,黃威靖,陳薇,等.EMTM:微博中與主題相關(guān)的專家挖掘方法.計算機研究與發(fā)展,2015,52(11):2517–2526.

      19 Asur S, Huberman BA, Szabo G, et al. Trends in social media: Persistence and decay. Ssrn Electronic Journal, 2011.

      Opinion Leader Detection Method in the Communication Network of the Specific Topic

      LAN Tian1,2,3, GUO Gong-De1,212
      (School of Mathematics and Computer Science, Fujian Normal University, Fuzhou 350007, China) (Network Security and Cryptography Key Laboratory of Fujian Province, Fujian Normal University, Fuzhou 350007, China)3(Information and Network Center, Longyan University, Longyan 364012, China)

      For the problems of the deficiency of existing recognition model of the Chinese weibo opinion leaders, one detection method of opinion leaders in a dissemination network of the specific topic is proposed. A recognition model based on the forward relations on the basis of information dissemination network is proposed in this paper, and the influence of users comes from their own authority and the support of forwarding user. An experiment of weibo opinion leader detection for about two weeks which is concentrated in a certain topic verifies that this method can effectively detect the opinion leader of the specific topic.

      opinion leader; public opinion monitoring; communication network; recognition model

      2016-03-26;收到修改稿時間:2016-04-29

      10.15888/j.cnki.csa.005485

      猜你喜歡
      領(lǐng)袖網(wǎng)頁影響力
      領(lǐng)袖風(fēng)范
      黃河之聲(2022年6期)2022-08-26 06:46:04
      咱們的領(lǐng)袖毛澤東
      天才影響力
      NBA特刊(2018年14期)2018-08-13 08:51:40
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
      電子制作(2018年10期)2018-08-04 03:24:38
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      黃艷:最深遠的影響力
      領(lǐng)袖哲學(xué)
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      電子測試(2015年18期)2016-01-14 01:22:58
      平民領(lǐng)袖
      3.15消協(xié)三十年十大影響力事件
      濮阳县| 嫩江县| 禹州市| 日喀则市| 辽中县| 新源县| 克山县| 洪湖市| 连州市| 广宗县| 广昌县| 台江县| 东丰县| 北海市| 永兴县| 抚州市| 宁德市| 微山县| 金湖县| 宜宾县| 锦屏县| 惠安县| 密山市| 玛多县| 图们市| 当涂县| 泗阳县| 安顺市| 东丽区| 皋兰县| 甘南县| 祁连县| 竹山县| 湘西| 盐边县| 监利县| 瑞安市| 莱州市| 开封市| 长寿区| 宜宾市|