• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于MUK-means算法的微博輿情意見領(lǐng)袖群識(shí)別

      2019-02-07 05:32:15李熠輝李冠趙衛(wèi)東
      軟件導(dǎo)刊 2019年12期

      李熠輝 李冠 趙衛(wèi)東

      摘要:推動(dòng)微博輿情事件演化是眾多意見領(lǐng)袖共同作用的結(jié)果,因此識(shí)別意見領(lǐng)袖群對(duì)于輿情事件的監(jiān)管具有重要作用。提出微博輿情話題下的意見領(lǐng)袖群識(shí)別模型,綜合考慮用戶屬性特征、交互特征和網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)微博輿情下用戶影響力評(píng)估算法MUR,并結(jié)合K-means算法形成MUK-means算法,實(shí)現(xiàn)對(duì)意見領(lǐng)袖群的識(shí)別。以新浪微博數(shù)據(jù)進(jìn)行實(shí)驗(yàn),MUK-means算法的聚類時(shí)間(14s)遠(yuǎn)遠(yuǎn)少于傳統(tǒng)K-means算法(32s),而且基于MUK-means算法得到的意見領(lǐng)袖群的用戶覆蓋率高達(dá)86.3%。實(shí)驗(yàn)結(jié)果表明,MUK-means算法改進(jìn)了K-means算法初始聚類中心不確定的缺點(diǎn),不僅提高了聚類效率,而且實(shí)現(xiàn)了對(duì)意見領(lǐng)袖群的有效識(shí)別。

      關(guān)鍵詞:微博輿情;MUR;MUK-means;意見領(lǐng)袖群

      DOI:10.11907/rjd k.192007

      中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2019)012-0030-05

      0引言

      網(wǎng)絡(luò)輿情事件是指在網(wǎng)絡(luò)世界中,由于各種刺激人們對(duì)于該事件所有的認(rèn)知、態(tài)度、情感和行為傾向的集合。網(wǎng)絡(luò)輿情事件的突發(fā)性、環(huán)境隱蔽性和網(wǎng)絡(luò)用戶素質(zhì)參差不齊,都加大了社會(huì)公共治理難度。在通過(guò)法律手段對(duì)網(wǎng)絡(luò)環(huán)境進(jìn)行規(guī)范的同時(shí),應(yīng)更關(guān)注意見領(lǐng)袖對(duì)普通網(wǎng)民潛移默化的影響,正確的思想方向與規(guī)范的言論能夠正確引導(dǎo)普通網(wǎng)民對(duì)待輿情事件的態(tài)度,繼而影響事件的發(fā)展態(tài)勢(shì)。微博作為國(guó)內(nèi)主流社交平臺(tái),不僅擁有龐大的用戶群,便捷化、大眾化和實(shí)時(shí)性等特點(diǎn)更使其成為網(wǎng)絡(luò)輿情事件形成和發(fā)展的主要陣地。在微博這個(gè)社會(huì)網(wǎng)絡(luò)中,“意見領(lǐng)袖”不是指某一個(gè)體,單個(gè)的意見領(lǐng)袖并不能牽動(dòng)全局,對(duì)輿情事件的引導(dǎo)、推動(dòng)作用是眾多意見領(lǐng)袖共同作用的結(jié)果。因此,準(zhǔn)確識(shí)別出意見領(lǐng)袖群,對(duì)于網(wǎng)絡(luò)輿情事件管理具有重大意義。

      1相關(guān)工作

      近年來(lái),國(guó)內(nèi)外學(xué)者在意見領(lǐng)袖識(shí)別方面作了大量研究,主要分為3個(gè)方向:基于鏈路分析的方法、基于社會(huì)網(wǎng)絡(luò)分析的方法和基于用戶特征的方法。

      基于鏈路分析的方法主要以網(wǎng)頁(yè)排序算法PageRank及其拓展算法為基礎(chǔ),根據(jù)用戶間的鏈接關(guān)系對(duì)影響力進(jìn)行迭代計(jì)算。這種算法主要研究用戶間的交互行為,忽略了對(duì)交互內(nèi)容的分析。對(duì)此,朱茂然通過(guò)分析回帖的情感傾向,計(jì)算情感權(quán)重,提出了Leader-PageRank算法。

      傳統(tǒng)基于社會(huì)網(wǎng)絡(luò)分析的方法通過(guò)用戶間的關(guān)系構(gòu)建社會(huì)網(wǎng)絡(luò),利用節(jié)點(diǎn)人度、點(diǎn)度中心性、中間中心性、接近中心性等結(jié)構(gòu)要素實(shí)現(xiàn)關(guān)鍵節(jié)點(diǎn)識(shí)別。Dewi提出通過(guò)定義社會(huì)網(wǎng)絡(luò)中邊緣類型尋找意見領(lǐng)袖。但是基于社會(huì)網(wǎng)絡(luò)分析的方法在考慮節(jié)點(diǎn)全局性的同時(shí),忽略了節(jié)點(diǎn)自身屬性特征。

      基于用戶特征的方法主要利用層次分析法,通過(guò)對(duì)提取的特征加權(quán),實(shí)現(xiàn)對(duì)用戶影響力的綜合評(píng)價(jià),但是由于缺乏統(tǒng)一標(biāo)準(zhǔn),往往會(huì)造成特征提取不全面。因此在微博輿情事件下,綜合分析用戶交互內(nèi)容、用戶自身特性及其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)對(duì)意見領(lǐng)袖群的識(shí)別具有重要意義。

      上述研究雖然從不同角度實(shí)現(xiàn)了對(duì)用戶影響力的評(píng)估,但對(duì)意見領(lǐng)袖范圍進(jìn)行確定時(shí),往往采用排名閾值方式,而閾值由研究者自己決定,具有很強(qiáng)的不確定性和人為性。為了解決此問(wèn)題,本文提出微博輿情話題下的意見領(lǐng)袖群識(shí)別模型:綜合考慮用戶屬性特征、交互特征和網(wǎng)絡(luò)結(jié)構(gòu),借鑒PageRank算法思想,提出了MUR(Microb-log-lyric User-Influence Rank)算法實(shí)現(xiàn)對(duì)用戶影響力評(píng)估,并將MUR算法與K-means算法相結(jié)合得到MUK-means(Microblog-lyric User-Influence-based K-means)算法,以影響力最大的用戶為簇心進(jìn)行聚類,識(shí)別意見領(lǐng)袖群,得到意見領(lǐng)袖的范圍。

      2微博輿情話題下的意見領(lǐng)袖群識(shí)別

      微博輿情話題下的意見領(lǐng)袖群識(shí)別模型如圖1所示,主要包括4個(gè)方面:①數(shù)據(jù)獲取及處理,主要任務(wù)是對(duì)以Python語(yǔ)言編寫程序爬取的輿情數(shù)據(jù)進(jìn)行預(yù)處理;②用戶特征分析,從用戶活躍度和影響力角度對(duì)用戶屬性特征進(jìn)行詮釋,用戶的交互特征是從語(yǔ)義角度對(duì)用戶交互過(guò)程中產(chǎn)生的影響力進(jìn)行刻畫;③用戶影響力評(píng)估,借鑒Pager-ank算法思想,綜合用戶屬性特征、交互特征和網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)微博輿情下的用戶影響力評(píng)估算法MUR;④意見領(lǐng)袖群識(shí)別,K-means算法與MUR算法相結(jié)合形成MUK-means算法,實(shí)現(xiàn)對(duì)意見領(lǐng)袖群和一般用戶群初始簇心的確定,以對(duì)用戶進(jìn)行聚類,得到意見領(lǐng)袖群。

      2.1用戶特征分析

      在微博輿情傳播過(guò)程中,用戶影響力是多種因素共同作用的結(jié)果,從靜態(tài)和動(dòng)態(tài)兩個(gè)角度出發(fā),本文選取用戶屬性特征與用戶交互特征作為影響力評(píng)估基礎(chǔ)。

      2.1.1用戶屬性特征

      根據(jù)拉扎斯菲爾德對(duì)意見領(lǐng)袖的定義,意見領(lǐng)袖是小部分具有一定影響力的活躍分子。綜合微博特性和已有研究,本文從用戶活躍度和影響力兩個(gè)維度對(duì)用戶屬性特征進(jìn)行描述。用戶屬性特征組成如圖2所示。

      活躍度A(i)是指用戶單位時(shí)間內(nèi)更新微博的數(shù)量,通過(guò)原創(chuàng)微博數(shù)(M1)和轉(zhuǎn)發(fā)微博數(shù)(M2)體現(xiàn)。微博用戶單位時(shí)間內(nèi)活躍度越高,其在微博輿情話題下保持高活躍度的概率就越大。

      影響力I(f)是身份認(rèn)證(M3)、粉絲數(shù)(M4)和單位時(shí)間內(nèi)微博被轉(zhuǎn)發(fā)率(M5)的綜合體現(xiàn)。微博用戶認(rèn)證意味著更高的可信度與曝光度,認(rèn)證后的用戶極可能被收錄到搜索引擎,使用戶及其所發(fā)微博的曝光度大大增加,而且在一般用戶的認(rèn)知中,經(jīng)過(guò)認(rèn)證的用戶所發(fā)表的文字更加權(quán)威,更使人信服,可信度更高。用戶粉絲量越大,其接觸到的用戶范圍就越大,產(chǎn)生的影響輻射范圍就越大。用戶單位時(shí)間內(nèi)微博被轉(zhuǎn)發(fā)率越高,其在微博輿情話題下發(fā)表的言論被轉(zhuǎn)發(fā)的機(jī)率就越大。

      由于特征數(shù)據(jù)的維度不統(tǒng)一,因此為了方便數(shù)據(jù)處理,使處理結(jié)果更加準(zhǔn)確,本文對(duì)各級(jí)特征數(shù)據(jù)進(jìn)行歸一化處理,采用rain-max方法,對(duì)數(shù)據(jù)進(jìn)行線性變換,將數(shù)據(jù)映射到[0,1]區(qū)間內(nèi),轉(zhuǎn)換如式(1)所示。

      2.1.2用戶交互特征

      意見領(lǐng)袖的權(quán)威度來(lái)自于其他用戶對(duì)其言論的認(rèn)可,在微博輿情傳播過(guò)程中,轉(zhuǎn)發(fā)量和評(píng)論量是對(duì)其最直接的體現(xiàn)。但是在對(duì)意見領(lǐng)袖進(jìn)行識(shí)別過(guò)程中,單純地對(duì)數(shù)據(jù)量進(jìn)行疊加并不能很好地詮釋用戶在交互過(guò)程中產(chǎn)生的影響力,因此本文同時(shí)從語(yǔ)義角度出發(fā)對(duì)用戶交互特征進(jìn)行分析:通過(guò)判斷轉(zhuǎn)發(fā)、評(píng)論內(nèi)容與原微博情感極性是否一致,作為互動(dòng)行為有效性的依據(jù)。

      在已有研究中,往往通過(guò)正向情感占比實(shí)現(xiàn)對(duì)微博情感支持率的分析,由于情感粒度劃分較粗,只統(tǒng)計(jì)正向情感的比例容易忽略關(guān)鍵信息,如在負(fù)面輿情事件中,博主發(fā)表微博“愿逝者安息,英雄一路走好”表達(dá)悲傷,情感極性為負(fù)向,而評(píng)論“太悲傷了”,情感極性雖然為負(fù)向,但表達(dá)的是對(duì)博主言論的支持,博主的言論對(duì)其產(chǎn)生了影響。為了改進(jìn)上述問(wèn)題,本文通過(guò)判斷轉(zhuǎn)發(fā)、評(píng)論內(nèi)容與原微博情感極性是否一致對(duì)用戶獲取的情感支持,即產(chǎn)生的影響力進(jìn)行衡量。本文采用FastText分類器對(duì)微博內(nèi)容進(jìn)行情感極性分析,將情感極性分為正向和負(fù)向兩類。FastText是Mikolov于2016年提出的一種快速文本分類器,能夠獲得與深度學(xué)習(xí)分類器相近的準(zhǔn)確率,但運(yùn)行效率遠(yuǎn)遠(yuǎn)高于深度學(xué)習(xí)分類器,保證了輿情快速演化過(guò)程中情感極性的準(zhǔn)確快速識(shí)別。獲得情感極性分類后,定義在微博輿情傳播過(guò)程中,情感一致的轉(zhuǎn)發(fā)、評(píng)論行為視為有效互動(dòng)行為,用戶有效互動(dòng)值Eij計(jì)算如式(5)所示。

      2.2基于MUR的用戶影響力評(píng)估

      微博輿情下用戶間的互動(dòng)網(wǎng)絡(luò)可以抽象為有向加權(quán)圖G(v,E),其中v表示節(jié)點(diǎn)集合,E表示邊的集合。將參與輿情話題討論的用戶看作節(jié)點(diǎn),若用戶間存在互動(dòng)關(guān)系,構(gòu)建用戶間的有向邊,邊的權(quán)值由用戶間的有效互動(dòng)率確定。

      PageRank算法是衡量網(wǎng)絡(luò)中網(wǎng)頁(yè)重要程度的經(jīng)典算法,基于微博拓?fù)浣Y(jié)構(gòu)與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的相似性,本文借鑒PageRank算法思想,提出了微博輿情用戶影響力評(píng)估算法MUR,具體計(jì)算如式(6)所示。原始PageRank算法只考慮了網(wǎng)絡(luò)結(jié)構(gòu),在影響力分配過(guò)程中往往采取平均分配原則,既忽視了用戶節(jié)點(diǎn)本身影響力大小的不同,也忽視了傳遞過(guò)程中用戶受影響程度的不同。鑒于此,本文將用戶屬性特征值P(i)作為節(jié)點(diǎn)初值,根據(jù)有效互動(dòng)率分配用戶影響力,對(duì)傳統(tǒng)PageRank算法進(jìn)行改進(jìn)。

      2.3基于MUK-means的意見領(lǐng)袖群識(shí)別

      K-means算法是一種無(wú)監(jiān)督學(xué)習(xí)的聚類算法,基于物以類聚的思想,對(duì)內(nèi)在相似性大的數(shù)據(jù)進(jìn)行分類組織,其因簡(jiǎn)單高效而應(yīng)用廣泛,但初始聚類中心的不確定性容易使K-means算法陷入局部最優(yōu)解,造成聚類結(jié)果不穩(wěn)定。本文提出將MUR算法和K-means算法結(jié)合形成MUK-means算法,在有效解決初始聚類中心不確定的同時(shí),實(shí)現(xiàn)對(duì)意見領(lǐng)袖群的識(shí)別。在識(shí)別意見領(lǐng)袖時(shí),用戶總會(huì)被劃分為意見領(lǐng)袖和非意見領(lǐng)袖,則可確定劃分K值為2。MUR算法優(yōu)化了PageRank算法,得到微博輿情話題下微博用戶影響力從高到低的準(zhǔn)確排名,用戶的MUI值越大,其影響力就越大,排名越高。將MUR算法與K-means算法相結(jié)合,MUI值最高的用戶代表意見領(lǐng)袖簇的聚類中心,MUI值最低的用戶代表非意見領(lǐng)袖簇的聚類中心,避免了聚類中心的隨機(jī)性,保證了簇間距離的最大化,優(yōu)化了聚類效果,同時(shí)也得到了意見領(lǐng)袖群和一般用戶群。

      3實(shí)驗(yàn)與結(jié)果分析

      3.1實(shí)驗(yàn)數(shù)據(jù)收集預(yù)處理

      本文基于新浪微博提供的開放API,以“重慶公交車墜江”作為關(guān)鍵詞,爬取2018年10月28日-2018年11月2日的相關(guān)傳播數(shù)據(jù),詳細(xì)數(shù)據(jù)集信息如表1所示。此外,實(shí)驗(yàn)數(shù)據(jù)還包括用戶基礎(chǔ)信息:粉絲數(shù)、認(rèn)證信息及其近一個(gè)月內(nèi)發(fā)表、轉(zhuǎn)發(fā)微博的相關(guān)信息。

      在收集的數(shù)據(jù)集中,僅包含“#重慶公交車墜江#”話題標(biāo)簽的微博數(shù)據(jù)有539條,不能作為有效數(shù)據(jù)進(jìn)行分析,在過(guò)濾掉無(wú)效數(shù)據(jù)后,剩余45519條微博,參與討論(發(fā)布原創(chuàng)微博或轉(zhuǎn)發(fā)微博)的用戶數(shù)為39074,有12642個(gè)用戶發(fā)表了原創(chuàng)微博,但是沒(méi)有引起任何轉(zhuǎn)發(fā)和評(píng)論,有16007個(gè)用戶轉(zhuǎn)發(fā)他人微博后并沒(méi)有引發(fā)二次轉(zhuǎn)發(fā)。本文將對(duì)剩余的10425個(gè)用戶及其互動(dòng)關(guān)系構(gòu)造的網(wǎng)絡(luò)進(jìn)行影響力計(jì)算。

      3.2評(píng)價(jià)指標(biāo)

      (1)用戶覆蓋率(coverage Rate,CR)。由于目前對(duì)用戶影響力沒(méi)有一個(gè)統(tǒng)一的評(píng)價(jià)指標(biāo),本文選用戶覆蓋率指標(biāo)對(duì)用戶影響力評(píng)估準(zhǔn)確性進(jìn)行驗(yàn)證。用戶覆蓋率是指在微博輿情事件中受用戶i影響的用戶數(shù)占總用戶的比例,計(jì)算公式如式(12)所示。NK表示前K個(gè)用戶影響的用戶數(shù)量,Ⅳ表示參與該輿情事件討論的用戶總數(shù)。

      3.4實(shí)驗(yàn)與分析

      3.3.1基于MUR算法的用戶影響力評(píng)估實(shí)驗(yàn)

      將用戶作為種子節(jié)點(diǎn),以用戶間的互動(dòng)關(guān)系構(gòu)建網(wǎng)絡(luò)。提取用戶身份認(rèn)證信息、粉絲數(shù),并以用戶2018年9月27日2018年10月27日一個(gè)月內(nèi)的微博數(shù)據(jù)作為樣本,統(tǒng)計(jì)單位時(shí)間內(nèi)的原創(chuàng)微博數(shù)、轉(zhuǎn)發(fā)微博數(shù)、被轉(zhuǎn)發(fā)微博數(shù)。對(duì)數(shù)據(jù)進(jìn)行歸一化處理后,根據(jù)式(4)計(jì)算用戶屬性值作為節(jié)點(diǎn)初始值。調(diào)用Python的FastText包實(shí)現(xiàn)情感極性的分類,工作流程如圖3所示。通過(guò)情感一致性判別對(duì)有效互動(dòng)值進(jìn)行計(jì)算,并根據(jù)MUR算法計(jì)算式(6)對(duì)互動(dòng)網(wǎng)絡(luò)中的用戶影響力并進(jìn)行迭代計(jì)算,直到每個(gè)節(jié)點(diǎn)的MUI值與上次計(jì)算的MUI值相等,得到每個(gè)用戶最終的影響力值。

      為了驗(yàn)證MUR算法對(duì)用戶影響力評(píng)估的準(zhǔn)確性,采用前K個(gè)用戶的用戶覆蓋率對(duì)MUR算法與UI_LR算法、PageRank算法進(jìn)行對(duì)比。3種算法的用戶覆蓋率結(jié)果如圖4所示。圖4中,MUR算法和UI-LR算法性能明顯優(yōu)于PageRank算法。雖然在前10個(gè)用戶的影響下,UI-LR算法與本文算法覆蓋的用戶范圍十分接近,但是在10名之后的用戶影響下,本文算法覆蓋的用戶范圍更廣,這充分說(shuō)明了MUR算法對(duì)用戶影響力評(píng)估的有效性,同時(shí)保證了初始聚類中心的準(zhǔn)確性。

      3.3.2基于MUK-means算法的意見領(lǐng)袖群識(shí)別實(shí)驗(yàn)

      基于MUK-means算法的意見領(lǐng)袖群識(shí)別,即將意見領(lǐng)袖識(shí)別轉(zhuǎn)換為一個(gè)二分類問(wèn)題,把用戶分為意見領(lǐng)袖和一般用戶。以在用戶影響力評(píng)估中影響力最大和最小的用戶作為初始聚類中心,歸一化后的用戶屬性特征與互動(dòng)特征作為特征向量,利用Python實(shí)現(xiàn)用戶聚類,影響力最大的用戶所在的簇即為意見領(lǐng)袖群。

      由于目前沒(méi)有對(duì)意見領(lǐng)袖群的識(shí)別研究,缺乏對(duì)比算法,為了證明MUK-means算法對(duì)意見領(lǐng)袖群識(shí)別的有效性,通過(guò)DBI指標(biāo)和聚類時(shí)間對(duì)比MUK-means算法與K-means算法的聚類效果,并計(jì)算兩種算法得到意見領(lǐng)袖群用戶覆蓋率,結(jié)果如表2所示。

      從表2可以看出,MUK-means算法運(yùn)行時(shí)間要小于K-means算法,因?yàn)镸UK-means算法對(duì)初始聚類中心的確定,減少了迭代次數(shù),優(yōu)化了原始K-means算法。MUK-means算法的DBI值要低于K-means算法,說(shuō)明MUK-means的聚類效果要優(yōu)于K-means算法,即由MUK-means算法得到的意見領(lǐng)袖群內(nèi)距離更小,相似度更大。從得到的意見領(lǐng)袖群的用戶覆蓋率看,MUK-means算法得到的意見領(lǐng)袖群用戶覆蓋率高達(dá)86.3%,遠(yuǎn)大于K-means算法直接通過(guò)特征聚類得到的結(jié)果,說(shuō)明了MUK-means識(shí)別意見領(lǐng)袖群的有效性。

      4結(jié)語(yǔ)

      本文針對(duì)現(xiàn)有研究對(duì)意見領(lǐng)袖范圍不確定的問(wèn)題,基于對(duì)用戶屬性特征、交互特征和網(wǎng)絡(luò)結(jié)構(gòu)的多角度分析,提出了微博輿情話題下的意見領(lǐng)袖群識(shí)別算法MUK-means。實(shí)驗(yàn)結(jié)果表明,MUK-means算法改進(jìn)了傳統(tǒng)K-means算法初始聚類中心不確定的缺點(diǎn),提高了聚類效率,能夠有效識(shí)別微博輿情話題下的意見領(lǐng)袖群,從而為相關(guān)部門及時(shí)掌握意見領(lǐng)袖范圍,了解輿情動(dòng)態(tài),進(jìn)行輿情控制提供了依據(jù)。然而本文在分析用戶交互特征時(shí),沒(méi)有考慮到網(wǎng)絡(luò)水軍所發(fā)虛假評(píng)論的影響,下一步研究中將對(duì)虛假評(píng)論進(jìn)行過(guò)濾,從而進(jìn)一步提高意見領(lǐng)袖群的識(shí)別準(zhǔn)確率。

      应城市| 贵定县| 天镇县| 奉新县| 嘉兴市| 房产| 岢岚县| 香河县| 敦煌市| 鹤岗市| 大足县| 南平市| 怀来县| 将乐县| 庆元县| 涪陵区| 商丘市| 晋城| 汕头市| 东兰县| 东城区| 昌黎县| 磐石市| 钟祥市| 淅川县| 奇台县| 蓝田县| 息烽县| 塔河县| 宁强县| 浦城县| 宁安市| 内乡县| 曲松县| 兴安县| 天气| 平山县| 小金县| 平阴县| 凤凰县| 宁津县|