• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于聚類定量分析的微博輿情監(jiān)測(cè)與預(yù)警

      2017-04-25 06:28:20李立煊
      傳媒 2017年7期
      關(guān)鍵詞:領(lǐng)袖輿情消息

      文/李立煊

      基于聚類定量分析的微博輿情監(jiān)測(cè)與預(yù)警

      文/李立煊

      隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和時(shí)代的進(jìn)步,微博輿情逐漸進(jìn)入大眾的視野,微博輿情在一定程度反映了民情民意,因此,如何更好地對(duì)網(wǎng)絡(luò)輿情進(jìn)行引導(dǎo)和控制,并進(jìn)行輿情的風(fēng)險(xiǎn)預(yù)警成為目前亟待解決的問題。本文以微博消息為研究對(duì)象,基于K-means算法完成對(duì)微博消息的聚類定量分析,找到所要分析的某類微博內(nèi)容,進(jìn)而在這類微博中找出微博消息意見領(lǐng)袖,提出微博意見領(lǐng)袖影響力評(píng)估算法,完成微博消息預(yù)警模塊的實(shí)現(xiàn),對(duì)微博輿情監(jiān)測(cè)分析系統(tǒng)進(jìn)行研究。

      微博輿情 監(jiān)測(cè)分析 K-means算法 聚類定量分析

      網(wǎng)絡(luò)輿情的重要性已經(jīng)毋庸置疑,有關(guān)網(wǎng)絡(luò)輿情管理與檢測(cè)的研究也日趨成熟,有關(guān)網(wǎng)絡(luò)輿情管理與監(jiān)測(cè)的系統(tǒng)越來越多,微博輿情的分析平臺(tái)也隨之出現(xiàn),不過多數(shù)是為政府和企業(yè)服務(wù),其僅對(duì)有可能爆發(fā)的負(fù)面信息和重大事件進(jìn)行監(jiān)控,不對(duì)普通用戶開放,而有關(guān)微博消息的分析軟件不但費(fèi)用昂貴而且只是對(duì)信息的已傳播軌跡進(jìn)行呈現(xiàn)和分析,既缺乏對(duì)微博消息未來走向的一個(gè)分析預(yù)測(cè),也沒有對(duì)微博消息傳播范圍廣度的分級(jí)。

      對(duì)于微博輿情的監(jiān)測(cè)是要對(duì)微博內(nèi)容進(jìn)行聚類分析,所謂聚類,就是一個(gè)集群的集合。聚類的目的是找到對(duì)象組,進(jìn)而通過數(shù)據(jù)分析確定對(duì)數(shù)據(jù)分析有用的群體。國(guó)內(nèi)學(xué)者對(duì)微博聚類方法進(jìn)行的研究,主要采用劃分法、層次法、基于密度方法、網(wǎng)格方法、模型方法等,其中劃分法作為一種主流的聚類分析方法進(jìn)行初步分類,并采用不斷迭代的方法優(yōu)化分組方案,目前劃分法大都采用定性分析方法,諸如Vlan等方法,對(duì)定量分析的方法尚未有文獻(xiàn)提及。

      一、微博消息的傳播類型

      1.微博消息傳播的特點(diǎn)。微博消息的傳播具有直接性、互動(dòng)性以及突發(fā)性等特點(diǎn),微博網(wǎng)絡(luò)輿情的這三個(gè)典型特點(diǎn),可以看出它與其他輿情傳播存在著顯著差別,而想要對(duì)微博輿情進(jìn)行管理,必須很好的利用這三種特點(diǎn)。

      2.微博用戶狀態(tài)。在調(diào)研文獻(xiàn)時(shí),病毒在傳播的時(shí)候會(huì)出現(xiàn)三種用戶狀態(tài):感染態(tài)、免疫態(tài)、易感染態(tài)。由于病毒傳播與微博消息的傳播相似性,假設(shè)一個(gè)用戶發(fā)布一條消息后,他的粉絲用戶都一定會(huì)看到這條消息,類比病毒傳播的三種狀態(tài),將微博用戶也分為三種狀態(tài):未知狀態(tài)、轉(zhuǎn)發(fā)狀態(tài)、已知不傳播狀態(tài)(見圖1)。

      圖1 微博用戶狀態(tài)圖

      3.微博意見領(lǐng)袖。微博意見領(lǐng)袖的粉絲數(shù)量通常為上萬甚至幾十萬乃至上百萬,成為微博平臺(tái)上的明星,他們常通過與粉絲互動(dòng)引導(dǎo)輿情導(dǎo)向。不過轉(zhuǎn)發(fā)量并不是判斷意見領(lǐng)袖影響力的唯一標(biāo)準(zhǔn),粉絲數(shù)、轉(zhuǎn)發(fā)率以及活躍程度均是評(píng)估意見領(lǐng)袖影響力的重要參考標(biāo)準(zhǔn),通過對(duì)實(shí)驗(yàn)數(shù)據(jù)結(jié)果的總結(jié),可以得出評(píng)估用戶影響力的標(biāo)準(zhǔn):粉絲數(shù)、轉(zhuǎn)發(fā)率、歷史轉(zhuǎn)發(fā)率(該用戶的活躍程度)。

      4.微博傳播模型。微博的傳播模型具有很強(qiáng)的單向性,類似病毒的傳播,病毒感染一臺(tái)主機(jī)則這臺(tái)主機(jī)進(jìn)入感染態(tài),而感染一臺(tái)服務(wù)器,則訪問這臺(tái)服務(wù)器的所有主機(jī)都會(huì)了解這個(gè)病毒,或感染或免疫。微博中消息傳播也是如此,普通用戶相當(dāng)于終端,而微博意見領(lǐng)袖則相當(dāng)于服務(wù)器,區(qū)別在于,消息的接受是被動(dòng)的,只要登錄微博就能看到關(guān)注者的消息,而不像用戶一樣需要登錄服務(wù)器。

      對(duì)微博數(shù)據(jù)的抓取分析可以看到,微博中大V領(lǐng)袖的意見引導(dǎo)著大多數(shù)用戶的意見。在微博信息傳播初期,微博大V的加入會(huì)使消息傳播呈現(xiàn)出爆炸式增長(zhǎng)的趨勢(shì),隨著傳播時(shí)間的不斷增長(zhǎng),微博大V的影響力逐漸衰弱,慢慢趨向于消失。

      通過對(duì)數(shù)據(jù)分析可以發(fā)現(xiàn),消息的傳播廣度與初始微博意見領(lǐng)袖加入的多少有一定關(guān)系,當(dāng)單位時(shí)間內(nèi)意見領(lǐng)袖的影響力達(dá)到了一個(gè)閾值M后,可以認(rèn)為在之后的一段時(shí)間內(nèi),此消息的傳播范圍會(huì)有一個(gè)明顯的增長(zhǎng)。通過研究發(fā)現(xiàn),消息成為熱點(diǎn)有以下三種規(guī)律,每一種都會(huì)在熱點(diǎn)的成長(zhǎng)曲線中出現(xiàn)。對(duì)一個(gè)范圍內(nèi)的微博意見領(lǐng)袖進(jìn)行監(jiān)控,發(fā)現(xiàn)意見領(lǐng)袖對(duì)一條微博消息的轉(zhuǎn)發(fā)比例達(dá)到10%時(shí),可以認(rèn)為此消息會(huì)有一個(gè)廣泛的傳播,會(huì)成為一個(gè)熱點(diǎn)話題;通過對(duì)已知此消息但未轉(zhuǎn)發(fā)的意見領(lǐng)袖的比例與已知此消息并轉(zhuǎn)發(fā)的意見領(lǐng)袖所占比例的對(duì)比,可實(shí)現(xiàn)對(duì)未來的微博消息傳播范圍的判斷;在單位時(shí)間內(nèi)(設(shè)為1個(gè)小時(shí))的消息傳播量達(dá)到一個(gè)閾值M后,可以認(rèn)為此消息傳播進(jìn)入爆發(fā)期,會(huì)出現(xiàn)較大增長(zhǎng),通過設(shè)置不同M值,可對(duì)未來的消息傳播范圍有一個(gè)大致的分級(jí),不同級(jí)別表示預(yù)測(cè)此消息傳播的最大廣度。從趨勢(shì)分析角度來說,以上三種規(guī)律無論應(yīng)用哪一種均可以對(duì)消息傳播趨勢(shì)做一個(gè)分析,采用多種規(guī)律對(duì)趨勢(shì)分析精度的提升也是有限的,而對(duì)一種規(guī)律分析的足夠透徹已經(jīng)可以達(dá)到一個(gè)接受的趨勢(shì)分析的準(zhǔn)確度了。

      二、基于K-means算法的微博輿情監(jiān)測(cè)分析系統(tǒng)

      1.K-means算法概述。K-means在分群方法中視為一個(gè)最為簡(jiǎn)單并且有效率的方法,K-means表示依K個(gè)質(zhì)心(means)做分群。K-means分群算法能在大量數(shù)據(jù)中找尋出最具代表的數(shù)據(jù)點(diǎn)并將其視為質(zhì)心,也就是分群的中心點(diǎn),而后以這些中心點(diǎn)為根據(jù),計(jì)算其他數(shù)據(jù)點(diǎn)與其中心點(diǎn)之距離,例如在大量的資料中,找尋最具代表的K個(gè)數(shù)據(jù)點(diǎn)作為中心點(diǎn)(也就是質(zhì)心),將其他數(shù)據(jù)點(diǎn)與K的中心點(diǎn)分別做距離運(yùn)算,運(yùn)算后可得知各個(gè)數(shù)據(jù)點(diǎn)與K個(gè)中心點(diǎn)的距離,將數(shù)據(jù)點(diǎn)與其計(jì)算出距離最近的中心點(diǎn)分為同一群,而這些距離較近的數(shù)據(jù)點(diǎn),代表與中心點(diǎn)的相似度高,反之,距離較遠(yuǎn)的為較不相似的數(shù)據(jù)點(diǎn),則不會(huì)被分為同一群。K-means還有另一個(gè)優(yōu)勢(shì),可利用少數(shù)的數(shù)據(jù)點(diǎn)(大量數(shù)據(jù)中選出最具代表性的數(shù)據(jù)點(diǎn))來代表大量資料,借此達(dá)到數(shù)據(jù)壓縮效果。本研究主要探討K-means分群的效果,以少數(shù)的數(shù)據(jù)點(diǎn)來代表特定類別之?dāng)?shù)據(jù),降低數(shù)據(jù)的計(jì)算量以及避免噪聲或是其他不良的影響(如圖2)。

      圖2 K-means算法流程圖

      2.微博輿情監(jiān)測(cè)分析系統(tǒng)設(shè)計(jì)流程。如圖3所示,獲得關(guān)鍵詞或核心微博后,從數(shù)據(jù)庫中獲取微博相關(guān)數(shù)據(jù)。將微博內(nèi)容與微博ID掛鉤,用中文分詞系統(tǒng)將微博內(nèi)容進(jìn)行分詞,首先在數(shù)據(jù)庫中新建一表項(xiàng),用于存儲(chǔ)分詞后的文本內(nèi)容;其次繼續(xù)以微博ID為區(qū)分,將分詞后的文本放入K-means算法中進(jìn)行迭代聚類,選出關(guān)鍵詞或核心微博所在類為相關(guān)微博類,刪除數(shù)據(jù)庫中其他無關(guān)微博;最后可篩選出符合微博意見領(lǐng)袖定義的用戶,進(jìn)入微博意見領(lǐng)袖影響力評(píng)估算法,分析出每個(gè)意見領(lǐng)袖的重要程度。以小時(shí)為單位,計(jì)算單位時(shí)間內(nèi)的微博內(nèi)容傳播廣度,設(shè)定不同等級(jí)閾值M,存在超過M值的時(shí)間段即可分析預(yù)測(cè)出消息未來走勢(shì),進(jìn)而將意見領(lǐng)袖重要性在前10名的用戶數(shù)據(jù)反饋數(shù)據(jù)庫,將用戶按時(shí)間順序進(jìn)行排序存儲(chǔ)到數(shù)據(jù)庫交給管理平臺(tái)進(jìn)行結(jié)果反饋,這就是整個(gè)數(shù)據(jù)分析系統(tǒng)的主要流程。

      圖3 微博輿情管理平臺(tái)數(shù)據(jù)分析系統(tǒng)主要流程

      三、微博輿情監(jiān)測(cè)分析系統(tǒng)實(shí)現(xiàn)步驟

      1.微博數(shù)據(jù)轉(zhuǎn)化。向量空間模型廣泛應(yīng)用在信息檢索的相關(guān)領(lǐng)域,例如在文件分類與文件分群。其方法是轉(zhuǎn)換文件(或是查詢語句,在本論文中為試題的關(guān)鍵詞)到向量空間后,在此空間中比對(duì)查詢條件與文件的相似度。字詞頻率的公式最早是由Rocchio于1971年所提出,他經(jīng)過大量的統(tǒng)計(jì)分析后發(fā)現(xiàn),文件中出現(xiàn)次數(shù)為中頻率的字詞,往往是整篇文件中的每一個(gè)不同的詞項(xiàng),在向量中只記錄一個(gè)分量。重要的字詞,或稱為關(guān)鍵詞(Keywords),其中包含以下關(guān)鍵內(nèi)容。一是字詞頻率(Term Frequency,TF):表示在一篇文件中,某個(gè)字詞出現(xiàn)的次數(shù),目的是對(duì)一篇文件中出現(xiàn)次數(shù)為高頻率的字詞加權(quán)。二是文件頻率(Document Frequency,DF):表示某個(gè)字詞有在那幾篇文件出現(xiàn)。三是反文件頻率(Inverse Document Frequency,IDF):將上述的文件頻率取倒數(shù)后乘上所有的文件總數(shù),之后再取自然對(duì)數(shù),目的是為了對(duì)一篇文件中出現(xiàn)次數(shù)為低頻率的字詞作加權(quán)。經(jīng)過VSM分類的文本文檔,可以看做粗略的分類,不過不夠精確,所以需要后續(xù)的文本聚類的精確分類來確定所需要的微博消息。

      2.K-means聚類分析算法流程。輸入:聚類個(gè)數(shù) k以及包含n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集。輸出:滿足目標(biāo)函數(shù)值最小的k個(gè)聚類算法流程:第一步從n個(gè)數(shù)據(jù)對(duì)象中任意選擇k個(gè)對(duì)象作為初始聚類中心;第二步循環(huán)下述流程第三步到第四步,直到目標(biāo)函數(shù)J取值不再變化;第三步根據(jù)每個(gè)聚類對(duì)象的均值(中心對(duì)象),計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離,并且根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分;第四步重新計(jì)算每個(gè)聚類的均值(中心對(duì)象)。

      3.微博意見領(lǐng)袖重要性評(píng)估。從前文中可以知道,微博意見領(lǐng)袖在微博消息傳播中具有重要作用,但對(duì)于影響力大小的衡量需要通過PageRank算法來進(jìn)行評(píng)估。

      對(duì)于意見領(lǐng)袖的影響力評(píng)估,通常采用兩個(gè)指標(biāo)進(jìn)行評(píng)估。一是被轉(zhuǎn)發(fā)量,被轉(zhuǎn)發(fā)量通常指用戶信息被他人轉(zhuǎn)發(fā)的次數(shù)。二是粉絲數(shù)量,粉絲數(shù)量就是該用戶吸收粉絲的數(shù)量。

      圖4 意見領(lǐng)袖用戶傳播率

      為了評(píng)價(jià)微博大V對(duì)用戶的影響力,以及覆蓋的人群數(shù)量,本文通過以上的算法,對(duì)意見領(lǐng)袖累計(jì)覆蓋率進(jìn)行了統(tǒng)計(jì),如圖4所示,從圖中可以看到,意見領(lǐng)袖的信息覆蓋能力超過一般人群,本文的算法從定量角度上準(zhǔn)確衡量微博大V對(duì)用戶的影響力。

      4.微博輿情預(yù)警模塊。微博消息有兩種傳播模式,一種是常見媒體在用戶中的傳播,一種是微博大V的信息傳播模式,圖5就是兩種方式的轉(zhuǎn)發(fā)量時(shí)間曲線圖,例子選擇則是媒體模式選擇的是南方周末“一名中國(guó)公民在波士頓爆炸案中遇難”的消息傳播。微博達(dá)人模式選擇的是“國(guó)學(xué)大師劉文典說過的一句話”,圖6和圖7選擇的是傳播量時(shí)間曲線圖。其中南方周末微博消息在一天時(shí)間內(nèi)的轉(zhuǎn)發(fā)量為997,傳播用戶量接近500萬,《南方周末》的粉絲數(shù)量就占了近450萬,轉(zhuǎn)發(fā)率非常低,但是傳播范圍廣,依然是熱點(diǎn);而微博達(dá)人模式則不一樣,轉(zhuǎn)發(fā)量為724,最終傳播用戶量接近10萬,在一定范圍內(nèi)也成為了熱點(diǎn),而它的傳播時(shí)間圖就和起點(diǎn)很高的《南方周末》圖形很不一樣,有著較高的轉(zhuǎn)發(fā)率,雖然廣度不及《南方周末》,但也形成熱點(diǎn)話題。從兩種模式的傳播圖形中可以看出,傳統(tǒng)的媒體傳播模式在開始的時(shí)候信息傳播數(shù)量猛增,隨后時(shí)間的增長(zhǎng)很快趨近與穩(wěn)定,而微博大V的傳播模式中,信息剛開始傳播數(shù)量緩慢增長(zhǎng),隨著微博大V的加入,傳播消息數(shù)量出現(xiàn)猛增,隨著傳播時(shí)間的繼續(xù)增長(zhǎng),逐漸趨近于穩(wěn)定。這兩個(gè)圖形很好的描述了兩種模式的傳播過程特性。

      圖5 轉(zhuǎn)發(fā)量時(shí)間曲線圖

      圖6 微博達(dá)人模式圖

      圖7 媒體模式傳播圖

      四、小結(jié)

      本文以微博消息為研究對(duì)象,基于K-means算法完成對(duì)微博消息的聚類定量分析,找到所要分析的某類微博內(nèi)容,進(jìn)而在這類微博中找出微博消息意見領(lǐng)袖,提出微博意見領(lǐng)袖影響力評(píng)估算法,完成微博消息預(yù)警模塊的實(shí)現(xiàn),對(duì)微博輿情監(jiān)測(cè)分析系統(tǒng)進(jìn)行研究。

      作者系華中科技大學(xué)公共管理學(xué)院博士、韶關(guān)學(xué)院新聞與傳播學(xué)講師

      [1]張洋,何楚杰,段俊文,楊春程.微博輿情熱點(diǎn)分析系統(tǒng)設(shè)計(jì)研究[J].信息網(wǎng)絡(luò)安全,2012(09).

      [2]H Wang,P Yin,J Yao,JNK Liu.Text feature selection for sentiment classification of Chinese online reviews[J].Journal of Experimental & Theoretical Artificial Intelligence,2013(04).

      [3]唐曉波,宋承偉.基于復(fù)雜網(wǎng)絡(luò)的微博輿情分析[J].情報(bào)學(xué)報(bào),2012(11).

      [4]CS Park.Does Twitter motivate involvement in politics?Tweeting, opinion leadership,and political engagement[J].Computers in Human Behavior,2013(04).

      [5]莫溢,劉盛華,劉悅,程學(xué)旗.一種相關(guān)話題微博信息的篩選規(guī)則學(xué)習(xí)算法[J].中文信息學(xué)報(bào),2012(05).

      [6]D Pelleg,AW Moore.X-means:Extending k-means with efficient estimation of the number of clusters[M].Seventeenth International Conference on Machine Learning,2000.

      [7]李清,沈彤,關(guān)毅.面向大規(guī)模日志數(shù)據(jù)的聚類算法研究[J].智能計(jì)算機(jī)與應(yīng)用,2012(05).

      [8]肖宇,許煒,商召璽.微博用戶區(qū)域影響力識(shí)別算法及分析[J].計(jì)算機(jī)科學(xué),2012(09).

      [9]楊春霞,胡丹婷,胡森.微博病毒傳播模型研究[J].計(jì)算機(jī)工程,2012(15).

      [10]李雯靜,許鑫,陳正權(quán).網(wǎng)絡(luò)輿情指標(biāo)體系設(shè)計(jì)與分析[J].情報(bào)科學(xué),2009(07).

      [11]高承實(shí),榮星,陳越.微博輿情監(jiān)測(cè)指標(biāo)體系研究[J].情報(bào)雜志,2011(09).

      [12]何黎,何躍,霍葉青.微博用戶特征分析和核心用戶挖掘[J].情報(bào)理論與實(shí)踐,2011(11).

      猜你喜歡
      領(lǐng)袖輿情消息
      領(lǐng)袖風(fēng)范
      黃河之聲(2022年6期)2022-08-26 06:46:04
      咱們的領(lǐng)袖毛澤東
      一張圖看5G消息
      領(lǐng)袖哲學(xué)
      輿情
      輿情
      輿情
      平民領(lǐng)袖
      消息
      消息
      柏乡县| 辉南县| 从化市| 延寿县| 梁平县| 元阳县| 诸城市| 专栏| 苏尼特左旗| 宁南县| 稻城县| 鄄城县| 定南县| 青岛市| 柳林县| 彩票| 尚志市| 上林县| 普兰县| 汉沽区| 屏东县| 遵义市| 太仓市| 新乡县| 望江县| 岑巩县| 石泉县| 苗栗市| 肃北| 板桥市| 鄯善县| 东丽区| 抚州市| 水富县| 德昌县| 宁河县| 略阳县| 织金县| 西华县| 高雄市| 长顺县|