• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于泊松分布和伽馬分布的網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)

      2017-02-27 00:35:14羅泰曄
      現(xiàn)代情報 2017年1期
      關(guān)鍵詞:網(wǎng)絡(luò)輿情

      羅泰曄

      〔摘要〕本文提出了一種基于泊松分布和伽馬分布的網(wǎng)絡(luò)輿情熱點實時識別方法。該方法使用話題的人氣和時間間隔特征兩方面來識別輿情熱點,發(fā)現(xiàn)單位時間內(nèi)(如1小時)參與話題討論的人數(shù)成泊松分布,回帖的時間間隔服從伽馬分布。本研究用歷史數(shù)據(jù)證明了該方法具有良好的識別效果。

      〔關(guān)鍵詞〕網(wǎng)絡(luò)熱點;網(wǎng)絡(luò)輿情;伽馬分布;泊松分布;熱點發(fā)現(xiàn);話題熱度

      DOI:10.3969/j.issn.1008-0821.2017.01.014

      〔中圖分類號〕G203〔文獻標識碼〕A〔文章編號〕1008-0821(2017)01-0077-04

      〔Abstract〕A method was proposed in the paper to identify online hot topics based on Poisson distribution and Gamma distribution,which combined the popularity and time interval characteristics of hot topics.It was found that the number of people participating in a topic discussion per unit time(e.g.one hour)follows a Poisson distribution,and the time interval between two replies follows a Gamma distribution.Historical data was used to test the effectiveness of the method.

      〔Key words〕online hot topics;online public opinion;gamma distribution;Poisson distribution;hot topic identification;topic hotness

      中國互聯(lián)網(wǎng)信息中心第38次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》顯示,截至2016年6月,中國網(wǎng)民規(guī)模達7.10億[1]?;ヂ?lián)網(wǎng)已成為民眾接收和發(fā)布消息的主要渠道,網(wǎng)絡(luò)輿情已具備較大規(guī)模。網(wǎng)絡(luò)輿情傳播由于具有傳播速度快、覆蓋范圍廣、互動性強等特點,已引起政府管理的高度重視,也成為學(xué)術(shù)界研究的流行內(nèi)容。其中,對于網(wǎng)絡(luò)輿情的實時監(jiān)測和分析是輿情研究的重點內(nèi)容之一。

      當前國內(nèi)關(guān)于網(wǎng)絡(luò)輿情的監(jiān)測主要可以分為兩大技術(shù)路線。一種是基于內(nèi)容的分析,即對網(wǎng)絡(luò)信息文本進行關(guān)鍵內(nèi)容的提取,再通過關(guān)鍵詞識別、支持向量機、K均值等分類或聚類的方法發(fā)現(xiàn)輿情熱點[2]。這方面的研究已經(jīng)較多。另一種是基于輿情發(fā)展模式的分析,這條路線主要是從數(shù)量關(guān)系和時間特征上發(fā)現(xiàn)輿情熱點與普通網(wǎng)絡(luò)話題的區(qū)別[3-5],從而進行熱點的發(fā)現(xiàn)。目前這條路線的研究還相對較少。已有的研究主要存在兩種思路:一種是將單位時間內(nèi)的回帖量與回帖人數(shù)是作為識別網(wǎng)絡(luò)輿情熱點的主要指標。另一種是利用回帖的時間間隔特征來反映話題帖的活躍度。從已有的文獻看,兩種思路都存在需要進一步解決的問題。對于第一種思路,以單位時間進行統(tǒng)計(比如1小時統(tǒng)計1次)可能出現(xiàn)遺漏潛在輿情熱點的情況,即在統(tǒng)計時段中后期才啟動的輿情話題,由于在數(shù)量上可能還達不到設(shè)定的閾值而在統(tǒng)計時未被識別出來。而輿情熱點的識別越早越好,能越早識別出潛在的熱點,就能夠進行很好的控制和引導(dǎo)。因此,需要對話題的發(fā)展趨勢做一個概率的判斷。此外,回帖量和回帖人數(shù)可能不在同一個數(shù)量級,如果簡單地將兩者結(jié)合起來使用,可能會弱化數(shù)量級相對較低的回帖人數(shù)的作用。為避免出現(xiàn)這種情況,需要對回帖量或者回帖人數(shù)進行一定的數(shù)學(xué)轉(zhuǎn)換,使二者處于同一數(shù)量級。對于第二種思路,回帖的時間間隔到底具備什么樣的特征,已有的研究也只是提出了一個抽象的函數(shù)f(t),而對于f(t)的具體內(nèi)容沒有進一步分析。針對以上問題,本文提出一種將回帖人數(shù)和回帖時間間隔結(jié)合起來的網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)的方法。該方法基于兩個重要的統(tǒng)計分布:泊松分布和伽馬分布。

      1網(wǎng)絡(luò)輿情熱點特征

      網(wǎng)絡(luò)輿情熱點與普通網(wǎng)絡(luò)話題的區(qū)別主要體現(xiàn)在兩個方面。一是單位時間內(nèi)參與熱點話題討論的人數(shù)眾多;二是回帖的時間間隔短。討論人數(shù)多,回帖的時間間隔短,則使得單位時間內(nèi)回帖的數(shù)量大,從而形成輿情熱點。因此,人氣(回帖人數(shù))和時間間隔這兩個變量可以用作發(fā)現(xiàn)網(wǎng)絡(luò)輿情熱點的指標。筆者以一個高校網(wǎng)絡(luò)論壇2008年4月和5月的歷史數(shù)據(jù)為例,探索運用這兩個指標實時發(fā)現(xiàn)網(wǎng)絡(luò)輿情熱點的方法。首先從2008年4月的數(shù)據(jù)中找出30個熱點話題帖作為素材,分析熱點話題在人氣和時間間隔上的特征。

      1.1輿情熱點的人氣特征

      其中A表示由每小時討論人數(shù)組成的向量,alpha為置信率。如果運行結(jié)果H=0,則表示A服從泊松分布。對熱點話題樣本運行的結(jié)果顯示H=0,因此每小時參與討論的人數(shù)服從泊松分布。

      1.2輿情熱點的時間間隔特征

      在單位時間內(nèi),輿情熱點的熱度與回帖的時間間隔是緊密相關(guān)的,回帖的時間間隔短,則回帖數(shù)量多,相應(yīng)的輿情規(guī)模就大。伽馬分布是一種重要的統(tǒng)計分布,經(jīng)常用于描述時間間隔的特征[8]。如果連續(xù)型隨機變量X的概率密度函數(shù)如公式(2)所示,則稱X服從伽瑪分布。

      回帖時間間隔指的是相鄰的兩個回帖之間的時間間隔,用秒作為單位。計算公式為:ΔTi=Ti-Ti-1,i≥1。其中T0表示話題帖,Ti表示第i個回帖的發(fā)表時間。為檢驗回帖時間間隔是否服從伽馬分布,筆者計算出每個樣本帖的所有回帖之間的時間間隔,并使用matlab軟件進行K-S檢驗。經(jīng)過運行檢測程序,發(fā)現(xiàn)H值為0,所以回帖時間間隔服從伽馬分布。

      2輿情熱點識別方法設(shè)計

      2.1輿情熱點人氣值

      從上一節(jié)的分析得到每小時的回帖人數(shù)服從泊松分布。從公式(1)中可以看出,λ是一個重要參數(shù),它決定了泊松分布的圖像形狀。熱點話題和普通話題在每小時參與討論的人數(shù)是不一樣的。熱點話題的回復(fù)人數(shù)要遠大于普通話題帖,這造成了每小時回帖人數(shù)的平均值的不同。而這一區(qū)別可以通過λ反映出來。因此,可以利用λ來計算一個話題帖的人氣值。

      λ的值一般是通過歷史數(shù)據(jù)獲得的。對于每一個熱點樣本帖計算出其每小時討論人數(shù)的平均值,由此可以獲得30個平均值。再對這30個平均值求平均數(shù),進而獲得λ的值。通過計算,λ約為25.36,取整數(shù),將λ的初始值λ(0)設(shè)定為25,即對于熱點帖來講,平均每小時約有25個人參與討論。而對該論壇4月的所有話題帖平均每小時參與討論人數(shù)進行計算得到的值約為4.42,即不超過5個人,遠小于熱點帖。

      對于一個待識別的新話題帖,以小時為單位進行統(tǒng)計,計算出該小時內(nèi)參與討論的人數(shù)n(t),t=1,2,3…,并用n(t)對λ(t)進行修正:λ(t)=(n(t)+λ(t-1))/2,t=1,2,3…。進行修正的過程也就是判斷話題發(fā)展趨勢的過程。如圖1和圖2所示,圖1和圖2分別是一個熱點帖和一個普通帖前4個小時的泊松分布的圖像。兩個圖中“+”顯示的圖像是初始時刻(即λ=25)時的圖像??梢詮膱D1中看出,一個熱點帖每小時討論人數(shù)的泊松分布圖像始終在初始圖像的附近移動,說明在一個小時內(nèi)出現(xiàn)回帖人數(shù)超過25人的概率仍然很大;而一個普通帖的圖像(圖2)則是完全往左移動,在1個小時內(nèi)出現(xiàn)回帖人數(shù)超過25人的概率變得越來越小。因此,可以用這個帖在1小時內(nèi)獲得大于25人回帖的概率來衡量這個帖的人氣值。

      2.2輿情熱點規(guī)模

      在單位時間內(nèi)(如1小時),回帖的時間間隔分布的情況決定了輿情的規(guī)模。圖3是2個熱點帖和1個普通帖回帖時間間隔伽馬分布的圖像。從圖3中可以看到,兩個熱點帖(a=0.42和a=0.37)的圖像大致相同,而普通帖(a=1.71)的圖像在形態(tài)上與另兩個圖像有明顯區(qū)別。這種區(qū)別主要是由形狀參數(shù)a和尺度參數(shù)b決定的,所以可以利用這兩個參數(shù)來代表輿情規(guī)模。

      以30個熱點帖第1小時的數(shù)據(jù)為例,首先計算出第一小時內(nèi)所有回帖的時間間隔。利用最大似然估計法(MLE)對伽馬分布的兩個參數(shù)a和b進行估計,從而得到a和b的一個樣本數(shù)據(jù)。這樣總共可以獲得30個樣本數(shù)據(jù)。隨后,用這30個樣本數(shù)據(jù)與第1小時的回帖量(n)進行相關(guān)分析,結(jié)果如表1所示。

      從表1中可以看出,第1小時的回帖量與伽馬分布兩個的兩個參數(shù)a和b呈顯著的負相關(guān)關(guān)系,即a和b的值越小,n越大。因此,可以用a和b來代表回帖的規(guī)模。

      2.3輿情話題熱度計算

      這種方法對于在統(tǒng)計時段中后期才啟動的話題也能起到識別作用。一個話題帖即便是在中后期啟動,在獲得回帖人數(shù)或回帖量上還達不到設(shè)定的閾值。一方面,由于回帖的時間間隔短,使得用最大似然法估計得到的a或b的值比較小,從而使其倒數(shù)的值比較大;另一方面,話題討論雖未形成較大規(guī)模,但已有一定數(shù)量的人參加,對λ(t)沒有進行過度的負修正(即沒有使λ(t)變得很?。?,從而使得R的值不至于過低,甚至可能存在正修正的情況,從而獲得一個較大的R值。根據(jù)公式(4),兩部分求和之后得到的H值也可能較大,從而識別出可能在下一個小時爆發(fā)的輿情熱點。

      3熱點識別方法的效果檢驗

      從表2中可以看出,熱點帖的實時熱度都在1以上,而普通帖的熱度除第1小時外,基本都小于1。這說明熱點帖被持續(xù)討論的時間和熱度都強于普通帖。普通帖一般只有在第1小時可能引起較多的關(guān)注和討論,隨著時間的推移,討論熱度逐漸減弱,整個討論持續(xù)的時間不超過5小時。因此,公式(4)能夠有效地實時識別熱點帖和普通帖。

      4結(jié)語

      本文發(fā)現(xiàn)單位時間內(nèi)的回帖人數(shù)服從泊松分布,回帖時間間隔服從伽馬分布,并在此基礎(chǔ)上提出了一種網(wǎng)絡(luò)輿情熱點實時識別的方法,并用歷史數(shù)據(jù)證明了該方法的有效性。在實際使用時,可首先進行初步篩選,去除無回帖或只有幾個回帖的話題帖,對剩余的話題帖再使用本方法進行識別,從而提高效率。

      本文使用的數(shù)據(jù)是一個高校網(wǎng)絡(luò)論壇2008年的歷史數(shù)據(jù)。鑒于當時的通信技術(shù)條件(如尚無移動互聯(lián)網(wǎng)),加之高校網(wǎng)絡(luò)論壇具有封閉性,即便是版面中最熱門的話題的規(guī)模從現(xiàn)在看來在絕對數(shù)量上仍顯得不是很大。但從相對值來看,文中所選的話題帖的規(guī)模已是普通話題的幾十倍,已經(jīng)具備了輿情熱點的特征。未來的研究可以利用開放的網(wǎng)絡(luò)論壇或者微博中的素材來進一步檢驗文中所提方法的健壯性。

      參考文獻

      [1]中國互聯(lián)網(wǎng)信息中心.第38次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》[EB/OL].http:∥www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/,2016.8.

      [2]王玉珍.網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)綜述[J].內(nèi)蒙古科技與經(jīng)濟,2015,(8):66-67.

      [3]王麗英.高校BBS教育輿情的時空特征模型構(gòu)建和熱點發(fā)現(xiàn)[J].現(xiàn)代情報,2016,(1):84-89.

      [4]李文杰,化存才,何偉全.網(wǎng)絡(luò)輿情熱點事件的可控性和篩選數(shù)學(xué)模型分析[J].情報科學(xué),2016,(6):37-42.

      [5]曹樹金,鄭凌,陳憶金.網(wǎng)絡(luò)輿情突發(fā)異常識別及關(guān)鍵算法研究[J].圖書情報知識,2012,(1):43-51.

      [6]徐國祥.統(tǒng)計學(xué)[M].上海:上海人民出版社,2007.

      [7]劉超.Matlab基礎(chǔ)與實踐教程[M].北京:機械工業(yè)出版社,2011.

      [8]Walid F.Nasrallah,M.ASCE and Rana Bou-Matar.Exponential,Gamma,and Power Law Distributions in Information Flow on a Construction Site[J].Journal of construction engineering and management,2008,(6):442-450.

      (本文責(zé)任編輯:馬卓)

      猜你喜歡
      網(wǎng)絡(luò)輿情
      新媒體環(huán)境下網(wǎng)絡(luò)輿情預(yù)警體系研究
      微博問政與回應(yīng)中的政府形象塑造
      試論高校大學(xué)生網(wǎng)絡(luò)輿情引導(dǎo)方略
      自媒體時代下高校網(wǎng)絡(luò)輿情預(yù)警指標體系構(gòu)建
      山東青年(2016年9期)2016-12-08 16:45:59
      新媒介生態(tài)環(huán)境下高職院校網(wǎng)絡(luò)輿情特點及研判機制思考
      山東青年(2016年9期)2016-12-08 16:38:43
      網(wǎng)絡(luò)輿情編輯能力構(gòu)成因素淺析
      今傳媒(2016年10期)2016-11-22 13:04:37
      網(wǎng)絡(luò)輿情事件的引導(dǎo)策略分析
      數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情管理中的研究
      “互聯(lián)網(wǎng)+”背景下高校平安校園建設(shè)研究
      中國市場(2016年38期)2016-11-15 23:42:46
      淺析網(wǎng)絡(luò)輿情治理
      永登县| 南郑县| 通渭县| 武川县| 丹巴县| 乐业县| 五大连池市| 湘阴县| 克山县| 定西市| 察雅县| 延庆县| 宁德市| 红桥区| 霍州市| 瓮安县| 华坪县| 嵩明县| 光泽县| 刚察县| 吉木乃县| 临高县| 荆州市| 通榆县| 兰西县| 运城市| 同心县| 尚义县| 石楼县| 临潭县| 石嘴山市| 苏尼特右旗| 桐庐县| 庆元县| 贡山| 新巴尔虎左旗| 安远县| 陕西省| 安阳市| 沈丘县| 三亚市|