• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      淺談文本聚類算法對網(wǎng)絡(luò)熱點發(fā)現(xiàn)精準度的影響

      2017-09-07 21:42陳瑜韓晨靖
      中國管理信息化 2017年17期
      關(guān)鍵詞:網(wǎng)絡(luò)輿情精準度

      陳瑜+韓晨靖

      [摘 要] 面對輿情載體已從傳統(tǒng)媒體向互聯(lián)網(wǎng)轉(zhuǎn)移的新形勢,從網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)的主要技術(shù)出發(fā),研究網(wǎng)絡(luò)輿情熱點發(fā)展的規(guī)律,準確把握網(wǎng)絡(luò)輿情熱點,提高網(wǎng)絡(luò)輿情的精準度。在此基礎(chǔ)上,重點分析文本聚類中不同種類的算法研究對網(wǎng)絡(luò)熱點發(fā)現(xiàn)精準度的影響。

      [關(guān)鍵詞] 網(wǎng)絡(luò)輿情;熱點發(fā)現(xiàn);文本聚類;精準度

      doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 17. 092

      [中圖分類號] TP391 [文獻標識碼] A [文章編號] 1673 - 0194(2017)17- 0194- 02

      0 引 言

      網(wǎng)絡(luò)技術(shù)迅速發(fā)展的今天,互聯(lián)網(wǎng)儼然成了民眾關(guān)注社會萬象的首要通道。如何在網(wǎng)絡(luò)輿情信息采集的海量信息中快速準確地提取出熱點信息,準確地把握熱點并研究其形成的規(guī)律和發(fā)展的形勢,成為網(wǎng)絡(luò)熱點研究領(lǐng)域中急需解決的問題。如何在網(wǎng)絡(luò)輿情信息采集的基礎(chǔ)上進行輿情匯集,研究網(wǎng)絡(luò)輿情熱點發(fā)展的規(guī)律,準確把握網(wǎng)絡(luò)輿情熱點,提高網(wǎng)絡(luò)輿情的精準度,對于正確引導網(wǎng)絡(luò)輿論具有十分重要的現(xiàn)實意義。在網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)的研究中,以文本聚類算法技術(shù)研究居多,將文本聚類相關(guān)理論技術(shù)應(yīng)用到網(wǎng)絡(luò)輿情熱點的發(fā)現(xiàn),可以大大地提高熱點發(fā)現(xiàn)的準確度和有效性。因此文本聚類算法的研究對于網(wǎng)絡(luò)熱點信息的發(fā)現(xiàn)也就具有了十分重要的意義。

      1 網(wǎng)絡(luò)熱點發(fā)現(xiàn)研究現(xiàn)狀

      我國最早以 “輿情”為研究目標的研究所是始建于1999年10月的天津市社會科學院輿情研究所。目前國內(nèi)對于網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)的研究,主要集中于兩個方面:對于中文的信息處理和數(shù)據(jù)挖掘的研究領(lǐng)域。

      在中文的信息處理方面,主要是對于詞頻統(tǒng)計方式的研究,根據(jù)文獻中所述,中文信息處理方面主要涉及的技術(shù)有識別新詞、未統(tǒng)計過的詞、中文和英文的相關(guān)分詞技術(shù)等方面。在數(shù)據(jù)挖掘研究領(lǐng)域主要涉及的相關(guān)內(nèi)容有:自動分類、文本的聚類、智能檢索以及相關(guān)輿情信息的采集等方面,并取得了一定的成果。如:錢愛兵分析了網(wǎng)絡(luò)輿情的基本情況,設(shè)計了一個基于主題的網(wǎng)絡(luò)輿情分析模型;王偉等根據(jù)對網(wǎng)絡(luò)輿情分析的需求,構(gòu)建了基于聚類的網(wǎng)絡(luò)輿情熱點問題發(fā)現(xiàn)及分析系統(tǒng)。國外熱點發(fā)現(xiàn)與分析研究較為有名的如美國的TDT( Topic Detection and Tracking)研究項目,用以應(yīng)對日益嚴重的互聯(lián)網(wǎng)信息爆炸問題,對新聞媒體信息流進行新話題的自動識別和已知話題的持續(xù)跟蹤。

      2 文本聚類算法分析

      聚類算法的研究開始于20世紀60年代,其所依據(jù)的思想方法起源于數(shù)值分類學的聚類分析。目前的聚類算法依據(jù)聚類劃分的結(jié)果是否擁有層次結(jié)構(gòu),可以將其劃分為層次法和平面劃分法兩大類,以及基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。主要代表算法有:基于劃分的K-Means算法、基于層次的Single- Link和CURE算法、基于網(wǎng)格的STING算法、基于密度的DBSCAN算法、OPTICS 算法以及其他聚類算法。

      2.1 基于層次的聚類方法

      基于層次的聚類是將一個有n個對象的數(shù)據(jù)集D分解為若干層嵌套的分塊,根據(jù)層次的分解是自底向上還是自頂向下形成,層次結(jié)構(gòu)分解是通過一個系統(tǒng)樹圖表示的。基于層次的聚類方法可以分為凝聚法和分裂法,層次聚類算法中典型代表是Single- Link和CURE算法。

      Single-Link是一種層次凝聚算法,它為之后衍生出來的很多層次聚類算法提供了依據(jù)。Single-Link最大的優(yōu)點是可以分層展示文本數(shù)據(jù),該特點為人們?yōu)g覽大規(guī)模文本數(shù)據(jù)集提供了非常大的幫助。

      2.2 基于劃分的聚類方法

      基于劃分的算法是給定一個具有n 個對象的文本集,將數(shù)據(jù)集劃分為k個子集,并且k≤n?;趧澐值乃惴ㄓ袃蓚€步驟:首先,創(chuàng)建一個初始劃分,決定使目標函數(shù)最小化的k值,其次,采用一種迭代的重定位技術(shù)將每個對象分配到類中,保證每個類中至少要包含一個對象。劃分聚類算法中最具代表性的算法是K- Means算法。

      K-Means的算法復雜度較低,且K-Means算法不僅效率高而且可伸縮性強。因此K-Means算法常用于處理大型的文本數(shù)據(jù)集。

      2.3 基于密度的方法

      基于密度的聚類算法最大的優(yōu)點就在于它能夠發(fā)現(xiàn)任意形狀的簇, 能夠?qū)⒐铝Ⅻc保存起來作為后續(xù)處理。它與其他的聚類方法的區(qū)別在于:它不是基于各種樣本距離的方法而是基于密度的方法。該類方法的代表算法有:DBSCAN 算法、OPTICS 算法等。DBSCAN最大的優(yōu)點就在于它能發(fā)現(xiàn)任意形狀的類,它成為自動和交互聚類分析的通用基礎(chǔ),并為自動和交互的聚類分析計算出一個類的秩序。OPTICS算法不會顯式地產(chǎn)生一個數(shù)據(jù)集合,它是DBSCAN 算法的延伸,該算法被用來計算數(shù)據(jù)集中對象的擴展聚類序列,且不用考慮輸入?yún)?shù)的設(shè)置。

      2.4 基于網(wǎng)格的方法

      基于網(wǎng)格的聚類算法的主要思想是采用一個多分辨率的網(wǎng)格數(shù)據(jù)結(jié)構(gòu),把對象空間量化為有限數(shù)目的單元。所有的聚類操作都在這個網(wǎng)格結(jié)構(gòu) (即量化的空間)上進行。該方法所聚類出來的結(jié)果是不依賴數(shù)據(jù)的輸入順序的,對于大型數(shù)據(jù) 集中的高維數(shù)據(jù)進行聚類非常有效。STING 算法是基于網(wǎng)格聚類算法的典型例子,它使用的是多分辨率的聚類方法,在進行聚類的時候利用網(wǎng)格單元保存相關(guān)的統(tǒng)計信息,這些統(tǒng)計信息可以用作查詢處理。

      2.5基于模型的方法

      基于模型的方法試圖優(yōu)化給定的數(shù)據(jù)和某些數(shù)學模型之間的適應(yīng)性,它為每個類首先設(shè)定了一個模型,再去尋找數(shù)據(jù)與給定模型的最佳擬合。這種模型方法主要有兩種:統(tǒng)計學聚類方法和神經(jīng)網(wǎng)絡(luò)聚類方法。自組織特征映射 (SOM ) 是神經(jīng)網(wǎng)絡(luò)聚類方法中的代表,SOM算法對人的腦神經(jīng)元的相關(guān)屬性進行模仿,該算法是作為神經(jīng)網(wǎng)絡(luò)學習中不需要監(jiān)督的一類算法。SOM算法簡單,對于復雜的求導、積分運算是不包含在其中的,并且可以很好地處理孤立點問題。endprint

      2.6 算法分析

      通過上面介紹的各種文本聚類算法, 可以看到現(xiàn)在最常用于文本聚類的算法是K-Means、Single-Link、DBSCAN和SOM四種算法,它們擁有一個共同的特征:即建立在距離或相似度計算的基礎(chǔ)之上。將常用的聚類算法從對象形狀、聚類粒度、初始條件、終止條件、能否適應(yīng)動態(tài)數(shù)據(jù)、噪聲影響等方面的性能特點進行比較,可以得出:K-Means算法的對象形狀與其他三種算法不一樣,K-Means算法為凸形,其他三種算法都是任意形狀;四種算法的聚類粒度都不一樣,有各自的粒度值規(guī)定;K-Means和SOM算法有初始條件,Single-Link和DBSCAN算法沒有初始條件;且K-Means和DBSCAN算法的終止條件很精確,Single-Link和SOM算法的終止條件不精確,但是K-Means和DBSCAN算法要受到噪聲的影響。

      3 文本聚類算法對熱點發(fā)現(xiàn)的影響

      聚類作為一種知識發(fā)現(xiàn)的重要形式,日益受到重視,聚類算法的研究是為了要在海量的數(shù)據(jù)集中找出屬于同一類的數(shù)據(jù)。在聚類算法研究中,提出了一些對聚類算法評價的標準,這些標準包括:可擴展性、能夠處理噪聲數(shù)據(jù)和孤立點、能夠處理不同類型的屬性、高維性、能夠發(fā)現(xiàn)任意形狀的類、能夠根據(jù)用戶指定的約束條件進行聚類以及聚類的結(jié)果具有可用性和可解釋性。

      因此,在使用聚類算法之后通常都會對聚類結(jié)果做出一個評價,以此來發(fā)現(xiàn)使用的聚類算法是否有效,這一步對于熱點發(fā)現(xiàn)研究分析來說是很重要的。在網(wǎng)絡(luò)熱點發(fā)現(xiàn)過程中,使用文本聚類算法將得到的數(shù)據(jù)樣本進行聚類,并得到聚類結(jié)果,再去判斷該聚類結(jié)果中每個類別包含的個數(shù)是否達到了最優(yōu),這在評價聚類結(jié)果的時候?qū)τ诰垲愒u價指標的有效性來說就成為了一個很重要的方面。文本聚類是網(wǎng)絡(luò)熱點發(fā)現(xiàn)的核心,對于不同的聚類算法會有不同程度的有效性。通過對比各種聚類算法,有效性越高的聚類算法,對于熱點發(fā)現(xiàn)的精準性就越高。

      主要參考文獻

      [1]J B Pena-Shaff. and C Nicholls. Analyzing Student Interactions and Meaning Construction in Computer Bulletin Board Discussions[J]. Computers & Education,2004,42(3):243-265.

      [2]曾依靈,許洪波.網(wǎng)絡(luò)熱點信息發(fā)現(xiàn)研究[J].通信學報,2007,28(12):141-146.

      [3]錢愛兵. 基于主題的網(wǎng)絡(luò)輿情分析模型及其實現(xiàn)[J].現(xiàn)代圖書情報技術(shù),2008,24(4):49-55.

      [4]王偉,許鑫. 基于聚類的網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)及分析[J].現(xiàn)代圖書情報技術(shù),2009,3(3):74-79.

      [5]A K Jain,M N Murty,P J Flymn.Data Clustering: A Review[J].ACM Computing Surveys,1999,31(3):264-323.

      [6]T Kohonen. The Self-Organizing Maps[J].Proceedings of the IEEE,1990,78(9): 1464-1480.endprint

      猜你喜歡
      網(wǎng)絡(luò)輿情精準度
      BH66F5355 增強型24-bit A/D MCU
      “(今年財政重點支出)提高支出精準度,不撒‘胡椒面’”
      讓黨建活動更加有“味”——禮泉縣增強“兩新”黨建精準度
      基于高精度差分法的線性常微分方程邊值問題研究
      2017年IoT設(shè)備DDoS攻擊更嚴重
      論提高不動產(chǎn)產(chǎn)權(quán)保護精準度的若干問題
      網(wǎng)絡(luò)輿情事件的引導策略分析
      數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情管理中的研究
      “互聯(lián)網(wǎng)+”背景下高校平安校園建設(shè)研究
      淺析網(wǎng)絡(luò)輿情治理
      卓尼县| 沾化县| 岑巩县| 陆良县| 拉孜县| 龙岩市| 洪江市| 平度市| 东丰县| 维西| 新津县| 隆安县| 邹城市| 云和县| 石阡县| 资中县| 大埔县| 甘南县| 平凉市| 万山特区| 湖口县| 张北县| 普格县| 余干县| 宜兰县| 永川市| 克什克腾旗| 木里| 博罗县| 宁化县| 女性| 洪江市| 乌兰浩特市| 荣昌县| 桓台县| 衢州市| 中山市| 区。| 张家口市| 南雄市| 南郑县|