• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語(yǔ)義計(jì)算的聚類算法

      2014-12-05 12:49:55郭紅建
      電腦知識(shí)與技術(shù) 2014年31期
      關(guān)鍵詞:聚類

      郭紅建

      摘要:該文提出了一種基于語(yǔ)義計(jì)算的聚類算法。通過(guò)計(jì)算詞語(yǔ)的語(yǔ)義信息,從語(yǔ)義知識(shí)庫(kù)獲取詞語(yǔ)的生成概率,構(gòu)建文本的語(yǔ)義表征,將余弦夾角和相對(duì)熵等方法引入進(jìn)行文本單元的語(yǔ)義相似度計(jì)算對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該文提出的算法效果較好。

      關(guān)鍵詞:語(yǔ)義計(jì)算;語(yǔ)義相關(guān)性;聚類

      中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)31-7432-02

      Abstract: This paper proposes clustering algorithm based on semantic computing. By calculating word semantic information, and generating probability of word from semantic knowledge database, constructing semantic representation, the cosine angle and Kullback-Leibler Divergence is introduced to calculate semantic similarity of text units. Experiments showed that the proposed clustering algorithm is effective.

      Key words: semantic computing, semantic relatedness, clustering

      聚類算法是數(shù)據(jù)挖掘的一個(gè)重要方法,它的應(yīng)用非常廣泛。例如在審計(jì)數(shù)據(jù)分析時(shí),審計(jì)人員運(yùn)用查詢、驗(yàn)證、挖掘等方式進(jìn)行數(shù)據(jù)的觀察和分析,從而達(dá)到把握總體、突出重點(diǎn)、精確延伸的審計(jì)目標(biāo)。以海量數(shù)據(jù)為基礎(chǔ)的深層次數(shù)據(jù)分析方式支持審計(jì)人員從不同的角度,靈活快捷地對(duì)被審計(jì)單位的電子數(shù)據(jù)進(jìn)行挖掘,并以直觀易懂的形式展示分析結(jié)果。

      聚類算法可分為采用劃分的方法、采用層次的方法、采用密度的方法和采用網(wǎng)格的方法。常用的文本聚類算法是基于詞語(yǔ)的統(tǒng)計(jì)信息,很難表述文檔的語(yǔ)義信息,中文文檔中多義詞和同義詞的現(xiàn)象相當(dāng)普遍,這就很容易造成聚類結(jié)果不準(zhǔn)確,而且自然語(yǔ)言中由多個(gè)詞語(yǔ)所構(gòu)成的短語(yǔ)往往包含比組成它的詞語(yǔ)更加精確的語(yǔ)義,如“太空計(jì)劃”就比其各組成名詞“太空”和“計(jì)劃”的語(yǔ)義更加明確。該文提出了一種基于語(yǔ)義計(jì)算的聚類算法。通過(guò)計(jì)算詞語(yǔ)的語(yǔ)義信息,從語(yǔ)義知識(shí)庫(kù)獲取詞語(yǔ)的生成概率,構(gòu)建文本的語(yǔ)義表征,將余弦夾角和相對(duì)熵等方法引入進(jìn)行文本單元的語(yǔ)義相似度計(jì)算對(duì)比實(shí)驗(yàn)。

      第二部分是基于語(yǔ)義計(jì)算的聚類算法,第三部分是實(shí)驗(yàn)與結(jié)果分析。

      1 基于語(yǔ)義計(jì)算的聚類算法

      3 結(jié)束語(yǔ)

      本文提出了一種基于語(yǔ)義計(jì)算的聚類算法。通過(guò)計(jì)算詞語(yǔ)的語(yǔ)義信息,從語(yǔ)義知識(shí)庫(kù)獲取詞語(yǔ)的生成概率,構(gòu)建文本的語(yǔ)義表征,將余弦夾角和相對(duì)熵等方法引入進(jìn)行文本單元的語(yǔ)義相似度計(jì)算對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該文提出的算法效果較好。下一步我們會(huì)進(jìn)一步分析和提高該聚類算法的準(zhǔn)確度。

      致謝 :

      本文受到江蘇省自然科學(xué)基金項(xiàng)目(NO.BK2012472) 、江蘇省教育廳人文社會(huì)科學(xué)研究項(xiàng)目(NO.2013SJB870005) 、江蘇省公共工程審計(jì)重點(diǎn)實(shí)驗(yàn)室2012年開放課題資助,在此表示感謝。

      參考文獻(xiàn):

      [1] Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters inlarge spatial databases with noise., in Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining(KDD) [C]. 2000:495-501, Portland, OR, AAAI Press,1996:226-231.

      [2] Ankerst M, Breunig M M, Kriegel H P, et al. OPTICS: Ordering Points to Identify the Clustering Structure., in Proc. ACM SIGMOD Int. Conf. on Management of Data(SIGMOD99) [C], Philadelphia,1999:49-60.

      [3] Wang W, Yang J. Muntz M. STING: A statistical information grid approach to spatial data mining., in Proc. 1997 Int. Conf. on Very Large Data Bases (VLDB97) [C], 1997:186-195.

      [4] Sheikholeslami G, Chatterjee S. and Zhang A., WaveCluster: A wavelet-based clustering approach for multidimensional data in very large databases[J]. The VLDB Journal,2000,8(4):289-304.

      猜你喜歡
      聚類
      基于K-means聚類的車-地?zé)o線通信場(chǎng)強(qiáng)研究
      基于DBSACN聚類算法的XML文檔聚類
      基于高斯混合聚類的陣列干涉SAR三維成像
      條紋顏色分離與聚類
      基于Spark平臺(tái)的K-means聚類算法改進(jìn)及并行化實(shí)現(xiàn)
      局部子空間聚類
      基于加權(quán)模糊聚類的不平衡數(shù)據(jù)分類方法
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      基于熵權(quán)和有序聚類的房地產(chǎn)周期分析
      河南科技(2014年23期)2014-02-27 14:19:14
      新乐市| 杭锦后旗| 嘉黎县| 朔州市| 台州市| 繁昌县| 安丘市| 东源县| 襄樊市| 浦北县| 洛南县| 石河子市| 和田县| 台中市| 阿合奇县| 大化| 普洱| 青海省| 安塞县| 沙雅县| 古浪县| 广水市| 鹰潭市| 翁牛特旗| 永善县| 通山县| 轮台县| 龙游县| 盐亭县| 涡阳县| 探索| 宜宾县| 南康市| 呼图壁县| 邳州市| 墨脱县| 潜山县| 曲靖市| 五原县| 横峰县| 渝北区|