• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于VSM和LDA混合模型的文本聚類研究

      2018-02-02 05:39劉曉蒙熊海濤
      電腦知識與技術(shù) 2018年1期
      關(guān)鍵詞:相似度聚類

      劉曉蒙+熊海濤

      摘要:在當(dāng)今的時(shí)代,網(wǎng)絡(luò)文本的數(shù)量正在迅速增長。文本的分析仍然是當(dāng)今一個(gè)熱門話題。由于傳統(tǒng)的VSM模型在使用時(shí)會(huì)出像數(shù)據(jù)的緯度太高,缺乏對潛在語意理解等問題,導(dǎo)致最終的聚類結(jié)果的精確度不夠高。鑒于此,提出了VSM和LDA的文本聚類的混合模型,通過對文本的處理,篩選,統(tǒng)計(jì)的方法得到特征詞權(quán)重的集合,隨后分別計(jì)算VSM模型和LDA模型相似度,通過將兩個(gè)相似度進(jìn)行線性相加的方法相結(jié)合,得到混合相似度,然后通過K-means算法進(jìn)行文本聚類,分別得到VSM模型、LDA模型和混合模型的聚類結(jié)果,通過統(tǒng)計(jì)與分析得到最后的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明,該混合模型是有效。

      關(guān)鍵詞:聚類; 相似度; LDA; VSM; K-means

      中圖分類號:TP312 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)01-0035-04

      Abstract:In today's world, the number of online texts is rapidly growing. Text analysis is still a hot topic today. As the traditional VSM model will appear as the data latitude is too high, the lack of potential semantic understanding and other issues, resulting in the accuracy of the final clustering results are not high enough. In view of this, a hybrid model of text clustering of VSM and LDA is proposed, and a set of feature weights is obtained through text processing, screening and statistics, and then the similarity between the VSM model and the LDA model is calculated respectively. Degree of linear sum of the method to get mixed similarity, and then through the K-means algorithm text clustering, respectively, the VSM model, LDA model and the hybrid model of the clustering results obtained by statistical analysis and the final experimental results. Experimental results show that the hybrid model is effective.

      Key words: Clustering; Similarity; VSM; LDA; K-means

      1 概述

      隨著21世紀(jì)科技的飛速發(fā)展,人們?nèi)粘I钪械男畔⒊尸F(xiàn)一種爆炸式的增長方式,同時(shí)大量的信息開始堆積。對于這些大規(guī)模且無序的文本信息,如何挖掘出其中的最有價(jià)值的信息一直是自然語言處理領(lǐng)域的一個(gè)重點(diǎn)研究課題。作為一種無監(jiān)督的學(xué)習(xí)方法,聚類[1-2]可以將大量未知文本信息按照一定的方式劃分為最理想的簇。它使在同一個(gè)簇的對象盡可能的相似,不同集群簇中的對象盡可能地增加。通過從文本集合中找到這些信息的分布,就可以大規(guī)模的減少搜索的范圍。最后通過篩選可以找到目標(biāo)信息。

      早期使用最多的文本模型是模型矢量空間模型(VSM),使用詞作為特征項(xiàng),使用TF-IDF值來加權(quán)特征詞,將文本轉(zhuǎn)換成一個(gè),緯度高,稀疏性強(qiáng)的矩陣。雖然這種模型可以很方便地提取文本特征,但是問題也隨之出現(xiàn),高緯度和高稀疏性也產(chǎn)生了嚴(yán)重的效率問題,同時(shí)該模型在使用時(shí)也忽略了文本中潛在的含義,導(dǎo)致可能有內(nèi)在聯(lián)系的文本無法被發(fā)現(xiàn),從而減少了信息的價(jià)值。

      隨著越來越多的研究者的對文本聚類的研究,近年來,已經(jīng)有不少的研究這將潛在狄利克雷模型(LDA)用在文本聚類中。LDA模型的優(yōu)點(diǎn)首先在于它具有極其豐富的內(nèi)部結(jié)構(gòu),使用的是概率算法來訓(xùn)練模型。第二LDA可以起到很好的降維作用,適合大規(guī)模語料庫。所以,LDA模型在許多領(lǐng)域都被使用[3-6]。在本文中,LDA模型用于對主題進(jìn)行建模,并將語料庫映射到每個(gè)主題空間,以便我們可以在文本中找到主題與單詞之間的關(guān)系。然后獲取文本的主題分布,并將分布用作傳統(tǒng)向量空間模型中的特征值,以計(jì)算相似度。最后,獲得文檔集的相似矩陣,并將其聚類。由于LDA模型的優(yōu)勢,已經(jīng)有不少的研究者提出了他們的方法。王鵬[7]等人提出使用JS作為文本相似度的距離,采用LDA模型進(jìn)行聚類。李國[8]等人提出了一種基于加權(quán)LDA模型的方法進(jìn)行聚類。王振振[9]等人提出不同主題內(nèi)詞語的分布作為特征項(xiàng)的聚類方法。胡秀麗等人提出將VSM模型與LDA模型相結(jié)合的方法[10]。本文針對以上所使用的方法,進(jìn)行了進(jìn)一步的改進(jìn),首先根據(jù)文檔-主題分布和主題-詞語的矩分布發(fā)掘出文本中的潛在的信息,分別計(jì)算二者的相似度,之后通過加權(quán)的方法得到LDA模型最終的相似度。之后通過改進(jìn)TF-IDF的計(jì)算方式,提高VSM模型的相似度精確性,計(jì)算VSM模型相似度,之后再對兩個(gè)模型的相似度進(jìn)行加權(quán),得到混合后的相似度。使用這種方法可以在考慮文本潛在信息的情況下充分的挖掘文本的價(jià)值,實(shí)驗(yàn)的結(jié)果表明本文所用的方法是有效的。

      2 模型

      2.1 Vector Space Model(VSM)endprint

      在20世紀(jì)60年代末,Salton等人首次提出了向量空間模型(VSM)[5]。VSM模型具有完整和易于實(shí)施的特點(diǎn),隨后被廣泛應(yīng)用于相關(guān)領(lǐng)域。它以向量的方式表示文本。文檔被描述成為一系列由關(guān)鍵詞組成的向量。

      每個(gè)文本被抽象成一個(gè)個(gè)單獨(dú)的向量,可以用于判斷一個(gè)文本是否是你最喜歡的文本。文檔由許多關(guān)鍵詞組成,每個(gè)單詞都有一個(gè)權(quán)重。不同的單詞根據(jù)文檔中自己的權(quán)重影響文檔。文本被轉(zhuǎn)換之后,就可以用關(guān)鍵詞來代替。當(dāng)選擇關(guān)鍵詞時(shí),應(yīng)該選擇具有代表性的關(guān)鍵詞。其表現(xiàn)形式為:

      文檔 = {關(guān)鍵詞1,關(guān)鍵詞2, … ,關(guān)鍵詞N}

      文檔向量 = {權(quán)重1, 權(quán)重2,… , 權(quán)重N}

      V(d)={ t1w1(d);…tnwn(d)}

      ti(i=1…n) 是一系列不同的詞,wi (d)是每個(gè)詞在文檔D中的權(quán)重。當(dāng)選擇特征詞時(shí),我們需要減小范圍以選擇代表性特征詞。

      2.2 TF-IDF

      TF-IDF[11]是信息處理和數(shù)據(jù)挖掘中常用的加權(quán)技術(shù)。該方法基于統(tǒng)計(jì)學(xué),用于計(jì)算語料庫中單詞的重要性。它的優(yōu)點(diǎn)是可以過濾出一些常見但不重要的單詞,并保留影響整個(gè)文本的最重要的單詞。

      通常,文檔中的單詞數(shù)量表示為單詞頻率,但是對于不同長度的文檔集合的統(tǒng)計(jì)方法將導(dǎo)致一些誤差。本文選擇了標(biāo)準(zhǔn)化方法。這樣做的優(yōu)點(diǎn)在于它可以減少文檔不同長度帶來的錯(cuò)誤。以下是公式:

      tfi,j表示文檔i中的第j個(gè)詞。tfimax表示文檔i中出現(xiàn)次數(shù)最多的詞的數(shù)量統(tǒng)計(jì)。

      2.3 Latent Dirichlet Allocation(LDA)

      LDA模型由Blei[12]于2002年提出,它是一種概率生成模型,用于解決潛在語義分析的問題[13]。其基本假設(shè)是文本是由某些主題中選出的詞所組成的,同時(shí)文本中的具體詞可以反映具體主題。因此,LDA將每個(gè)文本視為文本集中幾個(gè)主題的概率分布,并且每個(gè)主題被認(rèn)為是所有關(guān)鍵詞的概率分布。對LDA模型的描述為:

      選擇參數(shù) θ ~p(θ);

      對于每個(gè)文本的詞wn

      選擇一個(gè)主題 zn~p(z|θ);

      選擇一個(gè)詞 wn~p(w|z);

      α和β是語料級的參數(shù)。向量α反映隱性主題之間相對強(qiáng)度。矩陣β用于描述所有隱含主題的概率分布。θ是表示主題上每個(gè)文本分布的文本級別參數(shù)。w和z是字級參數(shù)。z表示主題的概率分布,w表示單詞的分布。N表示字?jǐn)?shù),M表示文本數(shù)。

      計(jì)算公式如下:

      2.4 Gibbs Sampling(吉布斯采樣)

      在LDA模型中需要對參數(shù)進(jìn)行大概的估計(jì),而Gibbs抽樣就是一種實(shí)用而且高效的抽樣方法,它可以有效的從文本中抽取與文本相關(guān)的主題,且精確度也相當(dāng)?shù)牟诲e(cuò),所以Gibbs抽樣也就成為了LDA模型常用的抽樣方法。

      LDA模型最重要的兩個(gè)參數(shù)分別是主題下的詞的概率和每個(gè)文本中主題的概率。使用這種方法可以看成是產(chǎn)生文本的逆過程即先選擇主題,然后再從主題中選擇詞,從而生成文本的過程。得到一篇文章的概率公式如下:

      一旦確定每個(gè)單詞的主題,可以在統(tǒng)計(jì)后計(jì)算參數(shù)。 因此,參數(shù)估計(jì)問題成為主題的條件概率。

      一旦獲得每個(gè)單詞的主題標(biāo)簽,參數(shù)計(jì)算公式如下:

      Φk,t 代表特征詞t在主題k中的概率。θm,k 代表主題k在文本m中的概率。

      2.5 基于VSM和LDA的相似度計(jì)算

      由于VSM模型在計(jì)算相似度時(shí)忽略了文本中的潛在語意,所以在進(jìn)行聚類時(shí)會(huì)導(dǎo)致一定的誤差,LDA模型則是可以將文檔的潛在主題映射到詞語的特征空間上,但在單獨(dú)使用LDA模型進(jìn)行聚類實(shí)驗(yàn),LDA模型的精確度也無法達(dá)到一個(gè)令人滿意的結(jié)果,所以本文在前人的研究的基礎(chǔ)上提出一種更加的精確的VSM模型和LDA模型的混合相似度值計(jì)算方法。通過實(shí)驗(yàn)證明這種方法是有效的。

      VSM模型:對于每個(gè)文檔di。與TF-IDF權(quán)重的矢量表示相結(jié)合為di_v=(w1,w2,…,wn)。N表示VSM模型中選擇的特征詞。定義 Simv是VSM模型的相似度。相似度計(jì)算公式為:

      LDA模型:同樣采用TF-IDF計(jì)算權(quán)重,結(jié)合文檔-主題,進(jìn)行線性的加權(quán),有效的提高相似度的質(zhì)量。文檔di的在主題-詞的向量形式可以表示為:di_LDA1=(w1,w2,…wn),n為主題中選擇的詞數(shù),計(jì)算方式如下:

      文檔di在文本-主題的向量表示為di_LDA2=(l1,l2,…ln)其中K代表主題數(shù),相似度為Sim_LDA2,最終的相似度計(jì)算公式為:

      λ是一個(gè)參數(shù),表示文檔-主題,主題-詞在選擇時(shí)的權(quán)重。

      在分別得到VSM模型和LDA模型的相似度后,就可以進(jìn)行最后一步,進(jìn)行混合相似度計(jì)算,同樣采用加權(quán)的方法。計(jì)算公式如下:

      k 是一個(gè)參數(shù)。它表示這兩個(gè)模型在選擇時(shí)的權(quán)重。

      3 實(shí)驗(yàn)步驟

      在這部分我們將詳細(xì)介紹聚類過程的實(shí)現(xiàn),通過這部分介紹可以對實(shí)驗(yàn)的整個(gè)過程進(jìn)行基本的了解。

      l Step0, 準(zhǔn)備實(shí)驗(yàn)所需的相關(guān)材料,并安裝配置所需的軟件。

      l Step1數(shù)據(jù)抓取和數(shù)據(jù)處理:我們使用文本材料是來自復(fù)旦語料,并使用Python軟件進(jìn)行正常處理。處理完畢后,我們可以獲得文檔集合。

      l Step2計(jì)算所需數(shù)據(jù):本部分的主要任務(wù)是為計(jì)算文檔所需的數(shù)據(jù)建模。

      n Step2.1 計(jì)算 TF-IDF

      u Step2.1.1向量化文本,提取關(guān)鍵詞,獲取矩陣,統(tǒng)計(jì)TF值。

      u Step2.1.2根據(jù)TF值和TF-IDF公式,得到最終的TF-IDF值。endprint

      n Step2.2計(jì)算 Simv 和 Siml值

      u Step2.2.1進(jìn)行VSM和LDA的建模。

      u Step2.2.2 Simv的值是根據(jù)步驟2.1中獲得的數(shù)據(jù)和上述公式計(jì)算的。 Siml的計(jì)算與Simv的計(jì)算相似。 這兩個(gè)計(jì)算是相互獨(dú)立的。

      n Step2.3 計(jì)算混合相似度 Sim的值

      u Step2.3.1根據(jù)步驟2.2獲得的值,Sim的值根據(jù)上述公式計(jì)算。

      l Step3該部分由步驟2中計(jì)算的數(shù)據(jù)聚類,并且將聚類的結(jié)果進(jìn)行可視化處理以獲得直觀圖。最后比較結(jié)果并得出結(jié)論。

      n Step3.1使用K-means [14]算法進(jìn)行聚類計(jì)算。

      u Step3.2.1根據(jù)簇的數(shù)量將值分配給K值,然后運(yùn)行算法。

      u Step3.2.2根據(jù)標(biāo)簽對每個(gè)群集的文本數(shù)進(jìn)行計(jì)數(shù)。獲取聚類結(jié)果。

      n Step3.2根據(jù)聚類結(jié)果,得到一個(gè)直觀圖。

      n Step3.3進(jìn)行多次實(shí)驗(yàn)以選擇最佳效果。

      n Step3.4研究人員進(jìn)行結(jié)果描述并得出結(jié)論。

      圖2是該過程的直觀顯示。

      4 實(shí)驗(yàn)結(jié)果分析

      實(shí)驗(yàn)數(shù)據(jù)來復(fù)旦語料,皆為中文語料。它們是C3-Art,C5-Education,C11-Space和C16-Electronics。每種類型都有500個(gè)文本,分別用top1~top4表示。在本文中,K-means算法用于聚類,評估標(biāo)準(zhǔn)為F值,用于測量文本的相似度值。F值是信息檢索中精度和回歸指數(shù)的組合的標(biāo)準(zhǔn)。

      我們通過處理文本,獲得空間模型,通過使用VSM模型來計(jì)算Simv(di,dj)的相似度,使用LDA模型計(jì)算Siml(di,dj)的相似度。最后,我們可以通過線性相加的方法得到混合相似度的值。

      在LDA建模過程中,我們使用吉布斯抽樣得到參數(shù)估計(jì)。在本文中,通過實(shí)驗(yàn)得到在K值為50時(shí)聚類的效果最好,所以我們選擇K = 50。超參數(shù)α= 50 / K,β= 0.01。選擇k值= 0.85。

      在本文中,我們做了兩個(gè)實(shí)驗(yàn)。分別與LDA模型和VSM模型相比較,然后對其結(jié)果進(jìn)行了描述。

      從實(shí)驗(yàn)結(jié)果看出,在單獨(dú)使用LDA模型時(shí),由于K值較小的緣故其精確度是最差,而VSM模型的精確度雖然達(dá)到了90%以上,但是由于其忽略了文本中潛在的語意,所以在想進(jìn)一步提高是很困難的,而在使用VSM模型+LDA模型后,精確度又得到了一個(gè)提升,說明本文提出的方法是有效的。圖2顯示logP(w|K)隨K值的變化的折線圖,圖4和圖5分別顯示了每個(gè)類別的F和模型精度:

      5 結(jié)束語

      通過使用VSM模型和LDA模型,既克服了VSM模型無法發(fā)現(xiàn)潛在語意的缺點(diǎn),又彌補(bǔ)了LDA模型在簇?cái)?shù)過少時(shí)精確度不足的問題。通過改進(jìn)TF-IDF的計(jì)算方法精確特征詞的權(quán)重,將文本-主題和主題-詞進(jìn)行線性的結(jié)合,使得文本的語意得到了增強(qiáng),同時(shí)進(jìn)行降維,使得計(jì)算所花的時(shí)間和金錢減少。使用本文的方法有以下好處:

      1) 混合相似度比單獨(dú)使用任何一個(gè)模型的精確度都高,聚類效果更好。

      2) 充分利用兩種模型的特點(diǎn),改進(jìn)權(quán)重的計(jì)算方法,使得統(tǒng)計(jì)的結(jié)果更精確。

      3) 利用LDA模型的特點(diǎn)進(jìn)行降維處理,大大縮短了計(jì)算所花的時(shí)間和金錢。

      LDA模型雖然在發(fā)現(xiàn)潛在語意時(shí)是一種很高效的手段,但其本身也存在一些問題,當(dāng)文本較短時(shí)LDA模型的效果特別差,日后的研究會(huì)向著如何提高LDA模型在處理短文本時(shí)的效果。

      參考文獻(xiàn):

      [1] Salton G.Automatic., Text Processing.Boston:Addison[M].Wesley Longman Publishing Company,1998.

      [2] Thomas Hofmann., Unsupervised Learning by Probabilistic Latenr Semantic Analysis[R].JASIS,1990,41(6):391-407.

      [3] Bhattacharya,Indrani,Sil,Jaya,Sparse representation based query classification using LDA topic modeling[J].Advances in Intelligent Systems and Computing,2016(469):621-629.

      [4] Liu Q,Chen E,Xiong H,et al.A Cocktail Approach for Travel Package Recommendation[R].IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING,2014,26(2):278-293.

      [5] Yue Liu,Shimin Wang, Qian Cao.Research on Commodities Classification Based on LDA IMM 2015[R].Lancaster:DEStech Publivations,2015:189-191.

      [6] Wang C,Blei D.Collaborative Topic Modeling for Recommending Scientific Articles.Proc.ACM 17th ACM SIGKDD Int'l Conf[J].Knowledge Discovery and Data Mining,2011:488-456.

      [7] 王鵬,高鋮,陳曉美. 基于LDA模型的文本聚類研究[J]. 情報(bào)科學(xué).2015,33(1):63-68.

      [8] 李國,張春杰,張志遠(yuǎn). 一種基于加權(quán) LDA 模型的文本聚類方法[J]. 中國民航大學(xué)學(xué)報(bào).2016,34(2):46-51.

      [9] 王振振,何明,杜永萍.基于LDA主題模型的文本相似度計(jì)算[J]. 計(jì)算機(jī)科學(xué).2013,40(12):229-232.

      [10] 胡秀麗. 基于VSM和LDA模型相結(jié)合的微博話題漂移檢測[J]. 蘭州理工大學(xué)學(xué)報(bào),2015,41(5):104-109.

      [11] 趙士杰, 陳秋. 基于語義和TF-IDF的項(xiàng)目相似度計(jì)算方法[J]. 計(jì)算機(jī)時(shí)代.2015(5):1-3+6.

      [12] Blei D M, Ng A Y, Jordan M I.Latent Dirichlet Allocation[C]. Journal of Machine Learning Research 3,2003: 993-1022.

      [13] Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613-620.

      [14] 王春龍,張敬旭. 基于 LDA 的改進(jìn) K-means 算法在文本聚類中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用.2014,34(1):249-254.endprint

      猜你喜歡
      相似度聚類
      基于DBSACN聚類算法的XML文檔聚類
      改進(jìn)的協(xié)同過濾推薦算法
      模糊Petri網(wǎng)在油田開發(fā)設(shè)計(jì)領(lǐng)域的應(yīng)用研究
      條紋顏色分離與聚類
      基于Spark平臺的K-means聚類算法改進(jìn)及并行化實(shí)現(xiàn)
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      泰来县| 高碑店市| 莱州市| 福贡县| 阿拉善右旗| 河东区| 阿克苏市| 清远市| 昌邑市| 赣州市| 弥渡县| 昌邑市| 炉霍县| 抚顺市| 彰化县| 即墨市| 屏山县| 盐山县| 伊宁市| 吉木萨尔县| 楚雄市| 茂名市| 尤溪县| 资阳市| 普定县| 扶余县| 津市市| 鹤岗市| 青阳县| 固安县| 松原市| 黄陵县| 民县| 湘潭市| 肥城市| 福海县| 玛多县| 衡南县| 丰都县| 西和县| 托里县|