• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      主題模型在檢索結(jié)果聚類中的應(yīng)用

      2018-02-12 12:24蔣宗禮趙思露
      軟件導(dǎo)刊 2018年12期

      蔣宗禮 趙思露

      摘要:檢索結(jié)果聚類能夠有效幫助提高獲取信息的效率和質(zhì)量。針對(duì)傳統(tǒng)文本聚類模型存在數(shù)據(jù)維數(shù)過高、缺乏語義理解等問題,提出一種面向檢索結(jié)果聚類的融合共現(xiàn)分析主題建模算法?;诟倪M(jìn)的LDA模型,對(duì)得到的“文檔-主題”概率分布進(jìn)行聚類分析,采用K-means算法完成聚類過程,最后提出根據(jù)聚類中心提取主題詞作為類簇標(biāo)簽。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的LDA算法在檢索結(jié)果聚類應(yīng)用上不僅獲得了很好的聚類效果,類簇標(biāo)簽也有良好的可讀性。

      關(guān)鍵詞:LDA;共現(xiàn)分析;檢索結(jié)果聚類;類簇標(biāo)簽

      Research on Application of Topic Model in Clustering Search Results

      JIANG Zong?li,ZHAO Si?lu

      (Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)

      Abstract:The clustering of search results can effectively help improve the efficiency and quality of information retrieval. Aiming at the problems of traditional data clustering models such as high data dimension and lack of semantic understanding, this paper proposes a fusion co?occurrence analysis topic modeling algorithm oriented to the retrieval of results clustering.Based on the improved LDA model, the obtained “document?subject” probability distribution is clustered, the K?means algorithm is used to complete the clustering process, and finally the clustering center is used to extract topic words as cluster?like tags. The experimental results show that the improved LDA algorithm not only has a good clustering effect on the clustering of search results, but also has a good readability of cluster labels.

      Key Words:LDA;co?occurrence analysis;clustering of search results;cluster label

      0?引言

      網(wǎng)絡(luò)資源的不斷增長使檢索得到的返回結(jié)果數(shù)量龐大,而且根據(jù)檢索相關(guān)性算法與排序算法的不同,返回的結(jié)果也具有一定差異性。檢索結(jié)果聚類可以對(duì)得到的檢索結(jié)果進(jìn)行挖掘與組織,對(duì)信息進(jìn)行合理總結(jié)與描述,從而有效提高了用戶獲取信息的效率和質(zhì)量。它通過聚類技術(shù)將檢索結(jié)果依據(jù)主題相似性劃分到不同類簇,并提供類簇標(biāo)簽,使用戶根據(jù)標(biāo)簽快速、準(zhǔn)確定位到感興趣信息所在的類別[1]。其主要有以下3個(gè)特征:①檢索結(jié)果聚類不僅需要得到高質(zhì)量的類簇,還需要描述每個(gè)類簇主題的可讀標(biāo)簽;②檢索結(jié)果聚類有許多可利用的信息,例如查詢?cè)~信息、相關(guān)文檔集信息等;③檢索結(jié)果集本身就是一個(gè)以查詢?cè)~為主題的大類簇,聚類后的類簇為查詢?cè)~相關(guān)子主題的類簇。

      傳統(tǒng)基于VSM的聚類分析方法由于沒有考慮文本中潛在的語義關(guān)聯(lián),不僅聚類效果受到限制,也使得到的類簇標(biāo)簽可讀性差。

      LDA主題模型可以有效挖掘文本內(nèi)部的語義知識(shí),因而被廣泛應(yīng)用于不同領(lǐng)域[2]。不同文本對(duì)象有其自身特點(diǎn),當(dāng)面向不同應(yīng)用領(lǐng)域使用原始LDA主題模型時(shí),結(jié)果都不夠精準(zhǔn)。本文在檢索結(jié)果聚類應(yīng)用研究基礎(chǔ)上提出了基于查詢關(guān)聯(lián)分析的主題模型,并完成了檢索聚類過程。

      1?相關(guān)工作

      Cutting等[3]首先在Scatter/Gather系統(tǒng)中引入對(duì)檢索結(jié)果進(jìn)行聚類以便用戶快速瀏覽的思想,其采用的是經(jīng)典的K-means聚類。最早的檢索結(jié)果聚類算法利用已有的文本聚類算法,在聚類完成后抽取類簇標(biāo)簽。雖然在聚類質(zhì)量上占有優(yōu)勢(shì),但提取標(biāo)簽的可讀性較差。然而,對(duì)于檢索結(jié)果聚類而言,沒有一個(gè)好的標(biāo)簽,聚類將失去主要意義,由此產(chǎn)生了基于標(biāo)簽的聚類算法。該算法先從返回的檢索結(jié)果中抽取詞或短語作為標(biāo)簽,再將結(jié)果分類到對(duì)應(yīng)標(biāo)簽中。典型代表有Zamir等[4]提出的STC后綴樹聚類算法,該算法主要通過發(fā)現(xiàn)高頻共現(xiàn)短語作為聚類依據(jù),但其過度依賴高頻關(guān)鍵詞,而忽略了詞項(xiàng)間的隱含語義關(guān)系。為強(qiáng)調(diào)標(biāo)簽的可讀性與對(duì)簇的描述性,Banerjee等[5]基于Wikipedia挖掘高頻詞語義相關(guān)詞作為候選簇標(biāo)簽;Tseng等[6]基于WordNet抽取查詢關(guān)聯(lián)類別作為聚類描述,這種依賴抽取規(guī)則與外部信息資源的方法雖然使標(biāo)簽質(zhì)量較好,但增大了聚類的時(shí)空復(fù)雜度,且簇的連貫性較差。

      查詢關(guān)鍵詞為檢索結(jié)果聚類的一個(gè)重要線索,文獻(xiàn)[7]中通過對(duì)查詢的抽取,尋找查詢的修飾與限制成分及概念外延,以確定潛在的類別標(biāo)簽,該方法需要外部資源與句法分析知識(shí)作為支撐;Gelgi等[8]使用關(guān)系圖表示查詢?cè)~與詞項(xiàng)的關(guān)聯(lián)關(guān)系,通過查詢?cè)~關(guān)聯(lián)度分析對(duì)詞項(xiàng)進(jìn)行加權(quán),以提高檢索結(jié)果聚類質(zhì)量,但文獻(xiàn)中未涉及類簇標(biāo)簽的獲取。

      類簇標(biāo)簽的需求使文本語義信息挖掘在檢索結(jié)果聚類中顯得尤為重要。LDA模型能夠挖掘文本的潛在語義信息,一些學(xué)者將其應(yīng)用于情感分析、文本分類與推薦系統(tǒng)等方面[9?11],取得了很好的效果。文獻(xiàn)[12]中將原始LDA模型應(yīng)用于檢索結(jié)果的聚類,在聚類質(zhì)量與聚類標(biāo)簽提取方面都具有較好的語義描述效果,但其忽略了文本對(duì)象的特殊性及模型本身的缺陷。本文在面向特定檢索結(jié)果聚類任務(wù)中對(duì)LDA主題模型進(jìn)行了改進(jìn),將查詢關(guān)聯(lián)度融入吉布斯采樣,使建模結(jié)果不再向高頻詞傾斜,突出了相關(guān)主題詞權(quán)重查詢,基于該模型完成了檢索結(jié)果聚類任務(wù)。

      2?LDA主題模型

      2.1?模型介紹

      LDA主題模型是Blei等[13]提出的一個(gè)對(duì)離散數(shù)據(jù)集建模的三層產(chǎn)生式概率模型,其圖模型表示如圖1所示。

      其中,?M表示文檔集總數(shù),N?m為文檔m下的詞總數(shù),T為主題數(shù)目,θ?m表示文檔m的主題概率分布,φ?t表示主題t的詞項(xiàng)概率分布,α、β分別表示θ?m和φ?t?Dirichlet先驗(yàn)分布的超參數(shù),?w?mn、z?mn表示第m篇文檔下第n個(gè)單詞與其主題,陰影節(jié)點(diǎn)表示可觀測(cè)變量。該模型也解釋了文本集中每篇文檔的生成過程,共分為兩步,對(duì)于文檔m,先采樣文檔的主題概率分布為θ?m~Dir(α),對(duì)于文檔m的第n個(gè)單詞w?mn,先采樣詞的主題z?mn~Mult(θ?m)以及主題z?mn的詞分布采樣w?mn~Mult(φ?z?mn),重復(fù)N?m次得到文檔m。

      采用Gibbs采樣[14]對(duì)模型進(jìn)行參數(shù)估計(jì),其通過對(duì)聯(lián)合分布各個(gè)分量輪換采樣,構(gòu)造收斂于目標(biāo)概率分布的馬爾可夫鏈,然后從中進(jìn)行樣本值采樣。采樣更新過程即估計(jì)當(dāng)前采樣詞的主題后驗(yàn)分布如下:

      得到每個(gè)詞項(xiàng)的主題分配后,參數(shù)計(jì)算如下:

      以上公式中,文檔集中第i個(gè)詞項(xiàng)w?i=j,z?i=k表示w?i對(duì)應(yīng)第k個(gè)主題;n(k)?m,i表示第m篇文檔除去第m個(gè)詞后,主題k出現(xiàn)的次數(shù);n(j)?k,i表示第k個(gè)主題除去第i個(gè)詞后,詞項(xiàng)j出現(xiàn)的次數(shù);α?k、β?j分別為主題k?與詞項(xiàng)?j?的Dirichlet先驗(yàn)參數(shù)。

      Gibbs算法通過采樣得到每個(gè)主題的詞項(xiàng)分布與文檔主題分布,然后根據(jù)式(1)得到當(dāng)前采樣詞主題,最終得到一篇文檔主題概率分布的表述。由分析可知,一個(gè)詞的主題分配與該詞在主題中的概率比,以及該詞所在文檔的主題概率分布有關(guān),則高頻詞在文檔與主題中的占比會(huì)較大。

      2.2?LDA在檢索結(jié)果聚類應(yīng)用中存在的問題

      根據(jù)對(duì)以上模型的分析,將主題模型應(yīng)用于檢索結(jié)果聚類具有以下優(yōu)勢(shì):①可以避免傳統(tǒng)聚類算法的維數(shù)災(zāi)難,將文檔映射到較低維空間,實(shí)現(xiàn)文本基于語義層面的降維;②傳統(tǒng)文本聚類方法基于概率詞頻統(tǒng)計(jì),脫離了語義層面,基于主題模型的聚類以主題為依據(jù),能將包含相似主題的文檔聚為一類[15];③通過主題建模對(duì)文本集進(jìn)行挖掘可以得到豐富的信息,并將其用于指導(dǎo)聚類質(zhì)心選取等,改進(jìn)聚類質(zhì)量與效率[16];④對(duì)聚類結(jié)果的類簇標(biāo)簽抽取進(jìn)行優(yōu)化,得到的主題標(biāo)簽可讀性更好,因而對(duì)于檢索結(jié)果聚類具有重要意義;⑤模型參數(shù)空間規(guī)模固定,與文本自身規(guī)模無關(guān),適合于大規(guī)模文本集。

      然而原始的LDA模型基于詞袋模型假設(shè),認(rèn)為每個(gè)詞同等重要,使得模型向高頻詞主題傾斜,容易導(dǎo)致一些詞出現(xiàn)次數(shù)不多但與查詢?cè)~強(qiáng)相關(guān),且主題區(qū)分度明顯的詞在建模過程中作用降低。本文充分利用查詢?cè)~與查詢相關(guān)文檔的信息,將查詢關(guān)聯(lián)度權(quán)重融入主題模型,以改進(jìn)文檔建模效果,進(jìn)而優(yōu)化聚類質(zhì)量。

      3?面向檢索結(jié)果聚類的LDA主題模型

      3.1?檢索結(jié)果文檔集特征分析

      檢索結(jié)果文檔都在查詢?cè)~所限定的一個(gè)寬泛的主題下,通過聚類將其細(xì)分為一些更具體的子主題,每個(gè)子主題的文本都與查詢?cè)~相關(guān),每個(gè)子主題也與查詢相關(guān)。為了更明確文本所屬的子主題,通過表征該文本的特征詞加以判斷。圖2為檢索結(jié)果文本聚類結(jié)構(gòu)。

      顯然與查詢?cè)~關(guān)聯(lián)程度越大的特征詞,越能有效幫助一篇文檔區(qū)分所屬的子主題。

      3.2?查詢關(guān)聯(lián)度計(jì)算

      對(duì)于查詢關(guān)鍵詞,一般認(rèn)為那些與其經(jīng)常搭配出現(xiàn)的詞可以更好地表現(xiàn)詞的語義主題,其共現(xiàn)度越高,詞項(xiàng)與其存在主題相關(guān)的可能性越大,越具有主題表達(dá)能力[17]。通過共現(xiàn)分析可以衡量詞項(xiàng)與查詢關(guān)鍵詞之間的關(guān)聯(lián)度,關(guān)聯(lián)度越高,詞項(xiàng)權(quán)重越大。

      通常采用互信息分析詞的共現(xiàn)關(guān)系,詞?w?i與w?j?之間的互信息計(jì)算如式(4)所示.

      p(w?i,w?j)為w?i、w?j同時(shí)出現(xiàn)的概率,p(w?i)為w?i出現(xiàn)的概率,p(w?j)為w?j出現(xiàn)的概率。假設(shè)檢索結(jié)果集文檔中每一個(gè)文檔都包含查詢?cè)~q,則對(duì)于文檔集中任意詞項(xiàng)w?i,計(jì)算得到的共現(xiàn)關(guān)聯(lián)度MI(w?i,q)=0。若查詢?cè)~在檢索返回相關(guān)文檔集中出現(xiàn)頻率過高,則不適合采用互信息對(duì)查詢?cè)~與文檔集中的詞項(xiàng)進(jìn)行共現(xiàn)分析。而且這種方法只考慮了詞項(xiàng)的共文檔頻率,而沒有考慮兩個(gè)詞項(xiàng)的共現(xiàn)頻度以及詞項(xiàng)重要度。所謂共文檔頻度是指查詢關(guān)鍵詞與詞項(xiàng)在檢索結(jié)果文檔集中共同出現(xiàn)在同一文檔中的頻度,而共現(xiàn)頻度是指查詢關(guān)鍵詞與詞項(xiàng)在同一篇文檔中共同出現(xiàn)時(shí),在該文檔中兩個(gè)詞項(xiàng)分別出現(xiàn)的頻度。

      設(shè)D為檢索結(jié)果文檔集,|D|=M,d?m∈D,m∈[1,M];W為文檔集中所有的詞項(xiàng)集合,|W|=N,w?i∈W,i∈[1,N];Q為查詢關(guān)鍵詞集合,查詢?cè)~q?∈Q;對(duì)于任意w?i∈W,且w?i≠q,w?i、q在d?m中出現(xiàn)的頻度分別記作freq(w?i|d?m)與freq(q|d?m),包含詞項(xiàng)w?i的文檔集合記作D?w?i,則共現(xiàn)文檔集合記作D?w?i,q;用M(w?i,q)表示詞項(xiàng)w?i相對(duì)于查詢關(guān)鍵詞q的共文檔率,即在出現(xiàn)查詢?cè)~q的文檔集中,同時(shí)出現(xiàn)w?i的文檔數(shù)與只出現(xiàn)查詢?cè)~文檔數(shù)的比。計(jì)算公式如下:

      用F(w?i,q)表示w?i與查詢?cè)~q在同一篇文檔中的共現(xiàn)頻度關(guān)系,查詢?cè)~與共現(xiàn)詞的緊密程度計(jì)算公式如下:

      此外考慮詞項(xiàng)與查詢關(guān)鍵詞在整個(gè)文檔集中的重要性,以避免出現(xiàn)與查詢關(guān)鍵詞關(guān)聯(lián)度很高的詞在整個(gè)語料集上的重要性偏低,即其主題區(qū)分度不明顯。此處引入逆文檔頻率IDF[18],計(jì)算公式如下:

      其中C表示語料庫中的文檔集合,C?w?i為包含w?i的文檔集合。基于以上對(duì)共現(xiàn)因素的分析,構(gòu)造查詢關(guān)鍵詞關(guān)聯(lián)程度度量公式,用Cor(w?i,Q)表示詞項(xiàng)w?i與查詢?cè)~集Q的關(guān)聯(lián)程度,?即:

      其中?F(w?i,q)?計(jì)算時(shí)需進(jìn)行歸一化處理。

      3.3?改進(jìn)后的LDA算法

      得到各詞項(xiàng)的查詢關(guān)聯(lián)度后,在對(duì)每個(gè)詞的主題進(jìn)行Gibbs采樣過程中,當(dāng)文檔m的第i個(gè)詞項(xiàng)w?i=j分配到主題k時(shí),式(2)中n(j)?k,i的值不是累加1而是累加w?i的詞項(xiàng)關(guān)聯(lián)度Cor(w?i,Q)。同理,式(3)中的n(k)?m,i也累加Cor(w?i,Q)。由此得到“文檔-主題”分布θ與“主題-詞項(xiàng)”分布φ計(jì)算公式如下:

      上式中,∑Mi=1n(k)?m,i·Cor(w?i,Q)為文檔m主題k下所有詞的關(guān)聯(lián)度權(quán)重和,n(j)?k,i·Cor(w?i,Q)為主題k下所有詞為j的關(guān)聯(lián)度之和。

      4?改進(jìn)模型在檢索結(jié)果聚類中的應(yīng)用

      本文采用基于劃分的K?means聚類算法[19],該算法具有線性時(shí)間復(fù)雜度,適合于處理大規(guī)模數(shù)據(jù)集合,其通過優(yōu)化一個(gè)準(zhǔn)則函數(shù)進(jìn)行聚類劃分。通過LDA建模后,文本被表示為主題概率向量。為發(fā)揮主題模型的優(yōu)勢(shì),本文使用衡量概率分布差異的函數(shù)JS距離替代傳統(tǒng)的相似度計(jì)算方法[20],其為KL散度的對(duì)稱版本,將距離定義在區(qū)間[0,1]上。對(duì)于主題概率向量?p=(p?1,p?2,…,p?T)與q=(q?1,q?2,…,q?T)?,其相似度定義為:

      由于類簇標(biāo)簽抽取對(duì)檢索結(jié)果聚類具有重要意義,類簇標(biāo)簽應(yīng)能清晰、準(zhǔn)確地概括聚類中所有文檔的共同主題[21]。傳統(tǒng)基于最大詞頻的標(biāo)簽提取缺乏語義信息、可讀性差、用戶不易理解,對(duì)聚類的描述不夠準(zhǔn)確且與查詢?cè)~的關(guān)聯(lián)度低,主題特征不明顯。LDA可將文本表示為主題概率分布向量,通過聚類,主題分布相似的文檔被放在同一類簇中,主題分布率高的主題即代表該類簇主題,因此選取主題下詞項(xiàng)概率分布高的詞作為描述該類簇的標(biāo)簽,標(biāo)簽抽取具體步驟如下:

      (1)得到聚類算法迭代終止時(shí)各類簇的聚類中心,選取距離聚類中心最近的s篇文檔集合S={d?1,…,d?s}。

      (2)統(tǒng)計(jì)集合S中每篇文檔的主題概率分布,將概率分布最大的主題作為類簇主題,記作Z?max?(i),i=1,…,K。

      (3)得到主題Z?max?(i)?的“主題-詞項(xiàng)”概率分布,選取占比最大的前兩個(gè)詞項(xiàng)作為主題描述詞,即該類簇標(biāo)簽。

      整個(gè)實(shí)驗(yàn)算法步驟如圖3所示。

      5?實(shí)驗(yàn)數(shù)據(jù)及結(jié)果分析

      5.1?實(shí)驗(yàn)數(shù)據(jù)

      由于目前尚沒有一個(gè)應(yīng)用于檢索結(jié)果聚類評(píng)價(jià)的標(biāo)準(zhǔn)中文測(cè)試集,本文通過構(gòu)造不同的查詢關(guān)鍵詞提交給百度搜索引擎,選取返回結(jié)果的前10頁,約100個(gè)結(jié)果(排序算法已可保證覆蓋查詢?cè)~的大部分語義分布)作為數(shù)據(jù)源,用于構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集。構(gòu)造5個(gè)查詢?cè)~:“蘋果”、“金剛”、“長城”、“獵豹”、“熊貓”,采集5個(gè)檢索結(jié)果集合,共670篇網(wǎng)頁文本。對(duì)網(wǎng)頁文本進(jìn)行預(yù)處理,包括HTML解析、分詞、去停用詞等,并對(duì)文檔表示格式進(jìn)行處理,作為LDA建模的輸入。同時(shí)對(duì)每個(gè)集合中的文檔采用人工進(jìn)行分類,每個(gè)類別對(duì)應(yīng)查詢?cè)~在檢索結(jié)果集合中的一個(gè)語義分布。

      5.2?參數(shù)設(shè)置

      LDA模型對(duì)檢索結(jié)果集進(jìn)行建模時(shí),模型中的先驗(yàn)超參數(shù)按照經(jīng)驗(yàn)值設(shè)置為?α=50/T,β=0.01,主題數(shù)T?設(shè)為20,Gibbs采樣迭代次數(shù)為500次。聚類過程中,?若K值過大會(huì)導(dǎo)致聚類結(jié)果不易理解,過小則聚類效果不明顯。為便于模型的實(shí)驗(yàn)測(cè)評(píng),本文選取人工分類得到的主題數(shù)K進(jìn)行聚類,隨機(jī)選取初始聚類中心,為避免收斂到局部最優(yōu),重復(fù)執(zhí)行多次。

      5.3?建模結(jié)果評(píng)價(jià)分析

      對(duì)“獵豹”的檢索結(jié)果集分別使用原始LDA與BQ-LDA進(jìn)行建模,表1、表2為兩種模型的部分主題詞項(xiàng)分布,詞項(xiàng)根據(jù)分布數(shù)量由高到低排列。

      由表1、表2可以看出,在LDA模型中,分布靠前的詞項(xiàng)存在著一些主題區(qū)別度差且重要性低的詞,而改進(jìn)后的結(jié)果主題語義區(qū)分明顯,靠前的詞項(xiàng)能清晰地描述主題,與查詢關(guān)聯(lián)度更大的詞項(xiàng)分布位序都得到了提升。

      本文分別對(duì)不同查詢?cè)~進(jìn)行聚類,對(duì)于聚類結(jié)果,采用F-Measure作為評(píng)價(jià)標(biāo)準(zhǔn),其定義參照信息檢索的評(píng)測(cè)方法。假設(shè)聚類文檔數(shù)為?N,N?i表示正確劃分時(shí)類別i中的文檔個(gè)數(shù),N?j表示聚類結(jié)果類簇j中的文檔個(gè)數(shù),N(i,j)表示結(jié)果類簇j正確劃分i中的文檔數(shù),則類別i與聚類結(jié)果j?的F-Measure計(jì)算如下:

      其中P表示準(zhǔn)確率,R表示召回率。

      整個(gè)聚類結(jié)果的評(píng)價(jià)函數(shù)為:

      圖4為不同查詢下文檔集合使用不同模型的聚類效果。

      由圖4可以看到,使用主題模型的聚類質(zhì)量比傳統(tǒng)VSM要高,而改進(jìn)后模型應(yīng)用于聚類后的F值相比原始LDA更高,最多時(shí)高出了9個(gè)百分點(diǎn)。

      在標(biāo)簽提取過程中,?將s值?設(shè)為3,查詢?cè)~為“獵豹”時(shí),各模型聚類下的類簇標(biāo)簽結(jié)果如表3所示。

      由表3可以看出,VSM下的標(biāo)簽語義描述效果最差,根據(jù)標(biāo)簽并不能理解類簇主題,而相比于傳統(tǒng)LDA模型,改進(jìn)后的模型對(duì)簇的描述與區(qū)分度更好。

      6?結(jié)語

      將查詢?cè)~信息融入聚類,基于融合查詢關(guān)聯(lián)度的主題模型對(duì)檢索結(jié)果文檔建模,使用基于主題模型的類簇抽取方法,可以得到不錯(cuò)的聚類效果與區(qū)分性強(qiáng)的類簇標(biāo)簽。然而,聚類算法實(shí)驗(yàn)中需要設(shè)定初始聚類數(shù)目,在Gibbs采樣的時(shí)間效率方面尚存在不足之處,有待下一步改進(jìn)。

      參考文獻(xiàn):

      [1]?柏晗,成穎,柯青.網(wǎng)絡(luò)檢索結(jié)果聚類研究綜述[J].情報(bào)理論與實(shí)踐,2015,38(10):138?144.

      [2]?祖弦,謝飛.LDA主題模型研究綜述[J].合肥師范學(xué)院學(xué)報(bào),2015,33(6):55?58.

      [3]?CUTTING D R, KARGER D R,PEDERSEN J O, et al. Scatter/Gather: a cluster?based approach to browsing large document collections[J]. 1992:318?329.

      [4]?ZAMIR O E. Clustering Web documents: a phrase based method for grouping seach engine results[C].University of Washington,1999.

      [5]?BANERJEE S, RAMANATHAN K, GUPTA A. Clustering short texts using Wikipedia[C].International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM,2007:787?788.

      [6]?TSENG Y H, LIN C J, CHEN H H,et al. Toward generic title generation for clustered documents[M]. Berlin: Springer Berlin Heidelberg,2006.

      [7]?陳毅恒.文本檢索結(jié)果聚類及類別標(biāo)簽抽取技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2010.

      [8]?GELGI F, DAVULCU H, VADREVU S. Term ranking for clustering Web search results[J]. Proceedings of International Workshop on the Web & Databases,2007.

      [9]?LI F,HUANG M, ZHU X. Sentiment analysis with global topics and local dependency[C].Twenty?Fourth AAAI Conference on Artificial Intelligence. AAAI Press,2010:1371?1376.

      [10]?李文波,孫樂,張大鯤.基于Labeled?LDA模型的文本分類新算法[J].計(jì)算機(jī)學(xué)報(bào),2008,31(4):620?627.

      [11]?YANG M, CUI T, TU W. Ordering?sensitive and semantic?aware topic modeling[C].Proceedings of the Twenty?Ninth AAAI Conference on Artificial Intelligence, 2015:2353?2359.

      [12]?阮光冊(cè),夏磊.基于主題模型的檢索結(jié)果聚類應(yīng)用研究[J].情報(bào)雜志,2017,36(3):179?184.

      [13]?BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. J Machine Learning Research Archive,2003,3:993?1022.

      [14]?GRIFFITHS T L, STEYVERS M. Finding scientific topics[J].Proceedings of the National Academy of Sciences of USA, 2004(1):5228?5235.

      [15]?王李冬,魏寶剛,袁杰.基于概率主題模型的文檔聚類[J].電子學(xué)報(bào),2012,40(11):2346?2350.

      [16]?王春龍,張敬旭.基于LDA的改進(jìn)K?means算法在文本聚類中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2014,34(1):249?254.

      [17]?趙蓉英,陳晨.基于共現(xiàn)分析的中文文獻(xiàn)檢索結(jié)果聚類研究[J].情報(bào)科學(xué),2014(1):115?118.

      [18]?JONES K S. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of Documentation, 1972,28(1):493?502.

      [19]?NASRAOUI O. Web data mining: exploring hyperlinks, contents, and usage data[M]. New York:ACM,2008.

      [20]?ENDRES D M, SCHINDELIN J E. A new metric for probability distributions[J]. IEEE Transactions on Information Theory,2003,49(7):1858?1860.

      [21]?韓中華.檢索結(jié)果聚類中的類別標(biāo)簽抽取技術(shù)研究[D].哈爾濱: 哈爾濱工業(yè)大學(xué),2011.

      曲沃县| 凉山| 陇南市| 武平县| 宁蒗| 黔西| 沐川县| 昭苏县| 华亭县| 思茅市| 宁海县| 奉化市| 万宁市| 高雄市| 昌吉市| 平定县| 泽库县| 台北县| 漠河县| 锡林郭勒盟| 拜城县| 肃南| 威海市| 延长县| 美姑县| 南投市| 新昌县| 河池市| 乃东县| 河源市| 玛沁县| 噶尔县| 远安县| 通山县| 象州县| 夹江县| 长丰县| 定远县| 齐齐哈尔市| 肇源县| 凤城市|