基于詞義類簇的文本聚類

2013-04-23 10:15:14唐國瑜夏云慶

中文信息學(xué)報(bào) 2013年3期

唐國瑜，夏云慶，張民，鄭方

(1. 清華信息科學(xué)技術(shù)國家實(shí)驗(yàn)室技術(shù)創(chuàng)新和開發(fā)部語音和語言技術(shù)中心, 清華大學(xué)信息技術(shù)研究院語音和語言技術(shù)中心, 清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系，北京 100084；2. 資訊通信研究院，新加坡 138632)

1 引言

文檔聚類是自然語言處理中的重要任務(wù)，而文檔表示是文檔聚類中的關(guān)鍵部分。現(xiàn)有的很多方法都是基于詞袋(Bag of Word)的思想。向量空間模型(Vector Space Model, VSM)[1]是最常用的經(jīng)典文檔表示模型，它將詞看作特征，將文檔表示成詞的向量。但是VSM忽略了兩個(gè)重要的語言學(xué)現(xiàn)象：同義詞和多義詞現(xiàn)象。

同義詞現(xiàn)象指不同的詞含有相同的或者相似度的詞義。例如： “計(jì)算機(jī)”和“電腦”表達(dá)了相同的意思。

多義詞現(xiàn)象則指一個(gè)詞可以同時(shí)含有兩個(gè)或者多個(gè)詞義。例如“蘋果”可以指一種水果，也可以指一個(gè)電腦公司。

為了同時(shí)解決這兩個(gè)問題，以前的研究試圖將文檔表示在語義空間上[2-5]。一些研究試圖利用WordNet[2]或者維基百科[3]構(gòu)造一個(gè)顯式語義空間，然后采用簡(jiǎn)單的詞義歸納技術(shù)區(qū)分詞義。但是這些通用的語義資源通常欠缺完備性。另外一些研究如潛狄利克雷分布(Latent Dirichlet Allocation, LDA)[4]將文本表示在一個(gè)潛語義空間上。這類方法不需要外部資源，因此它能在一定程度上克服顯式語義方法的不足。但是Lu et al.[6]的研究表明，潛語義表示模型在需要細(xì)粒度區(qū)分信息的文本挖掘任務(wù)上的性能并不突出。

本文提出了詞義類簇模型(SCM)，在詞義類簇空間上表示文本。SCM首先構(gòu)造詞義類簇空間，然后在這個(gè)空間上表示文本。詞義類簇空間的構(gòu)造有兩部分組成。首先利用LDA模型[7]從開發(fā)集中歸納詞義；然后通過聚類方法合并相同或相似的詞義生成詞義類簇。這是由于詞義歸納任務(wù)專注于詞的消歧，忽略了詞之間的關(guān)系。因此在本文中局部的詞義需要結(jié)合成全局的詞義類簇。詞義類簇空間構(gòu)造后，本文首先進(jìn)行詞義消歧，然后將文檔表示在詞義空間上。

本文提出的SCM模型旨在同時(shí)處理同義詞和多義詞現(xiàn)象。1) 詞義聚類可以將相同或者相近的詞義聚為一類。同義詞或者近義詞將被識(shí)別成相同的詞義類簇，這樣文檔相似度將計(jì)算得更加準(zhǔn)確。2) 文檔中的每個(gè)詞都根據(jù)它的上下文賦予一個(gè)特定的詞義類簇，這樣多義詞會(huì)是被識(shí)別成不同的詞義類簇，因此可以得到更加準(zhǔn)確的文檔相似度。

與之前提到的顯式語義方法相比，本文的詞義是由開發(fā)集歸納出來的，比較容易獲得，還可以擴(kuò)展到不同的語言中。與LDA相比，SCM利用LDA獲得詞義，可以獲得較好的細(xì)粒度區(qū)分信息。

實(shí)驗(yàn)表明，SCM在標(biāo)準(zhǔn)測(cè)試集上的性能優(yōu)于基線系統(tǒng)以及經(jīng)典話題模型LDA。

本文組織如下：第2節(jié)介紹了相關(guān)工作，第3節(jié)介紹了SCM模型，第4節(jié)介紹了相關(guān)實(shí)驗(yàn)，最后一節(jié)進(jìn)行了總結(jié)。

2 相關(guān)工作

2.1 文檔表示模型

傳統(tǒng)的VSM模型中，詞和詞之間都是相互獨(dú)立的，忽略了他們之間的語義關(guān)系。一些研究試圖利用概念或者詞類簇[8-9]作為特征，另外一些研究則利用詞與詞之間的相似度[10-11]。但是這些模型只解決了同義詞現(xiàn)象，忽略了多義詞現(xiàn)象。

為了同時(shí)解決這兩個(gè)問題，一些文檔表示模型采用了WordNet或者維基百科等語義資源，將文檔表示在概念空間上[2，3，12]。但是這些語義資源很難構(gòu)建并且缺乏完備性。

還有一些研究利用潛語義空間。潛語義分析(LSA)[5]以及潛狄利克雷分布(LDA)[4]是其中兩個(gè)代表性的模型。LSA[5]試圖利用奇異值分解壓縮矩陣，它的特征是所有詞的線性組合。LSA不能處理多義詞現(xiàn)象。LDA[4]曾經(jīng)成功地用于話題發(fā)現(xiàn)任務(wù)，但是Lu et al.[6]的研究表明，直接將LDA用于需要細(xì)粒度區(qū)分信息的文本挖掘任務(wù)(如文檔聚類)中性能較差。

本文利用開發(fā)集歸納詞義并且利用詞義類簇表示文檔，使SCM模型可以同時(shí)處理同義詞現(xiàn)象和多義詞現(xiàn)象。同時(shí)該模型可以很容易地拓展到其他語言和其他領(lǐng)域。

2.2 詞義歸納和詞義消歧

很多研究都致力于解決詞義消歧任務(wù)[13]。自然語言處理任務(wù)(比如信息檢索[14])使用詞義來代替詞可以帶來性能的提高。但是這些研究需要人工編輯的語義資源，同時(shí)如何選取詞義的粒度也是研究中的難題。

本文采用詞義歸納(Word Sense Induction, WSI)算法從未標(biāo)注文本中自動(dòng)發(fā)現(xiàn)詞義。詞義歸納算法有很多[15]。Brody and Lapata[7]提出的貝葉斯模型利用拓展的LDA模型歸納詞義。實(shí)驗(yàn)結(jié)果表明他們的模型要優(yōu)于SemEval-2007評(píng)測(cè)[16]中最好的幾個(gè)系統(tǒng)。詞義歸納算法已經(jīng)在信息檢索任務(wù)中得到了應(yīng)用[17-18]。但是以上的這些研究都只考慮了每個(gè)詞的詞義而忽略了詞與詞之間的關(guān)系。

本文采用貝葉斯模型[7]進(jìn)行詞義歸納，同時(shí)采用該模型進(jìn)行詞義消歧。

2.3 文檔聚類

文檔聚類的目的是按照相似程度將文檔劃分為不同的類簇。一般來說聚類算法可以分為基于區(qū)分和基于生成兩種。前者試圖利用相似度將數(shù)據(jù)劃分為不同的類簇(比如k-Means和層次聚類方法)[19，20]，后者則利用特征和數(shù)據(jù)的分布(如EM算法)[21]進(jìn)行劃分。

本文評(píng)測(cè)提出的模型是用于文本聚類任務(wù)的，同時(shí)聚類算法還用來構(gòu)造詞義類簇。

3 詞義類簇模型

詞義類簇模型主要是利用詞義類簇表示文檔。3.1節(jié)給出了詞義以及詞義類簇的定義。3.2節(jié)給出了文檔在詞義類簇空間上的表示，3.3節(jié)則給出了詞義類簇的構(gòu)造，最后3.4節(jié)總結(jié)了詞義類簇模型的流程。

3.1 詞義和詞義類簇

定義1詞義：特定詞w的詞義sw可以統(tǒng)計(jì)地表示為一組上下文的詞的概率分布。如式(1)所示。

其中ti表示上下文中的詞，p(ti|sw)表示ti對(duì)于詞義sw的概率，即給定詞義sw，詞ti出現(xiàn)在上下文中的概率。

本文利用上下文中的詞代替語義資源表示詞義，這是由于語義資源通常構(gòu)造困難且欠缺完備性，而上下文中詞的分布可以通過WSI算法(見3.2節(jié))從開發(fā)集中獲得。

兩個(gè)詞義的例子如下：

例#1: 詞“作業(yè)”的詞義“作業(yè)#1”

作業(yè): 0.159

功課: 0.069

學(xué)生: 0.019

例#2: 詞“作業(yè)”的詞義“作業(yè)#2”

作業(yè): 0.116

工作: 0.039

車間: 0.026

從例子可以看出，詞“作業(yè)”含有兩個(gè)詞義，每個(gè)詞義都有不同的上下文詞的概率。

一個(gè)詞可以含有不同的詞義，因此多義詞可以很容易的用詞義進(jìn)行區(qū)分，但是由于詞義是由WSI算法歸納出來的，而現(xiàn)有的WSI算法只關(guān)注于局部詞義即同一個(gè)詞的不同詞義。因此本文引入詞義類簇來獲得不同詞之間的相同詞義。本文假設(shè)每個(gè)詞義只能屬于一個(gè)詞義類簇。

定義2詞義類簇：詞義類簇指一組由詞義聚類算法得到的詞義，它可以表示為式(2)：

兩個(gè)詞義類簇的示例如下：

例#3: 詞義類簇 c#1

{作業(yè)#1, 功課#1}

作業(yè)#1={作業(yè): 0.159, 功課: 0.069, 學(xué)生: 0.019}

功課#1={功課: 0.179, 作業(yè): 0.059, 學(xué)生: 0.029}

例#4: 詞義類簇 c#2

{作業(yè)#2, 工作#1}

作業(yè)#2={作業(yè): 0.116, 工作: 0.039, 車間: 0.026}

工作#1={工作: 0.12, 作業(yè): 0.04, 車間: 0.016}

類簇c#1中，由于“作業(yè)#1”與“功課#1”的上下文概率分布比較相似，因此“作業(yè)#1”與“功課#1”被聚為一類。同理，“作業(yè)#2”和“工作#1”被聚為一類。從上面的兩個(gè)類簇可以看出，類簇之間反映了詞的多義性而類簇內(nèi)部則反映了詞的同義性。

3.2 詞義類簇模型

為了在詞義類簇空間上表示文檔，我們需要獲得每篇文檔對(duì)于每個(gè)詞義類簇的概率。而每篇文檔的詞義類簇的概率可以通過它含有的詞獲得。因此，詞義類簇c出現(xiàn)在文檔d中的概率如式(3)所示。

其中p(wk|d)表示文檔的詞概率，可以用nwk,d/Nd進(jìn)行估算，其中nwk,d表示詞頻，Nd表示文檔長(zhǎng)度。p(c|w,d)表示文檔d中的詞w含有詞義類簇c的概率。

這樣，我們需要計(jì)算每篇文檔中每個(gè)詞的詞義類簇概率，它是由詞義類簇中的詞義概率獲得，可以通過式(4)計(jì)算。

對(duì)于文檔中的詞w，它的每個(gè)詞義在文檔中出現(xiàn)的概率可以通過式(5)計(jì)算。

其中a表示詞w在文檔d中的上下文。

最后p(sw|a)可以通過詞義消歧獲得。本文對(duì)文檔中的每個(gè)詞都采用貝葉斯模型進(jìn)行詞義消歧。貝葉斯模型[7]在本文中主要用于詞義推導(dǎo)和詞義消歧。

例如有兩句話：

S1: 學(xué)生們的作業(yè)很多。

S2: 工人正在生產(chǎn)車間作業(yè)。

詞義消歧后，S1中“作業(yè)#1”的概率為0.998 05，而S2中“作業(yè)#2”的概率為0.998 05，這樣，多義詞情況得到了處理。

這樣，SCM模型可以用詞義類簇代替詞，將每篇文檔表示在詞義類簇空間上。SCM模型的一個(gè)實(shí)例如圖1所示。圖1 中，文檔d1和d2分別含有四個(gè)詞。首先，詞“作業(yè)”和詞“功課”屬于同一個(gè)詞義類簇，這意味著SCM可以處理同義詞問題。其次，詞“作業(yè)”在兩篇文檔中分別屬于不同的類簇，這是由于它在兩篇文檔中具有不同的含義，因此SCM模型可以處理多義詞問題。

圖1 SCM模型的示例

3.3 詞義類簇空間的構(gòu)造

詞義類簇的構(gòu)造算法包含兩步：詞義歸納和詞義聚類。

由于貝葉斯模型在詞義歸納算法的優(yōu)越性[7]，本文采用這個(gè)算法，詳細(xì)過程請(qǐng)參見文獻(xiàn)[7]。本文采用句子作為上下文，直接采用LDA模型進(jìn)行詞義歸納。

給定一個(gè)詞w，由上文提到的貝葉斯模型可以獲得它的詞義sw的上下文分布概率即p(t|sw)。但是由于貝葉斯模型是針對(duì)特定詞的，它只能識(shí)別出詞的多義性忽略了同義詞之間的關(guān)系。因此我們將上下文的詞作為特征，p(t|sw)作為特征權(quán)重，利用聚類算法進(jìn)行聚類，本文采用Bisecting K-Means[22]算法進(jìn)行聚類。Bisecting K-Means 是K-Means的拓展方法，研究證明它的性能優(yōu)于標(biāo)準(zhǔn)的K-Means算法和層次聚類算法[24]。它首先將樣本看作是一個(gè)類簇，然后迭代找出最大的類簇進(jìn)行劃分。

3.4 詞義類簇模型的流程

利用詞義類簇模型進(jìn)行文檔表示的流程如圖2所示。

圖2 SCM模型的流程

利用SCM進(jìn)行文檔表示分為兩個(gè)階段：第一階段，首先利用開發(fā)集歸納出詞義(見3.3及定義1)，然后利用聚類算法構(gòu)造詞義類簇。第二階段，首先對(duì)文檔中的每個(gè)詞進(jìn)行詞義消歧，然后利用公式(3)計(jì)算出文檔中的類簇分布概率。

4 評(píng)測(cè)

我們利用文檔聚類任務(wù)對(duì)SCM模型進(jìn)行評(píng)測(cè)，將SCM模型與現(xiàn)有的文檔表示模型進(jìn)行對(duì)比。

4.1 實(shí)驗(yàn)設(shè)置

開發(fā)集: 我們從英文Gigaword語料庫(LDC2009T13)中抽取了210萬英文文檔作為英文開發(fā)集, 從中文Gigaword語料庫(LDC2009T27)中抽取了350萬中文文檔作為中文開發(fā)集。

測(cè)試集: 本文采用四個(gè)測(cè)試集.

1) TDT4 測(cè)試集：我們采用TDT2002(TDT41)和TDT2003(TDT41)作為評(píng)測(cè)集[23]。

2) CLTC測(cè)試集：我們從CLTC數(shù)據(jù)集抽取了兩個(gè)評(píng)測(cè)集[24]。

四個(gè)評(píng)測(cè)集的信息如表1所示。

聚類方法：

為了評(píng)測(cè)SCM在文檔聚類的性能，我們把文檔類簇看做特征，采用TF-IDF公式計(jì)算每篇文檔中特征的權(quán)重。然后采用相似度度量公式計(jì)算文檔間的相似度。最后用聚類算法進(jìn)行聚類。由于聚類算法不是文本的重點(diǎn)，我們使用經(jīng)典的聚類算法： HAC(Hierarchical Agglomerative Clustering)算法[25]。HAC算法先將每個(gè)文檔看成一個(gè)類簇，然后逐步將相似度最高的類簇合并為一個(gè)類簇。為了計(jì)算類簇之間的相似度，我們采用group-average link算法[25]。當(dāng)類簇個(gè)數(shù)達(dá)到預(yù)定值后，則停止合并過程。

表1 測(cè)試集的話題和文檔統(tǒng)計(jì)信息

評(píng)測(cè)指標(biāo)

我們采用了文獻(xiàn)[24] 提出的評(píng)測(cè)指標(biāo)。首先計(jì)算每個(gè)類簇最大的F值。假設(shè)Ai代表系統(tǒng)生成的類簇ci的文檔，Aj代表人工標(biāo)注的類簇cj的文檔。則F值計(jì)算如下：

其中pi, j,ri, j和fi, j分別代表準(zhǔn)確率、召回率和F值。

參數(shù)設(shè)置

SCM要設(shè)置的參數(shù)包括LDA相關(guān)的參數(shù)(α,β 以及Gibbs sample的迭代次數(shù))，每個(gè)詞的詞義個(gè)數(shù)以及詞義類簇的個(gè)數(shù)。對(duì)于LDA相關(guān)的參數(shù)，我們?nèi)ˇ?0.02,β=0.1，迭代次數(shù)設(shè)置為2 000，因?yàn)檫@些參數(shù)在文獻(xiàn)[7]的工作中被證明是最優(yōu)的。由于對(duì)每個(gè)詞選取最優(yōu)的詞義個(gè)數(shù)是非常繁瑣的，我們對(duì)每個(gè)詞都選用相同的詞義個(gè)數(shù)。我們利用CLTC1的數(shù)據(jù)集作為調(diào)試集得出當(dāng)詞義個(gè)數(shù)設(shè)為4的時(shí)候性能最優(yōu)，因此我們的實(shí)驗(yàn)都選用4作為詞義個(gè)數(shù)。

實(shí)驗(yàn)方法：

本文評(píng)測(cè)了4個(gè)方法。

VSM：一個(gè)采用VSM表示文檔的基線系統(tǒng)。

LDA：經(jīng)典的話題模型[4]，用文檔的話題作為特征進(jìn)行聚類。

SM(Sense Model)：基于詞義的文檔表示基線系統(tǒng)，即直接用本文的詞義歸納算法歸納出的詞義直接表示文檔。它與SCM的區(qū)別是不包含詞義聚類步驟。

SCM：本文提出的詞義類簇模型。

4.2 實(shí)驗(yàn)結(jié)果及討論

本文分別比較了四個(gè)系統(tǒng)在英文和中文的四個(gè)測(cè)試集上的性能。結(jié)果如表2 和表3所示。其中對(duì)于SCM，我們?cè)?00到2 000的范圍逐步增加詞義類簇的個(gè)數(shù)，表2 和表3分別列出了各個(gè)測(cè)試集的最高的F值。SCM還列出了相關(guān)的詞義類簇個(gè)數(shù)。

從表2和表3可以得出如下結(jié)論：

1) 在大多數(shù)情況下，SM的性能要高于VSM，這意味著在大多數(shù)情況下，使用詞義表示文檔是有效的。這是因?yàn)榻?jīng)過詞義歸納和消歧后，每個(gè)文檔中的詞都被賦予一個(gè)特定的詞義，使文檔相似度的

表2 系統(tǒng)在四個(gè)英文數(shù)據(jù)集上的最高F值

表3 系統(tǒng)在四個(gè)中文數(shù)據(jù)集上的最高F值

計(jì)算更準(zhǔn)確。例如，兩個(gè)文檔分別含有3.3節(jié)提到的句子S1和S2。由于詞“作業(yè)”在兩篇文檔中分別被識(shí)別為不同的詞義，因此兩篇文檔的相似度為0，而在VSM中，由于含有相同的詞“作業(yè)”，它們的相似度大于0，這意味著詞義空間的相似度計(jì)算更準(zhǔn)確。但是有些情況下，SM的性能要低于VSM，原因是我們對(duì)于每個(gè)詞都是用了相同的詞義個(gè)數(shù)，因此含有相同意義的詞有可能被識(shí)別為不同的詞義，這影響了系統(tǒng)的性能。

2) SCM的性能要高于SM。這是由于使用詞義聚類方法將相似或相同的詞義聚為一類。例如，{職工#0, 職工#2, 工人#2}是由SCM構(gòu)造的詞義類簇。即使不包含相同的詞，含有“職工#0”的文檔與含有“工人#2”的文檔具有一定的相似度，這更符合實(shí)際情況。同時(shí)，詞義聚類還能從一定程度上彌補(bǔ)每個(gè)詞的詞義都取相同個(gè)數(shù)的不良影響。比如說，“職工#0”和“職工#2”，一個(gè)詞義被錯(cuò)誤的分成兩個(gè)，但是它們具有相似的上下文分布，因此可以在詞義聚類階段聚在一起。

3) SCM的性能要高于VSM，這意味由于SCM可以處理多義詞和同義詞現(xiàn)象，使用詞義類簇比使用詞更具有優(yōu)越性。

4) 在大多數(shù)情況下，SCM性能優(yōu)于LDA。LDA是一個(gè)經(jīng)典的話題模型，它將文檔表示在一個(gè)話題空間上，可以同時(shí)處理多義詞現(xiàn)象和同義詞現(xiàn)象。但是在本實(shí)驗(yàn)的大多數(shù)情況下，LDA的性能最低，這是由于文檔聚類任務(wù)需要細(xì)粒度區(qū)分信息，而直接使用LDA不能很好提供這種信息。SCM利用LDA識(shí)別詞義類簇，因此SCM不僅能夠同時(shí)處理同義詞和多義詞現(xiàn)象，同時(shí)還能夠提供特征空間的細(xì)粒度區(qū)分信息。

5) SCM在英文和中文兩種語言上都能獲得相似的改進(jìn)。這意味著SCM的改進(jìn)不僅僅限于一種語言，它可以被拓展到不同的語言。

5 總結(jié)和展望

本文在文檔表示部分改進(jìn)了文檔聚類, 提出了一個(gè)新的文檔表示模型SCM，采用詞義類簇表示文檔。在SCM中，首先利用詞義歸納算法和詞義聚類技術(shù)構(gòu)造詞義類簇，然后將文檔表示在詞義類簇空間上。本文提出的SCM旨在處理同義詞和多義詞現(xiàn)象。同義詞可以被聚在相同的詞義類簇中。同一個(gè)詞的不同詞義被識(shí)別為不同的詞義類簇。因此文檔相似度在SCM上計(jì)算的更準(zhǔn)確。在兩種語言的四個(gè)數(shù)據(jù)上的實(shí)驗(yàn)證明，SCM模型比基線系統(tǒng)和LDA的性能更優(yōu)。

在接下來的工作中，我們將在大規(guī)模數(shù)據(jù)集上繼續(xù)評(píng)測(cè)SCM。同時(shí)由于SCM將文檔表示在詞義類簇空間上，我們將考慮采用SCM在短文本聚類中處理稀疏性數(shù)據(jù)。另外我們可以進(jìn)一步改進(jìn)模型自動(dòng)獲取詞義的個(gè)數(shù)進(jìn)行詞義歸納。

[1] G Salton, A Wong, C S Yang. A Vector Space Model for Automatic Indexing[J]. Communications of the ACM, 1975， 18(11): 613-620.

[2] A Hotho, S Staab, G Stumme. WordNet improves text document clustering[C]//Proc.of SIGIR2003 semantic web workshop.ACM, New York, 2003： 541-544.

[3] P Cimiano, A Schultz, S Sizov, et al. Explicit vs. latent concept models for cross-language information retrieval[C]//Proc. of IJCAI’09.

[4] D M Blei, A Y Ng, M I Jordan. Latent dirichlet allocation[J]. J. Machine Learning Research,2003(3): 993-1022.

[5] T K Landauer, S T Domais. A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of Acquisition, Induction and Representation of Knowledge[J]. Psychological Review,1997,104(2): 211-240.

[6] Yue Lu，Qiaozhu Mei，Chengxiang Zhai, Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA[J]. Information Retrieval, 2011,14(2), 178-203.

[7] S Brody, M Lapata. Bayesian word sense induction[C]//Proc. of EACL’2009: 103-111.

[8] J Pessiot, Y Kim, M Amini, et al. Improving document clustering in a learned concet space[J]. Information Processing and Management, 2010,46: 180-192.

[9] S Dhillon. Co-clustering documents and words using bipartite spectral graph partitioning[C]//Proc. SIGKDD’2001: 269-274.

[10] S K M Wong, W Ziarko, P C N Wong. Generalized vector model in information retrieval[C]//Proc. of the 8th ACM SIGIR,1985: 18-25.

[11] A K Farahat, M S Kamel. Statistical semantic for enhancing document clustering[J]. Knowledge and Information Systems,2010.

[12] H Huang, Y Kuo. Cross-Lingual Document Representation and Semantic Similarity Measure: A Fuzzy Set and Rough Set Based Approach. Fuzzy Systems[J]. IEEE Transactions，2010,18(6): 1098-1111.

[13] R Navigli. Word sense disambiguation: a survey[J]. ACM Comput. Surv. 2009,41(2), Article 10 (February 2009): 69.

[14] C Stokoe, M P Oakes, J Tait. Word sense disambiguation in information retrieval revisited[C]//Proceedings of SIGIR ’2003: 159-166.

[15] M Denkowski, A Survey of Techniques for Unsupervised Word Sense Induction[J]. Technical Report. Language Technologies Institute, Carnegie Mellon University.

[16] E Agirre, A Soroa. Semeval-2007 task02: evaluating word sense induction and discrimination systems[C]. SemEval 2007.

[17] H Schutze, J Pedersen. Information Retrieval based on word senses[C]//Proc. of SDAIR’95: 161-175.

[18] R Navigli, G Crisafulli. Inducing word senses to improve web search result clustering[C]//Proc. of EMNLP ’10: 116-126.

[19] S Dhillon, D S Modha. Concept decompositions for large sparse text data using clustering[J].Mach. Learn., 2001,42(1-2): 143-175.

[20] Y Zhao, G Karypis, U Fayyad. Hierarchical clustering algorithms for document datasets[J]. Data Mining and Knowledge Discovery, 2005,10(2): 141-168.

[21] C Ordonez, E Omiecinski. Frem: fast and robust em clustering for large data sets[C]//CIKM ’02, ACM Press. New York, NY, USA, 2002:590-599.

[22] M Steinbach, G Karypis, V Kumar. A comparison of document clustering techniques[C]//KDD Workshop on Text Mining,2000.

[23] Junbo Kong, David Graff. TDT4 multilingual broadcast news speech corpus[J].2005.

[24] G Tang, Y Xia, M Zhang, et al. 2011 CLGVSM: Adapting Generalized Vector Space Model to Cross-lingual Document Clustering[C]//Proc. of IJCNLP’2010: 580-588.

[25] E M Voorhees. Implementing agglomerative hierarchic clustering algorithms for use in document retrieval[J]. Information Processing and Management. v.22(6): 465-476. 1986.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看