李天彩 王 波 席耀一 張佳明
(解放軍信息工程大學信息系統(tǒng)工程學院,鄭州,450002)
基于分層狄利克雷過程模型的文本分割*
李天彩 王 波 席耀一 張佳明
(解放軍信息工程大學信息系統(tǒng)工程學院,鄭州,450002)
文本分割在文本摘要、信息檢索等諸多領域都有重要的應用。主題模型是該領域研究中的重要方法,但目前基于主題模型的方法普遍依賴于主題個數(shù)的人工設置。針對此問題,本文提出了一種基于分層狄利克雷過程(Hierarchical Dirichlet process,HDP)模型的文本分割方法。首先使用HDP模型獲取文本在主題空間的向量表示,然后將主題向量用于C99分割算法實現(xiàn)文本分割,最后使用兩種優(yōu)化策略對結(jié)果進行優(yōu)化。實驗結(jié)果表明,基于HDP模型的方法能夠擺脫對人工設置主題個數(shù)的依賴,有效提高了文本分割的性能。
主題模型;文本分割;分層狄利克雷過程;CRF構(gòu)造
文本分割是指按照主題相關(guān)的原則將一篇較長的文本分割成語義段落序列,使得各個語義段落內(nèi)部具有最大的主題相關(guān)性,而語義段落之間具有最小的主題相關(guān)性[1]。文本分割在信息檢索、文本自動摘要[2]等很多領域都有重要應用[3-5]。在信息檢索中,文本分割可以縮小檢索范圍,提高檢索的準確性;在文本自動摘要中,通過文本分割可以得到文本內(nèi)描述主題不同側(cè)面的語義段落,在此基礎上得到的文本摘要不僅與問題緊密相關(guān),而且涵蓋了問題所涉及的多個側(cè)面,具有較高的覆蓋度。
目前,常用的文本分割方法有基于詞匯聚集的方法、基于語言特征的方法和基于主題模型的方法。基于詞匯聚集的方法認為描述同一主題的詞匯傾向于出現(xiàn)在同一主題片段內(nèi)。1997年,Hearst[6]提出了TextTiling方法,該方法先將文本分成固定長度的詞匯序列,使用滑動窗口計算相鄰序列之間的余弦相似度,通過相似度曲線的變化確定邊界的位置。2000年,Choi[7]提出了C99算法,通過計算文本中句子之間的余弦相似度得到相似度矩陣,設置排序矩陣對相似度矩陣的表示進行優(yōu)化,通過最大化分割單元內(nèi)部密度實現(xiàn)分割。2008年,Eisenstein等[8]提出了一種基于貝葉斯框架的文本分割方法。2011年,Kazantseva等[9]將聚類算法(Affinity propagation,AP)用于文本分割,提出了基于相似性傳播聚類的文本分割(Affinity propagation for segmentation,APS)方法?;谡Z言特征的方法認為文本中通常會包含標志主題轉(zhuǎn)移的特征信息。2010年,Yan等[10]在新聞事件識別中使用了多種特征信息用于分割,并指出由于WordNet的不完備性和更新速度較慢,將WordNet用于分割時對結(jié)果的改善非常有限。2012年,鄒箭等[11]提出了一種針對中文的文本分割模型,根據(jù)詞典和語料庫計算詞語的相關(guān)度進而計算句子間語義相關(guān)度并用于分割?;谠~匯聚集的方法假定文本中的詞都是孤立的,沒有利用詞與詞之間的關(guān)系,因而分割結(jié)果的準確度有限;基于語言特征的方法雖然在特定領域的效果較好但是受到知識庫的完備性、更新速度以及領域局限性的限制使得其移植性較差,無法適用于各種數(shù)據(jù)集。因此越來越多的學者探索將能反映文本語義信息的主題模型用于文本分割,并取得了較好的結(jié)果。2008年,石晶等提出了基于概率潛在語義分析(Probabilistic latent semantic analysis,PLSA)模型[12]和基于潛在狄利克雷分配(Latent Dirichlet allocation,LDA)模型[13]的文本分割方法,通過實驗發(fā)現(xiàn)基于PLSA模型的方法結(jié)果的隨機性較大,而基于LDA模型的方法分割的準確度有明顯提高。2012年,Ridel等對基于LDA模型的文本分割做了一系列研究[14-16],并將TextTiling和LDA模型相結(jié)合提出了TopicTiling方法,通過對LDA模型每一次采樣得到的主題分布進行統(tǒng)計以確定最終的主題分布,提高了主題模型對文本表示的穩(wěn)定性,使分割結(jié)果得到了顯著的改善。2013年,Du等[17]提出了主題分割模型(Topic segmentation model,TSM)方法,該方法通過結(jié)構(gòu)化的主題模型獲取文本的表示,并結(jié)合逐點邊界采樣算法進行分割,進一步提高了文本分割的準確度。
基于主題模型的方法雖然能夠有效地提高文本分割的準確度,但是目前該類方法普遍依賴于主題個數(shù)的人工設置。Riedl等[15]指出LDA模型的主題個數(shù)對文本分割結(jié)果的影響很大,主題個數(shù)設置得過高會造成過擬合,過低則會造成對文本的描述不夠充分,兩者都會降低文本分割的準確度,而主題個數(shù)又與數(shù)據(jù)集有關(guān),無法給出通用的經(jīng)驗參數(shù)。對于該不足,研究人員目前還沒有給出很好的解決方案。在以往研究中通常是直接給出主題個數(shù)或者通過遍歷參數(shù)來尋找最優(yōu)主題個數(shù),例如Du等[17]為3個數(shù)據(jù)集分別設定了不同的主題個數(shù);Riedl等[15]通過在50~500的范圍內(nèi)對主題個數(shù)進行遍歷,確定Choi數(shù)據(jù)集最優(yōu)主題個數(shù)為100;石晶等[13]在20~160之間對主題個數(shù)進行遍歷,確定根據(jù)《人民日報》合成的文本分割數(shù)據(jù)集的最優(yōu)主題個數(shù)為80。由此可見,盡管主題模型能夠有效提高文本分割的性能,但是針對不同的數(shù)據(jù)集,如何確定最優(yōu)主題個數(shù)仍是一個有待解決的問題。
針對LDA模型主題個數(shù)需要人工設置的不足,Yee等[18]提出了分層狄利克雷過程(Hierarchical Dirichlet process,HDP)模型。周建英等[19]提出,與LDA模型相比,HDP模型能夠自動生成主題個數(shù),具有更好的魯棒性。因此,本文將HDP模型用于文本分割,提出了一種基于HDP模型的文本分割方法。首先使用HDP模型獲取文本在主題空間的向量表示;然后將主題向量用于C99分割算法實現(xiàn)文本分割;最后使用優(yōu)化策略對結(jié)果進行優(yōu)化。實驗結(jié)果證明了本文方法的有效性和優(yōu)越性。
1.1 HDP模型基本原理
HDP模型是一種非參數(shù)貝葉斯模型,來源于狄利克雷過程(Dirichlet process, DP),是狄利克雷過程混合模型的多層形式。該模型不僅能實現(xiàn)聚類和推斷等功能,而且能夠自動生成主題個數(shù)。其有向圖模型如圖1所示,對于一個包含M篇文本的集合,每篇文本的主題都來源于基分布H,這保證了各篇文本之間可以實現(xiàn)對無限多個主題的共享。在實現(xiàn)過程中,首先從H中獲取該文本集合的總體基分布G0~DP(γ,H),γ為聚集參數(shù);然后以G0為基分布,以α0為聚集參數(shù),獲取每一篇文本的主題分布Gj~DP(α0,G0),j=1,2,…,M;最后以該層狄利克雷過程為先驗分布,構(gòu)造狄利克雷過程混合模型(1),即
(1)
式中:函數(shù)F(θji)表示給定參數(shù)θji時,觀測變量xji的分布;參數(shù)θji條件獨立服從分布Gj,而觀測變量xji條件獨立服從分布F(θji),xji代表第j篇文本的第i個詞。
1.2 CRF構(gòu)造
HDP模型存在多種構(gòu)造方式[18],本文中使用的是基于中國餐館連鎖(Chinese restaurant franchise,CRF)構(gòu)造的HDP模型。CRF構(gòu)造由中國餐館過程(Chinese restaurant process,CRP)擴展而來。CRF構(gòu)造中假設一個中國餐館代表一篇文本,餐館里的一位顧客代表文本里的一個詞,一道菜代表一個潛在主題,餐館里的一張桌子代表共享同一道菜的顧客的群組,并且所有餐館共享一個包含無窮多道菜的菜單,每一個中國餐館里有無窮多張桌子,每張桌子能容納下無窮多個顧客,進入餐館j中的第i個顧客用xji表示。在CRF構(gòu)造中,首先為每一位顧客分配餐桌,而后再為餐桌分配菜。顧客xji選擇某一桌子就座的概率分布為
(2)
tnew表示顧客xji選擇一張新桌子坐下,此時有
(3)
每一桌子所選擇菜的概率分布為
(4)
2.1 利用主題向量表示文本
HDP模型在每次迭代過程中都會通過采樣為每個詞分配主題ID,因此可以使用主題ID代替詞表示文本。下面通過一個利用主題ID表示文本的例子對這一過程進行介紹。
244 1943年 春節(jié)(34) 魯藝(34) 鬧(34) 秧歌(34) 運動(34) 出現(xiàn)(34) 高潮(34)
245 延安(34) 魯藝(34) 文工團(34)演出(34) 小型(24) 秧歌劇(34) 兄妹(24) 開荒(34) 最為(24) 群眾(34) 喜愛(34) 是 新(24) 秧歌(34) 運動(34) 初期(24) 代表(34) 作(24)
247來自(0) 兩(37) 方面(37)問題(0)說明(37)制度(0)還 不能(37) 保持(0) 國家(0) 企業(yè)(0) 分配(0) 關(guān)系(0) 穩(wěn)定(0) 不 利于(37) 依法(0) 保護(0) 企業(yè)(0) 合理(0)收益(0) 難以(0) 讓 企業(yè)(0) 形成(0) 真正(0) 壓力(0) 動力(0) 更 不 利于(37) 國家(0) 有效(37) 集中(37) 資金(0) 保證(0) 重點(0) 建設(37)
上段文字包含三句話,除了停用詞沒有被標記主題ID之外,每個詞都被分配了一個主題ID。通過觀察主題ID的分布,可以發(fā)現(xiàn)句子244和245是屬于同一主題的,內(nèi)容主要是關(guān)于延安時期的文化活動,這兩句中詞的主題ID大多被標記為34;句子247主要是關(guān)于制度與經(jīng)濟建設,其中大部分詞的主題ID被標記為0。通過以上分析發(fā)現(xiàn),使用主題ID代替詞對文本進行表示并在此基礎上進行文本分割是可行的。
傳統(tǒng)的文本分割算法使用詞匯作為特征,文本被看成由特征權(quán)重組成的向量,可表示為
(5)
式中:wi表示詞匯i在文本中的權(quán)重,一般取詞頻(Term frequency, TF)或者詞頻-逆文檔頻率(Term frequency-inverse document frequency,TF-IDF),V表示詞匯個數(shù)?;谠~向量的文本相似度計算方法無法度量特征之間的潛在語義關(guān)系,如句子244和245中提到的“秧歌”、“文工團”和“演出”之間存在著潛在的語義關(guān)系,但是在向量空間模型中這種相關(guān)性無法得到體現(xiàn),而在主題模型下通過相同的主題ID可體現(xiàn)出。針對這個問題,本文在文本分割中使用主題向量代替詞向量對文本進行表示。主題向量的形式可表示為
(6)
式中:tk為主題IDk在文本中出現(xiàn)的頻率;K為HDP模型自動聚類產(chǎn)生的主題個數(shù)。
2.2 C99HDP實現(xiàn)原理
C99[7]是經(jīng)典的基于詞匯聚集的文本分割方法,該方法中以句子為基本單位,通過句子向量空間模型中表示計算向量的余弦相似度得到句子間的相似度。由2.1可知這種方法無法度量特征之間潛在的語義關(guān)系,因此本文提出使用HDP模型得到的主題向量代替詞向量作為句子的表示,并將該方法記為C99HDP。C99HDP方法中相似度矩陣S中每一個元素sij可通過計算句子i和j的主題向量的余弦相似度得到,即
(7)
式中:si'表示句子i的主題向量。在得到S矩陣之后,以S矩陣為基礎構(gòu)造排序矩陣R。R矩陣中的元素rij是通過對S矩陣中元素sij附近N×N的范圍內(nèi)值小于sij的元素的數(shù)量進行統(tǒng)計得到,文獻[7]中N設定為11。在得到排序矩陣R后,定義了分割單元的內(nèi)部密度D的計算公式(8),在每次分割過程中通過最大化D來確定分割的位置b1和b2,b1和b2分別是分割單元g兩端的句子編號(b2>b1)。
(8)
式中:m表示分割單元總數(shù),sum(g)表示分割單元g內(nèi)的R矩陣元素和,ag表示分割單元g的大小,ag=(b2-b1+ 1)2。在不斷進行分割的過程中密度差Δ(D(n))=D(n)-D(n-1)會逐漸減小,其中D(n)表示得到n個分割單元時的內(nèi)部密度。當Δ(D(n))達到分割停止的閾值μ+c×σ時停止聚類,即文本分割完成,其中μ和σ分別為Δ(D(n))的均值和方差,c為常數(shù),本文參考文獻[7],將c設定為1.2。
2.3 分割結(jié)果優(yōu)化
Ridel等[15]指出,僅使用LDA模型最后一次采樣的結(jié)果作為文檔的表示具有一定的不穩(wěn)定性,而將LDA模型Gibbs每次采樣的結(jié)果進行統(tǒng)計,對每個詞使用所有結(jié)果中出現(xiàn)頻率最高的主題ID作為其最終的主題ID可以有效提高文本表示的穩(wěn)定性。與LDA模型不同,HDP模型每次得到的主題個數(shù)是不固定的,因而無法通過對單個詞匯的主題ID進行統(tǒng)計確定其最終的主題ID。本文結(jié)合HDP模型的特點提出了兩種對分割結(jié)果進行優(yōu)化的策略:(1)在一次HDP模型建模的過程中,對不同迭代次數(shù)得到的采樣結(jié)果進行文本分割,對得到的分割結(jié)果進行統(tǒng)計,選擇出現(xiàn)概率大于t1的分割位置作為最終的分割位置;(2)進行多次HDP模型建模,對每次建模得到的最終采樣結(jié)果進行文本分割,對得到的分割結(jié)果進行統(tǒng)計,選擇出現(xiàn)概率大于t2的分割位置作為最終的分割位置。在不同數(shù)據(jù)集上進行的實驗中發(fā)現(xiàn),t1和t2取0.5左右時效果最好。這是因為t1和t2取得過小會添加多余的分割,而過大則會遺漏一些正確的分割,兩者都會造成最終分割結(jié)果的準確度下降。
3.1 實驗數(shù)據(jù)集
由于針對中文的文本分割還沒有公測的數(shù)據(jù)集,本文參考石晶等[13]和鄒箭等[11]的實驗設計,使用了兩個數(shù)據(jù)集進行實驗。
(1)PRF數(shù)據(jù)集。在1998年1月份《人民日報》的基礎上按照Choi[7]數(shù)據(jù)集格式構(gòu)建的文本分割數(shù)據(jù)集,其中包括4個測試集T3-11,T3-5,T6-8,T9-11,Tx-y表示所含主題片段的句數(shù)在x和y之間,具體構(gòu)造方式是每次從3 147篇《人民日報》報道里隨機選取10篇不同的文本,從每篇文本內(nèi)提取3~11個句子,形成一個段落,將10個段落連接起來,組成一個新文本。由于每個片段來自不同的文本,討論不同主題,因此其邊界自然成為新文本中的主題邊界。本文將該數(shù)據(jù)集記為PRF數(shù)據(jù)集,具體信息如表1所示。
表1 PRF數(shù)據(jù)集
(2)CRA數(shù)據(jù)集。2012年鄒箭在文獻[11]中選用800萬字國家漢語語料庫中的部分文本,通過人工標記主題邊界構(gòu)成的數(shù)據(jù)集。本文將該數(shù)據(jù)集記為CRA,其中包括3個測試集,具體信息如表2所示。
表2 CRA數(shù)據(jù)集
3.2 評價指標
Pk可定義為
(9)
式中:Pseg是距離為k的兩個句子分屬不同語義段落的概率;Pmiss是算法分割結(jié)果缺少一個段落的概率;Pfalse alarm是算法分割結(jié)果添加一個段落的概率;k取真實分割中段落平均長度的一半。本實驗中按照石晶在文獻[11,12]中的設置,取Pseg=0.5。
WindowDiff可定義為
(10)
式中:ref代表真實分割;hyp代表算法分割;b(i,j)表示整句si和整句sj間的邊界數(shù)量;N表示文本中的整句數(shù)量;k取真實分割中段落平均長度的一半。
3.3 實驗設置與結(jié)果分析
兩個數(shù)據(jù)集中的文本都已經(jīng)進行過分詞,在實驗預處理過程中只進行了停用詞的去除。為了與相關(guān)學者的研究進行比較,本文選取常用的5種方法進行對比實驗,分別是Hearst提出的TextTiling方法[6]、Choi提出的C99方法[7]、Eisenstein提出的BayesSeg方法[8]、鄒箭提出的CRA方法[11]和Du提出的TSM方法[17]。以上對比方法結(jié)果分別記為TT,C99,BayesSeg,CRA和TSM。兩個數(shù)據(jù)集上的C99,BayesSeg和TSM方法使用文獻[16]中實驗的參數(shù)設置,PRF數(shù)據(jù)集上的TT方法使用了文獻[7]中實驗的參數(shù)設置。此外,為了驗證TSM對主題個數(shù)的依賴性,在實驗中除了使用文獻[17]中的10,25,50之外,還增加了主題個數(shù)為80的實驗。本文所提出方法的結(jié)果記為C99HDP,實驗中HDP模型的迭代次數(shù)為11 000,其他參數(shù)使用Yee等在文獻[18]中的設置。為了驗證兩個優(yōu)化策略的性能,分別設置C99HDP-1和C99HDP-2的兩組實驗,其中C99HDP-1對應優(yōu)化策略1,在HDP模型建模過程中每1 000次迭代保留一次采樣結(jié)果并進行文本分割,對所有分割結(jié)果進行統(tǒng)計得到最終的分割結(jié)果并進行評分;C99HDP-2對應優(yōu)化策略2,對每篇文本進行11次HDP模型建模,并對每次建模得到的最終采樣結(jié)果進行文本分割,對所有分割結(jié)果進行統(tǒng)計得到最終的分割結(jié)果并進行評分。HDP模型需要訓練數(shù)據(jù)挖掘詞匯之間的語義關(guān)系,為了避免從外部引入訓練數(shù)據(jù)的影響,本文參考文獻[15]中的實驗設置,在PRF數(shù)據(jù)集上采用10折交叉驗證的方法,每次使用90%的數(shù)據(jù)用于訓練,10%的數(shù)據(jù)用于測試,直到遍歷所有測試數(shù)據(jù)。由于CRA數(shù)據(jù)集中文本較少,采用10折交叉驗證的方法會存在訓練數(shù)據(jù)過少的問題,所以每次只將1篇文本用于測試,其余用于訓練,直到遍歷所有測試文本。
3.3.1 在PRF數(shù)據(jù)集上的對比實驗
在PRF數(shù)據(jù)集上進行實驗,其結(jié)果如表3所示。由表3可以看出,C99HDP,C99HDP-1和C99HDP-2的分割結(jié)果明顯優(yōu)于經(jīng)典的C99,TT以及BayesSeg。
對比C99與C99HDP的結(jié)果可以發(fā)現(xiàn),使用主題ID代替詞匯表示文本用于文本分割,可以提高文本分割的性能。從C99HDP與C99HDP-1和C99HDP-2的對比可以看出,使用了優(yōu)化策略的結(jié)果要好于不使用時的結(jié)果。這主要是因為只使用最后一次采樣結(jié)果對文本進行表示,會導致由于一些錯誤的主題ID標注進而造成錯誤的分割,而使用了多次采樣結(jié)果進行分割并對結(jié)果進行統(tǒng)計可以過濾掉一些單次分割中出現(xiàn)的錯誤分割,進而提高分割的準確度。通過對C99HDP-1和C99HDP-2的結(jié)果進行對比發(fā)現(xiàn),C99HDP-2的結(jié)果要優(yōu)于C99HDP-1,這主要是因為C99HDP-2中使用每次建模的最終采樣結(jié)果作為文本的表示,比迭代次數(shù)較少時的表示更加準確,因而在最終的文本分割準確度上會更高一些。從TSM與C99HDP,C99HDP-1和C99HDP-2的結(jié)果對比可以看出,TSM在主題個數(shù)設置為80和50的時候性能表現(xiàn)較好,尤其是在主題個數(shù)設置為80時,TSM在T3-5,T6-8以及平均結(jié)果上都優(yōu)于C99HDP,C99HDP-1和C99HDP-2,因為80接近于PRF數(shù)據(jù)集的最優(yōu)主題個數(shù),在此情況下,TSM能更好地發(fā)揮其模型的性能,而且TSM中整合的逐點邊界采樣算法也有助于降低其分割的錯誤率。從另一方面來看,當TSM的主題個數(shù)k設置為50,25和10時其分割的錯誤率不斷升高,這說明當TSM中主題個數(shù)的設置不斷偏離最優(yōu)主題個數(shù)的時候TSM的結(jié)果會不斷惡化,錯誤率甚至會高于C99HDP,C99HDP-1和C99HDP-2的結(jié)果,這也說明了該類方法不適用于對主題個數(shù)未知的數(shù)據(jù)進行處理。從不同測試集的結(jié)果來看,各個方法在T3-5測試集上的錯誤率都較高,這說明對較短的分割單元進行分割的難度較大,有待進一步改進。
表3 PRF數(shù)據(jù)集上的實驗結(jié)果
3.3.2 在CRA數(shù)據(jù)集上的對比實驗
由于PRF數(shù)據(jù)集中的單篇文本長度較小,為了增加實驗的全面性和可靠性,本文設置了CRA數(shù)據(jù)集上的實驗,實驗結(jié)果如表4所示。從表4中可以看出,在CRA數(shù)據(jù)集上進行的實驗中,C99HDP-1和C99HDP-2在平均錯誤率上都低于其他方法,這說明本文提出的方法在處理不同數(shù)據(jù)集時性能穩(wěn)定,對新數(shù)據(jù)的魯棒性較好。此外,TSM在CRA數(shù)據(jù)集上的最優(yōu)結(jié)果不是出現(xiàn)在k=80的實驗組,而且k=80實驗組的Pk錯誤率高于BayesSeg,TT,CRA,C99HDP,C99HDP-1和C99HDP-2,這說明對于不同的數(shù)據(jù)集主題模型的最優(yōu)主題數(shù)是不同的,依賴于主題個數(shù)設定的方法在處理新數(shù)據(jù)時會因為主題個數(shù)不合適而影響結(jié)果。對比表3和表4可以發(fā)現(xiàn),基于主題模型的方法在CRA數(shù)據(jù)集上的表現(xiàn)性能都低于在PRF數(shù)據(jù)集上的表現(xiàn),這是因為對于較長的分割單元,通常存在多個局部主題。例如,在一個關(guān)于天文學的段落中,其中靠前的部分主要是關(guān)于中微子理論的介紹,靠后的部分主要是關(guān)于天文觀測設備發(fā)展的介紹,在HDP模型下對這兩部分進行標記,靠前的部分出現(xiàn)較多的主題ID是21,靠后的部分出現(xiàn)較多的主題ID是19,在使用分割算法進行分割的過程中這個語義段落被錯分成了兩個語義段落。這種情況出現(xiàn)主要有兩方面的原因:(1)訓練數(shù)據(jù)集中關(guān)于天文知識的數(shù)據(jù)過少,對該領域相關(guān)詞匯的關(guān)聯(lián)挖掘不夠充分;(2)對于這種因為顆粒度大小造成的分割不一致,即使是人工評判也有可能會出現(xiàn),這與評判的標準和實際需求有關(guān)。
表4 CRA數(shù)據(jù)集的實驗結(jié)果
3.3.3 參數(shù)N的遍歷
圖2 不同方法在不同N下的平均Pk對比結(jié)果 Fig.2 Comparison of average Pk with different methods under different N
為了驗證C99中生成R矩陣時使用參數(shù)N的大小對最終分割結(jié)果的影響,同時對C99,C99HDP,C99HDP-1和C99HDP-2的結(jié)果進行比較,在CRA數(shù)據(jù)集上進行實驗,設置N在[3,101]范圍內(nèi),以步長2變化。實驗結(jié)果如圖2所示,其中橫軸為N,縱軸為平均的Pk值。由圖2可以看出,當N>9時,C99HDP,C99HDP-1和C99HDP-2的錯誤率均低于經(jīng)典的C99算法,這說明使用HDP模型對文本進行表示可以有效降低文本分割的錯誤率并且總體性能穩(wěn)定;C99HDP-1和C99HDP-2的錯誤率均低于C99HDP,這說明了兩種優(yōu)化策略的有效性;C99HDP-2的錯誤率均低于C99HDP-1,這說明HDP模型中的迭代次數(shù)較多時對文本進行表示的準確度要高于迭代次數(shù)較少時,進而對分割結(jié)果的優(yōu)化更為顯著。
本文針對目前基于主題模型的文本分割方法無法自動確定主題個數(shù)的不足,提出了一種基于HDP模型的文本分割方法。首先利用HDP模型對待分割文本建模,獲取文本在主題模型下的表示;然后將主題向量用于C99分割算法實現(xiàn)文本分割;最后提出了兩種優(yōu)化策略提高了分割結(jié)果的準確性。在兩個數(shù)據(jù)集上實驗的結(jié)果表明本文方法不僅能夠降低文本分割的錯誤率,而且對新數(shù)據(jù)集有很好的魯棒性。需要指出的是,本文提出的方法還有待進一步改進,如在較短段落的分割中該方法錯誤率較高,需要針對短段落的特點對其進行改進。除此之外,如何改進邊界檢測算法也是下一步工作中重要的研究內(nèi)容。
[1] Wu J W, Tseng J C R, Tsai W N. A hybrid linear text segmentation algorithm using hierarchical agglomerative clustering and discrete particle swarm optimization[J]. Integrated Computer-Aided Engineering, 2014, 21(1): 35-46.
[2] 趙斌,吉根林,徐偉,等.基于拓撲結(jié)構(gòu)的微博話題摘要生成算法[J].數(shù)據(jù)采集與處理,2014,29(5):720-729.
Zhao Bin, Ji Genlin, Xu Wei, et al. Microblog topic summarization based on topology structures[J] Journal of Data Acquisition and Processing, 2014,29(5):720-729.
[3] Shafiq J, Giuseppe C, Gabriel M, et al. Exploiting conversation structure in unsupervised topic segmentation for emails[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Massachusetts: Association for Computational Linguistics, 2010:388-398.
[4] 丁長林, 蔡東風, 王裴巖. 基于分類算法的專利摘要文本分割技術(shù)[J].山東大學學報,2012, 47(5):69-72.
Ding Changlin, Cai Dongfeng,Wang Peiyan. Text segmentation of patent summary based on a classification algorithm[J].Journal of Shandong University, 2012, 47(5):69-72.
[5] Paula C F C, Maite T, Thiago A S P. Subtopics annotation in a corpus of news texts: Steps towards automatic subtopic segmentation[C]// Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology. Fortaleza: Brazilian Computer Society, 2013:108-118.
[6] Hearst M A. TextTiling: Segmenting text into multi-paragraph subtopic passages[J].Computational Linguistics, 1997, 23(1): 33-64.
[7] Choi F Y Y. Advances in domain independent linear text segmentation[C]// Proceedings of the 1st North American Chapter of the Association for Computational Linguistics Conference. Denver: North American Chapter of the Association for Computational Linguistics, 2000: 26-33.
[8] Jacob E, Regina B. Bayesian unsupervised topic segmentation[C]//Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing.Honolulu: Association for Computational Linguistics, 2008: 334-343.
[9] Kazantseva A, Szpakowicz S. Linear text segmentation using affinity propagation[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Edinburgh: Association for Computational Linguistics, 2011: 284-293.
[10]Yan Rui, Li Yu, Zhang Yan, et al. Event recognition from news webpages through latent ingredients extraction[C]∥The 6th Asia Information Retrieval Societies Conference.Tapei, China:Springer, 2010:490-501.
[11]鄒箭, 鐘茂生, 孟荔. 中文文本分割模式獲取及其優(yōu)化方法[J].南昌大學學報, 2012, 35(6): 597-601.
Zou Jian, Zhong Maosheng, Meng Li. Method of Chinese text segmentation model acquisition and its optimization[J].Journal of Nanchang University, 2012, 35(6): 597-601.
[12]石晶, 戴國忠. 基于PLSA模型的文本分割[J].計算機研究與發(fā)展, 2007, 44(2): 242-248.
Shi Jing, Dai Guozhong. Text segmentation based on PLSA model[J].Journal of Computer Research and Development, 2007, 44(2): 242-248.
[13]石晶, 胡明, 石鑫. 基于LDA模型的文本分割[J].計算機學報, 2008, 31(10): 1865-1873.
Shi Jing, Hu Ming, Shi Xin. Text segmentation based on model LDA[J].Chinese Journal of Computer, 2008, 31(10): 1865-1873.
[14]Riedl M, Chris B. How text segmentation algorithms gain from topic models[C]// Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Denver:Association for Computational Linguistics, 2012: 553-557.
[15]Riedl M, Chris B. Text segmentation with topic models[J].Journal for Language Technology and Computational Linguistics, 2012,27(1): 47-69.
[16]Riedl M, Biemann C. Topictiling: A text segmentation algorithm based on lda[C]// Proceedings of ACL 2012 Student Research Workshop. Jeju Island: Association for Computational Linguistics, 2012: 37-42.
[17]Du L, Buntine W, Johnson M. Topic segmentation with a structured topic model[J].Stroudsburg Pa the Association for Computational Linguistics, 2013: 190-200.
[18]Yee W T, Michael I J, Matthew J B, et al. Hierarchical Dirichlet processes[J]. Journal of the American Statistical Association, 2006, 101(476): 1566-1581.
[19]周建英, 王飛躍, 曾大軍. 分層Dirichlet過程及其應用綜述[J].自動化學報, 2011, 37(4): 389-407.
Zhou Jianying, Wang Feiyue, Zeng Dajun. Hierarchical dirichlet processes and their applications: A survey[J].Acta Sutomatica Sinica, 2011, 37(4): 389-407.
[20]Beeferman D, Berger A, Lafferty J. Statistical models for text segmentation[J].Machine Learning, 1999, 34(1): 177-210.
[21]Pevzner L, Hearst M A. A critique and improvement of an evaluation metric for text segmentation[J].Computational Linguistics, 2002, 28(1): 19-36.
Text Segmentation Based on Hierarchical Dirichlet Processes
Li Tiancai, Wang Bo, Xi Yaoyi, Zhang Jiaming
(Institute of Information and System Engineering, PLA Information Engineering University, Zhengzhou, 450002, China)
Text segmentation has important applications in many fields, including text summarization, information retrieval, and so on. Topic model is an important tool in text segmentation. However previous text segmentation methods based on topic model generally rely on manually setting of the number of topics influencing results significantly. To solve the problem, a novel text segmentation method based on hierarchical Dirichlet process(HDP) model is proposed. Firstly, texts are modeled with HDP model to get their expression with topic vectors. Then, the topic vectors are used in C99 segmentation algorithm for text segmentation. Finally, two optimization strategies are applied to result optimization. Experimental results show that the presented method can omit manually setting of the topics numbers and improve the performance of text segmentation.
topic model; text segmentation; hierarchical Dirichlet process; Chinese restaurant franchise(CRF) process
國家高技術(shù)研究發(fā)展計劃(“八六三”計劃)(2011AA7032030D)資助項目;全軍軍事研究生課題(2011JY002-158)資助項目。
2014-09-11;
2015-07-10
TP391
A
李天彩(1990-),男,碩士研究生,研究方向:文本分割與會話抽取, E-mail:litc1125 @126.com。
王波(1970-),男,副教授,研究方向:網(wǎng)絡協(xié)議分析與智能信息處理,E-mail:yyywb@163.com。
席耀一(1987-),男,博士研究生,研究方向:話題檢測與追蹤,E-mail:120479063@qq.com。
張佳明(1989-),男,碩士研究生,研究方向:情感分析,E-mail:550163421@qq.com。