基于ETM的消歧主題模型研究

2023-11-22 15:29:26鄭靜馮道鵬

現(xiàn)代信息科技 2023年19期

鄭靜　馮道鵬

摘? 要：傳統(tǒng)主題模型LDA使用詞袋建模文檔，無法建模詞語之間的語義關系。雖然隨后提出的ETM利用詞嵌入的方法來建模詞語之間的相似度，但是它們都無法處理一詞多義現(xiàn)象。針對以上問題提出一種消歧主題模型。采用基于BERT的消歧方法并結合ETM對大型詞表的魯棒性，使得主題模型建模一詞多義成為可能。通過在通用數(shù)據(jù)集上進行實驗，驗證了所提出模型在精確主題含義，增強主題可理解性上的優(yōu)越性能，該模型能夠挖掘出含義精確的主題，提高了主題建模的應用范圍。

關鍵詞：主題模型；詞義消歧；詞嵌入

中圖分類號：TP391.1? 文獻標識碼：A? 文章編號：2096-4706（2023）19-0083-06

Research on Disambiguation Theme Model Based on ETM

ZHENG Jing， FENG Daopeng

（Hangzhou Dianzi University， Hangzhou? 310018， China）

Abstract： The traditional theme model LDA uses word bags to model documents， which cannot model the semantic relationships among words. Although the ETM proposed later uses word embedding method to model the similarity among words， they are unable to handle the phenomenon of polysemy. Propose a disambiguation theme model to address the above issues. The use of BERT-based disambiguation method and combined with ETM's robustness to large word lists makes it possible to model polysemy in theme models. By conducting experiments on a universal dataset， the superior performance of the proposed model in precise theme meanings and enhancing theme comprehensibility are verified. The model can mine theme with precise meanings and improve the application range of theme modeling.

Keywords： theme model; word sense disambiguation; word embedding

0? 引? 言

潛在狄利克雷分配（Latent Dirichlet Allocation， LDA）[1]，是一種基于貝葉斯學習的話題模型。它的無監(jiān)督學習的特性，免除了代價高昂的人工標注工作。又因為它出色的應用表現(xiàn)，使它在文本分析，文本挖掘領域獲得廣泛應用。如文獻[2]直接應用LDA對語料庫進行訓練，得到文本背后隱含的主題，挖掘文本背后的信息。在深度學習方面，LDA可以生成文本的主題作為其他任務的輸入特征[3]。

LDA使用一種分層結構。文檔由隱含主題的多項分布表示，而話題則由單詞的多項分布表示。這使得LDA具有優(yōu)秀的可解釋性，這也是其受到歡迎的原因之一。但是LDA模型在大型詞匯表上—即大型語料庫上的表現(xiàn)則不夠優(yōu)秀。在這種情況下，LDA生成的主題的質量會下降，一個顯而易見的證據(jù)是困惑度的上升。因此在實際應用中，使用者將進行一些預處理工作，即過濾掉出現(xiàn)次數(shù)很低（通常只有幾次）和出現(xiàn)次數(shù)過高的詞匯（通常是定為一個較大的頻率）。盡管這樣使得詞表的大小得到了控制，但是伴隨而來的是遺漏重要信息的風險將增加。

嵌入式主題模型[4]（Embedded TopicModel， ETM）將傳統(tǒng)主題模型與詞嵌入相結合。ETM將詞設置為詞嵌入向量，主題也相應地成為一個向量，而在一個主題下生成一個單詞的概率由它們之間的相似性決定，比如它們的內積。這樣做的好處在于，當我們使用ETM加載已經(jīng)訓練好的詞向量時，即使出現(xiàn)訓練語料庫中未出現(xiàn)的詞，ETM仍能通過詞向量矩陣獲得這個詞與主題之間的聯(lián)系。在ETM中，加載訓練好的詞向量的ETM，稱為Labeled ETM，其在主題質量（用主題的一致性和多樣性來衡量）方面表現(xiàn)最優(yōu)，且對停詞具有魯棒性，能夠生成主要包含停止詞的主題。這樣即使不過濾停詞，Labeled ETM仍能生成高度一致性的主題。

Labeled ETM使用Word2vec[5]來獲取固定的詞嵌入。隨著近年來BERT模型[6]在眾多領域取得最佳的成績。一個自然的想法就是將BERT模型的詞向量應用于ETM中。這樣做的出發(fā)點是，BERT模型能夠根據(jù)輸入文本的上下文動態(tài)的構建詞向量。這樣就為解決一詞多義問題提供了一個新的方向。但這與ETM要求靜態(tài)詞嵌入相矛盾。因為把一個詞在每個上下文中的動態(tài)表示都加入詞表是不可能的。

利用BERT獲得不同詞義下的靜態(tài)詞向量，有兩種解決方案。一種是直接對獲得的動態(tài)詞向量進行處理。聚類是一種首先想到的方法。然而根據(jù)實驗，同一單詞在表達一種意思時，受句子長短，上下文詞的影響很大，聚類的效果通常很差[7]。

第二種方案是先對文本進行消歧，再根據(jù)消歧后的文本獲得詞向量。Loureiro[8]使用WordNet的注釋得到每個詞的詞義的標準向量，將具體上下文中的目標詞匯的向量與之進行比對，將相似度最高的標準向量對應的釋義作為消歧結果，這種基于特征提取的1-NN方法被證明在詞義消歧方面具有高效性和穩(wěn)健性。為了控制詞表大小，提高消歧精度。選擇使用WordNet劃分的25個獨立起始概念進行標記。例如，對于“this mouse has no battery”中的mouse而言，mouse表示鼠標，其起始概念是artifact。

據(jù)此，本文提出了基于BERT的詞義消歧嵌入式主題模型，稱為消歧主題模型。在能挖掘到高質量主題的同時，還能根據(jù)詞義標記提高主題的可理解性。本文首先介紹了模型的構建方法，然后為了找出最佳方案，比較了直接訓練獲得詞向量、Word2vec詞向量、WordNet詞向量三種詞向量獲取途徑下的主題一致性和多樣性，發(fā)現(xiàn)WordNet詞向量表現(xiàn)更好；為了驗證消歧主題模型能增強主題質量，分析了在不同詞向量下的主題和可視化圖像差異，發(fā)現(xiàn)使用WordNet詞向量效果更好。

1? 相關工作

1.1? ETM

ETM是基于詞嵌入的主題模型。它在完成主題模型的主題建模這一功能外，使用詞嵌入作為單詞的表示，同時主題也是計算為嵌入空間中的一個點。這樣，一個詞在特定主題下的分布與它們之間的內積成正比，即詞嵌入向量越相似，可能性越高。也正因為如此，對于停詞而言，ETM能夠通過形成“停詞主題”，將停詞分配到這種主題下，這增加了主題的質量，適合大型詞匯表和語言數(shù)據(jù)的長尾情況。

ETM可以使用已經(jīng)訓練好的詞嵌入輸入，也可以在模型擬合的過程中學習。從實驗結果上來看，使用預先訓練好的詞向量性能更好。

1.2? BERT

BERT起源于Transformer[9]，使用Self-Attention架構，通過Attention機制來計算詞語之間的聯(lián)系，并且使用掩蔽語言模型進行訓練，從而生成深度的雙向語言特征。BERT在許多子任務上都取得了全新的成績，因此被廣泛應用于各種自然語言處理任務中。

通常將BERT的使用方法分為兩類。第一類是基于微調的方法，根據(jù)目標任務設計對應的下游分類器，替換原來的softmax層。在這之后在目標任務的領域數(shù)據(jù)集上繼續(xù)預訓練。如Areej Jaber[10]根據(jù)醫(yī)療縮略語含義預測這一任務，設計了一個347類的分類器，并在醫(yī)療領域預料上繼續(xù)預訓練。另一類是基于特征提取的方法，除最后一層外將模型的網(wǎng)絡作為一個特征提取器，提取出學習到的特征輸入另一個模型。Loureiro[11]研究討論了基于BERT的WSD任務在微調和特征提取上的表現(xiàn)（后者主要是K-NN）。發(fā)現(xiàn)后一種方法在感知偏差方面更加穩(wěn)健，并且可以更好地利用有限的數(shù)據(jù)。

2? 基于詞義消歧的詞嵌入主題模型

基于詞義消歧的詞嵌入主題模型同時利了ETM對大型詞表的魯棒性和基于BERT的1-NN消歧方法的高效性，這使得詞義消歧能夠應用于主題模型。消歧主題模型的流程圖如圖1所示。

其關鍵步驟為：

1）對原始數(shù)據(jù)集進行預處理，包括分詞、刪除特殊符號等。

2）將原始文本切分以適應BERT的輸入長度要求。輸入BERT獲得動態(tài)詞向量，并與WordNet標準詞向量進行1-NN比較，將詞打上對應的詞義標記。

3）拼接打上標記后的文本，統(tǒng)計詞頻。

4）選擇WordNet詞向量或者Word2vec詞向量，輸入消歧主題模型，得到文檔—主題矩陣和主題—詞矩陣。

2.1? WordNet詞義標記方法

將處理后的句子構造成BERT所需要的格式。得到每個詞對應的動態(tài)詞向量，同時使用spacy的spatial包對句子的每個token進行處理，得到每個詞的lemma和pos。其中l(wèi)emma是指詞的基本形式，如liking將被還原成like。pos是指詞性標記，如動詞、名詞。輸入已經(jīng)訓練得到的WordNet詞向量中根據(jù)1-NN進行匹配。匹配后對詞語進行標記。例如意義為鼠標的mouse將被標記為mouse#artifact，表示其含義為人造物。

2.2? 文檔-主題結構及訓練過程

具體而言，設詞嵌入空間為RL，第k個主題是在此空間上的向量ak，即主題嵌入。和LDA一樣，ETM是生成式的模型。它通過計算詞嵌入和主題嵌入之間的相似性來計算主題生成單詞的概率。

設ρ是L×V維的詞嵌入矩陣，每一列ρv為詞的詞嵌入，詞表大小為L，詞嵌入可以輸入WordNet詞向量也可以訓練得到Word2vec詞向量。對第d個文檔的生成過程為：

計算主題概率：θd～LN（0，1）

對文檔d中的每一個詞n：

計算主題概率：zdn～Cat（θd）

計算詞概率：

其中LN（·）為logistic-normal分布。

δd～N（0，1）；θd = softmax（δd）? ? ? ? ? （1）

模型的擬合采用最大化文檔的邊際似然：

（2）

然而文檔的邊際似然函數(shù)計算的困難性，使用方程（2）來轉化為：

（3）

生成每個單詞的條件分布來邊際化主題概率zdn。

（4）

其中θdk為式（1）中變換后的文檔主題分布參數(shù)，βkv為主題詞的分布參數(shù)?？捎稍~嵌入ρ和主題嵌入ak得到。

由于上述的積分還是難以計算，因此使用變分推斷構造一個后驗分布的近似分布來擬合后驗分布，用以最大化生成每個文檔的對數(shù)邊際似然的總和。假設文檔—主題比例分布簇q（δd; wd， v），然后使用這個變分布簇來約束對數(shù)邊際似然。對數(shù)邊際似然的證據(jù)下界如式（5）：

（5）

3? 實驗結果與分析

3.1? 實驗數(shù)據(jù)集及預處理

本次實驗首先選取20newsgroups數(shù)據(jù)集來對提出的消歧ETM模型進行實驗，驗證所提出模型的可行性。20newsgroups數(shù)據(jù)集是用于文本分類、數(shù)據(jù)挖掘等自然語言處理研究的國際標準數(shù)據(jù)集之一。它涵蓋了大約20 000個新聞文檔，包括大概20個新聞主題。如摩托車、音樂，等等。

為了適配設置的BERT詞向量長度。將長度超過512的文章切分為長度小于512的子文章。同時，為了保留句子的完整性。被切分的句子是一個整句，即每個輸入子文章是若干完整句子的組合，且長度不超過512。

通過預訓練模型獲取詞向量并對詞義進行標注后，將各個子文章再進行拼接，得到可供ETM使用的數(shù)據(jù)集。

本實驗選取數(shù)據(jù)集的80%作為訓練集，20%作為測試集。

3.2? 參數(shù)設置

本文選取的batch_size為32，學習率選擇0.002，使用adam優(yōu)化器，使用L2正則化防止過擬合，參數(shù)為1.2×10-6。

主題數(shù)的選取以困惑度為指標。如果模型對主題的預測有較好的效果，最后會得到較低的困惑度。同時，隨著主題數(shù)的增加，困惑度會相應降低。困惑度的計算公式為：

（6）

其中，D為文檔集合，共M篇，Nd為每篇文檔d中的單詞數(shù)，wd為文檔d中的詞，p（wd）為文檔中詞wd產生的概率。

首先本文設置主題數(shù)范圍為20～100，步長為10。選擇對應的主題數(shù)進行訓練，并計算對應的困惑度。得到主題數(shù)—困惑度曲線圖，如圖2所示，因此設定主題數(shù)為50。

3.3? 評價指標

目前比較流行的主題模型評價指標一般是主題多樣性（topic diversity）和主題一致性（topic coherence）兩個指標。其中主題多樣性是描述生成的主題之間不相似程度，主題越多樣越好；主題一致性是描述生成的某個主題的詞的聯(lián)系緊密程度，主題的一致性越高越好。

兩種指標的計算公式為：

主題一致性：

（7）

（8）

主題一致性衡量的是主題中出現(xiàn)的詞在文章中貢獻的可能性。如果這些詞經(jīng)常同時在文章中出現(xiàn)，這說明主題的一致性更強，聚合程度更高。其中，為在主題k中，第i個概率最大的單詞，f （·，·）為標準化點互信息。p（wi，wj）為wi和wj在文檔中共現(xiàn)的概率，p（wi）為詞wi的邊際概率。

主題多樣性：

（9）

主題多樣性衡量的是在主題中概率排名前N個單詞中不同單詞的百分比，百分比越大表示主題更豐富。

最后，使用主題一致性與主題多樣性的乘積作為模型主題質量的衡量標準。

3.4? 結果分析

3.4.1? 主題模型指標分析

在進行詞義標注后，有三種可選的ETM訓練方式。第一種是直接進行訓練，第二種是應用Word2vec模型訓練詞向量，第三種是使用在消歧過程中獲得的詞向量。對這三種模型產生的結果采用前述的指標進行計算，得到結果如表1所示。

可見，在進行消歧標注后，三種方法中，直接訓練的主題多樣性很低，而輸入Word2vec或者WordNet

詞向量的模型均表現(xiàn)出不錯的主題多樣性。這主要是由于經(jīng)過消歧后，詞匯變得稀疏，模型很難提煉出多樣的主題出來。WordNet詞向量的表現(xiàn)又優(yōu)于Word2vec詞向量。后面所做出的分析僅針對Word2vec和WordNet詞向量。

3.4.2? 主題模型主題質量分析

如表2所示，wn_topic和wv_topic分別呈現(xiàn)了輸入WordNet詞向量或Word2vec詞向量后生成的主題示例。由圖可見，消歧主題模型至少有3個好處。

第一，注釋了含義的詞使得模型生成的主題更容易被理解，歸納，形成有價值的主題。例如auto標注了artifact會提示這是指“汽車”的意思而不是“自動”，drink標注了food會提示這是指“飲料”而不是動詞“喝”。這些含義更清晰的詞使得主題1意義更加清晰，它們都指向了關于酒精、暴力、犯罪等線索。在關于計算機的主題37中這種作用更加明顯，chip、driver、memory、server、mouse這些詞語都被標注了與計算機組件更相關的含義。分別指向了“芯片”“驅動程序”“存儲器”“服務器”和“鼠標”，這些標注清楚的含義使得主題的含義變得非常清晰。

第二，含義更清晰的詞使得主題的含義更確切，主題之間的邊界更清晰。例如，在主題9中，driver標注了person，而在主題37中，driver標注了communication。這是因為主題9指向的是汽車而主題37指向的是計算機組件。因此它的兩種含義，“駕駛員”和“驅動程序”使得兩個主題之間的界限更加清晰。

第三，標注了含義的詞會反過來提供一個能粗略的衡量模型效果的途徑。簡而言之，如果有某一主題下的詞語標注的含義非常零碎，沒有什么關聯(lián)，那么這可能暗示模型的訓練效果可能比較差。而在使用其他主題模型的情況下，人腦將自動地將詞語的含義猜測出來去配合其他的詞語。這不利于探知模型主題生成的效果。

3.4.3? 詞向量可視化分析

圖3中包含三個主題，分別用方塊、叉、三角呈現(xiàn)。其中方塊是犯罪主題，包含汽車、槍支、犯罪、酒精等詞語；叉是汽車主題，包含汽車、駕駛員、引擎等詞語；三角是計算機主題，包含了計算機的各零部件。其中auto#artifact和automobile#artifact實際上同時是犯罪主題和汽車主題的詞語。

在圖中，很容易注意到driver這個詞語。當它被標記為communication時，它與計算機相關概念更加接近，而被標記為person時，它與汽車相關概念更加接近。這說明這種消歧主題模型在區(qū)分詞義方面是有效的，它也使得主題之間的耦合程度降低。同時也能觀察到一些詞嵌入與現(xiàn)實世界聯(lián)系的有趣特性，例如酒精、酒吧與犯罪聯(lián)系緊密。而dock#artifact既有泊位的意思，因此在汽車主題下出現(xiàn)，同時dock的另一個意思“程序的側邊欄”又與計算機有一定的聯(lián)系。因此在圖中，dock#artifact相比其他詞語更靠近計算機主題一些。

Word2vec詞向量下的可視化結果散布不太均勻，如圖4所示?？梢杂^察到計算機主題之間結合地的比較緊密，而另外兩個主題內部則呈現(xiàn)比較稀疏的結果，它們的散布遠遠高于計算機主題。在這一點上，WordNet詞向量下的結果更好一些，圖3中的3個主題的緊密程度相似。另外，在主題之間的邊界上，圖3更容易辨認出3個不同而又相互關聯(lián)的主題，主題之間的邊界由兩個主題之間共有的詞或相關程度高的詞組成。而圖4中，主題之間的邊界比較模糊，不容易辨識主題之間的關系。

綜合而言，在主題內部的詞語散布和主題之間的關聯(lián)性上面，使用WordNet詞向量的性能優(yōu)于Word2vec詞向量。

4? 結? 論

本文提出的消歧主題模型將消歧模型融入詞嵌入主題模型中。通過利用詞嵌入主題型的魯棒性和限制了消歧的粒度。使得詞嵌入主題模型含有消歧詞有較好的表現(xiàn)。經(jīng)過直接訓練、Word2vec詞嵌入和WordNet詞嵌入輸入三種模式下的一致性、多樣性的對比實驗，證明了WordNet詞向量在消歧詞嵌入模型下運用的優(yōu)越性。通過對消歧模型產生主題的仔細討論和可視化分析，證明消歧模型能夠增強主題的可理解性，和準確性?？紤]到目前的劃分粒度還是會產生大型的詞表，某些劃分方式并不盡合理，對于詞義的辨識方面具有較小的價值。未來，將在詞義消歧的粒度和角度方面進行進一步研究，例如領域角度。領域角度的詞義消歧能夠提供更有價值的視角，并使得詞表的大小得到進一步控制。在領域角度的詞義消歧將對推進詞義消歧研究發(fā)展、提高主題建模質量、為海量文本分析提供創(chuàng)新視角產生現(xiàn)實意義。

參考文獻：

[1] BLEI D M，NG A Y，JORDAN M I. Latent dirichlet allocation [J].Journal of machine Learning research，2003，3（Jan）：993-1022.

[2] BASTANI K，NAMAVARI H，SHAFFER J. Latent Dirichlet allocation （LDA） for topic modeling of the CFPB consumer complaints [J].Expert Systems with Applications，2019，127：256-271.

[3] 張志飛，苗奪謙，高燦.基于LDA主題模型的短文本分類方法 [J].計算機應用，2013，33（6）：1587-1590.

[4] DIENG A B，RUIZ F J R，BLEI D M. Topic modeling in embedding spaces [J].Transactions of the Association for Computational Linguistics，2020，8：439-453.

[5] MIKOLOV T，CHEN K，CORRADO G，et al. Efficient Estimation of Word Representations in Vector Space [J/OL].arXiv：1301.3781 [cs.CL].[2023-03-06].https：//arxiv.org/abs/1301.3781v1.

[6] DEVLIN J，CHANG M W，LEE K，et al. BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv：1810.04805 [cs.CL].[2023-03-06].https：//arxiv.org/abs/1810.04805.

[7] YENICELIK D，SCHMIDT F，KILCHER Y. How does BERT capture semantics？ A closer look at polysemous words [C]//Proceedings of the Third BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP.BlackboxNLP：Association for Computational Linguistics，2020：156-162.

[8] LOUREIRO D，JORGE A. Language modelling makes sense：Propagating representations through WordNet for full-coverage word sense disambiguation [J/OL].arXiv：1906.10007 [cs.CL].[2023-03-06].https：//arxiv.org/abs/1906.10007.

[9] VASWANI A，SHAZEER N，PARMAR N，et al. Attention Is All You Need [J/OL].arXiv：1706.03762[cs.CL].[2023-03-06].https：//arxiv.org/abs/1706.03762v4.

[10] JABER A，MART?NEZ P. Disambiguating Clinical Abbreviations Using a One-Fits-All Classifier Based on Deep Learning Techniques [J].Methods of Information in Medicine，2022，61（S1）：28-34.

[11] LOUREIRO D，REZAEE K，PILEVAR M T，et al. Analysis and Evaluation of Language Models for Word sense Disambiguation [J].Computational Linguistics，2021，47（2）：387-443.

作者簡介：鄭靜（1970—），女，漢族，安徽慶市人，教授，碩士生導師，博士，研究方向：隱馬爾可夫模型、隨機過程、文本挖掘；馮道鵬（1998—），男，漢族，湖北仙桃人，碩士研究生在讀，研究方向：文本挖掘。

收稿日期：2023-04-04

基金項目：國家社會科學項目（21BTJ071）

現(xiàn)代信息科技2023年19期

現(xiàn)代信息科技的其它文章: 基于UE與數(shù)字孿生的智慧建造管控平臺設計與實現(xiàn); 黃河兩岸深基坑安全監(jiān)測技術分析; 基于深度學習的側信道攻擊：進展與問題; 智能感知視頻云在新型智慧城市中的應用研究; 基于深度學習的鋼表面缺陷檢測方法綜述; 基于DBSCAN算法的出租車載客熱點分析

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于ETM的消歧主題模型研究