• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于BERT-LDA 模型的短文本主題挖掘*

      2023-12-09 08:50:50邱秀連
      關(guān)鍵詞:語料短文文檔

      張 震 湯 鯤 邱秀連

      (1.武漢郵電科學(xué)研究院 武漢 430000)

      (2.南京烽火天地通信科技有限公司 南京 210000)

      1 引言

      移動(dòng)互聯(lián)網(wǎng)的發(fā)展與智能手機(jī)的普及極大地促進(jìn)了社交軟件的發(fā)展,根據(jù)第48 次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1],截至2021 年6 月,我國(guó)網(wǎng)民規(guī)模達(dá)10.11億,手機(jī)網(wǎng)民規(guī)模達(dá)10.07億。網(wǎng)絡(luò)中每天都在產(chǎn)生海量的數(shù)據(jù),其中存在大量的短文本數(shù)據(jù),如微博、評(píng)論以及視頻彈幕等。這些短文本數(shù)據(jù)中蘊(yùn)藏著巨大的商業(yè)價(jià)值,對(duì)這些數(shù)據(jù)進(jìn)行主題挖掘,從海量的數(shù)據(jù)中挖掘潛在的主題,使得用戶無需瀏覽全部的數(shù)據(jù),通過生成的主題描述即可快速掌握文本的大致內(nèi)容。

      在對(duì)這些互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行主題挖掘時(shí),由于其數(shù)據(jù)增長(zhǎng)快,涉及主題復(fù)雜多樣,使用有監(jiān)督學(xué)習(xí)模型難以發(fā)現(xiàn)新的主題,且需要大量的人工參與。因此,對(duì)此類數(shù)據(jù)的主題挖掘多數(shù)采用無監(jiān)督學(xué)習(xí)模型其中,其中,應(yīng)用最多的就是LDA[2]主題模型,LDA 模型通過建立文檔、主題、詞的三層概率分布來挖掘主題,但是LDA 在短文本建模上存在詞匯稀疏問題,導(dǎo)致模型效果很差。為了解決這個(gè)問題,國(guó)內(nèi)外學(xué)者對(duì)LDA 模型作了大量的改進(jìn),文獻(xiàn)[3]提出了Twitter-LDA模型,其認(rèn)為每一個(gè)用戶存在一個(gè)用戶-主題矩陣,生成主題時(shí)從該矩陣生成,從而表現(xiàn)出不同用戶的關(guān)注主題。黃波[4]等提出了基于向量空間模型和LDA 模型相結(jié)合的微博客話題發(fā)現(xiàn),其主要思想是將LDA 模型提取的文檔間語義信息和基于VSM 的Tf-idf 權(quán)重詞向量融合在一起,計(jì)算文本間相似度。張景[5]等使用CBOW-LDA 模型,來降低LDA 模型建模輸入的文本數(shù)據(jù)緯度。石磊[6]等提出一種基于RNN 和主題模型的突發(fā)話題發(fā)現(xiàn)方法(RTM-SBTD),使用RNN和IDF 來學(xué)習(xí)詞的關(guān)系,同時(shí)通過構(gòu)建詞對(duì)解決短文本稀疏性問題。高鑫[7]等提出了一種使用Word2Vec 提取詞向量特征,再通過基于KNN 改進(jìn)的密度聚類算法來進(jìn)行主題聚類。

      本文針對(duì)短文本數(shù)據(jù)集特征,提出了一種結(jié)合BERT 和 LDA 的 主 題 特 征 提 取 方 法(BERT-LDA)。BERT是近年來在NLP領(lǐng)域內(nèi)取得卓著成效的技術(shù),通過雙向深層的Transformer模型有效提取文本的語義特征。本文使用BERT 對(duì)短文本進(jìn)行語義特征提取,將提取出的詞向量輸入K-means進(jìn)行相似文本聚類,最后將聚類結(jié)果作為語料使用LDA模型進(jìn)行主題建模。

      2 模型介紹

      2.1 BERT模型

      BERT(Bidirectional Encoder Representation from Transformers)[8]是GOOGLE 在2018 年提出的深度學(xué)習(xí)模型,傳統(tǒng)的Word2Vec[9]模型是基于靜態(tài)詞嵌入,無法學(xué)習(xí)到詞在不同語境的文本特征,為了解決這個(gè)問題,ELMO,BERT 等預(yù)訓(xùn)練模型相繼被提出。BERT 使用如圖1 所示的雙向多層Transformer作為編碼器來捕捉詞的上下文信息,通過對(duì)大規(guī)模語料進(jìn)行訓(xùn)練從而得到一個(gè)通用的語言模型,之后對(duì)預(yù)訓(xùn)練BERT 模型進(jìn)行微調(diào),即可滿足下游的各種任務(wù)。

      圖1 BERT模型結(jié)構(gòu)

      2.2 輸入表示

      Transformer[10]模型接收的輸入是一個(gè)詞向量序列x=(x1,x2,…,xn),其中xi表示單個(gè)詞的向量,因此在使用Transformer訓(xùn)練前,需要將原始語料轉(zhuǎn)換成模型能夠識(shí)別的向量序列,為了使BERT 能夠處理多種NLP 任務(wù),并且更好地提取語義特征,BERT 在提取特征向量前使用三層Embedding 層對(duì)語料進(jìn)行不同維度的編碼,最終的輸入表示由三層Embedding求和得到。

      此外,BERT 還會(huì)在原始語料中插入一些特殊字符,其中,[CLS]和[SEP]為特殊符號(hào),[CLS]用以標(biāo)識(shí)語料的開頭,用于學(xué)習(xí)整條語料的語義特征,可以用于分類任務(wù),對(duì)于其他類型任務(wù)可以忽略,[SEP]用以區(qū)分語料中的不同句子。Token Embeddings 表示的是字向量或詞向量,可通過查表獲得,用以表征詞本身,本文使用字向量;Segment Embeddings 用于區(qū)分字所屬的句子,E0表示字來自于句0;Position Embedding表示字的位置信息。

      2.2.1 預(yù)訓(xùn)練(Pre Training)

      在得到語料的輸入表示后,BERT 使用掩碼語言模型(Masked Language Model,MLM)和下一句預(yù)測(cè)(Next Sentence Prediction,NSP)兩個(gè)無監(jiān)督任務(wù)進(jìn)行訓(xùn)練。

      傳統(tǒng)語言模型如N-gram 是根據(jù)上文預(yù)測(cè)當(dāng)前詞,為方便計(jì)算概率,其假設(shè)第n個(gè)詞只與前n-1個(gè)詞有關(guān),而BERT 是雙向的Transformer 模型,為了能夠同時(shí)學(xué)習(xí)到上下文的雙向語義特征,BERT 提出了MLM 模型,在訓(xùn)練時(shí),模型會(huì)隨機(jī)掩蓋掉15%的字,即將真實(shí)的字以[mask]替代,之后用其對(duì)應(yīng)的上下文來預(yù)測(cè)真實(shí)的字。

      此外,BERT作為預(yù)訓(xùn)練模型,需要適用于下游的多種NLP任務(wù),除了文本分類,閱讀理解,序列標(biāo)注等任務(wù)外,還需要滿足問答等任務(wù),這就需要BERT 不僅能夠?qū)W習(xí)到字詞間的關(guān)系,還需要學(xué)習(xí)到句子之間的關(guān)系,因此,BERT 提出了NSP 任務(wù),將每條句子的語義特征作為分類特征,從而判斷兩句話是否存在問答關(guān)系。

      2.2.2 微調(diào)(Fine Tuning)

      BERT通過在超大規(guī)模語料進(jìn)行訓(xùn)練得到了上游的預(yù)訓(xùn)練模型,谷歌官方提供了不同版本的BERT模型,主要分為Base版和Large版,使用者可以根據(jù)自身情況選擇對(duì)應(yīng)的預(yù)訓(xùn)練模型,之后在微調(diào)階段,針對(duì)不同類型的下游任務(wù),只需要在預(yù)訓(xùn)練模型基礎(chǔ)上增加相應(yīng)的處理,如分類任務(wù),可以使用句首[CLS]的語義特征作為句向量,后接Softmax或者LSTM等作為分類器。

      2.3 LDA模型

      LDA 主題模型是由Blei,David M.等于2003 年提出的,本質(zhì)上是一個(gè)包含文檔-主題-詞匯的三層貝葉斯模型,可用來分析文檔的隱含主題,從而得到文檔的主題分布以及主題的詞匯分布,LDA模型的概率圖如圖2所示。

      圖2 LDA模型概率圖

      其中,M代表語料中文檔的個(gè)數(shù),K代表語料中主題的個(gè)數(shù),實(shí)際訓(xùn)練中K值可作為超參數(shù)進(jìn)行調(diào)整,θm是第m篇文檔的主題分布,為多項(xiàng)式分布,α是文檔-主題分布的Dirichlet 先驗(yàn)分布,φk是第k個(gè)主題的詞匯分布,也為多項(xiàng)式分布,β是主題-詞匯分布的Dirichlet 先驗(yàn)分布,Zm,n代表第m篇文檔的第n個(gè)詞匯所屬的主題,wm,n代表第m篇文檔的第n個(gè)詞匯,此外,文檔與文檔之間,主題與主題之間相互獨(dú)立。

      從圖2 可知,LDA 模型的生成過程主要由兩個(gè)子過程組成,具體生成過程如下所示。

      LDA模型:

      1)首先生成主題-詞匯分布,根據(jù)第k個(gè)主題的Dirichlet 先驗(yàn)分布生成第k個(gè)主題的詞匯分布φk。

      2)生成文檔-主題分布,根據(jù)第m篇文檔的Dirichlet先驗(yàn)分布生成第m篇文檔的主題分布θm。

      3)根據(jù)2)中得到的主題分布θm得到一個(gè)主題編號(hào)k,再根據(jù)主題k的詞匯分布φk生成詞wm,n。

      2.4 BERT-LDA模型

      在對(duì)短文本進(jìn)行主題分析時(shí),由于短文本中詞匯稀疏,包含的語義特征不明顯,使得LDA 模型在生成主題分布時(shí)效果很差。本文提出了適用于短文本主題挖掘的BERT-LDA 模型,BERT-LDA 模型由語義特征提取、特征聚類和主題挖掘三個(gè)部分組成。

      2.4.1 語義特征提取

      BERT 模型第一步會(huì)對(duì)原始數(shù)據(jù)進(jìn)行三層Embedding,插入[CLS]和[SEP]標(biāo)識(shí),Token Embedding 層為字向量,Segment Embedding標(biāo)識(shí)所屬句子,其值為當(dāng)前字所在句子在語料中的序號(hào),?。?,1,2,…},Position Embedding 為位置向量Si=i,將三層Embedding 值累加即可得到編碼層輸出,之后輸入BERT 模型進(jìn)行詞向量提取,得到最終的特征向量,根據(jù)BERT原理,使用作為整條文本的語義特征進(jìn)行聚類。

      2.4.2 特征聚類

      使用K-means[11]算法進(jìn)行文本聚類,先隨機(jī)選擇K條樣本作為初始聚類中心,計(jì)算每條樣本xj到每個(gè)聚類中心的距離,該距離使用余弦相似度來衡量,計(jì)算公式如下:

      計(jì)算完距離后,對(duì)每個(gè)聚類簇重新計(jì)算聚類中心,重復(fù)上面操作,直到達(dá)到最小誤差或者最大迭代次數(shù)。

      最后,將每個(gè)聚類簇中的文本合并成一條長(zhǎng)文本,對(duì)每條文本作分詞處理,形成語料,使用LDA模型對(duì)語料進(jìn)行主題建模,求解LDA 模型,就是求解聯(lián)合分布,由于詞分布是已知數(shù)據(jù),因此我們需要求出的是條件概率分布。

      2.4.3 主題挖掘

      本文采用Gibbs 采樣算法[12]進(jìn)行采樣求解,獲取最終的主題分布。將語料中任意一個(gè)詞的位置記為i,i代表坐標(biāo)(m,n),對(duì)應(yīng)第m篇文檔的第n個(gè)詞,代表去除位置為i的詞,根據(jù)貝葉斯理論,我們可以得到對(duì)應(yīng)的Dirchlet 后驗(yàn)分布為

      其中為文檔-主題和主題-詞匯的多項(xiàng)式分布,根據(jù)Gibbs采樣算法,我們有

      根據(jù)Dirchlet分布的數(shù)學(xué)期望公式可得到

      2.5 評(píng)價(jià)指標(biāo)

      困惑度[13]是評(píng)價(jià)語言模型好壞的一個(gè)重要指標(biāo),它的基本思想是給測(cè)試集句子賦予更高概率值的語言模型更好,即當(dāng)語言模型訓(xùn)練好后,對(duì)測(cè)試集進(jìn)行測(cè)試,句子出現(xiàn)概率越大,則證明模型效果越好,困惑度越低,其具體計(jì)算公式如式(7)所示。

      其中,Dt為測(cè)試集數(shù)據(jù),p(wmt)為模型在第m篇文檔中產(chǎn)生詞wmt的概率,Nm為第m篇文檔中詞匯的個(gè)數(shù)。

      3 實(shí)驗(yàn)設(shè)計(jì)

      3.1 數(shù)據(jù)集

      本文采用的數(shù)據(jù)集為真實(shí)微博數(shù)據(jù),使用Python爬取體育、游戲、時(shí)政、科技、財(cái)經(jīng)、娛樂等多個(gè)類別話題的微博博文,同時(shí),為了驗(yàn)證BERT-LDA模型在短文本主題挖掘上的效果,從爬取的博文中篩選長(zhǎng)度在200 字符以下的博文,構(gòu)成最終實(shí)驗(yàn)所用的數(shù)據(jù)集,共155724條博文。

      3.2 數(shù)據(jù)預(yù)處理

      由于LDA 模型進(jìn)行主題建模時(shí)使用的是詞袋模型,停用詞沒有意義,無法將其歸屬到任何主題中,因此將文本進(jìn)行分詞[14]并將停用詞去除,所用停用詞[15]為哈工大、川大、百度等開源的停用詞表。

      3.3 實(shí)驗(yàn)結(jié)果分析

      訓(xùn)練BERT_LDA 模型時(shí),設(shè)置BERT 識(shí)別句子最大長(zhǎng)度為200,聚類簇?cái)?shù)K為5000,隨機(jī)劃分15%數(shù)據(jù)作為測(cè)試集,以LDA 模型,BTM 模型作為對(duì)比,同時(shí),為了觀測(cè)主題數(shù)對(duì)模型效果的影響,設(shè)置主題數(shù)分別為10、20、30、40、50 進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3所示。

      圖3 主題數(shù)對(duì)困惑度的影響

      由圖3 可知,LDA、BTM 和BERT-LDA 這三種模型在不同主題數(shù)下困惑度均不同,總體來看,LDA 模型的困惑度高于BTM 和BERT-LDA 模型,這證明LDA 模型在短文本建模上的效果確實(shí)不好,BTM 模型的困惑度雖然低于LDA,但是總體仍是高于BERT-LDA 模型,證明BERT-LDA 模型能夠取得更低的困惑度,效果要好于LDA 和BTM 模型。

      4 結(jié)語

      本文提出了一種基于BERT 和LDA 的短文本主題挖掘模型,針對(duì)LDA 模型在短文本建模上存在的詞匯稀疏問題,提出采用BERT 預(yù)訓(xùn)練模型對(duì)短文本進(jìn)行語義特征提取,通過聚類的方法將短文本聚合成長(zhǎng)文本,最后輸入到LDA 模型中進(jìn)行主題建模。通過對(duì)短文本數(shù)據(jù)的實(shí)驗(yàn)分析,驗(yàn)證了本文所提算法的有效性,相比傳統(tǒng)的主題模型具有更低的困惑度。

      同時(shí)本文方法仍存在不足,例如,Bert 提取特征向量和K-means聚類這個(gè)過程耗時(shí)較長(zhǎng),如何優(yōu)化算法,降低算法運(yùn)行時(shí)間這是本文后續(xù)的研究方向。

      猜你喜歡
      語料短文文檔
      有人一聲不吭向你扔了個(gè)文檔
      KEYS
      Keys
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      國(guó)內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      短文改錯(cuò)
      唐河县| 义马市| 宝山区| 高碑店市| 陆丰市| 巴东县| 禄丰县| 安化县| 长岛县| 泾川县| 紫云| 蒙自县| 大荔县| 澄迈县| 乌审旗| 奈曼旗| 从江县| 介休市| 格尔木市| 黄平县| 同心县| 固安县| 翁牛特旗| 花莲县| 仙桃市| 衡水市| 仙居县| 水城县| 青海省| 镇雄县| 和硕县| 新竹市| 昌江| 农安县| 吉安市| 长岭县| 五家渠市| 庄浪县| 开化县| 哈尔滨市| 阳西县|