• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于WSD層級記憶網(wǎng)絡(luò)建模的文檔表示方法

      2020-08-07 10:06:44張柯文朱全銀方強(qiáng)強(qiáng)馬甲林成潔怡丁行碩
      關(guān)鍵詞:層級文檔語義

      張柯文,李 翔,朱全銀,方強(qiáng)強(qiáng),馬甲林,成潔怡,丁行碩

      (淮陰工學(xué)院 計(jì)算機(jī)與軟件工程學(xué)院,江蘇 淮安 223005)

      文檔層級結(jié)構(gòu)關(guān)系建模可以針對文檔的詞句級聯(lián)的上下文信息進(jìn)行文檔表示,也是自然語言處理領(lǐng)域研究的基礎(chǔ)。在過去的研究中,研究者們通過傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行文檔建模表示,Wu等[1]通過凸松弛將特征變換與SVM學(xué)習(xí)相結(jié)合,以人工標(biāo)注對訓(xùn)練數(shù)據(jù)集進(jìn)行特征提取和學(xué)習(xí)構(gòu)建文檔模型,實(shí)現(xiàn)文檔分類,Chen[2]提出改進(jìn)TF-IDF用于處理包含大量新聞的新聞分類。Jian[3]提出的BOLS- SVM算法對于在線預(yù)測任務(wù)特別有用,這類方法在過去取得了顯著的成果,然而性能卻依賴于復(fù)雜的人工規(guī)則和特征工程。為解決該問題,研究者們采用深度學(xué)習(xí)進(jìn)行文檔建模,笱程成等[4]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)預(yù)測社交消息,通過記憶獲取到的語義信息,可以捕捉到更廣范圍的特征信息,這些深度網(wǎng)絡(luò)模型在訓(xùn)練過程中關(guān)注訓(xùn)練目標(biāo)的特征信息,較傳統(tǒng)方法而言取得了更好的效果。Tang 等[5]改進(jìn)了門控循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)文檔建模來進(jìn)行情感分析,通過雙層Bi-GRU實(shí)現(xiàn)句間內(nèi)在語義編碼可以較好地捕捉句間語義信息。這些方法通常以句子作為輸入,通過詞向量關(guān)注訓(xùn)練目標(biāo)的特征信息。然而,這種文檔分類方法忽視了文檔層級結(jié)構(gòu)和上下文的語義關(guān)系。

      因此,本文提出的文檔表示算法主要是根據(jù)詞句文檔組成的層次關(guān)系,針對詞句級聯(lián),從詞到句通過Bert模型學(xué)習(xí)詞向量中的語義信息,句到文檔引入記憶網(wǎng)絡(luò)獲取句子之間的語義聯(lián)系,實(shí)現(xiàn)文檔分類。總體思路是:首先,通過Bert算法基于詞向量得到相似句子文本的句嵌入矩陣,以獲得詞語之間語義信息;然后,將句子映射到句嵌入矩陣空間得到句子的向量化表示;最后,為保留文檔內(nèi)部語義聯(lián)系,將文檔分句后的序列數(shù)據(jù)輸入Bi-LSTM(Bidirectional Long Short Term Memory Network,BiLSTM)模型中,獲取每個(gè)句子的注意力權(quán)重,得到文檔的向量化表示。本方法充分考慮到了詞句級聯(lián)的層次關(guān)系,增加文檔建模內(nèi)部的語義聯(lián)系。對于類間數(shù)據(jù)相似性較高的文檔分類更加準(zhǔn)確,滿足對文檔模型高效的分類要求,在實(shí)際應(yīng)用中具有一定的可行性。

      1 相關(guān)技術(shù)

      本文通過對文檔預(yù)處理,以定長的句向量作為輸入,引入Bert語言模型實(shí)現(xiàn)句子的向量化表示,通過Bi-LSTM獲取句向量間的上下文關(guān)系,結(jié)合注意力機(jī)制保留句子之間復(fù)雜的語義關(guān)系,實(shí)現(xiàn)文檔的篇章向量表示,進(jìn)行文檔分類。

      1.1 文檔預(yù)處理

      數(shù)據(jù)預(yù)處理后數(shù)據(jù)質(zhì)量的好壞影響整個(gè)自然語言處理系統(tǒng)的性能。中文文本不同于英文文本,在詞與詞之間沒有明顯的界限,通常有著不可分割的語義聯(lián)系。唐明等[6]利用TF-IDF算法計(jì)算每篇文檔中詞的權(quán)重,并結(jié)合word2vec詞向量生成文檔向量,最后將其應(yīng)用于中文文檔分類。何炎祥等[7]通過卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)來獲取鄰近詞匯間的關(guān)聯(lián),注重捕捉局部間的特征。在這類詞嵌入文檔模型中,通常先對文檔進(jìn)行分詞、去停用詞等處理,利用結(jié)巴分詞將文檔切分成若干個(gè)有意義的詞匯,同時(shí)過濾掉一些高頻卻沒有意義的噪點(diǎn)。該處理雖然可以去除噪點(diǎn)對文檔分類的影響,卻忽視了詞與詞、句與句之間的語義聯(lián)系,如前后文之間的因果關(guān)系等。本文利用文檔層級結(jié)構(gòu)的特點(diǎn),以句子作為基本單元保留詞句層級之間的語義關(guān)系。

      1.2 Bert算法

      文檔向量化是文檔表示的重要方式,將文檔表示成機(jī)器學(xué)習(xí)能夠處理和表達(dá)文檔語義的向量。李雙印等[8]提出了一種文檔建模方法,設(shè)計(jì)一種能夠同時(shí)利用單詞和標(biāo)簽信息,以及自動(dòng)利用標(biāo)簽種類信息,對半結(jié)構(gòu)化文檔進(jìn)行有效的建模,實(shí)現(xiàn)文檔的向量化表示,但這種方法很少考慮單個(gè)詞對整篇文檔的影響力。這種詞嵌入的方法實(shí)現(xiàn)文檔的向量化,忽略了詞到句,句到文檔的組成特點(diǎn),不能充分獲取文檔的語義關(guān)系。

      2018年 Google[9]發(fā)布了基于雙向 Transformer 的大規(guī)模預(yù)訓(xùn)練語言模型(Bi- directional Encoder Representation from Transformers,Bert)可以較好地表示詞和句子以理解其潛在的含義和關(guān)系,在情感分類、命名實(shí)體識(shí)別等任務(wù)中取得了很好的效果。Bert生成句向量的優(yōu)點(diǎn)在于它可充分理解句意,并且排除詞向量加權(quán)引起的誤差。Bert模型使用三層嵌入層聯(lián)合調(diào)節(jié)上下文對文本訓(xùn)練,很好保留上下文語義聯(lián)系,其輸入如圖1所示。

      圖1 Bert輸入表示

      對于輸入的文本數(shù)據(jù)將一對文本句標(biāo)記為句子對。每個(gè)句子對被組合為一個(gè)序列,序列的第一個(gè)詞以特殊的標(biāo)記[CLS]表示,通過特殊標(biāo)記[SEP]將每個(gè)句子分開。然后,將學(xué)習(xí)的每個(gè)句子分別嵌入到句子的每個(gè)標(biāo)記中,構(gòu)成句向量空間矩陣。通過數(shù)據(jù)映射得到句子向量,如圖2所示。

      圖2 句子向量表示圖

      1.3 雙向長短時(shí)記憶網(wǎng)絡(luò)

      雙向長短時(shí)記憶網(wǎng)絡(luò)是對于長短時(shí)記憶網(wǎng)絡(luò)LSTM的變體。LSTM是改進(jìn)后的循環(huán)網(wǎng)絡(luò),有效解決了梯度爆炸或者梯度消失的問題。通過引入基于門控單元,在神經(jīng)元中加入輸入門、輸出門、忘記門以及記憶單元來改善梯度消失的問題,同時(shí)也增強(qiáng)了句子序列之間的記憶程度。LSTM設(shè)計(jì)結(jié)構(gòu)如圖3所示。

      圖3 LSTM網(wǎng)絡(luò)單元結(jié)構(gòu)圖

      神經(jīng)元核心思想是通過采樣前一時(shí)刻的上下文信息產(chǎn)生下一時(shí)刻的輸出信息。假設(shè)t時(shí)刻的記憶內(nèi)容c,通過與門控輸出Гo相乘,即可獲得該時(shí)刻的輸出信息:

      α=Γo*c

      (1)

      該時(shí)刻的輸出信息由LSTM循環(huán)單元的三個(gè)門控單元控制,分別是更新門、遺忘門和輸出門。

      Γu=δ(wu[α,x]+bu)

      (2)

      Γf=δ(wf[α,x]+bf)

      (3)

      Γo=δ(wo[α,x]+bo)

      (4)

      (5)

      其中,wc和bc為記憶信息的權(quán)重矩陣和偏置項(xiàng)。因此,通過求解式(5),進(jìn)而通過式(6)實(shí)現(xiàn)LSTM更新的記憶內(nèi)容c的計(jì)算。

      (6)

      然而,LSTM對于序列數(shù)據(jù)只能從前往后傳遞序列信息,而對于基于上下文的文檔表示序列,忽略了后文對語義之間的影響。Chen 等[10]使用大型語料訓(xùn)練Bi-LSTM模型,使用時(shí),固定Bi-LSTM參數(shù),獲取Bi-LSTM的輸出,經(jīng)映射并加權(quán)相加后得到上下文信息,明顯改善了NLP的技術(shù)發(fā)展水平。因此使用雙向長短時(shí)記憶網(wǎng)絡(luò)可較好地捕獲文檔句子前后之間的語義信息,其結(jié)構(gòu)如圖4所示。

      圖4 BiLSTM結(jié)構(gòu)圖

      最后輸出結(jié)果為隱藏層單向和反向輸出的拼接結(jié)果。其拼接公式如式(7)~(9)所示:

      (7)

      (8)

      ht=Lt+L't

      (9)

      其中,Lt和L't分別為t時(shí)刻LSTM前向語義輸出和后向語義輸出,前向與后向的語義信息合并后得到包含序列上下文信息的t時(shí)刻隱藏層的語義輸出ht。

      1.4 注意力機(jī)制

      注意力機(jī)制在自然語言處理的序列模型中取得了很大的成就。Zhao 等[11]引入注意機(jī)制進(jìn)行神經(jīng)機(jī)器翻譯,Yang 等[12]提出了一個(gè)詞典增強(qiáng)的LSTM 與注意力機(jī)制的目標(biāo)依賴情感分類模型。在BiLSTM神經(jīng)網(wǎng)絡(luò)中結(jié)合Attention機(jī)制,在不同時(shí)刻計(jì)算輸出特征向量的權(quán)重,突出句子的重要特征,從而增加文檔表示之間的語義聯(lián)系,使整個(gè)模型獲得更好的效果,結(jié)構(gòu)如圖5所示。

      圖5 BiLSTM+Attention結(jié)構(gòu)

      通過計(jì)算每時(shí)刻隱藏層的輸出,在整個(gè)文本中向量表示的匹配得分占總體得分的比重,計(jì)算如式(10)~(12)所示,得到隱藏層輸出的權(quán)重矩陣,從而獲得文檔句子之間的重要信息。

      score(hi)=vTtanh(w1h1+b1)

      (10)

      (11)

      (12)

      其中,score(hi)為包含語義信息的hi輸入到單層感知機(jī)中獲得單篇文檔隱藏層的輸出,文檔內(nèi)各句子注意力權(quán)重矩陣ai由式(11)計(jì)算得到,通過權(quán)重矩陣ai與文本特征向量hi進(jìn)行加權(quán)和,得到包含文檔各句子重要性信息的向量ci。

      2 WSD層級網(wǎng)絡(luò)文檔表示模型

      文中分類方法采用了多種現(xiàn)有算法相結(jié)合的聯(lián)合建模策略,對篇章級文檔詞句級聯(lián)關(guān)系進(jìn)行層級建模并進(jìn)行分類。本設(shè)計(jì)的聯(lián)合建模策略是基于Bert語言模型和深度神經(jīng)網(wǎng)絡(luò)進(jìn)行的,其中,通過Bert建模實(shí)現(xiàn)句向量表示,利用雙向長短時(shí)記憶網(wǎng)絡(luò)和Attention機(jī)制保留句子之間復(fù)雜的語言關(guān)系。因此,考慮到算法的復(fù)雜度以及獲取文檔詞句之間的語義聯(lián)系,利用Bert算法和雙向長短時(shí)記憶網(wǎng)絡(luò),合理分配算法比重進(jìn)行語義建模,實(shí)現(xiàn)文檔分類,其基于WSD層級記憶文檔表示的分類機(jī)制如圖6所示。算法流程包括四個(gè)部分,數(shù)據(jù)預(yù)處理,文檔向量化,神經(jīng)網(wǎng)絡(luò)建模和分類訓(xùn)練與評估。

      圖6 WSD層級網(wǎng)絡(luò)文檔分類模型流程圖

      (13)

      其中,w2和b2為向量化文檔ci的權(quán)重矩陣和偏置項(xiàng)。具體步驟如表1所示:

      文檔表示為:Text={s1,s2,s3…sn}

      數(shù)據(jù)集表示為:

      D={Text1,Text2,Text3…Textm}

      表1 基于WSD層級網(wǎng)絡(luò)文檔分類模型算法步驟

      這種聯(lián)合建模策略有效的利用了各類算法的優(yōu)勢進(jìn)行文檔層級結(jié)構(gòu)建模,有效獲取文檔詞句之間的上下文語義聯(lián)系。通過Bert算法和雙向長短時(shí)記憶網(wǎng)絡(luò)結(jié)合注意力機(jī)制實(shí)現(xiàn)文檔的向量化建模,對樣本訓(xùn)練分類,有效加強(qiáng)了對分類樣本詞句內(nèi)部的含義和語義關(guān)系的特征表示,提高了分類模型的準(zhǔn)確率。因此,是一種較為理想的文檔分類方法。

      3 實(shí)驗(yàn)結(jié)果和分析

      3.1 數(shù)據(jù)集

      本實(shí)驗(yàn)采用THUCNEWS和CHEM&ENGNEWS兩個(gè)數(shù)據(jù)集。

      THUCNEWS是清華大學(xué)根據(jù)新浪新聞RSS訂閱頻道2005-2011年間的歷史數(shù)據(jù)篩選過濾生成,包含74萬篇新聞文檔。其中,選取65 000條數(shù)據(jù)進(jìn)行分類驗(yàn)證,將其以0.64,0.16,0.2的比例分為訓(xùn)練集,驗(yàn)證集和測試集。

      CHEM&ENGNEWS是來自11個(gè)不同化工網(wǎng)站的新聞資訊,包含22萬篇新聞文檔,大小約為2GB,根據(jù)網(wǎng)站的來源分類成十個(gè)類別,包括Coal,Corportate,Social,Plastic,Industry,Mineral,Technology,ChemicalEquipment,Petrochemical和NatureG-as。在采樣過程中與基于Bagging的集成學(xué)習(xí)方法結(jié)合,生成十個(gè)平衡數(shù)據(jù)集,64%的樣本置于訓(xùn)練集中,剩下的抽取16%和20%分為驗(yàn)證集和測試集,從而降低方差防止過擬合,增強(qiáng)算法的魯棒性。

      3.2 實(shí)驗(yàn)過程

      3.2.1實(shí)驗(yàn)設(shè)計(jì)

      基于LSTM模型,對兩種數(shù)據(jù)集進(jìn)行新聞文檔分類。為驗(yàn)證所提出WSD層級記憶網(wǎng)絡(luò)建模算法對文檔分類的可行性及優(yōu)勢,通過不同預(yù)訓(xùn)練算法包括TF-IDF、Word2vec等語言模型,對不同LSTM的變體進(jìn)行大量對比實(shí)驗(yàn)。

      3.2.2實(shí)驗(yàn)參數(shù)

      針對新聞文檔數(shù)據(jù),對實(shí)驗(yàn)算法參數(shù)進(jìn)行了合理設(shè)置,對比實(shí)驗(yàn)中Word2vec和TF-IDF算法中采用結(jié)巴分詞[14],每篇文檔文本基于詞向量表示,其中詞向量設(shè)置為200維的連續(xù)值,詞量大小參數(shù)值為6000;本算法使用句向量表示文檔,每篇文檔固定長度設(shè)為30,最大句子長度為100,即長度超過100的句子基于特定目標(biāo)詞進(jìn)行切割,長度不足100的以0向量填充句子的輸入矩陣。在訓(xùn)練時(shí)對驗(yàn)證集準(zhǔn)確率進(jìn)行監(jiān)控,當(dāng)訓(xùn)練步數(shù)超過1000步?jīng)]有改變時(shí)則停止訓(xùn)練,從而提高學(xué)習(xí)效率,以避免過擬合問題。

      3.2.3評價(jià)指標(biāo)

      通過精確率P、召回率R和F1_score來評價(jià)分類模型效果[15]。準(zhǔn)確率為被識(shí)別為該分類的正確分類記錄數(shù)與被識(shí)別為該分類的記錄數(shù)之比;召回率為被識(shí)別為該分類的正確分類記錄數(shù)與測試集中該分類的記錄總數(shù)之比,召回率是覆蓋面的度量,衡量了分類器對正例的識(shí)別能力;F1_score就是精確值和召回率的調(diào)和均值,其公式為:

      (14)

      該評價(jià)指標(biāo)適用于對來自相同源的不同數(shù)據(jù)集運(yùn)行不同方法的情況,以及在相同數(shù)據(jù)上獲得競爭結(jié)果的標(biāo)準(zhǔn)情況。

      3.3 實(shí)驗(yàn)結(jié)果及比較

      在THUCNEWS數(shù)據(jù)集中進(jìn)行分類實(shí)驗(yàn),實(shí)驗(yàn)分別通過TF-IDF,Word2vec以及本文所采用的Bert模型進(jìn)行語言預(yù)處理,同時(shí)分別與傳統(tǒng)機(jī)器學(xué)習(xí)算法SVM、傳統(tǒng)LSTM以及基于注意力機(jī)制的BiLSTM算法結(jié)合,對實(shí)驗(yàn)結(jié)果進(jìn)行分析,見表2。由于該數(shù)據(jù)集的分類較為精準(zhǔn),類間數(shù)據(jù)界限分明且數(shù)據(jù)量相對平衡,基于機(jī)器學(xué)習(xí)SVM算法上達(dá)到95.2%,在傳統(tǒng)LSTM算法上準(zhǔn)確率為94.8%,基于word2vec-LSTM算法準(zhǔn)確率達(dá)96.53%,基于本文提出的組合算法準(zhǔn)確率達(dá)95.07%。

      在CHEM&ENGNEWS數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),分別使用三種語言模型進(jìn)行語言預(yù)處理,在LSTM及其變體進(jìn)行實(shí)驗(yàn)比較,本算法和BiLSTM兩種方法的訓(xùn)練loss曲線和accuracy曲線如圖7所示,訓(xùn)練損失率在10%~15%,準(zhǔn)確率在90%以上。進(jìn)一步驗(yàn)證了該組合算法的準(zhǔn)確性和穩(wěn)定性,在類間數(shù)據(jù)相似度高且類間數(shù)據(jù)分布不平衡的數(shù)據(jù)集上同樣取得了很好的效果。在此輪實(shí)驗(yàn)的驗(yàn)證基礎(chǔ)上對10 998篇文檔進(jìn)行分類預(yù)測分析,如表4所示,完全正確分類的新聞文檔數(shù)為10 550篇,錯(cuò)誤數(shù)為448篇,準(zhǔn)確率為95%,損失率為18%,實(shí)驗(yàn)分類準(zhǔn)確率較高證明本算法在實(shí)際應(yīng)用中的可行性,能夠達(dá)到一定的分類精度。

      (a)WSD層級記憶網(wǎng)絡(luò)算法訓(xùn)練loss曲線圖 (b)WSD層級記憶網(wǎng)絡(luò)算法訓(xùn)練accuracy曲線圖

      (c)BiLSTM訓(xùn)練訓(xùn)練loss曲線圖 (d)BiLSTM訓(xùn)練accuracy曲線圖圖7 訓(xùn)練集日志

      表2 THUCNEWS數(shù)據(jù)集實(shí)驗(yàn)比較

      表3 CHEM&ENGNEWS數(shù)據(jù)集實(shí)驗(yàn)比較

      表4 10 998篇CHEM&ENGNEWS文檔分類實(shí)驗(yàn)結(jié)果

      3.4 實(shí)驗(yàn)總結(jié)

      通過兩輪實(shí)驗(yàn)結(jié)果比較,對65 000篇分類較為精準(zhǔn)的THUCNEWS文檔數(shù)據(jù)集進(jìn)行文檔建模表示進(jìn)行分類,基于WSD層級記憶網(wǎng)絡(luò)文檔建模表示的分類算法達(dá)到95.07%,比較其他四種分類較高的算法,分類準(zhǔn)確率都達(dá)到了90%以上,證明了本算法在分類準(zhǔn)確的同時(shí),還保證了算法的穩(wěn)定性;對于類間相似度較高的CHEM&ENGNEWS文檔數(shù)據(jù)集實(shí)驗(yàn)中,本算法的分類準(zhǔn)確率達(dá)到了96.24%,較其他4種參比方法提高7.06%~18.31%。表明本方法對于類間文本特征相似度很高的數(shù)據(jù)集具有很好的分類效果,在實(shí)際應(yīng)用中具有一定的可行性。

      4 結(jié)語

      本文提出一種基于WSD層級記憶網(wǎng)絡(luò)算法進(jìn)行文檔建模分類的方法,通過記憶網(wǎng)絡(luò)學(xué)習(xí)獲取上下文語義關(guān)系,克服了文檔數(shù)據(jù)集類間相似性高及類間數(shù)據(jù)不平衡的問題。通過實(shí)驗(yàn)驗(yàn)證本算法在實(shí)際應(yīng)用中的可行性,并能夠達(dá)到一定的準(zhǔn)確分類效果。本算法還存在問題需要進(jìn)一步探討,在句向量表示時(shí)基于Bert模型只能表示固定長度的句子,對于長句子損失較多,下一步工作將研究如何增強(qiáng)模型的魯棒性,以使用不同長度的文檔進(jìn)行分類。

      猜你喜歡
      層級文檔語義
      有人一聲不吭向你扔了個(gè)文檔
      軍工企業(yè)不同層級知識(shí)管理研究實(shí)踐
      基于軍事力量層級劃分的軍力對比評估
      語言與語義
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      任務(wù)期內(nèi)多層級不完全修復(fù)件的可用度評估
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      認(rèn)知范疇模糊與語義模糊
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      蒙阴县| 林州市| 梨树县| 平阴县| 白河县| 庆安县| 抚顺市| 洮南市| 宽城| 西乌珠穆沁旗| 乌审旗| 涟源市| 沁阳市| 连平县| 巨鹿县| 五峰| 龙门县| 贵港市| 鞍山市| 南溪县| 手游| 漳平市| 偃师市| 万安县| 南靖县| 清水县| 八宿县| 始兴县| 农安县| 怀安县| 湘阴县| 孝感市| 铁力市| 行唐县| 诸城市| 砚山县| 新郑市| 隆子县| 宿州市| 孟州市| 松桃|