• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于實(shí)體注意力的生成式摘要算法

      2022-04-14 06:48:12李蕭洋周安民
      現(xiàn)代計算機(jī) 2022年1期
      關(guān)鍵詞:詞匯表可讀性注意力

      李蕭洋,周安民

      (四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,成都 610065)

      0 引言

      大數(shù)據(jù)時代的到來使得信息的獲取和傳播日益便捷,但隨之而來的信息過載問題也不容小覷。文本摘要作為從海量的信息中提取出關(guān)鍵信息的重要手段,旨在從原文本中提煉出簡潔精煉且能夠反映原文中心內(nèi)容的短文,從而幫助讀者從較長文本中快速篩選出有效信息,達(dá)到快速瀏覽、有效篩選、精準(zhǔn)閱讀的效果。然而,人工提取摘要耗時費(fèi)力,因此自動文本摘要技術(shù)應(yīng)運(yùn)而生。

      近年來,自動文本摘要任務(wù)已經(jīng)成為了自然語言處理領(lǐng)域的熱門研究方向之一,并且在醫(yī)學(xué)、新聞、金融、學(xué)術(shù)等領(lǐng)域都有實(shí)際的應(yīng)用,如觀點(diǎn)摘要、專利摘要、新聞?wù)取,F(xiàn)有的自動文摘方法主要分為抽取式和生成式兩大類。前者的核心在于從原始文檔中提取關(guān)鍵的短語或句子進(jìn)行重組,該方法提取出來的摘要能夠保留文章中的關(guān)鍵信息且有著良好的語法,但是由于缺乏某些特定的連接詞往往可讀性較低。后者是模仿人類歸納摘要的過程對原文的內(nèi)容進(jìn)行理解和壓縮,該方法可以根據(jù)語義內(nèi)容來生成摘要且可以生成原文中未出現(xiàn)的內(nèi)容,但是往往依賴于大量高質(zhì)量標(biāo)注數(shù)據(jù)來訓(xùn)練模型,且可能出現(xiàn)一些語法與事實(shí)方面的錯誤。

      針對生成式摘要中存在的語法錯誤與事實(shí)描述不準(zhǔn)確的問題,本文提出了一種基于seq2seq模型并融合時序信息與實(shí)體信息的生成式摘要算法,并在開源的中文長文本摘要數(shù)據(jù)集CLTS上對其有效性進(jìn)行了驗(yàn)證。

      1 相關(guān)研究

      隨著深度學(xué)習(xí)的發(fā)展,現(xiàn)有的生成式自動文摘方法主要利用深度學(xué)習(xí)的相關(guān)知識對文本進(jìn)行自動建模與分析,快速準(zhǔn)確地從源文本中提取有效信息,在輿情分析、智能問答、觀點(diǎn)挖掘等方面都有廣泛的應(yīng)用。

      Nallapati等將循環(huán)神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合構(gòu)建了一個端到端的摘要生成系統(tǒng),使得解碼器在生成的每一步都聚焦于當(dāng)前的輸入,在主流的摘要生成數(shù)據(jù)集上都取得了較好的效果,但是模型的生成能力依然受限于詞匯表。在此基礎(chǔ)上,See等提出了指針網(wǎng)絡(luò)來解決詞匯表限制問題,即在每一個解碼時刻由指針網(wǎng)絡(luò)決定是根據(jù)詞匯表生成詞語還是從原文中直接復(fù)制,進(jìn)一步提高了生成摘要的可讀性。此外,隨著自然語言處理領(lǐng)域的發(fā)展,Liu等提出了一種基于BERT模型的摘要生成方法,通過使用不同的優(yōu)化器對編碼端和解碼端進(jìn)行微調(diào),使生成式摘要的質(zhì)量達(dá)到了新的高度。

      2 基于實(shí)體注意力的生成式摘要模型

      2.1 問題分析

      現(xiàn)有的生成式摘要算法雖然能夠取得比較好的可讀性,但仍然存在著以下問題:①現(xiàn)有的研究成果大多面向英文新聞文本,針對中文長文本的研究比較少。②當(dāng)處理長文本問題時,由于神經(jīng)網(wǎng)絡(luò)的記憶能力有限,會導(dǎo)致部分關(guān)鍵信息的丟失;另外處理長時記憶問題時往往需要比較大的資源和時間開銷。③由于某些特定的實(shí)體詞語難以被神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),現(xiàn)有方法生成的摘要盡管有著較高的可讀性,但是在事實(shí)準(zhǔn)確性方面卻有所欠缺。

      針對上述問題,本文面向中文長文本摘要,聚焦于實(shí)體信息和時序信息,提出了一種基于實(shí)體注意力的生成式摘要算法。該算法基于seq2seq模型,將實(shí)體信息引入編碼器端以及損失函數(shù)中,在保留模型生成可讀性摘要能力的同時,提高生成摘要的事實(shí)準(zhǔn)確性。

      2.2 基于實(shí)體注意力的生成式摘要模型

      圖1 基于實(shí)體注意力的生成式摘要模型

      最后編碼器端的語義向量由以上兩種注意力混合而成,其計算如公式(5):

      其中、為模型要學(xué)習(xí)的參數(shù);||代表向量的拼接。

      其次使用指針開關(guān)來衡量一個詞應(yīng)該采取生成策略還是復(fù)制策略,充分考慮編碼器端語義向量c、解碼器端隱藏狀態(tài)h和解碼器端的輸入x,其計算公式如(7):

      其中 、 、 、為模型要學(xué)習(xí)的參數(shù)。

      最后得到擴(kuò)充后的詞匯表分布如公式(8)所示:

      2.3 損失函數(shù)

      在傳統(tǒng)的seq2seq模型中,通常以最小化每一個解碼時刻的最大似然損失為目標(biāo)來訓(xùn)練模型,即,對于輸入文章,記參考摘要為={,,…,},模型訓(xùn)練的目標(biāo)函數(shù)如公式(9):

      其中代表傳統(tǒng)的二進(jìn)制交叉熵函數(shù);代表當(dāng)前詞語是否為實(shí)體,如果當(dāng)前詞語為實(shí)體則=1;否則,=0。

      對以上兩種損失函數(shù)進(jìn)行加權(quán)求和得到最終的損失函數(shù)形式,如公式(11):

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      本文使用Liu等收集并整理的中文新聞長文本摘要數(shù)據(jù)集,該數(shù)據(jù)集收集了澎湃新聞網(wǎng)站自2014年7月22日至2020年4月20日之間發(fā)表的新聞文章以及由專業(yè)編輯編寫的摘要。共包含185397篇文章摘要對,涵蓋政治、軍事、經(jīng)濟(jì)、娛樂等多個領(lǐng)域,并且在多個主流模型上測試都有較好的效果。

      3.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

      本實(shí)驗(yàn)在Ubuntu 18.04.4、GeForce RTX 2080的環(huán)境下進(jìn)行,實(shí)驗(yàn)?zāi)P驮赑ython 3.6.12、Pytorch 1.7.1的環(huán)境下進(jìn)行訓(xùn)練。輸入的詞向量為經(jīng)人民日報語料庫訓(xùn)練的300維word2vec詞向量,長短時記憶網(wǎng)絡(luò)(LSTM)的隱藏層大小為300維,編碼器端為雙層LSTM,解碼器端為單層LSTM,批訓(xùn)練大小為8,初始學(xué)習(xí)率為0.001,迭代次數(shù)為50000次,詞匯表大小為50000。在進(jìn)行實(shí)體識別時使用standfordnlp工具。實(shí)驗(yàn)在生成摘要時設(shè)置輸入句子的最大長度為800,輸出摘要的最大長度為100,采用束寬大小為4的束搜索來尋找解碼時的最優(yōu)結(jié)果。實(shí)驗(yàn)參數(shù)表如表1所示。

      表1 實(shí)驗(yàn)參數(shù)

      3.3 評價指標(biāo)

      本文使用文本摘要領(lǐng)域常用的ROUGE來對生成文本的可讀性進(jìn)行評價,具體使用ROUGE-N(=1,2)和ROUGE-L。其中ROUGEN通過計算生成摘要和人工摘要元組的召回率來評估可讀性,具體計算公式如(12):

      其中{}為人工摘要,Count(gram)表示人工摘要和生成摘要的共有元組的個數(shù),(gram)表示參考摘要中元組的個數(shù)。

      ROUGE-L使用人工摘要和生成摘要的最長公 共 子 序 列(Longest Common Subsequence,LSC)來衡量生成句子的可讀性。其具體計算公式如(13)—(15)所示:

      其中 ||表示生成摘要的長度,||表示人工摘要的長度,(,)表示人工摘要與生成摘要二者的最長公共子序列的長度,為精確率P與召回率R的比值。

      3.4 實(shí)驗(yàn)結(jié)果與分析

      為了確定損失函數(shù)中實(shí)體信息和可讀性信息所占的比例,本文首先對公式(11)中超參數(shù)的取值進(jìn)行了實(shí)驗(yàn),并最終確定以0.75作為后續(xù)實(shí)驗(yàn)中的取值,具體實(shí)驗(yàn)結(jié)果如圖2所示。

      圖2 超參數(shù)η實(shí)驗(yàn)結(jié)果

      如圖2所示,當(dāng)=0.75時所生成的摘要在ROUGE-1、ROUGE-2和ROUGE-L評分上都有著較好的效果。此外,從圖中還能觀察到,隨著的增大,即隨著損失函數(shù)中實(shí)體比例的上升,生成摘要的可讀性整體呈現(xiàn)先上升后下降的趨勢。這是由于隨著損失函數(shù)中實(shí)體比例的上升,模型將更加傾向于學(xué)習(xí)實(shí)體信息而削弱了對原文內(nèi)容的學(xué)習(xí),從而導(dǎo)致了可讀性得分的下降。

      另外,為了驗(yàn)證本文所提出方法的有效性,我們將多個模型在CLTS數(shù)據(jù)集上的效果進(jìn)行了對比,不同模型之間的ROUGE分?jǐn)?shù)對比如表2所示。

      表2 不同模型對比結(jié)果

      通過對表中的數(shù)據(jù)進(jìn)行分析可以得到以下結(jié)論:①總的來說,生成式模型得到的摘要的可讀性高于抽取式模型,這是由于傳統(tǒng)的抽取式模型有著較為簡單的模型結(jié)構(gòu),并且在對原文內(nèi)容進(jìn)行抽取時由于缺乏了部分關(guān)鍵連接詞而導(dǎo)致可讀性較低。②本文所提出的模型在ROUGE-2和ROUGE-L評分上都取得了比其他模型更優(yōu)的結(jié)果,由此可以說明本文所提出的方法在以恰當(dāng)?shù)谋壤肓藢?shí)體信息后,在摘要生成任務(wù)上有著更為優(yōu)異的表現(xiàn)。③通過對生成句子的分析,可以發(fā)現(xiàn)本文提出的模型能夠識別出更多的關(guān)鍵實(shí)體。

      4 結(jié)語

      本文針對中文新聞長文本摘要中存在的可讀性以及事實(shí)準(zhǔn)確性方面的缺陷,在傳統(tǒng)的seq2seq模型的基礎(chǔ)上,提出了基于時序注意力和實(shí)體注意力融合的生成式摘要模型,并在損失函數(shù)中引入了實(shí)體信息,使模型在保證原有可讀性的基礎(chǔ)上能夠更進(jìn)一步地學(xué)習(xí)到事實(shí)信息,從而進(jìn)一步提高了自動文摘的質(zhì)量。實(shí)驗(yàn)結(jié)果表明,本文所提出的模型在ROUGE評分上與其他模型相比較得到了顯著提升。下一步的研究工作是考慮如何將該算法從新聞?wù)I(lǐng)域遷移到其他領(lǐng)域,并進(jìn)一步降低模型消耗。

      猜你喜歡
      詞匯表可讀性注意力
      讓注意力“飛”回來
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      對增強(qiáng)吸引力可讀性引導(dǎo)力的幾點(diǎn)思考
      新聞傳播(2015年11期)2015-07-18 11:15:03
      淺談對提高黨報可讀性的幾點(diǎn)看法
      新聞傳播(2015年9期)2015-07-18 11:04:12
      巧妙提取英文詞匯表的純英文單詞
      電腦迷(2014年16期)2014-04-29 03:32:41
      在增強(qiáng)地方時政新聞可讀性上用足心思
      中國記者(2014年2期)2014-03-01 01:38:34
      詞匯表
      雙語時代(2009年3期)2009-09-24 08:45:32
      詞匯表
      雙語時代(2009年5期)2009-06-01 09:27:44
      詞匯表
      雙語時代(2009年4期)2009-04-13 06:58:24
      凤冈县| 达拉特旗| 石林| 图片| 长垣县| 巴林左旗| 介休市| 浑源县| 布尔津县| 常熟市| 娱乐| 阿拉善左旗| 行唐县| 如皋市| 渭源县| 靖边县| 循化| 衡水市| 修武县| 潞城市| 岳阳县| 历史| 文安县| 凌云县| 巫山县| 依安县| 台北县| 常州市| 扎鲁特旗| 浮山县| 乐至县| 宝清县| 锡林郭勒盟| 安化县| 盐源县| 进贤县| 河西区| 松潘县| 新巴尔虎右旗| 城固县| 莱芜市|