• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于回歸的抽取式摘要模型

      2019-05-16 01:40:02趙懷鵬車萬翔
      智能計算機(jī)與應(yīng)用 2019年2期
      關(guān)鍵詞:表示層向量神經(jīng)網(wǎng)絡(luò)

      趙懷鵬,車萬翔,劉 挺

      (哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱150001)

      0 引 言

      隨著互聯(lián)網(wǎng)的迅猛發(fā)展,信息量正以指數(shù)級別在積累和增長。而摘要則能以精煉的文字幫助人們在海量數(shù)據(jù)中快速獲取自己需要的信息。但鑒于目前信息量潮涌般的生成態(tài)勢,故而亟需研發(fā)一套自動摘要系統(tǒng)來為文本自動總結(jié)重要信息,從而快速獲取想要的信息。

      摘要算法大致可以分為2個類別:抽取式摘要和生成式摘要。近年來隨著深度學(xué)習(xí)的日趨成熟,尤其是隨著 sequence to sequence[1]的提出,生成式摘要方面涌現(xiàn)出數(shù)目可觀的研究成果。而抽取式摘要卻因其簡單,低成本,能夠生成邏輯連貫的摘要等優(yōu)勢,仍然具有重要的研究價值。本課題的目的即旨在設(shè)計構(gòu)造一套抽取式摘要系統(tǒng)。

      研究可知,傳統(tǒng)的方法大多是利用無監(jiān)督學(xué)習(xí)來得到文本的摘要。代表性的研究有:向量空間模型(the vector-space methods)[2-3]、基于圖的模型(the graph-based methods)[4-5]、組合優(yōu)化方法(the combinatorial optimization methods)[6-7]。 這些方法依賴大量手工設(shè)計的特征來建模句子或篇章,例如位置信息,TF-IDF等。

      近些年,神經(jīng)網(wǎng)絡(luò)吸引了學(xué)界的高度關(guān)注,而Hinton等人[8]發(fā)表了優(yōu)化深層網(wǎng)絡(luò)的方法后,隨卻就陸續(xù)見到了許多基于神經(jīng)網(wǎng)絡(luò)的抽取式摘要工作。這些工作均是將抽取式摘要任務(wù)看作序列標(biāo)注任務(wù)。分類的類別有兩類:0代表不是摘要,1代表是摘要。具體來說,Cheng等人[9]提出了基于sequence to sequence框架來進(jìn)行句子分類。Singh等人[10]對篇章表示層進(jìn)行了優(yōu)化。同時,基于分類的方法也呈現(xiàn)出一定的弊端與缺陷。Nallapati等人[11]就提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks)的分類模型。首先,在訓(xùn)練過程中,將該任務(wù)當(dāng)成序列標(biāo)注來建模,但在測試的時候是根據(jù)分類概率大小來選擇最優(yōu)的幾個句子。這就導(dǎo)致了訓(xùn)練和測試存在不一致性的問題。其次,標(biāo)注為1的句子間也不能區(qū)分各自的重要程度。綜合前文分析可知,本文則有針對性地研發(fā)提出了基于神經(jīng)網(wǎng)絡(luò)的回歸模型來解決上述問題。

      1 基于回歸的抽取式摘要模型

      1.1 分類模型存在問題及分析

      最近幾年展開了基于序列標(biāo)注的神經(jīng)網(wǎng)絡(luò)來建模抽取式摘要的研究。這種利用交叉熵來優(yōu)化與標(biāo)準(zhǔn)答案的最大似然方式并沒有在訓(xùn)練過程中考慮排序句子。摘要任務(wù)的本質(zhì)是對句子進(jìn)行排序,然后選擇排序靠前的幾個句子?;诜诸惖哪P驮谟?xùn)練目標(biāo)中卻忽略了這一點(diǎn)。而且,摘要的分類數(shù)據(jù)集常常是利用人工摘要通過一定規(guī)則得到句子的分類標(biāo)簽。這樣就會導(dǎo)致正例的個數(shù)過多,模型容易過擬合,而且僅是利用模型也無法區(qū)分相同標(biāo)簽的不同句子間的重要程度。

      1.2 回歸模型概述

      給定一篇文章D,其中包含句子序列{x1,x2,…,xn}。 抽取式摘要系統(tǒng)的目的就是要從D中選擇m個句子組成摘要S(其中m<n)。對于每個句子si∈D,研究對其預(yù)測一個分?jǐn)?shù)scorei。在訓(xùn)練時通過回歸損失函數(shù)來優(yōu)化網(wǎng)絡(luò)。在測試時,對于每個句子si都會預(yù)測一個分?jǐn)?shù),即:

      此后,將選出scorei最大的m個句子作為摘要。

      基于回歸的抽取式摘要模型的過程結(jié)構(gòu)設(shè)計如圖1所示?;诨貧w的抽取式摘要模型一般通過一定的規(guī)則來給每個句子打分。例如Ren等人[12]就利用當(dāng)前句子與人工摘要的ROUGE值以及句子間的ROUGE值來為每個句子打分。在訓(xùn)練的過程中,該模型通過計算當(dāng)前句子與篇章表示的相關(guān)程度和句子間的相關(guān)程度來為每個句子評判打分,通過網(wǎng)絡(luò)訓(xùn)練讓模型分?jǐn)?shù)接近正確的分?jǐn)?shù)。測試時,會給每個句子進(jìn)行評分,然后選擇分?jǐn)?shù)最大的作為最終求得的摘要。基于回歸模型的優(yōu)勢是分?jǐn)?shù)能夠更加精確刻畫句子的重要程度,并以此作為依據(jù)來進(jìn)行句子間的排序。另外,在構(gòu)造分?jǐn)?shù)的時候就考慮到了最終的評價指標(biāo)ROUGE[13],因此會更加合理。

      圖1 回歸模型結(jié)構(gòu)圖Fig.1 The structure of regression model

      1.3 基于神經(jīng)網(wǎng)絡(luò)的抽取式摘要模型

      本文中的句子和篇章的表示層利用了Yang等人[14]提出的 Hierarchical attention networks。 如圖2所示,該結(jié)構(gòu)分為3層:輸入層、句子表示層和篇章表示層。該模型的設(shè)計初衷是用于篇章分類(document classification),而本次研究則將其用于抽取式摘要系統(tǒng)的表示層。

      圖2 層次化注意力網(wǎng)絡(luò)Fig.2 Hierarchical attention networks

      本次研究的輸入層采用了100維的詞向量,而選擇了訓(xùn)練詞向量的工具是word2vec[15],過程中訓(xùn)練詞向量用到的訓(xùn)練數(shù)據(jù)是 CNN/DailyMail[16]數(shù)據(jù)集里面所有的文本。繼而,文中設(shè)置的最小詞頻閾值為8,這樣就可得到154 K的詞匯。Skip窗口大小設(shè)置為5,hierarchical softmax的層數(shù)也是1。

      同時,對于句子表示層和篇章表示層,研究采用了Bi-LSTM。LSTM中包含3個門:輸入門(input gate)、輸出門(output gate)和遺忘門(forget gate),如圖3所示。

      在得到LSTM的隱層輸出之后,研究利用Attention[17]機(jī)制得到每個詞或者句子的權(quán)重。設(shè)計時,計算Attention的向量是隨機(jī)初始化,并通過網(wǎng)絡(luò)學(xué)習(xí)進(jìn)行更新。以篇章表示層為例,假設(shè)ht為第t個句子的表示,Us是計算Attention的向量。那么兩者分?jǐn)?shù)計算方式可表述如下:

      其中,d就是研究中最終的篇章表示,ht就是求得的句子表示。

      圖3 LSTM Cell結(jié)構(gòu)圖Fig.3 The structure of LSTM Cell

      在此基礎(chǔ)上,研究推得的最終回歸模型的打分函數(shù)將可寫作如下形式:

      接下來,通過計算當(dāng)前句子si與人工摘要Sref的ROUGE-2F1值就可得到標(biāo)準(zhǔn)分?jǐn)?shù),其數(shù)學(xué)公式可表示為:

      在得到了篇章表示后,就可以定義損失函數(shù)如式(7)所示:

      2 實(shí)驗(yàn)結(jié)果與分析

      2.1 基本設(shè)置

      詞向量維度為100維,句子表示層和篇章表示層Bi-LSTM的維度為200維。訓(xùn)練采用的優(yōu)化器為 Adam,初始學(xué)習(xí)率為 0.001。 Batch size為 20,隨機(jī)種子設(shè)為1,訓(xùn)練迭代了10輪。

      研究對每篇文章進(jìn)行了預(yù)處理,去除了文章日期,作者信息等。同時對所有單詞做了小寫化處理。為了降低時間和計算資源開銷,同時還設(shè)置每篇文章最多100個句子,每個句子最多50個詞,如果超過就進(jìn)行截斷。而在研究句子級別表示層時,選取一個batch中所有篇章詞數(shù)最多的句子(超過50的按照50計算)作為padding的基準(zhǔn),詞數(shù)未達(dá)此標(biāo)準(zhǔn)的句子增補(bǔ)若干個100維的0向量。在篇章表示層中,選取一個batch中篇章句子數(shù)最多的篇章(超過100的按照100計算)作為padding基準(zhǔn),句子數(shù)不夠的予以補(bǔ)0向量處理。

      2.2 數(shù)據(jù)集

      實(shí)驗(yàn)用到的數(shù)據(jù)集是CNN/Daily Mail數(shù)據(jù)集。數(shù)據(jù)的內(nèi)容是CNN和Daily Mail發(fā)布的新聞數(shù)據(jù),每篇文章包含標(biāo)題名稱、正文和人工摘要三個部分,樣本示例見表1。該數(shù)據(jù)集最初是由Hermann用于完成閱讀理解任務(wù)。后來Cheng等人[9]將其作為抽取式摘要的數(shù)據(jù)集。由于數(shù)據(jù)集的規(guī)模較大,在近段時間內(nèi)已被廣泛應(yīng)用到文本摘要任務(wù)中。數(shù)據(jù)集的規(guī)模統(tǒng)計參見表2。

      表1 數(shù)據(jù)集樣本示例Tab.1 Sample of the dataset

      表2 數(shù)據(jù)集規(guī)模統(tǒng)計Tab.2 The statistics of dataset

      實(shí)驗(yàn)中,重點(diǎn)選用了Daily Mail數(shù)據(jù)集,因?yàn)榻陙淼拇蟛糠止ぷ鞫荚贒aily Mail數(shù)據(jù)集上提交了結(jié)果,因而有利于后續(xù)的實(shí)驗(yàn)結(jié)果對比。Daily Mail數(shù)據(jù)集中每篇文章的平均句子數(shù)為25.6,人工摘要的平均長度在3~4句的范圍內(nèi)。

      2.3 評價指標(biāo)

      早期,傳統(tǒng)的摘要評價方式一般都包含人工的評分函數(shù),包括語法、可讀性、內(nèi)容、一致性等。這些簡單的人工評價規(guī)則能夠較好反映摘要的質(zhì)量,但是需要消耗大量的人力去進(jìn)行評估。Lin[13]提出ROUGE(Recall-Oriented Understudy for Gisting Evaluation)用來評價摘要的質(zhì)量,并和人工評價有著很強(qiáng)的一致性,目前即將其作為一種常用的摘要評價指標(biāo)。分析可知,常用的評價指標(biāo)有ROUGE-1、ROUGE-2和ROUGE-L。 前兩者分別計算了uni-gram和bi-gram的覆蓋度,表示了涵蓋的信息量,后者計算了最長公共子序列(longest common subsequence)的覆蓋度,描述了生成摘要的流暢程度。ROUGE-N和ROUGE-L可由如下公式計算得出:

      2.4 實(shí)驗(yàn)結(jié)果

      本次研究中的baseline模型是Lead-3,且只取文章中前3句話作為摘要。另外,研究中還對比了文獻(xiàn)[9]和文獻(xiàn)[11]中的仿真結(jié)果。這里,即研究給出了不同長度限制下的實(shí)驗(yàn)結(jié)果詳見表3、表4。

      表3 DailyMail測試集75 bytes下ROUGE RecallTab.3 75 bytes ROUGE Recall of DailyMail test set

      表4 DailyMail測試集275 bytes下ROUGE RecallTab.4 275 bytes ROUGE Recall of DailyMail test set

      由表3、表4的實(shí)驗(yàn)結(jié)果來看,本文的模型在生成短摘要時,效果上要明顯優(yōu)于其它的抽取式摘要模型。在生成長摘要時,效果也能和SOTA相當(dāng)。

      3 結(jié)束語

      本文分析了利用分類來做抽取式摘要的問題,并設(shè)計提出了一個基于神經(jīng)網(wǎng)絡(luò)的回歸模型。結(jié)果表明,本文研發(fā)的模型不依賴任何手工設(shè)計的特征。而且,在DailyMail數(shù)據(jù)集上,研究提出的模型在不同長度限制下都取得了不錯的效果。

      猜你喜歡
      表示層向量神經(jīng)網(wǎng)絡(luò)
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于Spring的企業(yè)級Web項(xiàng)目架構(gòu)設(shè)計研究
      軟件(2019年6期)2019-10-08 06:27:21
      ASP.NET三層構(gòu)架解析
      向量垂直在解析幾何中的應(yīng)用
      基于SSH框架科研管理系統(tǒng)的設(shè)計
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      唐山市| 邛崃市| 丰城市| 江川县| 安化县| 安多县| 陆良县| 营山县| 长治县| 禄丰县| 菏泽市| 大同市| 永清县| 方城县| 合肥市| 扶余县| 栾城县| 弋阳县| 山东| 淅川县| 普定县| 乳山市| 吐鲁番市| 兴义市| 湟源县| 高邮市| 五家渠市| 霍城县| 松滋市| 噶尔县| 阿拉尔市| 北川| 汉沽区| 泰州市| 察哈| 留坝县| 延安市| 旬邑县| 叙永县| 谢通门县| 准格尔旗|