林晶
(懷化學(xué)院計算機(jī)科學(xué)與工程學(xué)院,湖南懷化418008)
一種基于混合神經(jīng)網(wǎng)絡(luò)的抽取式文本摘要方法
林晶
(懷化學(xué)院計算機(jī)科學(xué)與工程學(xué)院,湖南懷化418008)
能夠幫助人們快速瀏覽和理解文檔或文檔集,傳統(tǒng)抽取式摘要方法高度依賴于人工特征,本文設(shè)計了一種基于混合神經(jīng)網(wǎng)絡(luò)(FNN)的文檔摘要方法,它包含了一個分層文檔編碼器及一個基于關(guān)注的抽取器,能夠不依賴于人工特征自動抽取句子產(chǎn)生摘要.實驗結(jié)果表明,該方法效果較好.
文本摘要;句子抽取;混合神經(jīng)網(wǎng)絡(luò)
電子商務(wù)是一種新的商業(yè)渠道,伴隨其發(fā)展也導(dǎo)致大量產(chǎn)品與服務(wù)的評論網(wǎng)站出現(xiàn).如何從其海量資訊中高效地獲取有用信息成為人們的迫切需要.從關(guān)于特定商品實體及其屬性的文本中挖掘并總結(jié)觀點形成摘要,能夠幫助消費(fèi)者做出購買決定,幫助商家更好地監(jiān)控市場聲譽(yù)、了解市場需求.文本摘要的任務(wù)就是生成一個有限長度的文摘,能夠幫助人們快速瀏覽和理解文檔內(nèi)容,自動摘要技術(shù)是提供這類服務(wù)的有效途徑.
自動文摘首次提出至今,在六十年來的研究與發(fā)展中誕生了許多摘要方法.總的來說,這些方法可分為抽取式和生成式兩大類[1].摘要任務(wù)在自然語言處理和信息檢索領(lǐng)域有著廣泛研究,以前大多關(guān)注從新聞文檔集合中直接抽取句子形成摘要.典型的多文檔摘要方法包括基于中心的方法、整數(shù)線性規(guī)劃、基于句子的LDA、子模函數(shù)最大化、基于圖的方法以及基于監(jiān)督學(xué)習(xí)的方法[2].
大文檔-摘要語料的開放為使用統(tǒng)計文本生成技術(shù)產(chǎn)生生成式摘要提供了可能.與所有抽取技術(shù)進(jìn)行對比,有專家提出支持生成式摘要的論據(jù),并進(jìn)一步研究了使用統(tǒng)計機(jī)器翻譯作為生成文本摘要技術(shù)的可能性[3].生成式摘要包含通過重寫給定文本內(nèi)容生成摘要的技術(shù),而不是簡單抽取重要句子.但多數(shù)生成式摘要技術(shù)仍然采用句子抽取作為任務(wù)的第一步.
相比生成式摘要技術(shù),文本摘要的抽取技術(shù)受到長期研究的重點關(guān)注.在過去幾十年中,特別是DUC和TAC會議出現(xiàn)之后,開發(fā)了大量的抽取式摘要技術(shù).
鑒于文檔摘要的重要意義與實用價值,吸引了大量研究人員致力于摘要技術(shù)研究.單文檔摘要基本上可以通過句子選擇來完成.被摘要的文檔被分解為句子集,接著摘要程序選擇句子子集作為摘要.作為在商業(yè)環(huán)境下提供更好信息訪問的關(guān)鍵技術(shù),單文本摘要受到了大量關(guān)注.財經(jīng)時代及CNN為吸引用戶在他們的網(wǎng)站上提供文章摘要,它已被Yahoo采用,在互聯(lián)網(wǎng)上提供自動文章摘要服務(wù).考慮到人工摘要的高成本,通過構(gòu)建能夠達(dá)到人類摘要質(zhì)量的自動摘要程序?qū)O大提升互聯(lián)網(wǎng)用戶對信息的訪問.McDonald(2007)指出,單文檔摘要可以形式化為著名的組合優(yōu)化問題,即背包問題.給定一組句子及其長度與價值,摘要程序?qū)⑺鼈冞x入摘要以使得總價值盡可能大但總長度小于等于給定的最大摘要長度.
為了模仿人工書寫的摘要,連貫性是一個重要方面.為獲得連貫摘要,Hitoshi等提出基于隱半馬爾科夫模型的摘要方法.它具有流行的單文檔摘要模型與隱馬爾科夫模型兩者的特性,隱馬爾科夫模型在選擇句子時通過決定句子上下文考慮摘要連貫性[4].
在單文檔摘要中產(chǎn)生連貫摘要有兩類方法:基于樹的方法[5]及基于序列的方法[6].前者依靠基于修辭結(jié)構(gòu)理論(RST)的文檔的樹表示,通過利用句子間的“中心-衛(wèi)星”關(guān)系修剪文檔樹表示.基于RST方法的優(yōu)點是能夠利用文檔的全局信息,缺點是過分依賴所有的分析樹.與利用文檔全局結(jié)構(gòu)相反,基于序列的方法依賴和使用句子的局部連貫性.對比基于樹的方法,基于序列的方法不需要類似RST分析器的工具,因此更加魯棒.
Shen等通過使用條件隨機(jī)場(CRF)擴(kuò)展基于HMM的方法獲得區(qū)分度[6].CRF能夠基于大量特征來識別句子重要性并展示其有效性.這類模型的缺點是只能把句子分為2類,不能直接考慮輸出長度.這一不足有很大問題,因為實際應(yīng)用中摘要長度是有限的.因此,摘要器應(yīng)該能夠控制輸出長度.相比于這些方法,本文采用一種混合神經(jīng)網(wǎng)絡(luò)的摘要方法,在對文檔進(jìn)行自動摘要時,自然地考慮了最大長度約束.
圖1 混合神經(jīng)網(wǎng)絡(luò)摘要模型
3.1 問題形式化
給定文檔D,包含句子序列{S1,…,Sn},選擇k(k 3.2 系統(tǒng)摘要模型 如圖1所示,摘要模型關(guān)鍵部分包括基于神經(jīng)網(wǎng)絡(luò)的文檔讀取器和基于關(guān)注的內(nèi)容抽取器.模型分層反映了文檔由詞、句、段組合而成的本質(zhì).所以采用反映相同結(jié)構(gòu)的表示框架,能夠發(fā)現(xiàn)全局信息,保持局部信息,可以產(chǎn)生最小信息損失并能靈活選擇較長上下文內(nèi)的重要句子,最終依據(jù)摘要長度限制產(chǎn)生摘要. 3.3 文檔讀取程序 每個句子被看作1個詞序列,讀取程序從句子中推導(dǎo)文檔的意義表示.先通過單層神經(jīng)卷積網(wǎng)絡(luò)(CNN)獲取句子的表示向量,然后使用標(biāo)準(zhǔn)并行神經(jīng)網(wǎng)絡(luò)(RNN)遞歸地組合句子生成文檔表示.在分層方式下,詞級別的CNN獲得句子表示,用作RNN的輸入以獲取文檔表示. 句子編碼程序采用卷積神經(jīng)網(wǎng)絡(luò)表示句子.因為,單層卷積神經(jīng)網(wǎng)絡(luò)可以有效訓(xùn)練并已成功用于句子分類任務(wù).設(shè)d表示詞向量的維數(shù),s是包含詞序列(w1,…,wm)的句子,可表示為一個列矩陣w∈Rmxd.使用W和K∈Rfxd之間的寬度為f的卷積如下: 其中,⊙表示Hadamard積(對應(yīng)元素相乘),b表示偏差表示第i個特征的第k個元素. 文檔編碼程序的任務(wù)是由RNN把句向量組合成文檔向量.RNN的隱狀態(tài)可看作部分列表表示,這些列表一起構(gòu)成了文檔表示.設(shè)文檔d={s1,…,sn},ht是t時刻的隱狀態(tài),按以下公式[7]調(diào)整: 其中,⊙表示對于元素相乘,Wi,Wf,bi,bf為語義組合的自適應(yīng)選擇與刪除的歷史向量和輸入向量.Wr∈Rlh×(lh+loc),br∈Rlh,lh和loc分別是隱向量和句子向量的維數(shù). 3.4 句子抽取程序 讀取句子后,由句子抽取程序應(yīng)用關(guān)注直接抽取句子.該抽取程序也是一個RNN,同時考慮句子的相關(guān)性及冗余性.設(shè)t時刻編碼程序的隱態(tài)為(h1,…,hm),抽取程序的隱態(tài)為(h1,…,hm),通過當(dāng)前譯碼狀態(tài)與對應(yīng)編碼狀態(tài)的關(guān)聯(lián),譯碼器關(guān)注第t個句子: 其中,MLP是一個多層神經(jīng)網(wǎng)絡(luò),以t時刻隱態(tài)與狀態(tài)的連接ht:ht為輸入.dt-1表示抽取程序認(rèn)為應(yīng)該抽取和存儲前一個句子的程度. 表1 DUC2005評測結(jié)果 表2 DUC2006評測結(jié)果 表3 以柬埔寨政治危機(jī)為主題的自動摘要實例 本文實驗選擇DUC的標(biāo)準(zhǔn)數(shù)據(jù)集和評測方法實施實驗,以評估本文在第3節(jié)和第4節(jié)介紹的方法.評估方法進(jìn)以DUC2005語料作為測試集,DUC2006語料作為開發(fā)集.DUC2005數(shù)據(jù)集包含約1300篇文檔. DUC2006數(shù)據(jù)集包含1250篇文檔. 首先對數(shù)據(jù)集進(jìn)行預(yù)處理,然后利用斯坦福大學(xué)自然語言處理研究小組開發(fā)的開源工具包CoreNLP對預(yù)處理后的文本進(jìn)行句子切分、詞性標(biāo)注、命名實體識別、依存分析,以及指代消解等處理,借助組合語義的思想利用詞向量表示句子向量. 同眾多主流方法一樣選擇LexRank[8]和Centroid[9]作為DUC2005的基準(zhǔn)系統(tǒng),選擇NIST-baseline作為DUC2006的基準(zhǔn)系統(tǒng).實驗結(jié)果如表1、2所示. 在與主流摘要方法的對比中,我們的方法也取得了不錯的成績.在DUC2005、DUC2006數(shù)據(jù)集的評測中,本文方法領(lǐng)先于基于相同數(shù)據(jù)集評測的基線方法.本文方法在整體表現(xiàn)上都很優(yōu)秀,這也充分說明了混合神經(jīng)思想在生成式摘要上的可行性. 由于抽取式方法易于機(jī)器實現(xiàn),所以在過去的研究中,主要摘要方法基本上都采用抽取式的思想.表3展示了一篇關(guān)于柬埔寨政治危機(jī)文章的自動抽取式摘要的實驗結(jié)果.表格第一欄是包含179個英文句子的短文片段,粗體字部分是自動抽取的摘要句.第二欄是人工編寫的參考摘要句.對比來看,自動抽取的摘要句基本上涵蓋了人工摘要句1)、3)、5)所要表達(dá)的含義,且與主題“柬埔寨政治危機(jī)”相吻合. 本文設(shè)計了反映文檔詞、句、段結(jié)構(gòu)本質(zhì)的表示框架,先通過單層神經(jīng)卷積網(wǎng)絡(luò)獲取句子的表示向量,然后使用標(biāo)準(zhǔn)并行神經(jīng)網(wǎng)絡(luò)遞歸地組合句子生成文檔表示.它能夠發(fā)現(xiàn)全局信息,保持局部信息,產(chǎn)生最小信息損失,并能靈活選擇較長上下文內(nèi)的重要句子生成摘要.實驗表明,本文方法效果較好. [1]Hahn U,Mani I.The challenges of automatic summarization[J]. Computer,2000,33(11):29-36. [2]Xiaojun Wan,Tianming Wang.Automatic Labeling of Topic Models Using Text Summaries[C]//Proceedings of the 54th Annual Meetingofthe Association for Computational Linguistics,2016:2297-2305. [3]Parth Mehta.From Extractive to Abstractive Summarization:A Journey[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics-Student Research Workshop,2016:100-106. [4]Hitoshi Nishik awa1,Kazuho Arita1,Katsumi Tanaka,et al. Learning to Generate Coherent Summary with Discriminative Hidden Semi-MarkovModel[C]//Proceedings ofCOLING 2014,the 25th International Conference on Computational Linguistics:Technical Papers,2014:1648-1659. [5]Hitoshi Nishikawa,Takaaki Hasegawa,Yoshihiro Matsuo,et al. Opinionsummarizationwithintegerlinearprogramming formulation for sentence extraction and ordering[C]//.International Conference on Coling,2010:910-918. [6]Dou Shen,Jian-Tao Sun,Hua Li,et al.Document summarization using conditional random fields[C]//.In Proceedings of the 20th international joint conference on Artifical intelligence(IJCAI),2007:2862-2867. [7]Duyu Tang,Bing Qin,Ting Liu.Document Modeling with Gated Recurrent Neural Network for Sentiment Classification[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:1422-1432. [8]Erkan G,Radev D R.LexRank:Graph-based lexical centrality as salience in text summarization[J].Journal of Artificial Intelligence Research,2004:457-479. [9]RadevDR,JingH,BudzikowskaM.Centroid-based summarizationofmultipledocuments:sentenceextraction,utility-based evaluation,and user studies[C]//Proceedings of ACL,2000:21-30. On Extractive Summarization Via Hybrid Neural Networks LIN Jing A document or a set of documents are easy for readers to read and understand fast by their summaries. But traditional extractive summarization relies heavily on human-engineered features.Hence in this work a summarization approach was proposed based on hybrid neural networks(FNN).Our model includes a neural network-based hierarchical document reader or encoder and an attention-based content extractor.The proposed approach can automatically generate summary by extracting salient sentences from documents.Experiments show that our model outperforms previous state-ofthe-art methods. text summarization;sentences extraction;hybrid neural networks TP391 A 1671-9743(2017)05-0071-04 2017-02-22 湖南省重點實驗室項目“武陵山區(qū)生態(tài)農(nóng)業(yè)農(nóng)情摘要關(guān)鍵技術(shù)研究”(No.ZNKZ2014-8). 林晶,1970年生,男,湖南邵陽人,副教授,研究方向:自然語言處理、大數(shù)據(jù)分析、信息安全.4 實驗結(jié)果及分析
5 結(jié)語
(School of Computer Science and Engineering,Huaihua University,Huaihua,Hunan 418008)