沈華東,彭敦陸
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
近年來(lái),隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展以及用戶規(guī)模的爆發(fā)式增長(zhǎng),互聯(lián)網(wǎng)已經(jīng)進(jìn)入了“大數(shù)據(jù)”的時(shí)代.在復(fù)雜多樣的各類信息數(shù)據(jù)組成形式中,文本作為當(dāng)下主流的數(shù)據(jù)存在形式,其數(shù)量呈指數(shù)級(jí)快速增長(zhǎng).如何從海量文本數(shù)據(jù)中獲取有用信息已經(jīng)成為文本信息抽取領(lǐng)域一個(gè)亟待解決的問(wèn)題.
文本摘要自動(dòng)抽取是文本信息抽取的主要任務(wù)之一,也是自然語(yǔ)言處理NLP(Nature Language Process)的領(lǐng)域的主要研究方向,它是指利用計(jì)算機(jī)自動(dòng)從文本中抽取重要信息,形成摘要的方式表達(dá)原文.理想的文本摘要能使用簡(jiǎn)潔連貫短語(yǔ),準(zhǔn)確全面地揭示某一文本的主要內(nèi)容.通過(guò)閱讀簡(jiǎn)短的文本摘要,能讓讀者較快地了解文本的主要內(nèi)容,幫助其快速判斷是否有進(jìn)一步閱讀原文本的需要,以此提高讀者的閱讀效率.
自動(dòng)生成文本摘要已經(jīng)得到國(guó)內(nèi)外學(xué)者的廣泛重視,并取得一定的研究成果.根據(jù)對(duì)信息的抽取方式的不同,可將文本自動(dòng)摘要抽取技術(shù)主要分為兩大類:抽取式文本摘要生成方式和理解式文本摘要生成方式[1].前者指統(tǒng)計(jì)文本中各個(gè)句子的權(quán)重,根據(jù)權(quán)值進(jìn)行排序選取重要的句子作為文本摘要;后者指根據(jù)文章的篇章結(jié)構(gòu)、句法形式和語(yǔ)法來(lái)進(jìn)行解析文本的中心內(nèi)容,再通過(guò)自然語(yǔ)言的方式生成文本摘要.可見(jiàn),相對(duì)理解式文本摘要生成方式而言,抽取式文本摘要生成方式是淺義上的方式,通常生成的文本文摘不夠精煉和連貫.盡管在英文文本中理解式文摘抽取方式得到的文本摘要比較精煉和連貫,但在中文上的還面臨種種問(wèn)題.所以,目前針對(duì)中文文本主要還是采用抽取式文本摘要生成方式.抽取式文本摘要的核心是找到合適的計(jì)算模型,對(duì)文本中的句子重要程度進(jìn)行合理評(píng)價(jià).
隨著人工智能技術(shù)快速發(fā)展,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)已廣泛應(yīng)用于自然語(yǔ)言處理相關(guān)應(yīng)用,如機(jī)器翻譯、問(wèn)答系統(tǒng)以及文本壓縮等都在不同程度上運(yùn)用了這些知識(shí).本文試圖將循環(huán)神經(jīng)網(wǎng)絡(luò)RNN與注意力模型AM(Attention Model)相結(jié)合,構(gòu)建基于深層學(xué)習(xí)模型的文本摘要生成計(jì)算模型——AM-BRNN,通過(guò)該模型可以較好地實(shí)現(xiàn)文本摘要自動(dòng)抽取.
針對(duì)文本摘要的自動(dòng)抽取,人們已開(kāi)展了大量研究,提出了各種文本摘要自動(dòng)抽取技術(shù)和方法.最早在文獻(xiàn)[2]中,Luhn提出特征詞的概念,并認(rèn)為當(dāng)內(nèi)容詞詞頻超過(guò)給定閾值時(shí)該詞就能代表文本主題,然后通過(guò)特征詞的詞頻和位置來(lái)計(jì)算句子的重要性.Edmundson 利用線索詞、標(biāo)題詞、句子位置等多個(gè)因素,進(jìn)行加權(quán)來(lái)計(jì)算句子權(quán)重,選文章最高前k個(gè)句子作為文本摘要[3].文獻(xiàn)[4]提出基于回歸模型的句子相似度計(jì)算,該方法側(cè)重于句子中詞語(yǔ)的前后位置關(guān)系影響,而忽視句子的位置、句子與標(biāo)題之間的關(guān)系以及句子中關(guān)鍵實(shí)體名詞等信息.在文獻(xiàn)[5]中,作者將文本以看成圖結(jié)構(gòu),將句子切分為多個(gè)節(jié)點(diǎn),句子與句子之間的相似度作為節(jié)點(diǎn)間的有向連接權(quán)重,再結(jié)合PageRank算法,提出TextRank算法來(lái)計(jì)算句子的重要程度[6].
另外,隨著機(jī)器學(xué)習(xí)、特別是神經(jīng)網(wǎng)絡(luò)模型的興起,利用神經(jīng)網(wǎng)絡(luò)進(jìn)行文摘抽取的方法也不斷涌現(xiàn).Kupiec在1995年提出一種通過(guò)樸素貝葉斯分類模型去判定文章句子是否應(yīng)該抽取為摘要的方法[7].之后,在1999年Lin等假設(shè)文本摘要特征是相互關(guān)聯(lián)的,放棄使用貝葉斯模型而選擇決策樹(shù)模型來(lái)對(duì)句子進(jìn)行打分,抽取得分高的句子作為摘要句子[8].文獻(xiàn)[9]中,作者基于線性回歸和ELM回歸(Extreme Learning Machine)有監(jiān)督的機(jī)器學(xué)習(xí)方法,通過(guò)計(jì)算句子熵、相關(guān)度以及特征詞等特征來(lái)抽取文本摘要.文獻(xiàn)[10]利用兩層網(wǎng)絡(luò)結(jié)構(gòu)、基于多層受限玻爾茲曼機(jī)RBM(restricted Boltzmann machine)的神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行文本摘要句子的選擇.利用多個(gè)RBM在AE(Auto-encoder)架構(gòu)構(gòu)建深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行文章主題相關(guān)句子排名,從而獲取文摘句子.文獻(xiàn)[11]中,先構(gòu)建句子的特征向量,再利用RBM網(wǎng)絡(luò)增強(qiáng)句子特征向量的每個(gè)維度值,以突出摘要特征句子.
本文將注意力模型AM與循環(huán)神經(jīng)網(wǎng)絡(luò)RNN相結(jié)合通過(guò)構(gòu)建深度學(xué)習(xí)模型AM-BRNN(Attention Model -Bidirectional Recurrent Neural Network)來(lái)抽取文本摘要.模型的計(jì)算思想如下:在將文本以句子為單位進(jìn)行切分之后,把句子之間的相似度、句子與中心句子相關(guān)程度、句子中含有特征詞的數(shù)量、句子在文本中的位置、關(guān)鍵連詞、句子的長(zhǎng)度和實(shí)體名詞等作為句子特征并對(duì)其數(shù)值化.然后以各個(gè)特征值作為維度,構(gòu)成句子特征向量.以該方向?yàn)檩斎?采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-directional RNN)對(duì)句子特征向量進(jìn)行編碼,再以單向循環(huán)神經(jīng)網(wǎng)絡(luò)RNN解碼中間語(yǔ)義向量,最后生成文本摘要.
論文余下部分的結(jié)構(gòu)如下:第3節(jié)給出句子特征向量計(jì)算模型;第4節(jié)構(gòu)建基于深度學(xué)習(xí)網(wǎng)絡(luò)模型的文本摘要抽取方法,提出AM-BRNN算法模型;第5節(jié)采用真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證所提算法的計(jì)算性能;第6節(jié)給出全文的結(jié)論.
句子向量化是處理文本數(shù)據(jù)的重要方法.獲得能代表文檔特征的高質(zhì)量詞向量對(duì)文本摘要句子的抽取有十分重大的影響.本節(jié)將論述如何構(gòu)建計(jì)算高質(zhì)量句子特征向量的模型.
在進(jìn)行文本摘要提取時(shí),通常需要對(duì)文本進(jìn)行一些必要的預(yù)處理.按在文中的功能,可將文本中的詞分兩類:功能詞和內(nèi)容詞.功能詞主要對(duì)文本內(nèi)容起修辭的作用,與文本主題關(guān)系不大;內(nèi)容詞則是文本的實(shí)詞,起著反映文本主題的作用.因此,要對(duì)文本進(jìn)行分詞處理,需要將文本中一些功能詞進(jìn)行過(guò)濾.功能詞包括一些高頻率、卻不反映文本主題的詞,如“的”“得”“了”等.過(guò)濾掉功能之后,對(duì)分詞后的文本將用以句子為單位的方式進(jìn)行合并.
算法:特征詞抽取算法
輸入:文本數(shù)據(jù)Text
輸出:特征詞特表FWT
圖1 文本特征詞抽取算法Fig.1 Algorithm of text feature′s Word
特征詞的選取通過(guò)TF-IDF(Term Frequency-Inverted Document Frequency)權(quán)值法的方式來(lái)尋找特征詞.具體的特征詞評(píng)估函數(shù)如下:
(1)
nsi是特征詞i在文檔中的個(gè)數(shù);SFi是出現(xiàn)特征詞i的句子數(shù);Ns是文檔的總句子數(shù).根據(jù)特征詞的權(quán)重進(jìn)行排序,選取前若干的特征詞作為該文檔的特征詞詞表FWT(Feature Word Table).在實(shí)際應(yīng)用中,根據(jù)實(shí)驗(yàn)效果進(jìn)行選擇詞表的閾值.
由于中文分詞的結(jié)果會(huì)存在語(yǔ)義上的差異,為了減少這種差異對(duì)特征詞抽取的影響,這里利用N-gram的思想對(duì)特征詞詞表進(jìn)行優(yōu)化[12].假設(shè)N=2,將特征詞表的詞兩兩組合構(gòu)成組合詞(wi,wj),計(jì)算組合詞s出現(xiàn)在文本中的頻數(shù).若組合詞頻數(shù)F(wi,wj)2=F(wi)F(wj),則將二者組合詞(wi,wj)作為新的特征詞加入到特征詞詞表WT中,同時(shí)去除原有的特征詞wi,wj,計(jì)算過(guò)程見(jiàn)圖1.
在采用深度學(xué)習(xí)的方式進(jìn)行文本摘要抽取時(shí),句子向量化是一個(gè)重要環(huán)節(jié).綜合文本句子摘要抽取的多種影響因素,本文選取影響效果最好的7種特征進(jìn)行向量化,以構(gòu)成句子特征向量.這7種特征如下:
3.2.1 句子間相似度
在TextRank算法中,認(rèn)為句子與句子都是相鄰的節(jié)點(diǎn),句子的相似度超過(guò)給定閾值時(shí),就認(rèn)為兩句子之間是相似的,用無(wú)向邊連接該兩個(gè)句子.跟句子連接的邊越多表明該句子的重要性就越高.這樣,本文認(rèn)為一個(gè)句子與其他句子的相似度越大,那么該句子對(duì)文本的重要程度也越大.
(2)
其中,Simij指句子i和j之間的相似度;d指句子i中詞的數(shù)量;F(wij) 指共生詞的詞頻;k和b是調(diào)節(jié)因子;IDF(wij) 指共生詞與文本間的相關(guān)程度.如果兩個(gè)句子不存在共生詞,則認(rèn)為二者的相似度為0.
(3)
3.2.2 句子與中心句子之間的相關(guān)程度
中心句子是包含文本信息最豐富的句子.在文本中,選擇包含最多特征詞的句子為中心句子.若文本中除中心句之外,一個(gè)句子與中心句的相似度越高則其包含文本信息也會(huì)更豐富,該句子被選取為摘要句子的概率也越高.即 Sen_Centroid_Simi=sim(seni,centroid).
3.2.3 句子中包含的特征詞數(shù)
含有一個(gè)或多個(gè)特征詞的句子對(duì)摘要抽取影響大.不含特征詞的句子,其特征權(quán)重為1;含有特征詞的句子,將其特征權(quán)重增加α1×Nf,即Sen_KeyWord=1+α1×Nf.Nf為特征詞個(gè)數(shù),一般α1取0.5.
3.2.4 句子的位置
根據(jù)RE.Baxendale的研究表明[13],人工摘要中選取文章段落首句作為摘要的概率為85%,選段尾句作為文章摘要的比例為7%[8].基于此結(jié)論,對(duì)于首段、尾端以及每段首段句子給予更大的特征權(quán)值提升.其中,首段句子中位置越靠前的句子權(quán)重越大,末段句子越靠后權(quán)值越大.因此,
(4)
m代表句子序號(hào);Fs代表首段包含句子數(shù);Es代表末段句子數(shù);Pm代表每段首句子序號(hào);Ns是文檔中的句子總數(shù);ε0、ε1、ε2為權(quán)值調(diào)節(jié)參數(shù).
3.2.5 句子關(guān)鍵連詞特征
根據(jù)修辭結(jié)構(gòu)理論RST,文本組織結(jié)構(gòu)存在著局部關(guān)聯(lián)關(guān)系,這種關(guān)聯(lián)關(guān)系可以將文本結(jié)構(gòu)分解成樹(shù)結(jié)構(gòu),樹(shù)的節(jié)點(diǎn)存在核與衛(wèi)的關(guān)系[14].核的節(jié)點(diǎn)承載著文本重要的信息,節(jié)點(diǎn)之間關(guān)系依賴于揭示的短語(yǔ).在中文文本中,連詞通常是揭示句子之間關(guān)系的重要因素.通過(guò)統(tǒng)計(jì)連詞在文本中出現(xiàn)的頻率以及連詞對(duì)應(yīng)反映句子間的關(guān)系來(lái)構(gòu)建連詞的詞典.由依據(jù)句子中的連詞,找到句子關(guān)系中的核,給予核句子更大權(quán)值.比如“總之”、“可知”、“一般可得”等,包含這類連詞的句子含有文本信息較多,該句子特征的權(quán)值應(yīng)加大.即Sen_Conj=1+α2,α2常取0.8.
算法:文本特征矩陣抽取算法
輸入:預(yù)處理后文本數(shù)據(jù)Text′
輸出:文本特征向量矩陣Text_Matrix
圖2 文本特征矩陣抽取算法Fig.2 Algorithm of text feature′s matrix
3.2.6 句子領(lǐng)域?qū)嶓w名詞
在實(shí)際應(yīng)用中,不同領(lǐng)域的文本信息往往生成各自獨(dú)特的格式和領(lǐng)域名詞.在進(jìn)行文本摘要抽取時(shí),復(fù)用文本的領(lǐng)域分類對(duì)提升摘要抽取質(zhì)量有顯著的影響效果.對(duì)已知分類文本抽取摘要時(shí),將統(tǒng)計(jì)相關(guān)領(lǐng)域名詞,對(duì)包含這些領(lǐng)域名詞的句子應(yīng)加大摘要抽取權(quán)重.這里,將句子中該特征權(quán)重增加α3×Ne,即Sen_Entity=1+α3×Ne,Ne為句子中包含實(shí)體名詞的數(shù)量,α3一般取0.3.
3.2.7 句子長(zhǎng)度
文本摘要候選句子的選取中應(yīng)該考慮句子長(zhǎng)度.一般地,句子如果太短,往往包含的文章特征太少,不具有選取的價(jià)值.根據(jù)中文的特點(diǎn),句子若長(zhǎng)度小于3字符就將其忽略,不作為文摘句子,設(shè)該特征權(quán)重值為1.超過(guò)3個(gè)詞的給予該句子特征權(quán)重為1+α4×(Nw-3),即Sen_Length=1+α4×(Nw-3),Nw為句子中詞的個(gè)數(shù),α4一般取0.1.
上述句子特征向量的每個(gè)維度計(jì)算完成后,文本由句子特征向量組成形成2維文本特征向量矩陣.文本由句子構(gòu)成即Text={s1,s2,…,sn},其中si={f1,f2,…,f7},fi表示每個(gè)維度的特征值.計(jì)算過(guò)程見(jiàn)圖2.
句子向量構(gòu)成文本矩陣,下面利用文本矩陣訓(xùn)練Encoder-Decoder框架下深度神經(jīng)網(wǎng)絡(luò)模型,學(xué)習(xí)抽取出高質(zhì)量的文本摘要.Encoder過(guò)程中除了考慮前面句子對(duì)當(dāng)前句子的影響之外,也要考慮后面句子對(duì)當(dāng)前句子的作用.結(jié)合前后句子的影響,故采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)BiRNN編碼生成中間語(yǔ)義向量.Decoder 過(guò)程采用常規(guī)循環(huán)神經(jīng)網(wǎng)絡(luò)RNN解碼生成文本摘要.
Encoder-Decoder框架是文本處理領(lǐng)域一種研究模式,其應(yīng)用場(chǎng)景十分廣闊,這里將其應(yīng)用于文本摘要抽取.給定一篇文本X,期待Encoder-Decoder框架來(lái)生成摘要句子Y.令文本X={x1,x2,…,xm},顧名思義Encoder就是對(duì)輸入X進(jìn)行編碼,將輸入X通過(guò)非線性變換轉(zhuǎn)換中間語(yǔ)義C,C=F(x1,x2,…,xm).對(duì)于解碼器Decoder來(lái)說(shuō),根據(jù)生成的中間語(yǔ)義表示C和歷史輸出y1,y2,…,yi-1只生成當(dāng)前輸出.yi表示如下:
yi=g(C,y1,y2,…,yi-1)
(5)
這里,在除采用Encoder-Decoder框架外,將Attention Model引入到該框架中,給出基于注意力模型的EDA(Encoder-Decoder based Attention)框架來(lái)抽取文本摘要.單純的Encoder-Decoder 框架在生成摘要句子時(shí)所使用的中間語(yǔ)義C是相同的,這就意味著輸入文本所有句子x1,x2,…,xm對(duì)摘要句子的抽取影響是相同的.實(shí)際上文本每個(gè)句子包含文本信息是不同的,對(duì)文摘句子選擇的影響力也是不同的,所以在Encoder-Decoder模型引入注意力模型AM抽取摘要句子.引入注意力模型后,中間語(yǔ)義C={c1,c2,…,cm}.
這樣,文本抽取的摘要句子可表示如下式子:
yi=g(ci,y1,y2,…,yi-1)
(6)
BiRNN(Bi-directional Recurrent Neural Network)提出每一個(gè)訓(xùn)練序列采用向前和向后向兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò),這兩個(gè)網(wǎng)絡(luò)計(jì)算方法相同,方向相反.在向前的循環(huán)神經(jīng)網(wǎng)絡(luò)中,每個(gè)句子向量的隱藏層狀態(tài)都包含了當(dāng)前句子與之前句子的文本信息;在反向的循環(huán)神經(jīng)網(wǎng)絡(luò)中,隱藏層則考慮了當(dāng)前句子與后續(xù)句子的文本信息.這就保證了BiRNN進(jìn)行編碼生成的中間語(yǔ)義時(shí)同時(shí)包含了過(guò)去與未來(lái)兩個(gè)時(shí)序上文本信息.其中,活躍單元采用LSTM(Long Short-Term Memory)方法,來(lái)解決長(zhǎng)序列訓(xùn)練時(shí)梯度消失的問(wèn)題.令文檔D=(s1,s2,…,sn),隱藏層ht在t時(shí)刻的權(quán)值采用下式更新:
(7)
(8)
ht=Ot⊙tanh(Ct)
(9)
在Encoder-Decoder框架中,AM模型考慮了在Decoder過(guò)程編碼時(shí),輸入文本信息對(duì)每個(gè)句子的解碼輸出的的不同影響.通常使用AM模型時(shí),是將輸入序列對(duì)每個(gè)輸出不同影響進(jìn)行加權(quán)作為中間變量.在計(jì)算下一個(gè)輸出時(shí),考慮中間變量和歷史輸出的共同作用.在本文提出的AM-BRNN模型中,直接利用注意力模型AM的中間變量選擇摘要句子.
圖3 AM-BRNN 框架Fig.3 AM-BRNN framework
(10)
(11)
MLP指Encoder中BiRNN前后兩個(gè)RNN隱藏層的狀態(tài)與Decoder中RNN隱藏層的狀態(tài)合并輸入的操作,pt-1指前一個(gè)句子被抽取為摘要的概率,當(dāng)為文本的首個(gè)句子時(shí)將其值設(shè)為1.
為了驗(yàn)證本文所提計(jì)算模型,我們?cè)诨ヂ?lián)網(wǎng)上下載各類新聞報(bào)道的文章共10000篇為實(shí)驗(yàn)數(shù)據(jù),并對(duì)收集到的文本進(jìn)行預(yù)處理方便后續(xù)計(jì)算.由于網(wǎng)絡(luò)下載資源的雜亂性,實(shí)際能抽取摘要的文檔為8160篇.
實(shí)驗(yàn)采用內(nèi)部自動(dòng)評(píng)測(cè)方法來(lái)評(píng)價(jià)摘要抽取模型性能.以Precision(精確率)、Recall(召回率)、F-Score為評(píng)價(jià)指標(biāo)以及Coverage(覆蓋率)對(duì)摘要抽取效果進(jìn)行測(cè)評(píng),它們的定義如下:
(12)
(13)
(14)
(15)
其中,Xm表示模型抽取的摘要句子;Yp表示人工摘要抽取句子;Cn表示滿足Xm∩Yp≥n的文檔數(shù)量;D是測(cè)試文檔集數(shù)量.
實(shí)驗(yàn)1.考察AM-BRNN模型的覆蓋率
文中提出的AM-BRNN模型可調(diào)節(jié)抽取摘要句子數(shù)量的閾值.實(shí)驗(yàn)中,可先假設(shè)模型抽取的前8個(gè)句子作為文本的摘要句子.人工方法抽取文本中4個(gè)中心句子作為摘要.分別對(duì)模型抽取句子包含人工抽取摘要句子的數(shù)目為至少1句、至少2句、至少3句以及包含全部人工句子4種情況進(jìn)行分析.
圖4 覆蓋比率Fig.4 Ratio of coverage
圖4是實(shí)驗(yàn)結(jié)果,橫軸是模型抽取摘要的句子數(shù)量,縱軸是對(duì)應(yīng)的覆蓋率.該圖顯示AM-BRNN模型抽取文摘句子數(shù)為1時(shí),其覆蓋率為0.45.若抽取句子擴(kuò)大為2時(shí),其覆蓋率增大為0.652.總體均勢(shì),隨著抽取句子數(shù)目不斷增大,其覆蓋率也不斷上升,在句子數(shù)到達(dá)11時(shí),人工全部被抽取.這表明,當(dāng)增加模型抽取句子數(shù)量的閾值時(shí),使用該模型能抽取出全部人工抽取的摘要句子.可得,AM-BRNN算法能夠抽取出質(zhì)量較高的摘要句子.另一方面,4種不同的情況下覆蓋率均隨著句子數(shù)目增加而穩(wěn)步上升,說(shuō)明AM-BRNN對(duì)于大規(guī)模復(fù)雜多樣的文本亦能抽取出較好的摘要句子,具有較好的穩(wěn)定性.
實(shí)驗(yàn)2.考察AM-BRNN模型的性能
圖5 AM-BRNN的平均準(zhǔn)確率和F-ScoreFig.5 Average precision、F-Score of AM-BRNN
實(shí)驗(yàn)選用10折交叉驗(yàn)證的方法進(jìn)行驗(yàn)證AM-BRNN模型的性能.將數(shù)據(jù)集的90%用于訓(xùn)練,10%用于測(cè)試.選擇Precision和F-Score作為測(cè)試指標(biāo).
圖5中橫軸K表示10份不同測(cè)試數(shù)據(jù)集,縱軸表示準(zhǔn)確率和F-Score的數(shù)值.從結(jié)果可知,AM-BRNN模型的準(zhǔn)確率在0.75左右,F-Score在0.78左右,已經(jīng)具有較好的摘要抽取結(jié)果.
實(shí)驗(yàn)3.AM-BRNN模型與其他模型性能對(duì)比
為了考察文中所提出的深層學(xué)習(xí)模型AM-BRNN的性能隨計(jì)算規(guī)模的變化情況,實(shí)驗(yàn)分別測(cè)試了數(shù)據(jù)集在500篇、1500篇、2500篇、3500篇、4500篇、5500篇、6500篇以及7500篇時(shí)模型的計(jì)算性能,并與TF-IDF、TextRank、ENEA進(jìn)行了比較.
圖6 平均準(zhǔn)確率對(duì)比Fig.6 Comparison of average precision
圖6、圖7給出了本組實(shí)驗(yàn)結(jié)果.在數(shù)據(jù)集較小時(shí),大約在3500篇以下,TF-IDF和TextRank模型的平均準(zhǔn)確率、平均F-Score均優(yōu)于ENEA和AM-BRNN.這是因?yàn)榛谏窠?jīng)網(wǎng)絡(luò)的ENEA模型和本文提出的AM-BRRN模型在數(shù)據(jù)集較小時(shí),模型中的神經(jīng)網(wǎng)絡(luò)權(quán)重未達(dá)到穩(wěn)定,模型性能未能達(dá)到最優(yōu).隨著數(shù)據(jù)集的增大,兩種神經(jīng)網(wǎng)絡(luò)模型性能不斷提升,兩項(xiàng)評(píng)價(jià)指標(biāo)均超越了TF-IDF和TextRank模型的對(duì)應(yīng)指標(biāo).
圖7 平均F-Score對(duì)比Fig.7 Comparison of average F-Score
另外,盡管ENEA模型與AM-BRNN都基于深度神經(jīng)網(wǎng)絡(luò)模型,由于詞向量表示和使用的神經(jīng)網(wǎng)絡(luò)模型不同,使得它們?cè)谛阅鼙憩F(xiàn)上也不相同.從圖6和圖7可以觀察出,AM-BRNN模型在不同的數(shù)據(jù)集中其平均準(zhǔn)確率和平均F-Score均高于ENEA模型.
互聯(lián)網(wǎng)提供海量信息的同時(shí),使得如何幫助用戶快速獲取有價(jià)值的信息成為一個(gè)亟待解決的問(wèn)題.有效地生成文本摘要,對(duì)實(shí)現(xiàn)用房所需信息的快速查詢有一定的現(xiàn)實(shí)應(yīng)用意義.本文結(jié)合注意力模型AM,對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行擴(kuò)展,構(gòu)建了適用于文本摘要自動(dòng)抽取的深度學(xué)習(xí)網(wǎng)絡(luò)模型——AM-BRNN.實(shí)驗(yàn)結(jié)果表明,AM-BRNN模型處理大規(guī)模文本數(shù)據(jù)集時(shí),具有較好的摘要抽取效果.下一步將研究如何精煉摘要抽取句子內(nèi)容,使摘要簡(jiǎn)潔和易于理解.
:
[1] Alecander M.Rush,Sumit Chopra,Jason Weston.A neural model for abstractive sentence summarization[C].Empirical Methods in Natural Language Processing,EMNLP,2015:379-389.
[2] Luhn H P.The automatic creation of literature abstracts[J]. IBM Journal of Research and Development,1958,2(2):159-165.
[3] Edmundson H P.New methods in automatic extracting[J].Journal of ACM ,1969,16(2): 264-285 .
[4] Zhang Qi,Huang Xuan-jing,Wu Li-de.A new method for calculating similarity between sentence and application in automatic text summarization[J].Journal of Chinese Information Processing,2005,19(2):93-99.
[5] Mihalcea R,Tarau E TextRank.Bringing order into texts[C].Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing,2004:404-4ll.
[6] Page L,Brin S,Motwani R,et al.The PageRank citation ranking:bringing order to the Web[R].Technical Report,Stanford Digital Libraries,1998.
[7] Kupiec J,Pedersen J,Chen F.A trainable document summarizer[C]. ACM SIGIR.New York,USA,1995:68-73.
[8] Lin C Y.Training a selection function for extraction[C]. The Eighth ACM Conference. On Information and Knowledge Management,Kansas, Missouri, USA, 1999: 55-62.
[9] Lou Wen-jun,Ma Hui-fang,He Qing,et al.Leveraging entropy and relevance for document summarization[J].Journal of Chinese Information Processing,2011,25(5):9-16.
[10] Mahmood,Yousefi-Azar,Len Hamey.Text summarization using unsupervised deep learning[C].Expert System with Application,2017,68:93-105.
[11] Shashi Pal Singh,Ajai Kumar,Abhilasha Mangal,Shikha Singhal.Billingual automatic text summarization using unsuper-vised deep learning[C].IEEE &Optimization Techiques,2016,10(1109):1195-1200.
[12] Grigori Sidorov,Francisco Velasquez,Efstathios Stamatatos,Alexander F.Gelbukh,Liliana Chanona-Hernández.Syntactic dependency-based N-grams as classification fetures[C].Advances in Computational Intelligence-11th Mexican International Conference on Artificial Intelligence,MICAI,2012,2:1-11.
[13] Baxendale P E.Machine-made index for technical literature-an experiment[J].IBM Joural of Research and Development,1958,2(4):354-361.
[14] Ahmed Ibrahim,Tarek Elghazaly.Improve the automatic summarization of arabic text depending on rhetorical structure theory[C].12th Mexican International Conference on Artificial Intelligence,MICAI,2013:223-227.
附中文參考文獻(xiàn):
[4] 張 奇,黃萱菁,吳立德.一種新的句子相似度度量及其在文本自動(dòng)摘要中的應(yīng)用[J].中文信息學(xué)報(bào),2005,19(2):93-99.
[9] 羅文娟,馬慧芳,何 清,等.權(quán)衡熵和相關(guān)度的自動(dòng)摘要術(shù)研究[J].中文信息學(xué)報(bào),2011,25(5):9-16.