江逸琪,趙彤洲,柴 悅,高佩東
武漢工程大學(xué)計算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430205
主題詞抽取廣泛應(yīng)用于新聞事件識別。在事件識別領(lǐng)域,將用于表征事件內(nèi)容的要素稱為事件主題詞。新聞主題詞是由單個字或多個字組成的詞,是指能反映新聞主題的概括性詞語,時間、地點、人物和事件描述是用于表征新聞事件的四個要素[1]。對于體育新聞,除了具有新聞的一般性之外,還具有其領(lǐng)域的特殊性,人們重點關(guān)注的是時間、地點、人物、涉及的國家和體育項目,文中將這些要素統(tǒng)稱為主題詞。用戶憑借主題詞,可從大量的新聞中快速地獲得有用的信息。
進(jìn)入大數(shù)據(jù)時代,主題詞抽取技術(shù)在新聞檢索、新聞文本聚類、分類等自然語言處理(natural language processing,NLP)任務(wù)中發(fā)揮著重要作用。例如,在新聞事件識別中,通過主題詞標(biāo)識及分類,可迅速為新聞定性;在新聞主題聚類時,可以以主題詞為依據(jù),將主題詞相似的多篇新聞文本看成一個簇,這樣可以大大提高K-Means 聚類的效果。
針對新聞主題詞抽取任務(wù),傳統(tǒng)方法主要有基于統(tǒng)計的方法和基于機(jī)器學(xué)習(xí)的方法。
詞頻-逆文檔頻率方法是典型的統(tǒng)計抽取方法,這類方法以詞頻及逆文檔頻率作為指標(biāo)選取前k 個詞為主題詞[2]。這種無監(jiān)督的方法無需人工標(biāo)注訓(xùn)練集,簡單快捷,但是無法有效地利用句子的語法、語義特征。
最大熵模型、支持向量機(jī)模型以及貝葉斯模型是基于機(jī)器學(xué)習(xí)的方法。這種有監(jiān)督的方法,需要在大量人工標(biāo)注的樣本上進(jìn)行主題詞抽取,將主題詞抽取問題轉(zhuǎn)化為判斷每個候選詞是否為主題詞的二分類問題[3]。機(jī)器學(xué)習(xí)的方法對每個候選詞單獨判斷其是否為主題詞,失去了文本本身的情感信息和句子結(jié)構(gòu)的有效信息,導(dǎo)致模型的識別效果較差。
針對上述問題,研究者將主題詞抽取問題轉(zhuǎn)變?yōu)樾蛄袠?biāo)注問題,如隱馬爾科夫模型、最大熵馬爾科夫和條件隨機(jī)場。這種方法結(jié)合人工設(shè)計的特征,目前在NLP 中有廣泛的應(yīng)用,如分詞、詞性標(biāo)注等[4-6]。但是,這種基于機(jī)器學(xué)習(xí)的序列標(biāo)注模型,在人工設(shè)計特征時需要反復(fù)嘗試,耗時耗力。
近年來,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)已被有效用于各類NLP 問題,包括語言模型[7-8]和語音識別[9]。RNN 可記憶歷史信息,在解決長序列依賴任務(wù)時效果顯著,圖1 是RNN結(jié)構(gòu)圖[10]。
圖1 中,xt表示t 時刻輸入層的特征可以是表示詞或字特征的one-hot 向量,也可以是密集的矢量特征。ht為t時刻的隱藏狀態(tài),由當(dāng)前時刻的輸入和上一隱藏狀態(tài)決定,因此,隱藏層可以用來存儲歷史信息。yt表示輸出層在每個時刻的輸出。隱藏單元ht和輸出單元yt的計算如式(1)、式(2)所示。
圖1 RNN 結(jié)構(gòu)圖Fig.1 Structure diagram of RNN
式(1)~(2)中,U,W,V 是連接權(quán)重,它們在訓(xùn)練時計算得出。f(z),g(z)分別為如式(3)、式(4)所示的sigmoid、softmax 激活函數(shù)。
長短期記憶網(wǎng)絡(luò)(long short-term memory network,LSTM)作為RNN 的代表,被廣泛應(yīng)用于各種NLP 任務(wù)中。LSTM 模型在處理如情感分析[11]、詞性標(biāo)注[12]、命名實體識別[13-14]、關(guān)鍵詞識別[15]等問題時非常有效。但是,LSTM 模型進(jìn)行新聞主題詞識別時每個字是相互獨立的,最終得到的是每個字的最優(yōu)預(yù)測,如果字與字之間存在較強(qiáng)的依賴關(guān)系(例如,以“B-”“I-”分別表示主題詞的首字和非首字,主題詞的第一字的標(biāo)簽應(yīng)以“B-”開頭,而非“I-”;預(yù)測標(biāo)簽“B-label1 I-label2”則無效),LSTM 模型無法對這些約束進(jìn)行建模,預(yù)測性能將受到限制。
為了解決傳統(tǒng)機(jī)器學(xué)習(xí)需要反復(fù)構(gòu)建特征工程和LSTM 模型無法得到全局最優(yōu)解的問題,本文在處理體育新聞主題詞抽取的問題上提出雙向長短期記憶網(wǎng)絡(luò)聯(lián)合條件隨機(jī)場(bidirectional long short-term memory network conditional random field,BiLSTM-CRF)模型,雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory network,BiLSTM)對長期的信息進(jìn)行記憶并將其應(yīng)用到當(dāng)前的輸出中,條件隨機(jī)場(conditional random field,CRF)自動從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)字與字之間的約束,計算聯(lián)合概率來尋找最優(yōu)解,優(yōu)化整個句子序列以確保最終預(yù)測結(jié)果有效,最終實現(xiàn)主題詞抽取。
體育類新聞的主題詞抽取,不僅具有其領(lǐng)域的特殊性,還存在網(wǎng)絡(luò)新聞的冗余現(xiàn)象,直接在新聞文本上抽取的主題詞不具有代表性,并且體育新聞的人名識別面臨著人名長度不等、中英文名字用字多變的挑戰(zhàn);體育項目、新聞地點、國家名稱的構(gòu)成復(fù)雜,存在簡稱和全稱的多種表示。本文提出的體育新聞主題詞抽取框架如圖2 所示。
圖2 主題詞抽取框架Fig.2 Framework of topic word extraction
具體過程為:
第一步,使用Python3.5 中的Request 和BeautifulSoup 庫從新聞網(wǎng)站獲取真實新聞文本,清洗數(shù)據(jù)后得到新聞?wù)暮托侣剺?biāo)題。
第二步,對新聞?wù)牟捎肨extRank 算法提取主題句。
第三步,以新聞標(biāo)題和主題句為對象進(jìn)行新聞主題詞抽取。
新聞標(biāo)題能反映新聞的主要內(nèi)容,但標(biāo)題文字較少,僅僅依靠標(biāo)題進(jìn)行抽取對主題詞抽取的準(zhǔn)確率、覆蓋程度有一定影響。而新聞?wù)氖菍κ录暾拿枋?,因此,在進(jìn)行主題句抽取時,考慮新聞?wù)氖菍H考慮新聞標(biāo)題抽取方法的補(bǔ)充,該方法對主題詞的準(zhǔn)確率和覆蓋程度都有一定程度的提升。首先采用TextRank 算法對新聞?wù)倪M(jìn)行主題句自動提取,在主題句的基礎(chǔ)上再抽取主題詞,這種方法避免了僅僅依賴新聞標(biāo)題進(jìn)行主題抽取導(dǎo)致的關(guān)鍵信息遺漏或覆蓋不全的問題。TextRank 算法擬定一個權(quán)重的評分標(biāo)準(zhǔn),給新聞?wù)牡拿總€句子進(jìn)行打分,之后選取排名靠前的k 個句子作為結(jié)果。TextRank 算法將文本中句子作為節(jié)點,組成帶權(quán)重的有向圖模型G=(V,E)(V 為節(jié)點集合,即句子構(gòu)成的節(jié)點集合,E 為邊集合),用來表示句子間的關(guān)系,并經(jīng)過圖的迭代計算實現(xiàn)句子權(quán)重的排序。句子Vi權(quán)重計算如式(5)所示。
式(5)中,ω(Vi)表示句子i 的權(quán)重。d 為阻尼系數(shù),取值范圍在0 到1 之間,表示圖模型中某節(jié)點指向下一節(jié)點的概率。In(Vi)和Out(Vi)分別為指向句子Vi的句子集合和句子Vi指向的句子集合。wjk表示句Vj和句子Vk之間的權(quán)重,wji表示句子Vi和Vj之間的權(quán)重,用句子Vi和Vj的相似度表示,計算方法如式(6)所示。
式(6)中,Si和Sj為句子Vi和Vj在去除停用詞后的詞集合,tk表示兩個句子的共現(xiàn)詞。
以主題句和新聞標(biāo)題為對象,使用基于字的BiLSTM 模型將主題詞抽取問題轉(zhuǎn)化為序列標(biāo)注問題。本文采用BIO 標(biāo)準(zhǔn)標(biāo)注,即B-PER、I-PER代表體育新聞中人名首字、人名非首字,B-LOC、I-LOC 代表體育新聞中出現(xiàn)的國家和地名的首字、地名非首字,B-SPO、I-SPO 代表體育項目名首字、體育項目名非首字,O 代表該字不屬于主題詞的部分。例如句子“中/國/馬/龍/奪/冠/。”中每個字的標(biāo)注為“B-LOC/I-LOC/B-PER/I-PER/O/O/O”。
為獲取上下文語義信息,本文用LSTM 進(jìn)行序列標(biāo)記。LSTM 與RNN 相同,只是隱藏層更新被專用內(nèi)存單元替換,增加了輸入門、遺忘門和輸出門。因此,相比于RNN,LSTM 更善于發(fā)現(xiàn)和利用數(shù)據(jù)中的長期依賴性,如圖3 所示。
圖3 單個LSTM 單元Fig.3 A LSTM cell
圖3 中,xt為當(dāng)前時間步的輸入,ht為當(dāng)前時間步的隱藏狀態(tài),LSTM 單元的計算如式(7)~(11)所示。
式(7)~(11)中,σ 為sigmoid 激活函數(shù),it,ft,ot,ct,ht分別為輸入門、遺忘門、輸出門、單元向量和隱藏向量,它們的維度大小相同,bi,bf,bc,bo均為偏置向量,權(quán)重矩陣W 分別表示與下標(biāo)相對應(yīng)單元之間的連接權(quán)重矩陣。
序列標(biāo)注時,利用BiLSTM 模型獲得過去和未來的輸入特征。BiLSTM 利用前向狀態(tài)獲取過去的特征,后向狀態(tài)獲取未來的特征來預(yù)測當(dāng)前標(biāo)簽。BiLSTM 提取主題詞的模型如圖4所示。
圖4 BiLSTM 網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of BiLSTM
模型的第一層為look-up 層,利用隨機(jī)初始化的嵌入矩陣將句子中每個字的one-hot 向量映射為含有嵌入特征的低維稠密的字向量xi(m 維)。
模型的第二層為BiLSTM 層,將字向量作為每個時刻的輸入,前向隱藏狀態(tài)ht和后向隱藏狀態(tài)進(jìn)行拼接得到該時刻完整的隱藏狀態(tài)(m 維)。利用一個線性層將隱藏向量從m 維映射為k 維(k 是標(biāo)注的標(biāo)簽數(shù))得到pi,pi中的每一維pij為字xi到標(biāo)簽j的打分值。
模型的第三層為Softmax 層,對各個位置進(jìn)行分類,得到最后的結(jié)果。
BiLSTM 模型Softmax 層是對單個字進(jìn)行獨立分類,舍去了整個句子的特征,不利于主題詞抽取。因此,在BiLSTM 模型后接入CRF 層進(jìn)行句子級的標(biāo)注,圖5給出了基于字的BiLSTM-CRF模型。
圖5 BiLSTM-CRF 網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Network structure of BiLSTM-CRF
基于字的BiLSTM-CRF 模型與基于字的BiLSTM 模型前兩層相同,第三層為CRF 層,該層具有一個狀態(tài)轉(zhuǎn)移矩陣的參數(shù)。通過這一層,模型可以有效地利用過去的標(biāo)簽和未來的標(biāo)簽來預(yù)測當(dāng)前的標(biāo)簽。用式(12)來計算句子α 的標(biāo)簽等于y 的分?jǐn)?shù)。
式(12)中,A 是一個加了初始狀態(tài)和終止?fàn)顟B(tài)的(k+2)×(k+2)矩陣,Aij表示從第i 個標(biāo)簽到第j 個標(biāo)簽的轉(zhuǎn)移分?jǐn)?shù)。可以看出完整序列的分值即所有位置的分值和,而每一個位置的分?jǐn)?shù)由兩部分得到,一部分是BiLSTM 輸出的pi,另一部分由CRF的轉(zhuǎn)移矩陣A 決定。
模型最后采用式(13)所示的Viterbi 算法求解最優(yōu)解。
數(shù)據(jù)來自騰訊、環(huán)球和新浪主流新聞網(wǎng)站的1 800 余篇文章、約6 MB 體育新聞報道,新聞標(biāo)題字?jǐn)?shù)約為20~40 個,正文長度不等。經(jīng)過數(shù)據(jù)清洗后建立了體育新聞數(shù)據(jù)庫,數(shù)據(jù)集基本信息如表1所示。
表1 數(shù)據(jù)集信息統(tǒng)計表Tab.1 Statistic information table of datasets
一般新聞文本篇幅過長,內(nèi)容復(fù)雜,不利于主題詞的抽取。因此,實驗先利用TextRank 算法進(jìn)行主題句提取,提取新聞?wù)闹? 個權(quán)重最大的句子作為新聞主題句,主題句標(biāo)題的信息如表2 所示。將主題句和標(biāo)題組成的文本作為模型的輸入對象,進(jìn)行主題詞的抽取。
經(jīng)過上述信息處理后,最后得到來自不同新聞網(wǎng)站的3 個標(biāo)注數(shù)據(jù)集,實驗采用BiLSTM-CRF模型進(jìn)行新聞主題詞抽取,并采用BiLSTM 模型作為對照。
采用準(zhǔn)確率P(precision)、召回率R(recall)、F1值作為新聞主題詞抽取的評價指標(biāo),計算方法如式(14)~(16)。
表2 主題句+標(biāo)題信息統(tǒng)計表Tab.2 Statistic information table of topic sentences and titles
式(14)~(16)中,Strue是準(zhǔn)確抽取的標(biāo)簽數(shù)目,Spredicted是模型預(yù)測的所有標(biāo)簽數(shù)目,Sactual是數(shù)據(jù)集中總的標(biāo)簽數(shù)目。
結(jié)合新聞文稿的寫作規(guī)律,本文對經(jīng)TextRank 提取的主題句進(jìn)行了主題詞的抽取,重點關(guān)注體育項目、人名、國家以及地名。對主題詞類別做如下約定:體育項目標(biāo)記為“SPO”,人名標(biāo)記為“PER”,地名和國家統(tǒng)一標(biāo)記為“LOC”,“B-”“I-”分別表示標(biāo)簽的首位和非首位,例如體育新聞文本中“在雅加達(dá)剛剛結(jié)束的田徑女子100 m 的決賽中,巴林選手奪冠,印度選手摘銀,中國選手韋永麗獲得第3 名?!敝黝}詞:雅加達(dá)、田徑、巴林、印度、中國、韋永麗。具體標(biāo)簽信息如表3 所示。
表3 實例標(biāo)簽信息Tab.3 Label information of examples
為了測試本文提出方法對體育新聞中主題詞的抽取效果,對數(shù)據(jù)集分別使用BiLSTM-CRF 模型和BiLSTM 模型進(jìn)行實驗,采用了準(zhǔn)確率(P)、召回率(R)、F1值進(jìn)行評價,實驗結(jié)果如表4 所示。
由表4 結(jié)果可見,對于新聞主題詞抽取,不同數(shù)據(jù)集上BiLSTM-CRF 模型顯然在準(zhǔn)確率、召回率和F1值均優(yōu)于BiLSTM 模型,從實驗數(shù)據(jù)上來看,在環(huán)球體育數(shù)據(jù)集上,BiLSTM-CRF 在三項抽取任務(wù)上準(zhǔn)確率P、召回率R 和F1值優(yōu)于BiLSTM 的比例較平均;在新浪體育數(shù)據(jù)集上,BiLSTM-CRF 在地名(LOC)的識別任務(wù)中比BiLSTM 高4.2%,能夠識別出更加復(fù)雜的地名;在較大的騰訊數(shù)據(jù)集上,尤其在人名(PER)的識別任務(wù)中,BiLSTM-CRF 的F1值比BiLSTM 高5.1%,從測試數(shù)據(jù)的對比結(jié)果來看,BiLSTM-CRF 能夠識別BiLSTM 得不到的標(biāo)簽,如比較復(fù)雜的外國人名“科伊”。
在訓(xùn)練數(shù)據(jù)集相同的情況下,BiLSTM-CRF 模型一個epoch需要36.5 s,而BiLSTM模型需要35.1 s,兩種模型的訓(xùn)練總時長分別為91.25 min(36.5 s×150 epochs)和87.75 min(35.1 s×150 epochs),相差不大。由圖6 可知兩種模型對于不同字?jǐn)?shù)文檔的主題詞抽取時長的差異較大,在新聞文檔字?jǐn)?shù)較長(字?jǐn)?shù)≥200)時兩種模型的差異不大,但對于短篇新聞文檔(字?jǐn)?shù)<200)BiLSTM-CRF 模型明顯小于BiLSTM 模型。
表4 主題詞抽取結(jié)果Tab.4 Results of topic word extraction %
圖6 主題詞抽取效率Fig.6 Efficiency of topic word extraction
本文采用聯(lián)合TextRank 的BiLSTM-CRF 方法實現(xiàn)了體育新聞主題詞的抽取,在提取的不同體育新聞數(shù)據(jù)集上均取得較好的識別效果,證明了該方法的魯棒性。本方法由于考慮了新聞?wù)男畔ⅲ壤肨extRank 方法提取新聞主題句,相較于僅從新聞標(biāo)題分析在數(shù)據(jù)源上有更高的覆蓋率;在算法方面,由于用CRF 在句子級上考慮了上下文語義信息去除了更多錯誤分類,提升了識別的準(zhǔn)確率并對算法效率有一定提升。
但是體育新聞主題詞抽取任務(wù)仍然存在挑戰(zhàn)。由于中文姓名用字和英文人名用詞比較靈活且中文人名和英文人名長度不一,在脫離上下文語境的情況下無法判斷是否是人名,基于深度學(xué)習(xí)的方法對抽取學(xué)習(xí)的特征干擾比較大,因此,目前的方法在人名的抽取上還有提升空間。下一步,將重點解決人名和地名的抽取問題,可以通過對人名特征的分析,加入人名特征模板等方法進(jìn)行改進(jìn);對于地名,可以考慮與地理信息數(shù)據(jù)集中的地名詞庫預(yù)先匹配,過濾出地名后再用模型識別,以提高新地名的識別效果。通過一定的預(yù)處理手段并結(jié)合模型改進(jìn)策略,可進(jìn)一步提升新聞主題詞的自動抽取性能。