• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多模型的新聞標(biāo)題分類

      2018-11-16 08:00:16董孝政朱芬紅朱巧明
      中文信息學(xué)報(bào) 2018年10期
      關(guān)鍵詞:類別分類器語義

      董孝政,宋 睿,洪 宇,朱芬紅,朱巧明

      (蘇州大學(xué) 江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)

      0 引言

      新聞標(biāo)題領(lǐng)域分類(簡(jiǎn)稱標(biāo)題分類)的任務(wù)是依據(jù)標(biāo)題語義對(duì)其所屬領(lǐng)域進(jìn)行判定,從而實(shí)現(xiàn)不同領(lǐng)域的標(biāo)題歸類。比如,標(biāo)題“英國(guó)脫歐再現(xiàn)僵局”可歸結(jié)為時(shí)政類領(lǐng)域。高效的標(biāo)題分類對(duì)全文領(lǐng)域劃分有著直接的促進(jìn)作用,并因處理對(duì)象短而精,極大節(jié)省計(jì)算開銷。因此,標(biāo)題分類在基于領(lǐng)域特性的自然語言處理和計(jì)算語言學(xué)領(lǐng)域都有著重要的應(yīng)用價(jià)值,比如垂直搜索、領(lǐng)域機(jī)器翻譯[1]和輿情分析等。

      標(biāo)題的主要特點(diǎn)是利用盡量精煉的語言概括豐富的信息。根據(jù)NLPCC2017共享任務(wù)中新聞標(biāo)題分類的語料[注]http://tcci.ccf.org.cn/conference/2017/taskdata.php的統(tǒng)計(jì),95%的標(biāo)題長(zhǎng)度不超過20個(gè)漢字。因此,現(xiàn)有研究將標(biāo)題分類歸結(jié)為短文本分類問題。傳統(tǒng)的短文本分類方法集中于分類規(guī)則和機(jī)器學(xué)習(xí)兩個(gè)方面。

      (1) 基于規(guī)則的方法源于專家知識(shí)的應(yīng)用,依賴數(shù)據(jù)觀測(cè)制定剛性的規(guī)則對(duì)標(biāo)題類別進(jìn)行界定,比如,如果標(biāo)題中出現(xiàn)武器裝備的術(shù)語或稱謂,則判定其歸屬軍事類領(lǐng)域?;谝?guī)則的方法往往處理速度快、精度高,但受限于觀測(cè)數(shù)據(jù)的“小樣本”現(xiàn)象,具有較低的泛化能力,在大規(guī)模數(shù)據(jù)處理時(shí),往往暴露出較低的魯棒性。

      (2) 基于機(jī)器學(xué)習(xí)的短文本分類技術(shù)[2]則更為側(cè)重分類模型的泛化能力,借助對(duì)標(biāo)注樣本的監(jiān)督學(xué)習(xí),優(yōu)化分類核函數(shù)的目標(biāo)并降低其誤判損失,從而獲得預(yù)定義特征集合上的判別模型。其泛化能力更強(qiáng),可借助對(duì)訓(xùn)練樣本類別特征的學(xué)習(xí),對(duì)具有同類特征(同質(zhì)異構(gòu))的測(cè)試樣本進(jìn)行判別。盡管如此,這類方法也繼承了傳統(tǒng)機(jī)器學(xué)習(xí)策略的不足,包括特征工程的手工化、學(xué)習(xí)過程的過擬合、訓(xùn)練數(shù)據(jù)的規(guī)模限制與類型分布失衡導(dǎo)致的偏差等。

      目前,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)已經(jīng)獲得重要突破,并在自然語言處理領(lǐng)域的諸多任務(wù)中取得良好成績(jī)。這類技術(shù)在特征工程的去手工化、語義級(jí)特征學(xué)習(xí)與抽象、學(xué)習(xí)機(jī)制的抗數(shù)據(jù)及分布干擾方面,都具有潛在的優(yōu)勢(shì)。本文嘗試將深度學(xué)習(xí)納入短文本分類架構(gòu),應(yīng)用于標(biāo)題分類問題的求解過程,并結(jié)合標(biāo)題成詞造句的獨(dú)特語言現(xiàn)象,驗(yàn)證各類技術(shù)的適應(yīng)性和分析存在的缺陷。技術(shù)上,本文分別實(shí)現(xiàn)并應(yīng)用了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN[3])、LSTM[4]和GRU[5]模型,以及結(jié)合了注意力機(jī)制的LSTM模型[6],并借助這類模型對(duì)新聞標(biāo)題中詞向量(Embedding)形成多層語義感知。

      實(shí)驗(yàn)中,基于CNN模型的標(biāo)題分類評(píng)測(cè),側(cè)重檢驗(yàn)不同局部語義特征及其聯(lián)合的上層抽象對(duì)標(biāo)題分類的貢獻(xiàn),這一實(shí)驗(yàn)的動(dòng)機(jī)來源于如下發(fā)現(xiàn): 某些新聞標(biāo)題中的詞(或短語)呈現(xiàn)弱相關(guān)的特點(diǎn),造句模式存在人為牽強(qiáng)的“拼湊”,比如,“新一代手機(jī)比紙薄能彎曲可卷折”。這類實(shí)例中,字、詞或短語的獨(dú)立含義對(duì)于類型判別有著更為直接的作用;相比而言,LSTM及其變形GRU更善于將詞義及其相互關(guān)系進(jìn)行建模,通過序列化的加權(quán)與融合形成統(tǒng)一的句子語義表示,與CNN模型在理論層面存在一定差異。比如,“茅房困境: 買房不如買茅臺(tái)”中,句子整體的語義有助于“茅房”(“茅臺(tái)”與“房產(chǎn)”造作的合并)的詞義理解,進(jìn)而對(duì)全句的含義給予詮釋,有助于這類實(shí)例的正確分類。因此,LSTM和GRU也作為本文重要的檢驗(yàn)對(duì)象。此外,本文實(shí)驗(yàn)部分也檢驗(yàn)了基于LSTM的注意力機(jī)制,意在評(píng)價(jià)詞項(xiàng)的重要性對(duì)于全句分類的影響。

      此外,本文建立了兩套標(biāo)題分類系統(tǒng),一套為單模型多元分類系統(tǒng),旨在利用一套深度學(xué)習(xí)模型解決多種領(lǐng)域的劃分問題,另一套為多模型二元分類及投票系統(tǒng),該系統(tǒng)聯(lián)合使用CNN、LSTM和GRU三種模型對(duì)每一個(gè)標(biāo)題樣本進(jìn)行單類型(是或非)的二元分類,對(duì)于不同模型在標(biāo)題類型上具有不同判定的情況,將根據(jù)投票規(guī)則進(jìn)行總體判斷,包括“少數(shù)服從多數(shù)”和“確定性最高”兩種原則。實(shí)驗(yàn)證明,簡(jiǎn)單的投票方式,可以將原有標(biāo)題分類性能提高約1個(gè)百分點(diǎn),且發(fā)現(xiàn)在實(shí)際測(cè)試中,某些標(biāo)題樣本無法被多種學(xué)習(xí)模型劃分為任何一種類型,從而驗(yàn)證這類樣本在多元分類系統(tǒng)強(qiáng)制的類型指派過程中,絕大部分難以避免誤判。實(shí)驗(yàn)對(duì)這類標(biāo)題樣本進(jìn)行了深入分析,并給出其主要特性。

      總體,本文主要貢獻(xiàn)如下: ①檢驗(yàn)了不同深度學(xué)習(xí)方法在標(biāo)題分類中的性能;②提出并使用了多模型二元分類方法;③檢驗(yàn)并分析了現(xiàn)有CNN、LSTM和GRU等模型對(duì)標(biāo)題分類樣本的適應(yīng)性,并給出這類方法漏檢的標(biāo)題樣本的特性。

      本文組織如下,第1節(jié)簡(jiǎn)要介紹相關(guān)工作;第2節(jié)陳述標(biāo)題分類的任務(wù)體系及數(shù)據(jù)資源;第3節(jié)介紹多模型二元分類系統(tǒng)架構(gòu),其中包括投票規(guī)則與實(shí)施方法;第4節(jié)還將給出CNN、LSTM及GRU的具體配置方法;第5節(jié)介紹實(shí)驗(yàn)架構(gòu)及結(jié)果分析,其中包括漏檢標(biāo)題樣本的特性分析,以及各類模型的適應(yīng)性分析;第6節(jié)為總結(jié)全文及對(duì)未來工作的展望。

      1 相關(guān)工作

      傳統(tǒng)短文本分類的方法主要涉及三方面工作: 特征工程,特征選擇和機(jī)器學(xué)習(xí)算法。在特征工程方面,最常用的特征是詞袋模型(bag of word,BOW),而其他復(fù)雜特征包括詞性標(biāo)簽、名詞短語、樹核等。Post等[7]將樹核與不同任務(wù)的不同顯示的樹特征集合進(jìn)行文本分類比較。特征選擇即為刪除“噪聲”特征,提高分類的準(zhǔn)確率,最常用的特征提取方法是移除文本中的停用詞。相對(duì)而言,現(xiàn)有方法通過使用額外的知識(shí)進(jìn)行知識(shí)擴(kuò)展,彌補(bǔ)短文本特征少而又稀疏的缺點(diǎn)。Hu等[8]通過利用內(nèi)部和外部語義來提高短文本的性能。Banerjee等[9]使用了維基百科數(shù)據(jù)擴(kuò)充文本。機(jī)器學(xué)習(xí)算法則采用了邏輯回歸(LR)、樸素貝葉斯(NB)和支持向量機(jī)(SVM)等分類模型。然而,這些方法均有特征稀疏的缺點(diǎn),并且往往依賴于特定的場(chǎng)景和資源,難以進(jìn)行推廣。

      最近,深度神經(jīng)網(wǎng)絡(luò)[10]和表示學(xué)習(xí)[11]在解決數(shù)據(jù)稀疏的問題上提供了新的思路,也提出了詞表征的神經(jīng)模型。Collobert等[12]將卷積神經(jīng)網(wǎng)絡(luò)引入到了自然語言處理中的許多任務(wù),并證明其提出的模型在各項(xiàng)任務(wù)中都獲得了很好的表現(xiàn)。Kim[13]通過將單詞向量與卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)合,在短文本情感分類中取得良好效果。Santos等[14]將英文短文本的字符序列作為處理單元,分別學(xué)習(xí)文本的詞級(jí)和句子級(jí)特征,提高文本分類的準(zhǔn)確性。這些工作證明了卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理領(lǐng)域中有著廣闊的應(yīng)用前景,而循環(huán)神經(jīng)網(wǎng)絡(luò)通過使用帶自反饋的神經(jīng)元,能夠處理任意長(zhǎng)度的序列。因此,循環(huán)神經(jīng)網(wǎng)絡(luò)也已經(jīng)被廣泛地應(yīng)用到自然語言處理任務(wù)中。

      2 任務(wù)定義與評(píng)測(cè)體系

      本文所涉研究繼承了NLPCC2017系列共享任務(wù)中新聞標(biāo)題分類(news headline category,NHC)任務(wù)的定義與評(píng)測(cè)方法。其中,標(biāo)題定義為新聞網(wǎng)頁中主體文字內(nèi)容(非廣告、推廣或圖像內(nèi)容)的題目,分類標(biāo)準(zhǔn)為標(biāo)題(僅僅考慮標(biāo)題)語義呈現(xiàn)出的領(lǐng)域類型特性,比如,“茅房困境: 買房不如買茅臺(tái)”這一題目歸為經(jīng)濟(jì)類。

      根據(jù)任務(wù)定義,標(biāo)題分類系統(tǒng)需對(duì)每一個(gè)標(biāo)題樣本給出唯一一個(gè)所屬領(lǐng)域類別的標(biāo)簽,任務(wù)體系共給出18種領(lǐng)域類型(表1)。按照這一分類體系,評(píng)測(cè)提供的人工標(biāo)注樣本數(shù)達(dá)到228 000條標(biāo)題。其中,訓(xùn)練集包含156 000條標(biāo)題,開發(fā)集和測(cè)試集各包含36 000條標(biāo)題。此外,由于標(biāo)注數(shù)據(jù)在不同類別上略顯不均衡,因此,實(shí)際評(píng)測(cè)中,散文、故事、養(yǎng)生和探索四個(gè)類別的訓(xùn)練集、開發(fā)集和測(cè)試集分別各自包含4 000、2 000和2 000條標(biāo)題;而除了這四個(gè)類別之外,其他的類別的訓(xùn)練集、開發(fā)集和測(cè)試集分別各自包含10 000、2 000和2 000條標(biāo)題。

      表1 標(biāo)題分類任務(wù)的領(lǐng)域類型體系

      針對(duì)任何分類系統(tǒng)給出的結(jié)果,評(píng)測(cè)統(tǒng)一采用精確率(precision)、召回率(recall)和F1測(cè)度進(jìn)行性能評(píng)價(jià)。對(duì)18類整體的系統(tǒng)輸出性能,則采用了微平均方法綜合測(cè)評(píng)。

      3 標(biāo)題分類模型

      本節(jié)介紹基于深度學(xué)習(xí)的標(biāo)題分類,包含兩個(gè)部分: 分類模型結(jié)構(gòu)和多模二元分類投票機(jī)制。

      3.1 分類模型結(jié)構(gòu)

      本文采用多層深度感知的神經(jīng)網(wǎng)絡(luò)構(gòu)建標(biāo)題分類模型。其基本架構(gòu)如圖1所示,包括輸入層、輸出層和隱藏層?;贑NN、LSTM和GRU的分類模型的輸入層、輸出層具有相同結(jié)構(gòu)。在輸入層都接收來自某一標(biāo)題中所有詞的詞向量,而在輸出端則給出不同類別上的概率分布。顯然,實(shí)踐過程中,最大概率的類別標(biāo)記將作為輸入標(biāo)題樣本的分類結(jié)果進(jìn)行輸出。

      上述三種分類模型的區(qū)別主要集中在隱藏層,基于CNN的分類模型,在隱藏層增設(shè)了卷積層和最大池化層,而LSTM和GRU則在隱藏層嵌入了遞歸神經(jīng)網(wǎng)絡(luò),并增設(shè)記憶控制門等門控機(jī)制。上述分類模型的性能優(yōu)劣,主要取決于隱藏層內(nèi)的學(xué)習(xí)方式: 獨(dú)立特征優(yōu)先(CNN)或序列語義優(yōu)先(LSTM或GRU)。

      圖1 標(biāo)題分類模型架構(gòu)

      GRU本身是LSTM的一種簡(jiǎn)化變形,但在使用過程中,對(duì)于序列語義的選擇性記憶略顯優(yōu)勢(shì),因此,本文也將其作為一個(gè)獨(dú)立的方法,參與上述分類的對(duì)比評(píng)價(jià),以及三者的投票機(jī)制。關(guān)于隱藏層中的dense和Dropout兩層的配置,根據(jù)不同的學(xué)習(xí)模型而略有不同,但作用并無差異。

      3.2 多模二元分類投票機(jī)制

      針對(duì)特定標(biāo)題樣本,借助神經(jīng)網(wǎng)絡(luò)的多層感知,分類模型可在網(wǎng)絡(luò)的輸出層對(duì)所有可選領(lǐng)域類別進(jìn)行概率指派,比如,本文以NLPCC2017共享任務(wù)體系中分類任務(wù)的18種領(lǐng)域類別進(jìn)行判別,則分類模型在輸出層利用softmax回歸模型計(jì)算每種類別的概率,最高概率對(duì)應(yīng)的類別標(biāo)簽將作為輸入樣本所屬的領(lǐng)域的解。但是,在實(shí)際執(zhí)行過程中,某些樣本在領(lǐng)域劃分上存在一定的模糊性,例如,“馬云演講視頻《CCTV創(chuàng)業(yè)英雄會(huì)》”既可以認(rèn)為是一種科技領(lǐng)域的題材(依據(jù)馬云背景),也可認(rèn)為是娛樂領(lǐng)域的題目(依據(jù)CCTV節(jié)目秀)。那么,建立一個(gè)單模型多元(18元)分類的系統(tǒng),進(jìn)行剛性的唯一類別指派,往往形成過于武斷的判別機(jī)制。

      為此,本文嘗試結(jié)合多個(gè)分類模型的二元分類結(jié)果(是或非),利用規(guī)則形成簡(jiǎn)單的投票方法,形成較為靈活的判別機(jī)制。圖2中的左子圖(a)是傳統(tǒng)的單模型多元分類機(jī)制,其中,在單一神經(jīng)網(wǎng)絡(luò)的輸出層,經(jīng)過softmax回歸后,18種領(lǐng)域類別中,只有概率最高的一種類別作為結(jié)果輸出;相比而言,右子圖(b)則建立了兩套分類模型,每套模型對(duì)單一標(biāo)題樣本的18種可能的領(lǐng)域類別全部進(jìn)行二元判別(是為1,否則為0),從而每套模型都可能將某一樣本劃分到多種領(lǐng)域類別之中。那么,兩套分類模型對(duì)這一樣本的二元類型判別結(jié)果,就形成了兩套不同的領(lǐng)域類別集合,兩者或許存在交集(圖例中給出的是存在交集的情況),或許互不統(tǒng)一。而前文提到的規(guī)則,即是在上述不同模型得出的領(lǐng)域類別集合之上實(shí)施的進(jìn)一步判斷。在本文實(shí)際的實(shí)驗(yàn)中,我們引入三種深度學(xué)習(xí)模型(CNN、LSTM和GRU)進(jìn)行二元判定,由此,規(guī)則實(shí)際上是在三者得出的三套類別集合上實(shí)施的綜合判斷。

      圖2 單模多元分類機(jī)制與多模型二元分類機(jī)制對(duì)比

      針對(duì)多模型二元分類產(chǎn)生的類別指派,本文采用“少數(shù)服從多數(shù)”和“可信度最高”兩項(xiàng)規(guī)則進(jìn)行二次篩選,將較為可靠的類型指派給目標(biāo)標(biāo)題樣本。注意,之所以未保留多于一項(xiàng)的類型指派,原因在于NLPCC2017分享任務(wù)中標(biāo)題分類語料的單一類別標(biāo)記原則,即每個(gè)標(biāo)題只由人工指派唯一一個(gè)類型標(biāo)簽。那么,上述多模型二元分類產(chǎn)生的多種類別產(chǎn)出的現(xiàn)象,可認(rèn)為不同模型根據(jù)自身不同的理論基礎(chǔ)得出的不同中間結(jié)果,而結(jié)合不同模型得出的判斷,再基于規(guī)則得出綜合判斷的過程,可理解為一種對(duì)“多候選擇優(yōu)的人工單選題求解方式”的模擬。比如,基于獨(dú)立詞義特征進(jìn)行深度學(xué)習(xí)的二元CNN模型,可對(duì)領(lǐng)域信息混雜的標(biāo)題樣本實(shí)現(xiàn)多個(gè)無關(guān)(或弱相關(guān))領(lǐng)域類型的臨時(shí)判斷,假設(shè)標(biāo)題“什么才是真正自動(dòng)駕駛?開車打一局王者榮耀才算”中的“自動(dòng)”“駕駛”和“王者榮耀”分別利于科技、汽車和游戲領(lǐng)域類型的識(shí)別,且CNN確實(shí)輸出上述類別標(biāo)簽;同時(shí),綜合了全局語義的LSTM模型,對(duì)上述標(biāo)題也給出了汽車和散文兩種模糊的類型判斷。那么,本文規(guī)則的目標(biāo)即是綜合評(píng)定兩者的判斷,給出汽車領(lǐng)域這一最終判斷(少數(shù)服從多數(shù)原則)。

      本文具體的規(guī)則如下所示:

      規(guī)則1三套二元模型中至少有一套模型有輸出結(jié)果(圖3展示了每套模型含有多個(gè)結(jié)果的情況),根據(jù)輸出結(jié)果統(tǒng)計(jì)18個(gè)領(lǐng)域出現(xiàn)的次數(shù)[num1,num2,…,num18](18個(gè)領(lǐng)域分別為c1,c2,…,c18), 將對(duì)應(yīng)的出現(xiàn)次數(shù)由大到小排序[numm,numn,…],其中m、n分別對(duì)應(yīng)原始次數(shù)中的下標(biāo)。標(biāo)題領(lǐng)域label確定如式(1)所示。

      (1)

      規(guī)則2對(duì)于規(guī)則1中無標(biāo)簽的結(jié)果,則采用高置信度的模型(GRU)的多元分類模型重新分類,且唯一輸出多元分類的單一判定結(jié)果。

      規(guī)則3當(dāng)所有模型都沒有輸出結(jié)果時(shí)(即每個(gè)二元分類模型在18種領(lǐng)域類型上都判定為0,即無關(guān)),則最終認(rèn)定標(biāo)題樣本不屬于任何領(lǐng)域類型。

      圖3 多模型二元分類多輸出

      上述規(guī)則中,最后一項(xiàng)規(guī)則是不符合NLPCC2017分享任務(wù)中標(biāo)題分類評(píng)估要求的輸出方式,因?yàn)槿蝿?wù)要求每一個(gè)樣本都唯一對(duì)應(yīng)一個(gè)領(lǐng)域類型,不為空。因此,上述最后一項(xiàng)空輸出的規(guī)則,必然導(dǎo)致召回率R的下降,實(shí)驗(yàn)中也的確顯示了這一現(xiàn)象(盡管最終系統(tǒng)性能因?yàn)榫萈的提升獲得了約1%F1值的提高)。我們將這一規(guī)則納入考慮的動(dòng)機(jī)在于,經(jīng)過人工觀測(cè),某些標(biāo)準(zhǔn)數(shù)據(jù)集中的標(biāo)題樣本并不屬于指定的18項(xiàng)領(lǐng)域類別,人工標(biāo)記存在牽強(qiáng)的指派。為此,本文利用空輸出的規(guī)則,收集疑似的錯(cuò)誤標(biāo)記樣本并進(jìn)行分析,如實(shí)驗(yàn)分析部分的介紹(第5節(jié)),部分空輸出的樣本的確存在誤標(biāo)記,但另外一部分樣本則暴露了現(xiàn)有分類模型的不足。

      4 深度學(xué)習(xí)模型的配置

      本節(jié)介紹神經(jīng)網(wǎng)絡(luò)模型的參數(shù)配置,包括基于CNN、LSTM和GRU的多元分類模型和二元分類模型。對(duì)于單模多元分類模型,我們只需構(gòu)建一個(gè)多(18)元分類器,對(duì)于二元分類模型,我們需要對(duì)每種領(lǐng)域構(gòu)建對(duì)應(yīng)的二元分類器(參數(shù)相同),即二元分類模型包括18個(gè)二元分類器。

      4.1 CNN

      對(duì)于CNN的多元分類器和二元分類器,輸入一個(gè)新聞標(biāo)題(已通過jieba工具分詞),通過向量層將新聞標(biāo)題轉(zhuǎn)化為向量。然后通過卷積和池化提取標(biāo)題特征,卷積和最大池化偽代碼如下:

      輸入: 新聞標(biāo)題向量x={x1,x2,…,xn} 輸出: 新聞標(biāo)題特征向量1: repeat2: for 每個(gè)卷積核ω do 3: for i in n-h+1 do //卷積核的寬度為h4: oi←tanh(ω·xi:i+h-1+bo)5: end for 6: c←concat(c,oi)7: end for8: c'←maxpooling(c)9: until 輸出c'

      基于CNN的多元分類器的參數(shù)配置如下: ①卷積核窗口大小為3,卷積核的數(shù)量為128; ②全連接層D1單元數(shù)為64,激活函數(shù)為tanh,全連接層D2單元數(shù)為18,激活函數(shù)為softmax; ③Dropout為0.5。而基于CNN的二元分類器參數(shù)配置如下: ①卷積核、全連接層D1和Dropout的設(shè)定與基于CNN的多元分類器相同;②全連接層D2單元數(shù)為1,激活函數(shù)為sigmoid。

      如表2所示,CNN模型訓(xùn)練參數(shù),二元分類器的損失函數(shù)是Loss1,而多元分類器的損失函數(shù)是Loss2[注]keras-cn.readthedocs.io/en/latest/,二元分類器和多元分類器的優(yōu)化器和迭代次數(shù)設(shè)置如表2所示,且設(shè)置的最小批數(shù)據(jù)是256。

      表2 CNN模型訓(xùn)練參數(shù)

      4.2 LSTM和GRU

      基于LSTM的模型和基于GRU的模型,其輸入與基于CNN的模型相同,二者都是時(shí)序化處理標(biāo)題得到標(biāo)題語義向量。LSTM隱層的偽代碼如下:

      輸入: 數(shù)據(jù)x={x1,x2,…,xn},xt是標(biāo)題第t個(gè)詞向量輸出: 時(shí)序化處理標(biāo)題,得出標(biāo)題語義向量1: repeat2: 對(duì)于當(dāng)前步,輸入xt、前一層的隱含層輸出ht-1和細(xì)胞狀態(tài)Ct-1 //忘記門層ft3: ft←sigmoid(Wf·[ht-1,xt]+bf) //輸入門層it4: it←sigmoid(Wi·[ht-1,xt]+bi) //新候選值向量Ct5: Cˇt←tanh(Wc·[ht-1,xt ]+bc) //信息融合新的細(xì)胞狀態(tài)6: Ct←ft*Ct-1+it*Ct //一個(gè)確定細(xì)胞狀態(tài)的輸出的值7: ot←sigmoid(Wo·[ht-1,xt]+bo) //隱含層輸出ht8: ht←ot*tanh(Ct)9: until 遍歷所有的詞,輸出h

      GRU是LSTM的變種,GRU隱層的偽代碼如下:

      輸入: 數(shù)據(jù)x={x1,x2,…,xn},xt是標(biāo)題第t個(gè)詞向量輸出: 時(shí)序化處理標(biāo)題,得出標(biāo)題語義向量1: repeat2: 對(duì)于當(dāng)前步xt,會(huì)存在前一層的隱含層輸入ht-13: zt←sigmoid(wz·[ht-1,xt]) //更新門4: rt←sigmoid(wr·[ht-1,xt])//重置門5: h~t←tanh(W·[rt*ht-1,xt])//候選輸出6: ht←(1-zt)*ht-1+zt*h~t//當(dāng)前步的輸出7: until 遍歷所有的詞,輸出h

      通過GRU和LSTM處理文本得到標(biāo)題語義,輸出維度為128維。另外,基于GRU的多元分類器和基于LSTM的多元分類器的其他參數(shù)配置與基于CNN的多元分類器相同。

      5 實(shí)驗(yàn)

      5.1 詞向量

      我們使用了預(yù)訓(xùn)練的Word2vec模型[注]http://spaces.ac.cn/archives/4304/comment-page-1,詞向量[15]維度為256維,由Gensim訓(xùn)練得到。在標(biāo)題分類任務(wù)中,若單詞不存在預(yù)訓(xùn)練的向量詞集中,則進(jìn)行隨機(jī)初始化。此外,標(biāo)題預(yù)定長(zhǎng)度為40,若長(zhǎng)度大于預(yù)定長(zhǎng)度則舍去超過部分,若小于預(yù)定長(zhǎng)度則進(jìn)行補(bǔ)零操作。

      5.2 實(shí)驗(yàn)設(shè)置

      單模多元分類模型和二元分類模型(第4節(jié),實(shí)驗(yàn)配置) 對(duì)于每套模型的二元分類模型的預(yù)測(cè)結(jié)果,只有單輸出結(jié)果才能確定標(biāo)簽。不同網(wǎng)絡(luò)的二元分類模型的預(yù)測(cè)結(jié)果,在測(cè)試集中能確定標(biāo)簽的數(shù)據(jù)不同,定義CNN二元分類模型能夠確定標(biāo)簽的部分測(cè)試集數(shù)據(jù)為Data1,LSTM和GRU二元分類模型能確定唯一標(biāo)簽的數(shù)據(jù)集分別是Data2和Data3,整個(gè)測(cè)試集數(shù)據(jù)為Data。

      LSTM+Attention對(duì)于LSTM的多元分類模型,我們?cè)跁r(shí)序化處理文本向量時(shí)添加了注意力機(jī)制,用于新聞標(biāo)題分類。

      融合系統(tǒng)通過投票策略(詳見3.2節(jié))融合CNN、GRU和LSTM三種二元分類模型,即多模二元模型。因?yàn)橥镀辈呗灾械谌龡l規(guī)則的數(shù)據(jù)不符合評(píng)測(cè)任務(wù)要求,強(qiáng)行使用GRU的多元分類對(duì)沒有輸出結(jié)果的數(shù)據(jù)也強(qiáng)行指派了一個(gè)分類。

      融合系統(tǒng)前提是Data1、Data2和Data3數(shù)據(jù)集不能完全一致,三種數(shù)據(jù)集的重疊部分如圖4所示。每個(gè)序號(hào)對(duì)應(yīng)的數(shù)量如表3所示,其中5、6和7分別對(duì)應(yīng)Data1、Data2和Data3。從數(shù)據(jù)結(jié)果來看,三個(gè)數(shù)據(jù)集具有差異,從而保證了融合系統(tǒng)的可實(shí)施性,也驗(yàn)證了不同模型對(duì)標(biāo)題分類任務(wù)的適應(yīng)性是有區(qū)別的。

      圖4 數(shù)據(jù)集重合圖

      序號(hào)數(shù)據(jù)量序號(hào)數(shù)據(jù)量122 248528 169224 165628 381324 542728 775425 029——

      5.3 模型的最優(yōu)迭代次數(shù)選

      我們使用了36 000條開發(fā)集數(shù)據(jù),根據(jù)圖5,各模型的P、R和F1值與迭代次數(shù)的關(guān)系圖所示,來選擇對(duì)應(yīng)的性能最優(yōu)的單模多元分類模型。因此,我們分別得到了基于CNN、GRU和LSTM的多元分類模型的對(duì)應(yīng)最優(yōu)迭代次數(shù)為6、8和10。因?yàn)槎诸惸P痛嬖诓糠謹(jǐn)?shù)據(jù)無法指定其標(biāo)簽,所以選擇迭代模型時(shí)參照了單模多元分類的迭代次數(shù)的性能。

      圖5 P、R和F1值與迭代次數(shù)的關(guān)系圖

      5.4 結(jié)果與分析

      多元分類模型和二元分類模型在對(duì)應(yīng)數(shù)據(jù)集上的分類結(jié)果對(duì)比如表4所示。

      表4 多元分類與二元分類模型對(duì)比

      根據(jù)表4結(jié)果,在相應(yīng)數(shù)據(jù)集上,CNN、LSTM和GRU的二元分類模型的微觀精確率、召回率和F1值都高于多元分類模型,因此二元分類模型性能優(yōu)于多元分類是融合系統(tǒng)性能提升的因素。

      同時(shí),我們觀測(cè)了三種網(wǎng)絡(luò)的多元分類模型預(yù)測(cè)結(jié)果的錯(cuò)誤樣例,發(fā)現(xiàn)三種網(wǎng)絡(luò)對(duì)標(biāo)題分類任務(wù)的適應(yīng)性是有區(qū)別的,單模多元分類預(yù)測(cè)錯(cuò)誤樣例如表5所示。

      表5 單模多元分類預(yù)測(cè)錯(cuò)誤樣例

      對(duì)表5中多元分類模型預(yù)測(cè)的錯(cuò)誤樣例依次進(jìn)行分析,在前兩個(gè)樣例中,根據(jù)“世界”特征預(yù)測(cè)為“世界”標(biāo)簽,根據(jù)“雞湯”誤分類為“食物”標(biāo)簽,僅僅根據(jù)局部特征進(jìn)行分類,而忽略了標(biāo)題的語義。雖然LSTM可以很好地利用時(shí)序化信息,但由于“馬路上的愛情”和“一線一指標(biāo)”這兩個(gè)樣例缺少上下文信息,導(dǎo)致LSTM依然不能將其正確分類。最后兩個(gè)樣例中,“汽車”和“DNA檢測(cè)”的特征在整個(gè)標(biāo)題語義中占據(jù)比重較大,導(dǎo)致分類錯(cuò)誤。根據(jù)上述樣例分析,當(dāng)標(biāo)題存在明顯特征時(shí),基于CNN的多元分類模型更有優(yōu)勢(shì);而基于GRU和LSTM的多元分類模型通過時(shí)序化處理標(biāo)題,得到整個(gè)標(biāo)題語義的表示,進(jìn)行標(biāo)題分類,更適應(yīng)需要理解標(biāo)題語義的數(shù)據(jù),三個(gè)模型對(duì)標(biāo)題適應(yīng)性的不同是二元模型確定標(biāo)簽數(shù)據(jù)集合不同的內(nèi)在體現(xiàn)。

      融合系統(tǒng)與其他實(shí)驗(yàn)對(duì)比如表6所示,其中也增添了NLPCC評(píng)測(cè)任務(wù)中排名靠前的結(jié)果(因?yàn)檎撐奈垂_,只使用結(jié)果),同時(shí)使用了整個(gè)測(cè)試集Data。

      表6 實(shí)驗(yàn)結(jié)果

      根據(jù)表6結(jié)果,我們發(fā)現(xiàn)添加了注意力機(jī)制的LSTM多元分類效果不佳,沒有單獨(dú)的LSTM多元分類模型好,主要因?yàn)闃?biāo)題是凝練全文語義的簡(jiǎn)要描述,而該模型重點(diǎn)關(guān)注局部詞的特征,會(huì)改變整個(gè)標(biāo)題語義的表示。而使用投票規(guī)則的融合系統(tǒng),P、R和F1值都要高于較優(yōu)的基于GRU的多元分類模型,且召回率提升了約1%的性能,證明了我們的融合系統(tǒng)方案在新聞標(biāo)題分類任務(wù)上是有效的。NLPCC評(píng)測(cè)任務(wù)以召回率為評(píng)價(jià)標(biāo)準(zhǔn)(系統(tǒng)沒有公開,只對(duì)比了結(jié)果),與第一名相比,R值低了1.5%,與第三名相當(dāng),雖然沒有達(dá)到最優(yōu),但是說明了系統(tǒng)的性能是可靠的。此外,通過融合系統(tǒng)能夠找到一些漏檢數(shù)據(jù)(通過GRU多元分類模型指定分類的數(shù)據(jù))。

      如下面的漏檢例子所示,括號(hào)中的標(biāo)簽為漏檢數(shù)據(jù)樣例的真實(shí)標(biāo)簽:

      ① 印度駱駝節(jié)狂歡場(chǎng)面壯觀(世界);

      ② 鳩茲古鎮(zhèn)居然是個(gè)吃貨鎮(zhèn)(食物);

      ③ 應(yīng)知應(yīng)會(huì)三字經(jīng)免費(fèi)拿(養(yǎng)生);

      ④ 用洪荒之力查出泄密黑手(金融)。

      前兩個(gè)樣例的預(yù)測(cè)結(jié)果有多個(gè)標(biāo)簽,后兩個(gè)樣例無預(yù)測(cè)標(biāo)簽。多模二元分類模型將第一個(gè)示例預(yù)測(cè)結(jié)果為“世界”和“旅游”標(biāo)簽,而第二個(gè)示例被預(yù)測(cè)為“食物”和“旅游”標(biāo)簽,根據(jù)兩個(gè)實(shí)例的語義和詞義,可以將其劃分到“旅游”領(lǐng)域,因此將類似的數(shù)據(jù)歸為強(qiáng)語義歧義特征數(shù)據(jù)。在后兩個(gè)示例中,由于標(biāo)題中的特征較少,因此分類模型將其分到正確領(lǐng)域是較為困難的,多模二元分類模型僅依靠標(biāo)題中的語義不能將其歸屬于任務(wù)中一個(gè)領(lǐng)域,將這些數(shù)據(jù)歸為弱語義特征數(shù)據(jù)。通過表5和表6對(duì)比,多元分類模型性能的下降驗(yàn)證了強(qiáng)語義歧義特征和弱語義特征的數(shù)據(jù)對(duì)標(biāo)題分類影響很大。

      6 總結(jié)和展望

      本文嘗試了將神經(jīng)網(wǎng)絡(luò)的二元分類用于多分類目標(biāo)預(yù)測(cè),并且選用了多種結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型。利用投票機(jī)制將GRU、CNN和LSTM的二元分類模型形成的融合系統(tǒng)用于標(biāo)題分類任務(wù),評(píng)測(cè)分?jǐn)?shù)中召回率達(dá)到81.14%,比最優(yōu)的GRU多元分類提高了約1%的性能。另外,本系統(tǒng)能夠區(qū)分強(qiáng)語義特征和弱語義特征的數(shù)據(jù),對(duì)于分類具有重要意義。

      未來工作安排主要包括兩個(gè)方面: ①判斷強(qiáng)語義歧義特征數(shù)據(jù)的類別歸屬;②對(duì)弱語義特征數(shù)據(jù)添加額外信息增加弱語義特征數(shù)據(jù)的可區(qū)分性,比如添加正文中的高頻詞、實(shí)體和詞性等信息。

      猜你喜歡
      類別分類器語義
      語言與語義
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      服務(wù)類別
      認(rèn)知范疇模糊與語義模糊
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      保德县| 天门市| 门头沟区| 孟津县| 通道| 麻江县| 河池市| 中牟县| 江口县| 呼图壁县| 行唐县| 霍林郭勒市| 开封县| 梓潼县| 高碑店市| 开封县| 梓潼县| 临汾市| 榆林市| 手游| 安阳县| 呼玛县| 抚宁县| 仲巴县| 喜德县| 怀集县| 元阳县| 敦煌市| 延川县| 泾川县| 泾源县| 青河县| 安丘市| 同心县| 马尔康县| 南城县| 民丰县| 阜新市| 万年县| 环江| 榆树市|