• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Bi-LSTM 的古籍事件句觸發(fā)詞分類方法研究

      2021-10-17 13:21:00馬曉雯劉建斌李章超
      關(guān)鍵詞:典籍類別分類器

      馬曉雯,何 琳,劉建斌,李章超,高 丹

      (南京農(nóng)業(yè)大學(xué)信息管理學(xué)院,南京 210095)

      1 引言

      隨著典籍數(shù)字化技術(shù)的發(fā)展和處理工具的成熟,可利用的典籍數(shù)字化資源的飛速增長,人文歷史學(xué)科對于典籍研究的傳統(tǒng)手段也迎來了創(chuàng)新和變革[1],不再是僅僅是從外部特征和主題內(nèi)容的角度對典籍文本進行闡釋,而是轉(zhuǎn)變?yōu)閺募毩6戎R的層面實現(xiàn)對典籍文本的深度挖掘。在新興的數(shù)字人文領(lǐng)域,研究者結(jié)合人文計算的方法與計算機技術(shù)開展了對于典籍內(nèi)容的細粒度分析和深層次挖掘。其中,觸發(fā)詞的識別與分類是一項重要的研究課題。觸發(fā)詞指的是能夠揭示事件本質(zhì)的特征詞,通過對這類特征詞的自動識別可以迅速的發(fā)現(xiàn)并抽取出典籍中有關(guān)事件描述的文本,在此基礎(chǔ)上通過確定事件觸發(fā)詞的類別歸屬,就能夠?qū)崿F(xiàn)事件句文本的類別劃分,最終達到對典籍文本內(nèi)容的深度挖掘和全面展示。因此,觸發(fā)動詞的識別與分類方法研究,是典籍文本挖掘領(lǐng)域的一項基礎(chǔ)性工作,能夠幫助研究者從更全面的角度獲取和掌握典籍內(nèi)容,從而推動典籍數(shù)字化資源有效利用和價值實現(xiàn)。

      在對當前關(guān)于古籍研究的文獻進行整理之后發(fā)現(xiàn),針對于古籍信息處理的研究已經(jīng)取得了許多成果,在詞匯層面上主要是關(guān)于古文分詞、詞性標注及命名實體識別的研究,而在句子層面上主要是關(guān)于自動斷句及標點、句子對齊、句法分析及語義標注等的研究[2]。然而,對于中文文本觸發(fā)詞的識別和分類研究,大多是針對開放領(lǐng)域現(xiàn)代文本[3]或者特殊領(lǐng)域文本開展的,例如生物醫(yī)學(xué)領(lǐng)域的觸發(fā)詞典的構(gòu)建[4-6],災(zāi)難事件[7]、突發(fā)事件[8-10]、金融事件[11-14]觸發(fā)詞的識別與事件抽取。目前對于典籍文本觸發(fā)詞的識別和分類還面臨諸多困難。首先,由于古籍與現(xiàn)代文本相較而言,在行文方式、句式結(jié)構(gòu)、語法規(guī)則等方面都存在許多差異和特殊之處,因此許多適用于現(xiàn)代文本處理的規(guī)則難以遷移到典籍文本的研究中,現(xiàn)有的一些通用領(lǐng)域觸發(fā)詞典也不適用于典籍文本,在古籍觸發(fā)詞基礎(chǔ)性資源設(shè)施的構(gòu)建上較為欠缺;其次,古籍的文本句子長度較短,事件觸發(fā)詞也大多是單字詞,因此在模型訓(xùn)練和特征提取時,無論是特征的維度還是語義的豐富性都無法與多字詞或長句相較,給典籍觸發(fā)詞的識別帶來了一定的困難;最后,古籍文本中許多詞匯都存在著通假和一詞多義的現(xiàn)象,詞類活用的情況非常的復(fù)雜多樣,導(dǎo)致在進行觸發(fā)詞識別的同時,還要進行不同語境下詞義的區(qū)分、詞類活用現(xiàn)象的判斷等,這些問題都對于典籍觸發(fā)詞識別分類的研究帶來了不小的挑戰(zhàn)。

      現(xiàn)代文本觸發(fā)動詞的分類所取得的成果對于開展典籍觸發(fā)動詞的識別研究帶來了許多的啟示。目前中文觸發(fā)詞的識別和事件抽取的方法歸納起來主要可以分為兩類,分別是基于模式匹配的方法和基于機器學(xué)習(xí)的方法[15]。基于模式匹配的方法根據(jù)人工參與程度的不同可以分為有監(jiān)督和弱監(jiān)督兩種模式[16],在觸發(fā)詞識別的過程中,一方面通過事先定義一定的識別規(guī)則,例如根據(jù)詞性、句法等先篩選掉一部分無關(guān)詞語,縮小識別的范圍;另一方面,研究者根據(jù)自身的經(jīng)驗,對大量的語料進行統(tǒng)計并列舉出文本中的事件觸發(fā)詞[17],構(gòu)成一個觸發(fā)詞典,之后通過尋找同義詞的方式不斷補充,盡可能的擴展詞典使其能夠盡量涵蓋所有的觸發(fā)詞;在進行事件抽取時,就可以根據(jù)構(gòu)建的詞典和規(guī)則通過匹配的方法抽取出事件句并進行分類?;跈C器學(xué)習(xí)的方式將觸發(fā)詞的識別任務(wù)看作是一種分類問題[18],一方面結(jié)合人工制定的特征和自然語言處理工具抽取的文本多維特征[19],輸入到機器學(xué)習(xí)模型中訓(xùn)練分類器來實現(xiàn)觸發(fā)詞識別和事件抽取任務(wù);另一方面,通過建立知識庫或人工標注的方式[20],將足夠規(guī)模的標注語料輸入到模型當中進行訓(xùn)練,以此實現(xiàn)對未標注數(shù)據(jù)的分類和識別。基于傳統(tǒng)機器學(xué)習(xí)的方法依賴于人工特征的設(shè)計,而如果設(shè)計的特征過于復(fù)雜還會降低模型的泛化能力;為了更加充分的挖掘文本的深層語義信息,減少對于人工特征的依賴,研究者們在淺層機器學(xué)習(xí)的基礎(chǔ)上探索深度學(xué)習(xí)的方法進行觸發(fā)詞的識別和事件抽取。通過輸入具有豐富語義特征的詞向量,并自動學(xué)習(xí)抽象特征,構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,減少了對于外部的自然語言處理工具的依賴。例如CHEN[29]通過動態(tài)的多池化卷積神經(jīng)網(wǎng)絡(luò)進行事件抽取;NGUYEN[30]采用Bi-LSTM 結(jié)合句子的結(jié)構(gòu)特征和文本的語義特征,抽取事件元素及事件的觸發(fā)詞。在利用深度學(xué)習(xí)算法進行觸發(fā)詞識別的研究中,面向中文和英文文本的主要差異表現(xiàn)為文本的分詞。英文的詞語之間存在著天然的分割符,并且存在一些指向鮮明的特殊詞綴和詞性,在觸發(fā)詞的識別過程中有許多規(guī)則可循;但中文的詞語之間并不存在天然的分隔符,且表達方式靈活,句式結(jié)構(gòu)和詞語用法多樣,單字詞也具有豐富的語義信息,同一事物還具有多種表達形式與縮寫情況等。

      本文旨在探索典籍事件觸發(fā)詞的識別和自動分類方法,通過建立觸發(fā)詞分類體系和觸發(fā)詞集擴展的基礎(chǔ)工作,構(gòu)建了典籍觸發(fā)動詞的數(shù)據(jù)集;進而利用數(shù)據(jù)集結(jié)合深度學(xué)習(xí)算法Bi-LSTM 模型訓(xùn)練了事件分類模型。本文的最終目的是對大規(guī)模中華典籍事件觸發(fā)動詞的自動分類提供一些借鑒,是為了進一步推動典籍文本事件抽取和知識圖譜的構(gòu)建研究而做的一項基礎(chǔ)性工作。

      2 事件文本數(shù)據(jù)集構(gòu)建

      事件文本數(shù)據(jù)集的構(gòu)建工作是實現(xiàn)事件文本自動分類的基礎(chǔ),通過構(gòu)建典籍觸發(fā)動詞的分類體系,進而構(gòu)建了觸發(fā)詞語義數(shù)據(jù)集,并據(jù)此對典籍的部分事件句文本語料集做了人工的標注與處理。

      2.1 觸發(fā)詞分類體系的構(gòu)建

      構(gòu)建觸發(fā)詞分類體系是為了建立起典籍事件主題的類目體系,作為后續(xù)事件分類的依據(jù)和基礎(chǔ)。這一過程分為3 個階段,分別是:文本預(yù)處理、動詞抽取和主題聚類。

      在文本預(yù)處理階段,首先將典籍文本中的引用類和對話類文本做了篩除,然后通過對典籍文本做了分詞、詞性標注和去停用詞的預(yù)處理。在動詞抽取階段,根據(jù)詞性標注的結(jié)果,編寫正則表達式從文本中抽取出了所有動詞構(gòu)成候選觸發(fā)詞集合。在主題聚類階段,運用LDA 模型,對抽取出的動詞集合進行了主題聚類,并通過對聚類結(jié)果的對比和內(nèi)容定性分析,確定了主題數(shù)量并為每個主題賦予了主題詞[21]。經(jīng)過3 個階段的處理,就將典籍文本所涵蓋的事件主題類別抽象了出來,形成了一個分類體系,成為事件抽取和分類的參照。

      2.2 觸發(fā)詞語義數(shù)據(jù)集的構(gòu)建

      觸發(fā)詞語義數(shù)據(jù)集的構(gòu)建過程,本質(zhì)上是對觸發(fā)詞分類體系進行內(nèi)容豐富與填充的過程,目的是為了從細粒度的字詞知識單元層面,建立一種典籍內(nèi)容挖掘的文本基礎(chǔ)設(shè)施。這一過程主要分為兩個階段,分別是:種子詞集構(gòu)建階段和詞集擴展階段。

      種子詞集構(gòu)建是在對動詞主題聚類的結(jié)果進行內(nèi)容分析的基礎(chǔ)上完成的,對每一個主題下的特征詞歸納整理之后填入到相對應(yīng)的分類體系中,就構(gòu)成了觸發(fā)動詞的種子詞集。在詞集擴展階段,主要通過基于詞典資源和基于機器學(xué)習(xí)兩種方式完成。一方面,根據(jù)種子詞的語義特征,在典籍詞典資源中進行詞義匹配,尋找種子詞的同義詞,并發(fā)現(xiàn)典籍文本中的通假字情況,添加到詞集中去。另一方面,提取觸發(fā)詞的詞性特征、上下文特征、詞共現(xiàn)等特征之后,利用機器學(xué)習(xí)算法計算文本間相似度[22],尋找種子詞的近義詞填入到詞集中。但是,兩種方式擴展的詞集中存在一些誤差,再結(jié)合專門的典籍詞典進行校驗與補充,最終構(gòu)成了觸發(fā)詞的語義數(shù)據(jù)集。

      2.3 典籍文本語料集的標注

      典籍文本語料集的標注工作,是參照事先構(gòu)建的事件觸發(fā)詞分類體系中的主題類別,借助觸發(fā)詞語義數(shù)據(jù)集對典籍文本進行人工分類標注的過程。以逗號為單位,對典籍文本進行短句劃分之后,為每個句子賦予恰當?shù)念悇e標簽。雖然在之前的預(yù)處理過程中,已經(jīng)對對話和引用類的文本進行了去除,但是還存在一部分沒有實際含義或事件句特征的句子,因此在人工標注時,除了分類體系中的類別之外,還應(yīng)增加一個無關(guān)類別標簽。

      標注的過程需要3 名標注人員的參與,其中兩名作為主要的交叉標注者,另一名人員對存在爭議的標注結(jié)果進行判定和仲裁,以此來保證標注語料集的正確率和可信度。3 名參與標注的人員均為情報學(xué)碩士,并具有古籍文本標注的經(jīng)驗和古籍信息挖掘的研究背景。

      3 基于Bi-LSTM 的事件句分類模型構(gòu)建

      事件句分類模型的構(gòu)建主要分為3 個階段,第一個階段是對典籍樣本數(shù)據(jù)集進行合理的分割和預(yù)處理工作,將整體語料分割了為訓(xùn)練集、測試集和驗證集3個部分,之后進行分詞和去停用詞的處理。第二個階段是語料特征的提取和數(shù)據(jù)的編碼階段,是實現(xiàn)數(shù)據(jù)轉(zhuǎn)化的過程。通過深度學(xué)習(xí)算法中的編碼層對訓(xùn)練語料中的標簽數(shù)據(jù)和文本數(shù)據(jù)進行了差異化的編碼,并通過Embedding 層實現(xiàn)數(shù)據(jù)集的向量化表示。第三個階段是模型構(gòu)建和分類器的訓(xùn)練階段,通過添加模型構(gòu)建神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并調(diào)整訓(xùn)練參數(shù)得到多元分類器。整個分類模型的構(gòu)建過程如圖1 所示。

      圖1 基于Bi-LSTM 的事件句分類模型構(gòu)建流程圖Fig.1 Flow chart of building an event sentence classification model based on Bi-LSTM

      3.1 數(shù)據(jù)集分割

      本文將整體的數(shù)據(jù)集按照2:1:1 的比例分割為訓(xùn)練集、測試集和驗證集3 個部分。訓(xùn)練集(Train Set)用于模型的擬合,為了保證模型最終的效果,訓(xùn)練樣本要盡量豐富,因此將數(shù)據(jù)集中的一半的數(shù)據(jù)作為訓(xùn)練集。驗證集(Development Set)是模型訓(xùn)練過程中單獨留出的樣本集,用于調(diào)整模型的超參數(shù)和對模型的能力進行初步評估。在神經(jīng)網(wǎng)絡(luò)中,驗證數(shù)據(jù)集經(jīng)常會用于確定最優(yōu)的網(wǎng)絡(luò)深度或選擇隱藏層神經(jīng)元的數(shù)量[23]。測試集(Test Set)用于評估最終模型的泛化能力,作為衡量模型效果的依據(jù)。因此,本文將剩余的一半數(shù)據(jù)集按照1:1 的比例分為驗證集和測試集。

      3.2 數(shù)據(jù)編碼

      通過深度學(xué)習(xí)算法中的編碼層對數(shù)據(jù)進行編碼。由于文本的數(shù)據(jù)集語料由標簽與句子兩列構(gòu)成,而句子在進行分詞之后由多個詞組成,因此可以將每個句子都看做是一個詞組。本文對于標簽和詞組進行了分別的編碼,將其轉(zhuǎn)換為了詞向量,為每個單詞提供了唯一的多維向量表示,以便于神經(jīng)網(wǎng)絡(luò)的計算。

      (1)標簽文本編碼。對于標簽數(shù)據(jù)采取獨熱編碼(Onehot Encode)[24]。這一編碼方式主要用于分類問題上,能夠?qū)︻悇e的特征進行歸一化處理。標簽數(shù)據(jù)是不同的句子所屬的事件類別標簽,由于各個類別之間沒有排序先后也沒有邏輯關(guān)系,因此標簽屬性是一種定性特征。Onehot 編碼可以將類別變量的這種定性特征,轉(zhuǎn)換為機器學(xué)習(xí)算法易于利用的定量特征。Onehot編碼的編碼方式如表1 所示。

      表1 onehot 編碼狀態(tài)Table 1 Onehot encoding status

      (2)句子文本編碼。計算機進行處理時無法理解文字的含義,因此把單個字或者詞組轉(zhuǎn)化為一個正整數(shù)使其成為一個序列。對于轉(zhuǎn)化為詞組的句子文本數(shù)據(jù)采用開源工具Tensorflow 所提供的Tokenizer 對其進行編碼。Tokenizer 將文本拆分之后生成相應(yīng)的id,并生成字符id 與位置信息的映射,在對其進行輸出時還會在每一句的首尾加上[CLS]和[SEP]標記,這樣就將每一句文本轉(zhuǎn)化為了一條序列,序列的特征由單字詞向量和它的位置特征組成。目前一些主流的詞嵌入工具如word2vec、GloVe 等在各類自然語言處理任務(wù)已經(jīng)有了廣泛的應(yīng)用,相較于傳統(tǒng)的編碼方式也取得了較好的效果。在對古籍文本進行人工標注的過程中發(fā)現(xiàn),同一事件類型的句式結(jié)構(gòu)特征及觸發(fā)詞的上下文位置特征有較強的相似性,因此采用了Tokenizer 對句子文本數(shù)據(jù)進行編碼以獲得詞組的位置特征。

      由于句子的長度不同,生成的序列長度也參差不齊,還需要根據(jù)計算得到最長的句子長度,對其他的短句在左側(cè)補0 對齊,以此來統(tǒng)一序列長度,構(gòu)成一個序列矩陣。圖2 是對句子文本進行編碼的原理圖。

      圖2 句子文本編碼原理Fig.2 Principles of sentence text encoding

      3.3 模型構(gòu)建及原理

      (1)LSTM。LSTM(Long Short Term)網(wǎng)絡(luò)是一種特殊的RNN,可以學(xué)習(xí)長期依賴信息。LSTM 主要包括記憶單元、輸入門、遺忘門以及輸出門,通過乘法門控制技術(shù),實現(xiàn)選擇性地讓信息通過[25]。

      輸入門(Input Gate)的作用是判斷是否將輸入的內(nèi)容寫入到內(nèi)存中,相當于一個可以被訓(xùn)練的參數(shù)。輸出門(Read Gate)的作用是判斷是否讀取當前的存儲,控制單元狀態(tài)輸入到當前時刻輸出值的信息量。遺忘門和輸入門共同控制記憶單元的輸入信息,決定之前時刻單元狀態(tài)和當前時刻網(wǎng)絡(luò)輸入的保留比例。文檔中每個詞匯語義的正確理解不但依賴于之前的元素,而且還與之后的元素密切相關(guān)[26]。LSTM 是單向神經(jīng)網(wǎng)絡(luò),只能從前往后傳輸狀態(tài)信息,而不能獲取后文對當前詞匯的影響,因此,本文采用2 個方向相反的雙向LSTM 來充分捕捉上下文信息,最大限度理解當前詞匯的語義信息[27]。圖3 是LSTM 的算法原理示意圖。

      圖3 LSTM 算法原理Fig.3 Principle of LSTM algorithm

      (2)Bi-LSTM。Bi-LSTM 是由前向后和由后向前分別訓(xùn)練一個LSTM,然后將兩個LSTM 的結(jié)果拼接作為模型的輸出,能夠同時保留 “過去”和 “未來”的文本信息,有效避免了LSTM 模型在提取文本特征的過程中,只保留 “過去”信息的弊端。Bi-LSTM 在設(shè)計上避免了長期依賴,在對文本進行特征提取時,充分考慮到了文本前后文信息之間的相互影響。通過Bi-LSTM 可以對句子進行從前到后以及從后到前的完整的上下文信息保存[28]。圖4 是Bi-LSTM 的算法原理圖示例。

      圖4 Bi-LSTM 算法原理Fig.4 Principle of Bi-LSTM algorithm

      3.4 評價指標

      本文采用類別測評中所常用的準確率(Precision)、召回率(Recall)及F1 值作為評價指標,對模型的最終性能進行評價。

      4 實驗結(jié)果及分析

      4.1 實驗數(shù)據(jù)

      本文選取的典籍數(shù)據(jù)是春秋時期的編年體著作《左傳》 文本,對 《左傳》 構(gòu)建了一個具有10 個類別的觸發(fā)動詞分類體系?!蹲髠鳌?是一部編年體史書,由于春秋時期的歷史背景,在不同時期書中所描述和記載的多種類別事件的數(shù)量差別較大,10 個類別所包含的事件句的數(shù)量及涵蓋的范圍均具有較大差異。因此本研究從中選取了原文中描述篇幅較多且能夠揭示春秋時期較為完整的歷史風貌的4 類事件作為研究對象,將軍事行動、人口流動、政治外交、結(jié)盟議和4個類別的事件句作為實驗數(shù)據(jù),并分別為其賦予 “軍事、遷移、政治、結(jié)盟”4 個類別標簽。數(shù)據(jù)集中共有4 346 條數(shù)據(jù),其中訓(xùn)練集2 282 條,測試集1 033 條,驗證集1 031 條。數(shù)據(jù)集文本均采用UTF-8 編碼格式存儲。

      4.2 實驗環(huán)境

      實驗環(huán)境是一臺Window 10 家庭中文版操作系統(tǒng),第七代智能英特爾CORE i5-7200U CPU、2.4 GHz、12G 內(nèi)存組件的筆記本電腦。使用編程語言為Python。

      4.3 模型參數(shù)

      實驗參數(shù)的合理設(shè)置對實驗結(jié)果有直接影響,訓(xùn)練開始之前對模型的各項指標進行了初始設(shè)置,具體的數(shù)值如表2 所示。參數(shù)調(diào)整過程中使用固定其他參數(shù)的方法,對丟棄率這一參數(shù)進行調(diào)整設(shè)置了對比實驗。當準確率不再上升時則停止訓(xùn)練,以此來避免過擬合、不收斂等問題,同時也可以加快模型訓(xùn)練和特征學(xué)習(xí)的速度,提高調(diào)參效率。

      表2 分類實驗參數(shù)設(shè)置Table 2 Classification experiment parameter settings

      4.4 實驗結(jié)果

      在進行分類實驗之前,首先對將要用于訓(xùn)練的數(shù)據(jù)集進行了統(tǒng)計分析,之后通過改變dropout 參數(shù)進行了3 次對比實驗,并通過對驗證集的測試選定了效果最顯著的參數(shù)設(shè)置。對最終訓(xùn)練出的分類器運用測試集進行了性能評估。

      4.4.1 語料分布

      在進行分類實驗之前,先對語料的分布和長度做了自動統(tǒng)計并將分布情況可視化。由圖5 可以看出,訓(xùn)練集包含的4 類數(shù)據(jù)占比為4:2:1:1。這是因為 《左傳》 原文中關(guān)于軍事行動的事件描述較多,其次是遷移事件帶來的人口流動,結(jié)盟活動和政治外交活動也是春秋時期社會生活中比較重要和頻繁的事件,但相較于其他兩類描述較少。具體來說,共包含軍事類1 139條,遷移類577 條,政治類287 條,結(jié)盟類279 條。

      圖5 訓(xùn)練集數(shù)據(jù)分布情況Fig.5 Data distribution of the training set

      4.4.2 對比實驗

      在訓(xùn)練分類器時,對于訓(xùn)練集中的數(shù)據(jù)以每128條數(shù)據(jù)為一組,每次迭代共進行18 組訓(xùn)練。迭代次數(shù)為20 次,同時設(shè)置了監(jiān)測指標min_delta,當兩次迭代后效果的提升小于0.000 1 時,停止迭代。將批尺寸(batch_size)即每一批參與訓(xùn)練的數(shù)據(jù)量設(shè)定為128,是在進行了探索性實驗的基礎(chǔ)得出的最佳參數(shù)值,而迭代次數(shù)則通過設(shè)置監(jiān)測指標根據(jù)每次訓(xùn)練過程中精度的變化情況靈活調(diào)整,最多迭代到20 次,因此本研究不對其這些參數(shù)單獨設(shè)置對比實驗進行探究。

      為了避免過擬合,采用L2 正則化方法約束網(wǎng)絡(luò)參數(shù),初始的丟棄率(dropout)設(shè)為0.5,即每個神經(jīng)元有50%的可能性被丟棄。同時設(shè)置了對比實驗,將dropout調(diào)低至0.3 和調(diào)高至0.9 時分別進行試驗,并通過驗證集的驗證對比分類器的性能。驗證結(jié)果如表3 所示。

      表3 對比實驗驗證結(jié)果Table 3 Comparison of experimental verification results

      表中的0、1、2、3 四個類別分別表示軍事、遷移、政治、結(jié)盟4 個標簽。由表中的數(shù)據(jù)可以看出,在dropout 調(diào)低至0.3 時,分類效果略有降低,表現(xiàn)在遷移類的結(jié)果中F1 值降低了0.01。當把dropout 調(diào)高至0.8 時,分類器的性能有明顯的提升,總體的準確率(Accuracy)由先前的0.92 提升到了0.93,并且在軍事、政治、結(jié)盟4 類數(shù)據(jù)的分類上,F(xiàn)1 的值有所提高。將dropout 繼續(xù)提高至0.9 時分類器的效果有明顯下降,總體的準確率也由0.93 降到了0.88。因此最終選定第三組的參數(shù)設(shè)置訓(xùn)練分類器用于測試。

      4.4.3 測試結(jié)果

      測試集共包含1 033 條數(shù)據(jù),其中軍事類500 條,遷移類251 條,政治類142 條,結(jié)盟類140 條。通過5.5.1中訓(xùn)練出的分類器對其進行測試,計算混淆矩陣并將其可視化之后得到如圖6 所示的結(jié)果。具體的準確率、召回率和F1 的值如表4 所示。

      表4 分類器測試結(jié)果Table 4 Classifier test results

      圖6 測試結(jié)果混淆矩陣Fig.6 Confusion matrix of test results

      由結(jié)果可以看出,軍事類、遷移類、結(jié)盟類、政治類數(shù)據(jù)中分別有490 條、230 條、135 條和123 條分類結(jié)果正確,4 類事件的分類結(jié)果F1 值也均在0.90 以上,總體來說分類效果很好。

      對于誤分類的數(shù)據(jù)而言,由可視化的混淆矩陣可以看出,誤分類數(shù)據(jù)大多集中于軍事類和遷移類事件的交叉部分,這與本文在觸發(fā)詞分類體系構(gòu)建的分析中得出的結(jié)論一致。由于戰(zhàn)爭等軍事行動的發(fā)生,往往會導(dǎo)致一些逃亡或者人口遷移的事件發(fā)生,因此有的事件句兼有兩類事件的表達,在語義的相似程度上較高,進而導(dǎo)致結(jié)果的誤差。例如表5 中列出的,一些包含 “入、歸”等動詞的事件句在搭配不同主語出現(xiàn)在不同的語境中時,代表著造成事件類別,如 “故衛(wèi)師入郕”一句中的入表示衛(wèi)國的軍隊攻入了郕城,表示軍事戰(zhàn)爭類事件,而非遷入或進入郕城地界的意思,分類器將其誤分為了遷移類事件。在軍事類事件句中有一些表征戰(zhàn)爭原因或結(jié)果的句子也會出現(xiàn)誤分類現(xiàn)象,如 “以討其不與盟于齊也”一句表示戰(zhàn)爭發(fā)生的原因是不與齊國結(jié)盟,而非真正的結(jié)盟類事件。此外,在戰(zhàn)爭或軍事行動過程中涉及到一些借兵、借道等事件的發(fā)生,與政治類事件存在一定的交叉導(dǎo)致誤分類現(xiàn)象。

      表5 誤分類事件句示例Table 5 Examples of misclassified incident sentences

      5 總結(jié)與展望

      本文在觸發(fā)詞分類體系和語義數(shù)據(jù)集構(gòu)建的基礎(chǔ)上,運用深度學(xué)習(xí)算法模型Bi-LSTM,進行了典籍觸發(fā)詞及事件句文本的多元自動分類探索。在分類模型的構(gòu)建過程中,首先進行了數(shù)據(jù)集的合理分割,然后采取不同的編碼方式對類別標簽數(shù)據(jù)和句子文本數(shù)據(jù)進行了差異化的分別編碼,隨后將其輸入到模型中構(gòu)建神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練生成分類器,并選取通用的評價標準對分類器的性能進行了評估。在后續(xù)實驗過程中,選擇了 《左傳》 文本中的4 類事件句文本作為實驗數(shù)據(jù),先對語料的分布情況做了直觀的分析,其次通過參數(shù)的調(diào)整設(shè)置了對比實驗,并通過不同情況下在驗證集上的表現(xiàn)選定了效果最顯著的分類器,通過測試集數(shù)據(jù)的檢驗評價分類器的性能,最終的精確度達到了0.95,證明本文所提出的基于觸發(fā)詞進行事件文本自動分類的方法和構(gòu)建的分類模型是行之有效的。在后續(xù)的研究中,對于其他深度學(xué)習(xí)的分類算法模型在典籍事件文本分類中的效果還有待進一步的探索,例如在Bi-LSTM 的基礎(chǔ)上加入Attention 機制后的表現(xiàn),通過對比不同分類模型和處理方式在典籍事件觸發(fā)詞多元分類任務(wù)中的表現(xiàn),確定最適用于典籍事件分類的一種。此外,對于增加樣本類別數(shù)量之后的情況有待進一步的研究,探索針對更加多元的事件類別分析的方法,以進一步豐富本研究的成果。

      猜你喜歡
      典籍類別分類器
      《典籍里的中國》為什么火?
      金橋(2021年4期)2021-05-21 08:19:24
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      在詩詞典籍中賞春日盛景
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      典籍翻譯模式的構(gòu)建與啟發(fā)
      先秦典籍中的男嬖形象探微
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      政和县| 阳山县| 桐梓县| 旬邑县| 铜鼓县| 东乡族自治县| 泰宁县| 康马县| 靖江市| 聂荣县| 桦南县| 钟山县| 晋州市| 惠东县| 周至县| 商都县| 丹江口市| 兴仁县| 阿合奇县| 阜平县| 抚远县| 拉萨市| 安塞县| 喀喇| 达孜县| 卢氏县| 藁城市| 青川县| 探索| 阳谷县| 汽车| 温宿县| 禹州市| 林西县| 静宁县| 岐山县| 昌平区| 德州市| 乡宁县| 云安县| 富蕴县|