• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      時間維度下的史籍全文自動重組研究—數(shù)字人文視角下的探索

      2022-04-01 01:57:16張琪王東波黃水清李斌孟凱鄧三鴻
      圖書情報知識 2022年1期
      關(guān)鍵詞:王公史書古漢語

      張琪 王東波 黃水清 李斌 孟凱 鄧三鴻

      (1.南京大學(xué)信息管理學(xué)院,南京,210023; 2.南京農(nóng)業(yè)大學(xué)信息管理學(xué)院,江蘇,21095; 3.南京師范大學(xué)文學(xué)院,南京,210023; 4.南京農(nóng)業(yè)大學(xué)馬克思主義學(xué)院,南京,210095; 5.江蘇省數(shù)據(jù)工程與知識服務(wù)重點實驗室,南京,210023)

      1 引言

      時間是信息空間的重要維度[1],也是歷史學(xué)家研究歷史主體的重要工具[2]。在時間序列中,史學(xué)家“通古今之變”,揭示社會、經(jīng)濟、文化的發(fā)展線索與規(guī)律。然而,在以紀(jì)傳體、國別體、紀(jì)事本末體等體裁寫就的史書中,時間線索被斬斷。一方面,描述同一時間段歷史事件的史料分散于一部史書的各卷乃至多部史書之中;另一方面,史書中的時間描述存在省略、共指、歧義、模糊等特點。在兩者的共同作用下,增加了讀者收集和處理信息的負(fù)擔(dān)。

      知識重組旨在重新組織知識客體,從而克服因知識分散而造成的檢索困難[3]。以時間為線索重組史籍能夠有效解決時間維度下史料分散的問題,幫助讀者快速定位與時間相關(guān)聯(lián)的所有相關(guān)史料。然而,古漢語史書時間描述中時間元素的多樣性與復(fù)雜性使得任務(wù)具有極高的復(fù)雜度。一方面,“桓公”“齊桓公小白”“齊桓公午”等表述存在歧義與共指;另一方面,“後三年”“十一月晦”等時間描述缺失必要的時間元素。文獻(xiàn)[4]將時間描述劃分為精確型時間描述(Precise Time Expressions,如“桓公五年”“五年”)、模糊型時間描述(如“昔者”“先日”“將來”“后代”等)以及事件觸發(fā)型時間描述(“桓公立”“幽公弟沸自立,是為魏公”)等類型。Zhao和Jin等人[5]進(jìn)一步將精確型時間描述劃分為時間元素完備的顯式時間描述(Explicit Time Expressions,如“秦穆公任好元年”“桓公五年”)和缺失時間元素的隱式時間描述(Implicit Time Expressions,如“元年”“其歲”“後三年”“十一月晦”)。可見,時間維度下的史書全文重組無法通過簡單的字符串處理完成。

      歷史上,“東漢史學(xué)家荀悅將紀(jì)傳體的《漢書》刪改成編年體的《漢紀(jì)》[6]”。固然,除完成時間維度的史書全文重組外,《漢紀(jì)》還采用類舉等方法為編年體史書的寫作做出了卓越的貢獻(xiàn)。然而就時間維度的史料查詢層面來看,隨著歷史的推移和史書數(shù)量的增多,時間維度的信息離散規(guī)模也隨之?dāng)U大—歷代史官以紀(jì)傳體寫就二十五部正史(又有二十四史,二十六史之說);“《隋書·經(jīng)籍志》著錄史書817部”[7]……顯然難以通過人工完成對所有史書的重寫。數(shù)字人文的研究范式下,面對規(guī)模龐大的史籍,亟待探索一套以時間為線索重組史書全文的自動化方法。

      本研究探索了以時間為線索重組史書全文的方法,并將其分解為以下兩個子問題:

      (1)古漢語時間描述識別與語義解析:完成時間描述識別、時間描述規(guī)范化和時間表達(dá)式鏈接;

      (2)事件句識別與事件時間語義關(guān)聯(lián):包含事件句識別和事件時間語義關(guān)聯(lián)。

      最終,本文將提出的方法應(yīng)用于紀(jì)傳體史書《史記》與國別體史書《國語》中,檢驗方法的有效性。本研究采用數(shù)字手段回應(yīng)人文研究中信息獲取和處理的需求,旨在破除紀(jì)傳體等史書體裁形成的時間信息獲取壁壘,從而改善人文領(lǐng)域?qū)W者獲取信息的方式方法。這是數(shù)字人文研究的具體實踐,也是對情報學(xué)傳統(tǒng)研究領(lǐng)域信息獲取與處理技術(shù)的探究。

      2 相關(guān)研究

      以時間為主線呈現(xiàn)事件的發(fā)生和發(fā)展是后續(xù)對事件演化形勢的研判、分析、預(yù)測的基礎(chǔ)。然而在以自然語言組成的新聞、醫(yī)療等文本中,語言的多樣性導(dǎo)致對時間的具體描述往往具有省略、模糊等特性,無法直接加以利用,因此對時間信息處理方法的探索引發(fā)了各國學(xué)者的關(guān)注。

      英文與現(xiàn)代漢語領(lǐng)域?qū)r間信息處理的研究已經(jīng)相對比較成熟,相關(guān)研究主要涉及時間描述抽取、時間描述規(guī)范化以及時間事件關(guān)系抽取三方面:

      (1)時間描述抽?。═emporal Extraction)的主要任務(wù)是識別非結(jié)構(gòu)化文本中時間描述的邊界及其具體類別。時間描述類別及標(biāo)注規(guī)范方面,繼英文領(lǐng)域相關(guān)規(guī)范推出并應(yīng)用于后續(xù)任務(wù)之后,自動內(nèi)容抽取項目(Automatic Content Extraction Program,ACE)[4]于2009年發(fā)布了中文時間標(biāo)注規(guī)范,將中文時間描述劃分為精確型、模糊型、事件觸發(fā)型等,為后續(xù)開展現(xiàn)代漢語時間信息處理研究奠定了基礎(chǔ);時間描述識別算法與模型方面,冷啟動條件下往往采用基于規(guī)則的方法[8-9]。隨著中英領(lǐng)域相關(guān)語料庫日漸成熟,機器學(xué)習(xí)和深度學(xué)習(xí)的方法受到更多關(guān)注[10-11]。

      (2)時間規(guī)范化(Temporal Normalization)是指利用時間描述之間的關(guān)系,將文本中的時間描述如“下周三”“某月某日”等轉(zhuǎn)變?yōu)樾稳纭澳?月-日”的規(guī)范化表達(dá)。相關(guān)研究主要面向新聞文本提出上下文無關(guān)策略和上下文局部相關(guān)策略,前者將新聞文本的發(fā)布時間作為參照時間(Reference Time),后者則主要采用最鄰近的上文時間作為參照時間,之后又提出了兩者相融合的動態(tài)選擇方法[5]。本研究分析了涉及古漢語時間的規(guī)范化問題,由于史籍成書時間對正文具體時間描述的參照價值較小,因此必須結(jié)合史書自身特點制定相應(yīng)的時間規(guī)范化方法。

      (3)時間事件關(guān)系抽取(Temporal Relation Extraction)包括事件與時間的關(guān)系[12](又稱為事件時間對齊,Event Time Alignment)以及事件時序關(guān)系[13],前者確定事件與時間描述的關(guān)系,后者確定事件發(fā)生的先后順序。其中,事件與時間的關(guān)聯(lián)主要通過文本內(nèi)容的相關(guān)性、修辭成分等特征確定,文本中所描述的事件往往與上下文中一定范圍內(nèi)出現(xiàn)的時間具有相關(guān)性,但在史書中呈現(xiàn)何種關(guān)聯(lián)仍有待探索。

      綜合已有研究所涉及的語言類別及文本類別可知,過去對時間信息處理的研究主要集中在英文及現(xiàn)代漢語領(lǐng)域且主要面向新聞文本,近年來則正在朝多語言[14]、多領(lǐng)域[15-16]的方向發(fā)展。

      相較于英文與現(xiàn)代漢語,古漢語文本中的時間描述更具特殊性和多樣性。特殊性主要體現(xiàn)在紀(jì)年法的不同,多樣性則表現(xiàn)在古漢語中除年、月、日之外還有王公名、年號等時間元素,因此古漢語時間信息處理與上述研究存在較大差異。需要指出的是,古籍的成書年代、版本年代屬于外部書目信息,相關(guān)研究如王兆鵬、邵大為[17]以作品創(chuàng)作時間、創(chuàng)作地點為基礎(chǔ)實現(xiàn)時間和空間維度下的古代作家資料的整理,而本研究旨在探索史籍全文在時間維度下的自動重組,因此主要關(guān)注史籍全文中所包含的時間描述信息。目前相關(guān)研究主要包括:肖懷志[18]構(gòu)建了一個歷史年代知識元本體,建?!度龂尽匪婕暗哪晏柵c帝王之間的關(guān)系,但僅在理論層面指出了古漢語時間的歧義性,且未探索時間描述自動識別與語義解析的具體方法;董慧、徐雷等[19]提出一套古漢語時間處理流程,主要包含時間表達(dá)式抽取模塊及以段落為單位的時間規(guī)范化模塊,但未考慮古漢語時間描述歧義的問題;徐蒙蒙[19]分析了地方志中的時間信息,并初步提出地方志時間描述規(guī)范化的方法。

      總體來看,目前缺少以下兩項關(guān)鍵研究導(dǎo)致無法支持以時間為線索的史書全文重組:

      (1)古漢語時間描述消歧與共指消解方法,這一點正是古漢語時間處理與英文、現(xiàn)代漢語時間處理的核心區(qū)別,例如“桓公元年”這一時間描述雖包含了完整的時間元素,但“桓公”這一王公名存在歧義;

      (2)缺少時間事件句關(guān)系識別的相關(guān)研究。對上述問題的探索,不僅能夠為史書知識跨體裁自動獲取與呈現(xiàn)奠定基礎(chǔ),還有利于促進(jìn)古漢語時間信息處理向深層次、語義化的方向發(fā)展。

      3 時間維度下的史籍全文自動重組方法

      3.1 技術(shù)路線

      如圖1所示,系統(tǒng)以卷為單位(如《高祖本紀(jì)》卷)處理史書原文。經(jīng)過詞性標(biāo)注之后,進(jìn)入兩個核心處理模塊。一是時間描述識別與語義解析模塊的處理過程,如下:

      (1)識別原文中的時間描述(如“桓公五年”“二十七年”);

      (2)將存在省略、共指、歧義、模糊性的時間描述統(tǒng)一規(guī)范化為具有包含完整元素的古漢語時間表達(dá)式;

      (3)將時間表達(dá)式轉(zhuǎn)化為基準(zhǔn)統(tǒng)一、語義唯一(無歧義與共指)的公元時間表達(dá)式。

      二是事件句識別與事件時間語義關(guān)聯(lián)模塊的處理過程,如下:

      (1)剔除“王翦者,頻陽東鄉(xiāng)人也”等陳述客觀事實而非表述事件的句子;

      (2)大量事件句中不包含時間描述,因此需要通過對史書文本的分析制定方法,建立事件句與時間描述之間的語義關(guān)聯(lián)。

      圖1 ?時間維度下的史籍全文自動重組技術(shù)路線Fig.1 Technology Roadmap of Automatic Reorganization of Historical Records from Time Dimension

      圖2 ?時間描述識別與語義解析示例Fig. 2 Examples of Ancient Chinese Temporal Expression Recognition and Semantic Parsing

      兩個核心模塊分別實現(xiàn)了事件句與時間描述以及時間描述與公元時間軸的兩層語義關(guān)聯(lián),從而使史書中的事件句得以定位于基準(zhǔn)統(tǒng)一的時間軸上,實現(xiàn)時間維度下的史籍全文自動重組。兩個核心模塊的進(jìn)一步描述與其各個子模塊的具體實現(xiàn)方法分別在3.2和3.3節(jié)中進(jìn)行闡述。

      3.2 時間描述識別與語義解析

      如圖2所示,時間描述識別與語義解析包含三部分,即時間描述識別、時間描述規(guī)范化和時間表達(dá)式鏈接。

      3.2.1 時間描述識別

      與時間詞不同,時間描述指文獻(xiàn)中描述時間的完整表述。如“秦侯(NB1)立(VH1)十(S)年(NA5)……”中包含時間詞“年”以及時間描述“秦侯立十年”;又如句子“竫公(NB1)子(NA1)立(VH1),是(NH)為(VG)寧公(NB1)”不含時間詞,但包含事件觸發(fā)型時間描述“寧公立”。本研究采用規(guī)則匹配的方法識別史書中時間描述的邊界及其所屬類別,具體規(guī)則見腳注①https://github.com/strawberrylunar/ancient-chinese-time-expression中的說明,識別結(jié)果示例如表1所示。

      對于同一個句子中存在多個時間描述情況,借鑒文獻(xiàn)[11]采用優(yōu)先權(quán)值的方法選擇時間表達(dá)式,本文結(jié)合史書時間描述的特點進(jìn)一步根據(jù)不同的情景確定時間描述的優(yōu)先權(quán)值,最終保留優(yōu)先權(quán)值最高的時間描述,其余的時間描述均去除,保證一個句子只有一個時間表達(dá)式。如圖3所示,以句子“<繆侯七年>,而<魯隱公元年>也”為例,該句包含兩個時間描述,由于前文包含顯式時間描述,因此進(jìn)一步判斷句子中是否包含王公轉(zhuǎn)換觸發(fā)詞。由于不包含王公轉(zhuǎn)換觸發(fā)詞,因此根據(jù)各個時間描述在句子中的位置確定兩個時間描述的優(yōu)先權(quán)值,“繆侯七年”的位置為[1,4](即句子“繆侯七年,而魯隱公元年也”的第一個字至第四個字),而“魯隱公元年”的位置為[7,11],前者位置更靠前,因此最終保留“繆侯七年”。

      3.2.2 時間描述規(guī)范化

      時間描述規(guī)范化的目的是將上一節(jié)從原文中識別到的時間描述轉(zhuǎn)化為包含王公(或年號)、年份、月份等時間元素的時間表達(dá)式。本研究根據(jù)不同時間描述類型的特點,分別制定了不同的時間規(guī)范化方法。

      表1 ?時間描述識別結(jié)果示例Table 1 Examples of Time Expression Recognition Results

      圖3 ?基于具體語境的時間描述優(yōu)先權(quán)確定方法Fig.3 Method of Determining the Priority of Time Expression According to Specific Context

      精確型時間描述包含顯式時間描述與隱式時間描述。顯式時間描述的規(guī)范化無需依靠參照時間,直接在時間描述實例內(nèi)部提取相應(yīng)時間元素分別填充對應(yīng)槽位即可。隱式時間描述規(guī)范化則需要結(jié)合參照時間、偏移粒度、偏移量,將時間描述(如“元年”)解析為包含完整時間元素的時間表達(dá)式(如“王公:齊桓公;年份:元年”和“年號:元鼎;年份:三年”)。不同的文本類型在參照時間的選擇方法上有所差異,一般分為上下文無關(guān)策略和上下文局部相關(guān)策略。與新聞、臨床報告等文本不同,史書對歷史事件的時間描述較少以成書時間為基準(zhǔn),而往往以上文時間描述為參照,因此本研究采用上文局部相關(guān)策略規(guī)范化隱式時間描述。其中,“二十七年”“元年”等省略型時間直接從參照時間中提取缺失的信息;“是歲”“後六年”等方位型時間描述則首先獲取偏移方向、偏移粒度以及偏移量,完成后再進(jìn)行規(guī)范化處理。值得注意的是,若方位型時間前為模糊型時間,其參照時間不應(yīng)繼續(xù)向前追溯。

      事件觸發(fā)型時間描述通過特殊事件指出具體時間,本文主要考慮了如“幽公弟沸自立,是為魏公”等王公即位型時間描述,即通過王位更替這一特殊事件指明時間。值得注意的是,各諸侯國在王位的更替銜接中在何年為元年的問題上具有不同的取向。根據(jù)陳美東[21]對西周共和之后紀(jì)年法進(jìn)行系統(tǒng)探究所得出的結(jié)論可知,大部分諸侯國采用次年王公紀(jì)年法,而晉、宋、衛(wèi)采用當(dāng)年王公紀(jì)年法。因此,將涉及晉、宋、衛(wèi)三國的王公即位型時間描述的年份設(shè)為“元年”,其他國家王公的時間描述均設(shè)為“零年”(元年的前一年)。

      模糊型時間描述無法準(zhǔn)確定位在時間軸上,且轉(zhuǎn)換后的結(jié)果將直接影響后續(xù)時間描述規(guī)范化的準(zhǔn)確性,因此僅做識別但不進(jìn)行規(guī)范化處理。

      圖4 ?王公實體消歧實例Fig.4 Example of Emperor Entities' Disambiguation

      3.2.3 時間表達(dá)式鏈接

      {王公:桓公,年份:二十七年}、{王公:繆公,年份:元年}等時間表達(dá)式具有完整時間元素,但無法直接通過計算定位在同一條時間軸上,必須解決的問題包括時間元素層面的歧義、共指,以及時間表達(dá)式整體層面的共指。

      (1)時間元素消歧與共指消解

      古漢語時間元素的歧義主要在于王公名(或年號)存在歧義,例如,僅春秋戰(zhàn)國時期謚號為“桓公”的王公多達(dá)十一位。為此,本研究探索了作為時間元素的王公實體的自動消歧方法。如圖4所示,首先生成候選實體列表(Candidate Entity Generation),繼而結(jié)合上下文信息進(jìn)行置信度排序從而完成消歧(Entity Disambiguation)。

      ① 生成王公候選歧義列表與王公別名列表

      若王公名Mi存在歧義,則其具有候選王公候選歧義列表Ci=(ei1,...,eij)。本研究構(gòu)建王公候選歧義列表的方法如下:首先,編寫正則表達(dá)式匹配史書年表中形如“齊桓公小白”“齊桓公午”等王公主稱謂。其次,將其進(jìn)行分解從而得到王公的多個別名,并通過史書引得進(jìn)一步補充王公別名,形成王公別名表,如表2所示。最后,對王公別名表進(jìn)行縱向?qū)Ρ龋魞蓚€或多個王公實體具有相同別名,則將相同別名放入王公歧義列表,同時將其對應(yīng)的所有王公主稱謂放入該歧義王公名的候選歧義列表。例如,“齊桓公”具有歧義,其對應(yīng)的王公候選歧義列表包括“齊桓公小白”與“齊桓公午”等。

      ② 基于上下文信息相關(guān)度排序完成王公實體消歧

      通過對包含歧義王公名的文本內(nèi)容及邏輯結(jié)構(gòu)進(jìn)行分析,發(fā)現(xiàn)以下特征:

      (a)歧義王公名中被省略的“國家”元素在上文出現(xiàn)頻率較高;(b)史書篇章內(nèi)部的時間記敘多為順序。因此,分別計算了候選王公所屬諸侯國上文出現(xiàn)頻率、候選王公與上文王公實體的時間連貫性,將兩者轉(zhuǎn)化為權(quán)重值相加,得分最高的候選實體作為消歧結(jié)果,具體實現(xiàn)方法如下:

      表2 ?王公別名列表與歧義列表生成示例Table 2 Examples of Generating Alias List and Ambiguity List

      首先,統(tǒng)計歧義王公上文中各諸侯國的出現(xiàn)頻次。由于“齊桓公小白”等王公正式稱謂均包含其所屬國家(諸侯國),因此若判定歧義王公所屬國家,便可大范圍縮小鏈接范圍。統(tǒng)計歧義實體的上文(Preceding Text)中各候選王公實體所屬國家ekij的出現(xiàn)頻次Npre(ekij),頻次越高,候選王公實體的權(quán)重也越高,如公式1所示。

      然后,量化候選王公與上文王公實體的時間連貫性。與前文最相鄰時間描述所對應(yīng)的公元時間進(jìn)行大小比較,大于前文時間且時間距離越近則時間連貫性越強,如公式2所示。

      最終,將上述兩項轉(zhuǎn)化為權(quán)重值相加(公式3),得到歧義王公與候選王公列表中各個實體的相關(guān)度權(quán)重。將相關(guān)度權(quán)重排序,將權(quán)重最高的ei作為消歧結(jié)果輸出,如公式4所示。

      ③ 借助王公別名列表完成王公實體的共指消解

      如表2所示,在生成王公候選歧義列表的過程中,也生成了王公別名列表(如“齊桓公小白”的別名有:“齊桓公”“小白”“小白”“桓公小白”“公子小白”)。在前文完成王公實體消歧的基礎(chǔ)上,以該別名列表為依據(jù),通過映射完成王公實體的共指消解。

      (2)時間表達(dá)式整體共指消解

      對于“王公:秦繆公任好,年份:元年”“齊桓公小白,年份:二十七年”等時間表達(dá)式整體層面的共指問題,由于以《春秋》等史書采用一國紀(jì)年作為基準(zhǔn)的方式難以串聯(lián)所有的歷史時期,本文以近代史學(xué)家所制定的中西歷對照表為基準(zhǔn),以公元紀(jì)年為標(biāo)準(zhǔn)統(tǒng)一所有時間描述。經(jīng)過上述規(guī)范化處理與消歧、共指消解處理,史書原文中的“二十七年”等時間描述被解析為具有完整時間元素的古漢語時間表達(dá)式與公元時間表達(dá)式。

      3.3 事件句識別與事件時間語義關(guān)聯(lián)

      為實現(xiàn)史書原文句子以時間為線索的重組,必須確定句子與時間描述之間的關(guān)系。然而,一方面,并非所有句子都具有事件屬性,例如“二十七年,魯泯公母曰哀姜,桓公女弟也”雖包含時間描述,但其僅表述客觀事實,因此不具有事件屬性,不應(yīng)定位于時間軸上;另一方面,大量事件句自身不包含時間描述,如“桓公召哀姜,殺之”。本研究首先識別事件句,然后將事件句關(guān)聯(lián)至?xí)r間描述,如圖5所示。

      3.3.1 事件句識別

      事件句表示一個具有實際終點的、敘述完整且獨立的句子[22],自然語言處理領(lǐng)域多借助動詞、介詞短語等標(biāo)注事件句[23-24]。本文結(jié)合詞性標(biāo)記識別事件句,以臺灣“中央研究院”所提供的標(biāo)注集為例,該數(shù)據(jù)集將動詞分為動作類動詞(動作不及物動詞、動作類單賓動詞等6種,標(biāo)記為VA-VF)、狀態(tài)類動詞(狀態(tài)不及物動詞、狀態(tài)句賓動詞等5種,標(biāo)記為VH-VL)以及分類動詞(VG)三類[25]。本文將包含動作類動詞及狀態(tài)類動詞的句子視為事件句,識別結(jié)果示例如表3所示。

      圖5 ?事件句識別與事件時間語義關(guān)聯(lián)實例Fig 5 Examples of Event Sentence Recognition and Event-time Relation Extraction

      表3 ?事件句識別結(jié)果示例Table 3 Examples of Event Sentence Recognition Results

      3.3.2 事件時間語義關(guān)聯(lián)

      由于史書寫作具有很強的邏輯性,文本中所記載的事件往往與其在一定距離范圍內(nèi)的時間描述相關(guān)聯(lián),因此本文采用了前向鄰近時間焦點保留的方法,并考慮了時間焦點轉(zhuǎn)移的情況,從而完成事件句與時間描述的語義關(guān)聯(lián)。具體處理過程如下:按文本敘述先后順序輸入所有事件句,若事件句中含有時間描述,直接將其與事件句關(guān)聯(lián);若事件句中不含時間描述,則首先判斷時間焦點是否發(fā)生轉(zhuǎn)移。在時間焦點未發(fā)生轉(zhuǎn)移的情況下(見表4),鏈接至上文最鄰近時間描述;若時間焦點轉(zhuǎn)移,則時間置為空,直至出現(xiàn)下一個時間描述。

      表4 ?時間焦點轉(zhuǎn)移類型Table 4 Types of Time Focus Shift

      4 時間維度下的《國語》《史記》重組

      本章將上文提出的方法應(yīng)用至體裁不同的史書,從而驗證其有效性。鑒于中國古代由史官寫就的正史均采用紀(jì)傳體,因此選取我國第一部紀(jì)傳體史書《史記》,另外選取了與《史記》所涉時代有重疊的另一部國別體史書《國語》。下文首先介紹語料的獲取與預(yù)處理過程,然后對系統(tǒng)標(biāo)注結(jié)果進(jìn)行評價與分析。

      4.1 語料來源與預(yù)處理

      本文分別基于臺灣“中央研究院”上古漢語語料庫[26]與中國哲學(xué)電子書電子計劃[27]中獲取兩冊史書的兩種電子化語料,前者包含領(lǐng)域?qū)<宜砑拥姆衷~與詞性標(biāo)記、特征標(biāo)記;后者具有段落信息,且包含已添加公元年份的史書年表,整合之后得到本研究所采用的語料,語料基礎(chǔ)信息在表5中給出。在此基礎(chǔ)上,將每卷語料按句進(jìn)行分割,并為其中每個句子添加由“段落號-句子編號”組成的唯一標(biāo)識。

      表5 ?實驗語料基礎(chǔ)信息Table 5 Basic Information of Experimental Corpus

      王公名消歧與共指消解所采用的王公同名詞典與王公別名詞典的具體獲取方式已在上文給出。此處針對《史記》與《國語》的抽取結(jié)果如下:共獲得具有歧義的王公名233個(如“桓公”),共涉及1,012位王公(如“齊桓公小白”“齊桓公午”等);共獲得具有別名的王公963位(如“齊桓公小白”),共涉及2,255個王公名(如“公子小白”“桓公小白”“小白”“桓公”“齊桓公”),平均每個王公有2.34個別名。

      中西歷時間映射詞典獲取自經(jīng)人工補齊公元年份的《史記》年表[27]。編寫正則表達(dá)式提取王公主稱謂(若缺少王公所屬國,根據(jù)表頭自動補齊)及其在位元年所對應(yīng)的公元年份,共獲取441條記錄,詞典樣例如表6所示。

      表6 ?中西歷映射詞典樣例Table 6 Examples of Chinese and Western Calendar Mapping Dictionary

      4.2 實驗結(jié)果

      融合《國語》《史記》兩部史書的歷史事件時間軸示例如圖6所示,《史記·周本紀(jì)》《史記·秦本紀(jì)》以及《周語·國語上》等不同史書或不同卷冊中的歷史事件被定位至同一時間軸上。可見本研究提出的方法能夠有效地將《史記》等非編年體史書中的歷史事件以時間為脈絡(luò)重組,便于以時間為索引獲取同一史書以及不同史書中的相關(guān)信息。

      為了對處理效果進(jìn)行定量評價,表7給出了《史記》《國語》的處理結(jié)果。最終《史記》中有19,868個事件句定位于時間軸上,《國語》中則有715個事件句定位于時間軸上。需要進(jìn)一步說明的是,部分直接從原文中獲取的時間描述及其所對應(yīng)的事件句未能鏈接至公元時間軸,主要原因如下:

      (1)時間描述規(guī)范化過程中,與新聞文本中前文缺乏局部參照時間時可轉(zhuǎn)而采用參照發(fā)布時間不同,若前文缺乏可參照時間,隱式時間描述無法進(jìn)行規(guī)范化;

      圖6 ?歷史事件時間軸生成結(jié)果示例Fig. 6 Examples of Historical Events' Timeline Generation Results

      (2)時間表達(dá)式鏈接過程中,部分規(guī)范化之后的時間表達(dá)式因目前無法考證其具體所指公元年份,無法鏈接至公元時間,如“帝顓頊元年”“周文王元年”;

      (3)實驗所采用中西歷映射表缺乏相關(guān)信息從而導(dǎo)致的時間表達(dá)式鏈接失敗,如“軍臣單于”的在位元年在年表中未給出,之后將進(jìn)一步擴大中西歷映射表覆蓋范圍。

      為了進(jìn)一步評價系統(tǒng)準(zhǔn)確率,在《史記》本紀(jì)、世家、列傳中各隨機選取一卷,在《國語》中選取包含時間描述最多的《晉語四》,人工校驗各處理階段系統(tǒng)的準(zhǔn)確率,結(jié)果在表8中給出。

      如表8所示,總體來看系統(tǒng)達(dá)到了較高的準(zhǔn)確率,其中《史記》三卷的準(zhǔn)確率均達(dá)到89%以上,《晉語四》的準(zhǔn)確率則為77.33%,可見本研究在減少人工標(biāo)注的前提下,達(dá)到了較高的準(zhǔn)確率,取得了較好的應(yīng)用效果。

      為了開展進(jìn)一步的相關(guān)研究,下面主要對系統(tǒng)實現(xiàn)方法存在的不足做分析,提出未來在方法層面改進(jìn)的可能方向。從系統(tǒng)不同模塊的處理效果來看,時間描述識別、時間表達(dá)式鏈接、事件句識別均已達(dá)到了較高的準(zhǔn)確率,因此重點分析時間描述規(guī)范化、事件時間語義關(guān)聯(lián)方法等存在的缺陷以及今后的提升方向。

      時間描述規(guī)范化模塊存在的主要問題是不同史書效果的差異。人工檢驗發(fā)現(xiàn),《國語》中大量隱式時間在上下文并無可參照時間。未來一方面可以進(jìn)一步探討特殊情況下時間描述規(guī)范化的方法;另一方面可以引入異文句,借助描述相同事件句子所包含的時間信息加以修正。

      事件時間語義關(guān)聯(lián)則可從以下兩方面出發(fā)展開進(jìn)一步探索:

      (1)部分事件句無法關(guān)聯(lián)至上下文中的任何時間描述,例如《田敬仲完世家》有以下描述:“……<立他,為厲公>。厲公既立,娶蔡女。蔡女淫於蔡人,數(shù)歸,厲公亦數(shù)如蔡?;腹僮恿衷箙柟珰⑵涓概c兄,乃令蔡人誘厲公而殺之?!弊詈笠粋€句子“桓公之少子林怨厲公殺……”被錯誤關(guān)聯(lián)至前文最鄰近時間描述“立他,為厲公”,但參照《陳杞世家》“七年,厲公所殺桓公太子免之三弟,……與蔡人共殺厲公而立躍,是為利公”可知陳厲公被殺一事發(fā)生于陳厲公七年。發(fā)生這一錯誤的原因在于《田敬仲完世家》的描述主體非陳國,因此對陳國事件未逐年詳寫。此外,插敘而具體描述中缺乏明顯的指引詞也會導(dǎo)致相同的結(jié)果,例如“是歲,管仲、隰朋皆卒。管仲病,桓公問曰:「群臣誰可相者?」”中“管仲病”為插敘。對于上述情況,同樣可以在完成異文句對齊的基礎(chǔ)上對前者的時間進(jìn)行修正。

      表7 ?《史記》、《國語》處理結(jié)果Table 7 Processing Results of Shi Ji and Guo Yu

      表8 ?各階段準(zhǔn)確率評價結(jié)果Table 8 Evaluation Results of Precision Rate at Each Stage

      (2)由于史書中具體到月的時間描述極少,因此本文僅定位至以年為粒度的時間軸上,同一年內(nèi)的事件句無法通過時間描述排序,而需通過詞法、句法、語義特征、推理規(guī)則判斷事件時序關(guān)系。但目前缺乏古文方面的整理與歸納,未來可以在對相應(yīng)特征及推理規(guī)則進(jìn)行系統(tǒng)整理的基礎(chǔ)上展開進(jìn)一步探索。

      5 總結(jié)與展望

      從上世紀(jì)八十年代開始,英文、現(xiàn)代漢語時間信息處理領(lǐng)域歷經(jīng)三十多年的探究發(fā)展,對時間描述信息的處理已經(jīng)比較成熟。然而古漢語時間描述的特殊性導(dǎo)致目前的相關(guān)研究較少,且大多停留在理論分析上。本研究提出了一套以時間為線索重組史書全文的具體方法,并設(shè)計了一套完整的方法流程對其進(jìn)行了實現(xiàn)。首先,通過古漢語時間描述識別與語義解析,完成時間描述識別、時間描述規(guī)范化和時間表達(dá)式鏈接,從而使史書中的時間描述關(guān)聯(lián)至基準(zhǔn)統(tǒng)一的公元時間軸;然后,通過事件識別與事件時間語義關(guān)聯(lián),實現(xiàn)事件句關(guān)聯(lián)至文中的時間描述。通過上述兩層語義關(guān)聯(lián),事件句得以在時間軸上定位,從而完成以時間為序的史料重排。最后,通過實驗證明系統(tǒng)達(dá)到了較高的準(zhǔn)確率,能夠有效減少人工標(biāo)注,便于大規(guī)模推廣。

      同時,本研究也存在一定局限。首先,本研究目前主要對先秦兩漢時期史書進(jìn)行了驗證,方法的實用性有待通過擴大語料規(guī)模與規(guī)則集之后得到進(jìn)一步證實。其次,本研究在時間描述識別與語義解析的基礎(chǔ)上通過史書事件時間對齊將非編年體史書中的事件句定位到以年為單位上的公元時間軸上。由于史書中具體到月、日的時間描述相對較少,同一年及少量同一時期的事件句之間時序的排列將借助事件時序關(guān)系識別進(jìn)一步確定。未來,我們將在本研究的基礎(chǔ)上展開進(jìn)一步探索。

      作者貢獻(xiàn)說明

      王東波,黃水清:提出研究思路;

      王東波,張琪,李斌,孟凱:設(shè)計研究方案;

      王東波,張琪:采集、清洗和分析數(shù)據(jù),進(jìn)行實驗,起草論文;

      鄧三鴻,張琪:論文最終版本修訂。

      支撐數(shù)據(jù)

      支撐數(shù)據(jù)由作者自存儲,Email:db.wang@njua.edu.cn。

      1、王東波,張琪.Pos_taged_shishu.json.史書詞性標(biāo)注結(jié)果.

      2、王東波,張琪.Dict.json.同名詞典與歧義詞典.

      3、王東波,張琪.Shishu_time_processed_result.json. 史書時間處理結(jié)果.

      猜你喜歡
      王公史書古漢語
      文化常識
      馬周以腳“喝酒”智辯掌柜
      古漢語疑問句末“為”字補證
      《巴林王公世襲》中記載的固倫淑慧公主四子質(zhì)疑
      上古漢語“施”字音義考
      “汗青”原來是史書
      談?wù)劰艥h語的翻譯
      語言與翻譯(2014年1期)2014-07-10 13:06:11
      古漢語中表反問的一組能愿動詞
      語文知識(2014年3期)2014-02-28 21:59:31
      Synthesis of Didodecyl Carbonate via Transesterification Catalyzed by KF/MgO*
      話說王公三則
      襄垣县| 龙江县| 西峡县| 抚顺市| 昌宁县| 锦屏县| 阜宁县| 和静县| 白水县| 敦化市| 拜泉县| 新营市| 福清市| 甘孜县| 大城县| 韶山市| 岑溪市| 阳东县| 廉江市| 青田县| 龙口市| 建始县| 鸡西市| 昆明市| 白银市| 犍为县| 库车县| 措美县| 察隅县| 普安县| 六枝特区| 庆云县| 突泉县| 永和县| 关岭| 南木林县| 镇远县| 呼和浩特市| 漳州市| 邢台县| 安龙县|