周強(qiáng)
(清華大學(xué) 信息技術(shù)研究院語(yǔ)音和語(yǔ)言技術(shù)中心 北京 100084)
漢語(yǔ)謂詞組合范疇語(yǔ)法詞庫(kù)的自動(dòng)構(gòu)建研究
周強(qiáng)
(清華大學(xué) 信息技術(shù)研究院語(yǔ)音和語(yǔ)言技術(shù)中心 北京 100084)
謂詞詞庫(kù)是深層語(yǔ)法模型分析和理解的核心資源。近年來(lái)的常規(guī)方法是人工構(gòu)建或從標(biāo)注語(yǔ)料庫(kù)中自動(dòng)獲取,標(biāo)注規(guī)模和信息容量的擴(kuò)大受制于巨大的人工投入量和標(biāo)注庫(kù)體系設(shè)計(jì)。該文提出了一種多資源融合自動(dòng)構(gòu)建漢語(yǔ)謂詞組合范疇語(yǔ)法(CCG)詞庫(kù)的新方法。從知網(wǎng)、北大語(yǔ)法信息詞典和大規(guī)模事件句式實(shí)例中提取漢語(yǔ)謂詞的不同句法語(yǔ)義分布特征,融合形成CCG原型范疇表示,將它們指派給各資源信息完全重合的謂詞形成核心詞庫(kù)。然后通過(guò)自動(dòng)分類和隸屬度分析相結(jié)合方法對(duì)其他謂詞的CCG范疇進(jìn)行預(yù)測(cè),并對(duì)兩者結(jié)果進(jìn)行融合得到擴(kuò)展詞庫(kù),最終合并形成包含約15,000個(gè)詞條的漢語(yǔ)謂詞CCG詞庫(kù)。通過(guò)在隨機(jī)均勻抽樣的1000個(gè)謂詞上通過(guò)多人獨(dú)立標(biāo)注形成的標(biāo)準(zhǔn)測(cè)試庫(kù)上進(jìn)行不同角度的性能分析實(shí)驗(yàn),表明該詞庫(kù)的預(yù)期準(zhǔn)確率達(dá)到了96.3%。
組合范疇語(yǔ)法;漢語(yǔ)謂詞詞庫(kù);多資源融合
對(duì)文本內(nèi)容的深度理解一直是自然語(yǔ)言處理研究的核心課題。在句子分析層面,隨著一些淺層句法分析(如層次結(jié)構(gòu)樹(shù)和依存樹(shù))和淺層語(yǔ)義分析(如語(yǔ)義角色標(biāo)注)方法的不斷發(fā)展和完善,近年來(lái)的研究工作開(kāi)始轉(zhuǎn)向深層語(yǔ)法理論和相關(guān)資源研究方面。
深層語(yǔ)法理論的主要特點(diǎn)是可以內(nèi)置謂詞-論元(Predicate-Argument,PA)關(guān)系描述和分析機(jī)制,從而可以方便地解決句子語(yǔ)義分析中的句法語(yǔ)義鏈接(Syntactic Semantic Linking)問(wèn)題。理想情況下,一個(gè)基于深層語(yǔ)法理論的自動(dòng)分析器可以同時(shí)得到句子的淺層句法結(jié)構(gòu)樹(shù)或依存樹(shù)表示和淺層語(yǔ)義角色標(biāo)注信息,從而為自動(dòng)提取句子的深層語(yǔ)義表示打下很好的基礎(chǔ)。
深層語(yǔ)法理論的描述核心是融合句法語(yǔ)義鏈接關(guān)系描述的詞匯知識(shí)庫(kù)(詞庫(kù)Lexicon)和相應(yīng)的詞匯組合規(guī)則體系。早期的研究人員一般手工構(gòu)建詞庫(kù)和規(guī)則庫(kù),不僅耗時(shí)費(fèi)力,而且很難完全覆蓋真實(shí)文本中的各種復(fù)雜語(yǔ)言現(xiàn)象。近年來(lái)的主流方法是利用現(xiàn)有標(biāo)注語(yǔ)料庫(kù)自動(dòng)轉(zhuǎn)換生成針對(duì)不同深層語(yǔ)法理論的大規(guī)模標(biāo)注庫(kù),再?gòu)闹刑崛〉玫礁采w面更廣的深層語(yǔ)法詞庫(kù)和規(guī)則庫(kù)。這大大提高了詞庫(kù)構(gòu)建的靈活性和適用性,但前期資源標(biāo)注仍需要投入大量的人工。
本文則希望探索一種能自動(dòng)構(gòu)建出準(zhǔn)確全面的深層語(yǔ)法詞庫(kù)的有效方法。其核心是融合多個(gè)語(yǔ)言資源提供的豐富句法語(yǔ)義分布信息來(lái)預(yù)測(cè)詞庫(kù)標(biāo)記。為此,我們選擇了組合范疇語(yǔ)法(CCG)描述體系,其簡(jiǎn)潔的范疇描述形式可以方便地融合不同資源信息。然后,我們?cè)O(shè)計(jì)了一套有效的多資源融合算法,通過(guò)融合從知網(wǎng)中獲取的動(dòng)詞義原的事件框架和語(yǔ)義角色信息、從北大語(yǔ)法信息詞典中提取的動(dòng)詞句法分布表和從大規(guī)模真實(shí)文本中自動(dòng)提取的典型事件句式分布,可以自動(dòng)預(yù)測(cè)大部分漢語(yǔ)謂詞的CCG范疇,并建立起CCG范疇中的核心論元與知網(wǎng)事件框架語(yǔ)義角色和典型事件分布實(shí)例之間的內(nèi)在聯(lián)系,為進(jìn)一步進(jìn)行各個(gè)核心論元語(yǔ)義限制的自動(dòng)獲取打下了很好的基礎(chǔ)。
在下面幾節(jié)中,第二節(jié)分析前人的相關(guān)工作以及存在的問(wèn)題;第三節(jié)介紹多資源融合方法的基本思路;第四節(jié)給出具體實(shí)現(xiàn)算法的描述;第五節(jié)通過(guò)實(shí)驗(yàn)評(píng)價(jià)驗(yàn)證了該方法的可行性和有效性;第六節(jié)進(jìn)行總結(jié)和展望。
深層語(yǔ)法理論主要包括樹(shù)鄰接文法(LTAG)[1]、詞匯功能語(yǔ)法(LFG)[2]、中心詞驅(qū)動(dòng)短語(yǔ)結(jié)構(gòu)語(yǔ)法(HPSG)[3]和組合范疇語(yǔ)法(CCG)等。LTAG由句法組合以及語(yǔ)法推導(dǎo)樹(shù)集合組成。通常包含一個(gè)或者多個(gè)鄰接樹(shù)。M Candito[4]指出,LTAG難以準(zhǔn)確地展現(xiàn),同時(shí)擴(kuò)展和維護(hù)更令人頭痛。LFG展示了結(jié)構(gòu)樹(shù)之間的關(guān)系,能夠總結(jié)形成一般化語(yǔ)言學(xué)處理方法。但M Dalrymple[5]指出LFG需要龐大的信息庫(kù)或特征集、統(tǒng)一的語(yǔ)法單元,難以通過(guò)人工的方法構(gòu)建,而自動(dòng)方法又難以保證其準(zhǔn)確性。HPSG是一種基于特征的語(yǔ)法標(biāo)注框架,W D Meurers[6]的工作生成了一個(gè)語(yǔ)法體系集合,其中仍然存在類似LFG的問(wèn)題。
而CCG語(yǔ)法卻是一種表達(dá)明確同時(shí)能夠高效處理的語(yǔ)法描述體系。M Steedman[7]提到CCG可以通過(guò)簡(jiǎn)練的描述形式表現(xiàn)出句子中各成分的句法語(yǔ)義關(guān)系。英語(yǔ)方面的初步實(shí)驗(yàn)[8-9]顯示CCG具有很強(qiáng)的分析效率。因此本文選擇了CCG描述體系進(jìn)行漢語(yǔ)謂詞詞庫(kù)的自動(dòng)構(gòu)建研究。
構(gòu)建謂詞詞庫(kù)通常有兩種方法: 人工標(biāo)注和通過(guò)語(yǔ)料庫(kù)轉(zhuǎn)換生成。K K Schuler[10]以人工方式對(duì)WordNet的謂詞分類信息進(jìn)行處理,篩選出WordNet分類中符合謂詞論元組合規(guī)律的謂詞及其語(yǔ)義角色信息生成VerbNet詞庫(kù)。SA Boxwell[11]人工篩選出ProbBank里能夠?qū)?yīng)到論元的語(yǔ)義角色信息,進(jìn)而歸納出謂詞的CCG范疇詞庫(kù)。J Hockenmaier[12]提出了一種自動(dòng)提取Penn樹(shù)庫(kù)中謂詞同論元組合分布信息轉(zhuǎn)換生成CCG范疇構(gòu)建詞庫(kù)的算法。
近年來(lái)漢語(yǔ)方面詞庫(kù)構(gòu)建也進(jìn)行了探索,比較有代表性的是袁毓林老師的漢語(yǔ)配價(jià)語(yǔ)法研究[13]。通過(guò)定義謂詞配價(jià),即謂詞能夠支配的名詞性成分的數(shù)量,明確表示謂詞的句法特性以及語(yǔ)義關(guān)系。語(yǔ)言學(xué)家通過(guò)人工方式推斷出動(dòng)詞的價(jià),最終可以匯總得到漢語(yǔ)謂詞知識(shí)詞庫(kù)。
同時(shí)袁老師還分析了語(yǔ)義角色標(biāo)注對(duì)于構(gòu)建漢語(yǔ)詞庫(kù)資源的作用[14-15],提出語(yǔ)義角色的信息能夠很好地幫助描述詞庫(kù)中謂詞的語(yǔ)義層面的組合信息,這樣有助于詞庫(kù)對(duì)于語(yǔ)義理解信息方面的提升。
上述工作的主要問(wèn)題在于人工處理過(guò)于依賴主觀知識(shí)背景,不同標(biāo)注人員差異較大,同時(shí)人工篩選效率過(guò)低無(wú)法應(yīng)用于大規(guī)模詞庫(kù)構(gòu)建。自動(dòng)方法通過(guò)單一語(yǔ)料庫(kù)作為處理輸入無(wú)法獲取到謂詞同論元間豐富的語(yǔ)義角色關(guān)系。因此本文希望探索能融合不同資源自動(dòng)構(gòu)建出含有不同維度語(yǔ)義、句法信息的、客觀全面的漢語(yǔ)謂詞詞庫(kù)的有效方法。
CCG體系下的漢語(yǔ)謂詞描述范疇大多是復(fù)雜范疇,由原子范疇(如: S,NP,SP,PP等)通過(guò)左斜杠“/”和右斜杠“”兩種不同方向的組合操作得到。它們隱含了這樣的信息: 1) 一個(gè)謂詞可以控制的核心論元數(shù)目;2) 它們?cè)跍\層句法形式上的典型組合順序。表1列出了我們目前總結(jié)的幾種典型CCG范疇形式,它們覆蓋了漢語(yǔ)中絕大部分的謂詞分布情況。
表1 典型漢語(yǔ)謂詞的CCG范疇表示
漢語(yǔ)謂詞CCG詞庫(kù)的構(gòu)建目標(biāo),是為每個(gè)謂詞,選擇確定合適的CCG范疇標(biāo)記。考慮到多義謂詞在真實(shí)語(yǔ)境中的不同分布特點(diǎn),一個(gè)謂詞可能會(huì)指派多個(gè)CCG范疇標(biāo)記。同時(shí),為便于后續(xù)的分析應(yīng)用,對(duì)于每個(gè)謂詞在CCG范疇中控制的核心論元,我們還希望能給出合適的語(yǔ)義角色標(biāo)記,并收集一定規(guī)模的典型搭配詞語(yǔ),便于進(jìn)行后續(xù)的語(yǔ)義限制約束的自動(dòng)挖掘研究。
為此,我們選擇了以下語(yǔ)言資源:
1) 知網(wǎng)(HowNet)語(yǔ)義詞典[16](以下稱HowNet)
這是人工編撰的漢語(yǔ)詞語(yǔ)概念描述詞典。我們從中選擇了全部的事件類概念描述,包括其中每個(gè)謂詞義項(xiàng)的概念定義(DEF)、事件框架和語(yǔ)義角色描述。它們反映了詞典編撰者對(duì)某類事件語(yǔ)義的典型認(rèn)知圖式的判斷和把握,可以為CCG范疇的核心論元確定和語(yǔ)義角色選擇提供重要參考信息。
2) 北大語(yǔ)法信息詞典[17](以下簡(jiǎn)稱PKU_GD)
對(duì)漢語(yǔ)常用詞語(yǔ)的語(yǔ)法分布特征信息進(jìn)行了詳細(xì)描述。我們從中選擇了漢語(yǔ)動(dòng)詞的主要句法分析特征,提取形成以下特征動(dòng)詞表: 不及物動(dòng)詞表(vi)、體賓及物動(dòng)詞表(vtn)、謂賓及物動(dòng)詞表(vtv)、雙賓動(dòng)詞表(dobj)和兼語(yǔ)動(dòng)詞表(comp)。它們反映了詞典編撰者從母語(yǔ)語(yǔ)感中提煉出的不同動(dòng)詞的句法分布特點(diǎn),可以為相應(yīng)動(dòng)詞的CCG范疇選擇確定提供參考。
3) 真實(shí)文本的事件句式描述實(shí)例
它們記錄了漢語(yǔ)真實(shí)小句的主、謂、賓、狀、補(bǔ)等句法骨架分析信息。我們從中選擇了五種基本事件句式: 主謂(SP)、主謂賓(SPO)、主狀謂(SDP)(介詞短語(yǔ)pp.作狀語(yǔ)D)、主謂賓賓(SPOO)、主謂賓補(bǔ)(SPJC)。在大多數(shù)情況下,它們可以與表1中列出的幾個(gè)CCG范疇之間建立一一對(duì)應(yīng)關(guān)系,從而可以為不同謂詞的CCG范疇預(yù)測(cè)提供重要的客觀分析數(shù)據(jù)支持。目前,我們主要使用了以下兩種事件句式描述實(shí)例。
A. 從TCT樹(shù)庫(kù)中自動(dòng)提取的事件句式實(shí)例(以下稱TCT_EC)
由于利用了樹(shù)庫(kù)中的人工校對(duì)句法樹(shù),因此相應(yīng)事件句式的準(zhǔn)確度很高,但數(shù)據(jù)規(guī)模較小,對(duì)漢語(yǔ)謂詞的覆蓋率較??;
B. 從北大人民日?qǐng)?bào)標(biāo)注庫(kù)中利用現(xiàn)有的事件句式分析器[18]自動(dòng)分析得到的事件句式實(shí)例(以下稱RMRB_EC)
可以達(dá)到很大的數(shù)據(jù)規(guī)模和謂詞覆蓋率,但自動(dòng)分析結(jié)果存在一些錯(cuò)誤噪聲。
表 2顯示了這些資源的基本統(tǒng)計(jì)數(shù)據(jù)。如果我們把CCG范疇標(biāo)記作為描述漢語(yǔ)謂詞的句法語(yǔ)義鏈接關(guān)系的原型范式,這些資源則分別從不同角度提供了對(duì)這個(gè)原型范式的句法語(yǔ)義分布判據(jù)。這里的直觀假設(shè)是: 如果這些資源提供的句法語(yǔ)義分布信息的重合度越高,則相應(yīng)謂詞的CCG范疇的原型性越強(qiáng),從而確定該CCG范疇標(biāo)記的可靠性就越高。據(jù)此,我們形成了通過(guò)不同語(yǔ)言資源融合來(lái)構(gòu)建漢語(yǔ)謂詞CCG詞庫(kù)的基本設(shè)想: 選擇不同資源描述重合部分構(gòu)建CCG核心詞庫(kù),從中挖掘不同資源對(duì)核心詞庫(kù)的特征貢獻(xiàn),以此為基礎(chǔ),探索漢語(yǔ)謂詞CCG范疇的自動(dòng)預(yù)測(cè)方法,構(gòu)建其他CCG擴(kuò)展詞庫(kù)。
表2 不同語(yǔ)言資源的基本信息統(tǒng)計(jì)
圖1顯示了這種融合方法的總體框架。其中輸入資源為知網(wǎng)(HowNet)、北大語(yǔ)法信息詞典(PKU_GD)和事件句式實(shí)例,通過(guò)融合各資源特征形成每個(gè)謂詞的句法語(yǔ)義描述向量,從中提取各資源信息完全重合的謂詞形成核心詞庫(kù),其他謂詞作為待確定詞庫(kù)。對(duì)核心詞庫(kù),按照CCG范疇原型假設(shè),為其中的每個(gè)謂詞指派合適的CCG范疇標(biāo)記。將它們與各自的特征描述向量相結(jié)合,形成初始的訓(xùn)練知識(shí)庫(kù);對(duì)待確定詞庫(kù)中的每個(gè)謂詞,則通過(guò)CCG范疇的自動(dòng)預(yù)測(cè)方法獲得合適的CCG范疇指派而形成擴(kuò)展詞庫(kù),最終合并兩個(gè)庫(kù)形成最終完整的謂詞詞庫(kù)。
圖1 算法框架圖
4.1 資源融合和核心詞庫(kù)生成
三個(gè)資源均無(wú)法單獨(dú)確定謂詞的CCG范疇,因此通過(guò)提取三類資源的對(duì)應(yīng)特征,相互作用能夠更好地應(yīng)用于后續(xù)的核心詞庫(kù)建立以及擴(kuò)展詞庫(kù)預(yù)測(cè)。從三類資源中可以提取出一個(gè)37維的特征向量,各個(gè)資源提供特征內(nèi)容如下。
HowNet核心語(yǔ)義角色可以提供特征信息: 核心語(yǔ)義角色數(shù)量,根據(jù)HowNet語(yǔ)義角色含義預(yù)估其可能對(duì)應(yīng)CCG的論元位置得到論元對(duì)應(yīng)的核心語(yǔ)義角色數(shù)量,根據(jù)核心語(yǔ)義角色計(jì)算出CCG含有各論元的概率,共形成15維特征。
PKU_GD謂詞所屬類別可以作為特征信息,為了計(jì)算方便特征統(tǒng)一為二元特征,利用8維特征分別表示謂詞是否屬于一個(gè)或多個(gè)類別。
事件句式提供謂詞事件句式類型的分布信息,這些分布信息以及相互交叉得到的二元信息形成14維特征。
按照論文基本假設(shè)對(duì)于三類資源重疊部分提取出謂詞的CCG范疇,配合HowNet語(yǔ)義角色對(duì)應(yīng)CCG論元的預(yù)估得到各論元對(duì)應(yīng)的語(yǔ)義角色,再添加事件句式提供的搭配實(shí)例形成核心詞庫(kù)。資源重疊的判斷方法如表3所示。不符合表3內(nèi)容的謂詞作為待確定詞庫(kù)通過(guò)自動(dòng)預(yù)測(cè)方法進(jìn)行CCG范疇指派。
表3 資源特征對(duì)齊原則
4.2 待確定詞庫(kù)的CCG范疇預(yù)測(cè)
這部分主要通過(guò)自動(dòng)分類和隸屬度分析兩種方法分別預(yù)測(cè)CCG范疇,然后通過(guò)結(jié)果融合最終確定出待確定詞庫(kù)謂詞的CCG范疇形成擴(kuò)展詞庫(kù)。
4.2.1 CCG范疇自動(dòng)分類
以核心詞庫(kù)作為訓(xùn)練集合,CCG范疇特征量作為分類特征量,通過(guò)目前常用的SVM分類方法進(jìn)行待確定詞庫(kù)的自動(dòng)分類將謂詞映射到不同的CCG范疇。
資源融合時(shí)產(chǎn)生的37維特征向量可以體現(xiàn)謂詞的語(yǔ)義句法信息,利用該特征向量進(jìn)行SVM訓(xùn)練及分類能夠充分利用謂詞的各類信息區(qū)分出不同謂詞特點(diǎn),對(duì)待確定詞庫(kù)CCG進(jìn)行指派。
4.2.2 隸屬度分析
很多謂詞缺少HowNet和PKU_GD詞典提供的特征信息,而且自動(dòng)分類的訓(xùn)練集主要來(lái)自于核心詞庫(kù),因此自動(dòng)分類器可能存在訓(xùn)練不充分問(wèn)題。另一方面,從大規(guī)模真實(shí)文本中獲取的事件句式分布實(shí)例已經(jīng)能夠提供非常豐富的謂詞句法意義分布特征,因此不妨忽略前兩個(gè)資源提供的語(yǔ)義和句法信息,而提出繪制謂詞隸屬度圖譜確定CCG范疇的方法。所謂的隸屬度就是事件句式類型頻率分布。
根據(jù)核心詞庫(kù)中不同CCG范疇下所有謂詞的隸屬度計(jì)算平均值作為該CCG范疇的核心隸屬度,這樣定詞庫(kù)中每個(gè)謂詞根據(jù)隸屬度向量可以計(jì)算出該謂詞同各個(gè)CCG范疇標(biāo)準(zhǔn)隸屬度的歐氏距離,選取距離最近的CCG范疇作為該謂詞的隸屬度分析結(jié)果CCG。
4.2.3 結(jié)果融合
通過(guò)自動(dòng)分類和隸屬度分析分別得到了待確定詞庫(kù)中謂詞的CCG范疇。自動(dòng)分類利用不同資源的統(tǒng)計(jì)信息提取CCG范疇卻忽略了真實(shí)文本中使用的變形、省略等情況,隸屬度分析基于事件句式實(shí)例的分布趨勢(shì),卻無(wú)法區(qū)分出相同詞形不同詞義的情況。兩者融合可以使得最終結(jié)果更加準(zhǔn)確客觀。基本方法是: 當(dāng)兩者預(yù)測(cè)結(jié)果相同時(shí),選擇該CCG范疇指派給謂詞;當(dāng)兩者預(yù)測(cè)結(jié)果不同時(shí),則通過(guò)分析發(fā)現(xiàn)不同差異特點(diǎn)選擇合適的CCG范疇。
根據(jù)兩種結(jié)果的不同差異情況具體分析能夠總結(jié)出不同結(jié)果的融合情況。如自動(dòng)分類結(jié)果為“(SNP)/NP”,隸屬度分析結(jié)果為“SNP”的情況是由于謂詞在實(shí)際使用中會(huì)根據(jù)前文省略賓語(yǔ),例如 “我-完成-任務(wù)”省略為“我-完成了”,最終CCG范疇?wèi)?yīng)為“(SNP)/NP”;自動(dòng)分類結(jié)果為“(SNP)/NP”,隸屬度分析結(jié)果為“(SNP)PP”的情況產(chǎn)生于賓語(yǔ)用介詞引導(dǎo)作為狀語(yǔ)修飾謂詞,例如 “我-關(guān)閉-電腦”,表現(xiàn)為“我-將-電腦-關(guān)閉”,最終CCG范疇?wèi)?yīng)為“(SNP)/NP”;
通過(guò)兩種獨(dú)立的自動(dòng)分析方法確定出擴(kuò)展謂詞庫(kù)中謂詞的CCG范疇,通過(guò)融合的方法得到最終的CCG范疇。根據(jù)CCG范疇確定出HowNet語(yǔ)義角色同CCG范疇各論元的對(duì)應(yīng)關(guān)系形成擴(kuò)展謂詞庫(kù)。核心詞庫(kù)和擴(kuò)展詞庫(kù)合并整體上作為最終的漢語(yǔ)謂詞CCG詞庫(kù)。
5.1 總體融合數(shù)據(jù)分析
最終該方法得到了15 468個(gè)謂詞義項(xiàng)CCG范疇結(jié)果,表4從不同角度分析了核心和擴(kuò)展兩部分詞庫(kù)的分布特點(diǎn)。
表4 謂詞庫(kù)規(guī)模統(tǒng)計(jì)
首先,按照謂詞被指派的CCG范疇數(shù)目分出單類和多類兩類謂詞;其次通過(guò)統(tǒng)計(jì)謂詞在現(xiàn)有事件句式庫(kù)中包含的基本事件句式總數(shù),分出如下的高中低頻三類謂詞: 事件句式數(shù)量小于5的謂詞屬于低頻,大于20的屬于高頻,中間部分屬于中頻。表格中每個(gè)結(jié)果包含“token/type” 兩個(gè)頻度值。
對(duì)比核心詞庫(kù)和擴(kuò)展詞庫(kù),三類資源能夠完全重疊的核心詞庫(kù)數(shù)量明顯較少,表明待確定詞庫(kù)的CCG范疇自動(dòng)預(yù)測(cè)方法是必要的;對(duì)比單類和多類數(shù)量結(jié)果,大部分謂詞CCG范疇均較為固定,即使謂詞本身存在多種含義,但是其CCG范疇的性質(zhì)都是近似的,例如,謂詞“滋生”本身具有“{ResultIn|導(dǎo)致}”和“{reproduce|生殖}”兩種含義,但是其CCG范疇都是“(SNP)/NP”;對(duì)比高中低頻的謂詞數(shù)量,漢語(yǔ)謂詞在真實(shí)本文中的使用存在較為明顯的長(zhǎng)尾效應(yīng),較少的高頻謂詞會(huì)重復(fù)使用,剩余大量謂詞很少出現(xiàn)。
表5列出了詞庫(kù)中不同CCG范疇的分布特點(diǎn)。由于多類詞具有多個(gè)CCG范疇,按CCG范疇分類統(tǒng)計(jì)type頻度會(huì)產(chǎn)生分歧,因此每個(gè)表格單元僅包含對(duì)應(yīng)的token頻度。
通過(guò)這一結(jié)果可以發(fā)現(xiàn)大部分CCG結(jié)果為 (SNP)/NP和SNP。這與人們所知的常識(shí)是一致的,即在實(shí)際句子中SPO和SP類型的句子是最為常見(jiàn)的。
表5 不同CCG范疇token數(shù)量統(tǒng)計(jì)
詞庫(kù)中近900個(gè)(SNP)PP類型謂詞較為特殊,下面進(jìn)行具體實(shí)例單獨(dú)分析。表6列出部分(SNP)PP類型謂詞,可以看出這類詞語(yǔ)通常具有兩個(gè)核心論元,但是并不能直接形成SPO的形式,而是以“和”,“與”等詞語(yǔ)引導(dǎo)的介詞結(jié)構(gòu)狀語(yǔ)如表中“比較”“操心”或通過(guò)聯(lián)合主語(yǔ)如表中“協(xié)商”來(lái)表達(dá)完整含義。
表6 (SNP)PP類型謂詞實(shí)例
5.2 CCG范疇預(yù)測(cè)準(zhǔn)確性分析5.2.1 標(biāo)注數(shù)據(jù)集合構(gòu)建
為了能夠有效地對(duì)謂詞結(jié)果準(zhǔn)確性進(jìn)行評(píng)價(jià),需要構(gòu)建出一個(gè)標(biāo)準(zhǔn)的評(píng)測(cè)集。
從所有謂詞中按照上述不同頻度不同類型的分布隨機(jī)均勻選取1 000個(gè)謂詞詞條作為評(píng)測(cè)集合。評(píng)測(cè)集合token分布如表7所示。
表7 標(biāo)準(zhǔn)集合規(guī)模統(tǒng)計(jì)
安排兩個(gè)標(biāo)注人員獨(dú)立對(duì)評(píng)測(cè)集的謂詞進(jìn)行標(biāo)注,對(duì)每個(gè)謂詞分別按照五種不同的CCG類型構(gòu)造事件句式,判斷構(gòu)造出的句式是否滿足特定條件[19],滿足條件的事件句式對(duì)應(yīng)的CCG為該謂詞的正確指派,否則不是。對(duì)比兩個(gè)標(biāo)注人員的結(jié)果,選擇一致結(jié)果作為標(biāo)準(zhǔn)集合的結(jié)果,對(duì)于不一致的結(jié)果通過(guò)第三個(gè)標(biāo)注者進(jìn)行進(jìn)一步確認(rèn)以保證標(biāo)準(zhǔn)集合數(shù)據(jù)的客觀性和可靠性最終形成評(píng)測(cè)集合。表8列出部分人工標(biāo)注結(jié)果樣例,其中兩位標(biāo)注者分別給出謂詞對(duì)應(yīng)CCG以及構(gòu)造出的事件句式實(shí)例,由第三名標(biāo)注者對(duì)前兩名標(biāo)注者不同結(jié)果進(jìn)行修正,如表中前三詞分別為不同CCG謂詞標(biāo)注結(jié)果一致情況,“訂婚”為標(biāo)注結(jié)果不一致通過(guò)第三名標(biāo)注者確定的情況,“繁殖”為標(biāo)注結(jié)果不同,最終合并為多類詞的情況。
表8 標(biāo)準(zhǔn)集合人工標(biāo)注樣例
為評(píng)價(jià)評(píng)測(cè)集合的質(zhì)量,本文采用J Cohen[20]提出的Kappa系數(shù)作為評(píng)價(jià)指標(biāo)。在不告知兩位標(biāo)注者構(gòu)造句式判定條件的情況下進(jìn)行獨(dú)立標(biāo)注,計(jì)算出兩名標(biāo)注者的理論一致率Pe為0.4230,在進(jìn)行標(biāo)注指導(dǎo)后標(biāo)注者再次進(jìn)行標(biāo)注,計(jì)算出實(shí)際一致率Po為0.9940,根據(jù)式(1)。
(1)
最終得到了測(cè)試集的Kappa值為0.9896,符合評(píng)測(cè)要求。
5.2.2 準(zhǔn)確率評(píng)價(jià)
評(píng)測(cè)使用的準(zhǔn)確率具體計(jì)算公式為式(2)。
(2)
其中P是傳統(tǒng)準(zhǔn)確率,R為自動(dòng)CCG結(jié)果同人工標(biāo)注CCG結(jié)果完全一致token總數(shù),對(duì)于多類詞分別統(tǒng)計(jì)每個(gè)CCG結(jié)果同人工結(jié)果是否一致,計(jì)算出一致的token數(shù),S為評(píng)價(jià)集合結(jié)果token總數(shù)。
表9展示出了不同類型謂詞的準(zhǔn)確率評(píng)價(jià)結(jié)果。
表9 不同謂詞準(zhǔn)確率
核心詞庫(kù)的準(zhǔn)確率均要高于擴(kuò)展詞庫(kù),說(shuō)明三類資源重疊部分得到的CCG原型范疇更為準(zhǔn)確,第三節(jié)提出的直觀假設(shè)成立。同時(shí)單類詞準(zhǔn)確率高于多類詞,這是因?yàn)榻M合單一的謂詞更容易從不同資源中提取準(zhǔn)確CCG范疇。事件句式實(shí)例頻度同準(zhǔn)確率成正比,因?yàn)楦S富的組合實(shí)例為CCG范疇確定提供更準(zhǔn)確的句法組合信息。
上方評(píng)價(jià)是考慮詞庫(kù)整體得到的,下面對(duì)比CCG自動(dòng)預(yù)測(cè)中不同方法準(zhǔn)確率結(jié)果。具體結(jié)果如表10所示。
表10 不同方法準(zhǔn)確率
整體上結(jié)果融合的表現(xiàn)均高于單獨(dú)的處理方法,表明該處理方法中結(jié)果融合方法的正確性及必要性。但是數(shù)據(jù)中多類情況較為特殊,其隸屬度結(jié)果較差,這是由于基于事件句式分布得到的隸屬度分析結(jié)果不能區(qū)分多類詞范疇,通過(guò)自動(dòng)分類結(jié)果的彌補(bǔ)有效地保證了結(jié)果準(zhǔn)確性。
目前方法仍然存在一些缺陷: 1) 由于事件句式實(shí)例無(wú)法區(qū)分相同謂詞的不同CCG,導(dǎo)致多類詞處理存在偏差,如“提升”有SNP和(SNP)/NP兩種CCG,例如“水平-提升”和“隊(duì)伍-提升-水平”,但句式分布僅表明兩類句式比例都很高,無(wú)法表明謂詞確實(shí)存在兩種CCG還是由于變形導(dǎo)致;2) 低頻謂詞無(wú)法提供詳細(xì)準(zhǔn)確的事件句式信息,使得這部分謂詞準(zhǔn)確率偏低,如“擴(kuò)招”句式實(shí)例中僅出現(xiàn)一次為省略賓語(yǔ)形式“學(xué)校-擴(kuò)招”,但是該謂詞CCG應(yīng)為(SNP)/NP。因此未來(lái)需要進(jìn)一步探索改進(jìn)事件句式的處理方式。
本文通過(guò)融合不同漢語(yǔ)語(yǔ)言資源,提取對(duì)應(yīng)特征信息,將資源特征重疊的謂詞根據(jù)CCG原型假設(shè)指派對(duì)應(yīng)CCG范疇,形成比較可靠的核心詞庫(kù)。以特征信息和核心詞庫(kù)為基礎(chǔ)通過(guò)CCG自動(dòng)分類、隸屬度分析等不同方法對(duì)其他謂詞的CCG范疇進(jìn)行自動(dòng)預(yù)測(cè),并融合不同方法結(jié)果得到擴(kuò)展詞庫(kù),合并兩個(gè)詞庫(kù)得到希望的謂詞詞庫(kù)。通過(guò)詞庫(kù)規(guī)模以及準(zhǔn)確性的評(píng)價(jià)分析,表明前文提出的直觀假設(shè)成立,不同CCG預(yù)測(cè)方法有效,詞庫(kù)準(zhǔn)確率滿足使用要求。最終形成一個(gè)完整可靠的漢語(yǔ)謂詞CCG詞庫(kù)。
論文后續(xù)工作可以從以下方面入手: 1)根據(jù)詞庫(kù)配合事件句式實(shí)例的搭配詞匯自動(dòng)提取出謂詞CCG論元的語(yǔ)義約束限制,提升現(xiàn)有詞庫(kù)的使用范圍;2)加強(qiáng)對(duì)短語(yǔ)動(dòng)詞如述補(bǔ)式結(jié)構(gòu)的CCG范疇獲取研究,分析其事件復(fù)合特點(diǎn);3)開(kāi)發(fā)實(shí)現(xiàn)針對(duì)本謂詞詞庫(kù)的相關(guān)支撐平臺(tái);4)同目前漢語(yǔ)的其他大規(guī)模人工編撰詞庫(kù)如袁毓林老師的動(dòng)詞配價(jià)庫(kù)的性能對(duì)比分析。
致謝
感謝董振東先生提供知網(wǎng)2008版的研究許可,感謝北大計(jì)算語(yǔ)言所提供語(yǔ)法信息詞典1998版和人民日?qǐng)?bào)2000年全年標(biāo)注庫(kù)的研究許可,感謝碩士研究生烏蘭、張遠(yuǎn)洋提供評(píng)測(cè)集合標(biāo)注幫助。
[1] K V Shanker,Y Schabes. Structure sharing in lexicalized tree-adjoining grammars[C]//Proceedings of the 14th conference on Computational linguistics(COLING ’92),1992,1: 205-211.
[2] R M Kaplan,J Bresnan. Lexical-functional grammar: A formal system for grammatical representation[J]. Formal Issues in Lexical-Functional Grammar,1982: 29-130.
[3] C Pollard,I A Sag. Head-driven phrase structure grammar[M]. Chicago: University of Chicago Press and Stanford: CSLI Publications,1994.
[4] M H Candito. A principle-based hierarchical representation of LTAGs[C]//Proceedings of the 16th conference on Computational linguistics,1996,1: 194-199.
[5] M Dalrymple. Formal Issues in Lexical-functional Grammar[M]. New York: Center for the Study of Language & Information,1995.
[6] W D Meurers,G Minnen. A computational treatment of lexical rules in HPSG as covariation in lexical entries[J]. Computational Linguistics Archive,1997,23: 543-568.
[7] Steedman M,Baldridge J. Combinatory categorial grammar[J]. Non-Transformational Syntax Oxford: Blackwell,2011,181-224.
[8] M McConville. Inheritance and the CCG Lexicon[C]//Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics,2006: 1-8.
[9] S Clark. Large-scale syntactic processing: Parsing the web[J]. Final Report of the 2009 JHU CLSP Workshop,2009.
[10] K K Schuler. VerbNet: A broad-coverage,comprehensive verb lexicon[D]. Ph.D. thesis: University. of Pennsylvania ,2005.
[11] S Boxwell,M White. Projecting propbank roles onto the ccgbank[C]//Proceedings of the International Conference on Language Resources and Evaluation,2008.
[12] J Hockenmaier,M Steedman. CCGbank: a corpus of CCG derivations and dependency structures extracted from the Penn Treebank[J]. Computational Linguistics,2007,33: 355-396.
[13] 袁毓林. 漢語(yǔ)配價(jià)語(yǔ)法研究[M]. 北京: 商務(wù)印書(shū)館,2010.
[14] 袁毓林. 語(yǔ)義角色的精細(xì)等級(jí)及其在信息處理中的應(yīng)用[J]. 中文信息學(xué)報(bào),2007,21(4): 10-20.
[15] 袁毓林. 語(yǔ)義資源建設(shè)的最新趨勢(shì)和長(zhǎng)遠(yuǎn)目標(biāo)——通過(guò)影射對(duì)比、走向統(tǒng)一聯(lián)合、實(shí)現(xiàn)自動(dòng)推理[J]. 中文信息學(xué)報(bào),2008,22(3): 3-15.
[16] 董振東,董強(qiáng). 知網(wǎng)[DB/OL].http: //www.keenage.com/zhiwang/c_zhiwang.html.2003.
[17] 北大計(jì)算語(yǔ)言學(xué)研究所. 現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典規(guī)格說(shuō)明書(shū)[DB/OL].http: //icl.pku.edu.cn/icl_groups/syntac-dictn.asp. 2000.
[18] 陳麗歐. 漢語(yǔ)事件內(nèi)容分析系統(tǒng)研究與實(shí)現(xiàn)[D]. 清華大學(xué),2012.
[19] 邱晗. 漢語(yǔ)動(dòng)詞CCG范疇人工標(biāo)注規(guī)范[R]. 清華大學(xué): 信息技術(shù)研究院語(yǔ)音和語(yǔ)言技術(shù)中心,2011.
[20] J Cohen. A coefficient of agreement for nominalscales[J]. Educational and Psychological Measurement,1960,20(1): 37-46.
Automatic Construction of Chinese Predicate Lexicon for Combinatory Category Grammar
ZHOU Qiang
(Speech and Language Technologies R&D Center.Research Institute of Information Technology,Tsinghua University,Beijing 100084,China)
Predicate lexicon is the core resource of analyzing deep grammar. In contrast to the exsisting manual construction methods,this paper proposes a new method of generating the predicate lexicon for Combinatory Category Grammar (CCG) from multi-resources. This method extracts semantic and syntactic features from HowNet,PKU_GD and large scale Event Patterns,generating CCG prototype and then assigning it to part of predicate whose all features and information are overlaped. Then an expanded predicate lexicon is generated by merging the result of classification and membership analysis. For the finally achieved predicate lexicon with 15 thousands predicates,the evaluation on a standard set annotated independently by multiple humans with 1000 homogeneous distributed predicates shows that its precision can achceve 96.3%.
combinatory category grammar;Chinese predicate lexicon;multi-resources integration
周強(qiáng)(1967—),研究員,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言理解、詞匯語(yǔ)義學(xué)、語(yǔ)料庫(kù)語(yǔ)言學(xué)。E?mail:29_lxd@mail.fsinghua.edu.cn
2014-01-20 定稿日期: 2014-05-23
國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(2013CB329304),國(guó)家自然科學(xué)基金(61373075)
1003-0077(2016)03-0196-08
TP391
A