• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      語義省略“的”字結(jié)構(gòu)自動識別研究*

      2020-05-20 01:52:38戴茹冰侍冰清曲維光
      語言科學(xué) 2020年1期
      關(guān)鍵詞:義項省略語料

      戴茹冰 侍冰清 李 斌 曲維光,**

      1南京師范大學(xué)文學(xué)院 江蘇 南京 210097 2南京師范大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇 南京 210023

      提要 語義省略是語言使用中存在的一類普遍現(xiàn)象,其省略的信息給機(jī)器自動理解造成困難。其中具有語義省略“的”字結(jié)構(gòu),在省略概念添加的類型中所占比例最高。文章利用“的”字局部上下文的詞性和句法信息,通過動詞框架找出具有語義省略的“的”字結(jié)構(gòu)。實(shí)驗表明,該方法能夠在CTB8.0(Chinese Treebank)語料中有效識別出含有語義省略的“的”字結(jié)構(gòu),在測試集中F1值達(dá)到87%,取得了較好的實(shí)驗效果,為機(jī)器對深層語義的理解奠定基礎(chǔ)。

      1 引言

      1.1 研究理由

      省略是語言中存在的一種普遍現(xiàn)象,也是語言研究中不可回避的問題之一。對于省略的界定,朱德熙(1982:248)、呂叔湘(1979:67-68)、王維賢(1997:25-26)等學(xué)者分別從句法、語義和語用三個平面給出定義。但不管哪種形式的省略,總是語形隱而語義存。對于省略的語義信息,人類可通過百科知識和語境信息加以理解,但對機(jī)器而言,語義省略無疑會給機(jī)器理解造成巨大障礙。在語言理論方面,已有學(xué)者從傳統(tǒng)語法、功能語法和認(rèn)知語法等角度做了大量研究。在自然語言處理領(lǐng)域,省略研究多集中在零代詞類別的恢復(fù)和零代詞的指代消解(尹慶宇等 2015)。對于語義表示,國內(nèi)外現(xiàn)有的語義資源,包括PropBank(Palmer et al.2005),F(xiàn)rameNet(Collin et al. 1998),Chinese FrameNet(劉開瑛 2011)等,對省略成分的語義標(biāo)注問題均未涉及。

      近幾年一種新型的句子語義表示方式——AMR(Abstract Meaning Representation,抽象語義表示)(Laura et al. 2013)受到學(xué)界的廣泛關(guān)注。該方法突破了傳統(tǒng)基于句法形式表示語義的方式,允許補(bǔ)充省略或隱含的語義概念以還原句子完整語義。這種概念添加方式對于漢語中的省略結(jié)構(gòu)同樣有著良好的表示能力,能夠較為完整地補(bǔ)充出省略成分(曲維光等 2017)。李斌等(2017)將AMR語義表示體系引入到漢語中,并對AMR語料中需要添加的省略語義概念進(jìn)行統(tǒng)計分析,發(fā)現(xiàn)“的”字結(jié)構(gòu)在所有省略概念添加類型中所占比例為45.7%,占有最高比重。

      “的”作為現(xiàn)代漢語使用頻率最高的虛詞之一,意義和用法靈活,在各種虛詞中的研究也最為普遍。其中存在部分具有語義省略“的”字結(jié)構(gòu),如“賣菜的”“開車的”等。這些不依附任何成分而獨(dú)立充當(dāng)名詞性成分的“的”字結(jié)構(gòu)通常在語義上伴有省略的成分。具有語義省略“的”字結(jié)構(gòu)雖然在整個“的”字語料中所占比例較小,但其所隱含的成分對于整體語義的理解卻有至關(guān)重要的作用。正確識別帶有語義省略的“的”字結(jié)構(gòu)能夠有效減少因省略造成的語義自動理解障礙,為補(bǔ)充句子完整的語義打下基礎(chǔ)。

      1.2 已有研究

      在現(xiàn)代漢語中,對于“的”的研究可追溯到1961年朱德熙《說“的”》。他將“的”的用法分為副詞性語法單位的附加成分、形容詞性語法單位的附加成分和名詞性語法單位的附加成分三個類別。之后,朱德熙(1966)又進(jìn)一步完善關(guān)于“的”字的分類體系,將由謂詞性成分構(gòu)成的“的”字分為兩類:一類是如“吃的”“穿的”可獨(dú)立使用的,表示轉(zhuǎn)指的用法;另一類是不能獨(dú)立表示事物,用來修飾名詞的表示自指的用法,如“跑步的(時間)”等。

      “的”字結(jié)構(gòu)是名詞性偏正結(jié)構(gòu)的語境變體(徐陽春 2003:126),實(shí)質(zhì)是定中關(guān)系的偏正短語中心詞隱去后的短語。其形成特征為詞語后附著一個“的”字。然而并不是所有具有定中關(guān)系的偏正短語中心詞都可以隱去從而形成“的”字結(jié)構(gòu)。對于中心詞可省的條件限制,黃國營(1982)、呂叔湘(1999:159-160)從語法角度分析了形如“X+的”結(jié)構(gòu)中X與中心詞的句法關(guān)系,即當(dāng)中心詞為X的主賓語時,中心詞可省。孔令達(dá)(1992)則從意義角度區(qū)分了X與中心詞的語義類別關(guān)系,并對X是否具有區(qū)別性總結(jié)了一套形式化的鑒別方式。此外,石毓智(2000)從語言認(rèn)知角度闡釋了“的”字結(jié)構(gòu)的生成機(jī)制。

      在語言理論及認(rèn)知方面對“的”字結(jié)構(gòu)研究較為普遍。在自然語言處理領(lǐng)域,韓英杰等(2011)將“的”納入虛詞用法研究中,基于“三位一體”(虛詞用法詞典、虛詞用法規(guī)則庫和虛詞用法語料庫)現(xiàn)代漢語廣義虛詞用法知識庫(昝紅英和朱學(xué)峰 2009)對“的”字的用法進(jìn)行自動識別。但因其出現(xiàn)頻率高且用法復(fù)雜,基于規(guī)則的方法識別效果并不理想。并且鮮有人從省略的語義成分角度關(guān)注“的”字結(jié)構(gòu)表示的語義完整性問題。僅從句法角度分類描述“的”的用法和特征,并不能深入挖掘受語境和語言經(jīng)濟(jì)原則制約而省略的中心語,還原“的”字結(jié)構(gòu)完整語義。這也是傳統(tǒng)句法表示無法解決詞內(nèi)分析困境的缺陷之一。

      本文以省略“的”字結(jié)構(gòu)為研究對象,以賓州中文樹庫CTB8.0語料(Chinese Treebank,以下簡稱 CTB)的10000句網(wǎng)絡(luò)媒體語料作為統(tǒng)計樣本和實(shí)驗語料,利用中文AMR的人工標(biāo)注結(jié)果抽取出省略“的”字結(jié)構(gòu)并進(jìn)行人工校對,形成可用于比對的標(biāo)準(zhǔn)答案。對其中前5000句AMR語料中因語義省略而需要添加的概念進(jìn)行統(tǒng)計分析,并以此作為樣本總結(jié)“的”字結(jié)構(gòu)內(nèi)部構(gòu)成規(guī)律及上下文信息特點(diǎn),針對不同類別“的”字結(jié)構(gòu)制定識別策略。后5000句作為開放測試語料來驗證省略“的”字結(jié)構(gòu)的識別效果。實(shí)驗結(jié)果表明,該方法能夠有效地提取省略“的”字結(jié)構(gòu),從而更好地促進(jìn)機(jī)器對深層語義的理解。

      2 “的”字結(jié)構(gòu)特征及識別策略

      2.1 “的”字結(jié)構(gòu)類型特征

      本文從“的”外部信息出發(fā),結(jié)合語法類詞典《現(xiàn)代漢語八百詞》(呂叔湘 1999)、《現(xiàn)代漢語詞典》(2012年,第六版)、現(xiàn)代漢語廣義虛詞用法知識庫(昝紅英和朱學(xué)峰 2009)及CTB8.0網(wǎng)絡(luò)媒體真實(shí)語料,分析省略與非省略“的”字所在上下文特征,并針對各類別給出不同的識別策略。

      《現(xiàn)代漢語八百詞》把“的”的意義分為7個義項,29種用法,其中省略“的”字結(jié)構(gòu)用法分散在兩個義項中?!冬F(xiàn)代漢語詞典》(2012年,第六版)把“的”的意義分為6個義項,14種用法,對省略“的”字結(jié)構(gòu)的描寫細(xì)分為5小類,但未給出具體的用法特征。在“三位一體”虛詞用法詞典中,“的”的意義分為11個義項,39種用法,并通過釋義、用法、例句、搭配等屬性對助詞“的”的用法進(jìn)行描述。為便于統(tǒng)計,劉秋慧等(2018)對虛詞用法詞典中“的”的用法設(shè)置合并方案,將出現(xiàn)頻率較低的用法向上合并。合并后的“的”字共為5個義項,9種用法。對于每類用法的形式化描述規(guī)則主要基于上下文詞性特征。綜合以上語言資源,結(jié)合CTB8.0真實(shí)語料中各類型“的”的分布情況,本文針對語義省略“的”字結(jié)構(gòu)識別任務(wù),整合使用頻率較低的用法,總結(jié)了“的”的4個主要義項和17種用法,基本覆蓋“的”字結(jié)構(gòu)在語料中出現(xiàn)的各種類型?!暗摹钡闹饕x項和用法及在CTB8.0前5000句樣本分析語料中的出現(xiàn)頻率如表1所示。

      表1 “的”主要義項及用法描述

      義項頻率釋義用法例句義項14563構(gòu)成“的”字短語修飾名詞名|動|形|副|介詞短語|小句+的+名國有企業(yè)代表國家~實(shí)力。義項2275構(gòu)成“的”字短語代替名詞,即省略“的”字結(jié)構(gòu)名|形|動|小句+的[+名]該說~都已經(jīng)說了。義項3306構(gòu)成“的”字短語做謂語。(若前面有“是”,構(gòu)成“是…的”句式)名|代|形|動|小句|四字語+的這帽子(是)我~。義項4148表示一定的語氣,一般用在句子末尾用在陳述句或疑問句末尾他什么時候走~?

      其中,義項2“的”字短語代替名詞的用法和義項3的部分“是……的”用例表示的“的”字結(jié)構(gòu)含有語義省略成分,即本文所要識別的“的”的主要用法。

      為識別省略“的”字結(jié)構(gòu),我們考察其語義省略與非省略用法的差異,通過比對二者詞性和句法信息特征,從樣本語料中提取“的”的鄰接成分與共現(xiàn)成分并進(jìn)行統(tǒng)計分析,總結(jié)其中具有可操作性的判斷特征,制定形式化規(guī)則以有效識別省略“的”字結(jié)構(gòu)。采用的特征為目標(biāo)詞(“的”)上文離合共現(xiàn)的詞性序列特征及下文緊鄰共現(xiàn)的詞語或詞性特征。

      2.1.1 下文特征

      非省略“的”字用法主要包含義項1和義項3的部分用例及義項4。從各義項在語料中的出現(xiàn)頻率來看,非省略用法在整個語料中所占比例較高,在絕對數(shù)量上也遠(yuǎn)超省略類型。對比其與省略“的”字結(jié)構(gòu)用法差異如下:

      省略“的”字結(jié)構(gòu)與非省略中義項1用法主要區(qū)別在其下文特征:“的”字下文是否含有被修飾的中心語。例如:(1)本文所舉例句均出自CTB8.0語料。例句中括號內(nèi)為省略的語義成分。因識別規(guī)則基于詞性信息,為便于描述,例句中的詞語均采用中文賓州樹庫詞性標(biāo)記集來標(biāo)注詞性。具體信息參見Santorini(1990:1-5)。

      (1)國家/NN 的/DEG 實(shí)力/NN

      (2)沒/AD 來/VV 的/DEC(人)請/VV 舉手/VV

      例(1)中,“的”字前后的修飾語與中心語在句法和語義層面都是完整的,因此判為非省略結(jié)構(gòu)助詞。例(2)“的”字結(jié)構(gòu)修飾的中心語“人”受語境或經(jīng)濟(jì)原則制約而省略,表達(dá)的語義信息不完整,因此判為省略類型。

      在區(qū)別二者時主要觀察“的”字下文的詞語或詞性特征:義項1的“的”字用法中,“的”字下文若為名詞或名詞短語,則判斷其后存在中心語,為非省略結(jié)構(gòu),即義項1的“的”字下文特征為“的+名詞|名詞短語”。在義項2的“的”字結(jié)構(gòu)中,通過對下文鄰接詞位置的詞語和詞性進(jìn)行統(tǒng)計,發(fā)現(xiàn)出現(xiàn)頻次最高的詞語和詞性分別為“是”和動詞,其中“是”出現(xiàn)頻次為156次,動詞出現(xiàn)38次,二者占據(jù)70%以上的比例。從語法結(jié)構(gòu)上看,若“的”下文為動詞,動詞前的“的”字結(jié)構(gòu)會被看作一個整體,作為動詞的主語,而該主語以“的”字結(jié)尾,缺少中心語,可看作語義省略結(jié)構(gòu)。因此我們將義項2“的”字下文特征界定為“的+是|動詞”。

      對“的”字用法義項1與義項2的下文特征分析表明,“的”字下文緊鄰共現(xiàn)的詞語或詞性有較明顯的特征。表2中省略結(jié)構(gòu)在“的+名詞|名詞短語”和“的+是|動詞”兩類的比例也讓我們有理由預(yù)測將“的”字下文特征作為識別規(guī)則可以得到較好的分類效果。

      2.1.2 上文特征

      省略“的”字結(jié)構(gòu)與義項3和義項4在用法描述上并無明顯的下文特征區(qū)別,并且上文特征如陳述句、疑問句及小句因結(jié)構(gòu)復(fù)雜,在虛詞用法規(guī)則庫上也未能抽取出嚴(yán)格的形式化特征。結(jié)合呂叔湘(1999:159)對“的”后中心語可省條件的描述:中心名詞能做前面動詞的主語或賓語的,可省。因此我們將省略“的”字結(jié)構(gòu)和非省略語氣詞用法的上文特征區(qū)別定義為:判斷“的”字上文緊鄰的動詞所包含的論元結(jié)構(gòu)是否完整,若論元結(jié)構(gòu)完整,“的”字為語氣詞,屬于非省略結(jié)構(gòu);否則,判斷為省略結(jié)構(gòu)。例如:

      (3)事物/NN 都/AD 有/VE 正反面/NN 的/SP

      (4)你/PN 能/VV 想到/VV 的/DEC(事情),/PU 國家/NN 早/AD 就/AD 能/VV 想到/VV

      例(3)中,動詞“有”的必有論元成分“事物”(主語)和“正反面”(賓語)完整,因此判為非省略類型。例(4)中“的”前動詞“想到”的賓語成分缺失,因此判為省略類型。

      義項3“的”字短語作謂語,包含一類較為特殊句式,即“是……的”句,其中“是”所承擔(dān)的句法功能分為主要謂語動詞和與“的”連用表示判斷語氣兩種用法。在樣本分析語料中,該類別中省略“的”字結(jié)構(gòu)所占比例為25.8%(見表2)。鑒于該類沒有明顯的上下文緊鄰詞性特征,僅將“是……的”句式單獨(dú)列出。

      綜上所述,“的”字用法特征可總結(jié)為以下四類: 1)的+名詞|名詞短語;2)的+是|動詞;3)“是……的”句式;4)其他類型。其中1)類為非省略類型“的”字下文特征,2)類為省略類型“的”字下文特征,3)和4)類型沒有明顯的上下文緊鄰詞特征,需要進(jìn)一步挖掘深層的語義特征或配合使用語義語法知識資源來制定識別策略。上述4類“的”字結(jié)構(gòu)用法特征中省略及非省略的類型及所占比例詳見表2。

      表2 各類“的”字結(jié)構(gòu)省略類型比例

      “的”字結(jié)構(gòu)類型省略類型非省略類型個數(shù)比例個數(shù)比例的+名詞|名詞短語90.2%459399.8%的+是|動詞20495.3%104.7%是……的8325.8%23774.2%其他5751.4%5448.6%

      2.2 “的”字結(jié)構(gòu)的識別策略及形式化描述

      根據(jù)表2數(shù)據(jù),觀察到“的+是|動詞”和“的+名詞|名詞短語”兩個類別可直接根據(jù)下文信息判斷省略與非省略類型。對于“是……的”句式和“其他”兩類,識別策略主要依靠“的”字上文的句法成分及所在短語的核心動詞的論元結(jié)構(gòu)判斷,每種類型具體識別策略如下。

      2.2.1 “的+名詞|名詞短語”類型識別策略

      對于名詞短語的判斷,本文基于詞性從CTB樣本分析語料中總結(jié)出65種基本名詞短語及擴(kuò)展模板。該類別“的”下文內(nèi)容主要形式為限定性詞語+名詞|名詞短語(n|np),其中限定性詞語包括:形容詞(VA)|區(qū)別詞(JJ)|動詞(VV)|名詞(NN)|代詞(PN)等。在名詞短語中,常會出現(xiàn)多個“的”字短語共現(xiàn)的現(xiàn)象。在句法結(jié)構(gòu)中,其結(jié)構(gòu)類型可分為嵌套結(jié)構(gòu)和并列結(jié)構(gòu),即中心語前的多個限定語之間的結(jié)構(gòu)關(guān)系。但在詞性序列中,表現(xiàn)為多個限定語+的+n|np 的線性序列,“的”前限定語成分為多種類型,只有中心語為強(qiáng)制出現(xiàn)成分,可為名詞或名詞短語。例如:

      (5)他/PN 的/DEG 無私/AD 奉獻(xiàn)/VV 的/DEC 精神/NN……

      其中“的”后的名詞短語為中心語前多個修飾語的嵌套結(jié)構(gòu)。

      本文以有序的BNF(Backus-Naur Form)范式描寫每類語言規(guī)則,名詞短語具體形式化描述為:{[AD]+VA|JJ|VV|PN+[的]}+n|np,即“的”下文能與該字符串模式匹配的用法為非省略類型。

      2.2.2 “的+是|動詞”類型識別策略

      對于該類別,我們主要判斷“的”下文一元鄰接詞是否為“是”或動詞,有時動詞會受副詞成分修飾,在“是”或動詞前加上副詞表達(dá)一定的語氣或程度差異,此時“是”或動詞會出現(xiàn)在下文二項共現(xiàn)詞的位置。對于這類現(xiàn)象采取縮減策略對副詞性成分進(jìn)行歸并處理,避免識別過程受副詞成分干擾。該策略識別結(jié)果為省略類型。

      2.2.3 “是……的”類型的識別策略

      該類別主要判斷依據(jù)為“是”和“的”之間的詞語序列,即主謂賓句法成分是否完整。若是完整的序列結(jié)構(gòu),“的”屬于語氣詞,判斷為非省略,否則為省略結(jié)構(gòu)。對于“是”“的”之間的詞語序列,本文主要依據(jù)詞性序列判斷其語法成分。通過對語料中符合該句式的句子統(tǒng)計分析,得到詞性序列模板(其中每類所列出的模板都為該結(jié)構(gòu)的基本模板,語料中存在大量擴(kuò)展式小類,本文采取縮減策略對各類擴(kuò)展模板整合歸并,以還原為基本模板,具體縮減策略詳見下頁表4)。

      通過觀察“的”字上文信息,參考《現(xiàn)代漢語八百詞》對“是……的”用法描寫,我們將其細(xì)分為以下四個小類。表3給出了各小類在“是……的”句中所占比例及是否為省略類型。

      表3 “是……的”句式類型比例表

      “是……的”句式類型個數(shù)比例是否為省略是+主謂結(jié)構(gòu)+的 7624.9%省略是+名詞性成分+的237.6%省略是+形容詞成分+的8828.8%非省略是+動詞性成分+的11838.7%非省路

      每種類型的具體分析及詞語序列的形式化模板描述如下:

      1)是+主謂結(jié)構(gòu)+的

      該句式強(qiáng)調(diào)動作的施事,但當(dāng)“是”前面僅為指示代詞時,由于“是”與“的”之間缺少賓語,所以需要將其省略的賓語補(bǔ)充出來。補(bǔ)充信息多為整個句子的主語,在標(biāo)注時需要將代詞和前面的指代信息相關(guān)聯(lián),這樣才能較為完整地表示句義。因此該類型為省略結(jié)構(gòu)。詞語序列基本模板:是+NN|NR|PN+{VV}+的。例如:

      (6)這/PN 根本/AD 不/AD 是/VC印度/NR 想/VV 看到/VV的/DEC (事情)

      2)是+名詞性成分+的

      此類型的“是……的”句式,名詞性成分與主語的語義關(guān)系多為領(lǐng)屬、解釋關(guān)系。日常使用中我們?yōu)橥癸@焦點(diǎn),經(jīng)常將“的”后的從屬類省略。在此類別中需要將主語的上位信息補(bǔ)充完整。因此該類型為省略結(jié)構(gòu)。詞語序列基本模板:是+{NN|NR|PN}+的。例如:

      (7)樓主/NN 是/VC淮南/NR 礦業(yè)/NN 集團(tuán)/NN的/DEG(人)吧/SP

      3)是+形容詞成分+的

      這里的形容詞性成分既可以為性質(zhì)形容詞,也可以是形容詞短語。此句式中形容詞性成分已承擔(dān)謂詞功能,因此不必增加省略信息。詞語序列基本模板:是+{VA|JJ}+的。例如:

      (8)絕大多數(shù)/CD 中國人/NN 都/AD 是/VC舒心/VA 愉悅/VA的/SP

      4)是+動詞性成分+的

      這一類別在“是……的”句式中所占比例最高。這里的動詞性成分一般是“能愿動詞+動詞”結(jié)構(gòu)、“動詞+可能補(bǔ)語”結(jié)構(gòu)或動賓短語。由于動詞性成分已出現(xiàn)且不缺少賓語,因此這類結(jié)構(gòu)不需要在“的”字后增補(bǔ)內(nèi)容,為非省略結(jié)構(gòu)。詞語序列基本模板:是+{VV}+[NN]+的。例如:

      (9)許多/CD 事情/NN 原/AD 是/VC可/VV 避免/VV的/SP

      本文將語料中的“是……的”句式,分為以上四種類型。若修飾語過長則采用縮減策略,將其修飾語成分歸并再處理,再統(tǒng)一進(jìn)行分類。表4為主要詞語序列縮減策略的示例。

      表4 縮減策略示例

      縮減序列類型縮減前序列縮減后序列定中結(jié)構(gòu){JJ}+NNNN狀中結(jié)構(gòu){AD}+VV數(shù)量結(jié)構(gòu)CD+M+NNNN并列名詞結(jié)構(gòu){NN}+CC+{NN}NN方位結(jié)構(gòu)NN+LCNN

      該類別的識別策略具體步驟如下:

      步驟1:提取“是”“的”中間的詞語序列,依據(jù)表4縮減策略對提取的詞語序列進(jìn)行縮減;

      步驟2:將步驟1縮減后的詞語序列進(jìn)行字符串模式匹配,匹配到表2中的四種類型;

      步驟3:根據(jù)步驟2得到的類型結(jié)果,判斷“的”字結(jié)構(gòu)是否為省略類型。

      2.2.4 其他類型的識別策略

      在去除“的”字下文特征及“是……的”特殊句式后,剩余的其他類型中,觀察發(fā)現(xiàn)省略“的”所在短語的核心動詞的必有論元成分必定是缺失的。如“的”字結(jié)構(gòu)“當(dāng)官員的”指代“當(dāng)官員的人”,其中核心動詞“當(dāng)”的必有論元,即施事與受事沒有全部出現(xiàn)。針對該類別本文利用動詞框架,(2)動詞框架(verb frame)指謂語動詞所帶核心論元結(jié)構(gòu)?;谒固垢R来娣治鼋Y(jié)果和中文謂詞庫(Chinese Proposition Bank,以下簡稱CPB)的謂語動詞框架詞典識別“的”字所在短語的核心動詞的論元結(jié)構(gòu),進(jìn)而判斷該結(jié)構(gòu)是否含有語義省略成分。該詞典含有每個謂詞在不同義項下的語義角色框架,共收錄24510個中文謂詞(包括動詞、形容詞等)的26650個義項的不同語義角色框架(Xue 2008)。上例中,“當(dāng)”在CPB中的動詞框架為“Arg0:position holder;Arg1:position”。(3)CPB中使用Arg0,Arg1,Arg2,Arg3,Arg4五種論元表示動詞的論元種類。該“的”字結(jié)構(gòu)中“當(dāng)”的必有論元僅出現(xiàn)了框架中的Arg1,而施事未出現(xiàn),這也與上文中呂叔湘對“的”字結(jié)構(gòu)中心語可省的條件描述相對應(yīng)。因此可以認(rèn)為,對比完整意義的“的”字結(jié)構(gòu),在帶有省略語義性質(zhì)的結(jié)構(gòu)中,動詞必有論元成分是不完整的。

      不同于以上三類基于上下文共現(xiàn)的詞語或詞性序列模板匹配的識別策略,該類別的識別策略具體步驟如下:

      步驟1:提取“的”字左邊所有的動詞在句中的位置,依次放入列表中;

      步驟2:根據(jù)列表中內(nèi)容,執(zhí)行以下操作:

      1)如果列表中僅存在一個位置元素,該位置的動詞即為核心動詞,則跳轉(zhuǎn)至步驟3;

      2)如果列表中存在多個位置元素,提取最后兩個位置元素Windex1和Windex2,執(zhí)行以下操作:

      ① 構(gòu)造臨時句子Snt:Windex1…… Windex2;

      ② 借助斯坦福依存分析工具,得到Snt中最后兩個動詞間的機(jī)標(biāo)依存分析結(jié)果;

      ③ 根據(jù)②中機(jī)標(biāo)結(jié)果,判斷兩個動詞間的依存關(guān)系,并根據(jù)依存關(guān)系和動詞在CPB中的論元(即后一個動詞是否能做前一個動詞必有論元成分)來確定后一個動詞是否為核心動詞:如果是,則利用依存結(jié)果為后一個動詞補(bǔ)充主語或賓語,改造Snt并將原“的”字結(jié)構(gòu)用新Snt替代,跳轉(zhuǎn)至步驟3;如果不是,則將后一個動詞的位置元素從列表中移除,跳轉(zhuǎn)至步驟2。

      這里我們就步驟2中若存在多個動詞的“的”字結(jié)構(gòu)時,核心動詞的判斷舉例說明:

      (10)而/AD 同樣/AD應(yīng)該/VV 申請/VV 世界/NN 紀(jì)錄/NN 的/DEC,/PU 還/AD 有/VE 當(dāng)?shù)?NN 負(fù)責(zé)/VV 治安/NN 的/DEC 部門/NN

      例(10)中,根據(jù)“的”字前的動詞,從后向前構(gòu)造Snt:應(yīng)該 申請。Windex1是Snt中第一個動詞“應(yīng)該”位置元素,Windex2是Snt中第二個動詞“申請”位置元素。根據(jù)構(gòu)造的Snt調(diào)用斯坦福依存分析器,得到依存分析結(jié)果dobj(應(yīng)該-1,申請-2)。在依存關(guān)系中dobj(direct object)表示直接賓語,即“申請”為“應(yīng)該”的直接賓語,則后一個動詞做前一個動詞的必有論元成分,因此判斷“申請”為該“的”字結(jié)構(gòu)的核心動詞。

      步驟3:將核心動詞的主賓語與其所在CPB中的最少論元數(shù)義項的論元結(jié)構(gòu)匹配,若核心動詞的主賓語與CPB中論元結(jié)構(gòu)不匹配,即核心動詞的主語或賓語缺失,則判斷為省略;否則,判斷為非省略。

      3 識別省略“的”字結(jié)構(gòu)實(shí)驗

      3.1 評價指標(biāo)

      省略“的”字結(jié)構(gòu)識別任務(wù)可以看作是一個分類問題,普遍使用的性能評價指標(biāo)是精確率(Precision,P),召回率(Recall,R),F(xiàn)1值(F1 score)。精確率是指正確判斷出省略類別的“的”字結(jié)構(gòu)數(shù)量占所有判斷出省略類別的“的”字結(jié)構(gòu)數(shù)量的比例,如公式(i)所示:

      (i)

      召回率是指正確判斷出省略類別的“的”字結(jié)構(gòu)數(shù)量占所有省略類別“的”字結(jié)構(gòu)數(shù)量的比例,如下頁公式(ii)所示:

      (ii)

      F1值(F1 Score,又稱F1 Measure)是精確率和召回率的調(diào)和平均值,如公式(iii)所示:

      (iii)

      3.2 語料來源

      本文基于的AMR表示方法,允許根據(jù)語義靈活增刪概念節(jié)點(diǎn)。該方式通過 thing(物)、person(人)、location(地點(diǎn))等概念節(jié)點(diǎn)的添加,對于省略“的”字結(jié)構(gòu),能夠較為完整地補(bǔ)充出省略成分,彌補(bǔ)了傳統(tǒng)句法表示的嚴(yán)重缺陷。圖1給出AMR句子對于省略“的”字結(jié)構(gòu)的示例。

      圖1 AMR概念補(bǔ)充省略“的”字結(jié)構(gòu)示例

      AMR將句中省略的概念“person(人)”補(bǔ)充出來,作為“開車”的arg0(施事),使省略“的”字結(jié)構(gòu)的意義得到較為完整的表達(dá),也體現(xiàn)出其對漢語省略結(jié)構(gòu)語義表示的價值。

      本文采用的語料為賓州中文樹庫 CTB8.0的10000句網(wǎng)絡(luò)媒體語料,利用中文AMR的人工標(biāo)注結(jié)果(4)目前CTB8.0的AMR語料標(biāo)注數(shù)據(jù)已通過語言數(shù)據(jù)聯(lián)盟(LDC)平臺發(fā)布,由于本文使用早期版本,句子總數(shù)相差149句。語料下載地址https://catalog.ldc.upenn.edu/LDC2019T07。以及后期人工校對,抽取出含有增補(bǔ)概念節(jié)點(diǎn)的“的”字結(jié)構(gòu)作為本文主要的研究對象。其中前5000句作為樣本語料觀察分析“的”上下文特征及規(guī)則制定,得到省略“的”字結(jié)構(gòu)識別策略,后5000句作為測試集驗證識別策略的效果。表5是CTB8.0分析和測試語料中所包含“的”字類型的基本情況。

      表5 CTB“的”字語料數(shù)據(jù)集

      語料省略實(shí)例非省略實(shí)例總數(shù)分析語料32049725292測試語料34461936537

      3.3 實(shí)驗與分析

      3.3.1 實(shí)驗步驟

      步驟1:從樣本分析語料中,提取所有“的”字結(jié)構(gòu)。依據(jù)中文AMR人工標(biāo)注結(jié)果,得到所有“的”字結(jié)構(gòu)省略與非省略類別;

      步驟2:將所有“的”字結(jié)構(gòu)匹配到2.1節(jié)介紹的4種類型;

      步驟3:對每個“的”字類型,根據(jù)2.2節(jié)介紹的基于規(guī)則的識別策略,形成機(jī)標(biāo)結(jié)果;

      步驟4:將機(jī)標(biāo)語料與人工校對的語料即標(biāo)準(zhǔn)答案進(jìn)行對比,對數(shù)據(jù)進(jìn)行統(tǒng)計分析,評價規(guī)則之間的覆蓋性,確定規(guī)則的處理順序;

      步驟5:在封閉集中,使用步驟1提取所有“的”字結(jié)構(gòu)。按照步驟4確定的規(guī)則處理順序,處理每個“的”字結(jié)構(gòu),得到機(jī)標(biāo)結(jié)果。具體如下:1)遍歷規(guī)則處理順序,保留第一個和該“的”字結(jié)構(gòu)匹配的類型;2)使用1)中該類型對應(yīng)的識別策略處理該“的”字結(jié)構(gòu),判斷該“的”字結(jié)構(gòu)是否為省略類型;

      步驟6:將機(jī)標(biāo)語料與人工校對的標(biāo)準(zhǔn)答案進(jìn)行對比,最終得到語義省略“的”字結(jié)構(gòu)識別的精確率和召回率等指標(biāo)結(jié)果。

      3.3.2 規(guī)則處理順序

      本文根據(jù)“的”字結(jié)構(gòu)的分類,旨在找到最有利于正確分類的處理順序,判斷具體哪一種類型需要優(yōu)先處理,然后針對每種類型分別制定識別策略得到類型結(jié)果。即需要確定一個固定的遍歷順序?qū)κ÷浴暗摹弊纸Y(jié)構(gòu)進(jìn)行識別??紤]各規(guī)則之間的相互覆蓋程度及各類用法在真實(shí)語料文本中的分布概率,規(guī)則描述清晰以及自動識別精確率較高的規(guī)則優(yōu)先級別高,排在前面優(yōu)先處理。

      表6 單獨(dú)抽取類別錯誤比例表

      抽取類別的+名詞|名詞短語的+是是……的的+動詞其他的+是0.0%/0.0%0.0%0.0%是……的97.2%0.0%/2.8%0.0%的+動詞54.3%14.2%31.5%/0.0%其他4.0%0.0%96.0%0.0%/

      表6為針對每種類型單獨(dú)從樣本分析語料中抽出屬于該類型“的”,并列舉采取了對應(yīng)的策略得到的省略類型中錯誤分類比例。其中每一行是一種“的”字結(jié)構(gòu)類型的處理結(jié)果,每一列是其錯誤分類的“的”字結(jié)構(gòu)中其他類型的比例,旨在尋找是由于哪一種類型沒有優(yōu)先遍歷而產(chǎn)生錯誤分類的比例。表6“的”字結(jié)構(gòu)抽取類別中,單獨(dú)列出“的+是”因為該類型識別策略的精確率高達(dá)98.2%,如果合并成“的+動詞|是”,則會忽略其他動詞的分析。其中,“的+動詞”與“的+是”類型可通過“的”字下文詞語或詞性信息直接判斷且精確率較高,因此優(yōu)先處理這兩類。此外,“是……的”對“其他”類型影響較大,因此將“是……的”置于“其他”類型之前處理。

      綜上,省略“的”字結(jié)構(gòu)識別模型最優(yōu)的類型處理順序為:的+是→的+名詞|名詞短語→的+動詞→“是……的”→其他類型。

      3.3.3 實(shí)驗結(jié)果

      表7和表8是省略“的”字結(jié)構(gòu)識別模型分別在封閉訓(xùn)練集和開放測試集上的效果。實(shí)驗結(jié)果精確率及召回率均在85%以上,在測試集上整體F1值也達(dá)到87.1%,取得了較好的分類結(jié)果。

      表7 省略“的”字結(jié)構(gòu)識別級聯(lián)模型封閉訓(xùn)練結(jié)果

      精確率召回率F1值的+是|動詞93.0%100.0%96.4%是……的84.8%62.2%71.8%其他75.9%75.9%75.9%整體88.4%88.4%88.4%

      表8 省略“的”字結(jié)構(gòu)識別級聯(lián)模型開放測試結(jié)果

      精確率召回率F1值的+是|動詞95.7%100.0%97.8%是……的80.0%53.3%64.0%其他68.1%74.6%71.2%整體88.5%85.7%87.1%

      為了解不同建模方法對于省略“的”字結(jié)構(gòu)識別任務(wù)的優(yōu)劣,本文基于條件隨機(jī)場(Conditional Random Field,CRF)模型對同一任務(wù)進(jìn)行對比實(shí)驗。CRF作為一種判別式的概率無向圖模型,是在給定一組輸入隨機(jī)變量條件下,輸出隨機(jī)變量的條件概率分布模型。它結(jié)合最大熵模型和隱馬爾科夫模型的特點(diǎn),在詞性標(biāo)注和命名實(shí)體識別等自然語言處理任務(wù)中得到廣泛應(yīng)用。本文提取當(dāng)前詞、詞性及前后兩個詞和詞性等上下文語境作為省略“的”字結(jié)構(gòu)識別特征。為便于和基于規(guī)則的級聯(lián)模型對比,CRF模型以相同數(shù)據(jù)集進(jìn)行訓(xùn)練與測試。兩種識別方法的對比測試結(jié)果如表9所示。

      表9 省略“的”字結(jié)構(gòu)識別級聯(lián)模型及CRF模型對比測試結(jié)果

      精確率召回率F1值CRF模型82.6%76.2%79.3%級聯(lián)模型88.5%85.7%87.1%

      從表9可以看出,基于規(guī)則的方法實(shí)驗效果明顯優(yōu)于基于統(tǒng)計的CRF模型,且基于統(tǒng)計的方法對數(shù)據(jù)需求比較高,即在大規(guī)模語料上表現(xiàn)要優(yōu)于小數(shù)據(jù)集。但從表5實(shí)驗數(shù)據(jù)及真實(shí)語料來看,省略與非省略“的”字結(jié)構(gòu)數(shù)量懸殊,相較于非省略類型,省略“的”字結(jié)構(gòu)在訓(xùn)練和測試語料的出現(xiàn)頻率較低,因此在類別不均衡的數(shù)據(jù)集上基于統(tǒng)計的方法效果并不理想?;谝?guī)則的方法雖然在精確率上結(jié)果較好,但召回率在一定程度上受到規(guī)則適用限制的影響,在“是……的”類型和“其他”類型的“的”字結(jié)構(gòu)識別上表現(xiàn)較差。即便如此,從整體結(jié)果來看,在現(xiàn)有同等規(guī)模數(shù)據(jù)集下,基于規(guī)則的級聯(lián)模型F1值超過CRF模型7.8%,優(yōu)勢還是較為明顯。

      綜上,基于規(guī)則的級聯(lián)模型和基于統(tǒng)計的CRF模型在省略“的”字結(jié)構(gòu)識別任務(wù)中各有優(yōu)劣。但從現(xiàn)有數(shù)據(jù)規(guī)模及實(shí)驗結(jié)果來看,基于規(guī)則的級聯(lián)模型擁有更好的實(shí)驗效果,更適用于省略“的”字結(jié)構(gòu)識別任務(wù)。

      3.3.4 錯誤分析

      通過對實(shí)驗中172個錯誤實(shí)例進(jìn)行分析,發(fā)現(xiàn)其中特殊句式依存分析的錯誤所占比例較大,如賓語前置句、定語后置句等。

      一般在口語使用中,當(dāng)說話者有意強(qiáng)調(diào)賓語時,會將賓語前置,形成賓語+主語+謂語的語序。例如:

      (11)吃住/NN 不/AD 花錢/VV ,/PU午飯/NN 單位/NN 負(fù)責(zé)/VV 的/SP

      例(11)的正常語序為“單位負(fù)責(zé)午飯”,但語料中說話者將賓語“午飯”放在主語“單位”之前,形成賓語前置句。對于此類句子,現(xiàn)有基于依存分析的方法無法正確識別各成分間的句法關(guān)系,只能將核心謂詞“負(fù)責(zé)”的論元結(jié)構(gòu)施事定位到“單位”,而受事則為空,因此造成了省略判斷的錯誤。

      此外,對于一些定語后置的“的”字結(jié)構(gòu)用法,可將其理解為“中心語在前關(guān)系小句在后”的一種古已有之的漢語句法結(jié)構(gòu)在現(xiàn)代漢語中的延續(xù)。例如:

      (12)法律/NN 上/LC 有/VE 規(guī)定/NN ,/PU 對于/P終身/NN 傷害/NN 非/VC 一次性/AD 能/VV 賠清/VV 的/DEC,/PU 以后/NT 在/P 需要/VV 時/LC 還/AD 可/VV 繼續(xù)/VV 提出/VV 索賠/NN

      (13)故意/AD 傷害/VV 他人/PN 身體/NN 致/VV 人/NN 重傷/VV 的/DEC,/PU 處/VV 三/CD 年/M 以上/LC 十/CD 年/M 以下/LC 有期/JJ 徒刑/NN

      對于這種定語后置句造成的省略結(jié)構(gòu),由于其結(jié)構(gòu)復(fù)雜經(jīng)常會判斷錯誤,但其所在的文本類型比較集中,多為法律文書,后期我們針對這類文體的“的”字結(jié)構(gòu)進(jìn)行單獨(dú)分析和處理。

      4 結(jié)語

      本文通過對“的”字結(jié)構(gòu)的分析,對比省略與非省略“的”字結(jié)構(gòu)在句法和語義上的差異,結(jié)合上下文詞性信息和動詞框架下論元結(jié)構(gòu)匹配的判斷方法,能夠較為準(zhǔn)確地識別出帶有語義省略的“的”字結(jié)構(gòu)。

      在接下來的工作中,我們會進(jìn)一步研究各類文本中復(fù)雜的定語后置“的”字結(jié)構(gòu)及特殊句式,引入特征模板或其他語義語法資源來提高識別性能。另外針對省略“的”字結(jié)構(gòu)對其缺省的信息進(jìn)行補(bǔ)全,并嘗試將補(bǔ)全的“的”字結(jié)構(gòu)用于語義自動解析等工作中。

      猜你喜歡
      義項省略語料
      偏旁省略異體字研究
      小心兩用成語中的冷義項
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      中間的省略
      詩選刊(2015年6期)2015-10-26 09:47:13
      兩用成語中的冷義項
      知識窗(2015年1期)2015-05-14 09:08:17
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      Enhanced Precision
      Beijing Review(2012年37期)2012-10-16 02:24:10
      省略
      詩歌月刊(2009年4期)2009-05-22 03:38:04
      灯塔市| 永川市| 洮南市| 房山区| 盘山县| 宁安市| 宁德市| 沙田区| 博兴县| 梧州市| 西林县| 石楼县| 定结县| 府谷县| 万年县| 治多县| 新泰市| 和静县| 同江市| 密云县| 华坪县| 金湖县| 泸溪县| 安塞县| 汪清县| 枣庄市| 彭山县| 安国市| 东宁县| 乌什县| 松桃| 高邮市| 金秀| 兴安盟| 大洼县| 岑溪市| 双峰县| 新密市| 安义县| 钟祥市| 高邮市|