• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      “把”字句的自動(dòng)釋義與句式變換研究

      2015-04-16 08:52:08王璐璐孫薇薇袁毓林
      關(guān)鍵詞:組塊句式語義

      王璐璐,孫薇薇,袁毓林

      WANG Lulu1,SUN Weiwei2,YUAN Yulin2

      1.中國傳媒大學(xué),北京100024

      2.北京大學(xué),北京100871

      1.Communication University of China,Beijing 100024,China

      2.Peking University,Beijing 100871,China

      1 引言

      “把”字句是現(xiàn)代漢語的一種常用句式,在語言學(xué)本體研究領(lǐng)域,有關(guān)“把”字句的句法結(jié)構(gòu)和語義特點(diǎn)的研究數(shù)量眾多且成果顯著。但在計(jì)算應(yīng)用方面,單就“把”字句的分析并不多見。而且目前主流的機(jī)器翻譯系統(tǒng)對“把”字句的翻譯并不十分理想。曾對Google 在線翻譯系統(tǒng)進(jìn)行中英互譯測試(在線測試時(shí)間:2011 年12 月28 日),測試發(fā)現(xiàn):對于不帶賓語的“把”字句,翻譯結(jié)果較好,44%的句子在中譯英和英譯中后翻譯為“把”字句;但是對帶賓語的“把”字句,翻譯結(jié)果較差,58%的句子的中譯英可以理解,42%的句子翻譯完全錯(cuò)誤。英譯中則沒有一句翻譯出“把”字。例如,“他們把糧食裝上汽車”譯為“They loaded grain cars”(“他們裝糧車”)。認(rèn)為,Google 在線翻譯系統(tǒng)在對“把”字句的翻譯中有兩點(diǎn)不足:一是“把”字句基本句式意義的缺失,如處置義及影響義都沒有在譯文中得到反映;二是帶賓語的“把”字句中,由于動(dòng)詞后賓語的出現(xiàn),提高了句式的復(fù)雜度,更提高了計(jì)算的困難度。

      針對“把”字句在機(jī)器翻譯中的困難,認(rèn)為有必要對“把”字句的計(jì)算分析進(jìn)行改進(jìn)?,F(xiàn)有的應(yīng)用系統(tǒng),無法將“把”字句這種具有復(fù)雜的句法語義信息的句式進(jìn)行精細(xì)化的自動(dòng)分析。對于“把”字句的研究,語言學(xué)界已經(jīng)發(fā)現(xiàn)了不少語言事實(shí)和相關(guān)規(guī)律,也有一些成熟的理論,在論元結(jié)構(gòu)和句式語義方面的研究成果尤為突出。如果能把這些理論借鑒到形式化的語法研究之中,應(yīng)該有利于提高計(jì)算分析的準(zhǔn)確度。

      由此,本文采取一種基于認(rèn)知假設(shè)并面向計(jì)算分析的技術(shù)路線[1],嘗試將語言學(xué)的學(xué)理性研究與計(jì)算方面的實(shí)證性分析結(jié)合起來,探索一種規(guī)則和統(tǒng)計(jì)相結(jié)合的“把”字句的自動(dòng)釋義和句式變換的方法,為機(jī)器翻譯等應(yīng)用系統(tǒng)提供可供復(fù)述(Paraphrases)的資料。

      2 基于變換的“把”字句的計(jì)算建模

      2.1 基于變換的“把”字句的語義類

      將機(jī)器理解“把”字句的過程處理為一個(gè)分類問題,即將無限的語言實(shí)例(token)對應(yīng)到具體的語言類型(type)上面。由此,需要多級標(biāo)注的語料來訓(xùn)練機(jī)器,讓它自動(dòng)學(xué)習(xí)“把”字句的句法語義信息。那么,機(jī)器要學(xué)習(xí)哪些句法語義信息,則需要借鑒語言學(xué)領(lǐng)域的研究成果。

      在漢語學(xué)界,“把”字句的語法意義是語言本體研究中的一個(gè)難點(diǎn)。主流的觀點(diǎn)有處置說[2]、致使說[3-4]、影響說[5-6]和結(jié)果說[7-9]。這些不同的觀點(diǎn)正說明了“把”字句語義構(gòu)成的復(fù)雜性。對于計(jì)算機(jī)而言,區(qū)分“把”字句內(nèi)部的語義差異是十分必要的。王璐璐提出,可以通過不同句式之間的變換關(guān)系分析為手段,來揭示“把”字句內(nèi)部在結(jié)構(gòu)形式和語義表達(dá)方面的差異,并為后面自動(dòng)獲取“把”字句的語義解釋做準(zhǔn)備[10]。這種分析技術(shù)主要參考了Levin 提出的動(dòng)詞詞匯語義類與句式變換之間有內(nèi)在關(guān)系的理論假設(shè)[11],即句式之間不同的變換關(guān)系反映了其中動(dòng)詞的不同意義差別。據(jù)此,推廣到句式層面,假定不同結(jié)構(gòu)形式的“把”字句有著不同的語義解釋,也有著不同的變換式序列。詹衛(wèi)東指出,對于計(jì)算機(jī)而言,“理解‘意思’的過程,可以表示為對符號進(jìn)行‘變換’的過程”[12]。所以說,通過“把”字句與其他句式的變換關(guān)系,可以將復(fù)雜的語法意義具體化為每一小類“把”字句的句法語義信息,并力求每一小類“把”字句的句法結(jié)構(gòu)與語義關(guān)系的相對單一性,從而達(dá)到對“把”字句精細(xì)化理解的目的。王璐璐根據(jù)對真實(shí)文本中“把”字句的考察,總結(jié)出了26 類細(xì)分類和8 類粗分類的“把”字句的語義類??紤]到信息的粒度,太粗或者太細(xì)的分類標(biāo)準(zhǔn)都不太合適。過粗分類對于后面的釋義來說意義不大,因?yàn)闊o法區(qū)分出各小類“把”字句的意義差異。過細(xì)的分類對實(shí)驗(yàn)的結(jié)果具有很大的干擾性,不容易有效地分出各個(gè)小類。有鑒于此,實(shí)驗(yàn)采用了8 小類的類別標(biāo)準(zhǔn),如表1 所示。

      2.2 語料的來源與標(biāo)注

      本文的數(shù)據(jù)選取了北大中文樹庫中的2 441 句“把”字句,并在此基礎(chǔ)上進(jìn)行句法語義信息的深加工工作。

      在現(xiàn)有的樹庫資源中,對“把”字句的句法結(jié)構(gòu)有兩種不同的認(rèn)識:一種是以賓大中文樹庫為代表的“IP”說,他們將“把”看作是動(dòng)詞,其后的成分是一個(gè)小句;另一種是以北大漢語樹庫為代表的“pp”說,他們將“把”看作是介詞,它與“把”后名詞構(gòu)成一個(gè)介賓短語。這種區(qū)別實(shí)際上可對應(yīng)于這兩大類樹庫資源背后不同的語法觀,即對漢語語法結(jié)構(gòu)的不同認(rèn)識。前者的“動(dòng)詞說”在國外的“把”字句研究中占據(jù)主導(dǎo)地位[13-17]。這種觀點(diǎn)的好處在于,它可以很好地解釋帶賓語的“把”字句,并將部分“把”字句與無標(biāo)記的被動(dòng)句聯(lián)系起來。在漢語學(xué)界,部分支持這個(gè)觀點(diǎn)是朱德熙先生提出的受事主語說[18],即刪除“把”字,后面的部分是受事作主語的句子。但是,在實(shí)際語料中,這個(gè)觀點(diǎn)仍不能解釋所有的“把”字句。例如,“作為”類動(dòng)詞所在的“把”字句是不能刪除“把”字的。如“*吸引外資作為緩解就業(yè)壓力的一個(gè)有效辦法”是不成句的,它要么作“是”字句的主語,要么需要加上“把”字。相比較而言,北京大學(xué)漢語樹庫在描述漢語時(shí)采用的是朱德熙先生的功能分類的思想,而且語素、詞和短語之間構(gòu)建了較好的功能對應(yīng)關(guān)系[19]。在對“把”字句分析中,北大樹庫沿襲了王力先生提出的“提賓說”,將“把”后的名詞看作是從主動(dòng)賓句中動(dòng)詞后的賓語位置提前所致。雖然并不是所有的“把”字句都能用提賓說來解釋,如“把老伴兒死了”,但是,這種觀點(diǎn)是最為符合母語者的語感,這與“把”字句所具有的處置義是密不可分的。根據(jù)統(tǒng)計(jì),北大樹庫對“把”字句標(biāo)注的準(zhǔn)確率高達(dá)99.6%。由此,傾向于在北大中文樹庫的基礎(chǔ)上深加工“把”字句的句法語義信息。

      表1 粗分類的“把”字句語義類

      由于本文是面向于大規(guī)模的語言工程實(shí)現(xiàn),標(biāo)注資源的構(gòu)造也應(yīng)考慮到大規(guī)模數(shù)據(jù)的特點(diǎn)。這就要求標(biāo)注那些對計(jì)算分析最為重要的信息,而不能如語言學(xué)分析那樣做到面面俱到。據(jù)此,標(biāo)注工作主要落實(shí)在句法和語義兩個(gè)層面:句法層面標(biāo)注組塊邊界(將“把”字句分為三個(gè)組塊部分,包括“把”字前的組塊X1…n,“把”字后的組塊Y,以及謂語部分Z1…n;采用IOB2 序列表示法[20]來對組塊進(jìn)行序列標(biāo)注,其中,“B”表示當(dāng)前詞是一個(gè)組塊的開始,“I”表示當(dāng)前詞在一個(gè)組塊中,而“O”表示當(dāng)前詞不在任意一個(gè)組塊中)和論元成分,如NP1、NP2、NP3;語義層面標(biāo)注論元的語義角色(語義角色的標(biāo)注標(biāo)準(zhǔn)主要借鑒了袁毓林提出的語義角色標(biāo)注體系[21]),如施事A、受事P、與事D等。除了這兩個(gè)重要層面以外,還需要標(biāo)注謂語部分的形式類型,如根動(dòng)詞VROOT、趨向動(dòng)詞DV 和形容詞A 等。最后,標(biāo)注出具有區(qū)別性意義的謂詞語義類(如“當(dāng)作義”、“給予義”和“成為義”等)以及有關(guān)成分的語義特征(如“有生”)。例如:

      2.3 “把”字句的計(jì)算步驟

      在標(biāo)注語料的基礎(chǔ)上,將機(jī)器對“把”字句的理解具體化為框架識別與自動(dòng)分類這兩個(gè)任務(wù)?;谧R別和分類的結(jié)果,設(shè)計(jì)一個(gè)自動(dòng)釋義和句式變換程序來對歸入相應(yīng)類別的“把”字句實(shí)例生成人工語言釋義和可變換的句式實(shí)例,如圖1 所示。

      3 “把”字句的自動(dòng)識別

      關(guān)于“把”字句的自動(dòng)識別,分別采用淺層分析與深層分析這兩種技術(shù)。淺層分析一般是分析句子的局部,適用于分詞、命名實(shí)體識別等任務(wù)。近年來,組塊(chunks)分析為淺層句法分析帶來新的思路。組塊是介于單詞與語句之間的單位[22],它將整句劃分為不同的部分,可以避免完全句法分析中的諸多難題,如歧義問題。如果不考慮語法單位之間的語法關(guān)系,可以將其句法框架和語義框架看作是一個(gè)線性序列結(jié)構(gòu)。這樣,就可以用組塊分析的方法來識別“把”字句。另一方面,還對“把”字句進(jìn)行深層的句法分析。雖然深層句法分析在魯棒性和效率等方面不如淺層句法分析,但是復(fù)雜語法對復(fù)雜的語言現(xiàn)象有更好的把握能力。下面,將分別介紹組塊分析與深層分析的實(shí)驗(yàn)方法和實(shí)驗(yàn)結(jié)果,并從二者的比較中得到最優(yōu)的方案。

      圖1 計(jì)算流程圖

      3.1 基于組塊分析的“把”字句識別

      3.1.1 組塊分析及算法

      組塊分析是將句子進(jìn)行部分的句法分析,從而降低語法分析的難度。在漢語的淺層句法分析中,組塊分析主要用于短語邊界的識別,尤其是名詞短語的自動(dòng)獲取。目前,基于成熟的機(jī)器學(xué)習(xí)算法的組塊分析,對序列性數(shù)據(jù)(sequential data)的處理性能優(yōu)勢明顯而被普遍采用。

      “把”字句的句法框架與語義框架都是一個(gè)線性的序列結(jié)構(gòu),即框架成分間互不相交、沒有疊加。換句話說,任意一個(gè)框架元素與其他框架元素都不會(huì)共享同一個(gè)詞。考慮到“把”字句的這種線性結(jié)構(gòu),采用組塊分析的方法來對“把”字句的框架成分進(jìn)行識別。那么,“把”字句的框架識別可以具體化為對給定句子中的詞進(jìn)行序列標(biāo)注的問題??紤]到“把”字句中框架成分的線性特點(diǎn),采用IOB2 表達(dá)法來進(jìn)行序列標(biāo)注。通過這種IOB2 表示法,任意給定一個(gè)“把”字句,都可以通過這樣的表示法來表示其所有的關(guān)涉成分;而只要能夠?qū)渥拥脑~進(jìn)行正確的IOB2 標(biāo)簽分類,就可以實(shí)現(xiàn)“把”字句框架的自動(dòng)識別。

      接下來,本文使用了一種結(jié)構(gòu)化的學(xué)習(xí)算法——條件隨機(jī)場(Conditional Random Fields,CRFs)。條件隨機(jī)場是一種統(tǒng)計(jì)模型方法[23],它兼具判別模型和無向圖模型的優(yōu)點(diǎn):特征設(shè)計(jì)靈活,無需考慮特征獨(dú)立性,避免了標(biāo)記偏執(zhí)(Label Bias)問題(參考北京大學(xué)計(jì)算語言學(xué)研究所常寶寶副教授的《計(jì)算語言學(xué)》課程講義)。它常用于標(biāo)注或分析序列性數(shù)據(jù),適用于分詞、詞性標(biāo)注和命名實(shí)體識別等任務(wù)。

      根據(jù)該學(xué)習(xí)算法,依次對給定句子中的詞進(jìn)行分類。分類的依據(jù)是該詞的上下文特征及已經(jīng)完成了的前一詞的標(biāo)簽分析。本文中使用的特征包括:

      (1)給定詞的前兩個(gè)詞及后兩個(gè)詞窗口內(nèi)的一元詞特征,含詞與詞性兩種;

      (2)給定詞的前兩個(gè)詞即后兩個(gè)詞窗口內(nèi)的二元詞特征,含詞與詞性兩種。

      3.1.2 實(shí)驗(yàn)結(jié)果及分析

      對于框架識別任務(wù),采用準(zhǔn)確的詞性標(biāo)注結(jié)果作為輸入。在本節(jié)的實(shí)驗(yàn)中,采用wapiti 工具包(詳見http://wapiti.limsi.fr/)作為框架識別的學(xué)習(xí)器。鑒于語料包括句法與語義兩個(gè)層級的標(biāo)注,分別設(shè)計(jì)句法框架和語義框架的識別實(shí)驗(yàn),并比較二者在召回率和準(zhǔn)確率上的區(qū)別(鑒于該語料規(guī)模有限,為了更加準(zhǔn)確地衡量的算法,報(bào)告的實(shí)驗(yàn)結(jié)果均是十折交叉驗(yàn)證的結(jié)果)。

      在第一個(gè)實(shí)驗(yàn)中,對“把”字句的句法框架進(jìn)行識別,即采納標(biāo)注為“B-NPx”一類的標(biāo)簽作為預(yù)測內(nèi)容。實(shí)驗(yàn)結(jié)果如表2 所示。

      表2 基于句法框架的識別結(jié)果

      在第二個(gè)實(shí)驗(yàn)中,對“把”字句的語義框架進(jìn)行識別。主要將謂詞論元的語義信息(標(biāo)簽形如“B-A”)抽象為預(yù)測內(nèi)容,表3 所示是實(shí)驗(yàn)結(jié)果。

      表3 基于語義框架的識別結(jié)果

      以上兩組實(shí)驗(yàn)結(jié)果表明:(1)對“把”字句的句法識別與語義識別的結(jié)果相差不大,準(zhǔn)確率和召回率都非常接近。(2)“把”的賓語(通常為NP2/P)較容易識別,準(zhǔn)確率高。這說明“把”作為一個(gè)功能詞,有很強(qiáng)的句法語義標(biāo)示性。(3)組塊分析算法的準(zhǔn)確率達(dá)到一定的精度,但相比之下,召回率很低,很多正確的關(guān)涉成分沒有被找到。如果考慮到完全句法分析的信息,有可能會(huì)改進(jìn)框架元素識別的召回率。

      3.2 基于完全句法分析的“把”字句識別

      3.2.1 完全句法分析及算法

      相較于組塊分析,完全句法分析將整句剖析(parse)成一棵完整的句法樹。也就是說,將對自然語言的理解具體化為生成句法樹的過程。句法樹的生成依賴于背后的形式語法理論。粗略地說,基于上下文無關(guān)文法的語言模型在計(jì)算句子語義方面不如基于約束的語法系統(tǒng)和基于依存語法的語言模型。在對漢語的形式語法研究中,基于上下文無關(guān)語法和依存語法的句法模型占據(jù)主流地位,已經(jīng)開發(fā)有較為成熟的樹庫資源,如賓大中文樹庫、北京大學(xué)的現(xiàn)代漢語樹庫、清華漢語樹庫、臺北中研院的Sinica 漢語依存樹庫,以及哈爾濱工業(yè)大學(xué)信息檢索研究室從短語結(jié)構(gòu)樹庫轉(zhuǎn)化來的依存樹庫等。這些資源的建設(shè)為面向大規(guī)模真實(shí)文本的內(nèi)容計(jì)算的語言知識的挖掘和形式表示等方面的研究提供了真實(shí)有效的語料支持。

      相比較而言,基于約束的形式語法方面的研究并不多見,大規(guī)模的語法資源也只限于雛形。在基于HPSG理論的多國語法開發(fā)平臺中,美國華盛頓大學(xué)的Bender教授主持開發(fā)的矩陣語法(Matrix)包含了一部分漢語語法資源。德國柏林自由大學(xué)的Müller 教授主持的漢語語法資源正在建設(shè)當(dāng)中。德國薩爾蘭大學(xué)在矩陣語法的基礎(chǔ)上進(jìn)一步開發(fā)漢語語法(MCG)資源。此外,日本東京大學(xué)的Miyao 教授生成了由賓州漢語樹庫自動(dòng)轉(zhuǎn)換而來的HPSG 語法樹庫。

      在這些語法資源中,選取了較有代表性的賓大中文樹庫、北大漢語樹庫、哈工大依存樹庫以及柏林自由大學(xué)的漢語語法庫。研究發(fā)現(xiàn),對“把”字句的分析主要有三點(diǎn)較大的分歧。

      (1)“把”字和“把”后成分之間的關(guān)系

      如圖2 和圖3 所示,賓大中文樹庫將“把”字后面的成分整體看作是“把”所帶的小句“IP”。而北大漢語樹庫將“把”及其后成分看作是一個(gè)介賓短語“pp”。前文也提出,考慮到“把”字句的處置義,也認(rèn)同后一種分析,將“把”字與“把”字后名詞性成分先分析為一個(gè)單位,只不過需要根據(jù)“把”字句的類型將“把”分別看作是賓語標(biāo)記(S1 類“把”字句,如“媽媽把衣服洗干凈了”)與主語標(biāo)記(S2 類“把”字句,如“農(nóng)活兒把爺爺累病了”)。

      (2)論旨角色的配置

      “把”字句中,論元成分的語義角色配置是非常復(fù)雜的。如果能夠在語料中得到正確的論旨角色關(guān)系,無疑對理解“把”字句有著至關(guān)重要的作用。目前,賓大樹庫和哈工大依存樹庫都能給出簡單的語義角色標(biāo)注信息,但是實(shí)踐證明,目前的標(biāo)注工作還存在一些問題。

      圖2 賓大中文樹庫例示

      圖3 北大中文樹庫例示

      在依存樹圖4 中,分析器只給出了“老干部”和“經(jīng)驗(yàn)”這兩個(gè)論元成分的語義角色信息。但是,“傳授”類動(dòng)詞在“把”字句中實(shí)際上關(guān)涉三個(gè)論元成分,圖中并沒有給出與事的標(biāo)注。同樣,在依存樹庫中還測試了一系列具有復(fù)雜語義角色配置關(guān)系的句子,如圖5 所示,“她把女兒打哭了”,“打哭”分析出來是個(gè)連謂結(jié)構(gòu),而語義角色標(biāo)注中“哭”是錯(cuò)誤的,把“她”標(biāo)成了A0(施事),實(shí)際上應(yīng)該是“女兒”哭了。

      圖4 哈工大依存樹庫例示

      圖5 “她把女兒打哭了”的依存分析

      對于這個(gè)句子的分析,陳鑫將“打哭”類動(dòng)詞看作是連謂結(jié)構(gòu)[24]。他認(rèn)為,“連謂結(jié)構(gòu)是同屬一個(gè)主語的多個(gè)謂語,這些謂語成分地位相等,只是在時(shí)間或空間上不一樣,中間可以被逗號分隔,多數(shù)謂詞都有自己的賓語?!边@個(gè)定義顯然不適合解釋“把”字句,因?yàn)椤按蚩蕖辈⒉皇沁B謂結(jié)構(gòu),而是述補(bǔ)結(jié)構(gòu)。句子的語義可以還原為“她打女兒”使得“女兒哭了”,對應(yīng)到建立的分類體系中的述補(bǔ)結(jié)構(gòu)類。所以說,對“把”字句分而治之的思想是非常必要的,這樣才能使得復(fù)雜的論旨角色配置對應(yīng)到相應(yīng)類別的句子中。

      (3)謂詞核心關(guān)涉成分的約束關(guān)系

      在基于短語結(jié)構(gòu)語法的賓大樹庫和北大中文樹庫中,“把”字句謂詞核心所關(guān)涉的論元成分通過自底向上的規(guī)則組成更大的語法結(jié)構(gòu)。但是,這些語法無法描述所謂的“提賓說”,即動(dòng)詞后名詞性成分提前到“把”字后的位置上。對此,基于約束的形式語法可以提供這種長距離的依存范式。在HPSG 語法中,這種語法現(xiàn)象可以用長距離依存原則來描寫,移動(dòng)后所留下的空位可以用GAP 特征來表示[25],具體如圖6 所示。

      圖6 長距離依存原則

      Gao 應(yīng)用這一原則描述“把”字句中論元成分的長距離依存關(guān)系[15],分析結(jié)果證明是有效的。例如,對“我把他搶了”這個(gè)句子的分析如圖7 所示。

      圖7 Gao 的句法分析

      進(jìn)而,柏林自由大學(xué)的Müller 教授主持開發(fā)的漢語語法系統(tǒng)中還可以對這種句法空位進(jìn)行自動(dòng)分析,從而可以自動(dòng)分析出合格的“把”字句,如圖8 所示。

      據(jù)此,將HPSG 理論的這種長距離依存的思想結(jié)合到本文的短語結(jié)構(gòu)文法中,并設(shè)計(jì)程序來自動(dòng)找到“把”字句中的框架成分“NP1”、“NP2”和“NP3”,如圖9所示。

      圖8 柏林自由大學(xué)TRALE 語法示例

      圖9 “老干部把經(jīng)驗(yàn)傳授給新干部”的句法樹

      如圖9,采取一種自底向上、逐層遍歷的掃描方法。先從子節(jié)點(diǎn)開始尋找“NP3”,如果找到了,就在該節(jié)點(diǎn)的上層節(jié)點(diǎn)標(biāo)注“seeNP3”;接著尋找根動(dòng)詞“ROOT”,如果找到,在根動(dòng)詞所在節(jié)點(diǎn)標(biāo)注“seeROOT”,這些標(biāo)注信息會(huì)逐級向上承繼;再繼續(xù)找“NP2”,找到后在其上層節(jié)點(diǎn)標(biāo)注“seeNP2”;最后尋找“NP1”,找到后在其上層節(jié)點(diǎn)標(biāo)注“seeNP1”。這樣,在這句話的父節(jié)點(diǎn)上會(huì)累積標(biāo)注出找到的這些框架成分的信息,也就意味著識別出了句子中的框架成分,達(dá)到了自動(dòng)識別的目的。

      3.2.2 實(shí)驗(yàn)結(jié)果及分析

      在標(biāo)注文本中隨機(jī)抽取了240 句“把”字句作為測試集來進(jìn)行開放測試。首先來看根據(jù)句法框架的識別結(jié)果,如表4 所示。

      表4 基于句法框架的完全句法分析識別結(jié)果

      從表4 的結(jié)果可以看出,基于深層思想的框架識別結(jié)果優(yōu)于組塊分析的結(jié)果。其中,召回率的結(jié)果要明顯優(yōu)于組塊分析的召回率,NP2 達(dá)到96.03%,根動(dòng)詞、NP1和NP3 在80%左右。這說明,完全句法信息的系統(tǒng)的預(yù)測要明顯優(yōu)于組塊分析的系統(tǒng)。但是,因?yàn)檎业降目蚣艹煞侄嗔?,也?huì)對系統(tǒng)的準(zhǔn)確率造成一定的影響。目前,該系統(tǒng)對“NP2”的識別準(zhǔn)確率最高,達(dá)到92.03%。但是,對根動(dòng)詞、NP1、NP3 和SP 的識別不如NP2,分別為80.71%、55.21%、63.85%和65.12%。NP1 的識別效果最差,這是因?yàn)椤鞍选弊志涞腘P1 可以不出現(xiàn),也可以出現(xiàn)在“把”字結(jié)構(gòu)所在小句的前一小句中,所以難以準(zhǔn)確地識別。

      再來看根據(jù)語義角色的識別結(jié)果,如表5 所示。

      表5 基于語義框架的完全句法分析識別結(jié)果

      總體來看,基于語義角色的識別結(jié)果與框架成分的識別結(jié)果基本一致。但是,由于語義角色的數(shù)量要多于框架成分的數(shù)量,在結(jié)果的集中度上會(huì)受到一些影響。

      最后,詳細(xì)考察了識別錯(cuò)誤的結(jié)果,發(fā)現(xiàn)沒有得到正確識別的原因主要集中在詞性標(biāo)注錯(cuò)誤(25%)、句法成分的識別錯(cuò)誤(15%)與句法結(jié)構(gòu)關(guān)系的識別錯(cuò)誤(20%)上,這與詞性標(biāo)注器和句法分析器的效果有關(guān)??梢姡疚木浞ǚ治銎髋c北大中文樹庫的分析結(jié)果存在一定的差距,這也是以后需要改進(jìn)的地方。

      4 “把”字句的自動(dòng)分類

      4.1 句式分類算法

      對“把”字句的句式分類一般可以轉(zhuǎn)化為一個(gè)關(guān)于“把”字的詞義消歧問題,但傳統(tǒng)的詞義消歧方法在解決我們的問題上有很大局限性。最主要的原因是,詞義消歧所利用的信息一般是和目標(biāo)詞搭配的詞,通常屬于詞匯語義的范疇;而所關(guān)心的“把”字句的語義,則是“把”字句的框架分類,屬于句法語義的范疇。這樣,僅僅通過搭配詞的信息,無法準(zhǔn)確完成對“把”字句的分類。本文實(shí)驗(yàn)也充分的說明了這一點(diǎn)。

      雖然具體的詞義消歧算法不支持“把”字句的分類,但詞義消歧的思想仍然有很大的借鑒意義。在本文中,和詞義消歧算法相似,采用判別式機(jī)器學(xué)習(xí)算法來對“把”字句進(jìn)行類別的自動(dòng)分析,只是在特征提取方面,采用的不是詞搭配的信息,而是采用已經(jīng)識別出來的“框架元素”。下面是對特征的具體說明。

      (1)根動(dòng)詞的上下文信息:根動(dòng)詞的前一個(gè)詞及后一個(gè)詞窗口內(nèi)的一元詞特征,含詞與詞性兩種。

      (2)“把”字的上下文信息:“把”字的前兩個(gè)詞及后兩個(gè)詞窗口內(nèi)的一元詞特征,含詞與詞性兩種。

      (3)名詞性框架元素信息:名詞性框架元素的尾詞及其詞性。

      (4)動(dòng)詞性框架元素信息:動(dòng)詞性框架元素的首詞及其詞性。

      在自動(dòng)識別了“把”字句框架信息的基礎(chǔ)上,可以很方便地提取以上特征,并根據(jù)這些特征訓(xùn)練一個(gè)分類器,進(jìn)而對“把”字句進(jìn)行分類。在分類器的選擇方面,有很多算法可以考慮,采用了支持向量機(jī)的算法(http://zh.wikipedia.org/wiki/%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA)。另外,用于分類的學(xué)習(xí)器,使用的是Liblinear線性分類器(Liblinear是一個(gè)用于大規(guī)模數(shù)據(jù)分類的開源庫,支持邏輯回歸和向量機(jī))。

      4.2 實(shí)驗(yàn)結(jié)果及分析

      對于語義分類任務(wù),將前文自動(dòng)識別實(shí)驗(yàn)的結(jié)果作為輸入,并選取根動(dòng)詞和“把”字的上下文信息,以及名詞性和動(dòng)詞性框架元素的信息作為分類的重要特征。由于前文分別采用了組塊分析和完全句法分析的方法進(jìn)行了識別實(shí)驗(yàn),接下來的分類實(shí)驗(yàn)也要基于這兩組不同的數(shù)據(jù)。

      首先是通過組塊分析得到識別成分的語義分類的結(jié)果,如表6 所示。

      表6 基于組塊分析的語義分類結(jié)果

      通過實(shí)驗(yàn)發(fā)現(xiàn),基于自動(dòng)的句法框架信息和自動(dòng)的語義框架信息對“把”字句的框架分析沒有影響,系統(tǒng)精度一致(由于分類問題的判斷標(biāo)準(zhǔn)在于分類的準(zhǔn)確度,并沒有召回的文本)。

      接下來是基于完全句法分析得到識別成分的語義分類結(jié)果,如表7 所示。

      表7 基于完全句法分析的語義分類結(jié)果

      從表7 的數(shù)據(jù)可以看出,在基于完全句法分析得到的框架信息的基礎(chǔ)上的語義分類結(jié)果(準(zhǔn)確率為61.79%)并沒有大幅度的改進(jìn),反而還不如基于組塊分析得到的框架信息上的語義分類結(jié)果(準(zhǔn)確率為67.2%)。

      這兩組實(shí)驗(yàn)的結(jié)果都不夠理想。通過對分類錯(cuò)誤結(jié)果的分析(在隨機(jī)抽取的100 句分析結(jié)果中,有41 句的分類結(jié)果錯(cuò)誤),發(fā)現(xiàn)造成“把”字句的分類錯(cuò)誤的原因主要有以下幾點(diǎn):

      (1)分詞結(jié)果不一致。比如“流言把他擊倒”,樹庫中傾向于分析為“擊/v 倒/v”,但是這里采用的分詞系統(tǒng)將“擊倒”切分為一個(gè)動(dòng)詞。這樣就既影響識別結(jié)果,又影響分類結(jié)果。在41句錯(cuò)誤結(jié)果中,有4句屬于這類錯(cuò)誤。

      (2)識別結(jié)果不一致。例如下例中,測試文本中的根動(dòng)詞和NP2 的識別都與標(biāo)準(zhǔn)答案中的不一致。在41句錯(cuò)誤結(jié)果中,有27 句都屬于這類錯(cuò)誤。

      (3)分類結(jié)果錯(cuò)誤。這類句子中,句子成分與句子結(jié)構(gòu)關(guān)系的識別結(jié)果都是正確的,只有分類結(jié)果是錯(cuò)誤的。在41 句錯(cuò)誤結(jié)果中,有8 句屬于這類錯(cuò)誤。

      (4)標(biāo)準(zhǔn)答案的分析結(jié)果錯(cuò)誤。在本文的語料中,包括一部分“將”字句,把這些“將”字句也標(biāo)作“把”字句,但是有些“將”字句在標(biāo)準(zhǔn)答案中沒有標(biāo)注上。在41句錯(cuò)誤結(jié)果中,有2 句都屬于這類錯(cuò)誤。

      綜合來看,真正由本系統(tǒng)造成的分類錯(cuò)誤只有8例,占20%左右,大部分的錯(cuò)誤結(jié)果都是與識別錯(cuò)誤直接相關(guān)。由此,需要在以后重點(diǎn)改進(jìn)識別結(jié)果的召回率與準(zhǔn)確率。

      5 “把”字句的自動(dòng)釋義與句式變換程序

      在前面的自動(dòng)識別與自動(dòng)分類的基礎(chǔ)上,設(shè)計(jì)了一套“把”字句自動(dòng)釋義與句式變換程序。該程序按照如下的計(jì)算步驟來實(shí)現(xiàn)對“把”字句的自動(dòng)釋義與句式變換:

      (1)系統(tǒng)在文本框中輸入一句“把”字句。

      (2)系統(tǒng)后臺對該“把”字句進(jìn)行自動(dòng)識別與句式分類,并將識別結(jié)果和分類結(jié)果保存到臨時(shí)文件中。

      (3)根據(jù)分類結(jié)果,系統(tǒng)后臺找到相應(yīng)類別的釋義模板和句式變換模板,將識別出的框架成分分別填入到相關(guān)的釋義模板中,得到一個(gè)釋義結(jié)果和一組變換式。

      (4)系統(tǒng)將該釋義結(jié)果和變換式輸出到文本框中。

      (5)系統(tǒng)再給出句法分析的結(jié)果,并以一棵樹的形式顯示出來。

      根據(jù)以上計(jì)算步驟,可以對“把”字句實(shí)現(xiàn)自動(dòng)釋義。下面是“老干部把經(jīng)驗(yàn)傳授給新干部”的自動(dòng)釋義和句式變換過程:

      步驟1經(jīng)過組塊識別或完全句法分析,得到這句話的句法框架信息和語義框架信息。例如,句法框架信息有:NP1=“老干部”,NP2=“經(jīng)驗(yàn)”,NP3=“新干部”,ROOT=“傳授”;語義框架信息有:A=“老干部”,P=“經(jīng)驗(yàn)”,D=“新干部”,ROOT=“傳授”。

      圖10 計(jì)算程序?qū)嵗菔窘Y(jié)果

      步驟2根據(jù)框架信息和分類類別之間的對應(yīng)關(guān)系(即分類模型),機(jī)器自動(dòng)將這句話歸入到第1 類,在“把”字的標(biāo)記上標(biāo)為“BA1”。在完全句法分析中,這個(gè)類別信息會(huì)跟著“把”字向上傳遞到根節(jié)點(diǎn)。

      步驟3根據(jù)第1 類“把”字句的釋義模板和句式變換模板,將框架成分代入相應(yīng)的類別中。例如,釋義模板是“NP1+VP+NP2,使得+NP3+獲悉+NP2”,輸出結(jié)果是“老干部傳授經(jīng)驗(yàn),使得新干部獲悉經(jīng)驗(yàn)”;句式變換模板是“NP1+VP+NP2+GEI+NP3;NP2+被+NP1+VP+GEI+NP3;NP2,NP1+VP+GEI+NP3”,輸出一組句式變換式:“老干部(NP1)傳授(VP)經(jīng)驗(yàn)(NP2)給(GEI)新干部(NP3);經(jīng)驗(yàn)(NP2)被老干部(NP1)傳授(VP)給(GEI)新干部(NP3);經(jīng)驗(yàn)(NP2),老干部(NP1)傳授(VP)給(GEI)新干部(NP3)”。這樣,就實(shí)現(xiàn)了對“把”字句的自動(dòng)釋義和句式變換程序,輸出結(jié)果如圖10 所示。

      需要說明的是,這部分自動(dòng)生成的語義解釋也許并不流暢,因?yàn)椴捎玫氖侨斯ふZ言的釋義模板。如果要達(dá)到自然語言的流暢度,還需要結(jié)合大規(guī)模的基于N-Gram的語言模型的訓(xùn)練。

      6 結(jié)論

      通過對“把”字句的計(jì)算分析,實(shí)現(xiàn)了一個(gè)可以對“把”字句進(jìn)行框架識別、自動(dòng)分類和自動(dòng)釋義與句式變換的程序。首先,分別采取了基于組塊分析的方法和基于完全句法分析的方法來對“把”字句進(jìn)行框架識別。研究發(fā)現(xiàn),基于完全句法分析的識別方法對“把”字句框架成分的召回率高于基于組塊分析的方法。但是,由于預(yù)測的數(shù)量增多,準(zhǔn)確率不如基于組塊分析的方法。只有對NP2 的識別,基于句法分析的方法在召回率和準(zhǔn)確率兩個(gè)方面都優(yōu)于基于組塊分析的方法。前者對NP2的召回率達(dá)到96.03%,準(zhǔn)確率達(dá)到92.44%;而后者對NP2 識別的召回率是90.14%,準(zhǔn)確率是92.03%。接下來,采用判別式機(jī)器學(xué)習(xí)的方法來對“把”字句自動(dòng)分類。實(shí)驗(yàn)結(jié)果表明,在基于組塊分析的識別基礎(chǔ)上的自動(dòng)分類的準(zhǔn)確率是67.21%,而基于完全句法分析的自動(dòng)分類的準(zhǔn)確率是61.79%。最后,在自動(dòng)識別與分類的基礎(chǔ)上,根據(jù)釋義模板和變換模板設(shè)計(jì)了一個(gè)“把”字句的自動(dòng)釋義與句式變換程序。當(dāng)輸入端輸入一個(gè)“把”字句,在輸出端給出該句的釋義結(jié)果和相應(yīng)類別的變換式,進(jìn)而為機(jī)器翻譯等應(yīng)用研究提供幫助。例如,可以對“把”字句的自動(dòng)釋義和句式變換結(jié)果進(jìn)行翻譯,再通過自信度計(jì)算等策略計(jì)算出最為理想的翻譯結(jié)果。

      [1] 袁毓林.基于認(rèn)知的漢語計(jì)算語言學(xué)研究[M].北京:北京大學(xué)出版社,2008.

      [2] 王力.中國現(xiàn)代語法[M]//王力文集:第二卷.濟(jì)南:山東教育出版社,1985.

      [3] 郭銳.把字句的語義構(gòu)造和論元結(jié)構(gòu)[M]//語言學(xué)論叢:第28 輯.北京:商務(wù)印書,2003.

      [4] 葉向陽.“把”字句的致使性解釋[J].世界漢語教學(xué),2004(2):25-39.

      [5] 邵敬敏.把字句及其變換句式[M]//研究生論文選集·語言文字分冊.南京:江蘇古籍出版社,1986.

      [6] 薛鳳生.試論“把”字句的語義特性[J].語言教學(xué)與研究,1987(1):4-22.

      [7] 崔希亮.“把”字句的若干句法語義問題[J].世界漢語教學(xué),1995(3):12-21.

      [8] 張伯江.論“把”字句的句式語義[J].語言研究,2000(1):28-40.

      [9] 張旺熹.“把”字句的位移圖式[J].語言教學(xué)與研究,2001(3):1-10.

      [10] 王璐璐.基于變換的“把”字句自動(dòng)釋義研究[D].北京:北京大學(xué),2013.

      [11] Levin B.English verb classes and alternations:A preliminary investigation[M].Chicago,IL:University of Chicago Press,1993.

      [12] 詹衛(wèi)東.論元結(jié)構(gòu)與句式變換[J].中國語文,2004(3):209-221.

      [13] Zou Ke.The syntax of the Chinese ba-constructions and verb compounds:A morpho-syntactic analysis[D].University of Southern California,1995.

      [14] Bender E.The syntax of Mandarin ba:Reconsidering the verbal analysis[J].Journal of East Asian Linguistics,2000,9:100-145.

      [15] Gao Qian.Argument Structure,HPSG and Chinese grammar[D].Ohio State University,2000.

      [16] Lipenkova J.A HPSG representation of causativity in the Chinese ba-construction[C]//Proceedings of the 17th International Conference on Head-Driven Phrase Structure Grammar,Université Denis Diderot Paris,2010.

      [17] Lipenkova J.Lexical licensing and obligatory event modifiers in the Chinese ba-construction[C]//Proceedings of CSSP,2011.

      [18] 朱德熙.語法講義[M].北京:商務(wù)印書館,1982.

      [19] 周強(qiáng),張偉,俞士汶.漢語樹庫的構(gòu)建[J].中文信息學(xué)報(bào),1997(4):42-51.

      [20] Sang E T K,Veenstra J.Representing text chunks[C]//Proceedings of EACL Conference(EACL 1999),1999.

      [21] 袁毓林.論元角色的層級關(guān)系和語義特征[J].世界漢語教學(xué),2002(3):5-6.

      [22] Abney S.Parsing by chunks[M]//Principle-Based Parsing.Dordrecht:Kluwer Academic,1991.

      [23] Lafferty J,McCallum A,Pereira F.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//Proc of the 18th International Conf on Machine Learning.[S.l.]:Morgan Kaufmann,2001:282-289.

      [24] 陳鑫.基于主動(dòng)學(xué)習(xí)的漢語依存樹庫構(gòu)建[D].哈爾濱:哈爾濱工業(yè)大學(xué),2011:11-12.

      [25] Sag A,Wasow T.Syntactic theory:A formal introduction[M].[S.l.]:CSLI Publications,1999.

      猜你喜歡
      組塊句式語義
      橫浪作用下大型上部組塊雙船浮托安裝動(dòng)力響應(yīng)特性試驗(yàn)研究
      語言與語義
      基本句式走秀場
      例析wh-ever句式中的常見考點(diǎn)
      陸豐7-2油田導(dǎo)管架平臺上部組塊低位浮托安裝關(guān)鍵技術(shù)
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語義模糊
      特殊句式
      英語詞匯組塊學(xué)習(xí)路徑研究——組塊法
      詞匯組塊層次網(wǎng)絡(luò)
      望都县| 马公市| 静乐县| 德钦县| 枝江市| 虞城县| 滨海县| 拜泉县| 富宁县| 长寿区| 巨鹿县| 京山县| 永仁县| 佛教| 辽宁省| 新化县| 从江县| 洛浦县| 平顺县| 三河市| 甘南县| 大渡口区| 伽师县| 深泽县| 门源| 苏尼特左旗| 彭阳县| 和静县| 绥化市| 闵行区| 西乌珠穆沁旗| 富顺县| 梧州市| 阳西县| 新郑市| 齐齐哈尔市| 沛县| 清原| 江门市| 汪清县| 沽源县|