• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于句式結(jié)構(gòu)的漢語圖解析句法設(shè)計(jì)

      2014-07-07 01:48:54彭煒明宋繼華王寧
      關(guān)鍵詞:圖解句法句式

      彭煒明,宋繼華,王寧

      1.計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室(北京大學(xué)),北京大學(xué)計(jì)算語言學(xué)研究所,北京 100871

      2.北京師范大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京 100875

      3.北京師范大學(xué)文學(xué)院,北京 100875

      基于句式結(jié)構(gòu)的漢語圖解析句法設(shè)計(jì)

      彭煒明1,宋繼華2,王寧3

      1.計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室(北京大學(xué)),北京大學(xué)計(jì)算語言學(xué)研究所,北京 100871

      2.北京師范大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京 100875

      3.北京師范大學(xué)文學(xué)院,北京 100875

      梳理了漢語語法學(xué)界對(duì)“句式”這一術(shù)語的認(rèn)識(shí)分歧;從中文信息處理角度分析了當(dāng)前本領(lǐng)域句法分析和樹庫構(gòu)建缺乏句式結(jié)構(gòu)的現(xiàn)狀;對(duì)黎氏語法形式化研究作了一個(gè)最新的綜述,指出其在句式結(jié)構(gòu)方面的優(yōu)勢(shì)和仍存在的不足;以黎氏語法圖解法為原型改造設(shè)計(jì)出一種新型的漢語圖解析句法,具體包括圖形化的句法結(jié)構(gòu)表示和結(jié)構(gòu)化的XML存儲(chǔ)格式。

      句式結(jié)構(gòu);圖解析句;析句方法;句本位語法

      1 引言

      眾所周知,漢語語法的研究成果通常有兩大領(lǐng)域應(yīng)用可作為檢驗(yàn)理論的具體實(shí)踐,一是對(duì)外漢語教學(xué),一是中文信息處理。前者面向沒有漢語語感的外國人,而后者面向完全沒有人類語言經(jīng)驗(yàn)的計(jì)算機(jī)。它們本質(zhì)上都是在解決漢語的語言習(xí)得問題,都需要關(guān)于漢語語法系統(tǒng)的理論指導(dǎo)。從邏輯上講,二者應(yīng)該能夠?qū)崿F(xiàn)多方面的相互參證、相互促進(jìn)。但多年來這方面的學(xué)科交叉研究卻并不多見。特別是隨著對(duì)外漢語語法教學(xué)從“以結(jié)構(gòu)為綱”到“以功能和交際為綱”的思路轉(zhuǎn)變,在這兩個(gè)學(xué)科間尋找到有效結(jié)合點(diǎn)變得越發(fā)困難。注意到,若要實(shí)現(xiàn)與交際功能的結(jié)合,句型句式在語法教學(xué)中占據(jù)不可替代的重要地位。在特定情境中進(jìn)行語法教學(xué),不宜以詞類系統(tǒng)或短語結(jié)構(gòu)知識(shí)體系為綱展開語法點(diǎn)教學(xué),而必須結(jié)合如連動(dòng)句、兼語句、雙賓語句、“連……都……”、“是……的”等常用句型句式進(jìn)行。

      然而,目前中文信息處理領(lǐng)域主流的句法樹庫和自動(dòng)句法分析研究都是建立在結(jié)構(gòu)主義語法理論的基礎(chǔ)上,以短語為著眼點(diǎn),強(qiáng)調(diào)結(jié)構(gòu)層次,句法關(guān)系以二元結(jié)構(gòu)關(guān)系為主[1]。因此,句式結(jié)構(gòu)在中文信息處理中一直處于一種模糊的邊沿地位,造成了語法教學(xué)、研究與中文信息處理應(yīng)用之間的信息鴻溝。

      2 句式結(jié)構(gòu)

      2.1 術(shù)語說明

      “句式”這一術(shù)語廣泛運(yùn)用于漢語語法學(xué)界,與此相關(guān)還有“句型”、“句類”等一系列術(shù)語。不同的學(xué)者對(duì)這些術(shù)語有著不同的理解和界定。最具代表性的主要為以下幾家:

      (1)呂叔湘把“句式”看作句子的結(jié)構(gòu)類型,“句式”和“句型”不作區(qū)分,都指“句子的結(jié)構(gòu)格局”[2]。但句子的結(jié)構(gòu)分類可以從句法結(jié)構(gòu)上分,也可以從語義結(jié)構(gòu)上分。以主、謂、賓、補(bǔ)等句法成分作為結(jié)構(gòu)要素的可以參照呂叔湘《現(xiàn)代漢語八百詞·現(xiàn)代漢語語法要點(diǎn)》中的動(dòng)詞謂語句式表[3],以施事、受事、結(jié)果、工具、處所等語義標(biāo)記作為結(jié)構(gòu)要素的則以李臨定《現(xiàn)代漢語句型》為代表[4]。

      (2)張斌認(rèn)為“句式”是句子的特征類別,主張區(qū)分“句型”、“句類”和“句式”。他主編的《現(xiàn)代漢語描寫語法》中是這樣界定的:“句型指的是句子的結(jié)構(gòu)類型,如單句與復(fù)句、主謂句與非主謂句,等等?!薄熬漕愔傅氖蔷渥拥恼Z氣類別,如陳述、疑問、祈使、感嘆?!薄熬涫绞蔷渥拥奶卣黝悇e,如‘把’字句、‘被’字句、存現(xiàn)句,等等[5]?!?/p>

      (3)范曉的“句式”最具綜合性,他以“句型”、“句?!焙汀熬漕悺狈謩e指稱句法、語義和語用三個(gè)平面內(nèi)的句子類別,而把“句式”定義為“由一定語法形式顯示的表示一定語法意義的句子的結(jié)構(gòu)格式”,是一種包含句法結(jié)構(gòu)、語義結(jié)構(gòu)和語用功能的三維綜合體[6-10]。

      關(guān)于句子分類的術(shù)語細(xì)化當(dāng)然有助于人們對(duì)此問題的深入認(rèn)識(shí),但不管是特征類別還是語義、語用類別,都需要采用一定的句法結(jié)構(gòu)格局作為形式載體。因此,本文權(quán)且接受⑴中“句式”的術(shù)語定位,即“句子的結(jié)構(gòu)格式或結(jié)構(gòu)類型”,而將“把”字句等具有顯著特征的句子類別作為若干特殊句式(特定的下位句式)。這么做既有避免多立名目的考慮,同時(shí)也是基于中文信息處理的現(xiàn)實(shí)需求:語義理解必需首先以形式為綱實(shí)現(xiàn)句子的結(jié)構(gòu)化,并且結(jié)構(gòu)設(shè)計(jì)講究系統(tǒng)性,要求能夠分析和處理所有的合法句子。

      2.2 句式的結(jié)構(gòu)和層次

      句式研究與漢語語法學(xué)的發(fā)展有著密切的聯(lián)系,從最早的《馬氏文通》到黎錦熙《新著國語文法》,再到后來的呂叔湘《中國文法概略》、王力《中國現(xiàn)代語法》等等,早期成體系的語法著作本質(zhì)上都是在探討漢語的句子結(jié)構(gòu)格局??梢哉f,研究時(shí)間長,積累成果豐富,但卻鮮見句式研究成果系統(tǒng)地應(yīng)用到中文信息處理中,用于指導(dǎo)漢語的句法分析。

      究其原因,中文信息處理中句子結(jié)構(gòu)的形式化處理在很大程度上模糊了漢語的句式結(jié)構(gòu),以至于很難從句法樹結(jié)構(gòu)中獲取句式結(jié)構(gòu)。句法樹結(jié)構(gòu)與句式結(jié)構(gòu)最直觀的差別是,前者以一種層級(jí)的樹狀結(jié)構(gòu)為表現(xiàn)形式,而后者通常采用詞類、成分或特征詞等的線性序列。當(dāng)然,這并不是說描述句式的序列配置中各部之間沒有層次關(guān)系,事實(shí)上,句式本身就蘊(yùn)含了一種整體格局下的固定層次結(jié)構(gòu)。

      以“S+已經(jīng)+V+了+O”句式(其中S表示主語,O表示賓語,V表示動(dòng)詞)為例,在現(xiàn)代漢語語法體系下自然能得出其結(jié)構(gòu)層次是:“(S((已經(jīng)(V了))O))”。這種以動(dòng)詞為中心,先后組合的層級(jí)順序由句式整體格局決定?!靶×忠呀?jīng)離開了書店?!币痪洌灰f明“小林”、“離開”、“書店”充當(dāng)句式中的S、V和O,那么就無需再對(duì)其進(jìn)行具體的層次結(jié)構(gòu)分析,因?yàn)樗呀?jīng)由語法體系整個(gè)地賦予了所屬句式。如果在句法結(jié)構(gòu)的形式化設(shè)計(jì)中將這種屬于句式格局的固定層次結(jié)構(gòu)保存下來,就可形成若干模式化的“句式結(jié)構(gòu)”。

      但是反觀目前主流短語結(jié)構(gòu)樹的設(shè)計(jì),卻沒有留意句式結(jié)構(gòu)的信息維護(hù)。如圖1所示,(a)為上述例句的短語結(jié)構(gòu)樹,直接依存的若干中心詞由于追求二分結(jié)構(gòu)而分布在相隔較遠(yuǎn)的樹層級(jí)中;(b)樹句子作了一定附加擴(kuò)展,新成分的加入立即打破原有各成分之間的相對(duì)層次關(guān)系。

      圖1 短語結(jié)構(gòu)樹示例(“!”表示中心詞所在)

      上例中只是在原有句式上增加了狀語、定語,若再考慮語序變換、成分復(fù)雜化等操作,則句子結(jié)構(gòu)更加不固定,從樹結(jié)構(gòu)中獲取特定句式結(jié)構(gòu)信息將變得異常困難。根本原因在于樹結(jié)構(gòu)設(shè)計(jì)時(shí)放棄了“句子成分”的結(jié)點(diǎn)形式,代之以“直接成分+句法關(guān)系”的標(biāo)注模式,進(jìn)而過度地追求二分層次分析。這樣,句子結(jié)構(gòu)擴(kuò)展和復(fù)雜化產(chǎn)生的層次與句式的固定層次雜糅在一起,從而模糊了句式結(jié)構(gòu)的固有層次性。

      相比短語結(jié)構(gòu)樹,后來興起的依存結(jié)構(gòu)樹采用中心詞直接依存的結(jié)構(gòu)形式,一定程度上避免了短語層次切分瑣碎和中心詞依存關(guān)系不突出的弊端,因而在從句法結(jié)構(gòu)走向句義分析方面顯示出更強(qiáng)的適應(yīng)性。然而,依存結(jié)構(gòu)只要求滿足單核心、弱連通、無環(huán)、無交叉弧等幾條依存公理的純形式約束,也沒有建立明確的句式結(jié)構(gòu)信息。依存弧上所標(biāo)注的各種依存關(guān)系仍然是短語結(jié)構(gòu)層面的二元句法、語義關(guān)系,同樣缺乏關(guān)于句式結(jié)構(gòu)的宏觀視角。

      朱德熙在討論“NP+Vf著+N”句式(例如“臺(tái)上坐著主席團(tuán)”)時(shí),指出該句式中的“施事、受事”等是“低層次”語義,“表示存在方式”是“高層次”語義[11],而后者只有到句式結(jié)構(gòu)層面才能顯現(xiàn)。從中文信息處理走向深層句義理解的角度出發(fā),有必要探索基于句式結(jié)構(gòu)的句法表現(xiàn)形式和存儲(chǔ)格式。這種新型的結(jié)構(gòu)格式應(yīng)該既能適應(yīng)句子結(jié)構(gòu)擴(kuò)展變換的復(fù)雜層次結(jié)構(gòu),同時(shí)又能維護(hù)特定句式的固定層次結(jié)構(gòu)。

      早期漢語語法體系中有一種以直觀展現(xiàn)“句子結(jié)構(gòu)格局”著稱的圖解析句法,即黎錦熙《新著國語文法》中自創(chuàng)的“圖解法”。黎氏語法中圖解是面向教學(xué)而設(shè)計(jì)的一種手繪圖形,當(dāng)時(shí)還未實(shí)現(xiàn)計(jì)算機(jī)的形式化。彭煒明[12]、何靜[13]等已經(jīng)開始嘗試基于黎氏圖解法進(jìn)行漢語句法結(jié)構(gòu)的形式化研究。本文下面將對(duì)這方面的研究作一綜述,并針對(duì)其中不足提出一個(gè)新的圖解析句法設(shè)計(jì)方案。

      2.3 黎氏語法形式化研究綜述

      黎氏語法體系主張“以句法控制詞類”的“句本位”語法分析思想。句法上采用“句子成分分析法”(或稱“中心詞分析法”)析句,通過主語、述語、賓語、補(bǔ)足語、形附、副附六大句子成分來建構(gòu)漢語的句子結(jié)構(gòu)格局。詞法上“依句辨品”,承認(rèn)詞類與句子成分之間存在一定的對(duì)應(yīng)關(guān)系。具體操作采用圖解法作為析句工具,其大致法式為:通過一條長橫線來上下分隔句子主干和枝葉,主干部分用雙豎線分隔主語和述語,述語動(dòng)詞若帶賓語則以單豎線引出,帶補(bǔ)足語則以斜線引出。長橫線下方畫附加成分,用左斜線或左折線表示形附,右斜線或右折線表示副附,斜線、折線用以區(qū)分充當(dāng)相同成分的詞類。單句圖解公式和示例如圖2所示。

      何靜、彭煒明等[13]在黎氏圖解法基礎(chǔ)上設(shè)計(jì)出與圖解樣式相對(duì)應(yīng)的XML結(jié)構(gòu)存儲(chǔ)規(guī)范(簡(jiǎn)稱“圖解結(jié)構(gòu)”,XML樹層級(jí)與圖解樣式之間維持一種編碼、解碼的關(guān)系),通過實(shí)現(xiàn)一個(gè)可視化的圖解標(biāo)注工具標(biāo)注構(gòu)建了規(guī)模為11萬句(21萬字)的現(xiàn)代漢語句法圖解樹庫和4 286句(3.4萬字)的古代漢語句法圖解樹庫。以這些標(biāo)注語料為基礎(chǔ)開展?jié)h語核心句式的歸納和古今漢語的句式結(jié)構(gòu)系統(tǒng)比較研究,取得了初步的研究成果。

      圖2 黎氏語法圖解公式和圖解示例

      根據(jù)前期研究,采用圖解結(jié)構(gòu)存儲(chǔ)句法信息有一個(gè)明顯的優(yōu)點(diǎn):對(duì)特定句式的句子,其句子成分和中心詞“具有相對(duì)穩(wěn)定的結(jié)構(gòu)層次和位置順序”,符合本文所述模式化“句式結(jié)構(gòu)”的特點(diǎn)。因此,可以方便地利用XPath等XML結(jié)構(gòu)查詢工具從圖解樹庫中提取特定句式的句子,非常有利于開展基于句式結(jié)構(gòu)的句法、語義統(tǒng)計(jì)分析和相關(guān)理論研究。

      完全采用黎氏圖解法進(jìn)行句法分析也存在一些局限[14]:

      (1)首先是黎氏語法的六大成分術(shù)語陳舊,與目前漢語語法學(xué)界和語法教學(xué)界通行的術(shù)語體系存在較大差異,需要進(jìn)行相關(guān)術(shù)語的清理。

      (2)黎氏語法中對(duì)所謂“變式句”的成分分析太過從語義出發(fā)而不顧形式約束,因而有的分析與人們語感相差較大。比如將“董存瑞,我一輩子都忘不了他?!币痪浞治鰹椤岸嫒稹弊鳌百e語”,“賓踞句首”,“他”則為賓位回指代詞;而現(xiàn)在一般都分析為“董存瑞”作全句主語的主謂謂語句。因此,對(duì)句式的語序變換分析也需要相應(yīng)的規(guī)范。

      (3)黎氏圖解法最大的問題還在于,僅依靠六大成分建構(gòu)的句法格局并不足于區(qū)分所有的句式。比如雙賓語句,由于黎氏圖解公式中主干上只能有一個(gè)賓位,因而間接賓語通常分析為副位(補(bǔ)語);又如,連動(dòng)句、緊縮句等復(fù)雜謂語句式,黎氏語法都用副附(前狀后補(bǔ))來分析。這些都是早期語法體系欠周密的一些地方,需要重新規(guī)范和設(shè)計(jì)。

      3 句式系統(tǒng)的圖解設(shè)計(jì)

      本文的圖解設(shè)計(jì)以黎氏圖解法為原型,主要包括兩方面內(nèi)容:一是圖解的圖形樣式(以下簡(jiǎn)稱“圖解樣式”);二是相應(yīng)的XML結(jié)構(gòu)規(guī)范(以下簡(jiǎn)稱“圖解結(jié)構(gòu)”)。參照前人研究成果,需遵循以下設(shè)計(jì)原則:

      (1)編碼解碼原則:圖解樣式與圖解結(jié)構(gòu)之間可以進(jìn)行信息無損的雙向轉(zhuǎn)換。即圖解樣式可以編碼保存為一定層次結(jié)構(gòu)的XML樹;反之,也可將XML樹重新解碼成原始圖解樣式。另外,根據(jù)圖解樣式或圖解結(jié)構(gòu)均可恢復(fù)句子原文信息(詞語序列)。

      (2)固定句式結(jié)構(gòu)原則:特定句式中成分、詞類或特征詞序列具有相對(duì)固定的結(jié)構(gòu)層次和位置順序。句式擴(kuò)展變換不影響這種結(jié)構(gòu)的穩(wěn)定性,保證程序能從中獲取句式結(jié)構(gòu)信息。

      為了以下行文方便,首先列出圖解結(jié)構(gòu)中所使用的XML元素(Element)和屬性(Attribute)標(biāo)記集,分別如表1~表3所示。

      表1 詞類標(biāo)記集

      表2 句法標(biāo)記集

      為了能與最廣泛的教學(xué)語法體系兼容,本文主要參考20世紀(jì)50年代提出的“暫擬漢語教學(xué)語法系統(tǒng)”,共設(shè)8類句子成分:以主語、謂語、賓語作為句式的主干成分,以定語、狀語、補(bǔ)語為句式的附加成分,以呼語和插入語為不影響句式的獨(dú)立成分。下面采用“主干句式→擴(kuò)展變換句式”的演繹法思路逐次說明漢語句式系統(tǒng)的圖解設(shè)計(jì)。

      表3 屬性標(biāo)記集

      3.1 主干句式

      主干句式是指不考慮附加成分、語序變換和成分復(fù)雜化等因素的常規(guī)句子結(jié)構(gòu)格式,即只考慮主語、謂語核心(簡(jiǎn)稱謂核:因?yàn)椤爸^語”在結(jié)構(gòu)設(shè)計(jì)中通常用來表示包括狀語、補(bǔ)語和賓語在內(nèi)的整個(gè)謂語部分,為了避免歧義,本文對(duì)主干結(jié)構(gòu)上不包含附加成分的“謂語”均以“謂核”來指稱。)和賓語三種成分。根據(jù)“依句辨品”的句本位思想,主、賓語的圖解位置為“指稱位”,通常由名詞或代詞充當(dāng),謂核為“陳述位”,通常由動(dòng)詞或形容詞充當(dāng)??紤]到各自使用頻率,本設(shè)計(jì)中默認(rèn)指稱位詞性為名詞,陳述位詞性為動(dòng)詞。如果代詞充當(dāng)指稱位,或者形容詞充當(dāng)陳述位,則在相應(yīng)圖解位置上方挑勾作為標(biāo)記。

      一般的句子結(jié)構(gòu)通常都會(huì)有主語和謂語兩部分,這樣的句子為“主謂句”,與之相對(duì)的便是“非主謂句”。主謂句又可根據(jù)謂核的個(gè)數(shù)分為“單核謂語句”和“多核謂語句”。前者包括六類主干句式,本文大致沿用黎氏語法的主干圖解樣式,即將各主干成分依次配置于長橫線上方,以雙豎線分隔主謂,以單豎線引出賓語,體詞謂語和主謂謂語則以支架頂起以示“陳述化”。所不同者有二:(1)取消引出“補(bǔ)足語”的斜線,將系動(dòng)詞的后接成分一律歸入“判斷賓語”;(2)主干線上一個(gè)動(dòng)詞謂核(簡(jiǎn)稱動(dòng)核)可帶兩個(gè)賓語。如圖3所示。

      單核謂語句的圖解結(jié)構(gòu)設(shè)計(jì)以雙賓語句和主謂謂語句為例說明,如圖4所示。

      圖3 單核謂語句圖解樣式

      圖4 單核謂語句圖解結(jié)構(gòu)示例

      每個(gè)句子(按截句標(biāo)點(diǎn)切得的文本片段,截句標(biāo)點(diǎn)包括句號(hào)、問號(hào)和嘆號(hào))以ju元素為根結(jié)點(diǎn),屬性@ctg表示句子類型(單句、復(fù)句或非句),屬性@cnt表示句子原文內(nèi)容。ju元素之下包含若干小句元素xj,xj之下設(shè)主語sbj和謂語prd元素。主、謂以下層次遵循“中心詞分析法”思想,即成分的中心詞作為其直接兒子元素,若中心詞元素前后有附加成分或支配成分(即動(dòng)核的賓語),則它們與中心詞元素互為兄弟。這樣,特定句式的主干成分及其中心詞在以ju為根的XML層級(jí)中就處于一個(gè)確定的位置,句式的線性配置描述可轉(zhuǎn)化成固定模式的XML路徑表達(dá)式(XPath)。考慮到主、謂、賓三種成分確定主干格局并以謂語為核心,在xj元素和prd元素上分別設(shè)置屬性@ptt記錄“主干結(jié)構(gòu)”信息(參見表3)。單核謂語句中,xj的@ptt屬性就是在prd的@ptt前加上一個(gè)“S”。

      單核主謂句中其他的四類主干句式(單動(dòng)謂語句、動(dòng)賓謂語句、形容詞謂語句、名詞謂語句)的圖解結(jié)構(gòu)可仿雙賓語句結(jié)構(gòu)類推。主謂謂語句結(jié)構(gòu)稍復(fù)雜一些,因其謂核不是單詞而是小句,故prd元素內(nèi)再嵌套一小句元素xj。結(jié)合標(biāo)記集表不難理解圖4的圖解結(jié)構(gòu)。

      多核謂語句指由兩個(gè)或兩個(gè)以上謂詞結(jié)構(gòu)結(jié)合起來共同充當(dāng)謂語,此時(shí)圖解主干線上將配置多個(gè)陳述位,根據(jù)它們的結(jié)合關(guān)系又分為三類:聯(lián)合謂語句、連動(dòng)謂語句和兼語謂語句。如圖5所示,聯(lián)合謂語句在兩個(gè)謂詞結(jié)構(gòu)中間畫一條表示聯(lián)合關(guān)系的虛線;連動(dòng)謂語句和兼語謂語句則分別以單斜線和雙斜線分隔。

      圖5 多核謂語句圖解樣式

      多核謂語句的圖解結(jié)構(gòu)特點(diǎn)是:(1)xj元素下有兩個(gè)或以上的prd元素(此時(shí)每個(gè)prd表示一個(gè)謂詞結(jié)構(gòu)而非整個(gè)謂語);(2)第二個(gè)及以后的prd除了設(shè)@ptt外,另需增加屬性@ext來標(biāo)示它與前一prd之間的結(jié)合關(guān)系:聯(lián)合UP(Union Predicate)、連動(dòng)CP(Consecutive Predicate)或兼語TL(TeLescopic form),然后取首個(gè)@ext值加上“S”作為整個(gè)xj的@ptt。如圖6所示。

      圖6 多核謂語句圖解結(jié)構(gòu)示例

      非主謂句分兩類:獨(dú)詞句和無主句。既然無主謂之分,圖解樣式就取消分隔的雙豎線。獨(dú)詞句通常由一個(gè)單獨(dú)的體詞性成分或嘆詞充當(dāng),無主句仍由謂語結(jié)構(gòu)充當(dāng),因此共需區(qū)分三種情況。圖解樣式和圖解結(jié)構(gòu)設(shè)計(jì)如圖7所示。

      3.2 擴(kuò)展變換句式

      實(shí)際語言交際中使用的句子千差萬別,對(duì)應(yīng)的句式也復(fù)雜多樣,但語法分析系統(tǒng)不需要把每一種句式都像主干句式一樣作為結(jié)構(gòu)基元存儲(chǔ)起來。因?yàn)橛辛酥鞲删涫?,任何?fù)雜句式都可以按照一定的規(guī)則在主干句式的基礎(chǔ)上擴(kuò)展變換得到。句式的擴(kuò)展變換可以分為三類:附加擴(kuò)展、語序變換和成分復(fù)雜化。

      圖7 非主謂句圖解樣式和圖解格式

      3.2.1 附加擴(kuò)展

      如前所述,附加成分包括定語、狀語和補(bǔ)語三類。其中,定語是對(duì)體詞性成分的修飾和限定,狀語和補(bǔ)語是對(duì)謂詞性成分的修飾、限定和補(bǔ)足。充當(dāng)定語的主要是形容詞、名詞、動(dòng)詞結(jié)構(gòu);充當(dāng)狀語的主要是副詞、名詞(或帶介詞)和動(dòng)詞結(jié)構(gòu)。這兩類附加成分都位于中心詞之前,且擴(kuò)展個(gè)數(shù)一般不受太大限制,擴(kuò)展方式為:指稱位前可加三類定語,陳述位前可加三類狀語,如圖8所示。三類定語都可帶結(jié)構(gòu)助詞“的”,副詞、動(dòng)詞狀語可帶結(jié)構(gòu)助詞“地”。由于基本沿襲黎氏語法的圖解設(shè)計(jì),故此將幾種類型羅列于此,不作逐一說明。

      圖8 擴(kuò)展句式圖解樣式

      補(bǔ)語的圖解設(shè)計(jì)有所調(diào)整,考慮到補(bǔ)語在現(xiàn)代漢語表義結(jié)構(gòu)中的作用重于前兩種修飾語,特別是結(jié)果、情態(tài)兩類補(bǔ)語的語勢(shì)幾乎與賓語相仿,因而本設(shè)計(jì)中將由謂詞充當(dāng)?shù)难a(bǔ)語圖解于長橫線上方、謂核之后,用符號(hào)“~”引出,而數(shù)量補(bǔ)語和時(shí)地補(bǔ)語(主要為介名結(jié)構(gòu))則圖解于長橫線下方。如圖9所示。

      三類附加成分若直接粘附于主干橫線上,則它們同處在以謂核為中心的句式結(jié)構(gòu)的固定層級(jí)轄域之內(nèi)。仍以“小林當(dāng)時(shí)已經(jīng)悄然離開這書店。”為例,多個(gè)狀語adv和賓語obj在圖解結(jié)構(gòu)中與動(dòng)核v同為兄弟,如圖10所示。

      圖9 補(bǔ)語擴(kuò)展句式圖解樣式

      圖10 “多狀-動(dòng)-賓”句式圖解示例

      從形式上看,這種結(jié)構(gòu)設(shè)計(jì)似乎沒有表達(dá)圖1(b)中句法結(jié)構(gòu)的層次性,但這恰恰體現(xiàn)了句式結(jié)構(gòu)本身的層次觀念。因?yàn)榫渥邮窃~語序列與層級(jí)句法結(jié)構(gòu)的統(tǒng)一體,句法結(jié)構(gòu)顯然要受表層線性結(jié)構(gòu)的制約。在單動(dòng)核的句式結(jié)構(gòu)中,動(dòng)詞為中心,結(jié)構(gòu)層次的造成因素只能是向前和向后兩個(gè)方向的組合次序。漢語是一種修飾語在前的語言,因此在不考慮向后組合(賓、補(bǔ)等)的情況下,多狀與動(dòng)核只可能取一種組合層次,比如上例為:

      (當(dāng)時(shí)(已經(jīng)(悄然離開)))

      而動(dòng)核向前結(jié)合狀語與向后結(jié)合賓語的次序通常并不影響句式的語義理解,也就是說,“狀-動(dòng)-賓”的組合層次并非句式結(jié)構(gòu)的強(qiáng)制層次。比如上例即可按以下四種層次理解:

      ((當(dāng)時(shí)(已經(jīng)(悄然離開)))書店)

      (當(dāng)時(shí)((已經(jīng)(悄然離開))書店))

      (當(dāng)時(shí)(已經(jīng)((悄然離開)書店)))

      (當(dāng)時(shí)(已經(jīng)(悄然(離開書店))))

      圖1(b)的短語結(jié)構(gòu)事實(shí)上是在這四種分析中人為規(guī)定了一種“正確”結(jié)構(gòu),因而在NLP短語結(jié)構(gòu)分析中,相當(dāng)一部分的模型計(jì)算都耗費(fèi)在對(duì)語義理解影響不大的結(jié)構(gòu)消歧上了。從這個(gè)意義上說,句式結(jié)構(gòu)比主流NLP句法分析標(biāo)準(zhǔn)中的層次結(jié)構(gòu)更具現(xiàn)實(shí)意義。

      3.2.2 語序變換

      在主干句式上進(jìn)行語序變換即產(chǎn)生黎氏語法所謂“變式句”。黎氏語法的變式系統(tǒng)相當(dāng)復(fù)雜,有些分析過于附會(huì)語義關(guān)系而不顧形式約束。本設(shè)計(jì)規(guī)范只保留兩類變式:主謂倒裝和賓語前置(排除“把”字句和“賓踞句首”句)。另外,圖解樣式不采用橫線上抬或下屈的形式,而是改為在兩種成分的分隔線上加一個(gè)“S”號(hào)。圖解結(jié)構(gòu)中則在主語sbj或賓語obj元素上設(shè)屬性@inv=1作為標(biāo)識(shí)。如圖11所示。

      圖11 變式句圖解樣式

      3.2.3 成分復(fù)雜化

      成分的復(fù)雜化是多方面的,但都可從指稱位和陳述位兩個(gè)方面考慮。凡一個(gè)成分的中心詞為體詞,即可按指稱位句法規(guī)則復(fù)雜化;凡一個(gè)成分的中心詞為謂詞,即可按陳述位句法規(guī)則復(fù)雜化。主要句法規(guī)則已述于前文“主干句式”和“附加擴(kuò)展”兩節(jié),比如名詞→定中結(jié)構(gòu)、動(dòng)詞→動(dòng)賓結(jié)構(gòu)等,下面補(bǔ)述前文未涉及規(guī)則,如表4所示。

      3.3 復(fù)句和緊縮句

      以上為漢語單句句式的全部圖解設(shè)計(jì)。若一個(gè)截句號(hào)內(nèi)有兩個(gè)小句(兩部分之間有句間語氣停頓,或者兩部分主謂俱全),則全句按復(fù)句分析。目前采用自上而下、逐個(gè)小句分析的方式圖解,如圖12所示。

      表4 成分復(fù)雜化示例

      圖12 復(fù)句圖解樣式和圖解結(jié)構(gòu)

      圖13 緊縮句式圖解樣式和圖解結(jié)構(gòu)

      圖14 基于句式結(jié)構(gòu)的漢語新圖解公式

      條件、假設(shè)和讓步等偏正復(fù)句經(jīng)常緊縮為一個(gè)單句形式,具體圖解樣式和圖解結(jié)構(gòu)如圖13所示,即將偏正關(guān)系中主句一方作為頂層xj,然后在其內(nèi)部主、謂一級(jí)插入作為從句的xj結(jié)構(gòu)。

      4 結(jié)論

      從黎氏語法出發(fā)總結(jié)出一個(gè)如圖14所示的漢語圖解析句公式,按照此公式設(shè)計(jì)了基于句式結(jié)構(gòu)的形式化圖解析句法,并實(shí)現(xiàn)了一個(gè)基于Web的可視化語法圖解標(biāo)注工具,啟動(dòng)了對(duì)外漢語教材文本語料的語法圖解標(biāo)注工程。截至目前,完成樹庫標(biāo)注規(guī)模為71.7萬字(4.8萬句)。

      聘請(qǐng)的標(biāo)注人員主要為高校的在校本科生和研究生,標(biāo)注結(jié)果由專業(yè)人員統(tǒng)一審校。標(biāo)注人員中有漢語語法相關(guān)專業(yè)的,也有非語法相關(guān)專業(yè)的,但是經(jīng)過不長一段時(shí)間(一到兩天)的學(xué)習(xí)和試標(biāo),都能達(dá)到一個(gè)比較高的效率和正確率。人均正確標(biāo)注的效率達(dá)到:4 450字(207句)/每天(7 h)。這是出乎意料的,因?yàn)闃鋷鞂儆谏罴庸ふZ料庫,向來難以兼顧正確性、一致性和標(biāo)注效率??偨Y(jié)其中經(jīng)驗(yàn),最重要一條就是標(biāo)注體系引入了“句式結(jié)構(gòu)”的思想,并且通過對(duì)黎氏語法圖解法的改進(jìn)和完善,系統(tǒng)地總結(jié)和歸納了漢語的主干句式和擴(kuò)展變換句式。句式結(jié)構(gòu)之所以能起到如此大的促進(jìn)作用,原因在于:首先,句式本身就代表了一種結(jié)構(gòu)格局,其內(nèi)部成分的固定層次結(jié)構(gòu)不再需標(biāo)注人員操刀,而改由程序編碼生成,這就把他們從層次切分或依存弧設(shè)置等瑣碎乏味的操作中解放出來。其次,“先主干后枝葉”的操作模式貼近人理解句子時(shí)“自頂向下,逐步求精”的認(rèn)知心理。最后,圖解析句法在操作上采納了“依句辨品”的詞類觀,按照“主、賓-名、代”、“謂核-動(dòng)、形”的缺省對(duì)應(yīng)關(guān)系編碼,將謂詞的“指稱化”和體詞的“陳述化”過程統(tǒng)一轉(zhuǎn)化為“句法實(shí)現(xiàn)”[15],節(jié)省了大量的詞性標(biāo)注時(shí)間。

      [1]彭煒明,宋繼華,王寧,等.漢語傳統(tǒng)語法及其在中文信息處理中的應(yīng)用展望[J].中文信息學(xué)報(bào),2012(4):50-60.

      [2]呂叔湘.漢語語法分析問題[M].北京:商務(wù)印書館,1979.

      [3]呂叔湘.現(xiàn)代漢語八百詞(增訂本)·現(xiàn)代漢語語法要點(diǎn)[M].北京:商務(wù)印書館,1980.

      [4]李臨定.現(xiàn)代漢語句型[M].增訂本.北京:商務(wù)印書館,2011.

      [5]張斌.現(xiàn)代漢語描寫語法[M].北京:商務(wù)印書館,2010.

      [6]范曉.關(guān)于句式問題——慶?!墩Z文研究》創(chuàng)刊30周年[J].語文研究,2010(4).

      [7]范曉.略論句干及其句式[J].山西大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2012(3).

      [8]范曉.論句式意義[J].漢語學(xué)報(bào),2010(3).

      [9]范曉.關(guān)于句式義的成因[J].漢語學(xué)習(xí),2010(4).

      [10]范曉.句式的應(yīng)用價(jià)值初探[J].漢語學(xué)習(xí),2011(5).

      [11]朱德熙.變換分析中的平行性原則[J].中國語文,1986(2).

      [12]彭煒明,何靜,宋繼華.句本位語法圖解析句系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[C]//第四屆數(shù)字典藏與數(shù)字人文國際研討會(huì),臺(tái)灣,中國,2012.

      [13]何靜,彭煒明,宋繼華.現(xiàn)代漢語黎氏語法圖解標(biāo)注體系[C]//第十四屆漢語詞匯語義學(xué)國際研討會(huì)(CLSW2013),鄭州,2013.

      [14]彭煒明.句本位語法數(shù)字化平臺(tái)的建設(shè)和應(yīng)用研究[D].北京:北京師范大學(xué),2012.

      [15]彭煒明,宋繼華,俞士汶.中文信息處理的詞法問題——以句本位語法圖解樹庫構(gòu)建為背景[C]//第十四屆漢語詞匯語義學(xué)國際研討會(huì)(CLSW2013),鄭州,2013.

      PENG Weiming1,SONG Jihua2,WANG Ning3

      1.Key Lab of Computational Linguistics,Ministry of Education,Institute of Computational Linguistics,Peking University, Beijing 100871,China
      2.College of Information Science and Technology,Beijing Normal University,Beijing 100875,China
      3.School of Chinese Language and Literature,Beijing Normal University,Beijing 100875,China

      This paper reviews the understanding divergence of the term“sentence pattern”of Chinese grammar scholars; from the perspective of Chinese information processing,it analyses the lack of sentence pattern structure in current syntactic parsing and treebank construction in this field;and gives a recent review of formalization research of Li Jinxi’s grammar system,indicating its strengths and still shortcomings on sentence pattern structure;it uses Li Jinxi’s diagrammatic parsing method as a prototype design of a new type of diagrammatic parsing method of Chinese syntactic structure,specifically including a diagrammatic representation of the syntactic structure and structured XML storage format.

      sentence pattern structure;diagrammatic parsing;parsing method;sentence-based grammar

      A

      TP391

      10.3778/j.issn.1002-8331.1309-0436

      PENG Weiming,SONG Jihua,WANG Ning.Design of diagrammatic parsing method of Chinese based on sentence pattern structure.Computer Engineering and Applications,2014,50(6):11-18.

      國家社科重大項(xiàng)目(No.12&ZD227);中國博士后科學(xué)基金面上資助項(xiàng)目(No.2013M530455)。

      彭煒明(1985—),男,博士,講師,主要研究方向?yàn)橹形男畔⑻幚怼⒃~匯語義學(xué);宋繼華(1963—),男,教授,主要研究方向?yàn)檎Z言信息處理、計(jì)算機(jī)教育應(yīng)用;王寧(1936—),女,教授,主要研究方向?yàn)闈h語言文字學(xué)、文字訓(xùn)詁學(xué)、漢字信息處理。

      2013-09-27

      2013-11-13

      1002-8331(2014)06-0011-08

      CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-11-15,http://www.cnki.net/kcms/detail/11.2127.TP.20131115.1124.012.html

      猜你喜歡
      圖解句法句式
      句法與句意(外一篇)
      中華詩詞(2021年3期)2021-12-31 08:07:22
      述謂結(jié)構(gòu)與英語句法配置
      句法二題
      中華詩詞(2018年3期)2018-08-01 06:40:40
      詩詞聯(lián)句句法梳理
      中華詩詞(2018年11期)2018-03-26 06:41:32
      基本句式走秀場(chǎng)
      例析wh-ever句式中的常見考點(diǎn)
      圖解十八屆六中全會(huì)
      群眾(2016年11期)2016-11-28 10:45:58
      圖解天下
      新財(cái)富(2015年8期)2015-11-20 10:34:52
      特殊句式
      關(guān)心健康狀況的問答
      本溪| 太白县| 英超| 寿光市| 马尔康县| 建德市| 灵台县| 来凤县| 青海省| 天长市| 大理市| 南汇区| 五指山市| 神木县| 长治县| 法库县| 星子县| 吴川市| 阿勒泰市| 屯留县| 扶余县| 怀远县| 青河县| 舟曲县| 从江县| 武隆县| 东方市| 陆川县| 泰宁县| 钦州市| 保靖县| 新昌县| 长丰县| 商都县| 乌什县| 资中县| 松阳县| 资源县| 沭阳县| 南投市| 井冈山市|