鄒崇理,崔佳悅
著名計算語言學家黃昌寧教授在《人機通用——現(xiàn)代漢語動詞大詞典》的序言中寫道:“自從1968年美國語言學家費爾默(C.Fillmore)發(fā)表論文《格辨》(The Case for Case)以來,采用動詞格框架來表達句意的做法已被越來越多的研究人員所接受,并廣泛應用于各國的自然語言系統(tǒng)中?!薄皬挠嬎銠C對自然語言的理解和翻譯來看,述語動詞和形容詞是句子句法結(jié)構(gòu)和語義解釋的中心,因此如果能在一部電子詞典中對句子中的述語動詞及其周圍的名詞性成分所發(fā)生的語義組合關(guān)系(即格關(guān)系)作出具體詳盡的描寫,就可以大大提高自然語言理解系統(tǒng)或機器翻譯系統(tǒng)的性能。”①林杏光等:《人機通用——現(xiàn)代漢語動詞大詞典》,北京:北京語言學院出版社,1994年,第1頁。
格語法是20世紀60至70年代產(chǎn)生的語法理論,和生成語義學類似,是轉(zhuǎn)換語法中分裂出來重視語義的一個分支。其基本做法是:句法分析的目標是自然語言語句的語義底層結(jié)構(gòu),這個底層結(jié)構(gòu)的格局是:動詞統(tǒng)領(lǐng)整個語句,語句的其他部分由動詞的論元組成,而動詞的論元則由具有不同格角色的名詞擔任。這些名詞分為:施事格名詞、受事格名詞、與事格名詞、時間格名詞、方位格名詞和工具格名詞等等。
格語法的基礎(chǔ)部分由一系列規(guī)則組成,最基本的有三條:
a.S→M+P
b.P→V+C1+… +Cn
c.Ci→K+NP
這里a表示一個句子S可改寫成情態(tài)M(否定,時態(tài)和體態(tài)等)和命題P兩大部分,b表示命題P可改寫成V和若干格Ci,Ci可進一步改寫成格標記K和名詞短語NP。在格語法那里,動詞是句子底層結(jié)構(gòu)的中心。V是廣義的動詞,Ci為變項,在具體句子中由各個不同的格來擔任(如施事格A,受事格O,工具格I和方位格 L),格標記 K由介詞表示。如英語句子:
John wrote a letter in the room.
按照格語法的分析,其底層結(jié)構(gòu)為①Fillmore,J.Charles,The Case for Case,In Universals in Linguistic Theory,ed.by Emmon Bach & Robert T.Harms,New York:Holt,Rinehart& Winston,1968,p.20.:
格語法所謂句子的底層結(jié)構(gòu)實際上是一種類似生成語義學所倡導的語義結(jié)構(gòu)。這里如果暫時忽略這句英語句子的情態(tài)不計,刪去作為格標記的介詞,語義結(jié)構(gòu)就成為對應動詞的n元謂詞和對應n個NP的n個論元的毗連,可歸結(jié)為:
我們可以看到,V、O、L和A等4個子節(jié)點的關(guān)系不是完全對等的關(guān)系。V對應動詞,在格語法看來處于中心成分的地位,而O、L和A分別對應三個名詞短語,與V比較,處于非中心成分的地位。如把清華樹庫轉(zhuǎn)換成CCG庫的一個分析例子②周強:《組合范疇語法CCG和漢語處理》,北京:中國社科院哲學所學術(shù)報告,2012年,第26頁。:
上圖每一個母節(jié)點管控的兩個子節(jié)點,其對應的范疇不是對等的關(guān)系,而是一個是函子范疇(代表中心成分),另一個是論元范疇(代表非中心成分)。Steedman在CCGbank:User's Manual中討論賓州樹庫轉(zhuǎn)換成CCG樹庫時寫道:If the non-h(huán)ead child is a complement with category Y,the category of the head child is X/Y if the head child is left,and XY if the head child is right③Julia Hockenmaier,Mark Steedman,CCGbank:User's Manual,Department of Computer& Information Science Technical Reports(CIS),2005,p.34..(如果非中心子節(jié)點對應范疇Y,則出現(xiàn)在左邊的中心子節(jié)點對應范疇X/Y,出現(xiàn)在右邊的中心子節(jié)點對應范疇XY)。這里強調(diào),把賓州樹庫轉(zhuǎn)換成CCG庫時最重要的做法之一就是給賓州分析樹中的每個節(jié)點確定相應的范疇,即函子范疇或論元范疇。這同時就是在語言分析中貫徹了格語法的中心成分和非中心成分的思想。
格語法是一種動詞中心的語法理論,把動詞當作句子的中心成分,把動詞周圍的名詞短語當作句子的非中心成分。格語法的分析模式導致語言分析中的多分法。樹圖(3)的分析就是一種4分法。母節(jié)點S統(tǒng)領(lǐng)了V、O、L和A等4個子節(jié)點。這種分析是人們關(guān)于自然語言的句法語義結(jié)構(gòu)的簡潔思考的結(jié)果。按照二分法,英語帶有多重介詞短語的動詞短語“put the key into the box on the table”可以這樣分析:put(the((key(into(the box)))(on(the table))))。這種分析推演的最后語義結(jié)果是:put(?(on(?(table))(into(?(box))(key))))①B.Carpenor,Type Logical Semantics,Cambridge/London:MIT Press,1997,p.224.。就人類的認知能力而言,這樣的高階邏輯式不夠直觀,顯得復雜。如采用基于格語法思想的多分法句法分析:
導致的語義解讀可以比較簡潔:put(?(key),?(box),?(table))?!安捎枚喾址ǖ暮锰幨?①可以更加合理解釋語言現(xiàn)象?!隈T志偉:《自然語言的計算機處理》,上海:上海外語教育出版社,1996年,第33頁。可以在編制程序上減少程序量:一些長句子,如果采用二分法,層次會多到十層八層,計算機在處理這樣多的多層次的樹形圖時,需要逐層進行搜索,程序的編寫十分復雜,運算量也很大。而采用多分法,大大地減少了層次,提高了計算機處理語言的工作效率”②。
在格語法那里,中心成分即動詞的功能作用經(jīng)常發(fā)生變化。通常引用的英語句有:
a.The door opened.
b.The boy opened the door.
c.The boy opened the door with a key.
這里動詞open在a是一位動詞,在b那里是二位動詞,在c那里是三位動詞(從格語法的底層語義結(jié)構(gòu)看)。為此,在格語法那里,動詞open的格框架特征為:
無圓括號的格標記O(對象格)是必選的,圓括號內(nèi)的格標記I(工具格)和A(施事格)是可選的。俗話說“鐵打的營流水的兵”,格語法理論所謂作為語句中心成分的動詞是不可缺少的“鐵打的營”,而各種名詞性成分是可多可少的“流水的兵”。這就表明:open作為一位動詞可能轉(zhuǎn)變成二位動詞或三位動詞,其語法功能因此發(fā)生變化。從范疇語法的角度看,這里動詞open所屬的范疇隨所在的語句不同而改變。
由中日合作MMT漢語生成組編寫的《現(xiàn)代漢語動詞大詞典》,從格語法的角度對現(xiàn)代漢語的動詞句進行分類,以動詞為中心,加上必選格的名詞,構(gòu)成格框架。對2000多個動詞產(chǎn)生的格框架進行統(tǒng)計和歸類,獲得的結(jié)果是:三大類(一價格框架、二階格框架和三階格框架),九中類(一價自動詞格框架、一價內(nèi)動詞格框架、二價他動詞格框架、二價自動詞格框架、二價外動詞格框架、二價內(nèi)動詞格框架、二價領(lǐng)屬動詞格框架、二價系屬動詞格框架和三價他動詞框架),五十三小類。其中有③林杏光等《人機通用——現(xiàn)代漢語動詞大詞典》,北京:北京語言學院出版社,1994年,第31~34頁。:
(1)施事 +V。其動詞有:爆發(fā)、抱歉、奔跑、奔走、蹦等。
(2)當事 +V。其動詞有:變化、殘廢、墮落、惡化、害羞等。
(3)施事 +V+受事。其動詞有:愛好、愛護、愛惜、安插、安慰、安裝等。
(4)施事 +V+結(jié)果。其動詞有:出版、創(chuàng)造、發(fā)明、建立、建筑等。
……
(13)施事 +V+受事或與事。其動詞有:指點、指導等。
(14)施事 +V+同事。其動詞有:聯(lián)合、聯(lián)絡、配合等。
(15)施事 +V+原因。其動詞有:操心、愁、躲、躲避、算計等。
……
(21)施事 +V+工具。
(22)施事 +V+時間。
(23)施事 +V+方式。
(24)施事 +V+范圍。
(25)施事 +V+處所。其動詞有:到達、登、渡、逛、接近等。
(26)施事 +V+處所或時間。
……
(43)分事 +V+領(lǐng)事。其動詞有:屬。
(44)當事 +V+客事。其動詞有:是。
(45)當事 +V+系事。
(46)施事 +V+與事 +受事。其動詞有:補助、答復、訛詐、告訴、貢獻等。
……
(53)施事 +同事 +V+結(jié)果。其動詞有:攀。
從上述基于格框架的漢語句式分類里,明顯見到由動詞擔當?shù)闹行某煞趾陀筛鞣N格名詞擔當?shù)姆侵行某煞值膮^(qū)別。《現(xiàn)代漢語動詞大詞典》把動詞所能帶的格分為必須格和可選格兩類。足以描述某個動詞的格關(guān)系特征必不可少的格叫作必須格。換句話說,必須格不但可與動詞搭配,而且必不可少,缺少了它,就影響語義的自主性。比如:“我削了個蘋果”,施事“我”和受事“蘋果”是必需格?!袄蠋熃o我一本書”,施事“老師”、受事“一本書”和與事“我”是必須格??蛇x格雖可與動詞搭配,但缺少了它不影響語義的自足性。比如:“我用刀子削了個蘋果”,工具格“用刀子”是可選格。“按處長的要求我們把里面的柜子都抬出來了”,依據(jù)“按處長的要求”是可選格?!斑B長向窗外探望了一下”,方向“向窗外”是可選格。
同時,我們看到漢語表達式中存在大量的動詞雙賓語句。朱德熙先生把雙賓結(jié)構(gòu)分析為動詞后面帶兩個賓語的構(gòu)造。傳統(tǒng)認為,凡是動詞后帶有兩個名詞短語的構(gòu)造,如下所示:
都被視作雙賓結(jié)構(gòu)。因此,大量滿足該條件的句式都可被認作雙賓語句。馬慶株依據(jù)賓語語義特征把這些雙賓結(jié)構(gòu)分為14類。這是雙賓結(jié)構(gòu)研究中最具代表性的分類。
漢語雙賓語句的句法分析方便采取格語法的多分法,而不是下邊的兩分法:
此外,我們看到漢語中還有不少多重介詞短語句,如:
(a)張三在餐館吃牛排
(b)張三用刀叉吃牛排
(c)張三在餐館用刀叉吃牛排
(d)張三在餐館吃牛排用刀叉
(e)張三在圣誕節(jié)用刀叉在餐館吃牛排
我們假定上述漢語句中的介詞短語的賓語是表達特定含義的光桿名詞,即:牛排意味這份牛排,刀叉意味這把刀叉,餐館指的是這個餐館。就(c)而言可以按照格語法的思想這樣分析:
上述分析樹的最高節(jié)點S統(tǒng)領(lǐng)4個子節(jié)點,采用的是多分法。
現(xiàn)代漢語以動詞為中心的格語句,因為有可選格的情況,動詞就可能有時統(tǒng)領(lǐng)兩個格名詞,有時統(tǒng)領(lǐng)三個甚至四個格名詞,就像上文所舉多重介詞短語句(a)—(c)所呈現(xiàn)的那樣。動詞語法功能發(fā)生的這種變化在范疇語法里的顯示就是:給同樣一個動詞指派的函子范疇可能是NP2S,也可能是(NP1S)/NP2,還可能是(NP1S)/(NP2,NP3),等等。
現(xiàn)代漢語中的話題句及其相關(guān)的主賓句有:
書買了——有人買了書
門開了——有人開了門
《紅樓夢》讀了——有人讀了《紅樓夢》
同樣的動詞,從左邊的話題句到右邊的主賓句,其中動詞的語法作用產(chǎn)生了變化,一位動詞轉(zhuǎn)化成二位動詞。在范疇語法看來,動詞發(fā)生的這種變化就導致給動詞指派的函子范疇也要相應作出改變。如在左邊主題句中動詞的范疇是NP2S,在右邊的主賓句中動詞的范疇就變成了(NP1S)/NP2,我們的范疇類型邏輯應該揭示這種函子范疇的變化機制。
基于格語法思想的多分法的分析方式可用范疇語法的方式表述為①A.Bastenhof,Categorial Symmetry,Ph.D.Thesis at University of Utrecht,2012,pp.16 -18.:
定義1 語境自由語法(CFG)G是四元組(V,∑,R,S),這里V是非終端符號或范疇的集合,∑是與V不相交的終端符號或詞條的集合,R?V×(V∪∑),并且S∈V是起始符號。R中的〈A,w〉稱為重寫規(guī)則,寫作A→w。
涉及多分法的漢語片段的語法G,R中的重寫規(guī)則為:
S→NP PP1…PPnVP(漢語多重介詞短語句的多分法)
VP→IV
VP→TV NP1NP2(漢語雙賓語的多分法)
VP→TV NP PP1… PPn(漢語多重介詞短語句的多分法)
PP→Prep NP
NP→張三 李四 圣誕節(jié) (這個)餐館(這把)刀叉 (這份)牛排 (這本)書
IV→送了 買了
TV→送 買 吃
Prep→在用
定義2 給定語境自由語法 G=(V,∑,R,S),基于→遞歸定義?*和∑*。
(1)若A∈V,w∈∑,則A→w為A?*w(w ∈∑*)。
(2)若A,B,C∈V,u,v∈∑*且B?*u,C?*v,則A→B C為A?*uv(uv∈∑*)。
例如,若把∑當作上述漢語片段的詞條集合,∑*是包括詞條在內(nèi)的所有的短語(合語法的和不合語法的)的集合。(按慣例,∑*之上的可及關(guān)系?u0…un表示(u0,…,un)∈?)
定義3 令G=(V,∑,R,S)是CFG,其所有的重寫規(guī)則形如A→B1…Bn(A,B1…Bn∈V)或A →w(w ∈∑)。定義框架FG= 〈WG,?G〉:
WG=∪A∈V{〈A,w ′〉|w ′∈∑*并且 A ?*w}
?G(〈A,u0〉,〈B1,u1〉,…,〈Bn,un〉)當且僅當 u0=u1…un并且 A→B1…Bn∈R
例如,我們定義CFG是分析漢語句“張三在餐館用刀叉吃牛排”的語法。作為詞條的集合∑={張三,吃,牛排,在,餐館,用,刀叉},而∑*={張三,吃,牛排,在,餐館,用,刀叉,吃牛排,在餐館,用刀叉,張三在餐館用刀叉吃牛排,…}。其中一個?G(〈A,u〉,〈B,v〉,〈C,w 〉,〈D,u′〉,〈E,v′〉)可以具體表現(xiàn)為下面的四分法分析樹:
基于上述描述多分法的框架可以構(gòu)造體現(xiàn)格語法思想的范疇邏輯語義模型M=〈WG,?G,‖·‖〉,其中‖·‖的定義如下:
‖p‖ ={〈A,u 〉|A ?*u}
‖P,Q1,…,Qn‖ ={〈A,u0〉|存在〈B1,u1〉,…,〈Bn+1,un+1〉滿足:?G(〈A,u0〉,〈B1,u1〉,…,〈Bn+1,un+1〉)并且〈B1,u1〉∈‖P‖并且〈B2,u2〉∈‖Q1‖并且,…,并且〈Bn+1,un+1〉∈‖Qn‖}
‖P/Q1,…,Qn‖ ={〈B1,u1〉|對任〈A,u0〉,〈B1,u1〉,…,〈Bn+1,un+1〉有:若?G(〈A,u0〉,〈B1,u1〉,…,〈Bn+1,un+1〉)并且〈B2,u2〉∈‖Q1‖并且,…,并且〈Bn+1,un+1〉∈‖Qn‖則〈A,u0〉∈‖P‖}
‖Q1,…,QnP‖ ={〈Bn+1,un+1〉|對任〈A,u0〉,〈B1,u1〉,…,〈Bn,un〉有:若?G(〈A,u0〉,〈B1,u1〉,…,〈Bn+1,un+1〉)并且〈B1,u1〉∈‖Q1‖并且,…,并且〈Bn,un〉∈‖Qn‖則〈A,u0〉∈‖P‖}
基于上述框架及其模型確立揭示格語法思想的范疇類型邏輯的公理系統(tǒng)是進一步的工作。本文從經(jīng)典的范疇類型邏輯角度來研究這種新型范疇類型邏輯的元邏輯性質(zhì)。
經(jīng)典的范疇類型邏輯角度是把范疇的語義值看作語言符號串的集合,而不是由語言學范疇和語言符號串作成的序?qū)Φ募??;诟裾Z法的CTL是在經(jīng)典的CTL那里進行適度改進而成的。這里需要確立兩條針對函子范疇論元增添的規(guī)則:
吃 ?[(NPa)S]/(NPo)
?[(NPa,NPp)S]/NPo
?[(NPa,NPp,NPi)S]/NPo
?[(NPa,NPt,NPi,NPp)S]/NPo
給出例句(b)的范疇類型邏輯分析如下:
為了充分展現(xiàn)格語法多分法的思想,對通
從X/(Z1)推出X/(Z1,Z2)
從(Z1)X推出(Z1,Z2)X
更一般的表述:
(RI)X/(Z1,…,Zn)→X/(Z1,…,Zn,Zn+1)
(LI)(Z1,…,Zn)X →(Z1,…,Zn,Zn+1)X
(RI)的具體應用:
[(NPa)S]/(NPo)→[(NPa)S]/(NPo,NPp,NPi)
(涉及施事受事的動作)(涉及地點工具施事受事的動作)
漢語多重介詞短語句涉及的介詞短語的多少會造成動詞的論元可多可少。零重介詞短語句即簡單的主謂句,其動詞的論元只有兩個——施事論元和受事論元,包含一個介詞短語的主謂句其動詞具有三個論元,包含兩重介詞短語的主謂句其動詞論元可以有四個……。對這些多重介詞短語句的句法分析就會使中心動詞分別被指派包含不同數(shù)量論元的函子范疇。強調(diào)邏輯推演的方案是:先給動詞確定一個固定的范疇,然后根據(jù)不同的上下文需要用(RI)或(LI)規(guī)則推演出所需要的范疇。
這里詞庫中關(guān)于及物動詞的初始指派為:
吃 ?[(NPa)S]/(NPo)
基于對及物動詞“吃”的初始的范疇指派,采用推演的方法,可以推出漢語多重介詞短語句(a)—(c)中所需要的“吃”對應的多樣函子范疇:
涉及施事、地點和受事的動作
涉及施事、地點、工具和受事的動作
涉及施事、時間、地點、工具和受事的動作
常范疇類型邏輯的一系列機制做了調(diào)整改變:范疇形成定義的改變和函項應用規(guī)則的改變,函子范疇的論元范疇是n個并列的范疇,積的范疇分為右積范疇和左積范疇。范疇的形成為:
定義4 給定原子范疇的有窮集合A①原子范疇A={S,NPa,NPo,NPl,NPi,NPt…}。加標NP是滿足格語法區(qū)分名詞格的要求。,范疇的集合C是滿足下列條件的最小集合:
·A?C;
·若 X∈C,Z1,…,Zn∈C 且 Zi≠Zj,則X/(Z1,…,Zn)是右函子范疇∈ C;(n≥1)
·若 X∈C,Z1,…,Zn∈C 且 Zi≠Zj,則(Z1,…,Zn)X是左函子范疇∈ C;(n≥1)
·若Y是右函子范疇∈C,Z1,…,Zn∈C且是Y中的論元范疇且Zi≠Zj,則Y,Z1,…,Zn是右積范疇∈C;(n≥1)
·若Y是左函子范疇∈C,Z1,…,Zn∈C且是Y中的論元范疇且 Zi≠Zj,則Z1,…,Zn,Y是左積范疇∈C;(n≥1)
·封閉性。
基于格語法的范疇類型邏輯公理系統(tǒng)有一條等同公理、兩條結(jié)構(gòu)公理(即兩條受限的縮減公設(shè)):
A1.A →A
A2.Y,Z1,…,Zn→Y,Z1,…,Zn-1(Y,Z1,…,Zn是右積)
A3.Z1,…,Zn,Y →Z1,…,Zn-1,Y(Z1,…,Zn,Y是左積)
推演規(guī)則:有受限的冗余規(guī)則4條,傳遞規(guī)則1條:
(Y,Z1,…,Zn是右積)(Z1,…,Zn,Y是左積)
向前(向后)的函項應用定理由A1和冗余規(guī)則一步推得:
(F)X/(Z1,…,Zn),Z1,…,Zn→X
(B)Z1,…,Zn,(Z1,…,Zn)X →X
為了描述自然語言動詞所屬范疇的改變,可推出:
(RA)X/(Z1,…,Zn)→X/(Z1,…,Zn+1)
(LA)(Z1,…,Zn)X →(Z1,…,Zn+1)X
證明:據(jù)(F)有:X/(Z1,…,Zn),Z1,…,Zn→X;據(jù) A2 得:X/(Z1,…,Zn),Z1,…,Zn,Zn+1→X/(Z1,…,Zn),Z1,…,Zn;傳遞得:X/(Z1,…,Zn),Z1,…,Zn,Zn+1→X;再據(jù)冗余規(guī)則得:X/(Z1,…,Zn)→X/(Z1,…,Zn+1)。
增加相應的框架限制:
是中心成分,z1…zn是非中心成分)
是中心成分,z1…zn是非中心成分)
(n≥1)
按照格語法,格語句的構(gòu)造涉及一分為三和一分為四的句法分析。SP2所刻畫的從R4變換到R3的直觀依據(jù)有:
這即是說:W中若有兩個非中心成分位于左邊和中心成分毗連的符號串,相應就有一個非中心成分位于左邊和該中心成分毗連的符號串,即在漢語中,如果“李四在北京出差”的表達式成立,“李四出差”的表達式也能成立。
SP1所刻畫的從R/5轉(zhuǎn)換到R/4轉(zhuǎn)換的直觀依據(jù)有:如“吃飯在餐館”的表達式成立,則“吃飯”的表達式也成立。
模型 M= 〈W,R/n+2,R +2,‖·‖〉,其中‖·‖的定義為:(n≥1)
據(jù)此可以證明基于格語法思想的范疇類型邏輯系統(tǒng)的可靠性和完全性。
格語法的思想要點是:句子結(jié)構(gòu)以動詞為中心成分圍繞數(shù)量不等的格名詞而展開,這導致語言表達式的中心成分和非中心成分的區(qū)分和多分法的語法分析模式。格語法的分析有利于自然語言的計算機信息處理。漢語適合于格語法的分析模式。揭示格語法思想的范疇類型邏輯,需要實行更新變異。中心成分和非中心成分以及多分法的分析模式造成左積范疇和右積范疇的區(qū)分,導致函子范疇的論元增添,使得其框架語義中可及關(guān)系的非單一化。
繼本文之后還需要進行以下后續(xù)研究:(a)經(jīng)典范疇語法中還有很多技術(shù)手段,如基于結(jié)合公理和交換公理的函項復合和置換等運算顯然排除在本文的范疇系統(tǒng)之外,其運算過程并不是單純的左積或右積運算所能說明的。基于格語法的范疇類型邏輯系統(tǒng)是一個簡單化處理的系統(tǒng),可能導致自然語言中一些語言現(xiàn)象不便處理,這需要大力進行后續(xù)研究,在詞庫的構(gòu)建上或機制的擴展方面下功夫。(b)范疇類型邏輯處理自然語言的最終目的,是給范疇推演的每一環(huán)節(jié)配備λ-詞項,多分法的范疇分析需要匹配相應的λ-演算手段,這似乎是有一定難度的工作。(c)漢語句中主語、賓語以及介詞的賓語如果是量化短語而不是專名或表示特指含義的光桿名詞的話,其句法分析會涉及量詞提升等更復雜的操作,需要考慮量詞提升給格框架分析帶來的影響。