人工智能驅(qū)動的“PDRT+CCG”視域下的預(yù)設(shè)研究

2020-11-26 05:38:44鄒崇理武瑞豐

湖北大學(xué)學(xué)報(哲學(xué)社會科學(xué)版) 2020年6期

鄒崇理，武瑞豐

(湘潭大學(xué) 碧泉書院，湖南湘潭 411105)

0 引言：人工智能對自然語言預(yù)設(shè)的研究需求

當(dāng)今人工智能(AI)的發(fā)展，圖像方面的進步非?？?，但是識別圖像只是智能的一部分，人的智能中最高端的特征是語言。AI領(lǐng)域認為：讓計算機理解自然語言是人工智能皇冠上的明珠。新一代人工智能取得突破的更高目標就是讓機器理解人類的自然語言，這涉及到語義和語義背后的知識。要真正理解自然語言、攻克人工智能的難關(guān)，需要AI自然語言處理領(lǐng)域的工作，需要對語言進行語義分析，需要采用數(shù)學(xué)或邏輯的方式來表征語義背后的人類知識。清華大學(xué)教授、北京智源首席科學(xué)家孫茂松認為：“從文本中挖掘知識庫，文本中有大量的知識，對知識進行形式化，……變成類似謂詞邏輯表達式，相當(dāng)于變成某種公式，這時就可以往知識庫里補充。如果這條道走通了，這個問題就會得到相當(dāng)程度的解決?！?1)《孫茂松：深度學(xué)習(xí)的紅利我們享受得差不多了！》，2019年11月20日，https：www.sohu.coma354990464_99979179，2020年1月5日。

自然語言處理近年的發(fā)展，跟圖像識別的進展類似，依賴的方法都是基于統(tǒng)計的深度學(xué)習(xí)。深度學(xué)習(xí)最顯著的特點就是背靠大數(shù)據(jù)，機器憑借海量的數(shù)據(jù)進行自主訓(xùn)練。自然語言處理中比如語音識別和機器翻譯，都是靠大數(shù)據(jù)驅(qū)動，即便如此，機器翻譯系統(tǒng)也沒有完全理解語言。如英語句“The box was in the pen”，“box”是盒子，“pen”有兩個意思：一個是“鋼筆”，另一個是“圍欄”。大數(shù)據(jù)驅(qū)動的機器翻譯系統(tǒng)如谷歌、百度、微軟的機器翻譯系統(tǒng)都會把上句翻譯成“盒子在鋼筆里”。因為機器依據(jù)的是“鋼筆”出現(xiàn)頻度很高而“圍欄”出現(xiàn)頻度很低的統(tǒng)計，機器不知道介詞“in”語義背后的知識：一個體積小的東西才能放到一個體積大的東西里邊。機器不知道盒子比鋼筆大，不能放到鋼筆里，而盒子比圍欄小，可以放到圍欄里。再比如，若一個句子包含生活常識，機器翻譯系統(tǒng)更會被搞得稀里糊涂。公交車上的到站提醒“前門快到了，請從后門下車”，這個句子對計算機系統(tǒng)來說是難以理解的，機器不知道句中的“前門”是個地名，而“后門”卻是下車的通道。

怎樣構(gòu)建訓(xùn)練人工智能翻譯系統(tǒng)所需要的知識庫，這需要計算機科學(xué)、邏輯學(xué)、語言學(xué)和認知科學(xué)等諸多領(lǐng)域的研究者通力合作，對人類知識的載體——自然語言的語義進行數(shù)學(xué)和邏輯的分析處理。我們認為，自然語言語義的一個部分——預(yù)設(shè)是自然語言承載知識的重要環(huán)節(jié)，上文涉及的兩個例子都跟語言的預(yù)設(shè)有關(guān)聯(lián)。本文在當(dāng)今AI理解處理自然語言的迫切需求的激勵下，嘗試采用國際上新產(chǎn)生的語言邏輯工具——投射的話語表述理論PDRT和組合范疇語法CCG對自然語言的預(yù)設(shè)現(xiàn)象進行分析處理，為AI理解自然語言而構(gòu)建大知識庫的工作做些理論上的探索。

1 預(yù)設(shè)是什么

1.1 預(yù)設(shè)的邏輯起源

預(yù)設(shè)，也稱為前提、先設(shè)。預(yù)設(shè)是語義學(xué)、邏輯學(xué)、語用學(xué)等學(xué)科研究中的一個重要概念。預(yù)設(shè)的概念最初來源于邏輯學(xué)，可以追溯到古希臘時代。最早研究預(yù)設(shè)的是哲學(xué)家和邏輯學(xué)家。其中，最有影響的三位哲學(xué)家是弗雷格、羅素和斯特勞森。

弗雷格是第一個把預(yù)設(shè)作為概念進行探討的。他在《意義和指稱》(“On Sense and Reference”)中提出：任何一個語句所包含的簡單或者復(fù)雜的專有名詞都得具有指稱對象，否則這個語句就沒有真假值(2)A.P.馬蒂尼奇：《語言哲學(xué)》，牟博、楊音萊等譯，北京：商務(wù)印書館，2006年，第388-389頁。。如弗雷格以下的經(jīng)典例子能說明這一點。

(1)Kepler died in misery.(開普勒死于貧困)

(2)Kepler existed.(開普勒存在)

在弗雷格看來，如果(1)要有真假值，那么就一定語義預(yù)設(shè)了(2)，即開普勒的存在。根據(jù)弗雷格的觀點，一個句子的任何部分如果沒有指稱對象，那么這個句子的真值無法判定，就會出現(xiàn)真值間隙。

羅素在《論指稱》(“On Denoting”)中反對真值間隙，堅持二值論(3)B.Russell，“On Denoting”，Mind，Vol.14，No.56,1905.。在他看來，一個語句要么為真，要么為假。如“法國國王是個禿子”可以翻譯為三個命題的并列，即“存在一個人是法國國王”、“如果存在一個y是法國國王，那么y就是x”和“x是禿子”。我們可以形式化地表述為：?x[F(x)∧?y[F(y)→y=x]∧C(x)]。因為此公式為合取式，則可知，不存在法國國王，合取支為假，整個公式為假。羅素認為預(yù)設(shè)是命題邏輯語義的一部分，如果預(yù)設(shè)為真，整個命題為真，反之亦然。

在很長一段時間里，羅素的觀點一直占有統(tǒng)治性的地位，直到1950年代，受到斯特勞森的挑戰(zhàn)。斯特勞森認為羅素混淆了語句的意義和陳述的概念(4)P.F.Strawson，“On Referring”，Mind，Vol.59，No.235,1950.。一個語句不同于在具體的語境中應(yīng)用這個句子做出的陳述，一個語句可以有意義，但沒有真假，只有語句的陳述才有真假之分。使用語句進行陳述需要結(jié)合一定的語境，這就開啟了一種新的預(yù)設(shè)概念。例如，“法國的國王是禿子”，這句話本身無所謂真假，只有結(jié)合一定語境才能判斷真假。法國在君主制的時候，說出這句話有真值，而在當(dāng)今，說出這句話就無真假可言。

1.2 預(yù)設(shè)的邏輯定義

從邏輯語義角度看，學(xué)界大都把預(yù)設(shè)當(dāng)作句子與句子之間的一種真值關(guān)系。無論句子是真還是假，預(yù)設(shè)都為真。如果命題S′是命題S的預(yù)設(shè)，當(dāng)且僅當(dāng)，S邏輯地蘊涵著S′，且S的否定式S也邏輯地蘊涵著S′，即S?S′，且S?S′，則S′是S的預(yù)設(shè)。當(dāng)S′為假，則S非真非假。例如“開普勒存在”是“開普勒死于貧困”的預(yù)設(shè)，當(dāng)且僅當(dāng)，“開普勒死于貧困”蘊涵“開普勒存在”，同時，“開普勒并非死于貧困”也蘊涵“開普勒存在”。若“開普勒存在”為假，即“開普勒”不存在，則談?wù)摗伴_普勒是否死于貧困”就沒有意義而無所謂真假。

然而，預(yù)設(shè)是動態(tài)的，并不是僅僅與真假相關(guān)的語義現(xiàn)象，對它的分析還可從語用的角度來進行。對于語用的分析，較有影響的有三類：將預(yù)設(shè)視為命題態(tài)度、話語被理解所需要滿足的條件和交際雙方所共有的知識或背景信息。最早提出“語用預(yù)設(shè)”概念的是斯托內(nèi)克爾。他曾指出：預(yù)設(shè)是一種態(tài)度，一種接受某物為真的態(tài)度；說話人和聽話人如果要想正常地會話，那么就需要遵守合作原則，預(yù)設(shè)正是交際雙方遵守合作原則的產(chǎn)物(5)M.K.Munitz,P.K.Unger,eds.，Semantics and Philosophy，New York：New York University Press，1974,pp.197-213.。還有學(xué)者把預(yù)設(shè)視為交際雙方都理解、接受的背景知識即共知性，指出語用預(yù)設(shè)的共知性是交際雙方能夠順利交際的基礎(chǔ)(6)陳晶晶：《預(yù)設(shè)投射問題探析》，中國人民大學(xué)博士學(xué)位論文，2014年，第16頁。。如，A問B：“小李的孩子上學(xué)了嗎？”這句話前提就是A和B都知道小李的所指以及小李有孩子。

1.3 預(yù)設(shè)觸發(fā)語導(dǎo)致的預(yù)設(shè)分類

預(yù)設(shè)是一種特殊的已知信息，它跟話語中的某些詞條或句子結(jié)構(gòu)緊密關(guān)聯(lián)，也就是說這些詞條和句子結(jié)構(gòu)可以稱作“預(yù)設(shè)觸發(fā)語”。

卡圖南(L.Karttunen)曾收集了31種觸發(fā)預(yù)設(shè)的語言表達式(7)L.Karttunen，“Presuppositions of Compound Sentences”，Linguistic Inquiry，Vol.4，No.2，1973.，索姆斯(S.Soames)則列舉了8類(8)S.Soames，“How Presupposition are Inherited：A Solution to the Projection Problem”，Linguistic Inquiry，Vol.13，No.3，1982.，而列文森(Stephen C.Levinson)在《語用學(xué)》中共涉及了13種觸發(fā)語(9)Stephen C.Levinson,Pragmatics，Cambridge:Cambridge University Press,1983,pp.179-185.。在此，我們按照奴提雅(N.J.Venhuizen)的觀點(10)N.J.Venhuizen，Projection in discourse：A data-driven formal semantic analysis，PhD Dissertation，University of Groningen，2015，pp.12-14.，把預(yù)設(shè)觸發(fā)語大致分為“存在觸發(fā)語”、“基本命題觸發(fā)語”和“先決條件觸發(fā)語”三類。相應(yīng)地，把預(yù)設(shè)分為三大類。

第一類：存在觸發(fā)語通常是說指稱表達式預(yù)設(shè)某個實體的存在，主要包括限定摹狀詞、專名、所有格或帶修飾成分的名詞短語(包括代詞)。如：

(1)那個發(fā)現(xiàn)行星軌道為橢圓的人悲慘地死去。(限定摹狀詞)

預(yù)設(shè)：存在發(fā)現(xiàn)行星軌道的人。

(2)英國首相感染了新冠肺炎。(專名)

預(yù)設(shè)：存在英國首相。

(3)他的妻子沒在家。(所有格)

預(yù)設(shè)：他有妻子。

(4)證明月球繞地球公轉(zhuǎn)的不是中國人。(帶修飾成分的名詞短語)

預(yù)設(shè)：有人證明了月球繞地球公轉(zhuǎn)。

我國老一輩邏輯學(xué)家周禮全先生指出：“單獨名稱又可分為簡單的單獨名稱和復(fù)雜的單獨名稱。前者就是通常所說的專名，如‘開普勒’；后者相當(dāng)于羅素所說的摹狀詞，如‘那個發(fā)現(xiàn)行星運行軌道的人’?！?11)周禮全主編：《邏輯——正確思維和有效交際的理論》，北京：人民出版社，1994年，第453-454。

第二類：基本命題觸發(fā)語所觸發(fā)的是其嵌入或隱含的小句，主要包括事實動詞、分裂句、時間修飾語、疑問句、帶重讀成分的隱含分裂句。

A.事實動詞表示既成事實，如“知道、后悔、意識到、抱歉的是、高興的是、驕傲的是”等等。這樣的動詞觸發(fā)預(yù)設(shè)其嵌入的小句，也就是說動詞所涉及的事實內(nèi)容。如：

(5)約翰知道瑪麗喜歡他。

預(yù)設(shè)：瑪麗喜歡約翰。

B.分裂句就是強調(diào)句，目的是為了突出某一結(jié)構(gòu)的信息。分裂句所觸發(fā)預(yù)設(shè)就是和強調(diào)的焦點相關(guān)的預(yù)設(shè)。如：

(6)是約翰殺了瑪麗。

預(yù)設(shè)：有人殺了瑪麗。

C.時間修飾語在這里指的是“在……之前、在……之后、在……期間”等，它們所觸發(fā)的是時間狀語從句的內(nèi)容。如：

(7)在長沙旅游期間，我們受到了朋友的熱情款待。

預(yù)設(shè)：我們曾在長沙旅游。

第三類：先決條件觸發(fā)語是以某種方式對其上下文施加先決條件或要求的表達式，主要包括蘊涵動詞、體動詞、重復(fù)標志。

A.蘊含動詞指的是蘊含其他事件的動詞，其所觸發(fā)的預(yù)設(shè)得根據(jù)動詞蘊含意義。如：

(8)我在路上偶遇了一個老朋友。

預(yù)設(shè)：我沒曾想會在路上碰到他。

B.體動詞表示動作的開始、結(jié)束、繼續(xù)等，其觸發(fā)的預(yù)設(shè)是動詞意義的先前狀態(tài)。如：

(9)課后繼續(xù)討論這個話題。

預(yù)設(shè)：已經(jīng)討論這個話題了。

C.重復(fù)標志表示某個動作或狀態(tài)重復(fù)的詞語，包括“再一次、又、第n次(n>1)”等，它們表示重復(fù)內(nèi)容的預(yù)設(shè)。如：

(10)這是我第三次來廣西了。

預(yù)設(shè)：我來過廣西兩次。

本文限于篇幅，作為應(yīng)用新邏輯工具解決預(yù)設(shè)問題的起步，先處理第一類預(yù)設(shè)現(xiàn)象。

2 處理預(yù)設(shè)的邏輯語義學(xué)工具

自從弗雷格把預(yù)設(shè)作為邏輯概念進行討論以來，出現(xiàn)了許多研究預(yù)設(shè)的邏輯語義學(xué)工具，本文主要涉及投射的話語表征PDRT和組合范疇語法CCG。

2.1 話語表征理論DRT對預(yù)設(shè)的處理——PDRT

范德杉特(R. van der Sandt)的理論認為，預(yù)設(shè)投射(12)這里所謂預(yù)設(shè)投射粗淺地理解為：把一個語句的預(yù)設(shè)信息吸收到該語句的語義表征中。等同于回指消解，預(yù)設(shè)和回指表現(xiàn)出相似的行為(13)R.van der Sandt，“Presupposition Projection as Anaphora Resolution”，Journal of Semantics，Vol.9，No.4,1992.。然而，與回指不同的是，在沒有合適先行詞的情況下，預(yù)設(shè)可以恰當(dāng)?shù)爻霈F(xiàn)。在這些情況下，一個新的DRS是在一個可及的話語層面上被創(chuàng)造出來的，這個過程被稱為“納入”。范德杉特采用DRT框架來實現(xiàn)對預(yù)設(shè)的處理。如：

(1)Somebody did not notice the pilot.

預(yù)設(shè)信息被納入的DRS

上例句的預(yù)設(shè)觸發(fā)語是“the pilot”，涉及的預(yù)設(shè)信息是“存在y：pilot(y)”，在可及的整體DRS中這個預(yù)設(shè)信息被納入其中，但R.van der Sandt在采用DRT處理預(yù)設(shè)時產(chǎn)生的一個問題是：在預(yù)設(shè)投射納入后，納入的預(yù)設(shè)信息和斷言信息是沒有區(qū)分的。例如，在(1)的DRS中，納入的預(yù)設(shè)信息“存在y：pilot(y)”被添加到整體的DRS中，因此獲得與“person”引入的斷言信息相同的狀態(tài)。Krahmer認為，納入的預(yù)設(shè)應(yīng)該保持其預(yù)設(shè)性，它們不同于斷言的信息(14)Emiel Krahmer，Presuppostion and Anaphora，Standford：CSLI Publications，1998,pp.13-19.。為解決這一問題，Krahmer引入了預(yù)設(shè)信息的標記，使得預(yù)設(shè)在更高的語篇層次上被納入，允許其有不同于斷言信息的解釋。這里需要一個單一的表示框架，允許對斷言的信息和預(yù)設(shè)的信息進行區(qū)別。于是產(chǎn)生了投射的DRT(Projective Discourse Representation Theory)，即DRT的擴展——PDRT(15)N.J.Venhuizen，et al.，“Parsimonious Semantic Representation with Projection Pointer”,Proceedings of the 10th International Conference on Computational Semantics,Potsdam,2013,pp.252-263.。在PDRT中，給所有PDRS中的話語所指和PDRS條件添加指針，顯示它們的投射納入位置。這意味著預(yù)設(shè)的信息可以從納入它的PDRS中清楚地識別出來。

在PDRT中，斷言信息和預(yù)設(shè)信息的差異在于它們指向不同的PDRS語境。斷言信息的指針就是引入斷言的PDRS標簽。預(yù)設(shè)信息的指針是另一可及的PDRS標簽，也可以是自由變量。如(2)所示，我們使用正整數(shù)表示標簽(約束指針)，而f表示自由指針。

(2)a.A boy smiles.

b.The boy smiles.

c.It is not the case that the boy smiles.

所有的話語指稱和DRS條件都跟一個指針相關(guān)聯(lián)，指針是一個倒箭頭指向的對象。(2a)顯示，沒有投射的預(yù)設(shè)信息，則有關(guān)的話語指稱和DRS條件都指向引入這些信息的PDRS(標記為“1”的PDRS)。另一方面，在(2b)和(2c)中，限定摹狀詞“the boy”觸發(fā)了關(guān)于話語指稱存在的預(yù)設(shè)，這里預(yù)設(shè)信息的指針為自由變元(這里是“f”)。自由指針代表最外層的PDRS的標簽，在(2b)和(2c)中，自由指針代表的都是標記為“1”的PDRS。

大多數(shù)預(yù)設(shè)理論主張預(yù)設(shè)信息由詞匯驅(qū)動。即是說，特定的詞匯項將產(chǎn)生預(yù)設(shè)，特定的詞條稱為“預(yù)設(shè)觸發(fā)語”。因此，預(yù)設(shè)的信息將體現(xiàn)在投射觸發(fā)語的詞條語義上。根據(jù)邏輯的組合原則，從作為預(yù)設(shè)觸發(fā)語的詞條語義出發(fā)，一步步推演出涉及預(yù)設(shè)的語句的語義。于是有學(xué)者采用λ-演算的工具對PDRT進行組合處理(16)Reinhard Muskens，“Combining Montague semantics and discourse representation”，Linguistics and Philosophy，Vol.19,No.2,1996；Johan Bos，“Implementing the Binding and Accommodation Theory for Anaphora Resolution and Presupposition Projection”，Computational Linguistics，Vol.29, No.2,2003.。PDRT中的組合性是通過以類型化的λ-項的形式為每個詞條提供語義來實現(xiàn)的。為了組合這些語義，PDRT提出PDRS的合并操作，通過合并將兩個PDRS合并為一個。我們對斷言的和預(yù)設(shè)的DRS使用不同的合并形式，以顯示它們不同的組合特性。在PDRT中，涉及預(yù)設(shè)投射信息的PDRS合并與涉及斷言信息的PDRS合并其操作標識是不同的：用“+”表示兩個斷言PDRS的合并；用“*”表示涉及預(yù)設(shè)PDRS的合并。

兩個PDRS之間的斷言合并可以通過各自話語所指和PDRS條件的并集來定義。合并后的整體PDRS的標簽必須與合并前第二個PDRS的標簽一致。斷言合并操作的定義如下所示：

定義斷言合并

這里對合并的結(jié)果進行了指針的重命名，把第一個PDRS中的話語所指集合Di和PDRS條件集合Ci中的指針i替換成第二個PDRS中的話語所指集合和PDRS條件集合中的指針j，分別得Di[j/i]和Ci[j/i]，再把它們分別同第二個PDRS中的Dj和Cj進行并集運算，最后完成合并獲得新的整體PDRS。語句系列“A man sings. A woman dances.”的PDRS合并如下：

這里標簽(約束指針)為1的PDRS，其話語所指集合D1={1←x}，其條件集合C1={1←man(x)，1←sing(x)}，對此進行指針重命名后得標簽為2的PDRS：D2={2←x}，C2={2←man(x)，2←sing(x)}，再跟原本標簽為2的PDRS的話語所指集合和條件集合分別進行并集運算，這樣就得到合并操作后的整體PDRS。

另一方面，預(yù)設(shè)的信息在合并操作時則不受合并后的整體PDRS其他信息的影響，而是保留預(yù)設(shè)信息的指針，指針指向其納入PDRS語境的標簽或是自由變元。因此，涉及預(yù)設(shè)的合并只需將預(yù)設(shè)信息中的話語所指及其條件添加到整體PDRS中。這就產(chǎn)生了以下定義：

定義涉及預(yù)設(shè)的合并

出于理解的直觀性，我們以“John loves his child”的PDRT的分析為例(17)下面的PDRS方框中最下層行表明標簽所代表的PDRS之間的可及關(guān)系。如“2≤1”表明PDRS2中話語所指被指被PDRS1所約束。：

此例是說John和his child都是預(yù)設(shè)觸發(fā)語，其在PDRS1和PDRS2中預(yù)設(shè)信息的指針合并后在整體PDRS中被保留下來。

2.2 組合范疇語法CCG對預(yù)設(shè)的處理——格羅寧根意義庫GMB

組合范疇語法，簡稱CCG。其特征大致有：第一，CCG對自然語言的句法語義分析面向的是大規(guī)模的真實文本，CCG處理的就是自然語言的個案個例。第二，CCG認為自然語言只有表層結(jié)構(gòu)這樣的句法層面，這也是所謂單層結(jié)構(gòu)的思想。句法表層的每個成分都有各自的語義作用，自然語言邏輯語義的分析推演自始至終基于句法表層的構(gòu)造，而不像喬姆斯基的GB理論假定自然語言具有一個便于語跡移動的深層結(jié)構(gòu)，也不似蒙太格語法那樣假定自然語言具有用于量化嵌入規(guī)則的帶邏輯變項的底層結(jié)構(gòu)。第三，CCG的詞匯主義原則是：“我們假定，所有的結(jié)構(gòu)都是由詞匯管轄的，并且詞匯中心語具有明顯的語義形式”(18)Mark Steedman，Combinatory Categorial Grammar，Philadelphia，PA：The SOMESUCH Press，2017,pp.143-144.。自然語言表達式所有的句法結(jié)構(gòu)都被作為其構(gòu)造成分的詞條所控制，換言之，詞條的范疇指派凝縮了句法結(jié)構(gòu)的運算推演過程。同樣一個詞條在不同的個案個例句中可能被指派不同的范疇。第四，CCG強調(diào)句法和語義的對應(yīng)原則，即句法和語義的透明原則。CCG所謂透明性原則指出，每個句法范疇對應(yīng)一個唯一的語義類型。尤其是，語句范疇S對應(yīng)邏輯公式的類型t，這確保生成的語句翻譯成一個邏輯公式。

組合范疇語法怎樣處理預(yù)設(shè)？這需要借鑒PDRT分析預(yù)設(shè)的技術(shù)手段，譬如前文提及的“指針”概念，尤其需要關(guān)注涉及PDRT的兩個合并操作的規(guī)則運用的情況。CCG自身一些重要的經(jīng)驗主義特征——個案個例的方法，如詞例和規(guī)則例的思想會對PDRT產(chǎn)生影響。即CCG對PDRT的吸納是一種“取長補短”的互動。如：CCG對連詞或起連詞作用的逗號進行個案個例的特殊處理，牽涉到PDRT的合并規(guī)則，CCG可能產(chǎn)生許多具體的規(guī)則例。

CCG的并列規(guī)則的一般模式<Φn>為：

X：f conj：b X：g ?ΦnX：λ…b(f…)(g…) (conj是范疇(XX)X的縮寫)

具體來說：

當(dāng)Φ0時，bxy≡bxy

當(dāng)Φ1時，bfg≡λx.b(fx)(gx)

當(dāng)Φ2時，bfg≡λx.λy.b(fxy)(gxy)

當(dāng)Φ3時，bfg≡λx.λy.λz.b(fxyz)(gzyz)

當(dāng)Φ4時，bfg≡λx.λy.λz.λw.b(fxyzw)(gxyzw)

對自然語言中包含預(yù)設(shè)的并列句如“張三有女兒并且張三的女兒出嫁了”、“李四曾經(jīng)抽煙并且現(xiàn)在戒煙了”之類的分析，基于PDRT作為語義表征的CCG可以把自己的并列規(guī)則模式變成涉及PDRS合并的規(guī)則例：

S：PDRS K1conj：* S：PDRS K2? S：PDRS K1*PDRS K2

而不涉及預(yù)設(shè)的通常并列句，其并列規(guī)則例可以是：

S：PDRS K1conj：+ S：PDRS K2? S：PDRS K1+PDRS K2

格羅寧根意義庫GMB就是在CCG框架內(nèi)采用PDRT的技術(shù)手段分析自然語言的產(chǎn)物(19)格羅寧根意義庫GMB以數(shù)據(jù)驅(qū)動語義分析為基礎(chǔ)，旨在標注各種各樣的語言現(xiàn)象。它不僅結(jié)合了各種層次的語言標注，而且提供了一個“深”層的形式意義表征，它把多個層面的標注合成到一個單一的語言形式，而且將這個單一的語言形式整合到一個單一的表征框架中，即PDRT所提供的結(jié)構(gòu)。GMB這樣的資源庫的構(gòu)建需要幾個階段，包括為收集語義標注數(shù)據(jù)，選擇和開發(fā)用于自動分析數(shù)據(jù)的NLP工具，以及選擇正確的方法來存儲和評估標注。。

GMB語料庫中對英語句的分析，其對預(yù)設(shè)的語義表征采用PDRT的方式。GMB的亮點是在語句的分析推演中增加了范疇的運算，即在CCG框架內(nèi)生成語句。生成是一種句法和語義的并行推演——既有各類表達式句法范疇的運算，又有與之對應(yīng)的PDRS語義表征的組合。即把CCG原有的作為語義表征的λ-項換成了PDRT中的PDRS。GMB的重要特征是句法與語義接口的透明性，句法與語義的并行推演，這一特征是對CCG基本特征的繼承。也就是說，GMB堅持邏輯語義學(xué)工具的傳統(tǒng)——句法和語義對應(yīng)的組合原則。

在GMB語義庫中，涉及預(yù)設(shè)的英語句“the cow moos”的CCG+PDRT推演圖示如下：

上推演圖的最后結(jié)果中的預(yù)設(shè)信息為：存在是“cow”的個體。

3 嘗試采用PDRT+CCG的工具分析預(yù)設(shè)現(xiàn)象

對語言學(xué)界熟知的語義疑難句“王冕死了父親”，大都認為：該句中的“死”通常作為不及物動詞(一元謂詞)，為什么出現(xiàn)了兩個論元(王冕和父親)？其次，“王冕”和“父親”的關(guān)系到底是什么？顯然不是施事與受事的關(guān)系。有學(xué)者將“父親”稱為“領(lǐng)主屬賓語”，該句的主語和賓語存在明顯的“領(lǐng)有隸屬”關(guān)系，而沒有直接的語義關(guān)系。類似的表達還有：

張三爛了一筐梨。

這個學(xué)校倒了一堵墻。

孫從眾的《從語義—句法界面看“王冕死了父親”的生成方式》(20)孫從眾：《從語義—句法界面看“王冕死了父親”的生成方式》，《寧波廣播電視大學(xué)學(xué)報》2016年第4期。一文認為該句式的形成結(jié)合了語義的糅合和謂語動詞的移位，移位動因是“死”的語義增值……句式結(jié)構(gòu)中“死”的背后附加了一種“損失”之意，或者說“死”與“損失”兩種意義相糅合，最終導(dǎo)致句法結(jié)構(gòu)發(fā)生了相應(yīng)的改變——移位(21)對這類語言現(xiàn)象，主流的研究觀點主要從三個角度進行嘗試：第一種是從生成語法出發(fā)，到后來在句法—語用交接面完善(張三被打斷了一條腿?張三的一條腿被打斷了?張三打斷了一條腿)；第二種是利用認知語言學(xué)的構(gòu)式語法來解釋；第三種則是從歷時的角度出發(fā)，從歷史語料尋找演變的原因。。

本文的解決思路是：把“死”仍當(dāng)作不及物動詞，預(yù)設(shè)存在一個被領(lǐng)屬的個體，而“王冕”則是這個領(lǐng)屬者。表征領(lǐng)屬者的邏輯表達PDRS跟“死”的PDRS組合，回頭來再跟“父親”的PDRS組合，最后的結(jié)果是“父親”找到領(lǐng)屬者，同時“死”也找到了論元。組成句子“王冕死了父親”的詞條信息及其推演如下：

2.死了 SNP：λx.(b2〈?，{b2←死了′(x)}〉)

3.父親 SNP：λx2.(b3〈?，{b3←父親′(x2)}〉)

句子的推演如下圖所示：

推演最后結(jié)果表明：預(yù)設(shè)的觸發(fā)語是專名“王冕”。b2的語境顯示：預(yù)設(shè)存在一個父親的個體，而且是王冕所領(lǐng)有的個體。在這個預(yù)設(shè)下，句子表達的意思是“王冕父親的個體死了”。這樣解決了該句所謂“領(lǐng)屬”和“移位”問題，而該句關(guān)于語義糅合的問題留待今后的工作。

本文引言中提到AI發(fā)展需要構(gòu)建知識庫遇到的語義難題，這里嘗試采用PDRT+CCG的語言邏輯工具，對含多個預(yù)設(shè)的例句“The box was in the pen”進行分析。該語句的詞條信息為：

該語句詳細的推演步驟如下：

最后獲得的PDRS作為例句的語義表征，包含的三個預(yù)設(shè)信息是：b2〈{b2←x1}，{b2←box(x1)}〉、b6〈{b6←x5}，{b6←pen(x5)}〉和b3〈?，{b3←larger-than(x5，x1)}〉。b2表明：存在一個是盒子的個體；b6說的是：存在一個是圍欄的個體；b3意味著：作為圍欄的個體比作為盒子的個體體積大。名詞短語 “the box”和“the pen”所表示的預(yù)設(shè)是由詞匯意義或者結(jié)構(gòu)所引發(fā)的，而預(yù)設(shè)b3“l(fā)arger-than(x5, x1)”是句子“The box was in the pen”得以恰當(dāng)表達的適宜性條件，是說話人主觀認定當(dāng)然成立的命題，或者是說話人認為交際雙方共有的交際信息或聽話人能夠自然推斷出來的信息。b3的預(yù)設(shè)信息正好是本文引言中提到的關(guān)于新一代AI需要解決的問題：語言表達式be-in預(yù)設(shè)“一個較小的東西放到一個較大東西里邊”的常識。

在當(dāng)今AI構(gòu)建知識庫的另一例句“前門快到了，請從后門下車”中，構(gòu)成該語句的詞匯的句法范疇和語義范疇為：

5.[請從…下車](23)從非連續(xù)的范疇邏輯視角看，該句系列第二句中的動詞被分析成非連續(xù)詞條：請從…下車。該句系列的兩個子句都是祈使句，推演最后的結(jié)果是語句函項的類型。(SNP)(S(SNP))：λY.λx5.(Y@λx6.(b4〈{b4←e2，b4←t1}，{b4←[請從…下車]′(e2)，b4←Time(e2，t1)，b4←t1=now，b4←Agent(e2，x5)，b4←Patient(e2，x6)}〉))

此句詳細的推演步驟見下頁文尾。

這個例子包含的兩個預(yù)設(shè)是：存在是“前門”并且作為“車站名”的個體x1，存在是“后門”并且作為“下車通道”的個體x4，即“前門”和“后門”對應(yīng)的預(yù)設(shè)信息涉及“車站名”和“下車通道”。這個包含生活常識的句子對于機器翻譯來說是無法識別的，因為它涉及到了說話人和聽話人的知識背景。再如，語句“你真好”包含至少兩層意思：對一個人的贊揚或者諷刺。但對于英漢機器翻譯系統(tǒng)來說，并不能識別語句所包含的贊揚或諷刺，而只能機械地翻譯成“You are really kind”。這些表明，當(dāng)涉及文化背景、認知、心理、時間、地點等語用因素時，機器翻譯系統(tǒng)就顯得力不從心。因此，構(gòu)建人工智能的翻譯系統(tǒng)所需要的知識庫顯得尤為重要，這就需要計算機科學(xué)、邏輯學(xué)、語言學(xué)和認知科學(xué)等研究領(lǐng)域共同合作。本文采用“PDRT+CCG”的數(shù)理邏輯工具表征這些涉及預(yù)設(shè)的知識信息，期待有助于人工智能關(guān)于自然語言理解的工作。

4 結(jié)語

AI的發(fā)展必然會給社會帶來根本性的變化，也會為語言、邏輯的發(fā)展提供新的契機。當(dāng)今的語言研究者要想使得計算機“理解”自然語言，就需要對自然語言進行句法和語義的形式化分析，使自然語言成為一種可計算、可推演的處理對象。這不僅需要涉及詞匯、語義、語法、語用等方面的理論語言學(xué)研究，而且還需要語料庫語言學(xué)、計算語言學(xué)等方面的實驗語言學(xué)研究。也就是說，既需要基于文本大數(shù)據(jù)的研究，又需要面向自然語言處理的資源庫的建設(shè)。近兩年國家層面的哲學(xué)社會科學(xué)重大項目清單中經(jīng)常出現(xiàn)“新一代人工智能的哲學(xué)思考”、“新一代人工智能發(fā)展的自然語言理解研究”、“大數(shù)據(jù)背景下的人工智能及其邏輯的哲學(xué)反思”及“新一代人工智能驅(qū)動的邏輯學(xué)研究”等題目。這里的關(guān)鍵詞有“人工智能”、“哲學(xué)思考或反思”和“自然語言理解或邏輯學(xué)研究”。本文關(guān)注的題材是類似的，即語言邏輯研究什么？怎樣研究？我們可以從人工智能的需求找到答案，AI需要理解處理自然語言語義及其背后的知識，這就是語言邏輯研究的對象。AI要求采用數(shù)學(xué)或邏輯的形式化方式表征自然語言的語義，我們的語言邏輯研究就采用新的邏輯工具PDRT+CCG來分析自然語言的語義。我們注意到自然語言語義及其背后的知識跟語句的預(yù)設(shè)相關(guān)，因此，本文的論題就此確定。自然語言的真實文本是浩淼無邊的大海，本文的研究具有起航的意義。預(yù)設(shè)的信息是否可以完全地在被預(yù)設(shè)語句的語義中討論，以及更多的預(yù)設(shè)現(xiàn)象如何表征等問題，留待今后的工作。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看