鄒崇理
?
語言構(gòu)造機制的邏輯語義學研究
鄒崇理
自然語言的計算機信息處理要求電腦對人腦構(gòu)造或理解語言的機制進行模擬,這種模擬首先需要邏輯語義學對語言構(gòu)造機制的先期研究。簡言之,語言構(gòu)造機制顯示出兩個特征:1.有窮多的詞條作為出發(fā)點;2.依據(jù)有窮多規(guī)則去構(gòu)造和理解無窮多的語句。多年來,邏輯語義學各分支不同程度地描述了語言構(gòu)造機制的兩個特征,但對其中特征1的刻畫卻不充分,而語言學對此卻有不俗的表現(xiàn)。于是邏輯語義學和語言學形成互補局面,“互補”產(chǎn)生了組合范疇語法CCG。本文揭示了CCG對語言構(gòu)造機制兩個特征的兼容并舉,從而展示邏輯語義學在理論上對電腦模擬人腦構(gòu)造語言機制工作的指導作用。
語言構(gòu)造機制;邏輯語義學;組合范疇語法CCG
2016年是人工智能正式提出60周年的日子。新近,AlphaGo與韓國圍棋高手李世石的對局大戰(zhàn)引起學界、產(chǎn)業(yè)界和公眾的極大關(guān)注,結(jié)果人以1:4告負。由此引起思考熱議的話題是:電腦的智力是否已超過人腦?人類是否將被機器統(tǒng)治?
電腦的博弈功能是對人腦博弈機制的模擬,AlphaGo在多大程度上模擬了人腦的圍棋博弈能力?從邏輯思維認知科學角度看,AlphaGo的模擬雖然取得很大成功,但弱點和不足也是顯然的。
AlphaGo的工作原理分為線下學習和在線對弈。線下學習顯示AlphaGo對人腦學習能力的模擬。AlphaGo利用3萬多專業(yè)棋手對局的棋譜來訓練策略網(wǎng)絡(luò)和快速走棋策略,此外還通過大量的自我對弈,產(chǎn)生并存儲了3000萬盤棋局,用作訓練其估值網(wǎng)絡(luò)。與之比較,人腦記憶的對局數(shù)量遠遠少于機器,人記不了多少完整對局,僅僅掌握布局階段的各種定式和收官階段的計算模式,也不過成百上千。其次,從AlphaGo在線對弈的5步流程中看出它對人腦博弈能力的模擬:人腦下棋的思考模式就是自己跟自己下棋,在思考下一步怎么走時,在頭腦里設(shè)置黑白兩方你一步我一步的對弈。與此類似,AlphaGo在設(shè)置的走棋過程中不斷進行形勢判斷,給出勝負概率的評估。線下學習和在線對弈的原理表明AlphaGo模擬人腦博弈機制獲得巨大成功。
AlphaGo具有超快的計算速度,其策略網(wǎng)絡(luò)的走子速度是3毫秒一步,而快速走棋策略能達到2微秒的走子速度,又提高了1000多倍。人類的走棋速度比機器慢很多,通常的快棋比賽限于30秒一步棋。跟“大數(shù)據(jù)云計算”時代計算機的存儲容量、運算速度和計算準確性相比較,人腦差之甚遠!
人腦能夠與各方面處于強勢的機器對決,一定還有獨特的機制機器暫時沒有模擬到。我們從AlphaGo的在線對弈流程中看出其弱點:針對當前局面,其策略網(wǎng)絡(luò)處理黑白對弈下一步的多種可能的時候存在一定困難。由于自我對弈至局部終結(jié)的步數(shù)多,搜索下去獲得的可能數(shù)目就非常大。搜索空間急劇加大,得到的解的精度就會降低。而人腦的思考則通過選擇舍棄絕大部分可能的著法而縮小搜索空間,可以集中思考價值最高、基于全局意識關(guān)聯(lián)多個局部棋局的著法。人腦具有獨特的選擇、關(guān)聯(lián)和全局意識能力,在無窮無盡變化多端的中盤戰(zhàn)斗中發(fā)揮了巨大作用。人腦的這個機制機器沒有完全模擬到。
AlphaGo的弱點導致:面臨多個棋局的交叉關(guān)聯(lián)時,容易出錯(這需要全局意識的關(guān)聯(lián)思維);面對復雜的打劫局面也感到困惑(棋局的關(guān)聯(lián)難度進一步加大)。一些人工智能的專家斷言,AlphaGo沒有完全攻克圍棋這個難題,并沒有具備真正的思維能力。
回到正題,計算機人工智能時代還有另一個重要的任務(wù)就是自然語言的計算機信息處理,這個任務(wù)也應(yīng)該受到關(guān)注。自然語言的計算機信息處理的情況是類似的,機器需要模擬人腦構(gòu)造和理解語言的機制。
人工智能提出60年來,計算機對人腦構(gòu)造語言機制的模擬取得很大進展,但這種模擬也存在弱點。如2015年北京大學某篇博士論文認為*秦一男:《一種英文句法結(jié)構(gòu)解析的新方法》,北京:北京大學,2015年。,對下述英文復雜句:
(1)That men who were appointed didn’t bother the liberals wasn’t remarked upon by the press.
(2)That everything you learned about America’s history is wrong is known to the public.
當今計算機界公認的兩種世界上非常先進的自然語言句法結(jié)構(gòu)的解析裝置,即伯克利解析器(Berkeley Parser)和斯坦福解析器(Stanford Parser),直到2015年1月25日18時36分,給出的仍然是錯誤的分析。就例句(1)而言,其錯誤分析是:
①That men didn’t bother
②who were appointed
③the liberals wasn’t remarked upon by the press
①是全句的核心,核心的主謂搭配。③是①的賓語從句。②是定語從句,修飾“men”?!癟hat”是限定詞,修飾“men”。而例句(1)的正確分析是:把握住“That”導引的主語從句, “That men who were appointed didn’t bother the liberals”是全句的主語從句,“wasn’t remarked upon by the press”才是全句的中心謂語。
機器對人腦關(guān)于這種語言現(xiàn)象的構(gòu)造機制的模擬不能令人滿意。這類語句的構(gòu)造生成規(guī)則似乎應(yīng)從主語從句的循環(huán)鑲嵌機制去考慮:
NP VP
That NP VP VP
That that NP VP VP VP
上述主語子句的循環(huán)鑲嵌現(xiàn)象是人腦構(gòu)造語言機制的體現(xiàn)。自然語言中還有多重賓語從句的鑲嵌和多重定語從句的疊置也體現(xiàn)了這樣的機制,如:
(3)張三知道李四知道張三考上大學。
(4)The man such that he loves a woman such that she hates a boy chants.
(5)Mary likes a man such that he has a son such that he admires a girl such that she hates a boss.
說到自然語言的循環(huán)鑲嵌機制,就使人聯(lián)想到上世紀發(fā)起語言學界“哥白尼式革命”的美國語言學大師喬姆斯基(N. Chomsky)的著名思想:人腦先天具有構(gòu)造生成語言的創(chuàng)造能力。德國學者洪堡特(W. Humboldt)早就認為語言絕不是產(chǎn)品,而是一種創(chuàng)造性活動。語言實際上是心智不斷重復的活動,人類語言知識的本質(zhì)就是語言知識如何構(gòu)成的問題,其核心是有限手段的無限使用。
人腦構(gòu)造(表述)和理解語言的機制可以概括成兩個特征:
1.有窮多的詞條作為出發(fā)點;
2.依據(jù)有窮多規(guī)則去構(gòu)造和理解無窮多的語句。
人腦具有構(gòu)造和理解自然語言的機制,人就能夠構(gòu)造表述從來沒有見過的句子,也可以理解從來沒有聽過的句子,人腦能夠構(gòu)造或理解的句子是無窮多的。要想機器模擬人腦構(gòu)造理解自然語言的機制,首先需要理論上的先期研究。這就是理論語言學(包括計算語言學)和邏輯語義學的任務(wù)。
邏輯語義學探索人腦構(gòu)造語言機制的特征,其價值作用在于幫助機器更好地模擬人腦的語言機制,使其能夠正確識別理解自然語言中諸如(1)—(5)那樣的復雜句子。簡言之,針對語言構(gòu)造機制的兩個特征,邏輯語義學從20世紀70年代開始,進行了持久深入的研究。我們在最早的蒙太格語法的PTQ語句系統(tǒng)、Barwise和Cooper確立的廣義量詞理論的語句系統(tǒng)、Kamp等構(gòu)建的DRT語句系統(tǒng)以及范疇語法的Lambek演算那里,都可以看到對語言構(gòu)造機制兩個特征的刻畫,語句系統(tǒng)中的詞庫表現(xiàn)特征1,而語句系統(tǒng)中的規(guī)則揭示特征2??偫ㄈ缦拢?/p>
表1 邏輯語義學對語言構(gòu)造機制兩個特征的刻畫
①MG的語句系統(tǒng)限于處理自然語言量化式、命題態(tài)度句和內(nèi)涵動詞句, 參見R. Montague, The Proper Treatment of Quantification in Ordinary English, ed. by R. Thomason,FormalPhilosophy, New Haven: Yale University Press, 1974, pp. 247-270。
②GQT的語句系統(tǒng)僅限于描述自然語言的量化表達式,參見J. Barwise, R. Cooper, Generalized Quantifiers and Natural Language,LinguisticsandPhilosophy, vol. 4, no. 2(1981), pp. 159-219。
③DRT的語句系統(tǒng)僅關(guān)注照應(yīng)回指現(xiàn)象,涉及名詞的單數(shù)復數(shù)、代詞的性和數(shù),參見H. Kamp, U. Reyle,FromDiscoursetoLogic, Dordrecht: Kluwer, 1993, pp. 53-56。
④蘭貝克演算最初的論文列出9類詞條作為指派范疇的詞庫示例,參見J. Lambek, The Mathematics of Sentence Structure,AmericanMathematicalMonthly, vol. 65, no. 3(1958), pp. 154-170。
⑤類型邏輯語義學作為范疇語法的延伸,從蘭貝克演算的定理選出4條作為推演規(guī)則,參見B. Carpenter,Type-LogicalSemantics, Cambridge/London: MIT Press, 1997, pp. 138-139。
我們以邏輯語義學的奠基理論蒙太格語法MG為例,按照MG為刻畫語言機制特征2而設(shè)立的規(guī)則,循環(huán)鑲嵌句(5)的句法構(gòu)造和邏輯語義分別為:
[Mary [likes [a [man such that [he [has [a [son such that [he[admires[a [girl such that [she [hates [a [boss]]]]]]]]]]]]]]]].
應(yīng)該指出,范疇語法CG與前面幾種語句系統(tǒng)最大的不同是:用邏輯系統(tǒng)提供的定理替代揭示語言構(gòu)造機制特征2所需要的自然語言句法規(guī)則,僅僅4條定理對應(yīng)的規(guī)則,就可以據(jù)此構(gòu)造生成無窮多句子,范疇語法“極為深刻”地揭示了自然語言所謂“有限手段的無限使用”這個機制。范疇語法CG還最早開啟了邏輯語義學面向自然語言計算機處理的研究思路。20世紀30—40年代,波蘭邏輯學家Ajduciewicz提出了CG,50年代計算語言學之父Bar-Hillel 和數(shù)學家Lambek使CG同機器翻譯領(lǐng)域關(guān)聯(lián)起來,80年代至今,CG的新版本范疇類型邏輯CTL持續(xù)發(fā)展。
CTL不僅是分析自然語言的句法語義的生成過程的工具,更重要的是,CTL作為傳承延伸邏輯理性主義精神的產(chǎn)物,從理論角度深入討論邏輯工具本身的性質(zhì)。如CTL的公理表述解決系統(tǒng)的可靠性和完全性,CTL的Gentzen表述解決系統(tǒng)的可判定性,CTL的ND表述使得CTL的推演和證明網(wǎng)技術(shù)關(guān)聯(lián)起來而獲得計算機的實現(xiàn),等等。
人腦關(guān)于語言構(gòu)造機制的兩個特征是密不可分的,但科學研究卻可以對此抽象取舍。從某種角度看,通常語言學和基于統(tǒng)計的計算語言學大都擅長并偏重語言構(gòu)造機制特征1的研究。人類要使用語言,必須掌握構(gòu)造語言的原子材料——單詞或詞條,這是我們學習一門語言首先要懂得的知識。一門語言單詞常用的有幾千條,總數(shù)是幾萬乃至幾十萬條,語言學在浩如煙海的文獻中搜集這些詞條,統(tǒng)計它們出現(xiàn)的頻率,歸納它們的各種用法含義,編撰各種各樣的詞典。而基于統(tǒng)計的自然語言計算機處理系統(tǒng)則建立了海量的大型語料數(shù)據(jù)庫。
通常語言學的研究對掌握語言機制來說是必要且重要的工作,但是其對語言構(gòu)造機制特征2的研究顯示出一定程度的缺失。由于句子的數(shù)量是無窮多的,句子的意義是開放的,所以無法編撰囊括所有句子意義的“句典”。句子甚至短語的意義都不是給定的,而是通過組合推演獲得的。怎樣組合推演?這方面恰構(gòu)成通常的語言學研究的軟肋。
盡管如此,比較語言學視角研究取得的成果,我們看出邏輯語義學研究語言機制的短板,即對特征1的研究很不充分。自然語言中詞條的具體使用豐富多彩,多義詞歧義詞比比皆是。邏輯語義學構(gòu)建的語句系統(tǒng)中的小小詞庫僅僅是“實驗田”性質(zhì)的樣本,無法滿足語言學和計算機自然語言系統(tǒng)大規(guī)模處理真實文本的需求。
如PTQ語句系統(tǒng)的微型詞庫:
BIV= {run, walk, talk, rise, change}
BT= {John, Mary, Bill, ninety, he0, he1,...}
BTV= {find, lose, eat, love, date, be, seek, conceive}
BIV/IV= {rapidly, slowly, voluntarily, allegedly}
BCN= {man, woman, park, fish, pen, unicorn, price, temperature}
Bt/ t= {necessarily}
B(IV/IV)/T= {in, about}
BIV/T= {believe that, assert that}
BIV//IV= {try to, wish to}
Be= Bt= ?
該詞庫僅僅包含為數(shù)很少的9類語詞,且一詞條只能歸入一類,這遠遠不能覆蓋自然語言豐富多樣的詞條用法。
針對上述不足,邏輯語義學需要彌補調(diào)整。擅長描述語言構(gòu)造機制特征1的語言學研究與善于揭示語言構(gòu)造機制特征2的邏輯語義學研究是可以互補的?!盎パa”催生了邏輯語義學的新模式組合范疇語法CCG(Combinatory Categorial Grammar)。
CCG是作為邏輯語義學重要理論CG的另一新版本。為彌補以往邏輯語義學研究的不足,CCG在探索語言機制特征1上下了不少的工夫。不僅如此,CCG還延續(xù)邏輯語義學的演繹精神,較成功地揭示了語言機制的特征2。CCG目前在自然語言的計算機信息處理領(lǐng)域,尤其在國外的這一領(lǐng)域備受關(guān)注。如國外的賓州CCG庫*參見M. Steedman, CCGbank: User’s Manual, Department of Computer & Information Science Technical Reports (CIS), 2005。和國內(nèi)的清華CCG庫*參見宋彥、黃昌寧等《中文CCG樹庫的構(gòu)建》,《中文信息學報》2012年第3期。以及筆者主持的國家重大課題的成果社科CCG庫*參見2016年國家社科基金重大課題“自然語言信息處理的邏輯語義學研究”結(jié)項報告附錄。的情況分別是:
賓州英文CCG庫清華中文CCG庫社科中文CCG庫特征175669詞條(929552詞例)23641詞條(約35萬詞例)46085詞條(722790詞例)特征248934個語句32737個句子25694個句子
賓州英文CCG庫提取有75,669個詞條和48,934個語句,涉及929,552個詞例。清華中文CCG庫詞條和句子的提取來源于包含文學、學術(shù)、新聞、應(yīng)用四大體裁的平衡語料,盡可
能多地覆蓋了漢語的各種語言現(xiàn)象*賓州英語CCG庫和清華漢語CCG庫分別生成的3萬~4萬語句是轉(zhuǎn)換在先的形式語言學分析樹庫獲得的語句“格式”,這種格式可以用于語料庫外的句例分析,其句例的數(shù)量是開放的。。一方面,CCG的詞匯主義思路強調(diào)語言構(gòu)造機制特征1的描述,彌補了大多數(shù)邏輯語義學分支如范疇類型邏輯CTL在這方面的短板。在掌握
大規(guī)模真實文本的基礎(chǔ)上提取了作為語言構(gòu)造出發(fā)點的有窮多詞條,確定這些詞條在各種語境下的多種多樣的范疇指派。
賓州英語CCG詞庫 :
清華漢語CCG詞庫:
社科CCG漢語詞庫:
CCG的詞庫要描述自然語言詞條的多種用法,挑戰(zhàn)邏輯語義學的“一詞對應(yīng)一范疇”的傳統(tǒng)做法,采用從詞條到詞例的多范疇指派方法。社科CCG詞庫的工作表明,對應(yīng)范疇數(shù)量最多的前10名詞條(包括輔助符號)是:
表2 社科CCG詞庫對應(yīng)范疇數(shù)量前10名的詞條
在社科漢語CCG詞庫中,有些詞條對應(yīng)的可能范疇多達上百個以上,如“的”詞條。對應(yīng)數(shù)十個范疇的詞也非常普遍,如“在”“是”和“有”等詞條。
清華CCG詞庫采用從詞條到詞例的多范疇指派方法,對漢語詞條“學”就有7種不同的范疇指派:
表3 清華CCG詞庫詞條“學”的7種范疇指派
按照邏輯語義學的傳統(tǒng)做法,“學”實際上被分別歸入7個以范疇標記的基本語詞類:
BNP= {..., 學, ...}
BSNP= {..., 學, ...}
B(SNP)/NP= {..., 學, ...}
B(SNP)/(SNP)= {..., 學, ...}
B(S(SNP))/NP= {..., 學, ...}
B((SNP)/NP)/(SNP)= {..., 學, ...}
B((SNP)PP)/NP= {..., 學, ...}
宋彥和黃昌寧等學者認為:在清華中文CCG詞庫中, 一共有10個原子范疇, 包括M (量詞)、MP (數(shù)量短語)、NP(名詞及名詞短語)、SP (方位詞及方位短語)、TP (時間短語)、PP (介詞短語)、S (句子)等等,在此基礎(chǔ)上,一共可獲得763個不同的范疇類型。這樣,清華中文CCG詞庫中就有763個以范疇標記的基本語詞類:B1, B2, …… B762, B763。比較蒙太格語法的PTQ語句系統(tǒng)的9個基本語詞類構(gòu)成的小詞庫,CCG的詞庫非常大,可以覆蓋自然語言詞條豐富多樣的用法。
另一方面,CCG基于規(guī)則的思路關(guān)注自然語言構(gòu)造機制的特征2的描述。CCG的核心是一系列的函子范疇的復合規(guī)則,這些規(guī)則對應(yīng)范疇邏輯CTL的結(jié)構(gòu)公設(shè),是CTL倡導的函項運算思想的延續(xù),是CTL邏輯定理的延伸。以下是CCG的部分規(guī)則:
(1)組合規(guī)則
(2)類型提升規(guī)則
(3) 置換規(guī)則
除了規(guī)則的一般模式外,清華中文CCG庫還有近1600規(guī)則例,遠比PTQ系統(tǒng)的17條句法規(guī)則多出許多,足以覆蓋漢語千姿百態(tài)的句法構(gòu)造現(xiàn)象。以下是清華中文樹庫的一個語句推演樹:
圖1清華中文CCG庫的語句推演樹
就上述語句分析樹而言,使用了8個規(guī)則例。
多模態(tài) CCG 的函子范疇的組合規(guī)則對應(yīng)混合CTL 的結(jié)構(gòu)公設(shè),即由混合CTL的左右結(jié)合公設(shè)可推出多模態(tài)CCG的前向組合規(guī)則>B和后向組合規(guī)則
以下是推出過程:
從CTL那里汲取了邏輯的精神,CCG也就能夠處理涉及語言構(gòu)造機制特征2的循環(huán)鑲嵌句。如可以生成循環(huán)鑲嵌例句(3),其推演為:
更重要的是,CCG的規(guī)則還對自然語言形式理論的“硬核”問題,如語義的形式化進行探索。在CCG看來,所有的句法規(guī)則都是一定范圍內(nèi)語義運算的透明版本。這一原則來自于范疇語法所具備的句法與語義并行推演這一特點。在MG時期范疇與類型之間的對應(yīng)關(guān)系已經(jīng)提及,此后van Benthem基于范疇與類型之間的對應(yīng),為范疇語法增添了配有語義表達的版本,由于λ-演算的引入,vB-演算就給范疇語法的句法和語義的并行推演提供了理論基礎(chǔ)。匹配了語義表達的CCG規(guī)則就是:
表4 CCG規(guī)則匹配語義的形式化描述
據(jù)此英文語句“John met and might married Mary”的句法語義并行推演就是:
從配備語義的函項應(yīng)用規(guī)則可以看出,句法和語義方面同時進行了組合性的運算。CCG 繼承了范疇語法中句法與語義之間的透明接口,句法范疇的運算同時匹配λ-演算,每一個范疇都對應(yīng)一個λ-詞項,范疇表示的是句法,λ-詞項表示的是語義。
由于CCG對語言構(gòu)造機制兩個特征的刻畫比較充分,所以基于CCG設(shè)計的計算機分析器在諸多形式語言學理論自動分析中是速度最快的。“在2009年約翰霍普金斯大學舉行的夏季研討班上,研究人員通過采用優(yōu)化的句法分析算法,使CCG句法分析在維基百科語料上達到每秒超過100句的分析速度”*參見宋彥、黃昌寧等《中文CCG樹庫的構(gòu)建》,《中文信息學報》2012年第3期。,而基于中心語驅(qū)動語法的計算機處理軟件幾秒鐘才能完成一個語句的分析。CCG延續(xù)了語言學基于真實文本構(gòu)造大規(guī)模詞條語料庫的風格,解決詞條多種用法的問題,又延伸了邏輯語義學的遞歸組合精神,吸取了邏輯的演繹推導力量,解決自然語言中復雜長句子的構(gòu)造問題。CCG = 語言學視角的詞庫 + 邏輯學視角的規(guī)則,CCG是語言學實踐基礎(chǔ)上建立的邏輯語義學的新模式,是對語言構(gòu)造機制特征1和特征2進行兼顧研究的產(chǎn)物。
綜上,自然語言的計算機信息處理要求電腦對人腦構(gòu)造或理解語言的機制進行模擬。邏輯語義學各分支不同程度地描述了語言構(gòu)造機制的兩個特征。從語言學視角看,邏輯語義學對語言構(gòu)造機制特征1的刻畫不夠充分,而從邏輯角度看,語言學關(guān)于語言構(gòu)造機制特征2的研究顯得薄弱。于是邏輯語義學和語言學形成互補局面,“互補”的結(jié)果導致組合范疇語法CCG的產(chǎn)生。我們從語言構(gòu)造機制的兩個特征來審視CCG的兼容并舉,同時看到CCG對計算機模擬人腦構(gòu)造語言機制的貢獻。
責任編校:余沉
10.13796/j.cnki.1001-5019.2016.05.006
B81
A
1001-5019(2016)05-0041-07
國家社科基金重大課題(10&ZD073)
鄒崇理,四川師范大學特聘教授(四川 成都610101),中國社會科學院研究員,博士生導師(北京100732)。