《自然語(yǔ)言交流的計(jì)算機(jī)模型—數(shù)據(jù)庫(kù)語(yǔ)義學(xué)下的語(yǔ)言理解、推理和生成》(簡(jiǎn)稱《自然語(yǔ)言交流的計(jì)算機(jī)模型》)的中譯本于2016年3月在商務(wù)印書館出版了。這是一本有獨(dú)創(chuàng)性的計(jì)算語(yǔ)言學(xué)專著,我作為本書的審校者,希望通過(guò)對(duì)本書的簡(jiǎn)單評(píng)介,有助于國(guó)內(nèi)讀者理解這本專著的內(nèi)容、方法和意義。
本書作者羅蘭德·豪塞爾(Roland Hausser)是德國(guó)愛(ài)爾蘭根——紐倫堡大學(xué)計(jì)算語(yǔ)言學(xué)教授。他先后出版了《表面組成語(yǔ)法》《自然人機(jī)交流》《計(jì)算語(yǔ)言學(xué)基礎(chǔ)——人機(jī)自然語(yǔ)言交流》和《自然語(yǔ)言交流的計(jì)算機(jī)模型》等多部專著,發(fā)表文章近百篇。豪塞爾是“左結(jié)合語(yǔ)法”(Left-Associative grammar,簡(jiǎn)稱LA)的創(chuàng)始人,后來(lái)他又進(jìn)一步提出了“數(shù)據(jù)庫(kù)語(yǔ)義學(xué)”(Database Semantics,簡(jiǎn)稱DBS)和完整的“語(yǔ)表組合線性內(nèi)部匹配”理論(Surface compositional Linear Internal Matching,簡(jiǎn)稱SLIM),在計(jì)算語(yǔ)言學(xué)界形成了自己獨(dú)特的風(fēng)格。
我與豪塞爾教授曾有一面之交。2002年聯(lián)合國(guó)教科文組織(UNESCO)韓國(guó)委員會(huì)在韓國(guó)首爾(Seoul)舉行了一次關(guān)于“信息時(shí)代的語(yǔ)言問(wèn)題”的學(xué)術(shù)研討會(huì),我和豪塞爾都被邀請(qǐng)參加了這次會(huì)議。在會(huì)議期間的交談中,我對(duì)于豪塞爾的理論有了初步的了解,回國(guó)之后,我又細(xì)讀了他的《計(jì)算語(yǔ)言學(xué)基礎(chǔ)——人機(jī)自然語(yǔ)言交流》(英文版)一書,對(duì)于他的理論有了進(jìn)一步的認(rèn)識(shí)。我認(rèn)為豪塞爾教授是一位具有獨(dú)創(chuàng)精神的計(jì)算語(yǔ)言學(xué)家。
豪塞爾認(rèn)為,面向未來(lái)的計(jì)算語(yǔ)言學(xué)的中心任務(wù)就是研究一種人類可以用自己的語(yǔ)言與計(jì)算機(jī)進(jìn)行自由交流的認(rèn)知機(jī)器。因此,自然語(yǔ)言的人機(jī)交流應(yīng)當(dāng)是計(jì)算語(yǔ)言學(xué)的中心任務(wù)。計(jì)算語(yǔ)言學(xué)研究應(yīng)當(dāng)通過(guò)對(duì)說(shuō)話人的語(yǔ)言生成過(guò)程與聽(tīng)話人解釋語(yǔ)言的過(guò)程進(jìn)行建模,在適宜的計(jì)算機(jī)上復(fù)制信息的自然傳遞過(guò)程,從而構(gòu)建一種可與人用自然語(yǔ)言自由交流的、自治的認(rèn)知機(jī)器,這樣的認(rèn)知機(jī)器也就是機(jī)器人(robot)。為了實(shí)現(xiàn)這一目標(biāo),必須對(duì)自然語(yǔ)言交流機(jī)制的功能模型有深刻的理解。
豪塞爾提出的“語(yǔ)表組合線性內(nèi)部匹配”(SLIM)理論以人作為人機(jī)交流的主體,而不是以語(yǔ)言符號(hào)為主體,突出了人在人機(jī)交流中的主導(dǎo)作用。SLIM理論要求通過(guò)完全顯化的機(jī)械步驟,使用邏輯和電子的方式來(lái)解釋自然語(yǔ)言理解和自然語(yǔ)言生成的過(guò)程。因此,SLIM理論與現(xiàn)代語(yǔ)言學(xué)中的結(jié)構(gòu)主義、行為主義、言語(yǔ)行為等理論是不同的,具有明顯的創(chuàng)新特色。
SLIM理論強(qiáng)調(diào)“表層成分”(Surface),以語(yǔ)表組合性作為它的方法論原則;SLIM理論強(qiáng)調(diào)“線性”(Linear),以時(shí)間線性作為它的實(shí)證原則;SLIM理論強(qiáng)調(diào)語(yǔ)言的“內(nèi)部因素”(Internal),以語(yǔ)言的內(nèi)部因素作為它的本體論原則;SLIM理論強(qiáng)調(diào)“匹配”(Matching),以語(yǔ)言和語(yǔ)境信息之間的匹配作為它的功能原則。事實(shí)上,SLIM這個(gè)名字本身就來(lái)自于這四項(xiàng)原則的英文名稱的首字母縮寫。
SLIM理論的技術(shù)實(shí)現(xiàn)手段叫作“數(shù)據(jù)庫(kù)語(yǔ)義學(xué)”(DBS)。DBS是把自然語(yǔ)言的理解和生成重新建構(gòu)為“角色轉(zhuǎn)換”(turn-taking)的規(guī)則體系?!敖巧D(zhuǎn)換”指的是從“說(shuō)話人模式”(speaker mode)向“聽(tīng)話人模式”(hearer mode)的轉(zhuǎn)換,或者從“聽(tīng)話人模式”向“說(shuō)話人模式”的轉(zhuǎn)換。
在自然語(yǔ)言的實(shí)際交流過(guò)程中,第1個(gè)過(guò)程是聽(tīng)話人模式中的自然主體從另一個(gè)主體或者語(yǔ)境那里獲得信息,第2個(gè)過(guò)程是自然主體在自己的認(rèn)知當(dāng)中分析信息,第3個(gè)過(guò)程是自然主體思考如何作出反應(yīng),第4個(gè)過(guò)程是自然主體用語(yǔ)言或者行動(dòng)做出反饋。
DBS的輸入與第1個(gè)過(guò)程相似,要求計(jì)算機(jī)或者機(jī)器人具備外部界面。接下來(lái)匹配語(yǔ)境和認(rèn)知的內(nèi)容,采用左結(jié)合語(yǔ)法(LA)來(lái)模擬第2個(gè)過(guò)程,這個(gè)左結(jié)合語(yǔ)法是處于聽(tīng)話人模式中的,叫作LA-hear。左結(jié)合語(yǔ)法的第二個(gè)變體負(fù)責(zé)在內(nèi)存詞庫(kù)中搜索合適的內(nèi)容,叫作LA-think,這一部分操作對(duì)應(yīng)于第3個(gè)過(guò)程。左結(jié)合語(yǔ)法的第三個(gè)變體的任務(wù)是語(yǔ)言生成,叫作LA-speak,模擬第4個(gè)過(guò)程。如下圖所示:
在這個(gè)圖中,聽(tīng)話人模式的LA-hear模擬第2個(gè)過(guò)程,說(shuō)話人模式的LA-think模擬第3個(gè)過(guò)程,LA-speak模擬第4個(gè)過(guò)程。
DBS的分析結(jié)果用DBS圖(DBS graph)來(lái)表示。DBS圖是一種樹(shù)結(jié)構(gòu),但是,DBS圖的樹(shù)結(jié)構(gòu)與短語(yǔ)結(jié)構(gòu)語(yǔ)法(phrase structure grammar)和依存語(yǔ)法(dependency grammar)的樹(shù)結(jié)構(gòu)有所不同。
數(shù)據(jù)庫(kù)語(yǔ)義學(xué)(DBS)有兩個(gè)基礎(chǔ):一個(gè)是左結(jié)合語(yǔ)法(LA-grammar),一個(gè)是單詞數(shù)據(jù)庫(kù)(word bank)。左結(jié)合語(yǔ)法和單詞數(shù)據(jù)庫(kù)在DBS中緊密結(jié)合在一起。豪塞爾把左結(jié)合語(yǔ)法比作火車頭,把單詞數(shù)據(jù)庫(kù)比作火車運(yùn)行必需的鐵路系統(tǒng)。
單詞數(shù)據(jù)庫(kù)存儲(chǔ)單詞的內(nèi)容,其存儲(chǔ)形式是一種非遞歸的特征結(jié)構(gòu),叫作“命題因子”(proplets)①。英文 “proplet”取自“proposition droplet”,表示命題的構(gòu)成部分。
一個(gè)命題因子是“屬性——值偶對(duì)”的集合。每個(gè)單詞或者句子元素的句法語(yǔ)義信息都體現(xiàn)為相應(yīng)的屬性——值矩陣(attribute-value matrix)。
左結(jié)合語(yǔ)法是按照自然語(yǔ)言的時(shí)間線性順序自左向右結(jié)合進(jìn)行分析與計(jì)算的方法。
具體來(lái)講,每個(gè)句子的第一個(gè)詞為整句分析過(guò)程中的第一個(gè)“句子起始部分”(sentence start),之后輸入“下一個(gè)詞”(next word),二者經(jīng)過(guò)計(jì)算構(gòu)成新的句子起始部分,再繼續(xù)與下一個(gè)輸入的單詞進(jìn)行組合計(jì)算。這樣不斷地進(jìn)行分析,直到句子結(jié)束或者出現(xiàn)語(yǔ)法錯(cuò)誤才終止。當(dāng)出現(xiàn)句法歧義或者詞匯歧義時(shí),左結(jié)合語(yǔ)法允許按照不同的推導(dǎo)路徑并行地繼續(xù)運(yùn)算。
豪塞爾將左結(jié)合語(yǔ)法與短語(yǔ)結(jié)構(gòu)語(yǔ)法進(jìn)行了對(duì)比分析。他指出,左結(jié)合語(yǔ)法與短語(yǔ)結(jié)構(gòu)語(yǔ)法是同質(zhì)的語(yǔ)言分析方法。它們之間的差異在于:短語(yǔ)結(jié)構(gòu)語(yǔ)法依據(jù)的是“替換原則”(the principle of substitution),而左結(jié)合語(yǔ)法依據(jù)的則是“可接續(xù)性原則”(the principle of continuation)。
整個(gè)推導(dǎo)過(guò)程遵循“時(shí)間線性”(time linearity)的原則。所謂“時(shí)間線性”,就是“以時(shí)間為序,與時(shí)間同向”(linear like time and in the direction of time),也就是說(shuō),在推導(dǎo)時(shí),要按照時(shí)間先后的順序進(jìn)行,要沿著時(shí)間的方向推進(jìn)。
上面簡(jiǎn)要地介紹了豪塞爾的主要理論和研究方法,希望這些介紹能夠幫助讀者更好地理解這本《自然語(yǔ)言交流的計(jì)算機(jī)模型》。
本書共分三個(gè)部分。第一部分介紹了SLIM語(yǔ)言理論的基本框架,包括認(rèn)知主體的外部界面、數(shù)據(jù)結(jié)構(gòu)和算法。這一部分涉及很多對(duì)整個(gè)系統(tǒng)至關(guān)重要的問(wèn)題,比如概念的本質(zhì)、概念在識(shí)別和行動(dòng)中的作用、不同符號(hào)的指代機(jī)制、語(yǔ)境層的形式結(jié)構(gòu),等等。
第二部分系統(tǒng)分析了自然語(yǔ)言的主要結(jié)構(gòu),以英語(yǔ)在聽(tīng)話人和說(shuō)話人模式下的示意推導(dǎo)為例。聽(tīng)話人模式下的分析主要介紹如何嚴(yán)格按照時(shí)間線性順序?qū)⒑~——論元結(jié)構(gòu)(hypotaxis)和并列結(jié)構(gòu)(parataxis)編碼為命題因子,并把共指(coreference)作為推理基礎(chǔ)上的二級(jí)關(guān)系來(lái)分析。說(shuō)話者模式下的分析主要介紹如何在詞庫(kù)內(nèi)進(jìn)行以提取內(nèi)容為基礎(chǔ)的自動(dòng)導(dǎo)航,如何按照相應(yīng)語(yǔ)言的語(yǔ)法要求輸出正確的詞形、語(yǔ)序,如何析出適當(dāng)?shù)墓δ茉~,等等。
第三部分介紹英語(yǔ)斷片,作者構(gòu)建了一個(gè)功能完整但覆蓋面有限的英語(yǔ)小樣本的交流體系。這部分詳細(xì)介紹了如何理解和生成小樣本的文本,對(duì)詞匯、LA-hear、LA-think和LA-speak進(jìn)行了明確定義。
本書為計(jì)算語(yǔ)言學(xué)的相關(guān)研究人員、學(xué)生和軟件工程師等提供了一個(gè)對(duì)自然語(yǔ)言交流進(jìn)行理論分析的功能框架,這個(gè)框架適用于任何自然語(yǔ)言的自動(dòng)處理。
本書譯者馮秋香是大連理工大學(xué)外國(guó)語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)碩士,計(jì)算機(jī)科學(xué)與技術(shù)方向在讀博士,具備良好的語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué)的跨學(xué)科背景,又有很扎實(shí)的英語(yǔ)功底。她從2009年10月開(kāi)始,到德國(guó)愛(ài)爾蘭根——紐倫堡大學(xué)學(xué)習(xí),師從豪塞爾教授研究“左結(jié)合語(yǔ)法”,她熟悉豪塞爾教授的計(jì)算語(yǔ)言學(xué)理論,對(duì)“數(shù)據(jù)庫(kù)語(yǔ)義學(xué)”和“語(yǔ)表組合線性內(nèi)部匹配”理論有深入的了解。我覺(jué)得,馮秋香是本書最適合的中文譯者,這個(gè)中文譯本忠實(shí)于原文,譯文準(zhǔn)確精當(dāng),通順流暢,可讀性強(qiáng)。
商務(wù)印書館蔡長(zhǎng)虹是本書的責(zé)任編輯,她請(qǐng)我審校此書。我根據(jù)她的要求,對(duì)照本書的英文原著A Computational Model of Natural Language Communication——Interpretation, Inference and Production in Database Semantics,仔細(xì)地審校了馮秋香的中文譯本,逐字逐句地通讀了全部譯稿,完成了本書的審校工作。在這里我愿參考國(guó)外有關(guān)的材料,進(jìn)一步介紹一些與本書有關(guān)的背景知識(shí),對(duì)這本重要的計(jì)算語(yǔ)言學(xué)著作做簡(jiǎn)要的評(píng)介,希望這個(gè)評(píng)介對(duì)讀者理解本書有所幫助。
我相信,本書中譯本的出版,一定會(huì)增進(jìn)我國(guó)語(yǔ)言學(xué)界對(duì)于當(dāng)前國(guó)外計(jì)算語(yǔ)言學(xué)獨(dú)創(chuàng)性理論的了解,從而推進(jìn)我國(guó)計(jì)算語(yǔ)言學(xué)研究的發(fā)展。
注釋:
①譯者馮秋香把“proplets”翻譯為“命題?!保医ㄗh她改譯為“命題子”或者“命題因子”,她接受了我的建議,改譯為“命題因子”。
參考文獻(xiàn):
[1]羅蘭德·豪塞爾.自然語(yǔ)言交流的計(jì)算機(jī)模型——數(shù)據(jù)庫(kù)語(yǔ)義學(xué)下的語(yǔ)言理解、推理和生成[M].北京:商務(wù)印書館,2016.
[2]馮志偉.R.Hausser的左結(jié)合語(yǔ)法[J].外語(yǔ)學(xué)刊,2014,(2):30-34.
(馮志偉 浙江杭州 杭州師范大學(xué)外國(guó)語(yǔ)學(xué)院 311121)