楊 泉馮志偉
1北京師范大學(xué)漢語(yǔ)文化學(xué)院 北京 100875
2杭州師范大學(xué)外國(guó)語(yǔ)學(xué)院 浙江 杭州 311121
“n+n”歧義消解的博弈論模型研究*
楊 泉1馮志偉2
1北京師范大學(xué)漢語(yǔ)文化學(xué)院 北京 100875
2杭州師范大學(xué)外國(guó)語(yǔ)學(xué)院 浙江 杭州 311121
文章在對(duì)比典型博弈過(guò)程和歧義結(jié)構(gòu)產(chǎn)生與消解過(guò)程的基礎(chǔ)上,提出了一個(gè)結(jié)構(gòu)歧義的博弈論模型。這個(gè)模型運(yùn)用博弈論的思想和方法描述結(jié)構(gòu)歧義產(chǎn)生及其消除過(guò)程,為歧義消解提供一種新的思路和方法。歧義消解的實(shí)例表明這種觀點(diǎn)對(duì)我們理解和分析歧義的消解過(guò)程,提供了有益的幫助。
結(jié)構(gòu)歧義 消歧 博弈論 策略
歧義問(wèn)題是語(yǔ)言學(xué)中的一個(gè)難點(diǎn),是人與人打交道時(shí)產(chǎn)生誤解的原因之一,更是機(jī)器翻譯中的瓶頸問(wèn)題,國(guó)內(nèi)學(xué)者在幾個(gè)不同的學(xué)術(shù)領(lǐng)域都對(duì)結(jié)構(gòu)歧義進(jìn)行過(guò)研究。
語(yǔ)言學(xué)界對(duì)歧義結(jié)構(gòu)的研究有以下幾個(gè)方面:1)研究個(gè)別歧義結(jié)構(gòu)或歧義例句的語(yǔ)法、語(yǔ)義現(xiàn)象, 2)研究歧義結(jié)構(gòu)與其它語(yǔ)言理論的關(guān)系,3)研究歧義結(jié)構(gòu)的歧義指數(shù)與歧義度,4)研究歧義結(jié)構(gòu)的產(chǎn)生與消除,5)對(duì)一種或幾種歧義結(jié)構(gòu)進(jìn)行研究。
計(jì)算語(yǔ)言學(xué)界對(duì)歧義結(jié)構(gòu)的研究主要有以下兩個(gè)方面:
1 )歧義結(jié)構(gòu)研究。馮志偉(1995)把他在研究科技術(shù)語(yǔ)結(jié)構(gòu)中提出的“潛在歧義論”(PA論)進(jìn)一步推廣,說(shuō)明在漢語(yǔ)日常語(yǔ)言中也廣泛地存在著潛在歧義結(jié)構(gòu)。詹衛(wèi)東(1997)從計(jì)算機(jī)處理自然語(yǔ)言的角度著眼,指出了“PP<被>+VP1+VP2”格式對(duì)計(jì)算機(jī)造成的歧義問(wèn)題,并通過(guò)歸納PP+VP組合和VP+VP組合的句法限制條件,找到了正確分析這個(gè)歧義格式的組合層次和內(nèi)部結(jié)構(gòu)關(guān)系的規(guī)則。詹衛(wèi)東(1998)對(duì)“NP+的+VP”偏正結(jié)構(gòu)的使用情況作了一番考察,概括了其句法、語(yǔ)義、語(yǔ)用特點(diǎn)。在此基礎(chǔ)上分析了兩個(gè)跟“NP+的+VP”偏正結(jié)構(gòu)相關(guān)的歧義格式,給出了排歧辦法。專門從同詞性詞構(gòu)成短語(yǔ)的角度進(jìn)行研究的有吳云芳(2003),主要是從句法、語(yǔ)義兩個(gè)層面系統(tǒng)地研究了并列結(jié)構(gòu)形成的語(yǔ)言規(guī)律,并列成分之間的約束關(guān)系,并對(duì)這些約束關(guān)系進(jìn)行了形式化的描寫。楊泉和馮志偉(2005a,2005b,2008a,2008b)在潛在歧義理論的基礎(chǔ)上,對(duì)“v+v”、“n+n”、“v+v+v”、“n+n+n”等幾種結(jié)構(gòu)做了比較全面的研究,重點(diǎn)分析了其中動(dòng)詞或名詞的語(yǔ)法、語(yǔ)義、語(yǔ)用特性,并找到了這幾種結(jié)構(gòu)產(chǎn)生歧義的原因和消解歧義的策略。
2 )歧義結(jié)構(gòu)類型研究。心理學(xué)界近年來(lái)對(duì)歧義結(jié)構(gòu)的研究主要從探討人對(duì)結(jié)構(gòu)歧義進(jìn)行消解的心理過(guò)程入手,通過(guò)一系列實(shí)驗(yàn),從另一個(gè)領(lǐng)域中論證了做句法結(jié)構(gòu)消歧對(duì)人們更好地理解、使用句子,以及探討句子產(chǎn)生的機(jī)制是非常有價(jià)值的。
本文對(duì)歧義結(jié)構(gòu)進(jìn)行的是一種宏觀上的理論探討,不是專門針對(duì)某個(gè)受限領(lǐng)域中的歧義問(wèn)題進(jìn)行研究,因此選取的語(yǔ)料是平衡的,經(jīng)研究發(fā)現(xiàn)越是傳統(tǒng)的,被人們立為典范的著作中,出現(xiàn)的實(shí)例真歧義短語(yǔ)越少。因此,我們的語(yǔ)料庫(kù)是本著口語(yǔ)化色彩較強(qiáng)且可以收集到電子文本的原則建立起來(lái)的。本文收集了約100萬(wàn)字的語(yǔ)料,包括教材類、小說(shuō)類、傳記類、雜志類及電視新聞?lì)悺?/p>
在我們收集到的語(yǔ)料中可能產(chǎn)生歧義的結(jié)構(gòu)有很多,本文僅以“n1+n2”中[+食物]類短語(yǔ)為例說(shuō)明如何運(yùn)用博弈論來(lái)消解結(jié)構(gòu)歧義。從語(yǔ)料中提取出來(lái)的“n1+n2”結(jié)構(gòu)可能產(chǎn)生的歧義為“定中|并列”型。例如:
兩種食物一般都可以表示并列關(guān)系,這時(shí)“n1+n2”表示“n1”和“n2”是兩種食物,如例(2)b中的“雞蛋火腿”。但是“n1+n2”有時(shí)也可以表示定中關(guān)系,這時(shí)“n2”中含有“n1”,是一種食物,如例(2)a中的“雞蛋火腿”.
上述語(yǔ)料中的句子都可以表示兩種意思,如果在理解或者翻譯的時(shí)候還原了句子的真實(shí)意思,則歧義消除,否則就會(huì)產(chǎn)生歧義。因此歧義消除的過(guò)程就是在遇到句子的意思有兩個(gè)或兩個(gè)以上的時(shí)候,如何選擇其中之一以符合說(shuō)話人真實(shí)意思的過(guò)程。這與經(jīng)典博弈論求解最優(yōu)方案在理論上是相通的。
博弈論(Game Theory)是關(guān)于包含相互依存情況中理性行為的研究。博弈論的思想及對(duì)具有博弈性質(zhì)問(wèn)題的研究可以追溯到19世紀(jì)初甚至更早。例如,中國(guó)著名的“田忌賽馬”,三國(guó)中的“華容道”等都屬于博弈論的范疇。但是一般以1944年John Von Neumann和Oskar Morgenstern合著的巨著《博弈論與經(jīng)濟(jì)行為》(Game Theory and Economic Behaviors)作為博弈論誕生的主要標(biāo)志。20世紀(jì)50年代初,博弈論大師John Nash提出了博弈論中最為重要的解的概念——Nash均衡(納什均衡),并證明了納什均衡的合理性。納什均衡適用于所有的博弈模型,為非合作博弈的一般理論奠定了基礎(chǔ),開辟了博弈論研究的新領(lǐng)域。在博弈論理論發(fā)展的同時(shí),博弈論在軍事、經(jīng)濟(jì)、政治等社會(huì)科學(xué)以及信息、控制、生物學(xué)、計(jì)算科學(xué)等自然科學(xué)中都得到了重要的應(yīng)用。目前,博弈論不僅已經(jīng)成為主流經(jīng)濟(jì)學(xué)的重要組成部分,甚至有學(xué)者認(rèn)為它是整個(gè)社會(huì)科學(xué)的基礎(chǔ)。
任何博弈都包括三個(gè)基本要素:1)參與人(或局中人,player),是指參與博弈的行為主體;2)戰(zhàn)略(或策略,Strategies),每個(gè)參與人一般都有若干個(gè)戰(zhàn)略可供選擇,所有可供選擇的戰(zhàn)略構(gòu)成該局中人的戰(zhàn)略空間;3)收益(或支付,Payoff),即局中人在博弈結(jié)束后得到的利益(可能為正也可能為負(fù)),記局中人i的支付為Ui(s),s表示i個(gè)局中人的戰(zhàn)略組合向量。顯然可以看到,一個(gè)局中人的支付將不僅取決于自己所選擇的戰(zhàn)略,同樣取決于其他局中人所采取的戰(zhàn)略。
按照博弈的目的,博弈可以分為合作博弈與非合作博弈。
博弈論在經(jīng)濟(jì)等領(lǐng)域的成功運(yùn)用,已經(jīng)顯示了其強(qiáng)大的作用,博弈論的理論研究也取得了很大的成功,有多位科學(xué)家因?yàn)橛貌┺恼摲椒ㄈ〉玫某煽?jī)而獲得諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)。如果我們能為自然語(yǔ)言處理中的一種歧義結(jié)構(gòu)建立博弈論模型,就可以使用博弈論的理論和方法來(lái)分析和解決語(yǔ)言學(xué)中的歧義問(wèn)題。下面我們以歧義結(jié)構(gòu)“{牛奶咖啡}”為例來(lái)分析歧義的產(chǎn)生及消解過(guò)程,建立它的博弈論模型。設(shè)x={牛奶咖啡},信息發(fā)送者將x發(fā)出,當(dāng)信息接收者收到x后,x有兩個(gè)意思:
x1={牛奶咖啡}(定中結(jié)構(gòu),牛奶口味的咖啡);
x2={牛奶咖啡}(并列結(jié)構(gòu),牛奶和咖啡)。
他要從這兩個(gè)意思中選擇,如果接收者選擇的意思和發(fā)送者的真實(shí)意思不一致,就產(chǎn)生了歧義。要消除歧義,就必須要使接收者所理解的意思與發(fā)送者要表達(dá)的意思取得一致。
從上面的分析可以看出,歧義消解的過(guò)程實(shí)際上就是信息發(fā)送者和接收者在含有多個(gè)意思的結(jié)構(gòu)中相互選擇確定意思的過(guò)程。如果我們把信息的發(fā)送者和接收者看作博弈的參與人,把他們可能選擇的意思看作戰(zhàn)略。顯然他們?cè)诶斫饩湟獾倪^(guò)程中消除了歧義,則收益都為1,否則如果產(chǎn)生了歧義,收益為ˉ1。那么消除歧義的過(guò)程中具有了一個(gè)博弈過(guò)程的基本要素,因此我們可以把歧義消解過(guò)程看作一個(gè)博弈的過(guò)程。
這樣我們?yōu)槠缌x結(jié)構(gòu)“{牛奶咖啡}”建立了一個(gè)博弈論模型。在這個(gè)博弈過(guò)程中,戰(zhàn)略空間為Θ= {x1,x2},建立該博弈的收益矩陣如圖1所示。
這個(gè)博弈過(guò)程實(shí)際上是一個(gè)協(xié)調(diào)博弈問(wèn)題,該問(wèn)題的另一個(gè)典型的例子是左行與右行博弈,在一條路上相向而行的兩個(gè)車,如果都靠左或者都靠右行,那么他們就不會(huì)相碰,假定各獲得1個(gè)單位收益;但如果兩個(gè)中一個(gè)靠左,一個(gè)靠右,那么他們就可能相碰,假定各獲得ˉ1單位的收益,其支付矩陣也是圖1。協(xié)調(diào)博弈是繼囚徒困境博弈之后又一被廣泛研究的博弈類型。為尋找解決協(xié)調(diào)問(wèn)題的方法,學(xué)者們從理論上對(duì)協(xié)調(diào)博弈進(jìn)行了廣泛而深入的探討。這一類型的博弈在經(jīng)濟(jì)和社會(huì)學(xué)中已經(jīng)得到了重要應(yīng)用。
在傳統(tǒng)的博弈論中,一般都將納什均衡作為博弈的解。
事實(shí)上一個(gè)戰(zhàn)略組合如果不是納什均衡,則意味著在這個(gè)組合里一定存在某個(gè)參與人(當(dāng)其他參與人選擇戰(zhàn)略組合給定時(shí)),不能使自己的收益最大化。在這種情況下,理性的參與人會(huì)偏離該戰(zhàn)略,從而使得這個(gè)戰(zhàn)略組合不能成為博弈的結(jié)果。因此,一個(gè)戰(zhàn)略組合如果不是納什均衡,就不能成為博弈的解。協(xié)調(diào)博弈中存在多個(gè)納什均衡點(diǎn),參與人希望在其中任何一個(gè)納什均衡點(diǎn)上實(shí)現(xiàn)各自的最大收益。消歧博弈有兩個(gè)純策略納什均衡{x1,x1},{x2,x2},即雙方都選擇x1或都選擇x2。在這類博弈中,參
顯然,接收者使自己收益最大化的一個(gè)基本選擇是,當(dāng)u1>u2,即p>1/2時(shí),接收者選擇x1,否則選擇x2。
根據(jù)上面的選擇策略,等價(jià)于選擇出現(xiàn)概率大的那個(gè)意思,那么這個(gè)策略和傳統(tǒng)的基于統(tǒng)計(jì)的歧義消除方法相同。博弈論的理論方法表明,在沒(méi)有其他相關(guān)信息的條件下,基于概率的選擇方法不失為一種好方法。我們將這種方法稱為最大概率法,該方法的一個(gè)重要缺陷是在求解過(guò)程中使用頻率較低的意思始終不會(huì)被選擇,因此當(dāng)發(fā)送者發(fā)送頻率低的意思時(shí)總不能得到正確的理解,并且在重復(fù)多次的使用中得到同樣的結(jié)果,錯(cuò)誤永遠(yuǎn)不能得到糾正。當(dāng)選擇者以概率q和1-q選擇x1和x2時(shí),他的期望收益為qu1+(1-q)u2。我們希望選擇一個(gè),在發(fā)送者以不同的概率發(fā)送x1和x2時(shí),接收者的期望收益始終非負(fù)。當(dāng)接收者以與發(fā)送者相同的概率選擇意思時(shí),即令q=p,此時(shí)期望收益變?yōu)閜的函數(shù):
由f′(p)=0得,p=1/2。進(jìn)一步由f″(1/2)=8>0,知p=1/2是極小值點(diǎn),對(duì)應(yīng)的極小值為f(1/2)=4 (1/2)2-4.5+1=0。而f(0)=f(1)=1,說(shuō)明該點(diǎn)為最小值點(diǎn)。函數(shù)的最小值為零,說(shuō)明函數(shù)為非負(fù)函數(shù),因此這個(gè)策略可以滿足在非負(fù)意義下的最優(yōu)。采用這樣的方法,不一定使期望收益最大化,可以理解為是期望損失最小。它以一定的概率在兩種意思間變化,在重復(fù)執(zhí)行時(shí)會(huì)得到不同的結(jié)果,能夠修正錯(cuò)誤。我們將這種方法稱為基本博弈論方法。
在傳統(tǒng)的方法中,上下文信息是進(jìn)行歧義消解的重要根據(jù)。在博弈論模型的求解過(guò)程中同樣也可與人在做選擇時(shí),唯一需要關(guān)心的就是其他人選擇了什么,并據(jù)此做出選擇。Sen(1967)將一個(gè)協(xié)調(diào)博弈稱為“信心博弈”。他指出,協(xié)調(diào)博弈與囚徒困境博弈剛好相反,每個(gè)參與者選擇策略A或B,僅僅需要確信對(duì)方也會(huì)相應(yīng)地選擇A或B。這個(gè)博弈的均衡策略中沒(méi)有明顯的優(yōu)勢(shì)策略,因此在具體的博弈過(guò)程中雙方究竟選擇哪個(gè)均衡還是不確定的。在實(shí)際生活中我們可以通過(guò)法律規(guī)定靠左或靠右行駛,使得交通博弈的某個(gè)均衡得以實(shí)現(xiàn)。在經(jīng)濟(jì)學(xué)領(lǐng)域中可以通過(guò)契約之類的東西,使得均衡得以實(shí)現(xiàn)。
在語(yǔ)言學(xué)當(dāng)中,我們可以通過(guò)語(yǔ)法規(guī)則實(shí)現(xiàn)歧義消除,從而實(shí)現(xiàn)博弈論中的某個(gè)均衡。但是在我們研究的問(wèn)題當(dāng)中,語(yǔ)法規(guī)則已經(jīng)不能進(jìn)行區(qū)分。在這種情況下,兩種策略無(wú)優(yōu)劣之分,參與者將其多個(gè)純策略以一定的選取概率進(jìn)行組合,由此得到的均衡稱為混合策略納什均衡。例如在消歧博弈信息發(fā)送者以概率p選擇x1,以概率1-p選擇x2,信息接收者以概率q選擇x1,以概率1-q選擇x2。則兩人的隨機(jī)行動(dòng)((p,1-p),(q,1-q))就是一個(gè)混合策略,當(dāng)它滿足納什均衡條件時(shí)就是一個(gè)混合策略納什均衡。這乍看起來(lái)似乎不可思議,實(shí)際上馮志偉(1985)已指出在人們用語(yǔ)言進(jìn)行交際活動(dòng)時(shí),語(yǔ)言成分的使用會(huì)出現(xiàn)隨機(jī)性,因此,可以使用統(tǒng)計(jì)的方法對(duì)其進(jìn)行研究;語(yǔ)言統(tǒng)計(jì)、數(shù)理統(tǒng)計(jì)以及信息論等數(shù)學(xué)工具都可以用來(lái)研究語(yǔ)言成分出現(xiàn)的概率和頻率,從而揭示語(yǔ)言的統(tǒng)計(jì)規(guī)律。
下面我們從信息接收者的角度分析“{牛奶咖啡}”這個(gè)歧義問(wèn)題的混合策略納什均衡。假設(shè)發(fā)送者選擇x1的概率為p,則選擇x2的概率為1-p。在實(shí)際應(yīng)用中,接收者如何得到發(fā)送者選擇某一意思的概率,一般可以從語(yǔ)料庫(kù)中統(tǒng)計(jì)出每種意思出現(xiàn)的頻率,用這個(gè)頻率近似概率,作為這里的p。如果x1={牛奶咖啡}(定中結(jié)構(gòu),牛奶口味的咖啡)出現(xiàn)的概率為p,則x2={牛奶咖啡}(并列結(jié)構(gòu),牛奶和咖啡)出現(xiàn)的概率就是1-p。因此,接收者已知發(fā)送者的選擇概率的假設(shè)是合理的,在此情況下接收者采取什么樣的策略才能使自己的收益最大化呢?因?yàn)榘l(fā)送者不會(huì)始終重復(fù)地選擇某個(gè)策略,這種情況下接收者不可能有合適的純策略,他必須在兩個(gè)策略之間隨機(jī)選擇。他以一定的概率來(lái)選擇每個(gè)意思,使得自己的收益達(dá)到某種意義下的最優(yōu)。接收者在該條件下選擇x1和x2的期望收益分別為:以充分利用上下文的信息。博弈論的研究結(jié)果表明,解決這類無(wú)支付占優(yōu)與風(fēng)險(xiǎn)占優(yōu)區(qū)分的協(xié)調(diào)博弈的唯一方法是溝通。在歧義消解的過(guò)程中就是信息的發(fā)送者和接收者之間的溝通。實(shí)際上在任何語(yǔ)境當(dāng)中,信息的發(fā)送者或多或少的給接收者發(fā)出了一定的信息,我們稱為上下文信息,在博弈論中稱為邊信息。如果在上下文的信息中有“一份”存在,它是表示個(gè)體的量詞短語(yǔ),因此可以判斷“牛奶咖啡”表示定中關(guān)系,是一種食物,有牛奶的咖啡;如果在上下文的信息中有“都”存在,它是表示將兩種東西共存的副詞,因此“牛奶咖啡”表示并列關(guān)系,是兩種食物:牛奶和咖啡。如果接收者能夠準(zhǔn)確地捕捉和理解這些信息,則博弈雙方就實(shí)現(xiàn)了溝通和協(xié)調(diào),從而博弈可以穩(wěn)定在某個(gè)均衡點(diǎn)上。
發(fā)送者在每次傳遞信息過(guò)程中對(duì)特定的類型發(fā)送特定的信息,與接收者進(jìn)行溝通,接收者可以通過(guò)對(duì)這些意思的判斷來(lái)選擇自己的策略,達(dá)到消除歧義的目的。例如假定發(fā)送者會(huì)發(fā)送兩種類型的信息x1或x2;兩種類型的伴隨信息m1或m2,那么接收者在收到信息m1時(shí),判斷發(fā)送者發(fā)送的類型為x1的后驗(yàn)概率是:
其中概率ps(m|x)表示類型x的發(fā)送者發(fā)送信息m的概率。例如當(dāng)“m1=一份”時(shí),ps=0.7,那么在這種情況下的后驗(yàn)概率μ(x1|m1)=90.32%,此時(shí)信息接收者選擇x1,達(dá)到均衡的概率就增加到了90. 32%,這比單純通過(guò)統(tǒng)計(jì)的方法要準(zhǔn)確得多。同樣我們可以計(jì)算出μ(x1|m2),μ(x2|m1)和μ(x2| m2)接收者可以根據(jù)不同的接收信息來(lái)計(jì)算后驗(yàn)概率,然后和先驗(yàn)概率進(jìn)行比較,從而得出最優(yōu)的行動(dòng)。利用博弈論的理論和方法,我們?cè)谄缌x消除過(guò)程中,尤其是在機(jī)器翻譯過(guò)程中就有了具體的理論支持和可靠的操作方法,同時(shí)還有了明確度量方法好壞的標(biāo)準(zhǔn)。我們將這種方法稱為包含上下文信息的博弈論方法。上述博弈論模型是根據(jù)圖1所示的收益矩陣建立的,在實(shí)際應(yīng)用過(guò)程中,對(duì)于一個(gè)歧義問(wèn)題,它被成功消除產(chǎn)生的收益和歧義產(chǎn)生的懲罰不一定對(duì)等。它的消解結(jié)果對(duì)發(fā)送者和接收者產(chǎn)生的影響也不一定相等,此時(shí)收益矩陣不再是如圖1所示的對(duì)等的矩陣,而是一個(gè)非對(duì)等博弈矩陣模型。如圖2所示。
圖2 非對(duì)等博弈矩陣
在這個(gè)博弈矩陣下,消歧的結(jié)果對(duì)雙方的收益是不同的,顯然也不存在純納什均衡,該模型僅存在混合策略的納什均衡。接收者再根據(jù)(1)式計(jì)算自己的策略時(shí),則得到的結(jié)果也會(huì)產(chǎn)生變化。顯然當(dāng)歧義的意思有兩種以上的選擇時(shí),博弈的矩陣形式和求解的具體過(guò)程也會(huì)有相應(yīng)的變化。
上面我們給出了三種消解結(jié)構(gòu)歧義方法,第一種方法是根據(jù)每種意思出現(xiàn)的概率的大小,直接選擇出現(xiàn)概率大的意思作為問(wèn)題的解。第二種方法根據(jù)博弈論的混合策略原理進(jìn)行選擇。第三種方法使用上下文信息選擇博弈模型的混合策略。
我們將上節(jié)給出的三種方法編寫程序,對(duì)從實(shí)際語(yǔ)料中選取出的100條包含“n+n”歧義的語(yǔ)料進(jìn)行處理,檢驗(yàn)它們的效果。首先我們對(duì)這些語(yǔ)料進(jìn)行了分詞和詞性標(biāo)注等處理。然后,對(duì)每一個(gè)“n+ n”歧義結(jié)構(gòu),統(tǒng)計(jì)其兩種不同意思的使用頻率p和1-p,根據(jù)圖1的博弈矩陣建立博弈論模型。最后分別使用最大概率法、基本博弈論方法和包含上下文信息的博弈論方法對(duì)這些歧義結(jié)構(gòu)混在句中進(jìn)行分析處理。
我們使用三種方法對(duì)語(yǔ)料進(jìn)行消歧,并統(tǒng)計(jì)每次錯(cuò)誤數(shù)占總數(shù)的百分比。對(duì)于博弈方法由于消歧結(jié)果都是基于概率,在一次具體的使用過(guò)程中,只有對(duì)錯(cuò)兩種具體的結(jié)果。只有對(duì)大量問(wèn)題或者同一問(wèn)題的反復(fù)求解中才能體現(xiàn)出以較大的概率選擇正確結(jié)果的效果。受語(yǔ)料規(guī)模所限,我們用三個(gè)算法分別對(duì)這100條語(yǔ)料消歧,對(duì)每條語(yǔ)料執(zhí)行10次,計(jì)算其錯(cuò)誤百分比來(lái)得到錯(cuò)誤率。這樣也可以模擬算法對(duì)1000條語(yǔ)料消歧的效果。圖3是每種方法的消歧情況。橫坐標(biāo)表示語(yǔ)料,縱坐標(biāo)是錯(cuò)誤百分比。
圖3a 基于概率的消歧方法
圖3b 博弈論消歧方法
圖3c 使用邊信息的博弈論消歧方法
從圖3可以看出,僅使用頻率進(jìn)行消歧,最大錯(cuò)誤率在35%左右(圖3a),因?yàn)?0次的執(zhí)行結(jié)果都相同。采取基本博弈論方法進(jìn)行消歧,10次的結(jié)果各不相同,在重復(fù)的執(zhí)行中有機(jī)會(huì)修正錯(cuò)誤,因此最大錯(cuò)誤率減少了10%左右,均小于25%(圖3b)。當(dāng)使用基于上下文信息的博弈論方法時(shí),由于有了更多的信息,因此最大錯(cuò)誤率進(jìn)一步減少,達(dá)到15%左右(圖3c)。
要對(duì)更加精確的模型和相應(yīng)算法展開大規(guī)模和深入的實(shí)驗(yàn)驗(yàn)證,首先要有大規(guī)模的語(yǔ)料進(jìn)行支撐。其次要對(duì)這些語(yǔ)料進(jìn)行必要的前期處理,對(duì)不同的歧義結(jié)構(gòu)出現(xiàn)的頻率、伴隨信息的數(shù)量、特征及權(quán)重等都需要進(jìn)行標(biāo)注。受到現(xiàn)實(shí)條件的限制,本文僅對(duì)語(yǔ)料庫(kù)中出現(xiàn)的100條“n+n”結(jié)構(gòu)的歧義現(xiàn)象建立博弈論模型,采取三種方法進(jìn)行了消歧實(shí)驗(yàn),結(jié)果證明使用博弈論的思想和方法處理結(jié)構(gòu)歧義問(wèn)題是行之有效的。
信息技術(shù)的發(fā)展和大數(shù)據(jù)時(shí)代的到來(lái)要求語(yǔ)言處理技術(shù)不但要具有完整的理論基礎(chǔ),更需要能夠方便在計(jì)算機(jī)上實(shí)現(xiàn)來(lái)處理語(yǔ)料數(shù)據(jù)。博弈論的迅速發(fā)展,不但具有了完備的理論分析,同時(shí)也有許多能夠在計(jì)算機(jī)上方便實(shí)現(xiàn)的算法,在許多領(lǐng)域都顯示了其重要的價(jià)值。本文在初步分析結(jié)構(gòu)歧義產(chǎn)生的原因及消除歧義方法的基礎(chǔ)上,結(jié)合博弈論的經(jīng)典結(jié)果,給出了一個(gè)結(jié)構(gòu)歧義的博弈論模型。理論分析和計(jì)算結(jié)論表明,該模型可以很好地描述“n+n”歧義的問(wèn)題,并可以達(dá)到很好的消歧效果。使用博弈論的理論和方法不但能在歧義消除問(wèn)題中應(yīng)用,也為語(yǔ)言學(xué)的研究提供了一種新的思路和方法。
Feng,Zhiwei(馮志偉).1985.Shuli Yuyanxue數(shù)理語(yǔ)言學(xué)[Mathematical Linguistics].Shanghai:Shanghai Zhishi Chubanshe上海:上海知識(shí)出版社[Shanghai:Shanghai Knowledge Press].
Feng,Zhiwei(馮志偉).1995.Lun qiyi jiegou de qianzaixing論歧義結(jié)構(gòu)的潛在性[On potential nature of ambiguous construction].Zhongwen Xinxi Xuebao中文信息學(xué)報(bào)[Journal of Chinese Information Processing]1995.4:14-24.
Rasmusen,Eric.2003.Games and Information(2ndedition).Oxford:Blackwell Publishers.
Sen,Amartya K.1967.Isolation assurance and the social rate of discount.Quarterly Journal of Economics 81:112-124.
Wu,Yunfang(吳云芳).2003.Mianxiang Zhongwen Xinxi Chuli de Xiandai Hanyu Binglie Jiegou Yanjiu面向中文信息處理的現(xiàn)代漢語(yǔ)并列結(jié)構(gòu)研究[Study on Chinese Coordination for Chinese Information Processing].Beijing daxue boshi xuewei lunwen北京大學(xué)博士學(xué)位論文[Ph.D.dissertation,Peking University].
Xiao,Tiaojun(肖條軍).2004.Boyilun jiqi Yingyong博弈論及其應(yīng)用[Game Theory and its Application].Shanghai:Shanghai Sanlian Shudian上海:上海三聯(lián)書店[Shanghai:Shanghai Sanlian Bookstore].
Yang,Quan(楊泉),&Zhiwei Feng(馮志偉).2005a.Mianxiang zhongwen xinxi chuli de xiandai hanyu“v+v”jiegou qiyi wenti yanjiu面向中文信息處理的現(xiàn)代漢語(yǔ)“v+v”結(jié)構(gòu)歧義問(wèn)題研究[“v+v”structure ambiguity study in contemporary Chinese for Chinese information processing].Yuyan Wenzi Yingyong語(yǔ)言文字應(yīng)用[Applied Linguistics]2005.1:123-130.
Yang,Quan(楊泉),&Zhiwei Feng(馮志偉).2005b.Jiyong xiandai hanyu“n+n”jiegou qiyi yanjiu機(jī)用現(xiàn)代漢語(yǔ)“n +n”結(jié)構(gòu)歧義研究[A study on the ambiguity of the“n+n”structure for computer].Yuyan Yanjiu語(yǔ)言研究[Studiesin Language and Linguistics]2005.4:105-111.
Yang,Quan(楊泉),&Zhiwei Feng(馮志偉).2008a.Jiyong xiandai hanyu“v+v+v”jiegou jufa gongneng qiyi wenti yanjiu機(jī)用現(xiàn)代漢語(yǔ)“v+v+v”結(jié)構(gòu)句法功能歧義問(wèn)題研究[Study on the ambiguity of“v+v+v”structure in con-temporary Chinese information processing].Yuwen Yanjiu語(yǔ)文研究[Linguistic Research]2008.4:14-20.
Yang,Quan(楊泉),&Zhiwei Feng(馮志偉).2008b.Mianxiang zhongwen xinxi chuli de xiandai hanyu“n+n+n”jiegou jufa gongneng qiyi wenti yanjiu面向中文信息處理的現(xiàn)代漢語(yǔ)“n+n+n”結(jié)構(gòu)句法功能歧義問(wèn)題研究[Disambiguity study of structure“n+n+n”for Chinese information processing].Hanyu Xuexi漢語(yǔ)學(xué)習(xí)[Chinese Language Learning]2008.6:37-47.
Zhan,Weidong(詹衛(wèi)東).1997.“PP
Zhan,Weidong(詹衛(wèi)東).1998.“NP+de+VP”geshi zai zuju moupian zhong de tedian“NP+的+VP”格式在組句謀篇中的特點(diǎn)[Characteristics of“NP+de+VP”format in sentence planning].Yuyan Yanjiu語(yǔ)文研究[Linguistic Research]1998.1:16-23.
楊泉,女,1977年5月生,山東平度人。博士,北京師范大學(xué)漢語(yǔ)文化學(xué)院副教授,碩士生導(dǎo)師,主要從事計(jì)算語(yǔ)言學(xué)及對(duì)外漢語(yǔ)教學(xué)研究。在《語(yǔ)言文字應(yīng)用》、《語(yǔ)言研究》、《漢語(yǔ)學(xué)習(xí)》、《語(yǔ)文研究》等刊物發(fā)表論文10余篇。
馮志偉,男,1939年4月生,云南昆明人。杭州師范大學(xué)外國(guó)語(yǔ)學(xué)院教授,博士生導(dǎo)師,主要從事計(jì)算語(yǔ)言學(xué)研究。主要著作有《自然語(yǔ)言的計(jì)算機(jī)處理》、《數(shù)理語(yǔ)言學(xué)》、《自然語(yǔ)言機(jī)器翻譯新論》、《機(jī)器翻譯研究》、《現(xiàn)代語(yǔ)言學(xué)流派》、《現(xiàn)代術(shù)語(yǔ)學(xué)引論》、《計(jì)算語(yǔ)言學(xué)探索》等二十幾部;用中文、英文、德文、法文發(fā)表論文共200余篇。
Study of Game Theory Model of“n+n”Structural Ambiguity and Disambiguation
1Yang Quan2Feng Zhiwei
1College of Chinese Language&Culture,Beijing Normal University,Beijing 100875
2School of Foreign Languages,Hangzhou Normal University,Hangzhou Zhejiang 311121
Based on the comparison of ambiguous structures with the process of classical Game Theory,the paper proposes a Game Theory model for structural ambiguity.This model illustrates the occurrence of ambiguous structures and their disambiguation with the concepts and methods of Game Theory and provides new ways and methods to disambiguation of structural ambiguity.The illustrations of disambiguation greatly benefit our understanding and analysis of the process of disambiguation.
structural ambiguity;disambiguation;Game Theory;strategies
H087
A
1671-9484(2015)03-0250-08
2013年2月1日 [定稿日期]2014年1月17日
10.7509/j.linsci.201401.028987*《語(yǔ)言科學(xué)》編輯部和匿名審稿人提出了寶貴的修改意見,謹(jǐn)致謝忱。