不完全信息博弈的邏輯分析

2010-09-20 03:40:22賀壽南

周口師范學(xué)院學(xué)報(bào) 2010年4期

關(guān)鍵詞：局中人行動(dòng)者博弈論

賀壽南

(衡陽師范學(xué)院人文社會(huì)科學(xué)系,湖南衡陽421008)

不完全信息博弈的邏輯分析

賀壽南

(衡陽師范學(xué)院人文社會(huì)科學(xué)系,湖南衡陽421008)

在不完全信息靜態(tài)博弈中,參與人選擇的依據(jù)就是在給定自己的類型以及其他參與人的類型與策略選擇之間關(guān)系的條件下,使得自己的期望收益最大化。而在不完全信息動(dòng)態(tài)博弈中,參與人根據(jù)他所觀察到的其他參與人的實(shí)際行動(dòng),來修正自己的初步判斷,并根據(jù)這種不斷變化的判斷,選擇自己的策略。

不完全信息;博弈;歸納推理;邏輯基礎(chǔ)

在當(dāng)今博弈論的研究前沿,邏輯的基礎(chǔ)地位和作用日益突出。20世紀(jì)80年代和90年代,關(guān)于共同知識(shí)、動(dòng)態(tài)博弈的逆向歸納法、邏輯全知悖論、貝葉斯均衡的形式化、概率分配的可加性等問題的討論成為博弈論的熱門話題,相關(guān)的論文不斷出現(xiàn)在博弈論、邏輯學(xué)、經(jīng)濟(jì)學(xué)、人工智能等學(xué)科的刊物上。經(jīng)典的博弈是建立在完全信息基礎(chǔ)之上的,但是在現(xiàn)實(shí)中,決策者往往很難做到對(duì)自己及競爭對(duì)手信息的完全掌握。不完全信息博弈論作為一門發(fā)展中的學(xué)科,其理論體系遠(yuǎn)未成熟,其邏輯基礎(chǔ)更有待于充實(shí)。因此,系統(tǒng)地研究不完全信息博弈的歸納概率邏輯基礎(chǔ),形式化、公理化地刻畫知識(shí)、信念和認(rèn)知推理,用邏輯的有效性、恰當(dāng)性分析“均衡”“解”等概念,是博弈論理論發(fā)展的內(nèi)在要求,也是邏輯學(xué)所應(yīng)當(dāng)應(yīng)對(duì)的一個(gè)課題[1]。

不完全信息博弈指參與者對(duì)策略空間及策略組合下的支付沒有完全的了解,至少有一個(gè)參與者不能確切知道其他參與者的支付函數(shù),也就是說參與者的得益函數(shù)不是公共知識(shí)[2]。不完全信息博弈中的“不完全信息”,指博弈的策略空間及支付函數(shù)不是參與人的公共知識(shí)。作為不完全信息博弈的分析工具,不完全信息博弈論的主要任務(wù)是刻畫博弈主體知識(shí)信念的概然性、推理的不確定性和博弈均衡的隨機(jī)性。由于博弈參與人的得益函數(shù)不是公共知識(shí),參與者不能確切知道其他參與者的支付函數(shù),即使博弈中存在唯一的納什均衡,這個(gè)均衡也不會(huì)是公共知識(shí),而且這樣的均衡不可能在一次博弈中達(dá)到,而必須通過多次博弈才能達(dá)到。在這樣的過程中,博弈參與人是如何確定自己的策略呢?他只能根據(jù)自己的經(jīng)驗(yàn)和歸納學(xué)習(xí)別人以往的策略,從而決定自己的策略,參與人所運(yùn)用的推理方法就是歸納推理。這種不完全信息博弈按照博弈各方是否同時(shí)決策,可分為不完全信息靜態(tài)博弈和不完全信息動(dòng)態(tài)博弈兩種。相應(yīng)地,歸納推理也分為不完全信息靜態(tài)博弈中的歸納推理和不完全信息動(dòng)態(tài)博弈中的歸納推理兩種。下面筆者對(duì)這兩種推理作具體的邏輯分析。

一、不完全信息靜態(tài)博弈中的概率歸納推理

不完全信息博弈論同歸納概率邏輯有著密切的聯(lián)系。不完全信息博弈論的歸納概率邏輯基礎(chǔ)問題是博弈論專家首先提出來的。在不完全信息博弈論發(fā)展初期,就借用了決策論中以概率邏輯為基礎(chǔ)的期望效用論和貝葉斯方法;在其“公理化”刻畫知識(shí)信念的概然性和不確定性的過程中,利用了歸納邏輯語義分析中的狀態(tài)空間和信息結(jié)構(gòu)。如Aumann在對(duì)不完全信息博弈的主體認(rèn)知推理的“公理化”刻畫中構(gòu)造了信息結(jié)構(gòu),提出了共同知識(shí)和信念概念[3]。Halpern提出了知識(shí)和信念邏輯的形式系統(tǒng)和語義模型,并且針對(duì)“共同知識(shí)”“共同信念”進(jìn)行了語形和語義兩方面的刻畫[4-5]。我們通過海薩尼轉(zhuǎn)換①所有參與人的真實(shí)類型是給定的,其他參與人仍然不知道某一參與人的真實(shí)類型,但是知道可能出現(xiàn)的類型的概率分布。只要知道某一參與人的不同類型的概率分布,就可將不確定條件下的選擇轉(zhuǎn)換為風(fēng)險(xiǎn)條件下的選擇。這種轉(zhuǎn)換稱之為“海薩尼轉(zhuǎn)換”。,即通過假定其他參與人知道某一參與人的所屬類型的概率分布,計(jì)算博弈的貝葉斯納什均衡解。下面以企業(yè)市場(chǎng)進(jìn)入為例來說明。

假定某市場(chǎng)原來為完全壟斷市場(chǎng),只有一家企業(yè)A(以下簡稱A)提供產(chǎn)品和服務(wù)?，F(xiàn)在企業(yè)B (以下簡稱B)考慮是否進(jìn)入。當(dāng)然,A不會(huì)坐視B進(jìn)入而無動(dòng)于衷。B也清楚地知道,是否能夠進(jìn)入,完全取決于A為阻止其進(jìn)入所花費(fèi)的成本大小。對(duì)A而言,他所花費(fèi)的成本高低與其收益大小有關(guān)。假定該市場(chǎng)進(jìn)入博弈的收益矩陣如圖1所示。

表1 市場(chǎng)進(jìn)入博弈的收益矩陣

在這個(gè)博弈中,B面臨的是不確定性條件下的選擇問題。B不知道原壟斷者A究竟是屬于阻止成本低還是阻止成本高,但他知道A只能有這兩種成本方式(選擇)以及相應(yīng)選擇的概率分布,所以說這是一個(gè)不完全信息博弈問題。又因?yàn)殡p方的行動(dòng)有先后順序,但是后行動(dòng)者B并不知道先行動(dòng)者A所采取的行動(dòng),只能通過所掌握的有限信息進(jìn)行歸納,從而預(yù)測(cè)出對(duì)方可能會(huì)采取何種策略,因此它也是一個(gè)靜態(tài)博弈。對(duì)于這類博弈的均衡,海薩尼(J. C.Harsany)作了系統(tǒng)的分析,提出一種研究不完全信息博弈均衡的方法。若A屬于高阻止成本的概率為p,則A屬于低阻止成本的概率就為(1-p)。如果A的阻止成本高,A將默許B進(jìn)入市場(chǎng);如果A的阻止成本低,A將阻止B進(jìn)入。在以上兩種情況下,B的收益分別為30、-10。所以,B選擇進(jìn)入的期望收益為30 p+(-10)×(1-p);選擇不進(jìn)入的期望收益為0。顯然,只要B選擇進(jìn)入的期望收益大于不進(jìn)入的期望收益,B就應(yīng)該選擇進(jìn)入,否則,B選擇不進(jìn)入。也就是說,B的選擇取決于30 p +(-10)×(1-p)是否大于0,即只要A高阻止成本的概率大于25%時(shí),B選擇進(jìn)入得到的期望收益大于選擇不進(jìn)入的期望收益。此時(shí),B選擇進(jìn)入是其最優(yōu)策略。而這時(shí)的貝葉斯納什均衡為:B選擇進(jìn)入,高成本原壟斷者A選擇默許,而低成本原壟斷A選擇阻止。

從上述分析可以看出,按照海薩尼的方法,所有參與人的真實(shí)類型都是給定的。其他參與人雖然不清楚某一參與人的真實(shí)類型,但知道這些可能出現(xiàn)的類型的分布概率,而且這種概率是公共知識(shí)。用上例來說,公共知識(shí)不僅意味著B知道A高阻止成本與低阻止成本的分布概率,而且意味著A也清楚B知道這一概率。通過海薩尼轉(zhuǎn)換,不完全信息博弈變成了完全但不完美信息博弈。這里的不完美信息,就是指其他參與人只知道某一參與人某些方面類型的分布概率,而不知道該參與人在這些方面的真實(shí)類型。在上述轉(zhuǎn)換的基礎(chǔ)上,海薩尼提出了貝葉斯納什均衡。對(duì)此,可以作如下解釋:在不完全信息靜態(tài)博弈中,參與人同時(shí)行動(dòng),沒有機(jī)會(huì)觀察到別人的選擇。給定其他參與人的策略選擇,每個(gè)參與人的最優(yōu)策略依賴于自己的類型。由于每個(gè)參與人僅知道其他參與人有關(guān)類型的分布概率,而不知道其真實(shí)類型,因而,他不可能知道其他參與人實(shí)際上會(huì)選擇什么策略。但是,他能夠正確地預(yù)測(cè)到其他參與人的選擇與其各自的有關(guān)類型之間的關(guān)系。因此,該參與人的決策目標(biāo)就是:在給定自己的類型,以及給定其他參與人的類型與策略選擇之間關(guān)系的條件下,使得自己的期望效用最大化。貝葉斯納什均衡是一種類型依賴型策略組合。在給定自己的類型和其他參與人類型的分布概率的條件下,這種策略組合使得每個(gè)參與人的期望效用達(dá)到了最大化。

二、不完全信息動(dòng)態(tài)博弈中的歸納推理

在不完全信息動(dòng)態(tài)博弈中,雖然后行動(dòng)者只能觀測(cè)到先行動(dòng)者的行動(dòng),不能觀測(cè)到先行動(dòng)者的類型,但由于對(duì)方的行動(dòng)是類型依存的,雙方的行動(dòng)都傳遞著(或顯示出)有關(guān)自己類型的某種信息,后行動(dòng)者可以通過觀察先行動(dòng)者所選擇的行動(dòng)來推斷其類型或修正對(duì)其類型的先驗(yàn)信念,進(jìn)而選擇自己的最優(yōu)策略。而先行動(dòng)者預(yù)測(cè)到自己的行動(dòng)將被對(duì)手所觀察和利用,就會(huì)設(shè)法傳遞對(duì)自己最有利的信息,避免傳遞對(duì)自己不利的信息。這就反映出不完全信息動(dòng)態(tài)博弈的特征:當(dāng)一方對(duì)另一方的行動(dòng)作出反應(yīng)時(shí),他可以從對(duì)手的行動(dòng)中推斷出有關(guān)信息。如軍事對(duì)抗,敵對(duì)雙方都盡量隱蔽自己的意圖,秘密地調(diào)動(dòng)部隊(duì),以期給對(duì)手以突入其來的一擊。指揮員必須在對(duì)手情況不明了的情況下制定作戰(zhàn)計(jì)劃,這一決策過程是一種典型的不完全信息動(dòng)態(tài)博弈。這種推斷過程采取了貝葉斯修正的形式,即根據(jù)假設(shè)的均衡策略和觀察到的行動(dòng)修正有關(guān)行動(dòng)者特征或行動(dòng)的信息。進(jìn)行貝葉斯修正應(yīng)該使用“逆向歸納法”。由于一般無法精確地知道對(duì)手的狀態(tài),所以,計(jì)算中帶有不確定性。

假設(shè)有一個(gè)連鎖店,稱為局中人A,在10個(gè)市鎮(zhèn)具有分店,在每個(gè)市鎮(zhèn)存在一個(gè)潛在競爭者,即存在一個(gè)商人可能會(huì)在當(dāng)?shù)亟⑼瑯宇愋偷牡诙€(gè)商店。假設(shè)第k個(gè)市鎮(zhèn)的潛在競爭者被稱為局中人Mk,因此這一博弈有11個(gè)局中人:連鎖店,即局中人A和他的10個(gè)潛在競爭者,即局中人Mk,k=1, 2,…,10。除了這10個(gè)局中人以外,連鎖店沒有任何其他競爭者。對(duì)局中人Mk來說,他必須決定:是在他的市鎮(zhèn)中建立第二個(gè)商店,還是以其他方式來使用他的自有資本。如果他選擇后者,他就不再是局中人A的潛在競爭者。如果第二個(gè)商店在市鎮(zhèn)k建立起來,則局中人A必須對(duì)市鎮(zhèn)k的兩種價(jià)格策略進(jìn)行選擇。他的反應(yīng)可以是“合作”或者“攻擊”。合作反應(yīng)會(huì)導(dǎo)致局中人A和Mk在市鎮(zhèn)k都有較高利潤,但如果局中人Mk不建立第二個(gè)商店,則局中人A在市鎮(zhèn)k的利潤會(huì)更高。如果局中人A采取攻擊反應(yīng)時(shí),則局中人Mk不建立第二個(gè)商店,他的利潤會(huì)更好。其收益矩陣如表2。

表2 局中人A和局中人Mk的收益矩陣

在這個(gè)博弈中,局中人A和局中人Mk(k=1, 2,…,m)在連貫階段序列1,2,…,m之上進(jìn)行。在階段k開始時(shí),局中人Mk必須在“進(jìn)入”和“退出”之間進(jìn)行選擇(決策“進(jìn)入”意味著局中人Mk建立起第二個(gè)商店),局中人Mk的決策會(huì)馬上被所有局中人知曉。如果局中人Mk的決策是“退出”,則在階段k中不再進(jìn)行決策。如果他的選擇是“進(jìn)入”,則局中人A必須在“合作”和“攻擊”之間進(jìn)行選擇,這一決策也會(huì)馬上為所有局中人知曉。因此,對(duì)于k=1, 2,…,m-1,階段k+1根據(jù)同樣規(guī)則開始和進(jìn)行。博弈在階段m后結(jié)束。

在該博弈中,由于后行動(dòng)者局中人A只能觀測(cè)到先行動(dòng)者局中人Mk的行動(dòng),但可以通過觀察先行動(dòng)者局中人Mk所選擇的行動(dòng)來推斷其類型或修正對(duì)其類型的先驗(yàn)信念,進(jìn)而選擇自己的最優(yōu)策略。而先行動(dòng)者局中人Mk預(yù)測(cè)到自己的行動(dòng)將被對(duì)手所觀察和利用,就會(huì)設(shè)法傳遞對(duì)自己最有利的信息,避免傳遞對(duì)自己不利的信息。所以該博弈是不完全信息動(dòng)態(tài)博弈。那么,這一博弈中,局中人是如何進(jìn)行歸納推理的呢?

如果在階段10中局中人M10選擇了“進(jìn)入”,若局中人A的反應(yīng)是“合作”時(shí)會(huì)使他得到支付為2,但若其反應(yīng)為“攻擊”,則相應(yīng)支付為0,所以局中人A此時(shí)的最優(yōu)選擇是“合作”反應(yīng)。長遠(yuǎn)考慮在其中不起作用,因?yàn)樵陔A段10之后博弈結(jié)束。這說明,對(duì)于局中人M10來說最好是選擇“進(jìn)入”。顯然,階段10中的策略形勢(shì)和局中人在階段1,2,…,9中的決策無關(guān)。階段9中的決策對(duì)階段10中的策略形勢(shì)沒有影響。如果局中人M9選擇“進(jìn)入”,則“合作”反應(yīng)對(duì)局中人A來說是最優(yōu)的;“攻擊”反應(yīng)將不會(huì)阻止局中人M10。顯然可以由此歸納得到結(jié)論,每個(gè)局中人k應(yīng)選擇“進(jìn)入”,而每次局中人A應(yīng)使用“合作”反應(yīng)。博弈剩余部分的策略形勢(shì)與是否知道階段k前的決策無關(guān)。如果已經(jīng)知道在k+1,…,10階段的局中人Mk+1,…,M10會(huì)選擇“進(jìn)入”,而局中人A會(huì)總是選擇“合作”選項(xiàng),則會(huì)得到在階段k中選擇“進(jìn)入”也將導(dǎo)致“合作”反應(yīng)。如果這一博弈以這種方法進(jìn)行,則局中人Mk(k=1,2,…,10)各自得到的支付為2,而局中人A得到的支付總和為20。

由此可以看出:逆向歸納法是動(dòng)態(tài)博弈的常用推理方式,也是達(dá)成動(dòng)態(tài)博弈均衡的有效方法。通過逆向歸納法求出的納什均衡是一個(gè)策略組合的序列,其中每一個(gè)策略組合對(duì)應(yīng)一個(gè)具體的博弈階段[6]。

三、結(jié)語

通過以上分析,可以看出:在不完全信息靜態(tài)博弈中,參與人的行動(dòng)同時(shí)發(fā)生,沒有先后順序,因此,沒有任何參與人能夠有機(jī)會(huì)觀察其他參與人的選擇。在給定其他參與人的策略條件下,每個(gè)參與人的最優(yōu)策略依賴于自己的類型。每個(gè)參與人雖然不知道其他參與人實(shí)際選擇什么策略,但是,只要知道其他參與人有關(guān)類型的概率分布,他就能夠正確地預(yù)測(cè)其他參與人的選擇與其各自的有關(guān)類型之間的關(guān)系。因此,該參與人選擇的依據(jù)就是在給定自己的類型,以及其他參與人的類型與策略選擇之間關(guān)系的條件下,使得自己的期望收益最大化。而在不完全信息動(dòng)態(tài)博弈中,某一參與人根據(jù)其他參與人的不同類型及其所屬類型的概率分布,建立自己的初步判斷。當(dāng)博弈開始后,該參與人就可以根據(jù)他所觀察到的其他參與人的實(shí)際行動(dòng),來修正自己的初步判斷。并根據(jù)這種不斷變化的判斷,選擇自己的策略。

不完全信息博弈論不僅是完全信息博弈論在理論上的推廣,也是博弈論面向?qū)嶋H和應(yīng)用的發(fā)展。在人類社會(huì)和自然界出現(xiàn)的博弈現(xiàn)象中,主體只擁有不完全的相關(guān)信息是普遍的情形,知識(shí)信念的概然性、理智有限性和推理不確定性是主體認(rèn)知狀況的常態(tài)。正是由于認(rèn)識(shí)到這種普遍性,博弈論的重心才發(fā)生了從完全信息分析向不完全信息分析的轉(zhuǎn)移。不完全信息博弈論在處理信息不完全性、知識(shí)信念概論性和推理不確定性時(shí),不是把它們當(dāng)做完全性和確定性的偏離,而是當(dāng)做分析的基本預(yù)設(shè)。在不完全信息博弈論中,博弈主體是有限理性的“貝葉斯型主體”,知識(shí)信念是狀態(tài)空間上的概率分配,推理形式主要是歸納概率推理和缺省推理。通過這種處理,不完全信息博弈論中形成了以貝葉斯均衡為核心的分析框架,其分析能力和應(yīng)用范圍都得到了較大的增強(qiáng)和拓寬。不完全信息博弈論的發(fā)展,不僅催生了信息經(jīng)濟(jì)學(xué)等新的經(jīng)濟(jì)學(xué)分支,而且使博弈論超越經(jīng)濟(jì)學(xué)范圍進(jìn)入政治學(xué)、法學(xué)、社會(huì)學(xué)、倫理學(xué)、生物學(xué)等領(lǐng)域,對(duì)這些學(xué)科的分析方法、研究范式產(chǎn)生了深刻的影響。

[1]任曉明.新編歸納邏輯導(dǎo)論:機(jī)遇決策與博弈的邏輯[M].鄭州:河南人民出版社,2009:216.

[2]賀壽南.博弈視野中的邏輯推理問題[J].科學(xué)技術(shù)與辯證法,2004(5):52.

[3]Aumann R J.Agreeing to disagree[J].Annals of Statistics,1976:1236-1239.

[4]Halpern J Y,Moses Y.Towards a theo ry of know ledge and ignorance:p reliminary report[M]//Logic and models of concurrent systems.New Yo rk:Sp ringer-Verlag New Yo rk,Inc,1985:459-476.

[5]Halpern J Y,Moses Y.A guide to completeness and comp lexity formodal logicsof know ledge and belief[J].A rtificial Intelligence,1992(3):319-379.

[6]張曉云.博弈邏輯及其應(yīng)用研究[D].南京:南京大學(xué), 2008:42-43.

Abstract:In incomp lete info rmation static game,the participation choose tactics that make their ow n expected revenue maximization on the condition that given itsow n type and relationship between typesof other participants and strategy selection.In incomp lete information dynamic game,the participants correct their initial judgments in accordance with real actions of other participants that he observed and choose their ow n strategy in the basisof this changing.

Key words:incomp lete info rmation;game;inductive;logical basis

Logical analysis of incomplete info rmation game

HE Shounan
(Department of Humanities and Social Science,Hengyang Normal University,Hengyang 421008,China)

B812 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1671-9476(2010)04-0104-04

2010-04-21;

2010-05-10

國家社科基金項(xiàng)目“經(jīng)濟(jì)邏輯研究”(06BZX050);衡陽師范學(xué)院科學(xué)基金項(xiàng)目“博弈邏輯中的歸納推理研究”(09B03)。

賀壽南(1970-),男,湖南雙峰人,講師,博士,南京大學(xué)現(xiàn)代邏輯與邏輯應(yīng)用研究所兼職研究員,研究方向?yàn)闆Q策邏輯、歸納邏輯。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

不完全信息博弈的邏輯分析

一、不完全信息靜態(tài)博弈中的概率歸納推理

二、不完全信息動(dòng)態(tài)博弈中的歸納推理

三、結(jié)語

一、不完全信息靜態(tài)博弈中的概率歸納推理

二、不完全信息動(dòng)態(tài)博弈中的歸納推理

三、結(jié)語