陳瑞華 廣東廣雅中學(xué)
博弈論亦稱對策論,隸屬于應(yīng)用數(shù)學(xué)的一個(gè)分支,是主要基于數(shù)學(xué)模型研究在不同條件下的最優(yōu)決策問題的理論。近代博弈論理論主要由Zermelor、Borel和von Neumann提出。1928年von Neumann證明了博弈論理論的基本原理,進(jìn)而宣告了博弈論的誕生。1950~1951年,John Forbes Nash, Jr證明了均衡點(diǎn)的存在,為博弈論的一般化奠定了基礎(chǔ),隨后又給出了現(xiàn)在廣為流傳的納什均衡的概念,將博弈論的研究推向高潮。
博弈論中的納什均衡指的是每個(gè)博弈者的平衡策略都是為了達(dá)到自己期望收益的最大值的策略組合。其中一個(gè)經(jīng)典的納什均衡案例是“囚徒困境”問題,該案例大意為,有兩個(gè)犯罪嫌疑人作案被警察逮捕,分別被帶到不同的審訊室去審訊,對于每個(gè)犯罪嫌疑人,警方給出的刑罰政策是:如果兩個(gè)犯罪嫌疑人都坦白,那么證據(jù)確鑿,每個(gè)人都被判刑8年;如果兩個(gè)人都抵賴,因證據(jù)不足,每個(gè)犯罪嫌疑人按妨礙公務(wù)罪各判刑1年;如果其中一個(gè)犯罪嫌疑人抵賴而另外一個(gè)犯罪嫌疑人坦白的話,那么抵賴的將被判刑10年,而坦白的將被釋放。假設(shè)兩個(gè)犯罪嫌疑人分別為A和B,那么根據(jù)他們各自的策略不同,他們的收益矩陣如表1.1所示,其
AB 坦白 抵賴坦白images/BZ_175_476_2402_540_2442.pngimages/BZ_175_687_2402_768_2442.png抵賴images/BZ_175_468_2470_548_2509.pngimages/BZ_175_696_2470_760_2509.png
表1.1:A和B不同策略的獲刑年數(shù)
在“囚徒困境”的案例中,A和B最優(yōu)的策略就是兩個(gè)人都抵賴,這種情況下兩個(gè)人判刑年數(shù)之和是最少的。但由于兩個(gè)人處于隔離狀態(tài),因此兩個(gè)人在做決策時(shí)無法進(jìn)行討論,而每個(gè)人都會選擇對于自己最優(yōu)的策略。對A來說如果他要選擇對于自己最優(yōu)的策略,那么在做決定之前就要考慮B的選擇:在B選擇坦白的情況下,若A坦白將被判刑8年,若A抵賴將被判刑10年;在B選擇抵賴的情況下,若A坦白則可獲釋,若A抵賴則獲刑1年。綜合來看,無論B怎么選擇,對于A最優(yōu)的策略是坦白,同樣地?zé)o論A如何選擇,對于B最優(yōu)的策略也是坦白,因此A和B會選擇表1.1收益矩陣中左上角的策略組合,即A和B都會選擇坦白被判刑8年,但這種組合對于整體來說不是最優(yōu)的選擇。
在世界貿(mào)易發(fā)展歷史中,貿(mào)易保護(hù)和貿(mào)易自由政策相伴而生。盡管現(xiàn)代經(jīng)濟(jì)學(xué)中有共識,貿(mào)易自由會提高參與國的福利水平,但由于各種原因,貿(mào)易保護(hù)政策還是時(shí)有發(fā)生的,尤其在經(jīng)濟(jì)危機(jī)發(fā)生時(shí)。本小節(jié)主要通過構(gòu)建博弈模型,對貿(mào)易保護(hù)和貿(mào)易自由政策進(jìn)行分析,探討貿(mào)易保護(hù)政策盛行的原因。
首先給出博弈模型的假設(shè)條件。為了簡化模型和方便分析,假定如下,1)假設(shè)僅有兩個(gè)國家C和D參與博弈;2)每個(gè)國家都從自身利益最大化的角度考慮;3)兩個(gè)國家只有兩種策略:貿(mào)易保護(hù)和貿(mào)易自由;4)兩個(gè)國家的溝通自由,無信息約束;5)兩個(gè)國家的任何策略的滿意度可以用數(shù)值來衡量。
假設(shè)C國與D國同一時(shí)間選擇貿(mào)易政策,此時(shí)C國和D國的博弈屬于完全靜態(tài)博弈模型。他們的不同策略情況下的收益矩陣由表2.1給出。
CD 貿(mào)易自由 貿(mào)易保護(hù)貿(mào)易自由images/BZ_175_1167_2361_1292_2400.pngimages/BZ_175_1387_2361_1513_2400.png貿(mào)易保護(hù)images/BZ_175_1167_2428_1292_2467.pngimages/BZ_175_1387_2428_1513_2467.png
表2.1:C國和D國同時(shí)選擇貿(mào)易政策時(shí)的收益矩陣
由國際貿(mào)易理論可以得到,當(dāng)一國實(shí)行“貿(mào)易自由”的政策,而另一國實(shí)施“貿(mào)易保護(hù)”的政策時(shí),實(shí)施“貿(mào)易自由”政策的國家會蒙受損失,而實(shí)施“貿(mào)易保護(hù)”的國家會從另外一個(gè)國家獲得好處;兩個(gè)國家都采取“貿(mào)易自由”的政策要比兩個(gè)國家都采取“貿(mào)易保護(hù)”的策略的收益好的多。因此關(guān)于表2.1的收益排序?yàn)椋?/p>
考慮C國和D國進(jìn)行一次的博弈模型,我們需要找到對于兩個(gè)國家都最優(yōu)的策略組合。以C國為例進(jìn)行分析,C國在做貿(mào)易政策制定時(shí)會考慮D國的貿(mào)易政策,可以分為兩種情況來討論。情形一,在D國選擇貿(mào)易保護(hù)的假設(shè)下,如果C國選擇貿(mào)易自由,則C國的收益為, 如果C國選擇貿(mào)易保護(hù),則C國的收益為,由于,因此在這種情況下C國選擇貿(mào)易保護(hù);情形二,在D國選擇貿(mào)易自由的假設(shè)下,若C國選擇貿(mào)易自由,則C國的收益為,若C國選擇貿(mào)易保護(hù),則C國的收益為,由于,在這種情況下C國也選擇貿(mào)易保護(hù)。綜合兩種情形來看,無論D國選擇什么樣的貿(mào)易政策,對于C國來說最優(yōu)的策略都是貿(mào)易保護(hù),同樣地對于D國來說無論C國選擇什么樣的貿(mào)易政策,D國最優(yōu)的政策也是貿(mào)易保護(hù)。所以一次博弈的結(jié)果是納什均衡策略即對于每個(gè)成員國來說是最優(yōu)的策略,但對于整體來說最優(yōu)的策略應(yīng)該是,一次博弈的結(jié)構(gòu)陷入“囚徒困境”。
在一次博弈模型中,對于兩國來說最優(yōu)的策略組合是納什均衡策略。接下來,我們著重探討在有限次博弈模型中的策略組合。假設(shè)C國和D國一共進(jìn)行次博弈,那么對于C國和D國來說最優(yōu)的博弈結(jié)果是每次都選擇納什均衡策略,即.下面我們利用歸納法給出證明。
因?yàn)槭沁M(jìn)行了多次博弈,所以在博弈的過程中會存在合作的可能,但是由于博弈次數(shù)是有限的,最終發(fā)現(xiàn)最優(yōu)的博弈策略每次都是(貿(mào)易保護(hù),貿(mào)易保護(hù))的組合,即每次都會陷入“囚徒困境”。其實(shí)這在博弈論中也有相應(yīng)的理論,即有限次博弈唯一的均衡策略是每次博弈都沿用原博弈均衡的策略。
本文研究的貿(mào)易政策選擇模型都假設(shè)進(jìn)行有限次博弈,那么不管是博弈一次,還是博弈有限多次,最終兩個(gè)國家都會陷入(貿(mào)易保護(hù),貿(mào)易保護(hù))的“囚徒困境”,即該貿(mào)易策略從每個(gè)國家來看對于本國都是最優(yōu)策略,但從兩個(gè)國家的整體效益來看卻不是最優(yōu)的。