(黃山學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院 安徽 黃山 245041)
警方逮捕兩名嫌疑犯A、B,可以用某電影中的黎叔與小葉代替,警察沒有證據(jù)指控二人。他們每一個人都被單獨囚禁,并單獨進行審訊,即雙方無法互通信息。警方向這兩名嫌疑犯交代量刑原則:坦白從寬,抗拒從嚴。具體如下:
1、如果兩人都坦白,則每人各判刑5年;
2、如果一方坦白,一方不坦白,則坦白的一方將被釋放,不坦白的將被判10年;
3、如果兩人都不坦白,警方由于證據(jù)不足,只能對二人短期關(guān)押,各判1年。
如下圖的支付矩陣:
囚徒A(黎叔)囚徒B(小葉)坦白抵賴坦白(-5,-5)(0,-10)抵賴(-10,0)(-1,-1)
這兩個囚犯的博弈過程如下:先考慮黎叔的選擇。黎叔要決定自己的選擇,他必須要先考慮小葉的選擇,即黎叔是在考慮了小葉的選擇的前提下來決定自己的選擇。那么,黎叔一定是這樣考慮的:
如果小葉選擇坦白,我如果也選擇坦白,被判5年,如果我選擇抵賴,被判10年。于是我選擇坦白。(因為5<10)
如果小葉選擇抵賴,我如果選擇坦白,立馬釋放,如果我選擇抵賴,被判1年。于是我選擇坦白。(因為0<1)
得出結(jié)論:無論小葉選擇坦白還是抵賴,我都選擇坦白。
同理,在分析小葉的選擇時,我們也會得到類似結(jié)論。但當(dāng)我們仔細分析,不難發(fā)現(xiàn),如果兩個人都選擇抵賴(即合作),則可以獲得最好的結(jié)局(即只判1年)。但是由于他們之間不能互通信息,所以每一方都擔(dān)心由于對方坦白而自己抵賴時自己所遭受到的重判(即對方釋放,自己抵賴被判10年)。在這種情況下,每個人都會從自己的利益考慮,最后的選擇都是坦白。
這就是博弈論中的重要的數(shù)學(xué)模型——完全信息靜態(tài)博弈模型。
完全信息靜態(tài)博弈是指各博弈方同時決策,且所有博弈方對各方得益都了解的博弈。屬于非合作博弈最基本的類型。基于以上考慮,黎叔和小葉都會選擇坦白,達到一個穩(wěn)定解,但是這個解卻不是整體的最優(yōu)解。
通過對囚徒困境的分析,我們得出這樣一個結(jié)論:無論小葉選擇坦白還是抵賴,黎叔都會選擇坦白。于是,我們說坦白策略是他的占優(yōu)策略,類似的分析對于小葉也是適用的,所以坦白策略也是小葉的占優(yōu)策略。
因此,我們給出占優(yōu)策略的定義:無論其他參與者采取什么策略,某參與者的唯一的最優(yōu)策略就是他的占優(yōu)策略。在我們的分析例子中,(坦白,坦白)這一對策略組合下的博弈狀態(tài),就是一種均衡狀態(tài)。一般地說,由博弈中的參與者的占優(yōu)策略組合構(gòu)成的均衡就是占優(yōu)策略納什均衡。
我們可以在支付矩陣中用劃橫線的方法來尋找占優(yōu)策略納什均衡。具體做法如下:當(dāng)小葉選擇坦白時,黎叔會選擇坦白,則在報酬-5下劃一橫線,當(dāng)小葉選擇抵賴時,黎叔仍會選擇坦白,則在報酬0下劃一橫線。小葉選法同理。最后,矩陣圖中的唯一兩個數(shù)字都被劃上橫線的那一格報酬組合(-5,-5)所對應(yīng)的(坦白,坦白)的策略組合就是該博弈的占優(yōu)策略納什均衡。
黎叔和小葉都是理性人作出的選擇都是理性對自己收益最大的,最終整體的的結(jié)果卻沒有達到最優(yōu),這個問題值得我們?nèi)ニ伎肌?/p>
自私自利的人類可能因為自己的聰明而降低包括自身在內(nèi)的所有人的福利水平,個人的理性導(dǎo)致集體的非理性,非合作的自利行為導(dǎo)致兩敗俱傷。
以生活中實例對這一現(xiàn)象加以說明和理解:
1、父母為什么熱衷于給孩子報暑期班,暑期班廣告鋪天蓋地,只此一句不要讓孩子輸在起跑線上,就讓家長對商家的套路毫無抵抗,這里就蘊含了囚徒困境原理,輔導(dǎo)班廣告正是通過囚徒困境將家長捆綁在一起。
2、每年暑期高考之后各大名校爭搶狀元,納什均衡最大悲劇就在于北大和清華都意識到搶狀元毫無意義,即使他們都認同不搶狀元才是最好的結(jié)果但是這樣的結(jié)果卻達不到,因為雙方不得不采取對自己最有利的策略:搶狀元。
類似生活中的現(xiàn)象比比皆是:上網(wǎng)購物、夫妻吵架、各大商家企業(yè)價格戰(zhàn)、軍備競賽等。
若在囚徒困境模型中,增加雙方選擇坦白策略的成本:各判5年增加到各判15年,當(dāng)庭釋放增加到判5年,則支付矩陣如下:
黎叔小葉坦白抵賴坦白(-15,-15)(-5,-10)抵賴(-10,-5)(-1,-1)
如果小葉選擇坦白,黎叔如果也選擇坦白,被判15年,如果選擇抵賴,被判10年。于是黎叔選擇抵賴。(因為10<15)
如果小葉選擇抵賴,黎叔如果選擇坦白,被判5年,如果選擇抵賴,被判1年。于是黎叔選擇抵賴。(因為1<5)
得出結(jié)論:無論小葉選擇坦白還是抵賴,黎叔都選擇抵賴。
同理,小葉也會得到相同的結(jié)論,這樣小葉和黎叔的最終選擇都變成了抵賴策略,達到了整體最優(yōu),避免了公地悲劇的發(fā)生。
若雙方可以相互溝通達成協(xié)議,直接選擇最優(yōu)策略,那么也會達到共贏。