林革
?
打獵、判刑與納什均衡
林革
“納什均衡”是由1994年諾貝爾經(jīng)濟學獎得主、美國數(shù)學家約瀚·納什提出的非合作博弈理論.它是指在非合作的前提下,所有人的行動都是個別自主的決策.如果選擇的策略形成這樣一種局面——任何一個參與者單方更改自己的策略不能帶來任何好處,這就形成了“納什均衡”.如果你認為這樣的描述過于抽象晦澀,那么,不妨先來看下面這則“獵人選擇”問題:
兩個獵人A、B出發(fā)去打獵.假設(shè)一頭鹿有400公斤肉,但必須兩人合作才能打到,一個人去打獵肯定一無所獲.同地區(qū)還有一群兔子,一共有200公斤肉,兩人合作可以全部打完,但一個人打也可以獲得100公斤肉.兩個獵人各自都知道這樣的前提,但雙方不能交流溝通更不能協(xié)商共議,即不允許通過任何方式影響對方的決策,那么請你推測判斷一下,兩個獵人最終會選擇什么獵物去打獵?
看起來,這是個比較現(xiàn)實也比較有趣的問題.為了進行相對理性和可信的分析,我們不妨列舉出所有可能的四種情形(如表):
從表中可以看出,就個體而言A、B都存在“有收獲”和“沒收獲”兩類情形,所以從利已角度出發(fā),雙方都要盡力避免“沒收獲”,這應該可以理解.但要注意到,題意中已經(jīng)說明:雙方不允許通過任何方式影響對方的決策.即不能通過交流達成共同打鹿的協(xié)議,所以,盡管這是A、B收獲最多的策略,但不能溝通的雙方并不能保證對方如此選擇.因此在各自獨立選擇時,為了確保自己有收獲,A、B都會在 “有收獲”的兩種情況“兩人都獵鹿或兩人都獵兔”中選擇后者,這樣至少保證自己收獲100公斤肉.
如果你理解了兩個獵人的選擇,也就弄清了所謂“納什均衡”的基本涵義:從全局看起來不見得是最好選擇,但是對每個人來說,它又確實是在別人不可控時自己的最佳策略.這也從另一方面說明:當個人利益與群體利益產(chǎn)生沖突時,個體的利已行為必然導致 “納什均衡”——看似對個體有利,實際對所有人都不利的結(jié)局.比如美國斯坦福大學的客座教授塔克在1950年的一次講演中,敘述的“囚徒困境”的故事就是具體形象的事例.
假設(shè)有兩個小偷A(chǔ)和B聯(lián)合犯事、私入民宅被警察抓獲.警方將兩人隔離分別關(guān)在不同的房間,由地方檢察官分別和每個人單獨談話.檢察官是這樣敘述的:如果一個犯罪嫌疑人坦白了罪行,交出了贓物,于是證據(jù)確鑿,兩人都被判有罪.其中如果另一個犯罪嫌疑人也作了坦白,則兩人各被判刑8年;如果另一個犯罪嫌人沒有坦白而是抵賴,則以妨礙公務(wù)罪(因已有證據(jù)表明其有罪)再加刑2年,而坦白者有功被減刑8年,立即釋放.如果兩人都抵賴,則警方因證據(jù)不足不能判兩人的偷竊罪,但可以私入民宅的罪名將兩人各判入獄1年.
現(xiàn)在,擺在A、B面前的只有兩種選擇——坦白或抵賴.理論上,最好的策略是雙方都抵賴,那么兩人都只會被判1年.但由于兩人處于隔離的情況下,無法互通信息進行串供,所以他們不能聚在一起達成共同抵賴的協(xié)議.況且即使達成了抵賴協(xié)議,從心理學的角度來分析,他們也不能充分信任對方的承諾.因此,A、B都會從利己角度如此盤算:
假如對方坦白.若自己抵賴,就得坐8+ 2=10年監(jiān)獄;若自己也坦白會判8年.
假如對方抵賴.若自己抵賴,就會被判1年;若自己坦白就會被立即釋放,對方則會坐10年牢.
顯然,任何一方抵賴都要冒被同伙利用的巨大風險.所以,A、B從損人利己目的出發(fā),他們選擇坦白交代才是最佳策略.因為坦白交代可能得到最佳結(jié)果——立即釋放,當然前提是同伙抵賴,這和對方坦白而自己抵賴,那自己就得坐10年牢的結(jié)果有天壤之別.不僅如此,即便自己坦白了對方也坦白,那么自己至多也只判8年,總比被判10年好吧.可見,不管對方怎么選擇,自己坦白總是最劃算的選擇.如此一來,兩個人都選擇了坦白,認罪服法,皆得8年刑期.
必須指出,在博弈中,當每個參與者的信息對稱時,個體利益最大化與群體利益最大化一致,即所謂共享雙贏,并不屬于“納什均衡”;只有當信息不對稱時,個體追求利益最大化,則將導致群體利益最小化,這才是“納什均衡”的研究范疇.上述“獵人選擇”和“囚徒困境”正是 “非合作博弈”的生動說明.
(作者單位:江蘇省揚州教育學院高郵校區(qū))