林革
“納什均衡”是由1994年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主、美國(guó)數(shù)學(xué)家約瀚·納什提出的非合作博弈理論.它是指在非合作的前提下,所有人的行動(dòng)都是個(gè)別自主的決策.如果選擇的策略形成這樣一種局面——任何一個(gè)參與者單方更改自己的策略不能帶來(lái)任何好處,這就形成了“納什均衡”.如果你認(rèn)為這樣的描述過(guò)于抽象晦澀,那么,不妨先來(lái)看下面這則“獵人選擇”問(wèn)題:
兩個(gè)獵人A、B出發(fā)去打獵.假設(shè)一頭鹿有400公斤肉,但必須兩人合作才能打到,一個(gè)人去打獵肯定一無(wú)所獲.同地區(qū)還有一群兔子,一共有200公斤肉,兩人合作可以全部打完,但一個(gè)人打也可以獲得100公斤肉.兩個(gè)獵人各自都知道這樣的前提,但雙方不能交流溝通更不能協(xié)商共議,即不允許通過(guò)任何方式影響對(duì)方的決策,那么請(qǐng)你推測(cè)判斷一下,兩個(gè)獵人最終會(huì)選擇什么獵物去打獵?
看起來(lái),這是個(gè)比較現(xiàn)實(shí)也比較有趣的問(wèn)題.為了進(jìn)行相對(duì)理性和可信的分析,我們不妨列舉出所有可能的四種情形(如表):
從表中可以看出,就個(gè)體而言A、B都存在“有收獲”和“沒收獲”兩類情形,所以從利已角度出發(fā),雙方都要盡力避免“沒收獲”,這應(yīng)該可以理解.但要注意到,題意中已經(jīng)說(shuō)明:雙方不允許通過(guò)任何方式影響對(duì)方的決策.即不能通過(guò)交流達(dá)成共同打鹿的協(xié)議,所以,盡管這是A、B收獲最多的策略,但不能溝通的雙方并不能保證對(duì)方如此選擇.因此在各自獨(dú)立選擇時(shí),為了確保自己有收獲,A、B都會(huì)在“有收獲”的兩種情況“兩人都獵鹿或兩人都獵兔”中選擇后者,這樣至少保證自己收獲100公斤肉.
如果你理解了兩個(gè)獵人的選擇,也就弄清了所謂“納什均衡”的基本涵義:從全局看起來(lái)不見得是最好選擇,但是對(duì)每個(gè)人來(lái)說(shuō),它又確實(shí)是在別人不可控時(shí)自己的最佳策略.這也從另一方面說(shuō)明:當(dāng)個(gè)人利益與群體利益產(chǎn)生沖突時(shí),個(gè)體的利已行為必然導(dǎo)致“納什均衡”——看似對(duì)個(gè)體有利,實(shí)際對(duì)所有人都不利的結(jié)局.比如美國(guó)斯坦福大學(xué)的客座教授塔克在1950年的一次講演中,敘述的“囚徒困境”的故事就是具體形象的事例.
假設(shè)有兩個(gè)小偷A(chǔ)和B聯(lián)合犯事、私入民宅被警察抓獲.警方將兩人隔離分別關(guān)在不同的房間,由地方檢察官分別和每個(gè)人單獨(dú)談話.檢察官是這樣敘述的:如果一個(gè)犯罪嫌疑人坦白了罪行,交出了贓物,于是證據(jù)確鑿,兩人都被判有罪.其中如果另一個(gè)犯罪嫌疑人也作了坦白,則兩人各被判刑8年;如果另一個(gè)犯罪嫌人沒有坦白而是抵賴,則以妨礙公務(wù)罪(因已有證據(jù)表明其有罪)再加刑2年,而坦白者有功被減刑8年,立即釋放.如果兩人都抵賴,則警方因證據(jù)不足不能判兩人的偷竊罪,但可以私入民宅的罪名將兩人各判入獄1年.
現(xiàn)在,擺在A、B面前的只有兩種選擇——坦白或抵賴.理論上,最好的策略是雙方都抵賴,那么兩人都只會(huì)被判1年.但由于兩人處于隔離的情況下,無(wú)法互通信息進(jìn)行串供,所以他們不能聚在一起達(dá)成共同抵賴的協(xié)議.況且即使達(dá)成了抵賴協(xié)議,從心理學(xué)的角度來(lái)分析,他們也不能充分信任對(duì)方的承諾.因此,A、B都會(huì)從利己角度如此盤算:
假如對(duì)方坦白.若自己抵賴,就得坐8+2=10年監(jiān)獄;若自己也坦白會(huì)判8年.
假如對(duì)方抵賴.若自己抵賴,就會(huì)被判1年;若自己坦白就會(huì)被立即釋放,對(duì)方則會(huì)坐10年牢.
顯然,任何一方抵賴都要冒被同伙利用的巨大風(fēng)險(xiǎn).所以,A、B從損人利己目的出發(fā),他們選擇坦白交代才是最佳策略.因?yàn)樘拱捉淮赡艿玫阶罴呀Y(jié)果——立即釋放,當(dāng)然前提是同伙抵賴,這和對(duì)方坦白而自己抵賴,那自己就得坐10年牢的結(jié)果有天壤之別.不僅如此,即便自己坦白了對(duì)方也坦白,那么自己至多也只判8年,總比被判10年好吧.可見,不管對(duì)方怎么選擇,自己坦白總是最劃算的選擇.如此一來(lái),兩個(gè)人都選擇了坦白,認(rèn)罪服法,皆得8年刑期.
必須指出,在博弈中,當(dāng)每個(gè)參與者的信息對(duì)稱時(shí),個(gè)體利益最大化與群體利益最大化一致,即所謂共享雙贏,并不屬于“納什均衡”;只有當(dāng)信息不對(duì)稱時(shí),個(gè)體追求利益最大化,則將導(dǎo)致群體利益最小化,這才是“納什均衡”的研究范疇.上述“獵人選擇”和“囚徒困境”正是 “非合作博弈” 的生動(dòng)說(shuō)明.
(作者單位:江蘇省揚(yáng)州教育學(xué)院高郵校區(qū))