——基于路徑2的有限博弈分析"/>
吉寶衛(wèi) 杜玉林
華東政法大學(xué),上?!?01600
?
哺乳動(dòng)物腦在博弈中的影響探究
——基于路徑2的有限博弈分析
吉寶衛(wèi)杜玉林
華東政法大學(xué),上海201600
摘要:本文嘗試探究哺乳動(dòng)物腦在博弈中所發(fā)揮的作用,認(rèn)為具有公平、互利等特征的社會(huì)偏好(陳葉烽,2012)行為源于哺乳動(dòng)物腦,通過(guò)兩條路徑去影響博弈。路徑2是指哺乳動(dòng)物腦通過(guò)系統(tǒng)1最終改變前景理論中的參考點(diǎn)來(lái)干擾系統(tǒng)2做出理性的決策。
關(guān)鍵詞:社會(huì)偏好理論;哺乳動(dòng)物腦;有限次博弈
一、文獻(xiàn)綜述
Doux(2002)認(rèn)為情感事件通過(guò)“場(chǎng)景記憶”進(jìn)入哺乳動(dòng)物腦,并被保存起來(lái)。費(fèi)爾(2004)指出哺乳動(dòng)物腦(中腦)對(duì)高等動(dòng)物來(lái)說(shuō),是主管情感的腦區(qū)。這一腦區(qū)在哺乳動(dòng)物出現(xiàn)的時(shí)候已經(jīng)形成,人類的大腦皮層是在后來(lái)的長(zhǎng)期進(jìn)化中形成的,覆蓋在哺乳動(dòng)物腦系統(tǒng)上。哺乳動(dòng)物腦所激發(fā)出來(lái)的主要是情感型行為。因?yàn)樵缙诘膭?dòng)物沒(méi)有大腦,很多具有重大生存價(jià)值的行為,無(wú)法通過(guò)理性思維來(lái)實(shí)現(xiàn),所以哺乳動(dòng)物腦激發(fā)出來(lái)的行為無(wú)需理性的推斷。據(jù)此我們認(rèn)為社會(huì)偏好的“場(chǎng)景記憶”存儲(chǔ)在哺乳動(dòng)物腦,并且通過(guò)路徑1直接產(chǎn)生不受理性控制的情感行為。
卡內(nèi)曼(2012)認(rèn)為系統(tǒng)1是自主而初始的印象和感覺(jué),它是系統(tǒng)2中信息的主要來(lái)源和決策依據(jù)。系統(tǒng)1包括一些與生俱來(lái)的能力,這些能力與其他動(dòng)物的本能一樣,比如確定聲源位置。而現(xiàn)代生物學(xué)認(rèn)為,確定聲源位置的初級(jí)聽(tīng)反射是由哺乳動(dòng)物腦(中腦)控制完成的。我們據(jù)此認(rèn)為系統(tǒng)1與哺乳動(dòng)物腦有著某種信息溝通方式,甚至可以說(shuō)哺乳動(dòng)物腦是承載系統(tǒng)1的一個(gè)實(shí)體組成部分。我們認(rèn)為哺乳動(dòng)物腦是承載系統(tǒng)1部分功能的一個(gè)實(shí)體,系統(tǒng)1是先于大腦皮層形成的,從事簡(jiǎn)單的大腦規(guī)律性應(yīng)答活動(dòng),并為后來(lái)形成的系統(tǒng)2提供支持。路徑2是指存儲(chǔ)情感行為的哺乳動(dòng)物腦通過(guò)系統(tǒng)1最終改變前景理論(Kahneman,1979)中的參考點(diǎn)來(lái)干擾系統(tǒng)2做出理性的決策。
Kahneman(1979)在對(duì)前景理論編碼的論述中指出人們通常關(guān)注的是收益和損失,而不是財(cái)富或福利的最終狀態(tài),收益和損失是相對(duì)于某一參考點(diǎn)而言的,而參考點(diǎn)的位置以及收益和損失的編碼,會(huì)受到提供期望的表達(dá)方式和決策者預(yù)期的影響。表達(dá)方式對(duì)于參考點(diǎn)的影響已經(jīng)得到了大量實(shí)驗(yàn)的證實(shí),而本文提出的路徑2探討的是預(yù)期的改變,即存儲(chǔ)社會(huì)偏好行為的哺乳動(dòng)物腦,通過(guò)影響系統(tǒng)1中決策者的預(yù)期,進(jìn)而最終改變系統(tǒng)1中的參考點(diǎn)。系統(tǒng)1的預(yù)期與通常的預(yù)期不同,通常的預(yù)期需要經(jīng)過(guò)嚴(yán)密的邏輯分析才能產(chǎn)生,而這里的預(yù)期不需要這一前提。因?yàn)樗怯上到y(tǒng)1完成的,卡尼曼(2012,P5——9)指出系統(tǒng)1幾乎無(wú)法處理邏輯和統(tǒng)計(jì)的問(wèn)題,但它仍然會(huì)對(duì)外界進(jìn)行預(yù)測(cè),且大多數(shù)時(shí)候是恰當(dāng)和準(zhǔn)確的,這可以使系統(tǒng)2免于承擔(dān)過(guò)多不必要的工作。因此這里的預(yù)期就像前景理論中的權(quán)重函數(shù)一樣,無(wú)法通過(guò)邏輯或理論的推導(dǎo)得出,只能經(jīng)過(guò)大量實(shí)驗(yàn)才能檢驗(yàn)其是否具有客觀存在性。我們還認(rèn)為參考點(diǎn)的選擇是由系統(tǒng)1負(fù)責(zé)的,如果參考點(diǎn)的選擇是由具有更強(qiáng)理性思維的系統(tǒng)2負(fù)責(zé)的,表達(dá)方式的改變將無(wú)法改變參考點(diǎn),這與大量的實(shí)驗(yàn)結(jié)果不符。
二、基于路徑2的相對(duì)收益分析
假設(shè)A、B進(jìn)行有限次囚徒博弈,策略集如表1所示,“()”里是絕對(duì)收益的數(shù)值,“[]”里是考慮參考點(diǎn)后相對(duì)收益的數(shù)值。
表1 囚徒困境的有限次博弈
由于最后一局不存在任何可信的威脅或許諾(Schelling,1960),通過(guò)逆向歸納法可知A、B一開(kāi)始就都選擇不合作,最終有限次博弈的結(jié)果和單次博弈的結(jié)果沒(méi)有什么區(qū)別。路徑2的影響:哺乳動(dòng)物腦與系統(tǒng)1有著密切聯(lián)系,而系統(tǒng)1負(fù)責(zé)向系統(tǒng)2提供參照點(diǎn),于是系統(tǒng)1在社會(huì)偏好的影響下向系統(tǒng)2提供了合作的收益做為參考點(diǎn),這導(dǎo)致不合作的相對(duì)收益是一種損失。Tversky(1981)指出結(jié)果相對(duì)于參考點(diǎn)看起來(lái)是一種收益,在確定效應(yīng)作用下就會(huì)傾向于規(guī)避風(fēng)險(xiǎn);反之,結(jié)果看起來(lái)是一種損失,決策者就會(huì)是風(fēng)險(xiǎn)偏好者。因此,為了規(guī)避這種損失A、B都愿意賭一把:嘗試選擇合作。
我們認(rèn)為路徑1是通過(guò)自我激勵(lì)完成合作的行為,而路徑2則是通過(guò)自我懲罰的機(jī)制完成對(duì)系統(tǒng)2不合作行為的抑制和對(duì)合作行為的嘗試。我們還認(rèn)為路徑2在單局博弈中的作用要遠(yuǎn)遠(yuǎn)小于路徑1,但在重復(fù)博弈中卻又大于路徑1。系統(tǒng)2也具有預(yù)測(cè)能力,但系統(tǒng)2的理性預(yù)測(cè)(逆向歸納法)不僅無(wú)法使相對(duì)收益獲得累加性,而且還會(huì)糾正系統(tǒng)1的社會(huì)偏好參照點(diǎn)。除此之外,累加性還需要一個(gè)重要的結(jié)論:有限博弈中首局如果有人選擇不合作,那么雙方以后就幾乎沒(méi)有合作的可能性。這里我們將這一結(jié)論命名為“BW”結(jié)論,下面我們將證明這一結(jié)論的成立性。
根據(jù)鮑爾斯(2004)的仿真實(shí)驗(yàn),人性38.2%自私,37.2%正義,24.6%善,本文據(jù)此推斷系統(tǒng)1已經(jīng)在進(jìn)化中形成了上述初始的印象和感覺(jué),即系統(tǒng)1相信博弈中存在合作的可能性。博弈被分為“零和”和“非零和”博弈,有限次博弈屬于非零和博弈,在非零和博弈中雙方利益有些是一致的有些是不一致的,雖然存在占優(yōu)均衡,但博弈雙方還是存在通過(guò)合作改善彼此利益的激勵(lì)。以A為例,A會(huì)考慮去爭(zhēng)取那些“一致的利益”,并且A有理由相信B也會(huì)做同樣的選擇,即A相信B有合作的可能性。如果博弈中存在合作可能性,A就必須在預(yù)期B策略的基礎(chǔ)上進(jìn)行最恰當(dāng)?shù)姆磻?yīng),進(jìn)而A就不再只面對(duì)一個(gè)占優(yōu)策略。
(一)命題1:最優(yōu)反應(yīng)策略應(yīng)該具備“報(bào)復(fù)性”
“報(bào)復(fù)性”是指在對(duì)方“無(wú)緣無(wú)故”的背叛之后立即以背叛報(bào)復(fù)(阿克塞爾羅德,2007)。在阿克塞爾羅德的計(jì)算機(jī)競(jìng)賽中,所有的策略可以被分為兩類:
1.善意策略,典型代表是“弗里德曼”,它的特點(diǎn)是絕不首先背叛,但當(dāng)對(duì)方背叛時(shí)也會(huì)立即回應(yīng);
2.惡意策略,典型代表是“唐寧”,它的特點(diǎn)是偶爾(無(wú)緣無(wú)故)背叛。
首先看善意策略,由于沒(méi)有主動(dòng)背叛的機(jī)制,只要是對(duì)方背叛就一定是無(wú)故的背叛,對(duì)方一定是惡意策略,事實(shí)上很多惡意策略都是“善意策略”的變形,報(bào)復(fù)性不僅可以避免損失的擴(kuò)大,而且還會(huì)向?qū)Ψ角逦陌l(fā)出“魯棒性”的信息,“迫使”許多惡意策略放棄“嘗試”展現(xiàn)“善”的一面。遇到善意策略時(shí),報(bào)復(fù)性沒(méi)有任何損害,因此我們說(shuō)善意策略應(yīng)該具有報(bào)復(fù)性。
下面看惡意策略,惡意要面對(duì)如下問(wèn)題:1、主動(dòng)背叛的機(jī)制;2、識(shí)別對(duì)方的反應(yīng);3、避免循環(huán)報(bào)復(fù)。區(qū)分報(bào)復(fù)與無(wú)故背叛是“識(shí)別對(duì)方的反應(yīng)”中最難解決的問(wèn)題,“喬斯”和“檢驗(yàn)者”在這方面做的都很差,“喬斯”是在雙方都合作的情況下隨機(jī)背叛,并將對(duì)方下一局的背叛視為無(wú)故背叛進(jìn)行報(bào)復(fù),這導(dǎo)致報(bào)復(fù)循環(huán)?!皺z驗(yàn)者”則首局選擇背叛,并將下一局的背叛視為報(bào)復(fù),如果遭到報(bào)復(fù)會(huì)用合作請(qǐng)求“原諒”,但“檢驗(yàn)者”只進(jìn)行一次這樣的識(shí)別。“唐寧”、“鎮(zhèn)定者”則不斷的進(jìn)行識(shí)別,以防止做得太過(guò)導(dǎo)致報(bào)復(fù)循環(huán),但最后仍不理想,究其原因主要是因?yàn)椋阂?、都低估了善意策略的?bào)復(fù)性,盡管它們能占到便宜,但這導(dǎo)致雙方都損失了持續(xù)的合作收益;二、遇到惡意策略時(shí),都以各自的方式摻雜背叛,因此識(shí)別對(duì)方的行為幾乎是不可能的,尤其是雙方都是這種不斷識(shí)別的策略。并且這些策略都極力想避免報(bào)復(fù)的循環(huán),導(dǎo)致其魯棒性不明顯,最終無(wú)法迫使“嘗試”的策略展現(xiàn)出“善”的一面。從本質(zhì)上來(lái)看,惡意策略都應(yīng)該對(duì)無(wú)故的背叛進(jìn)行立即報(bào)復(fù),之所以有些策略沒(méi)有及時(shí)進(jìn)行報(bào)復(fù)是因?yàn)檫@些策略無(wú)法識(shí)別無(wú)故的背叛。
無(wú)論善意還是惡意策略,都能識(shí)別出首局的背叛,因?yàn)闆](méi)有博弈的歷史,首局的背叛一定是無(wú)故的背叛。阿克塞爾羅德的競(jìng)賽雖然無(wú)法窮盡所有策略,但窮盡了所有策略的基本性質(zhì),并且命題1也將策略的范圍縮小到“最優(yōu)反應(yīng)策略”上來(lái),并沒(méi)有包含所有的策略。綜上所述,最優(yōu)的策略應(yīng)該具備“報(bào)復(fù)性”。
(二)命題2:在有限次博弈中首局釋放合作意愿的效果最好、成本最低、希望最大
由于不存在任何可信的威脅或許諾,因此A、B可利用的就是的歷史博弈,想要釋放合作的意愿只能通過(guò)博弈中的特定行為。由于首局博弈行為是后面判斷對(duì)方策略的重要參考,也就是說(shuō)首局釋放信號(hào)影響的局?jǐn)?shù)最多,因此首局釋放合作意愿的效果最好。
表2 釋放合作意愿的機(jī)會(huì)成本或額外收益
(三)命題3:在有限次博弈中首局選擇不合作,那么雙方以后就沒(méi)有合作的可能性
表面上被動(dòng)的善意策略是在主動(dòng)追求持續(xù)的合作收益,而表面上主動(dòng)的惡意策略卻是在被動(dòng)的損失持續(xù)的合作收益。根據(jù)命題2的結(jié)論,我們可以推出最優(yōu)的惡意策略在首局一定選擇合作,因?yàn)槭拙值谋撑巡粌H能夠被清晰的識(shí)別出是無(wú)故的,而且也向?qū)Ψ结尫抛约菏菒阂獠呗缘男盘?hào),這將導(dǎo)致該策略很難繼續(xù)獲得背叛的額外收益,所以惡意策略在首局一定要“偽裝”出具有合作的意愿。這里非最優(yōu)的惡意策略包括但不限于“唐寧”和“檢驗(yàn)者”,它們的共同特點(diǎn)是一上來(lái)(首局)就選擇背叛,結(jié)果導(dǎo)致一系列的損失。在所有的最優(yōu)反應(yīng)策略中,只有“完全背叛”策略才會(huì)在首局博弈中不表達(dá)“合作的意愿”。
假設(shè)B在首局沒(méi)有合作,A會(huì)推斷:B在首局既然沒(méi)有釋放信號(hào),那么B一定使用的是“完全背叛”的策略,因此A的最佳策略就是絕不首先釋放合作的信號(hào)。同樣B會(huì)預(yù)期到A會(huì)采取這一策略,因此B在以后的博弈中也沒(méi)有選擇合作的激勵(lì),所以B要么在首局選擇合作,要么就一直背叛。綜上所述,在有限博弈中首局如果有人選擇不合作,那么雙方以后就沒(méi)有合作的可能性。
(四)BW結(jié)論:有限博弈中首局如果有人選擇不合作,那么雙方以后就幾乎沒(méi)有合作的可能性
“BW”結(jié)論是對(duì)命題3結(jié)論的削弱,因?yàn)橄到y(tǒng)1的直觀印象更符合“BW”結(jié)論。這里還需要指出的是,系統(tǒng)1的運(yùn)行是非常高效和迅速的,“BW”結(jié)論正是對(duì)系統(tǒng)1運(yùn)行過(guò)程的一個(gè)模擬,系統(tǒng)1本身無(wú)需上面的三個(gè)命題就能直接得出“BW”結(jié)論,時(shí)間也非常的短。
三、相對(duì)收益對(duì)有限博弈的通用影響
表3 有限N次囚徒博弈
3.投入品增多。進(jìn)入夏秋季節(jié),漁用飼料、肥料及漁藥等投入品使用頻率較高,使用量也比其他季節(jié)增多,大量的投入品施入水體,必然加劇水體污染,使水質(zhì)難以控制,各種病害增加。
由δ1=0,我們可以得到D1=1/(1+δ1)=1
我們?cè)O(shè):
當(dāng)A、B都合作時(shí)有相對(duì)收益Ui≡0
Sn=0
考慮系統(tǒng)1的情況,我們將命題3放松到“BW”結(jié)論,進(jìn)行相對(duì)收益的縮放處理:
γ=υn+μ—ε ψ=υn+ω—ε
引入前景理論的權(quán)重函數(shù)和價(jià)值函數(shù)可得
π(0)=0V(0)= 0
表4 有限N次相對(duì)收益博弈
結(jié)果如表4所示,路徑2導(dǎo)致A、B的參考點(diǎn)為ε,不合作的相對(duì)收益被視為損失,“BW”結(jié)論使得這種損失逐漸累加,依據(jù)前景理論的觀點(diǎn),此時(shí)A、B對(duì)于不執(zhí)行系統(tǒng)2的納什均衡(都不合作)具有強(qiáng)烈的風(fēng)險(xiǎn)偏好。
四、結(jié)語(yǔ)
存儲(chǔ)社會(huì)偏好的哺乳動(dòng)物腦影響系統(tǒng)1中參考點(diǎn)的選擇,導(dǎo)致系統(tǒng)2在前景理論的作用下無(wú)法進(jìn)行理性的決策,非理性的選擇合作。相較于路徑1產(chǎn)生的合作,路徑2產(chǎn)生的合作將受到博弈次數(shù)的影響。賈擁民(2015)認(rèn)為包括杏仁核在內(nèi)的邊緣系統(tǒng)通常被認(rèn)為是產(chǎn)生損失厭惡的重要腦區(qū)。如果路徑2存在,那么通過(guò)功能性近紅外腦成像儀應(yīng)該能觀察到相關(guān)腦區(qū)的活躍。如果路徑2確實(shí)存在,那么這里將產(chǎn)生一個(gè)重要的結(jié)論:有限次博弈的結(jié)果將受到博弈次數(shù)的影響,博弈次數(shù)越多剛開(kāi)始就越容易產(chǎn)生合作。
[參考文獻(xiàn)]
[1]阿克塞爾羅德.合作的進(jìn)化[M].上海人民出版社,2007.
[2]卡尼曼.思考,快與慢[M].中信出版社,2012.
[3]賈擁民,黃達(dá)強(qiáng),鄭昊力.偏好的異質(zhì)性與一致性[J].南方經(jīng)濟(jì),2015(5).
[4]汪丁丁,羅衛(wèi)東,葉航.人類合作秩序的起源于演化[J].社會(huì)科學(xué)戰(zhàn)線,2005(4).
[5]Fehr et al.The Neural Basis of Altruistic Punishment[J].Science,Vol 305,27 August,2004.
[6]Kahneman,D.and Amos Tversky.Prospect Theory:An analysis of Decision Making under Risk[J].Econometrica,vo1.47,1979(2):263-291.
中圖分類號(hào):S851.3
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1006-0049-(2016)12-0044-03