趙小薇,夏昊翔,張 瀟(1. 大連理工大學(xué).系統(tǒng)工程研究所;2. b.軟件學(xué)院,遼寧 大連 116024)
噪音水平和交互頻次對(duì)策略演化的影響
趙小薇a,b,夏昊翔a,張 瀟a
(1. 大連理工大學(xué)a.系統(tǒng)工程研究所;2. b.軟件學(xué)院,遼寧 大連 116024)
囚徒困境是研究合作策略演化的重要工具,重復(fù)囚徒困境下的博弈者可以通過合作實(shí)現(xiàn)長(zhǎng)期利益的最大化。采用生態(tài)演化模擬實(shí)驗(yàn)的方法研究在重復(fù)囚徒困境中初始環(huán)境設(shè)定的噪音水平和個(gè)體間交互頻次對(duì)博弈策略演化的影響。研究結(jié)果表明,噪聲水平和個(gè)體間交互頻次對(duì)最終系統(tǒng)中優(yōu)勝的博弈策略有決定性作用,這說明環(huán)境的初始設(shè)定條件是影響博弈策略演化的重要因素。
囚徒困境;合作演化;噪音;策略演化
從單細(xì)胞生物到復(fù)雜的高級(jí)哺乳動(dòng)物,從螞蟻社會(huì)到高等動(dòng)物種群,合作現(xiàn)象無論在自然界還是人類社會(huì)都無處不在。但是根據(jù)達(dá)爾文的適者生存的理論,如果群體中的個(gè)體都追求自身生存利益的最大化,那么群體內(nèi)甚至群體間廣泛的合作是如何形成的呢?這引發(fā)了關(guān)于“合作演化”問題的研究。過去幾十年間,在多個(gè)學(xué)科領(lǐng)域,如生物學(xué),社會(huì)學(xué)、心理學(xué),經(jīng)濟(jì)學(xué)和管理學(xué),以及復(fù)雜性科學(xué)等,合作演化問題引起了極大的學(xué)術(shù)關(guān)注[1-8]。學(xué)界圍繞親緣選擇、團(tuán)隊(duì)選擇、直接互惠、間接互惠、空間互惠等可能的合作機(jī)理開展了很多研究[2]。其中,演化博弈論為研究合作演化提供了方便的數(shù)學(xué)框架。在基于演化博弈論的合作演化研究中,Axelrod和Hamilton 圍繞重復(fù)囚徒困境博弈問題所開展的博弈策略研究是一項(xiàng)經(jīng)典的開拓性工作[1]。他們的研究表明,針對(duì)重復(fù)囚徒困境博弈,一個(gè)簡(jiǎn)單的“一報(bào)還一報(bào)”(Tit-For-Tat,TFT)策略在很多場(chǎng)景下是一個(gè)極為有效的合作策略。Axelrod和Hamilton的研究成果引發(fā)了針對(duì)博弈環(huán)境下合作策略的很多后續(xù)研究。
重復(fù)囚徒困境博弈的一個(gè)重要研究情景是有噪音的重復(fù)囚徒困境(Noisy Iterated Prisoners’ Dilemma,NIPD)。噪音是在系統(tǒng)處理過程中自行產(chǎn)生的影響,這些影響與系統(tǒng)輸入無關(guān),它阻礙或誤導(dǎo)個(gè)體對(duì)原本事實(shí)的理解和原本意圖的執(zhí)行。在現(xiàn)實(shí)世界中噪音無處不在,噪音的水平反映了環(huán)境的嘈雜程度。在博弈的過程中,噪音表現(xiàn)為隨機(jī)意外因素,是小概率事件,個(gè)體策略會(huì)因?yàn)椤耙馔庖蛩亍碑a(chǎn)生的隨機(jī)干擾導(dǎo)致原有的策略不能正確執(zhí)行,即,博弈中的噪音就是個(gè)體在行使合作行為時(shí)可能會(huì)產(chǎn)生的背叛的結(jié)果,或者在行使背叛的行為時(shí)產(chǎn)生合作的結(jié)果[9]。博弈中噪音的存在對(duì)博弈人的決策產(chǎn)生很大影響,從而進(jìn)一步影響下一輪的行動(dòng)。研究表明,對(duì)無噪音條件下的重復(fù)囚徒困境博弈有效的TFT策略是一個(gè)對(duì)噪音極為敏感的策略,在有噪音的條件下,博弈群體很難通過TFT策略達(dá)成合作[10]。這一問題引發(fā)了學(xué)界對(duì)噪音環(huán)境下有效合作策略的進(jìn)一步探討。在噪音的環(huán)境中,“寬容”的行為能夠促進(jìn)合作。對(duì)此,人們提出新的策略,例如,在“兩報(bào)還一報(bào)”策略(Tit-for-Two-Tat,TFTT)下,參與人僅在收到兩次連續(xù)的背叛后才懲罰博弈對(duì)手。Nowak與 Sigmund提出“包容的一報(bào)還一報(bào)”策略(Generous Tit-for-Tat,GTFT),這種策略具有較小的概率能夠無視對(duì)方的背叛[11]。上述兩種策略本質(zhì)上都屬于寬容策略,即以一定方式“原諒”對(duì)方的背叛。這類寬容策略易于達(dá)成合作,但缺點(diǎn)是易于受到欺騙性策略的欺詐。另一類在噪音的環(huán)境中改進(jìn)TFT的方法是使用“悔悟”?!盎谖虻囊粓?bào)還一報(bào)”策略(Contrite Tit-for-Tat,CTFT)能夠在發(fā)現(xiàn)自己背叛對(duì)手后及時(shí)糾正錯(cuò)誤,繼續(xù)單方面執(zhí)行合作行為[12-13]。CTFT善于糾正自身的錯(cuò)誤,但這一策略的缺點(diǎn)是不能及時(shí)原諒對(duì)手犯的錯(cuò)誤。第三類策略稱為巴甫洛夫策略(Pavlov)或者叫做贏留輸變策略(Win Stay Lose Shift,WSLS)[14-16]。當(dāng)因噪音導(dǎo)致對(duì)手間報(bào)復(fù)性相互背叛發(fā)生時(shí),Pavlov策略可以在比TFT系列策略迭代更少次后恢復(fù)合作。然而,Pavlov策略因?yàn)榇嬖趨⑴c者一直都可以從背叛對(duì)方這一行動(dòng)中獲得獎(jiǎng)勵(lì)這一缺陷,所以魯棒性不強(qiáng)[9]。此外在文獻(xiàn)[17]中還提出了另一種“靈活互惠利他策略”(Flexible reciprocity Altrisum,F(xiàn)RAM),在這一策略下,博弈者對(duì)背叛保持一定程度的容忍,并能夠?yàn)榱碎L(zhǎng)期回報(bào)而繼續(xù)采取合作的策略。采用FRAM策略的個(gè)體,其決策基于與對(duì)手長(zhǎng)期交互的歷史,噪音帶來的意外影響不會(huì)立即打破兩個(gè)參與者之間的長(zhǎng)期合作關(guān)系。
上述一系列策略的提出引發(fā)了如下研究課題:在混合多種策略的人群中,最終哪個(gè)或哪些策略在有噪音的重復(fù)囚徒困境博弈中會(huì)取得優(yōu)勢(shì)?在文獻(xiàn)[9][16]和[18]中,學(xué)界對(duì)其中一些策略的表現(xiàn)進(jìn)行了比較研究。然而,之前對(duì)策略演化的研究大都是將系統(tǒng)的噪音設(shè)置為常數(shù),研究噪音水平較低的情況下(通常小于1%)合作策略的演化現(xiàn)象,即在多次重復(fù)囚徒困境博弈中加入極少次隨機(jī)干擾。噪音水平是單位時(shí)間內(nèi)博弈策略受到干擾的頻率,該指數(shù)反映了環(huán)境的嘈雜程度,可以想見,不同的噪音水平可能影響不同策略在混合策略群體中的總體表現(xiàn)。當(dāng)前學(xué)界對(duì)噪音水平對(duì)策略演化的影響研究不夠充分。另一方面,目前對(duì)策略演化的研究都是將系統(tǒng)的個(gè)體間交互頻次設(shè)置為較低的常數(shù),忽略了交互頻次對(duì)策略演化的影響。個(gè)體間交互頻次是描述交互強(qiáng)度以及博弈個(gè)體間關(guān)聯(lián)緊密程度的指標(biāo),反映了個(gè)體在一定的時(shí)間尺度內(nèi)相互博弈的次數(shù),該值越大,個(gè)體間的博弈進(jìn)行得越頻繁,積累的交互歷史越多,反之,個(gè)體間的博弈進(jìn)行不頻繁,積累的交互歷史較少。在自然界中,有的生物種群內(nèi)個(gè)體間交互頻繁,而有的交互次數(shù)稀少;在人類社會(huì)中,有些社會(huì)文化中個(gè)體間互動(dòng)頻繁,而有些文化更加崇尚個(gè)體獨(dú)立性。這種交互頻次及其背后的社會(huì)關(guān)聯(lián)緊密程度必然對(duì)合作策略的演化產(chǎn)生影響。基于以上考慮,本文針對(duì)有噪音的重復(fù)囚徒困境博弈情景,采用生態(tài)演化模擬實(shí)驗(yàn)的方法研究不同的噪音水平和不同的個(gè)體間交互頻次對(duì)合作策略演化的影響。
1.1 有噪音的重復(fù)囚徒困境博弈
在原始的囚徒困境博弈中,參與博弈的每個(gè)個(gè)體都采用純策略,即個(gè)體的策略選擇只有兩種:合作(cooperation,C)或背叛(defection,D)。參與博弈的個(gè)體根據(jù)自己和對(duì)手采用的策略獲得不同的收益。如果兩個(gè)個(gè)體都采取C策略,那么雙方都獲得合作的獎(jiǎng)勵(lì)R;如果兩個(gè)個(gè)體都采用D策略,那么雙方都得到背叛的懲罰P;如果一個(gè)采用C策略,另一個(gè)采用D策略,那么背叛者獲得收益T,合作者得到S,其中T>R>P>S,且2R>T+S。對(duì)于單次囚徒困境博弈,眾所周知,背叛策略必然是博弈者的最優(yōu)策略。在這一情景下,合作不可能在理性博弈者之間產(chǎn)生。但在博弈者事先不知道重復(fù)次數(shù)的重復(fù)囚徒困境(Iterated Prisoners’ Dilemma,IPD)博弈情景中,合作策略有可能成為有效的策略。Axelrod和Hamilton的研究表明,“一報(bào)還一報(bào)”策略(TFT)是針對(duì)這一情景的一種極為有效的策略[1,19]。TFT策略可描述為:第一步使用C策略,之后每一步都重復(fù)對(duì)手的策略。
如果在上述的重復(fù)囚徒困境博弈中加入隨機(jī)噪音的因素,就形成了有噪音的囚徒困境博弈(Noisy Iterated Prisoners’ Dilemma,NIPD)。博弈中的噪音結(jié)果是導(dǎo)致個(gè)體原本策略被干擾成為相反的策略,即參與博弈者在某時(shí)間點(diǎn)決定采用C策略,如果沒有受到隨機(jī)噪音干擾,則該博弈者實(shí)際執(zhí)行的策略仍然是C,反之如果受到噪音的干擾則執(zhí)行相反策略D。噪音的存在對(duì)簡(jiǎn)單TFT策略的有效性產(chǎn)生了顯著的影響。在有噪音的條件下,兩個(gè)采用TFT策略的博弈者很容易由于一次對(duì)合作行為的扭曲解讀導(dǎo)致彼此的反復(fù)背叛。Molander的研究表明,在噪音率很低的條件下,兩個(gè)TFT博弈者的長(zhǎng)期收益同兩個(gè)持隨機(jī)策略的博弈者的長(zhǎng)期收益沒有顯著差異[20]。正因如此,人們針對(duì)NIPD情景分別提出了GTFT、CTFT、WLSL等策略。本文試圖通過生態(tài)演化模擬實(shí)驗(yàn)對(duì)這些策略在不同噪音水平以及不同交互頻次條件下的表現(xiàn)進(jìn)行檢查。本文的基本研究問題是:是否存在在不同噪音水平和不同交互頻次下都適合的合作策略。
1.2 生態(tài)演化實(shí)驗(yàn)設(shè)定
本文使用生態(tài)演化模擬實(shí)驗(yàn)來檢測(cè)持有各自不同的多種策略的群體在進(jìn)行有噪音的重復(fù)囚徒困境博弈時(shí),各種策略在不同的噪音水平下和不同的交互頻次下各自的長(zhǎng)期表現(xiàn)如何。對(duì)此,本文采用與Wu與Axelrod[9]的“生態(tài)學(xué)模擬”一致的思路開展生態(tài)演化實(shí)驗(yàn)研究。在實(shí)驗(yàn)的初始階段,參與實(shí)驗(yàn)的各種策略的持有者在整個(gè)生態(tài)群體按等比例均勻混合。演化開始后,參與者之間根據(jù)各自所持的策略彼此進(jìn)行博弈。本研究采用全博弈的方式,即在每一代(每一模擬輪次)中,每一個(gè)體要與所有其他個(gè)體兩兩博弈k次,k代表了個(gè)體間博弈次數(shù),k越大個(gè)體間交互越頻繁。博弈時(shí)個(gè)體行為受噪音影響,即個(gè)體在行使合作行為時(shí)可能會(huì)產(chǎn)生的背叛的結(jié)果,或者在行使背叛的行為時(shí)產(chǎn)生合作的結(jié)果。一代結(jié)束后,每個(gè)參與者統(tǒng)計(jì)各自的收益。采用相同策略的參與者的收益加和作為這一策略在這一代的適應(yīng)度。為了體現(xiàn)“生態(tài)進(jìn)化”,在下一代具有高適應(yīng)度的策略種群個(gè)體數(shù)量增加,具有低適應(yīng)度的策略種群個(gè)體數(shù)量減少。為了體現(xiàn)生態(tài)演化中的隨機(jī)突變,每代中都有極少比例的個(gè)體放棄原來的策略,從其他的策略中隨機(jī)選擇一種策略作為自己的策略,這個(gè)較小的概率為“隨機(jī)突變率(m)”。代代往復(fù),以此類推,每一代記為g。經(jīng)過這一系列的策略演化過程(選擇、博弈和突變),產(chǎn)生的新一代種群的數(shù)量不同于上一代,并一代代向增加整體適應(yīng)度的方向發(fā)展,因?yàn)樽詈玫牟呗钥偸蔷哂懈蟮目赡苄员贿x擇去產(chǎn)生下一代,而適應(yīng)度低的策略逐漸被淘汰,直到當(dāng)某一策略的適應(yīng)度達(dá)到飽和,也就是生態(tài)系統(tǒng)繼續(xù)演化也不會(huì)產(chǎn)生適應(yīng)度更高的個(gè)體時(shí),生態(tài)演化將終止。這一生態(tài)演化模擬實(shí)驗(yàn)的算法如表1所示。
表1 生態(tài)演化模擬實(shí)驗(yàn)的算法流程
Tab.1 Alogorithm of ecological evolution simulation
個(gè)體i持某一種初始策略;do{ 交互頻次=0; while(交互頻次 在參與模擬的初始策略的選擇上,本文分別選取原始TFT、CTFT、GTFT及FRAM策略進(jìn)行混合實(shí)驗(yàn),并加入FREE-RIDER用以檢驗(yàn)其他策略對(duì)抗背叛者入侵的能力,加入Random策略用于對(duì)比策略收益。Wu與Axelrod的工作[9]表明巴甫洛夫策略(WSLS策略)在這種多策略混合群體的生態(tài)模擬實(shí)驗(yàn)情景下的總體表現(xiàn)不佳,本文的實(shí)驗(yàn)中沒有加入該策略。參與模擬實(shí)驗(yàn)的各種策略簡(jiǎn)述為: 1)原始一報(bào)還一報(bào)策略(TFT)。博弈者在時(shí)間步t=1時(shí)無條件執(zhí)行C策略,在t>1時(shí)復(fù)制對(duì)手t-1時(shí)的策略。 2)寬容的一報(bào)還一報(bào)策略(GTFT)。博弈者在大部分的時(shí)間執(zhí)行一報(bào)還一報(bào)策略,對(duì)于對(duì)手的D策略以小概率(10%)進(jìn)行寬容而不采取報(bào)復(fù)性背叛,執(zhí)行C策略。 3)悔悟的一報(bào)還一報(bào)策略(CTFT)。博弈者在大部分的時(shí)間執(zhí)行一報(bào)還一報(bào)策略,如發(fā)現(xiàn)自己在t-1階段因噪音執(zhí)行了D策略,則在t階段糾正錯(cuò)誤,繼續(xù)執(zhí)行C策略。 4)靈活互惠利他策略(FRAM)。博弈者對(duì)于對(duì)手的背叛行為可以適度寬容,寬容等級(jí)分別為1至4級(jí),使用FRAM1,F(xiàn)RAM2,F(xiàn)RAM3和FRAM4分別代表FRAM中寬容等級(jí)1,2,3和4[17]。 5)搭便車策略(FREE-RIDER)。博弈者在每一次博弈中都無條件執(zhí)行D策略。 6)隨機(jī)策略。博弈者在每一個(gè)時(shí)間步t都以定值50%的概率采取C或者D的策略。 本文設(shè)定生態(tài)演化實(shí)驗(yàn)初始時(shí)系統(tǒng)內(nèi)有上述9種不同博弈策略,每種策略的個(gè)體數(shù)量均為30,參與博弈的個(gè)體總數(shù)為270。策略的隨機(jī)突變率m為1%,在演化實(shí)驗(yàn)的每一代中,每個(gè)個(gè)體要與所有其他個(gè)體兩兩博弈k次,系統(tǒng)共演化g=20 000代。所有博弈者具有相同的博弈矩陣T=5,R=3,P=1,S=0。為了研究噪音水平的影響,選取3個(gè)n值:n=5%,15%和30%。當(dāng)噪音水平達(dá)到50%,個(gè)體博弈兩次中就有一次受到干擾,此時(shí)所有策略均接近隨機(jī)策略,因此本研究選取50%以下3個(gè)典型值來進(jìn)行研究:n=5%時(shí),100次博弈有5次受到噪音干擾,受干擾程度較低;n=30%時(shí),100博弈有30次受到噪音干擾,受干擾程度較高,15%居于二者中間。為了研究不同的個(gè)體間交互頻次k對(duì)合作策略演化的影響,選取從小到大3種不同的代內(nèi)交互次數(shù)k=5,15和55。為了獲得穩(wěn)定的仿真結(jié)果,最終的數(shù)據(jù)是50次模擬的平均,即對(duì)每一次特定初始演化設(shè)定運(yùn)行50次。 圖1顯示了9種策略在交互頻次較小(k=5)時(shí),系統(tǒng)在3種不同水平的噪音影響下策略隨時(shí)間演化的結(jié)果。從圖1可見,當(dāng)每代個(gè)體交互頻次較低時(shí),不同水平的噪音對(duì)不同策略人數(shù)的變化趨勢(shì)影響很大,表現(xiàn)為低噪音環(huán)境(n=5%)中TFT策略占優(yōu),類TFT策略(GTFT和CTFT策略)人數(shù)緊隨其后,說明TFT策略群在噪音影響較小的情況下依然是系統(tǒng)的最優(yōu)策略,GTFT因?yàn)槟軌驅(qū)捜葺^低比例的背叛,平衡了部分噪音影響,從而成為低噪音環(huán)境中的次優(yōu)策略。在低噪音環(huán)境中,F(xiàn)REE-RIDER策略表現(xiàn)極差,種群人數(shù)幾乎為0,因?yàn)檫@個(gè)策略能夠被TFT及類TFT策略立即發(fā)現(xiàn)其背叛性,因此無法生存。當(dāng)n取值增大后,CTFT策略的優(yōu)勢(shì)逐漸顯現(xiàn),成為最優(yōu)策略,TFT對(duì)噪音敏感,因此表現(xiàn)受噪音影響較大,GTFT策略對(duì)噪音的寬容上限低于實(shí)際噪音,因此在高噪音環(huán)境中表現(xiàn)要受到影響。圖1說明在每代個(gè)體交互頻次較低的系統(tǒng)中,噪音等級(jí)對(duì)最后占優(yōu)策略有決定性影響;而根據(jù)個(gè)體之間交互歷史決定博弈行為的4種FRAM策略在k值較小的系統(tǒng)中不占優(yōu)勢(shì)。 圖2顯示了9種策略在中等交互頻次下(k=15),系統(tǒng)在3種不同水平的噪音影響下策略隨時(shí)間演化的結(jié)果。從圖2可見,在每代交互頻次居中時(shí),噪音水平對(duì)策略演化的影響較小,變化趨勢(shì)非常接近,CTFT策略最終在系統(tǒng)中成為占優(yōu)策略。這種情況的成因在于k值居中時(shí),每代內(nèi)個(gè)體間交互的次數(shù)既不會(huì)太頻繁也不會(huì)太稀少,CTFT策略既可以通過多次與對(duì)手交互相互合作積累收益,又具有較高的抗噪能力。TFT策略對(duì)背叛行為反應(yīng)過于敏感,在多輪次博弈中容易因?yàn)樵胍粲绊戇M(jìn)入輪流報(bào)復(fù)性背叛的困境,而GTFT策略的隨機(jī)寬容性不利于該策略在多輪次博弈中識(shí)別對(duì)手的主動(dòng)背叛行為。 圖3顯示了9種策略在交互頻次較高(k=55)時(shí),系統(tǒng)在3種不同水平的噪音影響下策略隨時(shí)間演化的結(jié)果。從圖3中可見,噪音水平較低和居中時(shí),策略演化趨勢(shì)非常接近,與圖2的策略演化的情況非常類似,表現(xiàn)為CTFT策略最終在系統(tǒng)中占據(jù)大多數(shù)。當(dāng)噪音水平較高時(shí),系統(tǒng)最優(yōu)策略發(fā)生了變化,F(xiàn)RAM1表現(xiàn)出了最高的適應(yīng)度,F(xiàn)RAM2是次優(yōu)策略,說明高噪音環(huán)境下,當(dāng)個(gè)體間交互異常頻繁時(shí),具有可控的容忍度并且能夠根據(jù)交互歷史容忍對(duì)手的非惡意背叛的個(gè)體,可以通過與對(duì)手建立長(zhǎng)期互惠的合作關(guān)系獲利,最終成為系統(tǒng)的統(tǒng)治性策略。 對(duì)比圖1、圖2和圖3,當(dāng)k值不同時(shí),噪音等級(jí)對(duì)合作策略演化的影響有差異。當(dāng)k值較小時(shí),系統(tǒng)中對(duì)背叛行為反應(yīng)迅速的策略占有優(yōu)勢(shì),此時(shí)噪音等級(jí)對(duì)最終系統(tǒng)最優(yōu)策略影響較大。隨著k值增大,系統(tǒng)中對(duì)背叛行為具有寬容和悔悟的策略表現(xiàn)出優(yōu)勢(shì),噪音等級(jí)對(duì)合作策略演化的影響降低。當(dāng)k值增大到50以上時(shí),系統(tǒng)中對(duì)背叛行為寬容度更高的FRAM策略的優(yōu)勢(shì)逐漸顯現(xiàn),噪音越大,F(xiàn)RAM策略的優(yōu)勢(shì)越明顯。同時(shí)圖1、圖2和圖3表明,噪音等級(jí)和每代交互頻次是兩個(gè)重要的系統(tǒng)參數(shù),在合作策略的演化上起決定性作用。 k噪音n5%15%30%1,2FREE?RIDERFREE?RIDERFREE?RIDER3,4TFTTFTTFT5TFTCTFTCTFT6?38CTFTCTFTCTFT39?50CTFTCTFTFRAM151?89CTFTFRAM1FRAM190?100FRAM1FRAM1FRAM2 表2顯示了在不同的噪音等級(jí)設(shè)定下,交互次數(shù)k取值從1到100,系統(tǒng)內(nèi)最終優(yōu)勝策略的情況。從表2中可見,當(dāng)k為1和2時(shí)博弈的贏家始終是FREE-RIDER,此時(shí)博弈本質(zhì)上是“一次性博弈”,交互次數(shù)極少時(shí),善良的策略無法識(shí)別出背叛者。當(dāng)k是3和4時(shí),TFT是系統(tǒng)演化后的勝出策略,TFT策略遇到FREE-RIDER時(shí)在第二步可以進(jìn)行反擊,同時(shí)TFT也能夠與其他善良的策略相互合作。當(dāng)k是5時(shí),低噪音系統(tǒng)內(nèi)TFT依然表現(xiàn)良好,當(dāng)噪音較高時(shí)CTFT成為了系統(tǒng)內(nèi)的最優(yōu)策略,原因在于TFT的抗噪音能力較低,CTFT是帶有悔悟的TFT策略,可以在發(fā)現(xiàn)自己的失誤性背叛行為后及時(shí)悔悟,重新恢復(fù)合作關(guān)系。當(dāng)k介于6到38時(shí),CTFT幾乎是系統(tǒng)運(yùn)行完畢后唯一留存的策略。當(dāng)k介于39到50時(shí),在高噪聲的系統(tǒng)內(nèi),F(xiàn)RAM1的表現(xiàn)超越了CTFT,成為系統(tǒng)最優(yōu)策略,并且隨著k的增加,F(xiàn)RAM策略的優(yōu)勢(shì)越來越明顯。FRAM是容忍程度更高的策略,當(dāng)每代內(nèi)交互頻次很高時(shí),F(xiàn)RAM策略能夠平衡掉噪音的影響。當(dāng)k增大到77以上時(shí),F(xiàn)RAM2策略超越了FRAM1策略,F(xiàn)RAM2是比FRAM1更具有容忍程度的策略。 一個(gè)顯著的結(jié)果是,在重復(fù)囚徒困境中,在不同的代內(nèi)交互頻次設(shè)定下,噪聲等級(jí)對(duì)博弈策略的演化具有影響。研究表明,GTFT,CTFT和FRAM策略都是具有抗噪能力的策略,交互頻次越高,CTFT和FRAM策略的優(yōu)勢(shì)越明顯。當(dāng)交互頻次較低時(shí),高噪音環(huán)境中CTFT策略的優(yōu)勢(shì)較為突出,低噪音環(huán)境中TFT策略依然是系統(tǒng)內(nèi)的最優(yōu)策略。 本文研究了在重復(fù)囚徒困境中噪聲水平和個(gè)體間交互頻次對(duì)博弈策略演化的影響。通過基于Agent的仿真實(shí)驗(yàn)分別研究了在一定k值設(shè)定下的噪音等級(jí)對(duì)系統(tǒng)內(nèi)博弈策略的影響。在實(shí)驗(yàn)中發(fā)現(xiàn),F(xiàn)RAM和CTFT策略在噪音等級(jí)高的環(huán)境中容易勝出,TFT策略在噪音等級(jí)低的環(huán)境中容易勝出。這說明噪音越大的環(huán)境越需要參與者的容忍和悔悟,而在噪音較低的環(huán)境下,迅速反擊對(duì)手的背叛行為才是最好的選擇。研究同時(shí)發(fā)現(xiàn)每代內(nèi)個(gè)體間交互頻次對(duì)系統(tǒng)博弈策略演化具有影響。從實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn),當(dāng)博弈參與者交互頻繁時(shí),F(xiàn)RAM系列的策略是最優(yōu)策略,CTFT策略次之;當(dāng)參與者交互頻次較低時(shí),F(xiàn)RAM和CTFT策略在最后不會(huì)成為生態(tài)演化實(shí)驗(yàn)的留存策略。在極端情況下,如交互頻次小于3時(shí),博弈成為一次性博弈,F(xiàn)REE-RIDER是最優(yōu)策略。個(gè)體間交互頻次體現(xiàn)了人群在一定時(shí)間內(nèi)的相遇次數(shù),也就是人群熟悉程度。當(dāng)人群熟悉程度較高時(shí),環(huán)境就是“熟人的村落”,那么具有容忍的策略(如FRAM策略)和具有悔悟的策略(如CTFT策略)就是人們會(huì)采取的策略。當(dāng)人群熟悉程度較低時(shí),個(gè)體間的相遇就是陌生人的游戲,那么“不合作”就成為理性人容易采取的策略。 從本研究的結(jié)論可知,環(huán)境對(duì)博弈策略的影響是巨大的。不考慮環(huán)境因素去研究合作策略是不全面的。一些研究認(rèn)為博弈策略應(yīng)具有學(xué)習(xí)對(duì)手策略的能力從而調(diào)整自身的策略,本文的研究表明,博弈策略還應(yīng)具有感知環(huán)境因素的能力,諸如噪聲等級(jí)和人群熟悉程度等。因此,本文的一項(xiàng)后續(xù)工作是研究具有環(huán)境感知能力的博弈策略。 [1]Hamilton A R. The evolution of cooperation [J]. Science,1981,211(3):1390-1396. [2]Nowak M. Five rules for the evolution of cooperation [J]. Science,2006,314(5805):1560-1563. [3]Huberman B A,Glance N S. Evolutionary games and computer simulations [J]. Proceedings of the National Academy Sciences,1993,(3):7716-7718. [4]Doz Y L. The evolution of cooperation in strategic alliances: initial conditions or learning processes? [J]. Strategic Management Journal,1996,17(s1):55-83. [5]Gómez-Gardenes J,Reinares I,Arenas A,et al. Evolution of cooperation in multiplex networks [J]. Scientific Reports,2012,2:620. [6]Santos F C,Pinheiro F L,Lenaerts T,et al. The role of diversity in the evolution of cooperation [J]. Journal of Theoretical Biology,2011,299:88-96.[7]王先甲,全吉,劉偉兵. 有限理性下的演化博弈與合作機(jī)制研究 [J]. 系統(tǒng)工程理論與實(shí)踐,2011, 31(S1): 82-93. Wang Xianjia,Quan Ji,Liu Weibing.Research on evolutionary garne and cooperation mechanism under bounded rationality[J].System Engineering Theory & Practice,2011,31(S1):82-93. [8]楊陽,榮智海,李翔. 復(fù)雜網(wǎng)絡(luò)演化博弈理論研究綜述 [J]. 復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2008,5(4):47-55. Yang Yang,Rong Zhihai,Li Xiang,A review of the evolution game theory of complex networks[J].Complex Systems and Complexity Science,2008,5(4):47-55. [9]Wu J,Axelrod R. How to cope with noise in the Iterated Prisoner’s Dilemma [J]. The Journal of Conflict Resolution,1995,39(1):183-189. [10] Axelrod R,Dion D. The further evolution of cooperation [J]. Science,1988,242(4884):1385-1390. [11] Nowak M,Sigmund K. Tit for tat in heterogeneous populations [J]. Nature,1992,355(6357):250-253. [12] Sugden R. The Evolution of Rights, Co-operation and Welfare[M]. Oxford: Blackwell,1986. [13] Boyd, R. Mistakes allow evolutionary stability in the repeated prisoner's dilemma game [J]. Journal of Theoretical Biology,1989,136(1):47-56.[14] Kraines D,Kraines V. Pavlov and the prisoner’s dilemma [J]. Theory and Decision,1989,26(3):47-79. [15] Kraines D,Kraines V. Learning to cooperate with pavlov an adaptive strategy for the iterated prisoner’s dilemma with noise [J]. Theory and Decision,1993,35:107-150. [16] Imhof L A,F(xiàn)udenberg D,Nowak M. Tit-for-tat or Win-stay, Lose-shift? [J]. Theory of Bioloyg,2007,247(3):574-580. [17] Zhao X,Xia H,Yu H,et al. Agents’ cooperation based on long-term reciprocal altruism[C]//Proceedings of the 25th International Conference on Industrial Engineering and Other Applications of Applied Intelligent Systems,2012,689-698. [18] Nowak M,Sigmund K. A strategy of win-stay, lose-shift that outperforms tit-for-tat in the Prisoner's Dilemma game [J]. Nature,1993,364(6432):56-58. [19] Hamilton A R.The Evolution of Cooperation[M]. New York:Basic Books,1984. [20] Molander P. The optimal level of generosity in a selfish, uncertain environment [J]. The Journal of Conflict Resolution,1985,29(4):611-618. [21] Zhang G Q,Sun Q B,Wang L. Noise-induced enhancement of network reciprocity in social dilemmas [J]. Chaos Solitons & Fractals,2013,3(3):31-35. [22] Yao Y,Chen S S. Multiplicative noise enhances spatial reciprocity [J]. Physica A,2014,413:432-437. (責(zé)任編輯 耿金花) Effects of Noise and Interaction Frequency on the Evolution of Cooperative Strategies ZHAO Xiaoweia,b,XIA Haoxianga,ZHANG Xiaob (a.Institute of Systems Engineering; b.School of Software Technology,Dalian University of Technology,Dalian 116024,China) Prisoner’s dilemma is an important tool to study the adaptation of cooperative strategies. Individuals can maximize their profits by cooperating with each other. In this paper, the method of ecological simulation is adopted to study the effects of noise and interaction frequency on the evolution of cooperative strategies in the context of the Noisy Iterated Prisoner’s Dilemma (NIPD), a version of the Iterated Prisoner’s Dilemma (IPD). The results illustrate that noise and interaction frequency are important factors to the surviving strategies. prisoner’s dilemma;evolution of cooperation;noise;evolution of strategies 10.13306/j.1672-3813.2016.04.013 2015 -04 -08; 2015-09-22 國(guó)家自然科學(xué)基金(71371040);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(DUT15QY40) 趙小薇(1978-),女,遼寧大連人,博士研究生,講師,主要研究方向?yàn)檠莼┺恼?、系統(tǒng)科學(xué)與系統(tǒng)工程。 F224.32; N94 A2 仿真與結(jié)果分析
3 結(jié)論