• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      復(fù)雜網(wǎng)絡(luò)上的演化博弈及其學(xué)習(xí)機(jī)制與演化動(dòng)態(tài)綜述

      2021-09-18 02:53:38王先甲
      閱江學(xué)刊 2021年3期
      關(guān)鍵詞:復(fù)雜網(wǎng)絡(luò)演化博弈博弈論

      摘要:博弈論是在完全理性假設(shè)下研究多人相互作用的選擇理論,演化博弈是在有限理性假設(shè)下研究群體在相互作用過(guò)程中基于個(gè)體學(xué)習(xí)與選擇的群體特征演化動(dòng)態(tài)理論,網(wǎng)絡(luò)上的演化博弈是研究結(jié)構(gòu)化群體的演化博弈理論。本文回顧了基于完全理性的博弈論,在對(duì)有限理性新的理解的基礎(chǔ)上介紹了演化博弈理論的發(fā)展歷程,著重論述了復(fù)雜網(wǎng)絡(luò)理論與演化博弈理論交叉衍生的復(fù)雜網(wǎng)絡(luò)上的演化博弈的研究現(xiàn)狀與發(fā)展趨勢(shì),特別分析和總結(jié)了演化博弈中最基本、最核心的個(gè)體學(xué)習(xí)機(jī)制與群體演化動(dòng)態(tài)特征,由此揭示演化博弈中從個(gè)體微觀行為到群體宏觀特征的演化機(jī)理。

      關(guān)鍵詞:博弈論;演化博弈;復(fù)雜網(wǎng)絡(luò);復(fù)雜網(wǎng)絡(luò)上的演化博弈;學(xué)習(xí)機(jī)制;演化動(dòng)態(tài)

      中圖分類號(hào):F224.32? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章分類號(hào):1674-7089(2021)03-0070-15

      基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目“復(fù)雜網(wǎng)絡(luò)上演化博弈合作形成機(jī)理與控制策略”(71871171);國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目“學(xué)習(xí)機(jī)制下群體博弈行為演化與管理實(shí)驗(yàn)”(72031009)

      作者簡(jiǎn)介:王先甲,博士,武漢大學(xué)經(jīng)濟(jì)與管理學(xué)院教授、博士生導(dǎo)師。

      一、引 言

      微觀經(jīng)濟(jì)學(xué)主要研究完全理性假設(shè)基礎(chǔ)上的個(gè)體選擇。古典經(jīng)濟(jì)學(xué)把消費(fèi)者問(wèn)題和生產(chǎn)者問(wèn)題分別看成獨(dú)立的個(gè)體優(yōu)化選擇問(wèn)題,消費(fèi)者與生產(chǎn)者之間通過(guò)無(wú)形的市場(chǎng)相互聯(lián)系。直到1959年,Debreu在著作中建立一般均衡理論,Debreu G, Theory of Value,New Haven: Yale University Press, 1959. 把消費(fèi)者與生產(chǎn)者納入一個(gè)經(jīng)濟(jì)系統(tǒng)內(nèi),通過(guò)他們的相互作用確定市場(chǎng)均衡。這種思想和分析框架與Nash建立博弈論的思想與框架幾乎完全一致。這種看起來(lái)十分完美的一般均衡理論至少存在兩個(gè)弱點(diǎn):一是仍然以完全理性為前提假設(shè);二是無(wú)法展示市場(chǎng)均衡的形成過(guò)程,因?yàn)樗举|(zhì)上是消費(fèi)者和生產(chǎn)者同時(shí)決策形成的。雖然存在這些弱點(diǎn),卻產(chǎn)生了一大進(jìn)步,那就是經(jīng)濟(jì)學(xué)界從此不太排斥用博弈論研究多個(gè)個(gè)體間的相互作用了。然而,多個(gè)個(gè)體相互作用通常是一個(gè)過(guò)程,并且每個(gè)個(gè)體無(wú)法預(yù)期作用過(guò)程的未來(lái),這使得基于完全理性的決策失去了基礎(chǔ),因?yàn)閷?duì)未來(lái)的不可知性使決策者不知道怎樣進(jìn)行理性選擇。因此,多個(gè)個(gè)體在相互作用過(guò)程中對(duì)未來(lái)預(yù)期未知時(shí)如何選擇就成為需要研究的重要問(wèn)題。演化博弈為開(kāi)展這類問(wèn)題的研究提供了分析工具。演化博弈在有限理性假設(shè)下探討群體在相互作用過(guò)程中的個(gè)體行為選擇規(guī)則及群體行為演化。也就是說(shuō),在群體相互作用過(guò)程中個(gè)體是按某種規(guī)則進(jìn)行選擇而不是按完全理性假設(shè)來(lái)選擇。既然群體博弈是一個(gè)過(guò)程,那么個(gè)體的行為選擇也可能是一個(gè)過(guò)程,個(gè)體會(huì)在這個(gè)過(guò)程中不斷學(xué)習(xí)以便選擇對(duì)自己更有利的行為。因此,個(gè)體選擇行為時(shí)所依據(jù)的規(guī)則本質(zhì)上就是通過(guò)某種學(xué)習(xí)機(jī)制確定的。每個(gè)個(gè)體選擇自己的行為后形成群體整體的狀態(tài)(也稱系統(tǒng)狀態(tài)),群體狀態(tài)刻畫(huà)了群體在相互作用過(guò)程中不同時(shí)刻的特征,不同時(shí)刻狀態(tài)間的關(guān)系一般稱為狀態(tài)轉(zhuǎn)移(也稱為演化動(dòng)態(tài),有時(shí)也將演化動(dòng)態(tài)理解為狀態(tài)轉(zhuǎn)移過(guò)程的極限)。當(dāng)組成群體的個(gè)體間具有某種特殊聯(lián)系時(shí),該群體被稱為結(jié)構(gòu)化群體。因?yàn)榫W(wǎng)絡(luò)是描述結(jié)構(gòu)化群體的基本工具,且結(jié)構(gòu)關(guān)系會(huì)發(fā)生各種復(fù)雜的變化,所以在研究結(jié)構(gòu)化群體的相互作用過(guò)程時(shí),復(fù)雜網(wǎng)絡(luò)上的演化博弈就成為觀注的重點(diǎn)。本文試圖對(duì)復(fù)雜網(wǎng)絡(luò)上的演化博弈等相關(guān)問(wèn)題的研究狀況與發(fā)展趨勢(shì)進(jìn)行簡(jiǎn)要的回顧與總結(jié)。

      二、博弈論發(fā)展歷程回顧

      博弈論是研究理性決策者之間競(jìng)爭(zhēng)與合作關(guān)系的數(shù)學(xué)方法,其分析范圍較廣,幾乎包括社會(huì)科學(xué)領(lǐng)域所有的基本問(wèn)題。Myerson R, Game Theory: Analysis of Conflict, Cambridge: Harvard University Press, 1991.實(shí)際上,競(jìng)爭(zhēng)與合作行為一直伴隨著人類的發(fā)展。一般認(rèn)為最早涉及人類博弈行為的著作是2000多年以前中國(guó)春秋時(shí)期的《孫子兵法》,Sun T, The Art of War, Translated by Cleary T, Boston & London: Shambala, 1988.記錄戰(zhàn)爭(zhēng)藝術(shù)的著作《三國(guó)演義》也是研究博弈行為的智慧結(jié)晶。但這些相對(duì)零星的研究成果只是展現(xiàn)了人類博弈行為的某個(gè)側(cè)面,尚未從科學(xué)意義上對(duì)人類博弈行為進(jìn)行定量分析。最早采用定量方法分析人類博弈行為的研究發(fā)生在經(jīng)濟(jì)學(xué)領(lǐng)域,Cournot、Bertrand、Edgeworth分別探討了寡頭產(chǎn)量競(jìng)爭(zhēng)、寡頭價(jià)格競(jìng)爭(zhēng)和壟斷競(jìng)爭(zhēng)。Cournot A,Recherches sur les Principes Mathématiques de la théorie des Richesses,Paris: Hachette, 1838. Bertrand J, “Théorie mathématique de la richesse sociale”, Journal des Savants, vol.68(1883), pp.499-508. Edgeworth F, “La teoria pura del monopoli”,?Giornale degli Economisti, vol.40(1897), pp.13-31.經(jīng)典兒童文學(xué)名著《愛(ài)麗絲漫游仙境》的作者Dodgson(后來(lái)更名為L(zhǎng)ewis Carroll)也是一位數(shù)學(xué)家,他用零和博弈研究政治問(wèn)題。Black D, “Lewis carroll and the theory of games”, American Economic Review, vol.59, no.2(2001), pp.206-210. Dodgson C L, The Principles of Parliamentary Representation, London: Harrison, 1884.這些工作成功地在人類特定領(lǐng)域的博弈行為研究中引入了定量方法,但是還不能算是正式的博弈論研究工作。Zermelo開(kāi)啟了博弈論的第一個(gè)正式的研究工作,Zermelo E, “ber eine anwendung der mengenlehre auf die theorie des schachspiels”, In Hobson E W, Love A E H, eds., Proceedings of the Fifth International Congress of Mathematicians, vol.II, Cambridge: Cambridge University Press, 1913, pp.501-504.他除了建立集合論公理體系框架之外,還首次用博弈論研究了國(guó)際象棋。博弈論研究的第一個(gè)里程碑式的工作應(yīng)該是由Von Neumann完成的,他于1928年比較完整地給出了零和博弈模型及其解的概念,Von Neumann J, “Zur theorie der gesellschaftsspiele”, Mathematische Annalen, vol.100, no.1(1928), pp.295-320. Von Neumann J, Morgenstern O, Theory of Games and Economic Behavior, Princeton: Princeton University Press, 1944.后來(lái)的主要研究者實(shí)際上都受到這一工作的啟發(fā)。Von Neumann和Morgenstern建立了決策理論的公理體系、零和博弈與非零和博弈的分析框架,并將其運(yùn)用于經(jīng)濟(jì)學(xué)研究,但是他們的理論局限于矩陣博弈。

      博弈論更一般的模型和解的概念及其分析框架是由Nash建立的,他對(duì)多人相互作用關(guān)系給出了更一般的描述并提出了Nash均衡解概念。Nash的研究工作和思想在很大程度上受到Von Neumann的影響,但在適應(yīng)范圍和分析框架方面又有本質(zhì)的拓展,使博弈論最終成為研究多人相互作用行為的一般工具。Nash在20世紀(jì)50年代發(fā)表的關(guān)于博弈論的幾篇著名論文奠定了非合作博弈的理論基礎(chǔ)。Nash J F, “Bargaining problem”, Econometrica, vol.18, no.2(1950), pp.155-162. Nash J F, “Non-cooperative games”, Annals of Mathematics, vol.54, no.2(1951), pp.286-295. Nash J F, “Two-person cooperative games”, Econometrica, vol.21, no.1(1953), pp.128-140.然而,由于Nash的研究工作以完全信息為基礎(chǔ),具有極強(qiáng)的數(shù)學(xué)理論性且不能處理經(jīng)濟(jì)學(xué)中幾乎無(wú)處不在的不確定性信息問(wèn)題,所以最初并未被經(jīng)濟(jì)學(xué)界所接受。Harsanyi于1977年在著作中建立了一套解釋和描述多人相互作用中的不完全信息理論,Harsanyi J C, Rational Behavior and Bargaining Equilibrium in Games and Social Situations, Cambridge: Cambridge University Press, 1977.提出了Baysian Nash均衡解概念和不完全信息非合作博弈論。但是Nash和Harsanyi的研究只能處理靜態(tài)的非合作博弈,即博弈各方只能同時(shí)進(jìn)行一次行為選擇,不能處理多人相互作用過(guò)程的動(dòng)態(tài)博弈問(wèn)題。Selten、Kreps、Wilson建立了多階段動(dòng)態(tài)非合作博弈理論,Selten R, “Reexamination of the perfectness concept for equilibrium points in extensive game”, International Game Theory, vol.4, no.1(1975), pp.25-55. Kreps D, Wilson R, “Sequential equilibrium”, Economietrica,?vol.50, no.4 (1982), pp.863-894. 提出了子博弈完美Nash均衡概念和“顫抖手”精煉均衡概念。由于在非合作博弈研究中的杰出工作,Nash、Harsanyi和Selten三人在1994年被授予諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)。

      Tucker于1950年發(fā)現(xiàn)囚徒困境現(xiàn)象,Tucker A W, A Two-person Dilemma, Unpublished notes, Stanford University, 1950.為非合作博弈的研究提供了典型原型,也揭示了博弈論與決策理論的重要區(qū)別,決策理論研究單人在理性假設(shè)下的決策行為,決策主體尋求的是能使自身偏好最優(yōu)的行為選擇,而在Nash的博弈論框架下理性人的行為出現(xiàn)了一種由囚徒困境所表征的特點(diǎn),即個(gè)體理性與集體理性的沖突。實(shí)際上,囚徒困境現(xiàn)象在實(shí)踐中廣泛存在,Cournot的數(shù)量競(jìng)爭(zhēng)模型也是囚徒困境。這種十分簡(jiǎn)單的博弈模型卻導(dǎo)致博弈出現(xiàn)了幾個(gè)不同的發(fā)展方向,其中一個(gè)是合作博弈。雖然Von Neumann和Morgenstern建立了合作博弈的基本框架,但是合作博弈的研究在20世紀(jì)50年代中期到60年代中后期才有了較快的發(fā)展,這一時(shí)期經(jīng)濟(jì)學(xué)界正在懷疑Nash提出的非合作博弈,因?yàn)樗荒芴幚聿煌耆畔⒍a(chǎn)生了可應(yīng)用性問(wèn)題。合作博弈按效用的可轉(zhuǎn)移性可以分為效用可轉(zhuǎn)移型和效用不可轉(zhuǎn)移型,Aumann較早研究了效用不可轉(zhuǎn)移合作博弈,Aumann R J, “The core of a cooperative game without side payment”, Transactions of the American Mathematical Society, vol.98, no.3(1961), pp.539-552.隨后關(guān)于效用不可轉(zhuǎn)移合作博弈的研究雖然并不多但依然沿用Aumann的框架。自Von Neumann和Morgenstern構(gòu)建效用可轉(zhuǎn)移合作博弈的框架以來(lái),合作博弈基于特征函數(shù),主要研究聯(lián)盟成員如何合理有效地分配收益。圍繞合理有效地在聯(lián)盟中分配收益問(wèn)題建立解概念及公理體系是合作博弈理論發(fā)展的中心。1953年Gillies引入了核(Core)作為合作博弈解的概念,Gillies D, Some Theorems on N-person Games, Princeton: Princeton University Press, 1953.這個(gè)解概念具有給出的分配方案對(duì)任何子結(jié)盟沒(méi)有誘導(dǎo)性的特性,但它不是單值的而是集值的。在合作博弈中集值解概念為數(shù)不少,Aumann和Mascher提出的合作博弈協(xié)商集解概念是集值的,Aumann R J, Maschler M, “The bargaining set for cooperative game”, Advances in Game Theory, vol.52(1964), pp.443-476.Peleg的內(nèi)核(Kernel)解概念、Maschler的預(yù)核(Prekernel)解概念等都是集值解概念。Peleg B, Vorobev N N, Tóth L F, “On the kernel of comstant-sum simple games with homogeneous weights”, Illinois Journal of Mathematics, vol.10(1966), pp.39-48. Maschler M, Peleg B, Shapley L S, “The kernel and bargaining set for convex games” , International Journal of Game Theory, vol.1, no.1(1971), pp.73-93. 而Shapley在1953年提出了一個(gè)著名的單值解概念,Shapley L S, “A value for n-person games”, In Tucker A W, Kuhn H W, eds., Contributions to the Theory of Games,vol.II, Princeton: Princeton University Press, 1953, pp.307-317.稱為Shapley值,這個(gè)解概念可解釋為每個(gè)個(gè)體得到的收益是其所有可能的邊際貢獻(xiàn)的平均值,并且Shapley用一組公理完全刻畫(huà)了這個(gè)單值解概念。單值解概念還包括Schmeidler的核仁(Nucleolus)(它的表示形式雖然是集合,但由于采用字典序定義,實(shí)際上是一個(gè)單值解概念)、Tijs的τ值和平均字典值解概念。Schmeidler D, “The nucleolus of a characteristic function game”, Siam Journal on Applied Mathematiics, vol.17(1969), pp.1163-1170. Tijs S H, “Bounds for the core of a game and the τ-value” In Moeschlin O, Pallaschke D, eds.,Game Theory and Mathematical Economics, Amsterdam: North-Holland, 1981, pp.123-132. Peleg和Sudhlter是合作博弈解概念公理化分析的集大成者。Peleg B, Sudhlter P, Introduction to the Theory of Cooperative Games, Boston: Kluwer Academic Publishers, 2007.在合作博弈研究中,Shapley的研究工作被認(rèn)為是開(kāi)創(chuàng)性的,被統(tǒng)稱為關(guān)于穩(wěn)定分配(匹配)與市場(chǎng)設(shè)計(jì)的研究,他與Roth一起獲得2012年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)。當(dāng)前,博弈論幾乎在所有涉及多智能體(包括人和生物)的領(lǐng)域得到了發(fā)展和應(yīng)用。Aumann和Hart、Young和Zamir出版了四本博弈論手冊(cè),Aumann R J, Hart S, Handbook of Game Theory with Economic Applications, vol.1, Amsterdam: North-Holland, 1992. Aumann R J, Hart S, Handbook of Game Theory with Economic Applications, vol.2, Amsterdam: North-Holland, 1994. Aumann R J, Hart S, Handbook of Game Theory with Economic Applications, vol.3, Amsterdam: North-Holland, 2002.Young H P, Zamir S, Handbook of Game Theory with Economic Applications, vol.4, Amsterdam: North-Holland, 2015.堪稱博弈論全書(shū),這套博弈論手冊(cè)共分80個(gè)專題對(duì)博弈論進(jìn)行了較詳細(xì)的論述。

      三、演化博弈論的發(fā)展歷程回顧

      盡管在過(guò)去幾十年里,博弈論得到了長(zhǎng)足發(fā)展,但仍然存在一些缺陷。第一,經(jīng)典博弈論(包括合作博弈與非合作博弈)假設(shè)參與人是完全理性的。在決策理論意義下,一個(gè)決策者是理性的是指他可以選擇與自己偏好一致的最優(yōu)決策(行為)。而在博弈論意義下,參與人是理性的是指參與人選擇的策略(行為)在博弈中不被嚴(yán)格占優(yōu)。這個(gè)定義是一種否定表示形式,它并未告訴人們直接選擇什么。第二,以Nash均衡為基礎(chǔ)來(lái)定義解概念給出了多人相互關(guān)系中所有參與人共同的合理的理性預(yù)期,雖然它在本質(zhì)上是所有參與人的選擇互為最優(yōu)反應(yīng)的結(jié)果,卻無(wú)法給出這種基于最優(yōu)反應(yīng)的均衡的形成過(guò)程,也不能討論均衡的穩(wěn)定性。第三,多重均衡問(wèn)題導(dǎo)致經(jīng)常無(wú)法排除明顯不合理的均衡,進(jìn)而影響參與人做出最終選擇。第四,對(duì)合作的理解存在分歧。合作博弈將合作理解為結(jié)盟,而非合作博弈把合作理解為參與人選擇對(duì)他人有利的策略(行為)。第五,無(wú)法反映參與人的學(xué)習(xí)過(guò)程。演化博弈雖然源于生物學(xué),但是之所以被列入博弈論的范疇,正是因?yàn)樗谝欢ǔ潭壬匣卮鹆松鲜鑫鍌€(gè)問(wèn)題。

      (一)有限理性

      完全理性假設(shè)是經(jīng)典博弈論和經(jīng)典經(jīng)濟(jì)學(xué)理論的基石,也是它們?cè)馐苜|(zhì)疑的首要問(wèn)題。與完全理性相對(duì)立的是有限理性。理性本質(zhì)上是討論人在決策時(shí)選擇行為的依據(jù)或原則。亞當(dāng)·斯密最早在其著作《國(guó)富論》中提出經(jīng)濟(jì)人概念,后來(lái)被約翰·穆勒等人總結(jié)為經(jīng)濟(jì)人假設(shè),經(jīng)濟(jì)人假設(shè)指出人總是做出使自己利益最大化的決策。Von Neumann和Morgenstern建立的經(jīng)典決策理論中以完全理性假設(shè)作為決策者或博弈參與人的行為選擇原則,這里的完全理性假設(shè)與經(jīng)濟(jì)人假設(shè)是一致的。

      美國(guó)經(jīng)濟(jì)學(xué)家Arrow很可能是最早提出有限理性概念的學(xué)者,Arrow K J, “Rational choice functions and ordings”, Economica, vol.26, no.102(1959), pp.121-127.他認(rèn)為,人的行為是有意識(shí)理性的,但這種理性又是有限的。Simon一直是有限理性概念的倡導(dǎo)者,Simon H A, “A behavioral model of rational choice”, Quarterly Journal of Economics, vol.69,no.1(1955), pp.99-118.他認(rèn)為,人類的認(rèn)知能力在心理上存在臨界極限,決策中的推理活動(dòng)需要足夠的能力來(lái)支撐,而人類只有有限能力,決策中需要大量的信息,而能獲得的信息是有限的。因此,決策者并非總是可以實(shí)現(xiàn)其最優(yōu)決策,即決策者的決策是在有限理性下的決策。自從Simon認(rèn)為有限理性是建立決策理論的基石以來(lái),[美]赫伯特·西蒙:《現(xiàn)代決策理論的基石》,楊礪、徐立譯,北京:北京經(jīng)濟(jì)學(xué)院出版社,1989年,第1頁(yè)。Simon H A, “Bounded rationality and organizational learning”, Organization Science, vol.2, no.1(1991), pp.125-134.不少學(xué)者總結(jié)了對(duì)各種有限理性進(jìn)行解釋和描述的模型。Selten R, “Features of experimentally observed bounded rationality”, European Economic Review, vol.42, no.3(1998), pp.413-436. Arthur W B, “Designing economic agents that act like human agents:A behavioral-approach to bounded rationality”, American Economic Review, vol.81, no.2(1991), pp.353-359. Wall K D, “A model of decision-making under bounded rationality”, Journal of Economic Behavior & Organization, vol.20, no.3(1993), pp.331-352. Board R, “Polynomially bounded rationality”, Journal of Economic Theory,?vol.63, no.2(1994), pp.246-270. Samuelson L, “Bounded rationality and game theory”, Quarterly Review of Economics and Finance, vol.36, no.s1(1996), pp.17-35.大多數(shù)學(xué)者認(rèn)為,決策者在決策過(guò)程中可以通過(guò)不斷學(xué)習(xí)提高有限的知識(shí)水平、有限的推理能力、有限的信息處理能力,從而使有限理性得到不斷改善。Thaler獲得2017年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)的工作就是通過(guò)探索有限理性展示人格特質(zhì)如何系統(tǒng)地影響個(gè)人決策與市場(chǎng)。Thaler R H, Misbehaving: The Making of Behavioral Economics, New York:W. W. Norton & Co., 2015.

      雖然關(guān)于有限理性的多項(xiàng)研究成果已經(jīng)獲得了幾屆諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng),但是人們?nèi)匀徽J(rèn)為,對(duì)有限理性的理解僅限于局部的、定性的分析,決策論學(xué)者、博弈論學(xué)者、經(jīng)濟(jì)學(xué)學(xué)者并未形成共識(shí)。人們對(duì)有限理性與完全理性有如下理解:當(dāng)決策者面對(duì)決策問(wèn)題時(shí),如果決策者對(duì)當(dāng)前和未來(lái)的信息結(jié)構(gòu)和偏好結(jié)構(gòu)具有完全知識(shí),他將按完全理性假設(shè)確定的決策規(guī)則選擇行為,否則,他將按其他規(guī)則選擇行為。根據(jù)有限知識(shí)、有限信息、有限推理能力確定的規(guī)則做出行為選擇,稱為有限理性下的選擇。本質(zhì)上,有限理性出現(xiàn)的原因是決策者不能完全掌握信息結(jié)構(gòu)和偏好結(jié)構(gòu)。決策者在有限理性假設(shè)下做出行為選擇所依據(jù)的規(guī)則應(yīng)該有利于改善他的收益。這樣就可以連續(xù)統(tǒng)一地解釋完全理性假設(shè)和有限理性假設(shè)下的選擇行為。決策者可以通過(guò)各種途徑改善知識(shí)、信息和推理能力,從而改善有限理性,改善的標(biāo)志是決策者的收益提高了。決策者面臨決策問(wèn)題將以改善收益為目的,不斷增進(jìn)對(duì)信息結(jié)構(gòu)與偏好結(jié)構(gòu)的理解,從而使理性的有限性得到改善,直到對(duì)信息結(jié)構(gòu)和偏好結(jié)構(gòu)完全掌握,就能夠按照完全理性確定的規(guī)則選擇行為了。

      引入學(xué)習(xí)的觀點(diǎn)具有必然性,因?yàn)闆Q策者會(huì)通過(guò)不斷學(xué)習(xí)改善理性的有限性并適時(shí)調(diào)整策略。如果將這種通過(guò)不斷學(xué)習(xí)更新有限理性并調(diào)整策略的特征置入群體相互關(guān)系中,那么群體成員通過(guò)隨機(jī)配對(duì)進(jìn)行反復(fù)博弈、學(xué)習(xí)、調(diào)整策略,最終會(huì)顯示出個(gè)體(類型或策略)適應(yīng)性。這種思路與達(dá)爾文自然選擇思想形成的生物進(jìn)化理論的分析框架幾乎完全相同,人類與生物的很多行為(比如競(jìng)爭(zhēng)與合作)具有相似性,二者的學(xué)習(xí)方式完全可能互相啟示。于是,生物學(xué)家Maynard和Price借鑒了研究生物種群群體狀態(tài)進(jìn)化和穩(wěn)定機(jī)制的方法來(lái)分析人類的行為,將生物進(jìn)化理論的思想引入博弈論,提出了演化博弈思想和演化穩(wěn)定均衡策略的概念。這種起源于生物進(jìn)化理論的博弈分析方法就被稱為演化博弈論。

      (二)演化博弈論的發(fā)展歷程回顧

      實(shí)際上,演化博弈思想最早應(yīng)該源于Fisher在1930年開(kāi)展的研究工作,F(xiàn)isher R A, The Genetical Theory of Natural Selection, Oxford: Clarendon Press, 1930.但遺憾的是他沒(méi)有給出演化博弈的形式化表示與分析框架。Maynard和Price首先提出了源于生物學(xué)的演化博弈,并給出其形式化表示,Maynard S J, Price G R, “The logic of animal conflict”, Nature, vol.246, no.5427(1973), pp.15-18.后經(jīng)Taylor、Jonker、Selten發(fā)展而成。Taylor P D, Jonker L B, “Evolutionary stable strategies and game dynamics”, Mathematical Biosciences, vol.40, no.1(1978), pp.145-156. Selten R, “Evolutionary stability in extensive two-person games”, Mathematical Social Sciences, vol.5, no.3(1983), pp.269-363.演化博弈將生物學(xué)中的演化概念用于解釋生物或人的選擇行為是有限理性假設(shè)下基于規(guī)則的選擇過(guò)程,并將群體博弈描述成一個(gè)過(guò)程,在動(dòng)態(tài)系統(tǒng)穩(wěn)定與博弈論的Nash均衡之間建立起聯(lián)系,使得展現(xiàn)Nash均衡的實(shí)現(xiàn)過(guò)程成為可能。Weibull對(duì)1995年之前的演化博弈論研究進(jìn)展進(jìn)行了系統(tǒng)的總結(jié)。Weibull J W, Evolutionary Game Theory, Cambridge: The MIT Press, 1995.

      作為研究生物認(rèn)識(shí)的方法,演化博弈關(guān)注個(gè)體的行為表現(xiàn)特征而非生物組織內(nèi)在的基因特征。于是,演化博弈形成的基礎(chǔ)被認(rèn)為是生物特征學(xué)的三個(gè)基本原則,即個(gè)體異質(zhì)性、適應(yīng)性和自然選擇。表現(xiàn)型由基因庫(kù)的多樣性保障,表現(xiàn)型的成功生存可以用適應(yīng)性測(cè)量,自然選擇決定了更適應(yīng)的表現(xiàn)型比更不適應(yīng)的表現(xiàn)型在下一代繁殖中有更多的數(shù)量。變異(突變)是由偶然因素引起的,多數(shù)突變者因表現(xiàn)型行為不適應(yīng)環(huán)境而被淘汰,少數(shù)突變者將因新的表現(xiàn)型更適應(yīng)環(huán)境而生存。Maynard和Price提出了演化博弈解的概念,Maynard S J, Price G R, “The logic of animal conflict”, Nature, vol.246, no.5427(1973), pp.15-18.即演化穩(wěn)定均衡(策略)。演化穩(wěn)定策略有如下性質(zhì):對(duì)己方而言,對(duì)手以小概率選擇變異策略時(shí),演化穩(wěn)定策略嚴(yán)格占優(yōu)于變異策略。從傳統(tǒng)的博弈論觀點(diǎn)來(lái)理解就是:對(duì)己方而言,如果對(duì)手在演化穩(wěn)定策略和變異策略之間隨機(jī)選擇并以很小的概率選擇該變異策略時(shí),演化穩(wěn)定策略嚴(yán)格占優(yōu)于變異策略。從生物學(xué)觀點(diǎn)來(lái)理解就是:如果演化穩(wěn)定策略種群被變異策略種群中的一小部分入侵,演化穩(wěn)定策略種群在抵御該小變異種群過(guò)程中比變異種群有更強(qiáng)大的生存能力,表明演化穩(wěn)定策略種群在抵御變異策略種群時(shí)具有穩(wěn)定性。演化穩(wěn)定策略還可以解釋為:對(duì)己方而言,演化穩(wěn)定策略對(duì)抗任何變異策略得到的收益嚴(yán)格大于該變異策略得到的收益。

      根據(jù)演化穩(wěn)定策略的定義,可以證明演化穩(wěn)定策略也是Nash均衡策略。由于Nash均衡策略是互為最優(yōu)反應(yīng)策略,所以也可以認(rèn)為演化穩(wěn)定策略是對(duì)任意策略的嚴(yán)格意義下的最優(yōu)反應(yīng)策略。由于可以將演化穩(wěn)定策略理解成Nash均衡策略的一種精煉,所以它成為解決多重Nash均衡的一種方法。演化動(dòng)態(tài)將演化穩(wěn)定策略與生物演化(進(jìn)化)巧妙地聯(lián)系起來(lái),演化動(dòng)態(tài)描述了演化過(guò)程中個(gè)體改變策略的規(guī)則,包括演化系統(tǒng)結(jié)構(gòu)、個(gè)體特征、策略的更新規(guī)則。它反映了基于適應(yīng)性和學(xué)習(xí)性選擇進(jìn)化的本質(zhì)。從數(shù)學(xué)上講,演化動(dòng)態(tài)是系統(tǒng)歷史在當(dāng)前時(shí)刻的動(dòng)態(tài)映射。在復(fù)制(演化)動(dòng)態(tài)關(guān)系下,可以證明漸近穩(wěn)定點(diǎn)與演化穩(wěn)定策略是等價(jià)的。Peters H, Game Theory: A Multi-leveled Approach, Berlin: Springer Verlag, 2008.這樣就把有限理性下某種演化動(dòng)態(tài)的演化穩(wěn)定策略與完全理性下的Nash均衡策略有機(jī)聯(lián)系了起來(lái)。基于這一思想,Maynard建立了演化博弈的分析框架,Maynard S J, Evolution and the Theory of Games, Cambridge: Cambridge University, 1982.可以說(shuō)是演化博弈的奠基之作。演化動(dòng)態(tài)是演化博弈的核心概念,演化動(dòng)態(tài)可分成確定性演化動(dòng)態(tài)和隨機(jī)性演化動(dòng)態(tài),一般來(lái)講,對(duì)任何確定性演化動(dòng)態(tài)都可以構(gòu)造相應(yīng)的隨機(jī)演化動(dòng)態(tài)。

      四、復(fù)雜網(wǎng)絡(luò)上的演化博弈發(fā)展現(xiàn)狀與發(fā)展趨勢(shì)

      (一)復(fù)雜網(wǎng)絡(luò)理論

      復(fù)雜網(wǎng)絡(luò)理論是用網(wǎng)絡(luò)工具研究由多個(gè)基本單元通過(guò)復(fù)雜相互作用構(gòu)成的復(fù)雜系統(tǒng)的方法。主要研究不同網(wǎng)絡(luò)拓?fù)淠P图捌浣y(tǒng)計(jì)特性、復(fù)雜網(wǎng)絡(luò)形成機(jī)制、復(fù)雜網(wǎng)絡(luò)上的動(dòng)力學(xué)行為規(guī)律。

      由于現(xiàn)實(shí)中存在大量的復(fù)雜相互作用關(guān)系,復(fù)雜網(wǎng)絡(luò)被認(rèn)為是對(duì)大量真實(shí)復(fù)雜相互作用關(guān)系系統(tǒng)在結(jié)構(gòu)關(guān)系上的拓?fù)涑橄?。?fù)雜網(wǎng)絡(luò)以網(wǎng)絡(luò)為描述工具,于是,網(wǎng)絡(luò)理論自然成為研究復(fù)雜網(wǎng)絡(luò)的基礎(chǔ)。網(wǎng)絡(luò)理論起源于圖論,段志生:《圖論與復(fù)雜網(wǎng)絡(luò)》,《力學(xué)進(jìn)展》,2008年第6期,第702-712頁(yè)。圖論源于數(shù)學(xué)家Euler在1736年訪問(wèn)加里寧格勒時(shí)發(fā)現(xiàn)的七座橋散步問(wèn)題。圖論是研究圖的各種性質(zhì)的學(xué)問(wèn)。圖是由節(jié)點(diǎn)的集合和連接節(jié)點(diǎn)的邊的集合構(gòu)成的二元組,節(jié)點(diǎn)代表個(gè)體,邊代表個(gè)體之間的相互作用關(guān)系。網(wǎng)絡(luò)是被賦予某種特定意義的圖。網(wǎng)絡(luò)理論是研究具有特定意義的有限個(gè)體相互作用關(guān)系的工具。

      最簡(jiǎn)單的復(fù)雜網(wǎng)絡(luò)是規(guī)則網(wǎng)絡(luò),主要包括格網(wǎng)絡(luò)、全局耦合網(wǎng)絡(luò)和最鄰近耦合網(wǎng)絡(luò)。Perc M, Jordan J J, Rand D G, et al, “Statistical physics of human cooperation”, Physics Reports, vol.687(2017), pp.1-51.復(fù)雜網(wǎng)絡(luò)的復(fù)雜性主要利用結(jié)構(gòu)復(fù)雜性來(lái)刻畫(huà),比如高聚類系數(shù)、短路徑長(zhǎng)度的小世界現(xiàn)象及度分布呈現(xiàn)冪律特征的無(wú)標(biāo)度特性等,典型的復(fù)雜網(wǎng)絡(luò)主要有隨機(jī)網(wǎng)絡(luò)、WS小世界網(wǎng)絡(luò)和BA無(wú)標(biāo)度網(wǎng)絡(luò)等。

      Erdos等提出了隨機(jī)網(wǎng)絡(luò) (也稱ER隨機(jī)圖)的概念。Erdos P, Rényi A, “On random graphs”, Publicationes Mathematicae, vol.6, no.4(1959), pp.290-297.ER隨機(jī)網(wǎng)絡(luò)模型假設(shè)網(wǎng)絡(luò)中有N個(gè)節(jié)點(diǎn),將任意兩個(gè)節(jié)點(diǎn)以概率p進(jìn)行連接,可以生成一個(gè)由N個(gè)節(jié)點(diǎn)構(gòu)成的平均度為p(N-1)的網(wǎng)絡(luò),該網(wǎng)絡(luò)的節(jié)點(diǎn)度滿足泊松分布。Erdos 等建立了隨機(jī)網(wǎng)絡(luò)理論并開(kāi)創(chuàng)了基于圖論的復(fù)雜網(wǎng)絡(luò)理論的系統(tǒng)性研究。Erdos P, Rényi A, “On the evolution of random graphs”, Publications of the Mathematical Institute of the Hungarian Academy of Science, vol.5, no.1(1960), pp.17-61.

      Milgram發(fā)現(xiàn)了小世界現(xiàn)象,Milgram S, “The small world problem”, Psychology Today, vol.2, no.1(1967), pp.185-195.由他的社會(huì)調(diào)查以及“小世界實(shí)驗(yàn)”可以推斷地球上任意兩個(gè)人之間的平均度為6(稱為6度分離),表明任意兩個(gè)社會(huì)成員之間總是可以通過(guò)一條相對(duì)較短的路徑實(shí)現(xiàn)相互連接。Watts和Strogatz發(fā)現(xiàn)了這種小世界現(xiàn)象的結(jié)構(gòu)特征,Watts D J, Strogatz S H, “Collective dynamics of ‘small-world networks”, Nature, vol.393, no.6684(1998), pp.440-442.并提出了WS小世界網(wǎng)絡(luò)(簡(jiǎn)稱WS模型)。這種網(wǎng)絡(luò)有一種看上去很復(fù)雜但遵循一定規(guī)則的結(jié)構(gòu),即對(duì)于節(jié)點(diǎn)數(shù)給定(N)的最鄰近耦合網(wǎng)絡(luò),把網(wǎng)絡(luò)中任一條邊以概率p斷開(kāi)并重新連接到另一個(gè)隨機(jī)挑選的節(jié)點(diǎn)上,但是不允許出現(xiàn)重復(fù)或自連接的情況,此時(shí)概率p與網(wǎng)絡(luò)結(jié)構(gòu)有如下關(guān)系:當(dāng)p=0時(shí),該網(wǎng)絡(luò)仍然為最鄰近耦合網(wǎng)絡(luò);當(dāng)p=1時(shí),該網(wǎng)絡(luò)變?yōu)樘厥釫R隨機(jī)網(wǎng)絡(luò);當(dāng)0

      Barabasi和Albert發(fā)現(xiàn)了一種具有特殊度分布特性的網(wǎng)絡(luò)結(jié)構(gòu),Barabasi A L, Albert R, “Emergence of scaling in random networks”, Science, vol.286, no.5439 (1999), pp.509-512.即極少數(shù)節(jié)點(diǎn)的度較大而大量節(jié)點(diǎn)的度較小,提出用BA無(wú)標(biāo)度網(wǎng)絡(luò)來(lái)刻畫(huà)這種特性。BA無(wú)標(biāo)度網(wǎng)絡(luò)的生成規(guī)則為:從一個(gè)m0個(gè)初始節(jié)點(diǎn)的全局連通網(wǎng)絡(luò)開(kāi)始,每次增加一個(gè)新節(jié)點(diǎn),從已有節(jié)點(diǎn)中隨機(jī)選擇m(m≤m0)個(gè)節(jié)點(diǎn)與之連接,新節(jié)點(diǎn)與已有節(jié)點(diǎn)的相連概率與已有節(jié)點(diǎn)的度成正比,網(wǎng)絡(luò)生成過(guò)程中不允許重復(fù)連接。這種BA無(wú)標(biāo)度網(wǎng)絡(luò)的主要特征是節(jié)點(diǎn)度滿足冪率分布且冪率函數(shù)具備標(biāo)度不變性。BA無(wú)標(biāo)度網(wǎng)絡(luò)可以用來(lái)描述不斷增長(zhǎng)和擇優(yōu)開(kāi)放的現(xiàn)實(shí)世界。BA無(wú)標(biāo)度網(wǎng)絡(luò)和小世界網(wǎng)絡(luò)一起揭示了現(xiàn)實(shí)世界形形色色的復(fù)雜網(wǎng)絡(luò)具有普遍的、非平凡的結(jié)構(gòu)特性。

      最近有學(xué)者認(rèn)識(shí)到網(wǎng)絡(luò)中節(jié)點(diǎn)和連邊的異質(zhì)性,提出了多層網(wǎng)絡(luò),Boccaletti S, Bianconi G, Criado R, et al, “The structure and dynamics of multilayer networks”, Physics Reports, vol.544,?no.1(2014), pp.1-122.這類網(wǎng)絡(luò)主要描述節(jié)點(diǎn)異質(zhì)、連邊異質(zhì)和同類節(jié)點(diǎn)間是否存在連邊組合的特性。最有代表性的兩種多層網(wǎng)絡(luò)為多維型多層網(wǎng)絡(luò)和依存型多層網(wǎng)絡(luò)。同樣地,學(xué)術(shù)界主要關(guān)注多層網(wǎng)絡(luò)的拓?fù)湫再|(zhì)、魯棒性等問(wèn)題。復(fù)雜網(wǎng)絡(luò)正在成為分析各種復(fù)雜連接的結(jié)構(gòu)關(guān)系及其動(dòng)態(tài)變化的重要工具。武利琴、王金環(huán)、徐勇:《一種基于半張量積的多層網(wǎng)絡(luò)演化博弈方法》,《復(fù)雜系統(tǒng)與復(fù)雜性科學(xué)》,2017年第3期,第68-74頁(yè)。如果要研究演化博弈中種群(群體)的結(jié)構(gòu)特性,那么自然就需要將演化博弈放置在復(fù)雜網(wǎng)絡(luò)上進(jìn)行分析。李永立、 陳楊、 樊寧遠(yuǎn)等:《考慮個(gè)體效用因素的社會(huì)網(wǎng)絡(luò)演化分析模型》,《管理科學(xué)學(xué)報(bào)》, 2018年第3期,第41-53頁(yè)。

      (二)復(fù)雜網(wǎng)絡(luò)上的演化博弈

      復(fù)雜網(wǎng)絡(luò)上的演化博弈從參與人之間的關(guān)系(網(wǎng)絡(luò)結(jié)構(gòu)特性)和策略更新規(guī)則兩個(gè)方面研究種群的行為演化,特別關(guān)注合作行為的演化。王龍、伏鋒、陳小杰等:《復(fù)雜網(wǎng)絡(luò)上的演化博弈》,《智能系統(tǒng)學(xué)報(bào)》,2007年第2期,第1-10頁(yè)。蘇奇:《復(fù)雜網(wǎng)絡(luò)上的合作演化和博弈動(dòng)力學(xué)研究》,博士學(xué)位論文,北京大學(xué),2020年。

      1.規(guī)則網(wǎng)絡(luò)上的演化博弈

      作為一種最簡(jiǎn)單的復(fù)雜網(wǎng)絡(luò),規(guī)則網(wǎng)絡(luò)最早被引入空間(結(jié)構(gòu))博弈的演化研究之中,并且總是毫無(wú)例外地最先考慮最簡(jiǎn)單的囚徒困境。囚徒困境的確是一種讓人們十分討厭而又依依不舍的博弈模式,因?yàn)槿藗兲貏e關(guān)心怎樣才能克服囚徒困境,實(shí)現(xiàn)囚徒之間的合作。

      Nowak和May首先研究了二維格子網(wǎng)絡(luò)上囚徒困境的演化,Nowak M A, May R M, “Evolutionary games and spatial chaos”, Nature, vol.359, no.6398(1992), pp.826-829.每個(gè)個(gè)體與鄰居進(jìn)行囚徒困境博弈,在演化過(guò)程中,個(gè)體采取模仿動(dòng)態(tài)更新策略,研究發(fā)現(xiàn)在空間網(wǎng)絡(luò)結(jié)構(gòu)下合作者會(huì)產(chǎn)生聚集現(xiàn)象,合作類型的個(gè)體通過(guò)彼此間的合作來(lái)抵御背叛者的入侵,從而保持合作在種群中的穩(wěn)定性。Szabo和Toke在二維格子網(wǎng)絡(luò)上研究了囚徒困境的演化,分析了鄰居數(shù)量可變情況下的種群合作行為演化,發(fā)現(xiàn)當(dāng)背叛收益較低時(shí),空間網(wǎng)絡(luò)結(jié)構(gòu)會(huì)促使種群采取合作行為,但是隨著背叛收益的增加合作與背叛將出現(xiàn)共存現(xiàn)象。Szabo G, Toke C, “Evolutionary prisoners dilemma game on a square lattice”, Physical Review E, vol.58, no.1 (1998), pp.69-73.Doebeli和Knowlton發(fā)現(xiàn)在競(jìng)爭(zhēng)環(huán)境下,種群中的個(gè)體在囚徒困境的演化過(guò)程中會(huì)因?yàn)榭臻g結(jié)構(gòu)的引入而產(chǎn)生互惠效應(yīng),這提高了合作伙伴的收益,進(jìn)而促進(jìn)了合作。Doebeli M, Knowlton N, “The evolution of interspecific mutualisms”, Proceedings of the National Academy of Sciences, vol.95(1998), pp.8676-8680.Hauert和Doebel發(fā)現(xiàn)在二維方格網(wǎng)絡(luò)上雪堆博弈的演化過(guò)程中空間網(wǎng)絡(luò)結(jié)構(gòu)會(huì)抑制合作者的聚集,導(dǎo)致種群的合作水平可能低于均勻混合種群下的合作水平,Hauert C, Doebeli M, “Spatial structure often inhibits the evolution of cooperation in the snowdrift game”, Nature, vol.428,?no.6983(2004), pp.643-646.這與在囚徒困境演化博奕中得到的結(jié)論相反。Ohtsuki和Nowak探討了規(guī)則網(wǎng)絡(luò)下的隨機(jī)復(fù)制子動(dòng)態(tài)模型,Ohtsuki H, Nowak M A, “The replicator equation on graphs”, Journal of Heoretical Biology, vol.243, no.1(2006), pp.86-97.分別在弱選擇強(qiáng)度下研究了生滅過(guò)程、滅生過(guò)程、模仿過(guò)程和成對(duì)比較四種策略更新規(guī)則的復(fù)制子動(dòng)態(tài)方程,結(jié)論是滅生過(guò)程的策略更新規(guī)則更有利于囚徒困境的合作演化。

      此外,一些學(xué)者還在規(guī)則網(wǎng)絡(luò)上討論了其他特殊博弈的演化,Szabo和Fath系統(tǒng)總結(jié)了在不同網(wǎng)絡(luò)結(jié)構(gòu)和策略更新規(guī)則下囚徒困境、雪堆博弈、鷹鴿博弈等博弈模型中種群策略的演化特性。Szabo G, Fath G, “Evolutionary games on graphs”, Physics Reports, vol.446, no.4(2007), pp.97-216.Altrock等研究了強(qiáng)選擇強(qiáng)度下環(huán)形網(wǎng)絡(luò)結(jié)構(gòu)上的扎根概率,Altrock P M, Traulsen A, Nowak M A, “Evolutionary games on cycles with strong selection”, physical Review E, vol.95,no.2(2017), 022407.這種網(wǎng)絡(luò)結(jié)構(gòu)會(huì)在一定程度上降低突變個(gè)體的扎根概率,在滅生過(guò)程刻畫(huà)的演化動(dòng)態(tài)下扎根時(shí)間更長(zhǎng)。這些研究促使許多學(xué)者在復(fù)雜網(wǎng)絡(luò)上分析演化博弈時(shí)引入不同的學(xué)習(xí)規(guī)則,進(jìn)而發(fā)現(xiàn)由學(xué)習(xí)規(guī)則引起的策略更新規(guī)則的變化的確會(huì)在一定程度上促進(jìn)或阻止合作的演化。Szolnoki A, Perc M, “Conformity enhances network reciprocity in evolutionary social dilemmas”, Journal of the Royal Society Interface, vol.12, no.103(2015), pp.1-8.

      2.隨機(jī)網(wǎng)絡(luò)上的演化博弈

      Durán和Mulet在隨機(jī)網(wǎng)絡(luò)上討論了囚徒困境中合作行為的演化,Durán O, Mulet R, “Evolutionary prisoners dilemma in random graphs”, Physica D: Nonlinear Phenomena, vol.208, no.3(2003), pp.257-265.發(fā)現(xiàn)隨機(jī)網(wǎng)絡(luò)的連通性程度會(huì)影響合作的演化特性,連通性較低的種群達(dá)到演化穩(wěn)定時(shí)的合作者比例與初始狀態(tài)相關(guān),而連通性較高的種群達(dá)到演化穩(wěn)定時(shí)的合作者比例與初始狀態(tài)無(wú)關(guān)。Vukov等在規(guī)則隨機(jī)網(wǎng)絡(luò)上討論了囚徒困境中合作行為的演化,Vukov J, Szabó G, Szolnoki A, “Cooperation in the noisy case: Prisoners dilemma game on two types of regular random graphs”, Physical Review E, vol.73,no.2(2006), 067102.分析了規(guī)則隨機(jī)網(wǎng)絡(luò)的不同拓?fù)浣Y(jié)構(gòu)對(duì)合作演化的影響,發(fā)現(xiàn)合作行為的維持與噪聲效應(yīng)和相互作用拓?fù)浣Y(jié)構(gòu)中的圈結(jié)構(gòu)有關(guān)。在較小的噪聲效應(yīng)下,三角形組成的隨機(jī)網(wǎng)絡(luò)結(jié)構(gòu)最有利于囚徒困境向合作策略演化。

      3.小世界網(wǎng)絡(luò)上的演化博弈

      Abramson最早在小世界網(wǎng)絡(luò)上研究了囚徒困境中合作行為的演化,Abramson G, Kuperman M, “Social games in a social network”, Physical Review E, vol.63, no.3(2001), 030901.采取確定性模仿學(xué)習(xí)策略更新規(guī)則,發(fā)現(xiàn)網(wǎng)絡(luò)平均度和重連概率在某些范圍內(nèi)會(huì)促進(jìn)合作,在另一些范圍會(huì)抑制合作。Kim等在有限密度定向連接特殊節(jié)點(diǎn)的小世界網(wǎng)絡(luò)上討論了囚徒困境中合作行為的演化,Kim B J, Trusina A, Holme P, et al, “Dynamic instabilities induced by asymmetric influence: Prisoners?dilemma game in small-world networks”, Physics Review E, vol.66, no.1(2002), 021907.發(fā)現(xiàn)合作水平與背叛策略是否占據(jù)特殊節(jié)點(diǎn)有很強(qiáng)的關(guān)系,當(dāng)采取背叛策略的個(gè)體占據(jù)特殊節(jié)點(diǎn)時(shí)種群的合作水平會(huì)出現(xiàn)顯著下降,即使隨后采取背叛策略的個(gè)體離開(kāi)該特殊節(jié)點(diǎn),恢復(fù)種群合作水平也需要更長(zhǎng)的時(shí)間。Santos等比較了在傳統(tǒng)小世界網(wǎng)絡(luò)與同質(zhì)小世界網(wǎng)絡(luò)(即網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)具有相同數(shù)量的連接)兩種不同網(wǎng)絡(luò)結(jié)構(gòu)上囚徒困境中合作行為演化的差異性。Santos F C, Rodrigues J F, Pacheco J M, “Epidemic spreading and cooperation dynamics on homogeneous small-world networks”, Physical Review E, vol.72, no.5(2005), 056128.類似地,Tomassini等在WS小世界網(wǎng)絡(luò)上研究了鷹鴿博弈中合作行為的演化,Tomassini M, Luthi L, Giacobini M, “Hawks and Doves on small-world networks”, Physical Review E, vol.73, no.2(2006), 016132.比較分析了模仿動(dòng)態(tài)、比例更新和最優(yōu)更新三種策略更新規(guī)則下合作行為的演化特性和差異。Chen和Wang在小世界網(wǎng)絡(luò)上討論了個(gè)體以愿景演化動(dòng)態(tài)作為策略更新規(guī)則的演化博弈,Chen X, Wang L, “Promotion of cooperation induced by appropriate payoff aspirations in a small-world networked game”, Physical Review E, vol.77, no.2(2008), 017103.研究表明適當(dāng)?shù)脑妇八綍?huì)促進(jìn)種群的合作行為。

      4.無(wú)標(biāo)度網(wǎng)絡(luò)上的演化博弈

      Santos等首先研究了BA無(wú)標(biāo)度網(wǎng)絡(luò)上的演化博弈,Santos F C, Pacheco J M, Lenaerts T, “Evolutionary dynamics of social dilemmas instructured heterogeneous populations”, Proceedings of the National Academy of Sciences, vol.103, no.9(2006), pp.3490-3494.試圖揭示合作演化與無(wú)標(biāo)度網(wǎng)絡(luò)結(jié)構(gòu)化種群之間的關(guān)系,在生長(zhǎng)機(jī)制和優(yōu)先連接下,無(wú)標(biāo)度網(wǎng)絡(luò)結(jié)構(gòu)能促進(jìn)合作行為的涌現(xiàn),長(zhǎng)期的合作行為會(huì)抵制短期的非合作行為。Szolnoki等研究了在BA無(wú)標(biāo)度網(wǎng)絡(luò)上的演化博弈中個(gè)體的收益從累計(jì)收益向度平均收益連續(xù)變化時(shí)合作頻率的變化情況。Szolnoki A, Perc M, Danku Z, “Towards effective payoffs in the prisoners dilemma game on scale-free networks”, Physica A, vol.387, no.8-9(2008), pp.2075-2082.Wang等基于全局更新規(guī)則和粒子群優(yōu)化算法分析了BA無(wú)標(biāo)度網(wǎng)絡(luò)中合作演化與節(jié)點(diǎn)度的關(guān)系。Wang W X, Lv J, Chen G, et al, “Phase transition and hysteresis loop instructured games with global updating”,? Physical Review E, vol.77, no.2(2008), pp.568-572. Wang X J, Lv S J, “The roles of particle swarm intelligence in the prisoners dilemma based on continuous and mixed strategy systems on scale-free networks”,Applied Mathematics and Computation, vol.355(2019), pp.213-220.度較低的節(jié)點(diǎn)不得不變成合作者以避免最低收益行為對(duì)合作行為的維持與擴(kuò)散產(chǎn)生重要影響。度較高的節(jié)點(diǎn)傾向于保持初始策略并影響度較低節(jié)點(diǎn)的策略更新。Perc在BA無(wú)標(biāo)度網(wǎng)絡(luò)上研究了囚徒困境與雪堆博弈中合作行為的演化,合作演化對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)的隨機(jī)刪除具有魯棒性,但刪除度較高的節(jié)點(diǎn)會(huì)導(dǎo)致網(wǎng)絡(luò)的異質(zhì)性降低,進(jìn)而降低群體合作水平。Perc M, “Evolution of cooperation on scale-free networks subject to error and attack”, New Journal of Physics, vol.11(2009), 033027.Pea等將個(gè)體模仿局部共同行為一致性特性引入策略更新規(guī)則中,發(fā)現(xiàn)BA無(wú)標(biāo)度網(wǎng)絡(luò)對(duì)合作的促進(jìn)作用受到抑制,網(wǎng)絡(luò)的中心節(jié)點(diǎn)更容易受度較低節(jié)點(diǎn)的影響。Pea J, Volken H, Pestelacci E, et al, “Conformity hinders the evolution of cooperation on scale-free networks”, Physical Review E, vol.80, no.1(2009), 016110.Yang等在研究可調(diào)節(jié)度分布無(wú)標(biāo)度網(wǎng)絡(luò)上的演化博弈時(shí),利用度分布冪律指數(shù)描述了網(wǎng)絡(luò)的異質(zhì)性,發(fā)現(xiàn)存在可以使合作水平達(dá)到最高的冪律指數(shù),過(guò)高的異質(zhì)性會(huì)激發(fā)背叛行為,在強(qiáng)異質(zhì)性下度較高的節(jié)點(diǎn)不會(huì)被合作者占領(lǐng)。Yang H X, Wu Z X, Du W B, “Evolutionary games on scale-free networks with tunable degree distribution”, Europhysics Letters, vol.99, no.1(2012),10006.Ichinose和Sayama分別討論了累計(jì)收益與平均收益下無(wú)標(biāo)度網(wǎng)絡(luò)中的合作演化,累計(jì)收益促進(jìn)合作的能力比平均收益更強(qiáng),在給定累計(jì)收益下度較高的節(jié)點(diǎn)對(duì)促進(jìn)合作具有關(guān)鍵作用,而在給定平均收益下度較低的節(jié)點(diǎn)對(duì)促進(jìn)合作具有關(guān)鍵作用。Ichinose G, Sayama H, “Invasion of cooperation in scale-free networks: Accumulated versus average payoffs”, Artificial Life, vol.23, no.1(2017), pp.25-33.

      五、演化博弈中的學(xué)習(xí)機(jī)制與演化動(dòng)態(tài)

      演化動(dòng)態(tài)是演化博弈中最基本、最核心的內(nèi)容。演化動(dòng)態(tài)是根據(jù)系統(tǒng)歷史、當(dāng)前狀態(tài)和基于學(xué)習(xí)機(jī)制的群體行為選擇將演化博弈的當(dāng)前狀態(tài)映射到下一個(gè)時(shí)刻的狀態(tài)的規(guī)則。在有限理性假設(shè)下,演化博弈中的個(gè)體將根據(jù)所獲取的信息不斷更新自己的行為(策略),這種更新規(guī)則實(shí)際上就是學(xué)習(xí)機(jī)制,因此,基于學(xué)習(xí)機(jī)制的群體行為更新是個(gè)體在演化博弈中的合理選擇。這里從基于微分方程的學(xué)習(xí)機(jī)制與演化動(dòng)態(tài)、基于隨機(jī)過(guò)程的學(xué)習(xí)機(jī)制與演化動(dòng)態(tài)、基于智能算法的學(xué)習(xí)機(jī)制與演化動(dòng)態(tài)、其他學(xué)習(xí)機(jī)制與演化動(dòng)態(tài)四個(gè)方面進(jìn)行簡(jiǎn)要總結(jié)。Sandholm比較系統(tǒng)地論述了學(xué)習(xí)機(jī)制與演化動(dòng)態(tài)。Sandholm W H, “Population games and deterministic evolutionary dynamics”, In Young H P, Zamir S, eds., Handbook of Game Theory with Economic Applications, vol.4, 2015, pp.703-778.

      (一)基于微分方程的學(xué)習(xí)機(jī)制與演化動(dòng)態(tài)

      基于微分方程的學(xué)習(xí)機(jī)制中最常用的是復(fù)制動(dòng)態(tài)方程,最早由Taylor和Jonker提出,Taylor P D, Jonker L B, “Evolutionary stable strategies and game dynamics”, Mathematical Biosciences, vol.40, no.1-2(1978), pp.145-156.后來(lái)Maynard、Weibull、Hofbauer和Sigmund等在相關(guān)論著中進(jìn)行了深入研究。Maynard S J, Evolution and the Theory of Games, Cambridge: Cambridge University, 1982. Weibull J W, Evolutionary Game Theory, Cambridge: The MIT Press, 1995. Hofbauer J, Sigmund K, Evolutionary Games and Population Dynamics, Cambridge: Cambridge University, 1998.

      這種學(xué)習(xí)機(jī)制通常采用常微分方程來(lái)描述策略的演化,意義在于描述改變策略的種群頻數(shù)變化率與其頻數(shù)成正比,與適應(yīng)度大于群體平均適應(yīng)度的幅度成正比,因此可以很好地刻畫(huà)博弈中種群的演化過(guò)程。復(fù)制動(dòng)態(tài)方程假設(shè)種群中個(gè)體數(shù)量無(wú)限大,且混合均勻,并且沒(méi)有考慮決策環(huán)境中的不確定因素,可以視為一種無(wú)變異的自然選擇學(xué)習(xí)機(jī)制。這一機(jī)制已經(jīng)廣泛地應(yīng)用于演化生物學(xué)和博弈論。王軍武、余旭鵬:《考慮風(fēng)險(xiǎn)關(guān)聯(lián)的軌道交通PPP項(xiàng)目風(fēng)險(xiǎn)分擔(dān)演化博弈模型》,《系統(tǒng)工程理論與實(shí)踐》,2020年第9期,第2391-2405頁(yè)。梁秀峰、張飛漣、顏紅艷:《基于演化博弈的PPP項(xiàng)目績(jī)效支付機(jī)制仿真與優(yōu)化》,《中國(guó)管理科學(xué)》,2020年第4期,第153-163頁(yè)。當(dāng)個(gè)體策略的演化不僅與時(shí)間有關(guān),也與空間有關(guān)時(shí),復(fù)制動(dòng)態(tài)需要用偏微分方程來(lái)描述。Hutson V C L, Vickers G T, “Travelling waves and dominance of ESSs”, Journal of Mathematical Biology, vol.30(1992), pp.457-471.Foster和Young首次將隨機(jī)性引入復(fù)制動(dòng)態(tài)方程中,提出了用隨機(jī)微分方程來(lái)描述策略演化。Foster D, Young P, “Stochastic evolutionary game dynamics”, Theoretical Population Biology, vol.38, no.2(1990), pp.219-232.此外,基于微分方程的學(xué)習(xí)機(jī)制還包括最優(yōu)反應(yīng)動(dòng)態(tài)、Logit動(dòng)態(tài)等。Gilboa I, Matsui A, “Social stability and equilibrium”, Econometrica, vol.59, no.3(1991), pp.859-867. Fudenberg D, Levine D, The Theory of Learning in Games, Cambridge:The MIT press, 1998.

      (二)基于隨機(jī)過(guò)程的學(xué)習(xí)機(jī)制與演化動(dòng)態(tài)

      基于微分方程的學(xué)習(xí)機(jī)制主要用于規(guī)模足夠大的種群,種群中有無(wú)限多個(gè)個(gè)體。但是在現(xiàn)實(shí)系統(tǒng)中, 種群規(guī)??偸怯邢薜模⑶覜Q策環(huán)境中具有各種隨機(jī)因素,因此就出現(xiàn)了主要用于有限種群演化分析的隨機(jī)演化動(dòng)態(tài)??梢愿鶕?jù)策略更新的特征將演化動(dòng)態(tài)分為異步更新與同步更新,異步更新包括Moran過(guò)程、模仿更新和愿景更新,同步更新主要指Wright-Fisher過(guò)程。

      Nowak等首先將Moran過(guò)程引入演化博弈的策略選擇中,Nowak M A, Sasaki A, Taylor C, et al, “Emergence of cooperation and evolutionary stability in finite populations”,?Nature, vol.428, no.6983(2004), pp.646-650.提出了有限種群基于Moran過(guò)程的隨機(jī)演化博弈模型。Imhof和Nowak首次提出有限種群中的演化動(dòng)態(tài)可以用頻率依賴的Wright-Fisher過(guò)程來(lái)研究,Imhof L A, Nowak M A, “Evolutionary game dynamics in a Wright-Fisher process”, Journal of Mathematical Biology, vol.52, no.5(2006), pp.667-681.將Wright-Fisher演化動(dòng)態(tài)模型用于描述離散世代的生物種群演化,種群中所有個(gè)體在同一時(shí)間進(jìn)行繁殖產(chǎn)生后代,下一個(gè)時(shí)間步從該后代種群中選擇下一代并保持種群數(shù)量不變,這是一種同步更新過(guò)程。Fermi學(xué)習(xí)機(jī)制下的演化動(dòng)態(tài)是采用非線性形式的Fermi函數(shù)的模仿更新過(guò)程。Traulsen A, Hauert C, “Stochastic evolutionary game dynamics”, In Schuster H G, eds., Reviews of Nonlinear Dynamics and Complexity, vol.2,2009, pp.25-61.王先甲等對(duì)隨機(jī)演化動(dòng)態(tài)進(jìn)行了較為詳細(xì)的總結(jié)。王先甲、顧翠伶、趙金華等:《隨機(jī)演化動(dòng)態(tài)及其合作機(jī)制研究綜述》,《系統(tǒng)科學(xué)與數(shù)學(xué)》,2019年第10期,第1533-1552頁(yè)。

      根據(jù)后代是否采用與母體相同的策略,策略演化過(guò)程可以分為無(wú)變異演化和有變異演化。在無(wú)變異情況下,Moran演化動(dòng)態(tài)、Wright-Fisher演化動(dòng)態(tài)、Fermi演化動(dòng)態(tài)策略更新的演化過(guò)程是具有兩個(gè)吸收狀態(tài)的馬爾科夫鏈,此時(shí)策略的扎根概率成為影響總體演化動(dòng)態(tài)的重要指標(biāo),通過(guò)扎根概率可以得到某一策略最終成為總體中唯一策略的概率。Wang X J, Gu C L, Lv S J, et al, “Evolutionary game dynamics of combining the Moran and imitation processes”,? Chinese Physical B, vol.28, no.2(2019), 020203. Wang X J, Gu C L, Quan J, “Evolutionary game dynamics of the Wright-Fisher process with different selection intensities”, Journal of Theoretical Biology, vol.465, no.1(2019), pp.17-26.有限總體隨機(jī)演化動(dòng)態(tài)中另一個(gè)非常重要的指標(biāo)是扎根時(shí)間,Altrock P M, Traulsen A, “Fixation times in evolutionary games under weak selection”, New Journal of Physics, vol.11, no.1(2008),013012.包括平均非條件扎根時(shí)間與平均條件扎根時(shí)間。扎根概率解釋了一個(gè)合作者占領(lǐng)整個(gè)種群的可能性,平均條件扎根時(shí)間描述了從突變到扎根(占據(jù)種群)需要的平均時(shí)間。

      在有變異情況下,策略更新過(guò)程是沒(méi)有吸收狀態(tài)的馬爾科夫過(guò)程,此時(shí)更關(guān)注策略達(dá)到均衡狀態(tài)時(shí)的平均豐度。Fudenberg D, Imhof L A, “Imitation processes with small mutations”, Journal of Economic Theory, vol.131, no.1(2006), pp.251-262.在愿景演化動(dòng)態(tài)的更新過(guò)程中,在收益沒(méi)有達(dá)到期望水平時(shí),個(gè)體將改變當(dāng)前的策略,策略的更新過(guò)程是沒(méi)有吸收態(tài)的馬爾科夫過(guò)程,因而策略達(dá)到均衡狀態(tài)時(shí)的平均豐度受到關(guān)注。Wang X J, Gu C L, Zhao J H, et al, “Evolutionary game dynamics of combining the imitation and aspiration-driven update rules”, Physical Review E, vol.100, no.2(2019), 022411.模仿更新是指?jìng)€(gè)體通過(guò)收益比較來(lái)決定是否模仿其他個(gè)體的策略。Nowak M A, Evolutionary Dynamics: Exploring the Equations of Life, Cambridge: Harvard University Press, 2006.如果個(gè)體的收益較小,則該個(gè)體更有可能學(xué)習(xí)更成功個(gè)體的策略。然而,并非所有個(gè)體都會(huì)參照其他個(gè)體來(lái)更新策略,人們?cè)趧?dòng)物與人類行為生態(tài)學(xué)中可以普遍觀察到基于個(gè)體愿景的策略更新行為,比如螞蟻根據(jù)自己的經(jīng)驗(yàn)尋找食物而不是模仿其他個(gè)體。這種自我學(xué)習(xí)行為被稱為愿景更新過(guò)程,個(gè)體根據(jù)從博弈中得到的收益與其期望收益的對(duì)比來(lái)調(diào)整策略。Liu Y K, Chen X J, Wang L, et al, “Aspiration-based learning promotes cooperation in spatial prisoners dilemma games”, Europhysics Letters, vol.94, no.6(2011), 060002. 王先甲、夏可:《多人雪堆演化博弈在愿景驅(qū)動(dòng)規(guī)則下的擴(kuò)展平均豐度函數(shù)》,《系統(tǒng)工程理論與實(shí)踐》,2019年第5期,第1128-1136頁(yè)。

      (三)基于智能算法的學(xué)習(xí)機(jī)制與演化動(dòng)態(tài)

      基于智能優(yōu)化算法的學(xué)習(xí)機(jī)制主要是將遺傳算法、蟻群算法和粒子群算法等引入演化博弈,利用優(yōu)化算法來(lái)指導(dǎo)參與人的策略選擇。由于這些算法具有很好的演化尋優(yōu)特性,所以采用這種學(xué)習(xí)機(jī)制能很好地模擬參與人的學(xué)習(xí)行為。比如,Liu和 Wang結(jié)合粒子群優(yōu)化算法與演化博弈的演化特性,提出了一種基于演化博弈的改進(jìn)粒子群優(yōu)化算法。Liu W B, Wang X J, “An evolutionary game based particle swarm optimization algorithm”, Journal of Computational and Applied Mathematics, vol.214, no.1(2008), pp.30-35.

      基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機(jī)制是利用神經(jīng)網(wǎng)絡(luò)來(lái)模擬參與人的學(xué)習(xí)和行為,通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使神經(jīng)網(wǎng)絡(luò)具有演化學(xué)習(xí)的能力,從而指導(dǎo)參與人的決策。比如,Horie和Aiyoshi將神經(jīng)網(wǎng)絡(luò)與博弈論中的納什均衡概念相結(jié)合并將其應(yīng)用于聯(lián)想記憶,在神經(jīng)網(wǎng)絡(luò)與博弈論之間建立了聯(lián)系。Horie R, Aiyoshi E, “Neural networks realization of searching models for Nash equilibrium points and their application to associative memories”, IEEE International Conference on Systems, Man, and Cybernetics, San Diego, 1998, pp.1886-1891.

      (四)其他學(xué)習(xí)機(jī)制與演化動(dòng)態(tài)

      演化博弈中的其他學(xué)習(xí)機(jī)制與演化動(dòng)態(tài)還包括強(qiáng)化學(xué)習(xí)、信念學(xué)習(xí)、貝葉斯學(xué)習(xí)、老練學(xué)習(xí)和經(jīng)驗(yàn)加權(quán)吸引力學(xué)習(xí)等,王先甲、全吉、劉偉兵:《有限理性下的演化博弈與合作機(jī)制研究》,《系統(tǒng)工程理論與實(shí)踐》, 2011年第S1期,第82-93頁(yè)。王先甲、夏可:《多人雪堆演化博弈在愿景驅(qū)動(dòng)規(guī)則下的擴(kuò)展平均豐度函數(shù)》,《系統(tǒng)工程理論與實(shí)踐》,2019年第5期,第1128-1136頁(yè)。這類學(xué)習(xí)機(jī)制主要參考了理性程度更高的人類的決策過(guò)程。

      強(qiáng)化學(xué)習(xí)是將個(gè)體的學(xué)習(xí)過(guò)程視為試探評(píng)價(jià)過(guò)程,個(gè)體選擇一個(gè)動(dòng)作作用于環(huán)境,環(huán)境接受該動(dòng)作后狀態(tài)發(fā)生變化,同時(shí)反饋給個(gè)體一個(gè)強(qiáng)化信號(hào)(獎(jiǎng)勵(lì)或懲罰),個(gè)體基于強(qiáng)化信號(hào)以正的概率再選擇下一個(gè)動(dòng)作。全吉:《具有懲罰策略的公共物品博弈與合作演化》,《系統(tǒng)工程理論與實(shí)踐》,2019年第1期,第141-149頁(yè)。選擇的動(dòng)作不僅影響當(dāng)前的強(qiáng)化值,而且影響環(huán)境下一時(shí)刻的狀態(tài)以及最終的強(qiáng)化值,參見(jiàn)Fudenberg和Levine的論著。Fudenberg D, Levine D, The Theory of Learning in Games, Cambridge: The MIT press, 1998.

      信念學(xué)習(xí)假設(shè)個(gè)體根據(jù)過(guò)去發(fā)生的事件來(lái)更新他們認(rèn)為別人會(huì)如何行動(dòng)的信念,從而根據(jù)這些信念來(lái)決策。一種廣泛被接受的模型是“虛擬行動(dòng)”。在虛擬行動(dòng)中,個(gè)體始終記得另一個(gè)個(gè)體之前采用每種策略的相對(duì)頻率。這些相對(duì)頻率就是對(duì)那個(gè)個(gè)體后續(xù)各期行為的信念。個(gè)體繼而根據(jù)這些信念計(jì)算各種策略的期望支付,并以較高頻率選擇能獲得較高期望支付的策略。比如,Crawford研究了重復(fù)協(xié)調(diào)博弈中信念學(xué)習(xí)過(guò)程與系統(tǒng)極限狀態(tài)之間的關(guān)系。Crawford V P, “Adaptive dynamics in coordination games”, Econometrica, vol.63, no.1(1995), pp.103-143.

      貝葉斯學(xué)習(xí)利用參數(shù)的先驗(yàn)分布和從學(xué)習(xí)過(guò)程中獲取的樣本信息計(jì)算后驗(yàn)分布,使用概率來(lái)表示不確定性,通過(guò)概率規(guī)則實(shí)現(xiàn)學(xué)習(xí)和推理過(guò)程。貝葉斯學(xué)習(xí)的結(jié)果用隨機(jī)變量的概率分布來(lái)表示,它可以理解為人們對(duì)不同可能性的信任程度。比如,Eichberger研究了兩人博弈中個(gè)體的初始先驗(yàn)分布與納什均衡之間的關(guān)系。Eichberger J, Haller H, Milne F, “Naive Bayesian learning in 2×2 matrix games”, Journal of Economic Behavior & Organization, vol.22, no.1(1993), pp.69-90.

      老練學(xué)習(xí)假設(shè)個(gè)體知道自己和他人如何學(xué)習(xí),據(jù)此可以估計(jì)學(xué)習(xí)模型中的一些參數(shù),但可能會(huì)錯(cuò)誤估計(jì)其他個(gè)體的老練程度。個(gè)體可以將過(guò)去所產(chǎn)生的一切信息轉(zhuǎn)化為知識(shí),從而修正自己的行為。比如,Hyndman研究了協(xié)調(diào)博弈中老練學(xué)習(xí)對(duì)個(gè)體之間協(xié)調(diào)效率的影響。Hyndman K, Terracol A, Vaksmann J, “Learning and sophistication in coordination games”, Experimental Economics, vol.12, no.4(2009), pp.450-472.

      強(qiáng)化學(xué)習(xí)假定個(gè)體不考慮未選策略的支付信息,而信念學(xué)習(xí)假定個(gè)體不考慮自己過(guò)去選擇的信息。實(shí)際上,當(dāng)這兩種信息都可用時(shí),個(gè)體都會(huì)加以考慮。經(jīng)驗(yàn)加權(quán)吸引力學(xué)習(xí)綜合了二者的主要特征,賦予接收到的支付更大的權(quán)重,同時(shí)也賦予未選策略支付一定的權(quán)重。比如,Camerer和Ho在不同博弈中對(duì)經(jīng)驗(yàn)加權(quán)吸引力學(xué)習(xí)進(jìn)行了系統(tǒng)研究。Camerer C, Ho T H, “Experience-weighted attraction learning in normal form games”, Econometrica, vol.67, no.4(1999), pp.827-874.

      六、結(jié) 語(yǔ)

      在經(jīng)濟(jì)生活和社會(huì)活動(dòng)中,多人相互作用關(guān)系是一種常見(jiàn)現(xiàn)象。當(dāng)每個(gè)個(gè)體對(duì)自己的預(yù)期完全已知時(shí),基于完全理性假設(shè)的行為選擇是自然且合理的。但是當(dāng)個(gè)體對(duì)自己的預(yù)期未知時(shí),就會(huì)按某種規(guī)則選擇行為,這反映了個(gè)體的選擇是有限理性的。這種基于規(guī)則選擇來(lái)研究個(gè)體相互作用過(guò)程的方法就是演化博弈。在群體博弈過(guò)程中,個(gè)體會(huì)采取某種學(xué)習(xí)規(guī)則學(xué)習(xí)知識(shí)、信息等以確定自身的收益,個(gè)體通過(guò)學(xué)習(xí)可以不斷改進(jìn)有限理性。個(gè)體的行為選擇規(guī)則基于其學(xué)習(xí)機(jī)制。因此,學(xué)習(xí)機(jī)制被順理成章地嵌入演化博弈,其目的是確定對(duì)個(gè)體更有利的行為選擇規(guī)則?,F(xiàn)實(shí)社會(huì)中,群體中個(gè)體之間關(guān)系復(fù)雜,且存在一定的差異(即并非均勻混合)。利用復(fù)雜網(wǎng)絡(luò)來(lái)描述群體中個(gè)體之間的復(fù)雜相互作用關(guān)系,并在有限理性假設(shè)下分析個(gè)體的決策機(jī)制,可以在一定程度上減輕經(jīng)典博弈論在預(yù)期收益未知情況下分析多人相互作用時(shí)面臨的挑戰(zhàn),深化人類對(duì)此類問(wèn)題的認(rèn)識(shí)。復(fù)雜網(wǎng)絡(luò)上的演化博弈將成為一個(gè)非常有希望的重要研究領(lǐng)域。

      猜你喜歡
      復(fù)雜網(wǎng)絡(luò)演化博弈博弈論
      基于圖熵聚類的重疊社區(qū)發(fā)現(xiàn)算法
      公平關(guān)切下處理商與回收商博弈模型研究
      地方政府不當(dāng)干預(yù)對(duì)產(chǎn)能過(guò)剩的影響分析
      關(guān)于資產(chǎn)證券化中信用評(píng)級(jí)行為的分析
      基于復(fù)雜網(wǎng)絡(luò)理論的通用機(jī)場(chǎng)保障網(wǎng)絡(luò)研究
      城市群復(fù)合交通網(wǎng)絡(luò)復(fù)雜性實(shí)證研究
      科技視界(2016年20期)2016-09-29 11:19:34
      博弈論視角下的自首行為分析
      人類社會(huì)生活空間圖式演化分析
      商情(2016年11期)2016-04-15 22:00:31
      無(wú)知之幕與博弈:從“黃燈規(guī)則”看博弈論的一種實(shí)踐方案
      樊畿不等式及其在博弈論中的應(yīng)用
      巍山| 定陶县| 玉门市| 柘城县| 连云港市| 崇仁县| 成安县| 诸暨市| 乌苏市| 治多县| 灵武市| 信宜市| 太和县| 威远县| 尤溪县| 余姚市| 泸州市| 娄烦县| 阜城县| 高尔夫| 华安县| 常熟市| 孝感市| 屯留县| 读书| 竹山县| 盈江县| 牡丹江市| 迁西县| 新密市| 罗山县| 宝丰县| 上高县| 通城县| 高雄县| 荥阳市| 榆树市| 通渭县| 陇西县| 潜江市| 子洲县|