• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      三方多策略式博弈系統(tǒng)的長期演化穩(wěn)定均衡特性研究

      2021-11-20 09:10:56程樂峰王曉剛
      控制理論與應用 2021年10期
      關鍵詞:均衡點非對稱發(fā)電

      程樂峰 ,楊 汝 ,王曉剛 ,余 濤

      (1.廣州大學機械與電氣工程學院,廣東廣州 510006;2.華南理工大學電力學院,廣東廣州 510641)

      1 引言

      面對復雜的多主體行為決策問題,博弈論(game theory)逐漸成為非常實用的數(shù)學工具[1–2].作為博弈論的新興分支,演化博弈論(evolutionary game theory,EGT)[3]立足于“有限理性(bounded rationality)”和“有限信息(limited information)”假設,通過個體間模仿、學習和交流等動態(tài)交互決策過程能夠很好描繪群體行為的變化趨勢并準確預測個體的群體行為,因而在經(jīng)濟[4]和管理[5]等領域得到了迅速應用,并在工程領域[6–8]得到了初步發(fā)展.

      目前,EGT在眾多領域內的理論與應用研究多偏向于兩群體兩策略行為決策問題,例如文獻[9]探討了供應商與零售商之間的演化博弈模型,文獻[10]則分析了政府補貼機制下的兩級供應鏈綠色投資演化博弈.而在理論研究方面,EGT則取得了長足的發(fā)展,尤其是在合作演化博弈、隨機演化博弈及演化博弈規(guī)則機制研究方面.在合作演化博弈方面,文獻[11]探索了時間尺度與選擇傾向性協(xié)同作用下的演化博弈模型,表明個體的非理性行為能夠促進合作涌現(xiàn),文獻[12–15]針對復雜網(wǎng)絡中的合作涌現(xiàn)問題進行了理論分析與動態(tài)仿真,文獻[16]則對共演化博弈中的一種反饋機制進行了系統(tǒng)性研究,文獻[17]對復雜網(wǎng)絡上的兩類典型演化博弈(囚徒困境博弈和公共品博弈)中的合作策略的演化及策略與其他屬性的共同演化問題進行了深入研究.在隨機演化博弈方面,Kaniovski和Young[18]探索了隨機演化博弈中的學習機制,文獻[19]則提出了基于隨機演化博弈模型的網(wǎng)絡防御策略選取方法,文獻[20]系統(tǒng)性探討了隨機演化博弈動力學并對其應用進行了研究,文獻[21]則研究了隨機演化博弈在發(fā)電市場中的應用,文獻[22]基于擬生滅過程對一類2×2的隨機演化博弈模型進行了深入研究,Zhou和Qian[23]對隨機演化博弈動力學中的固定原理、瞬態(tài)場景和擴散困境進行了深入理論分析,文獻[24]研究了隨機演化博弈動力學中的演化穩(wěn)定性和準平穩(wěn)策略,文獻[25]則提出了一種雙矩陣博弈的隨機演化動力學方法.在演化博弈規(guī)則及機制研究方面,文獻[26]研究了EGT 中的若干合作演化機制,包括隨機性與多樣性機制、共演化中的斷邊與重連機制、結構群體間接互惠機制、部分最佳響應機制和結構種群中的遷移機制,文獻[27]則對基于策略更新機制的合作演化問題進行了深入研究,文獻[28]則研究了一種行為識別聲譽更新機制下的演化博弈特征.總的來說,近年來,EGT在理論研究方面取得了較為頗豐的成果.

      在理論研究基礎上,近年來,演化博弈在應用方面也相繼在不同領域取得了較豐富的研究進展.其中,相關學者針對三方多策略式演化博弈問題的研究,初步取得了一些成果.例如,文獻[29]使用主從博弈對智能電網(wǎng)中分布式能源資源的三方能源管理模式進行了深入研究;文獻[30]運用EGT對外賣廢品回收產(chǎn)業(yè)鏈中“政府–顧客–企業(yè)”三個利益相關者群體的協(xié)同進化進行了模擬研究;文獻[31–32]將EGT用于高校產(chǎn)學研三方的協(xié)同創(chuàng)新路徑選擇和演化博弈模擬;文獻[33]提出了一種三方動態(tài)博弈模型用于研究我國能源市場改革對天然氣發(fā)電的促進作用;文獻[34]搭建了一個考慮電能質量的“國家電網(wǎng)–發(fā)電公司–市場買賣人員”三方電價博弈模型.此外,近年來通過搭建復雜的三方博弈網(wǎng)絡模型,文獻[35]研究了基于社區(qū)結構的“用戶–助手–服務器”三方主從博弈隱私保護問題;文獻[36]對基于“政府–公交企業(yè)–乘客”三方博弈的城市公交定價調整方案進行了評價分析,為研究城市交通價格調整方案的可行性提供了一種研究方案;文獻[37]從一種利益攸關方博弈視角對“地方政府–承包商–回收廠”三方參與的推進拆建垃圾回收市場的可持續(xù)發(fā)展問題進行了深入研究;類似地,文獻[38]建立了“政府機構–廢物回收者–廢物生產(chǎn)者”三方多主體演化博弈樹;文獻[39]通過搭建三方演化博弈的系統(tǒng)動力學模型,深入研究了可再生能源組合標準對電力零售市場的影響;文獻[40]對電商平臺合作監(jiān)管中“欺騙熟人”行為進行了“消費者–電商市場–政府”三方演化博弈分析,其結果可以指導參與者更好地對電子商務市場進行決策;文獻[41]則搭建了一個“生產(chǎn)者–回收者–政府”三方演化博弈模型用于研究推動生產(chǎn)者延伸責任制在中國的實施機制及其影響因素.

      總的來說,上述研究多注重于均衡點穩(wěn)定性的分析,而忽視了基于復制者動態(tài)(replicator dynamics,RD,也可翻譯為“復制動力學”或“復制子動態(tài)”,本文統(tǒng)一采用“復制者動態(tài)”這一說法)方程建立的雅克比矩陣的行列式和跡(trace)表達式中各參數(shù)的物理含義或經(jīng)濟含義,也較少考慮這些參數(shù)的變化對系統(tǒng)長期演化穩(wěn)定均衡狀態(tài)的影響機制以及博弈方之間決策行為的動態(tài)交互影響,也并未對其中的長期演化規(guī)律做詳細深入的總結分析與動態(tài)仿真驗證.此外,對于這些領域復雜系統(tǒng)的多群體非對稱演化博弈行為決策問題的研究也鮮有涉及.總的來說,通過上述綜述,三方多策略式演化博弈模型在現(xiàn)實社會中越來越常見,吸引了眾多學者對這一場景進行深入研究,目前已成為EGT領域中的一個研究熱點.

      基于此,本文重點關注一類三方多策略式演化博弈類型,尤其是三方兩策略式演化博弈(three-party two-strategy evolutionary game,3P2SEG)系統(tǒng).目前,基于3P2SEG系統(tǒng)的一些應用研究成果包括:政產(chǎn)學研協(xié)同創(chuàng)新機制三方演化博弈研究[42]、食品質量安全監(jiān)管三方演化博弈研究[43]、電力市場售電商–電網(wǎng)公司–用戶三方非對稱演化博弈研究[44]、旅游市場中政府–旅行社–消費者三方演化博弈行為研究[45]、基于政府管理部門–運營企業(yè)–出行者三方演化博弈的汽車共享產(chǎn)業(yè)推廣模型研究[46]、基于企業(yè)–政府–公眾三方演化博弈的霧霾協(xié)同治理研究[47]、基于尋租者–代理人–人民三方演化博弈的腐敗問題研究[48]、基于平臺–所有者–分享者三方演化博弈并考慮平臺網(wǎng)絡外部性的分享經(jīng)濟研究[49]、基于網(wǎng)民–網(wǎng)絡媒體–政府三方演化博弈的網(wǎng)絡輿情問題研究[50]、風–火–網(wǎng)三方參與新能源交易的非對稱演化博弈問題研究[51]等.上述研究極大豐富了三方多策略演化博弈的應用領域,但其中大多數(shù)研究只是對系統(tǒng)穩(wěn)定性進行了簡單分析,并未全面總結影響系統(tǒng)動態(tài)穩(wěn)定性的各種因素,也未對這些因素的影響做理論分析與動態(tài)仿真驗證.基于此,本文關注這樣一類一般情形下的三方多策略對稱與非對稱演化博弈模型,嘗試通過理論分析與動態(tài)仿真總結和驗證其行為決策過程中的長期演化穩(wěn)定均衡(evolutionarily stable equilibrium,ESE)特性,以期為相關領域內非完全理性群體參與的三方多策略式演化博弈決策問題提供一些思路與理論參考.

      本文的創(chuàng)新點在于:通過理論分析與動態(tài)仿真系統(tǒng)性地總結和驗證了通用三方多策略演化博弈的長期均衡特性,包括三方兩策略對稱演化博弈類型(three-party two-strategy symmetric evolutionary game,3P2S–SEG)、三方兩策略非對稱演化博弈類型(threeparty two-strategy asymmetric evolutionary game,3P 2S–AEG)、以及更復雜的三方三策略非對稱演化博弈類型(three-party three-strategy asymmetric evolutionary game,3P3S–AEG).在上述研究過程中,本文詳細定義了各類演化博弈模型的相對凈支付(relative net payoff,RNP)參數(shù),因而根據(jù)RNP參數(shù)總結分析和仿真了各類演化博弈模型完整行為決策特性包含的所有博弈場景及這些場景下系統(tǒng)所有的演化狀態(tài),并對一般情形下的三方n-策略(n >1)策略非對稱演化博弈(three-partyn-strategy asymmetric evolutionary game,3PnS–AEG)的建模思路和收斂迭代計算方法進行了詳細闡述.最后,以供給側發(fā)電市場中新能源發(fā)電企業(yè)群體、傳統(tǒng)能源發(fā)電企業(yè)群體和電網(wǎng)企業(yè)群體參與的發(fā)電量上網(wǎng)競價博弈為例,對本文在研究過程中所提出的模型和方法進行了有效的仿真驗證.總的來說,本文模型、方法和所得結論具有一定普適性和實用性,旨在豐富演化博弈論的理論與應用研究.

      本文結構安排如下:第2章介紹EGT中幾個核心概念作為預備知識;第3章通過理論和仿真分析總結和驗證3P2S–SEG,3P2S–AEG,3P3S–AEG 等通用三方多策略演化博弈的長期演化均衡特性,闡述了一般情形下3PnS–AEG 的建模思路和收斂迭代方法,并對各類多方多策略式演化博弈系統(tǒng)的長期演化均衡規(guī)律進行了詳細總結.第4章給出一個具體的三方多策略演化博弈實例,用于驗證本文研究模型和方法的有效性和實用性.第5章為結論.

      2 預備知識

      2.1 演化博弈基本架構

      一個典型的演化博弈(用G表示)的基本架構包括種群參與者集合、種群策略集合和種群支付矩陣[7–8],如下所示:

      其中:N為種群參與者集合,如G含n個種群,則N={1,2,···,i,···,n},i ∈N;Φ為種群策略集合,Φ={S1,S2,···,Si,···,Sn},Si為種i的策略集;U為種群支付集合,U={U1,U2,···,Ui,···,Un},Ui為種群i的支付集.基于此,可從多個方面比較演化博弈論與經(jīng)典博弈論的區(qū)別[8],如表1所示.

      表1 演化博弈論與經(jīng)典博弈論之間的比較Table 1 Comparison between EGT and classical game theory

      2.2 對稱與非對稱演化博弈

      基于式(1),對于通用的三方n-策略演化博弈(three-partyn-strategy evolutionary game,3PnSEG),當其支付參數(shù)對稱時,該博弈為對稱演化博弈,此時該博弈中所有參與者都知道彼此的偏好[52];反之,若支付參數(shù)不對稱,則為非對稱演化博弈,此時各種群對彼此信息的掌握程度將不對稱.

      2.3 演化穩(wěn)定策略與演化穩(wěn)定均衡

      演化穩(wěn)定策略(evolutionarily stable strategy,ESS)用于表征演化博弈系統(tǒng)在某一均衡點(即策略選擇)下的穩(wěn)定狀態(tài)[53].當系統(tǒng)的某個純策略為ESS 時,可抵御任意含突變策略小群體的入侵,即擁有ESS的群體在已定義的策略集Φ中具有更高的穩(wěn)定性.假設系統(tǒng)的兩個純策略s1,s2∈Φ,且s1s2,若總存在κ ∈(0,1)使得下式成立,則s1為系統(tǒng)的ESS.

      其中?κ′ ∈(0,κ).f(·)表示為式(2)中所示的系統(tǒng)在某一策略選擇情形下的適應度函數(shù),其刻畫了策略與適應度的映射關系,類似于經(jīng)典博弈論中的支付函數(shù),而其計算結果表示具體的適應度值(可簡單理解為繁殖率).在下文針對具體演化博弈類型的分析過程中,將這一適應度值表示為系統(tǒng)在某一策略選擇情形下的支付,從而形成系統(tǒng)的支付分布參數(shù)矩陣.至于f(·)函數(shù)的具體表達形式則需要根據(jù)實際演化博弈場景中給定的支付函數(shù)來確定.進一步,系統(tǒng)在純策略處取得的ESS稱為系統(tǒng)的演化穩(wěn)定均衡(ESE).非對稱演化博弈只能在純策略處取得ESE.

      2.4 復制者動態(tài)模型

      復制者動態(tài)模型(即RD模型)是演化博弈理論中的一種核心動力學機制,可很好地用于描述有限理性個體的群體行為的變化趨勢[53–54].若種群i在每輪次重復演化博弈中對策略集Si中某策略s的選擇概率或個體比例為xi(t),相應的期望支付為fi(s;x;t),且此時種群i的平均期望支付為fave(s;t),則選擇策略s的RD模型為

      由式(3)可見種群內選擇某策略的概率(或個體比例)的微分正比于該概率值,以及選擇該策略的期望支付與種群此時的平均期望支付之間的差值.因此,當?shù)仁接疫叺扔?時,意味著策略s在種群中的比例維持不變,將成為系統(tǒng)長期演化后自發(fā)形成的ESS.需要說明的是,式(3)針對的是某一純策略si在每次博弈過程中被選擇的概率(或個體比例)的變化規(guī)博弈過程中被選擇的概率或個體比例的變化規(guī)律,即xi(t)的演化規(guī)律.式(3)表明若個體選擇純策略si的支付(或收益)少于群體平均支付(或收益),則選擇該純策略si的個體數(shù)(或概率)的增長率為負;反之則為正.若二者相等,則表明選擇該純策略si的個體比例(或概率)保持不變,維持在穩(wěn)定水平,并在系統(tǒng)中導致一種動態(tài)平衡.在該平衡狀態(tài)中,任何個體不會愿意單方面改變自身選擇的策略.事實上,若對于一個混合策略,根據(jù)研究表明[3–4]:其不可能成為一個非對稱多群體演化博弈系統(tǒng)的ESS,即系統(tǒng)在混合策略處不可能自發(fā)地達到一種長期的演化穩(wěn)定均衡狀態(tài).

      2.5 演化穩(wěn)定性判據(jù)

      判定系統(tǒng)在某策略處的漸進穩(wěn)定性(演化穩(wěn)定性)可利用李雅普諾夫穩(wěn)定性判據(jù)[55–56].當式(3)所示的系統(tǒng)RD模型(即系統(tǒng)的復制者動態(tài)方程組)所對應的雅克比矩陣(通常為一個方陣)在系統(tǒng)的某一內部均衡點處的所有特征值的實部均為負數(shù)時,則系統(tǒng)在該均衡點處達到漸進穩(wěn)定狀態(tài),并取得ESS.反之,若所有特征值實部中至少有一個為零或正數(shù),則系統(tǒng)在該均衡點處處于演化不穩(wěn)定均衡狀態(tài).還存在一種特殊情況:若所有特征值的實部有正有負,則該均衡點稱為系統(tǒng)的鞍點,此時系統(tǒng)在該點處于臨界均衡狀態(tài),仍稱為演化不穩(wěn)定的均衡狀態(tài).

      3 三方多策略式演化博弈系統(tǒng)的長期演化均衡特性

      基于第2章,在文獻[55]基礎上,本章通過理論分析與仿真驗證詳細討論一般三方多策略式演化博弈模型的長期均衡特性,包括三方兩策略對稱演化博弈(3P2S–SEG)、三方兩策略非對稱演化博弈(3P2S–SEG)、三方三策略非對稱演化博弈(3P3S–AEG)和通用三方n-策略非對稱演化博弈(3PnS–AEG).首先建立模型并定義其完整的RNP參數(shù),然后進行長期ESE理論分析與動態(tài)仿真驗證,最后進行總結.

      3.1 三方兩策略式對稱演化博弈(3P2S–SEG)

      3.1.1 模型建立

      對于通用的三群體兩策略演化博弈(3P2SEG),其中的三方分別用群體A,B和C表示.這3個群體的策略集都包含一對互斥的純策略,即群體A,B和C的策略集分別假設為

      其中:SA1與SA2,SB1與SB2,SC1與SC2分別表示一對互為相反的策略(即一對互斥策略,且是一對互斥的純策略).例如,SA1表示群體A中的個體做出某一決策時,則SA2表示群體A中的個體做出這一決策的相反決定(即對應的反策略,本文中均指純策略).由群體A,B和C構成的演化博弈系統(tǒng)在每輪次重復博弈中,互為相反的策略對SA1與SA2,SB1與SB2,SC1與SC2分別在群體A,B和C中被選擇的概率(或個體比例)為x和1-x,y和1-y,z和1-z,其中x,y,z ∈[0,1].因此,該類通用的三方兩策略式演化博弈系統(tǒng)的決策空間可定義為Ψ=[0,1]×[0,1]×[0,1],其表示xyz坐標系中單位立方體空間內的某一區(qū)域,該區(qū)域內任意一點的各個坐標值均為非負數(shù),即Ψ={(x,y,z)|x ∈[0,1],y ∈[0,1],z ∈[0,1]}.進一步可知,群體A,B 和C在上述情形下將總共形成8個純策略組合(本文只討論通用演化博弈模型在純策略處的長期均衡特性,因為模型只有在純策略處才能取得嚴格精煉的NE,而在混合策略處一般都是不穩(wěn)定或臨界穩(wěn)定的[3–4],可不予討論),即

      假設第i個策略對Φi對應的支付組合為(ai,bi,ci),其中:i=1,2,···,8,ai,bi,ci為本文定義的可全文通用的支付(或收益)分布參數(shù).因此,該類通用3P2SEG系統(tǒng)的支付(或收益)矩陣(payoff matrix)可表示為

      對于式(4),根據(jù)3P2S–SEG 中的博弈對稱性要求,其支付參數(shù)需同時滿足

      基于此,不妨假設

      此處的a,b,c,d,e,f,g,h,k,l,p和q為本文定義的可全文通用的支付分布參數(shù).因此,該3P2S–SEG 系統(tǒng)的支付矩陣可轉變?yōu)槿缡?5)所示的形式.

      3.1.2 系統(tǒng)RNP參數(shù)定義

      對于通用根據(jù)3P2S–SEG的支付矩陣,本文對其完整的RNP參數(shù)進行定義,共6組,如表2所示.以“RNP參數(shù)1”為例,即(a-c),其定義為當群體B選擇策略SB1、群體C始終選擇策略SC1時,群體A選擇策略SA1時的相對凈支付(其物理含義或實際意義為:此時群體A中個體選擇策略SA1時獲得的期望支付與其選擇策略集中另一策略SA2時獲得的期望支付之間的差值,即(a-c)),或當群體B選擇策略SB2、群體C始終選擇策略SC2時,群體A選擇策略SA1時的相對凈支付(其含義同上,即群體A中個體在此情形下選擇策略SA1時獲得的期望支付與其選擇策略集中另一策略SA2時獲得的期望支付之間的差值,仍等于(a-c)).如表2所示,其他組RNP參數(shù)的含義也可參照該表類似得到,此處不再贅述.當然,若將這6組RNP參數(shù)分別取它們的相反數(shù),則可得到另外6組RNP參數(shù),其含義分別表示群體A,B和C選擇其策略集中第2個純策略時的相對凈支付.

      表2 一般情形下的通用3P2S–SEG 系統(tǒng)中定義的6組相對凈支付參數(shù)Table 2 Six RNP parameters defined in the general 3P2S–SEG system

      3.1.3 長期均衡理論分析與動態(tài)仿真驗證

      基于第2 章,并根據(jù)前文式(5)所示的系統(tǒng)支付(或收益)矩陣,該通用3P2S–SEG 系統(tǒng)的RD 模型(多元偏微分方程組)可表示為

      其中:

      相應地,該系統(tǒng)RD 方程對應的雅克比矩陣J3P2S–SEG為

      其中:

      為更加直觀觀察系統(tǒng)長期均衡自發(fā)形成過程中各策略的演化動態(tài)性與穩(wěn)定性,不妨對系統(tǒng)RD 模型進行動態(tài)仿真,取(a,b,c,d,e,f,g,h,k,l,p,q)=(8,6,3,9,7,4,3,9,9,7,5,12),并分別以1/4,1/5,1/6,1/7,1/8和1/9為間隔,在該演化博弈系統(tǒng)的決策空間Ψ=[0,1]×[0,1]×[0,1]內對x,y和z的初始值從0至1進行取值,即分別進行125,216,343,512,729和1000 輪次的動態(tài)仿真驗證,并依次記為Case 1至Case 6,并分別如圖1(a)至(f)所示.各情形下分別展示了(x,y),(y,z)和(x,y,z)的相軌跡圖,圖中紅色實心圓點為系統(tǒng)長期演化后自發(fā)形成的ESS,該表示方式在全文通用.

      圖1 通用3P2S–SEG系統(tǒng)在(a,b,c,d,e,f,g,h,k,l,p,q)=(8,6,3,9,7,4,3,9,9,7,5,12)下的長期演化均衡仿真結果Fig.1 Dynamic simulation results of long-term evolutionary equilibrium in the general 3P2S–SEG system when taking(a,b,c,d,e,f,g,h,k,l,p,q)=(8,6,3,9,7,4,3,9,9,7,5,12)

      由圖1可知系統(tǒng)在給定支付參數(shù)下最終自發(fā)形成4組ESS,即(0,0,1),(0,1,0),(1,0,0)和(1,1,1),它們都是純策略ESE.根據(jù)文獻[3–4],以及式(2)所示的ESS的定義,當多群體演化博弈系統(tǒng)在其純策略處達到均衡狀態(tài)時,則在該均衡狀態(tài)下任意種群中的任何個體不會愿意單方面改變其現(xiàn)有策略,而其他任意突變策略也無法入侵(invade)這個種群,此時系統(tǒng)在這些純策略均衡點處都將取得NE均衡(但反過來,系統(tǒng)取得的NE均衡不一定是ESS),且是嚴格精煉的NE.具體的證明過程可參考文獻[3–4].基于此,該3P2S–SEG系統(tǒng)在一般支付參數(shù)下的長期ESE又將如何?詳細討論如下.

      首先,根據(jù)系統(tǒng)的RD模型進行求解,可知其內部均衡點共8個,且都是純策略內部均衡點,即

      為直觀觀察系統(tǒng)在這些純策略處的長期均衡特性,不妨以1/8為間隔,對(x,y,z)的初始值從0至1進行取值,即進行729 輪次重復演化博弈,對12種情形(依次記為Case 1 至Case 12)下(x,y,z)的相軌跡進行動態(tài)仿真,結果如圖2所示.其中,仿真時間t∈[0,10],Case 1至Case 8則依次詳細展示了當Υ3P2S–SEG內每個純策略為系統(tǒng)唯一ESS時的情形,Case 9至Case 11分別展示了系統(tǒng)長期演化過程中只有1組、2 組和4組ESS的情形,Case 12展示了系統(tǒng)不存在任何長期ESE的情形.圖中紅色、綠色和藍色實心圓點分別表示系統(tǒng)長期演化后自發(fā)形成的ESE點、不穩(wěn)定均衡點和鞍點(或中心).

      圖2 通用3P2S–SEG 系統(tǒng)在12種典型博弈態(tài)勢下的長期演化穩(wěn)定均衡動態(tài)仿真結果Fig.2 Dynamic simulation results of long-term ESE of the general 3P2S–SEG system in 12 representative game situations

      進一步,將Υ3P2S–SEG中每組均衡點依次代入系統(tǒng)雅克比矩陣J3P2S–SEG中,通過計算可依次得出該矩陣在每組純策略內部均衡點處的特征值.具體而言,在(0,0,0)處,其3個特征值依次為a-c,e-g,k-p;在(0,0,1)處,其3個特征值依次為b-d,f-h,p-k;在(0,1,0)處,其3個特征值依次為b-d,g-e,l-q;在(0,1,1)處,其3個特征值依次為a-c,h-f,q-l;在(1,0,0)處,其3個特征值依次為c-a,f -h,l-q;在(1,0,1)處,其3個特征值依次為d-b,e-g,q-l;在(1,1,0)處,其3個特征值依次為d-b,h-f,k-p;在(1,1,1)處,其3個特征值則為c-a,g-e,p-k.由此可知,J3P2S–SEG的特征值實部由表2中定義的6組系統(tǒng)RNP參數(shù)(或其相反數(shù))唯一決定.

      因此,對這6組RNP參數(shù)的正負取值進行排列組合可知系統(tǒng)長期演化均衡特性共包含64(=26)種博弈態(tài)勢.如表3所示,全文中分別用“×”、“○”和“?”表示系統(tǒng)在相應內部均衡點處處于不穩(wěn)定均衡狀態(tài)、臨界均衡狀態(tài)和演化穩(wěn)定均衡狀態(tài),并分別用N1,N2和N3表示相應場景下系統(tǒng)在其8個純策略內部均衡點處取得的演化穩(wěn)定均衡狀態(tài)數(shù)、演化不穩(wěn)定均衡狀態(tài)數(shù)和臨界均衡狀態(tài)數(shù).

      如表3所示,每種博弈態(tài)勢依次由前文定義的6組RNP參數(shù)所唯一決定的,它們分別是:a-c,e-g,k-p,b-d,f-h和l-q.基于此,不妨用“+”和“-”分別表示它們取正和取負的情形,例如“++++++”表示上述6組RNP參數(shù)依次取正,即a-c >0,e-g >0,k-p >0,b-d >0,f -h >0以及l(fā)-q >0.由表3可知:該類通用3P2S–SEG系統(tǒng)在長期演化過程中總計存在64種ESE狀態(tài),以及64種演化不穩(wěn)定均衡狀態(tài)和384種臨界狀態(tài)(即鞍點或中心).

      此外,由表3可知系統(tǒng)在一種博弈態(tài)勢下最多可同時獲得4組長期ESE,且都是純策略的精煉NE,對此進行動態(tài)仿真驗證.不妨以1/6為間隔在系統(tǒng)決策空間Ψ內對(x,y,z)的初始值從0至1進行取值,即對表3中所有博弈態(tài)勢(即博弈場景,將其依次記為Scenario 1至Scenario 64)都進行343輪次演化博弈動態(tài)仿真,如圖3所示.圖中紅色、綠色和藍色實心圓點含義同上圖.由圖3可知:該系統(tǒng)在各博弈態(tài)勢下的長期均衡特性仿真結果與表3中的理論分析結果完全一致,從而對理論分析結果進行了有效驗證.

      表3 一般情形下的通用3P2S–SEG 系統(tǒng)長期演化均衡特性的完整理論分析結果Table 3 Complete theoretical analysis results of long-term equilibrium for the general 3P2S–SEG system

      圖3 通用3P2S–SEG 系統(tǒng)在所有博弈態(tài)勢下的長期均衡特性完整動態(tài)仿真結果結果Fig.3 Complete dynamic simulation results of long-term equilibrium for the general 3P2S–SEG system in all game situations

      總的來說,通過第3.1節(jié)對3P2S–SEG 系統(tǒng)的長期ESE 特性的理論分析與動態(tài)仿真研究表明:i)該系統(tǒng)僅存在8組純策略內部均衡點,且最多同時在其中4 組均衡點處取得ESS,即達到ESE狀態(tài);ii) 系統(tǒng)最終自發(fā)形成的演化狀態(tài)將由表2 中定義的6 組RNP參數(shù)唯一決定,因而可通過改變這些RNP參數(shù)使得系統(tǒng)朝著期望的ESE狀態(tài)處發(fā)展;iii)系統(tǒng)完整的長期均衡特性總共包含64種博弈態(tài)勢,且在這些態(tài)勢下系統(tǒng)總計可獲得64次ESE,以及64次演化不穩(wěn)定均衡和384次臨界演化均衡;iv)系統(tǒng)長期均衡演化過程中,自發(fā)形成的ESE 與不穩(wěn)定均衡數(shù)相同,其原因在于系統(tǒng)演化博弈是對稱的(支付參數(shù)嚴格對稱),而該過程中系統(tǒng)出現(xiàn)次數(shù)最多的還是臨界演化均衡狀態(tài).

      3.2 三方兩策略式非對稱演化博弈(3P2S–SEG)

      3.2.1 模型建立

      對于3P2S–SEG 系統(tǒng),其支付矩陣如式(4)所示.基于此,相應的RD模型表示如下:

      進一步,通過計算可得到該RD模型對應的雅克比矩陣J3P2S–AEG為

      其中:

      此外,式(8)所對應的系統(tǒng)策略空間為邊長均為1的三維立方體空間,即[0,1]×[0,1]×[0,1].

      3.2.2 系統(tǒng)RNP參數(shù)定義

      基于式(4),本文定義該通用3P2S–SEG系統(tǒng)完整的RNP參數(shù),總計12組,如表4所示.以表4中的前2組RNP參數(shù)為例,即(a1-a5)和(a3-a7),其定義為當群體B分別選擇其策略集中的策略SB1和SB2,而群體C始終選擇策略SC1時,群體A選擇策略SA1時的相對凈支付.剩余10組RNP參數(shù)的含義參照表4可類似得到,不再贅述.顯然,若將這12組RNP參數(shù)都取負,則成為另外12組RNP參數(shù),分別表示群體A,B和C選擇其策略集中的第2個策略時的相對凈支付集合.

      表4 一般情形下3P2S–SEG系統(tǒng)中定義的12組RNP參數(shù)Table 4 12 RNP parameters defined in the general 3P2S–SEG system

      3.2.3 長期均衡理論分析與動態(tài)仿真驗證

      為更直觀觀察式(8)所示3P2S–SEG系統(tǒng)的長期均衡演化特性,即各群體策略集中策略SA1,SB1和SC1在演化過程中的動態(tài)性與穩(wěn)定性,不妨取

      并分別以1/5,1/6,1/7和1/8為間隔,在系統(tǒng)決策空間[0,1]×[0,1]×[0,1]內對(x,y,z)的初始值(即系統(tǒng)初始博弈態(tài)勢)從0至1進行取值,即分別進行216,343,512和729輪次演化博弈動態(tài)仿真,并分別記住為Case1至Case4,結果如圖4所示.其中仿真時間t ∈[0,10].各仿真下分別展示了(x,y,z),(x,y),(x,z)和(y,z)的相軌跡圖.由圖可見:系統(tǒng)長期ESE在給定支付參數(shù)下,將在內部均衡點(0,0,0)處取得唯一的ESS,如各圖中紅色實心圓點所示.

      圖4 通用3P2S–SEG 系統(tǒng)在給定χ1=15,χ2=-27,χ3=6,χ4=10,χ5=-50,χ6=30,χ7=27,χ8=-22,χ9=-47,χ10=46,χ11=34,χ12=-45時的長期演化穩(wěn)定均衡動態(tài)仿真結果Fig.4 Dynamic simulation results of long-term ESE for the general 3P2S–SEG system when taking χ1=15, χ2=-27,χ3=6,χ4=10,χ5=-50,χ6=30,χ7=27,χ8=-22,χ9=-47,χ10=46,χ11=34,χ12=-45

      事實上,對式(8)分析知:系統(tǒng)RD方程不存在其他任何混合策略演化穩(wěn)定均衡點,而僅存在8組純策略內部均衡點(都是嚴格精煉的NE 點),即Φ3P2S–AEG={(x,y,z)|x,y,z ∈[0,1]}={(0,0,0),(0,0,1),(0,1,0),(0,1,1),(1,0,0),(1,0,1),(1,1,0),(1,1,1)},它們剛好位于系統(tǒng)決策空間立方體的8個頂點.基于此,對該通用3P2S–SEG的長期ESE特性討論如下.

      基于上述分析,將Φ3P2S–AEG中各內部均衡點(記為E1~E8)依次代入式(9)所示雅克比矩陣J3P2S–AEG中,可得到其行列式det(J3P2S–AEG)、跡tr(J3P2S–AEG)、以及特征值(λ1,λ2,λ3)的計算統(tǒng)計結果,如表5所示.

      表5 通用3P2S–SEG 系統(tǒng)在其純策略內部均衡點處的雅克比矩陣的特征值、行列式和跡的統(tǒng)計情況Table 5 Eigenvalues,determinants and traces of J3P2S–AEG for the general 3P2S–SEG system at all internal equilibrium points

      由表5知,該類3P2S–SEG系統(tǒng)在每個均衡點處的3 個特征值(λ1,λ2,λ3)均為上節(jié)定義的RNP參數(shù).這表明系統(tǒng)在E1~E8處的長期ESE 狀態(tài)取決于3組RNP參數(shù)的數(shù)學符號.對于表5中均衡點Ei(i=1,2,···,8)而言,假設與之對應的3組RNP參數(shù)分別為RNPi,1,RNPi,2和RNPi,3.例如,E1=(0,0,0)的3 組RNP參數(shù)分別為:RNP1,1=a4-a8,RNP1,2=b6-b8,RNP1,3=c7-c8.由 此 知,當RNPi,1,RNPi,2和RNPi,3均不為0時,則系統(tǒng)在純策略內部均衡點Ei處的長期ESE特性的數(shù)學描述如式(10)所示:

      因此,可知該類通用3P2S–SEG系統(tǒng)最終自發(fā)形成的長期演化均衡狀態(tài)僅僅取決于表4中定義的12組RNP參數(shù),即

      它們決定了該類3P2S–SEG系統(tǒng)最終的演化均衡狀態(tài).基于此,不妨對上述RNP參數(shù)的正負進行排列組合,則可知系統(tǒng)的長期均衡特性總計存在4096(=212)種博弈態(tài)勢.在這些博弈場景下,3P2S–SEG系統(tǒng)在各純策略內部均衡點Ei處的長期均衡演化穩(wěn)定條件及互斥奇點的統(tǒng)計情況如表6所示.

      由表6可知系統(tǒng)最多可同時在4組內部均衡點處達到長期ESE狀態(tài),且都是嚴格的精煉NE狀態(tài);而每個純策略均衡點達到演化穩(wěn)定時均存在與之互斥的3組內部均衡點存在.為更直觀觀察系統(tǒng)在表6中各純策略均衡點處的長期ESE特性,不妨進行如下12組動態(tài)仿真驗證,并分別記為Case 1至Case 12.其中,Case 1至Case 8按順序依次動態(tài)仿真了Φ3P2S–AEG中每個純策略內部均衡點成為全系統(tǒng)唯一ESS的情形;Case 9至Case 11分別仿真了系統(tǒng)長期演化后僅獲得1組、2組和4組ESE的情形;Case 12則仿真了系統(tǒng)不存在任何長期ESE的情形.仿真結果如圖5所示,其中決策時間t ∈[0,20],各個博弈情景下分別展示了該演化博弈系統(tǒng)在(x,y),(x,z),(y,z)和(x,y,z)處的相軌跡圖.

      表6 通用3P2S–SEG系統(tǒng)在各純策略內部均衡點處的漸進穩(wěn)定性條件及互斥奇點情況Table 6 Asymptotic stability conditions and corresponding mutually exclusive equilibrium points of the general 3P2S–SEG system at all of its pure-strategy internal equilibrium point

      圖5 通用3P2S–SEG系統(tǒng)在12代表性博弈態(tài)勢下的長期演化穩(wěn)定均衡特性動態(tài)仿真結果Fig.5 Dynamic simulation results of long-term ESE characteristics for the general 3P2S–SEG system in 12 representative game situations

      由圖5可知,所得系統(tǒng)長期ESE特性的仿真結果與表5中的理論分析結果完全一致,從而驗證了理論分析所得結果的正確性與有效性.

      總的來說,通過第3.2節(jié)對通用3P2S–SEG系統(tǒng)的理論分析和動態(tài)仿真研究表明:i)該系統(tǒng)的RD方程僅存在8個內部均衡點,如Φ3P2S–AEG所示;ii)在這些均衡點處,系統(tǒng)均可能取得ESS并最終達到長期ESE狀態(tài),且是嚴格的純策略NE狀態(tài);iii) 系統(tǒng)不存在任何混合策略,即使存在,系統(tǒng)在這些策略處也始終無法達到長期ESE狀態(tài);iv)系統(tǒng)每組均衡點均存在與之互斥的另外3組均衡點,且任意一組均衡點是否為系統(tǒng)的長期ESE僅取決于3組RNP參數(shù)(即初始博弈態(tài)勢),且系統(tǒng)的RNP參數(shù)總共包含12組,因而系統(tǒng)總計存在4096(=212)種演化狀態(tài);v)通過適當調整系統(tǒng)的支付參數(shù)(ai,bi,ci,i=1,2,3)以改變系統(tǒng)的RNP參數(shù)取值,可使系統(tǒng)的長期均衡朝著期望的ESE 處發(fā)展,并使期望的ESS在系統(tǒng)長期演化過程中的動態(tài)性和穩(wěn)定性得到有效保證;vi)系統(tǒng)在某一博弈態(tài)勢下最多可同時獲得4組長期ESE狀態(tài),此外系統(tǒng)還可能只能獲得1組或2組ESE狀態(tài),甚至還包括不存在任何ESE狀態(tài)的情形;vii)當系統(tǒng)達到長期演化穩(wěn)定時,其中任意一個群體的RD方程恒等于0,且其策略集中的任意策略都將處于穩(wěn)定水平,且任意策略都可在8種博弈態(tài)勢下成為該群體的ESS,因而任意群體總計存在16種博弈態(tài)勢可達到長期ESE狀態(tài).

      3.3 三方三策略式非對稱演化博弈(3P3S–AEG)

      進一步將第3.2節(jié)中的三方兩策略非對稱演化博弈(3P2S–SEG)擴展為更復雜的通用三方三策略非對稱演化博弈,即3P3S–AEG系統(tǒng),并探究一般情形下三方多策略式非對稱演化博弈系統(tǒng)的長期演化均衡特征.

      3.3.1 模型建立

      類似于式(4),此時該演化博弈系統(tǒng)的支付矩陣如式(11)所示:

      其中,群體A,B和C的策略集各包含3個純策略,即ΦSA={SA1,SA2,SA3},且每輪次演化博弈過程中,上述各策略在群體A中被選擇的概率(或個體比例)分別為x,y和(1-x-y);ΦSB={SB1,SB2,SB3},且各策略在群體B中被選擇的概率分別為p,q和(1-pq);ΦSC={SC1,SC2,SC3},且各策略在群體C中被選擇的概率分別為u,v和(1-u-v).其中,x,y,p,q,u,v ∈[0,1];di,ei和fi為定義在該通用3P3S–AEG系統(tǒng)中的支付分布參數(shù),其中(i=1,2,···,27).由此可見,系統(tǒng)的決策空間為一個六維空間.假設群體A中個體依次選擇其策略集中SA1,SA2和SA3的期望支付分別為l1,l2和l3,而A的群體平均期望支付則為la;同理,群體B中個體依次選擇SB1,SB2和SB3的期望支付分別為g1,g2和g3,B的群體平均期望支付為ga;群體C中個體依次選擇SC1,SC2和SC3的期望支付分別為h1,h2和h3,C的群體平均期望支付為ha.基于此,根據(jù)第2章可得上述各期望支付的值,以群體A為例,經(jīng)計算可得該群體在各純策略下的期望支付以及總的種群平均期望支付,如下所示:

      同理,可計算群體B和C的上述期望值,不再贅述.基于此,可得該系統(tǒng)的RD模型(多元偏微分方程組)如式(12)所示:

      進一步,根據(jù)式(12),經(jīng)計算可得其雅克比矩陣J3P3S–AEG如式(13)所示.其中,表示f1(x)對x的導數(shù),為f1(x)對y的偏導數(shù),式(13)中其他表達式含義類似.

      3.3.2 系統(tǒng)RNP參數(shù)定義

      同理,可定義該類系統(tǒng)的RNP參數(shù).首先,計算該演化博弈系統(tǒng)的純策略內部均衡點集合Φ3P3S–AEG.由于x和y(或p和q、u和v)不能同時為1,因此根據(jù)式(12)計算可知系統(tǒng)純策略內部均衡點總計3×3×3=27組,分別記為E1~E27,如表7所示.將E1~E27依次代入式(13)所示雅克比矩陣,可得其相應的特征值,經(jīng)計算統(tǒng)計后如表7所示.基于此,本文將系統(tǒng)每組純策略內部均衡點所對應的雅克比矩陣的6組特征值定義為系統(tǒng)的RNP參數(shù).因此,系統(tǒng)此時總計存在81組不重復RNP參數(shù)(本文定義絕對值相同的都算重復的RNP參數(shù)),如表7第3列所示.由此可知系統(tǒng)在每組純策略內部均衡點處的長期演化特性將由6組RNP參數(shù)所唯一決定.因此,系統(tǒng)完整的長期演化均衡特性總計包含281(≈2.42×1024)種博弈場景,由此可見該類3P3S–AEG系統(tǒng)包含的博弈場景總數(shù)目非常大且異常復雜.

      3.3.3 長期均衡理論分析與動態(tài)仿真驗證

      通過第3.3.2節(jié)理論分析,可知該通用3P3S–AEG系統(tǒng)總計存在多達281種博弈場景,不可能對每種場景進行動態(tài)仿真驗證.不妨對系統(tǒng)同時存在最多數(shù)ESE狀態(tài)的情形進行仿真驗證.由表7可知,在上述E1~E27個純策略內部均衡點處,系統(tǒng)最多可同時在其中7個均衡點處取得長期ESE,且是嚴格的精煉的NE(納什均衡).基于此,通過適當調整3P3S–AEG 系統(tǒng)的RNP 參數(shù),可使系統(tǒng)在E1,E5,E9,E11,E13,E21和E25這7個純策略內部均衡點處同時取得ESE,其仿真結果如圖6所示.其中,以1/2為間隔,在系統(tǒng)的六維決策空間內對(x,y,p,q,u,v)的初始值分別從0至1進行取值,即進行729輪次重復演化博弈動態(tài)仿真,圖中分別展示了

      表7 通用3P3S–AEG 系統(tǒng)的RNP 參數(shù)及純策略內部均衡點統(tǒng)計Table 7 Statistics of RNP parameters and pure-strategy equilibrium points for the general 3P3S–AEG system

      的相軌跡圖,共20組,并分別用“相軌跡1”至“相軌跡20”表示.此外,各圖中紅色、綠色和藍色實心圓點分別表示演化穩(wěn)定均衡點(匯)、演化不穩(wěn)定均衡點(源)和演化臨界均衡點(即鞍點或中心).由各圖可看出系統(tǒng)最終同時在上述E1~E27中的7組純策略內部均衡點處達到長期ESE狀態(tài),從而驗證了理論分析結果的有效性.

      3.4 一般三方N策略式非對稱演化博弈(general 3PnS–AEG)

      3.4.1 建模思路

      基于前面章節(jié)對具體三方多策略演化博弈模型的理論分析與動態(tài)仿真驗證,本節(jié)對通用的三方N策略非對稱演化博弈(即3PnS–AEG)的建模思路進行闡述.該思路適用于不同領域內任意復雜的多方多策略演化博弈場景的建模過程,可為模型的長期ESE特性分析與仿真驗證提供很好的借鑒.

      基于此,系統(tǒng)中的三方A,B 和C各自策略集中均包含有N個策略,分別表示如下.群體A的策略集為ΦAN={SA,1,SA,2,···,SA,N},且每輪次重復博弈過程中各策略被選擇的概率(或個體比例)分別為xA,1,xA,2,···,xA,N,其中xA,1+xA,2+···+xA,N=1.同理,群體B的策略集為ΦB,N={SB,1,SB,2,···,SB,N},且策略集中的各策略在每次博弈時被選擇的概率(或個體比例)分別假設為yB,1,yB,2,···,yB,N,其中yB,1+yB,2+···+yB,N=1.群體C的策略集為ΦC,N={SC,1,SC,2,···,SC,N},且各策略被選擇的概率(或個體比例)分別為zC,1,zC,2,···,zC,N,其中zC,1+zC,2+···+zC,N=1.此外,假設群體A中個體依次選擇其策略集中的各策略的期望支付分別為UA,1,UA,2,···,UA,N.相應地,群體B的期望支付分別為UB,1,UB,2,···,UB,N,群體C的期望支付分別為UC,1,UC,2,···,UC,N.基于此,UA,k,UB,k和UC,k(k=1,2,···,N)分別表示如下:

      其中:uA,k,i,j為群體B和群體C中個體分別選擇其策略集中的第i個策略和第j個策略時,群體A中個體選擇第k個策略時的支付;同理,uB,k,i,j為群體A和群體C中個體分別選擇其策略集中的第i個策略和第j個策略時,群體B中個體選擇第k個策略時的支付;uC,k,i,j為群體A和群體B中個體分別選擇其策略集中的第i個策略和第j個策略時,群體C中個體選擇第k個策略時的支付.基于此,群體A,B和C各自平均期望支付UA_ave,UB_ave和UC_ave表示如下:

      式(16)反映了通用3PnS–AEG 中各群體內個體選擇某一純策略的個體比例(或選擇概率)的增長率正比于該個體比例值,也正比于使用該策略所得到的網(wǎng)絡期望支付(或收益)與該種群的平均網(wǎng)絡期望支付(或收益)之間的差值,因而很好地刻畫了有限理性個體的群體行為變化趨勢.

      3.4.2 算法設計

      在實際仿真過程中,需將式(16)作離散化處理以方便系統(tǒng)在重復演化博弈過程中的迭代運算.因此,仿真進行到第m步迭代時,其收斂迭代計算方法為

      其中:σm,k,ρm,k和τm,k分別為群體A,B和C中第k個策略的選擇概率(或個體比例)在第m次迭代時設置的步長,通常為一個非常小的正數(shù).通過式(17)設計的步長保證了每次迭代過程中各策略選擇的概率(或個體比例)不會超出范圍[0,1].進一步,為了使迭代過程收斂到預期的精度,通常還需要設置一個非常小的正數(shù)用于判斷群體A,B和C三方的迭代計算是否達到收斂條件,而一旦達到預期精度即可終止各種群的迭代計算,如下所示.

      其中:o1,k,o2,k和o3,k分別為群體A,B和C迭代計算過程中設置的非常小的正數(shù),用于判斷各群體長期演化后是否以預期收斂精度達到期望的ESE狀態(tài).

      3.5 一般兩方和三方多策略式演化博弈比較

      根據(jù)本章研究思路,可進一步研究兩方多策略演化博弈系統(tǒng)的長期ESE特性,此處不再贅述.總的來說,本文就兩方兩策略對稱與非對稱演化博弈(分別記為2P2S–SEG和2P2S–AEG)、兩方三策略對稱演化博弈(記為2P3S–SEG)、三方兩策略對稱與非對稱演化博弈(分別記為3P2S–SEG和3P2S–SEG)、以及三方三策略非對稱演化博弈(3P3S–AEG)等通用演化博弈系統(tǒng)進行多方面的對比分析和總結,如表8所示.由表8可知,系統(tǒng)涵蓋的博弈場景總數(shù)等于以2為底、系統(tǒng)的RNP參數(shù)總數(shù)目為冪的指數(shù),而隨著系統(tǒng)各方數(shù)目及各方采取的策略數(shù)目的增加,系統(tǒng)總的演化狀態(tài)數(shù)量將急劇增加.以3P3S–AEG系統(tǒng)為例,其相比3P2S–SEG,各方策略集中的策略數(shù)量僅增加了1個,但系統(tǒng)的RNP參數(shù)總數(shù)量增加至81個,相應的博弈場景總數(shù)增加至281,約等于2.42×1024,這是一個極大的數(shù)目.可見,隨著系統(tǒng)維度(參與方數(shù)量維度或采取的策略數(shù)量維度)的增加,其博弈態(tài)勢將越來越復雜,相應的博弈場景數(shù)也急劇增加,使得問題的復雜性和分析難度越來越高.

      表8 一般情形下的通用兩方和三方多策略式演化博弈系統(tǒng)的演化均衡特性比較Table 8 Comparison of evolutionary equilibrium characteristics between general two-party and three-party multi-strategy evolutionary game systems

      通過對對稱和非對稱三方兩策略演化博弈(即3P2S–SEG和3P2S–SEG)的長期演化均衡特性的理論分析與動態(tài)仿真驗證,筆者發(fā)現(xiàn)它們最終在RD方程內部均衡點處可取得的演化狀態(tài)取決于系統(tǒng)的若干組RNP參數(shù).具體而言,3P2S–SEG取決于6組RNP參數(shù),因而其演化動力學行為決策特性總共包含64(=26)種博弈場景,且每個內部均衡點演化過程中的動態(tài)性和漸進穩(wěn)定性僅取決于2組RNP參數(shù);3P2S–SEG則取決于12組RNP參數(shù),因而其完整的演化動力學行為決策特性總共包含4096(=212)種博弈場景,且每個內部均衡點演化過程中的動態(tài)性和穩(wěn)定性取決于3組RNP參數(shù);對于3P2S–SEG和3P2S–SEG系統(tǒng)而言,前者可在純策略和混合策略處取得ESS并最終達到演化穩(wěn)定均衡狀態(tài),后者則只能在純策略處取得ESS并最終達到演化穩(wěn)定均衡狀態(tài),而在混合策略處則始終處于不穩(wěn)定均衡狀態(tài)或演化臨界均衡狀態(tài);此外,二者的RD系統(tǒng)方程最多都只有8個解,因而二者最多具有8個內部均衡點,且都是純策略均衡點;在這些均衡點處,二者最多都只能同時獲得4組ESS使它們達到演化穩(wěn)定均衡狀態(tài),當然系統(tǒng)還可同時獲得1組和2組ESS,但無法同時獲得3組ESS.這是由于每組內部均衡點成為ESS時必然存在與之互斥的另外3組內部均衡點.最后,對于二者而言,通過改變一些外部因素(如市場監(jiān)督、政府管控、政策發(fā)布等)適當調整某些RNP參數(shù)將可使得系統(tǒng)朝著期望的穩(wěn)定均衡狀態(tài)處演化,從而使系統(tǒng)演化過程中策略選擇的穩(wěn)定性和動態(tài)性得到有效保證,有利于系統(tǒng)的長期演化發(fā)展.

      相較之下,通過對擴展后的通用三方三策略非對稱演化博弈(即3P3S–AEG)的長期演化均衡特性的理論分析與動態(tài)仿真研究發(fā)現(xiàn):通用3P3S–AEG總計存在27組純策略內部均衡點,且每組均衡點能否成為系統(tǒng)的長期ESE由6組RNP參數(shù)唯一決定;系統(tǒng)總計存在81組RNP參數(shù),因而其完整的長期演化特性總計包含281種博弈場景,數(shù)目非常大而且很復雜;此外,系統(tǒng)的每組純策略內部均衡點達到演化穩(wěn)定時,都存在與之互斥的6組其他純策略內部均衡點,即這6組均衡點要么處于不穩(wěn)定演化狀態(tài),要么處于臨界演化狀態(tài)(鞍點或中心).例如,E1達到演化穩(wěn)定時,E2,E3,E4,E7,E10和E19則必然為演化不穩(wěn)定的均衡點或鞍點(或中心).此外,通過適當調整系統(tǒng)的RNP參數(shù)可使其朝著期望的長期ESE狀態(tài)處發(fā)展.

      4 三方多策略演化博弈舉例分析

      本章探討三方多策略演化博弈的應用,以三方兩策略非對稱演化博弈(3P2S–SEG)為例,通過動態(tài)仿真分析,描述這一更為常見的三方兩策略式演化博弈類型在工程技術領域中的使用場景.

      4.1 新能源發(fā)電企業(yè)參與的發(fā)電側EM競價模型

      針對新能源企業(yè)參與的發(fā)電市場多方競價博弈情形,文獻[51]對此進行了簡要的理論分析,對RD系統(tǒng)平衡狀態(tài)的漸進穩(wěn)定性的討論并不十嚴格,未涉及實際三方收益,且并未開展動態(tài)仿真驗證.基于此,選擇文獻[51]的研究對象為例,對其中的三方之間的利益聯(lián)系進行動態(tài)仿真驗證.因此,基于文獻[51],以新能源和傳統(tǒng)能源兩大類發(fā)電企業(yè)參與供給側發(fā)電市場長期競價電量上網(wǎng)為例,討論新能源發(fā)電企業(yè)(記作群體A)、傳統(tǒng)能源發(fā)電企業(yè)(記作群體B)和電網(wǎng)公司企業(yè)(記作群體C)三方在上述發(fā)電市場競價電量演化博弈過程中的長期均衡特性.為此,本章的算例仿真分析對建立的雅克比矩陣的行列式和跡表達式中各參數(shù)的物理或經(jīng)濟含義進行了詳細說明,定義了該博弈場景的RNP參數(shù),考慮了這些RNP參數(shù)的政策性調整對整個三方演化博弈系統(tǒng)的長期ESE狀態(tài)的影響機制以及對博弈方之間決策行為的交互影響,并進行了總結與仿真驗證.相較之下,文獻[51]只是部分開展了上述研究工作,并未對三方演化博弈系統(tǒng)的長期演化穩(wěn)定均衡規(guī)律進行詳細的總結分析與動態(tài)仿真驗證.

      基于此,在上述實際演化博弈場景中,假設參與博弈決策的三方(即群體A,B,C)的策略集中各實施2個純報價策略參與供給側發(fā)電市場的長期發(fā)電量競價上網(wǎng)博弈,該策略集不妨分別記作SA={SA1,SA2},SB={SB1,SB2}和SC={SC1,SC2},由此可得支付矩陣為

      其中l(wèi)i,mi,ni(i=1,2,···,8)為該例中設定的用于表示不同策略組合下的收益的通用分布參數(shù).此外,純策略SA1和SA2在每輪電量博弈中被A內企業(yè)個體選擇的概率(或比例)分別為α和1-α,并分別表示新能源發(fā)電企業(yè)選擇與傳統(tǒng)能源發(fā)電企業(yè)合作(即A選擇與B合作)并送出新能源上網(wǎng)交易電量為W1、新能源發(fā)電企業(yè)選擇不與傳統(tǒng)能源發(fā)電企業(yè)合作(即A選擇不與B合作)并送出新能源上網(wǎng)交易電量為W2;純策略SB1和SB2在每輪博弈中被B內企業(yè)個體選擇的概率(或比例)分別為β和1-β,并分別表示傳統(tǒng)能源發(fā)電企業(yè)選擇與新能源發(fā)電企業(yè)合作(即B選擇與A合作)并送出傳統(tǒng)能源上網(wǎng)交易電量為T1、傳統(tǒng)能源發(fā)電企業(yè)選擇不與新能源發(fā)電企業(yè)合作(即B選擇不與A合作)并送出傳統(tǒng)能源上網(wǎng)交易電量為T2;純策略SC1和SC2在每輪博弈中被C內企業(yè)個體選擇的概率(或比例)分別為γ和1-γ,并分別表示電網(wǎng)公司企業(yè)選擇積極參與消納新能源并且消納新能源發(fā)電量為G1、電網(wǎng)公司企業(yè)選擇消極消納新能源并且消納新能源發(fā)電量為G2.其中,α,β,γ ∈[0,1].

      顯然,這是一個由新能源發(fā)電企業(yè)群體A、傳統(tǒng)能源發(fā)電企業(yè)群體B和電網(wǎng)公司企業(yè)群體C構成的三方兩策略參與的發(fā)電側電力市場競價上網(wǎng)電量演化博弈,是一個典型的三方兩策略非對稱演化博弈,即3P2S–SEG.此時,A是否傾向于選擇與B合作、B是否傾向于選擇與A合作、政府相關部門是否對新能源參與發(fā)電市場交易進行監(jiān)督和管控、C是否傾向于選擇積極參與新能源消納等因素關乎發(fā)電市場能否長期健康穩(wěn)定的運行,這個上網(wǎng)電量競價博弈過程顯然是一個在有限信息系統(tǒng)內進行的市場長期均衡演化過程,因而非常適合利用EGT 進行分析.根據(jù)第3章分析,顯然該3P2S–SEG的系統(tǒng)RD方程有且僅有8個純策略內部均衡點(x,y,z),即Φ3P2S–AEG={(x,y,z)|x,y,z ∈[0,1]}={(0,0,0),(0,0,1),(0,1,0),(0,1,1),(1,0,0),(1,0,1),(1,1,0),(1,1,1)}.基于此,該系統(tǒng)的RD方程為

      4.2 仿真分析

      將上述Φ3P2S–AEG中的8個純策略內部均衡點依次代入到式(21)中,可得到JABC在這8個均衡點處的特征值、行列式和跡的計算統(tǒng)計結果,如表9所示.由表9可得:每個內部均衡點均存在對應的3組互斥均衡點存在,且系統(tǒng)在每組均衡點處是否獲得長期ESE取決于對應的3組RNP參數(shù).因此,系統(tǒng)最多可在1,2和4組內部均衡點處取得長期ESE,即新能源發(fā)電企業(yè)參與的發(fā)電側電力市場三群體兩策略非對稱上網(wǎng)電量競價演化博弈最多存在4組競價電量ESS.當然,這種情況需要建立在市場無任何監(jiān)督的條件下才能發(fā)生.事實上,當政府對市場不進行任何監(jiān)督時,即發(fā)電側電力市場沒有制定有效的上網(wǎng)電量交易規(guī)則時,該市場經(jīng)長期發(fā)展最終將會自發(fā)形成如下演化穩(wěn)定的博弈態(tài)勢.

      情形i) 無論電網(wǎng)企業(yè)群體C是否選擇積極或是消極消納新能源,以及無論傳統(tǒng)能源發(fā)電企業(yè)群體B是否選擇與新能源發(fā)電企業(yè)群體A合作,對于A而言,顯然其選擇不與B合作,相較于其選擇與B合作能獲得更多的競價上網(wǎng)電量,從而獲得更高的收益.此時根據(jù)式(19),存在如下兩種情形:a)當電網(wǎng)企業(yè)群體C選擇積極消納新能源時,而當B始終選擇合作時,A選擇不與B合作相較于與B合作能獲得更高收益,即l5>l1,此時由表9知E8(1,1,1)為演化不穩(wěn)定的純策略內部均衡點,系統(tǒng)無法在該點處取得長期ESE;當B始終選擇不合作時,A也選擇不與B合作相較于與B合作能獲得更高收益,即l7>l3,此時由表9知E6(1,0,1)將為演化不穩(wěn)定的純策略內部均衡點,系統(tǒng)在該點處無法取得長期ESE;同理,無論A是否選擇與B合作,B始終選擇不與A合作相較于其選擇與A合作能獲得更多的上網(wǎng)電量,即獲得的收益更高,此時可得m3>m1(A始終選擇與B合作時),以及m7>m5(A始終選擇不與B合作時).由此可知E8(1,1,1)和E4(0,1,1)都將成為演化不穩(wěn)定的純策略內部均衡點,系統(tǒng)在這兩點處無法取得長期ESE;b)當電網(wǎng)企業(yè)群體C選擇消極消納新能源時,無論A是否與B合作,B始終選擇不合作可獲得更多上網(wǎng)電量,即發(fā)電收益更高,可得m4>m2(A 始終選擇與B 合作時),以及m8>m6(A始終選擇不與B合作時),由表9知E7(1,1,0)和E3(0,1,0)都將成為演化不穩(wěn)定的內部均衡點,系統(tǒng)在這兩點處無法取得長期ESE;同理,無論B是否與A 合作,A始終選擇不與B合作相較于其選擇與B合作能獲得更多的上網(wǎng)電量和收益,則有l(wèi)6>l2(B始終選擇與A合作時),l8>l4(B始終選擇不與A合作時),由表9知E7(1,1,0)和E5(1,0,0)都將成為演化不穩(wěn)定的純策略內部均衡點,系統(tǒng)在這兩點處無法取得長期ESE.因此,當政府在市場發(fā)展初期對該發(fā)電市場暫不進行有效的競價交易監(jiān)督時,在情形i)下可知E3(0,1,0),E4(0,1,1),E5(1,0,0),E6(1,0,1),E7(1,1,0)和E8(1,1,1)最終都無法自發(fā)演化形成為該市場的長期ESE狀態(tài).

      表9 A,B和C三方參與的發(fā)電側電力市場競價上網(wǎng)電量博弈的內部均衡點穩(wěn)定性統(tǒng)計Table 9 Evolutionary stability statistics of internal equilibrium points of the generation-side pricing game for online electricity involving three parties of A,B and C

      情形ii) 無論新能源發(fā)電企業(yè)群體A與傳統(tǒng)能源發(fā)電企業(yè)群體B之間是否合作,電網(wǎng)企業(yè)群體C在政府對市場無監(jiān)督情況下選擇消極消納新能源相較于其選擇積極消納新能源能降低更多的運營成本(此時無需額外投資建設電網(wǎng)用于消納新能源),因而獲得的效益也更高.此時,基于式(19),依然存在如下兩種情形:a)當A選擇與B合作時,C始終選擇消極消納新能源能獲得更高的收益,可得n2>n1(B選擇與A合作時),以及n4>n3(B選擇不與A合作時),此時由表9知E6(1,0,1)和E8(1,1,1)都將成為演化不穩(wěn)定的純策略內部均衡點,系統(tǒng)在這兩點處無法取得長期ESE;b)當A選擇不與B合作時,C始終選擇消極消納新能源獲得的收益將更高,可得n6>n5(B選擇與A合作時),以及n8>n7(B選擇不與A合作時),此時由表9可知:E2(0,0,1)和E4(0,1,1)都將成為演化不穩(wěn)定的純策略內部均衡點,系統(tǒng)在這兩點處無法取得長期ESE.因此,當政府對市場無有效監(jiān)督時,在情形ii)下可知E2(0,0,1),E4(0,1,1),E6(1,0,1)和E8(1,1,1)最終都無法自發(fā)演化成為該市場的長期ESE狀態(tài).

      綜合上述情形i)和情形ii)可知,在政府相關部門未對該發(fā)電側市場的企業(yè)電量競價上網(wǎng)做出有效監(jiān)督時,即市場尚未制定有效的上網(wǎng)電量交易規(guī)則時,該市場長期演化過程中,其僅有的8個純策略內部均衡點中將有7 個成為演化不穩(wěn)定的純策略均衡點,即E2,E3,E4,E5,E6,E7和E8.在這些均衡點處系統(tǒng)無法取得ESS,即含這些電量競價策略的企業(yè)小群體將無法入侵到達到長期ESE狀態(tài)的群體中來,從而在發(fā)電市場的演化過程中逐漸消失掉.此時,可知系統(tǒng)僅存在唯一的一個演化穩(wěn)定的純策略內部均衡點,即E1(0,0,0),其含義為新能源發(fā)電企業(yè)群體A與傳統(tǒng)能源發(fā)電企業(yè)群體B之間互相采取不合作策略,同時電網(wǎng)企業(yè)群體C采取消極消納新能源策略.

      由此可見,在政府無有效監(jiān)督下,群體A,B和C都將采取其策略集中第2個策略以爭取更多上網(wǎng)交易電量或降低更多電網(wǎng)運營成本,實現(xiàn)自身利益最大化.此時,新能源與傳統(tǒng)能源發(fā)電企業(yè)間互不合作,電網(wǎng)企業(yè)群體針對由于消納新能源帶來的電網(wǎng)投資成本升高這一狀況,選擇消極消納新能源企業(yè)的發(fā)電量,由此造成的后果是:新能源發(fā)電企業(yè)群體無法有效參與到發(fā)電市場交易,市場中存在大量的新能源發(fā)電量被棄用,即棄風棄光現(xiàn)象非常嚴重,這不利于可再生能源的持續(xù)發(fā)展,容易造成發(fā)電市場動蕩以及長期不健康運行,對此進行動態(tài)仿真驗證.

      在滿足上述情形i)和ii)的條件下,在三維決策空間[0,1]×[0,1]×[0,1]內對α,β和γ的初始值以1/8為間隔從0到1進行取值,即進行多達729輪次的發(fā)電市場上網(wǎng)電量重復競價博弈動態(tài)仿真,觀察電量競爭策略(α,β,γ)在市場長期演化發(fā)展過程中的相軌跡,仿真時間取t=10(單位:年),仿真結果如圖7所示.圖7中,紅色、綠色和藍色實心圓點分別表示系統(tǒng)取得的唯一電量競爭ESS(即長期ESE狀態(tài))、演化不穩(wěn)定均衡狀態(tài)和演化臨界狀態(tài)(即鞍點).

      圖7 政府無監(jiān)督情況下新能源發(fā)電企業(yè)群體參與的發(fā)電側電力市場上網(wǎng)電量博弈的動態(tài)仿真:在729 次動態(tài)仿真下(α,β,γ)的相軌跡圖Fig.7 Dynamic simulation results of the generation-side ongrid power generation amount competition game involving participants of new energy corporation groups when the government conducts no supervision on the power generation market:the phase trajectory of (α,β,γ)based on 729 times of simulations

      由圖7可知:經(jīng)過不同輪次的動態(tài)仿真,系統(tǒng)最終都只在E1(0,0,0)處取得唯一的長期競價ESS,在E2,E3,E4,E5,E6和E7處處于臨界狀態(tài),在E8處則處于演化不穩(wěn)定狀態(tài).因此,通過理論分析與動態(tài)仿真驗證可見:在政府對發(fā)電市場不進行有效監(jiān)督的情況下,新能源發(fā)電企業(yè)群體、傳統(tǒng)能源發(fā)電企業(yè)群體和電網(wǎng)公司企業(yè)群體三方將經(jīng)過多輪次的上網(wǎng)電量降價長期博弈,最終使該發(fā)電市場在均衡點E1 處自發(fā)形成唯一的競價ESS,即達到唯一的長期ESE狀態(tài).在該狀態(tài)下,新能源與傳統(tǒng)能源發(fā)電企業(yè)群體間采取互不合作的策略,與此同時電網(wǎng)企業(yè)群體消極消納新能源,以爭取自身經(jīng)濟利潤最大化.

      顯然,在上述唯一ESE狀態(tài)下,市場無法良性發(fā)展,對于促進新能源發(fā)電企業(yè)參與電力市場交易和促進新能源消納都是極為不利的.因此,有必要結合表9對該市場的相關純策略內部均衡點的RNP參數(shù)進行適當調整,而這可通過政府制定有效的發(fā)電側電力市場電量上網(wǎng)競價交易規(guī)則來實現(xiàn).此時,需要通過政府有效監(jiān)督和引導新能源發(fā)電企業(yè)與傳統(tǒng)能源發(fā)電企業(yè)互相合作,并使電網(wǎng)公司企業(yè)群體積極參與到新能源消納中來,而其他上網(wǎng)電量競價策略都將在市場長期演化發(fā)展過程中逐漸消失掉.因此,通過政府積極制定交易規(guī)則引導電力市場良性發(fā)展,將使得E8(1,1,1)成為全系統(tǒng)唯一的ESS.而要實現(xiàn)這一點,則需要系統(tǒng)的RNP參數(shù)同時滿足如下5個條件:i)l5<l1,m3<m1,n2<n1,該條件可使得E8(1,1,1)逐漸演化成為長期ESS,相應地,E4(0,1,1),E6(1,0,1)和E7(1,1,0)將成為不穩(wěn)定的演化均衡點;ii)l4>l8,m6>m8,n7>n8中至少有一個滿足,這將使得E1(0,0,0)成為演化不穩(wěn)定的均衡點;iii)l3>l7,m5>m7,n8>n7中至少有一個滿足,這將使得E0(0,0,1)成為演化不穩(wěn)定的均衡點;iv)l2>l6,m8>m6,n5>n6中至少有一個滿足,這將使得E3(0,1,0)成為演化不穩(wěn)定的均衡點;v)l8>l4,m2>m4,n3>n4中至少有一個滿足,這將使得E5(1,0,0)成為演化不穩(wěn)定的均衡點.

      基于此,系統(tǒng)中除E8(1,1,1)外,其余7個純策略內部均衡點都將成為系統(tǒng)的不穩(wěn)定均衡點或鞍點,從而系統(tǒng)在這些均衡點處無法取得ESS,即無法達到長期ESE狀態(tài).此時,E8(1,1,1)成為全系統(tǒng)唯一的ESS,發(fā)電市場在該均衡點處將達到長期ESE狀態(tài).在該均衡點處,新能源發(fā)電企業(yè)群體與傳統(tǒng)能源發(fā)電企業(yè)群體選擇互相合作,促進新能源發(fā)電企業(yè)積極參與發(fā)電側電力市場發(fā)電量交易,同時電網(wǎng)企業(yè)群體在一定精度負荷預測基礎上選擇積極參與到新能源消納中來,進一步促進新能源發(fā)電量上網(wǎng),并盡量減少棄風棄光等新能源浪費現(xiàn)象發(fā)生.這對于電網(wǎng)削峰填谷和安全穩(wěn)定運行都具有重要意義.

      因此,在完成對上述RNP參數(shù)調整的前提下,對“E8(1,1,1)成為發(fā)電市場唯一的長期競價ESS”這種情況進行動態(tài)仿真驗證.在該發(fā)電市場的三維決策空間[0,1]×[0,1]×[0,1]內對α,β和γ的初始值以1/9為間隔從0 到1進行取值,即進行1000輪次的上網(wǎng)電量競價博弈動態(tài)仿真,觀察電量競爭策略(α,β,γ)在市場長期演化發(fā)展過程中的演化趨勢(即相軌跡),仿真時間取t=10(單位:年),仿真結果如圖8所示.其中,各圖中紅色、綠色和藍色實心圓點含義同圖7.

      圖8表明:在滿足上述i)–v)所示的RNP參數(shù)條件下,市場將在E8(1,1,1)處取得唯一的ESS,即發(fā)電市場將在該點處達到唯一的長期ESE狀態(tài).此時新能源發(fā)電企業(yè)群體A選擇與傳統(tǒng)能源發(fā)電企業(yè)群體B互相合作,而電網(wǎng)企業(yè)群體C則選擇積極參與新能源消納.除此之外,系統(tǒng)其它的7個純策略均衡點都將成為演化不穩(wěn)定的均衡點,系統(tǒng)在這些均衡點處將處于不穩(wěn)定均衡狀態(tài)(綠色圓點)和臨界均衡狀態(tài)(藍色圓點),而選擇這些演化不穩(wěn)定均衡點處策略的企業(yè)小群體最終將無法入侵到達到演化穩(wěn)定均衡狀態(tài)的企業(yè)群體中來,從而在發(fā)電側電力市場長期的演化發(fā)展過程中逐漸消失,并成為市場中不穩(wěn)定的發(fā)電量上網(wǎng)競價策略組合.

      圖8 政府有監(jiān)督情況下新能源發(fā)電企業(yè)群體參與的發(fā)電側電力市場上網(wǎng)電量博弈的動態(tài)仿真:在1000次動態(tài)仿真下(α,β,γ)的相軌跡圖Fig.8 Dynamic simulation results of the generation-side ongrid power generation amount competition game involving participants of new energy corporation groups when the government conducts some supervision on the power generation market:the phase trajectory of(α,β,γ)based on 1000 times of simulations

      總的來說,上述算例仿真分析充分驗證了本文關于三方兩策略演化博弈行為決策特性的理論研究結論,這也表明通過對具體算例的演化博弈模型進行完整的演化動力學行為決策特性的理論分析與動態(tài)仿真驗證,可充分發(fā)掘系統(tǒng)在所有內部均衡點處的長期演化穩(wěn)定均衡狀態(tài),并確定系統(tǒng)所有的RNP 參數(shù),并進一步獲得這些參數(shù)的實際物理含義或經(jīng)濟含義.此外,通過算例仿真分析表明:通過一些外部因素(比如算例中提到制定市場競價交易政策進行引導與監(jiān)督)來適當調整復雜多方演化博弈系統(tǒng)的這些RNP參數(shù)將會使得全系統(tǒng)的長期演化穩(wěn)定均衡狀態(tài)朝著期望的均衡點處收斂.這對于研究工程或其他領域內更復雜、具體的多群體多策略式對稱與非對稱演化博弈問題具有重要的理論指導和借鑒意義.

      5 總結

      演化博弈論(EGT)建立在有限理性和有限信息假設基礎上,相比經(jīng)典博弈論更加符合實際博弈情形,因而EGT目前在很多領域得到了初步發(fā)展.為此,立足于EGT中的RD,ESS和ESE等幾個核心概念,本文探索了較為常見的通用三方多策略對稱與非對稱演化博弈的行為決策特性,通過詳細的理論分析與動態(tài)仿真總結和驗證了諸如3P2S–SEG,3P2S–SEG,3P3S–AEG等常見三方兩策略和三策略演化博弈模型的長期ESE 特性.在研究過程中,本文詳細定義了各類演化博弈模型的RNP參數(shù).

      研究表明這些RNP參數(shù)決定了各演化博弈最終的長期ESE狀態(tài)的獲取,因而通過某些外部因素適當調整這些RNP參數(shù)可使各類三方多策略演化博弈模型朝著期望的長期ESE狀態(tài)處演化發(fā)展.此外,通過定義模型的RNP參數(shù),可以完整揭示模型所有的演化博弈場景,其總數(shù)等于以2為底、定義的系統(tǒng)RNP參數(shù)總數(shù)目為冪的一個指數(shù),而進一步將系統(tǒng)所有的內部均衡點依次代入到每種博弈場景中即可得到系統(tǒng)完整的演化狀態(tài)分布,即演化動力學行為決策特性分布.這為研究實際的三方多策略(甚至更多方多策略場景)演化博弈行為決策問題提供了一種很好的求解思路.

      此外,本文對各類通用兩方和三方多策略演化博弈模型的長期ESE特性進行了詳細總結,并對一般情形下的三方任意策略非對稱演化博弈的建模思路和收斂迭代計算方法進行了詳細闡述,可為研究更多方參與的實際多策略演化博弈問題提供一些理論參考.最后,本文提供了一個供給側發(fā)電市場中三方參與上網(wǎng)電量競爭的長期演化博弈的算例,對本文研究模型和方法的有效性進行了充分驗證.

      總的來說,本文研究模型、方法和所得結論具有一定普適性、有效性和實用性,可適用于研究各類實際的三方多策略對稱與非對稱行為決策問題,并可進一步拓展用于更復雜的多方多策略行為決策問題分析.本文拋磚引玉,從理論研究與動態(tài)仿真驗證出發(fā)詳細探索了非完全理性群體參與的三方多群體對稱與非對稱演化博弈行為決策問題的解決方案,旨在豐富演化博弈論的理論與應用研究內容,期待為相關領域內非完全理性參與人的多方多策略演化博弈,尤其是三方多策略演化博弈行為決策問題提供一些思路與理論參考.

      猜你喜歡
      均衡點非對稱發(fā)電
      “發(fā)電”
      檸檬亦能發(fā)電?
      科學大眾(2021年9期)2021-07-16 07:02:50
      交易成本理論在油田企業(yè)小修業(yè)務自營和外包決策中的應用分析
      非對稱Orlicz差體
      三級供應鏈投資模型的評價管理
      物流科技(2017年9期)2017-10-31 14:59:45
      搖晃發(fā)電小圓球
      摩擦發(fā)電
      學與玩(2017年4期)2017-02-16 07:05:40
      點數(shù)不超過20的旗傳遞非對稱2-設計
      均衡點移動的直觀圖示及其例析
      非對稱負載下矩陣變換器改進型PI重復控制
      電測與儀表(2015年4期)2015-04-12 00:43:04
      鄂托克前旗| 修文县| 海伦市| 郓城县| 安国市| 铜梁县| 额敏县| 宣恩县| 太康县| 烟台市| 揭阳市| 沙雅县| 泰和县| 台中市| 门源| 钦州市| 敦煌市| 东辽县| 重庆市| 若羌县| 皋兰县| 永登县| 普兰店市| 绥滨县| 疏附县| 涿州市| 安平县| 曲靖市| 郯城县| 齐齐哈尔市| 上饶市| 镇江市| 富源县| 西宁市| 石首市| 广灵县| 德阳市| 瓦房店市| 井陉县| 岱山县| 德钦县|