博弈論：社會科學(xué)的物理學(xué)*

2024-01-03 12:26:00劉軼群劉敬偉

九江學(xué)院學(xué)報(自然科學(xué)版) 2023年4期

羅君劉軼群劉敬偉

(1茅臺學(xué)院工商管理系貴州仁懷 564507；2維多利亞大學(xué)古斯塔夫森商學(xué)院加拿大維多利亞 V8W2Y2)

1研究背景

博弈論，是研究個體間策略性互動行為的理論，又稱互動決策理論.由于社會是由個體(個人或組織)組成的，因此，博弈論已經(jīng)深入到了社會科學(xué)的幾乎所有領(lǐng)域，又因其數(shù)理分析的嚴(yán)密性，被認(rèn)為是社會科學(xué)的物理學(xué)[1].

1944年，由馮·諾依曼和摩根斯坦合著的《博弈論與經(jīng)濟(jì)行為》(Theory of Game and Economic Behavioer，by John von Neumann and Oskar Morgenstern，1944)一書的出版，標(biāo)志著博弈理論的初步形成.博弈論誕生的初期，主要以普林斯頓大學(xué)為研究中心，并逐漸擴(kuò)散開來.博弈論的研究被分為兩大分支：非合作博弈(Non-cooperative Game)與合作博弈(Cooperative Game)，1980年代為其成長爆發(fā)期，1994年諾貝爾經(jīng)濟(jì)學(xué)獎首次頒發(fā)給博弈論研究的奠基人約翰·納什(John F. Nash)、海薩尼(John C. Harsanyi)和澤爾騰(Jr. Reinhard Selten)，以表彰他們對非合作博弈均衡所做的開拓性貢獻(xiàn).其中，納什的貢獻(xiàn)在于納什均衡(Nash Equilibrium)，海薩尼的貢獻(xiàn)在于不完全信息下的均衡性，澤爾騰則是對完美均衡(Perfect Equilibrium)作出了貢獻(xiàn)[2].截至2022年度，諾貝爾經(jīng)濟(jì)學(xué)獎先后9次頒發(fā)給博弈論領(lǐng)域的學(xué)者，足見博弈論的魅力.

博弈論的主要研究領(lǐng)域有：①演化博弈論，主要源自梅納德·史密斯和普瑞斯發(fā)表在Nature上的“動物沖突的邏輯”(The Logic of Animal Conflict，J.Maynard Smith and G.R.Price，1973)一文；②行為博弈論(behaviroal game theory)，通過考察人類非理性因素，研究參與人的策略選擇問題，有實驗博弈(在實驗室進(jìn)行的博弈)和實證博弈(在實際情景中進(jìn)行的博弈；③算法博弈論，算法博弈論融合了計算科學(xué)與博弈理論，主要研究領(lǐng)域包括各種均衡的計算及復(fù)雜性問題、機(jī)制設(shè)計(包括在線拍賣、在線廣告)、計算社會選擇等；④組合博弈論(combinatorial game theory)主要研究具有完全信息的序貫博弈；⑤非貝葉斯博弈(non-bayesian games)，在放松傳統(tǒng)博弈理論的貝葉斯假設(shè)下，探討不確定性下的決策.

2 n人非合作博弈模型、解概念與范例

2.1模型

參與人i∈{1，2，…，n}有mi個行動策略，令si∈{1，2，…，mi}表示參與人i的選項，參與人i的支付(tradeoff)為ai(s1，s2，…，sn)，再令xi=(xi(1)，xi(2)，…，xi(mi))表示參與人i的策略分布(xi(·)非負(fù)且和為1)，亦即xi表示參與人i在其mi個行動策略中的概率分配.模型要解決的問題是，如何決定博弈中各個參與人的策略選擇.

2.2解概念(solutions concepts)

納什均衡解(nash equilibrium)與完美均衡解(perfect equilibrium)是非合作博弈的兩個基本解概念.納什均衡解(Nash，1950)是指：任一參與人在知道其他參與人的策略選擇后，并不改變自己的策略選擇；完美均衡解(Selten，1975)是指：在納什均衡解中，那些明顯不會被比下去而有可能被采用的策略，換句話說，有弱劣策略的納什均衡不是完美均衡[3].

2.3范例

2.3.1情侶博弈又稱性別戰(zhàn)(battle of sexes)，Ann和Bob是一對情侶，周末到了，Ann想去聽一場難得的音樂會，而Bob想去看一場同樣難得的足球賽，當(dāng)然，兩人不想分開，希望能在一起共度美好時光，怎么辦呢？Ann(參與人1)和Bob(參與人2)各有兩個選項：聽音樂會(選項1)和看足球賽(選項2)，該博弈的支付矩陣如表1所示.

表1 情侶博弈支付矩陣

從以上博弈支付矩陣來看，如果兩個人一起去聽音樂會，Ann與Bob的效用分別為4，1；如果兩個人一起去看足球賽，其效用分別為1，4；其他不在一起的組合，效用皆為0.

Ann和Bob各自的效用還可以用一個2×2矩陣A和B來分別表示：

該博弈有三個納什均衡解，包括兩個純策略均衡和一個混合策略均衡：(1)x1=(1，0)，x2=(1，0).即兩人都去聽音樂會，Ann的效用為4而Bob為1；(2)x1=(0，1)，x2=(0，1).即兩人都去看足球賽，Ann的效用為1而Bob為4；(3)x1=(4/5，1/5)，x2=(1/5，4/5).即Ann以4/5的概率去聽音樂會，以1/5的概率去看足球賽，而Bob則以1/5的概率去聽音樂會，以4/5的概率去看足球賽，Ann和Bob的效用皆為4/5(=4/5×1/5×4+1/5×4/5×1).這三個納什均衡解同時也是完美均衡解，但完美均衡解并沒有明確告訴Ann和Bob該采用三個解中的哪一個：Ann可以說服Bob一起去聽音樂會，Bob也可以說服Ann一起去看足球賽，或者兩人選擇其實并無效率的混合策略，這需要參與人進(jìn)一步協(xié)調(diào)和溝通.納什均衡解的“唯一性”問題，至今尚未解決.

2.3.2非完美均衡解博弈考慮如下兩個參與人之間的博弈(各有兩個選項)：

該博弈有兩個純策略納什均衡解：(1)x1=(1，0)，x2=(1，0)；(2)x1=(0，1)，x2=(0，1).亦即，兩人都采用選項1，或者兩人都采用選項2，但前者明顯劣于后者，也就是說前者明顯能被后者比下去，因此前者雖然是納什均衡解但不是完美均衡解.

2.3.3斗雞博弈(chicken game) 又稱膽小鬼博弈。兩個參與人，各自駕車在一條道路上沿著路中間高速相向迎面而來，此時雙方各有兩個選項：選項1：避讓(閃到路邊)；選項2：不避讓(沿著路中間繼續(xù)高速前行)，各自的支付矩陣如下：

矩陣A和B互為對稱矩陣，其中，相互避讓的效用或支付為0(表示互不吃虧)，雙方都不避讓的效用或支付為-109(表示兩敗俱傷)，己方避讓對方不避讓為-10(表示不滿對方的霸道)，己方不避讓對方避讓為1(表示占便宜).該博弈有三個納什均衡解：①己方讓對方不讓；②己方不讓對方讓；③各自以99/100的概率避讓，以1/100的概率不避讓.在面對沖突(比如遭受侵略)時，要讓對方強(qiáng)烈地相信己方會采取“不讓”的策略，對方就越有可能采取“讓”的策略.

2.3.4囚徒困境(prisoner's dilemma)[4]兩個嫌犯(兩個參與人)被警察隔離審訊，他們各自都有兩個選項：選項1：認(rèn)罪；選項2：不認(rèn)罪.博弈的支付(表示判刑的時間)矩陣如下：

矩陣A和B互為轉(zhuǎn)置矩陣，該博弈只有一個納什均衡解：雙方都認(rèn)罪，各自被判處5年徒刑.雖然雙方都不認(rèn)罪(各自被判1年)對他們是最好的結(jié)果，但如果一方認(rèn)罪另一方不認(rèn)罪，不認(rèn)罪的一方會被加重處罰，而認(rèn)罪的一方則被免于處罰，因而存在被對方出賣的風(fēng)險，從理性人的角度出發(fā)，都不認(rèn)罪的選項無法形成納什均衡解，兩嫌犯只有在警察設(shè)計的誘因機(jī)制下認(rèn)罪.

3 n人合作博弈的模型、解概念與范例

3.1模型

3.2解概念

核中有多個解時，該如何選擇呢？核仁便是核中的一個公平解.核仁(Schmeidler，1969)所依據(jù)的分配思想，是讓一個群體中最不幸成員的幸福最大化，若有多重選擇時，再使次不幸成員的幸福最大化，以此類推，直到找到一個解[9].這里所指的成員是任一個次級聯(lián)盟(不含大聯(lián)盟及空集)，共有2n-2個成員.

夏普利值是指(Shapley，1953)參與人的貢獻(xiàn)以邊際貢獻(xiàn)來衡量，n個參與人共有n！個排列，某個參與人的分配值為其在n！個排列中的平均邊際貢獻(xiàn)[10].在一個排列中，令S(可為空集)表示排在參與人i前面的所有參與人，則參與人i在該排序中的邊際貢獻(xiàn)為v(S∪{i})-v(S).

3.3范例

三家公司擬成立合作研發(fā)中心，其中各個公司(1，2，3)單獨研發(fā)，其成本分別為11、8、7；公司1、2合作研發(fā)的成本為14；公司1、3合作研發(fā)的成為為15；公司2、3合作研發(fā)的成本為13；公司1、2、3合作研發(fā)的成本為為20.那么，三家公司應(yīng)如何公平分擔(dān)合作研發(fā)的成本呢？

首先，將該問題表示為3人合作博弈模型：(1)v(φ)=0；(2)v({1})=v({2})=v({3})=0(因為單獨研發(fā)沒有節(jié)省成本)；(3)v({1，2})=5(公司1，2合作研發(fā)，可節(jié)省成本5(=11+8-14))；同理：(4)({1，3})=3；(5)v({2，3})=2；(6)v({1，2，3})=6.

其次，求該博弈的核：該博弈的核為以下不等式組的解集(由六個不等式和一個等式所圍成的區(qū)域，如圖1陰影部分所示)：

圖1 合作博弈的核 (不等式組的解集)

再次，求該博弈的核仁：各成員(不包含大聯(lián)盟和空集)的幸福值可以定義為其分配總值減去其聯(lián)盟價值(見表2)，因為y1+y2+y3=6，因此由表2可知，成員{1}和成員{2，3}的幸福值之和為4，成員{2}和成員{1，3}的幸福值之和為3，成員{3}和成員{1，2}的幸福值之和為1.最不幸成員為{3}和{1，2}(他們的幸福值之和最小)，他們平分其幸福值，各得0.5，故成員{3}新的聯(lián)盟價值為0.5(=0+0.5)，而成員{1，2}新的聯(lián)盟價值為5.5(=5+0.5).接下來，將5.5分配給{1，2}中的{1}和{2}，此時，{1，3}和{2，3}的幸福值之和為1.5(=6+0.5-5)為最小，因此平分其幸福值，各得0.75，各自新的聯(lián)盟價值分別為3.75(=3+0.75)和2.75(=2+0.75)，在已知{3}的聯(lián)盟價值為0.5的條件下，可得{1}和{2}新的聯(lián)盟價值(分配值)分別為3.25(=3.75-0.5)和2.25(=2.75-0.5).由此，可求得該博弈的核仁為(y1，y2，y3)=(3.25，2.25，0.5)，進(jìn)而可以求得三家公司各自的成本分?jǐn)偡謩e為7.75(=11-3.25)，5.75(=8-2.25)和6.5(=7-0.5).

表2 各成員的幸福值

最后，求該博弈的夏普利值：參與人1、2、3共有六個排列，分別為：123，132，213，231，312，321.他們在這六個排列中的邊際貢獻(xiàn)分別為(0，5，1)，(0，3，3)，(5，0，1)，(4，0，2)，(3，3，0)，(4，2，0).因此參與人1、2、3的平均邊際貢獻(xiàn)(即夏普利值)分別為：8/3，13/6，7/6.如表3所示.進(jìn)而，根據(jù)夏普利值的分配邏輯，三家公司各自分?jǐn)偟某杀痉謩e為：25/3(=11-8/3)，35/6(=8-13/6)和35/6(=7-7/6).

表3 博弈的夏普利值

4結(jié)語

目前，博弈論已形成一個相對完備的方法論體系，成為一種強(qiáng)有力的數(shù)理分析工具，并廣泛應(yīng)用于經(jīng)濟(jì)學(xué)、管理學(xué)、社會學(xué)、政治學(xué)等社會學(xué)科領(lǐng)域[11].由于其多使用復(fù)雜的數(shù)學(xué)方法構(gòu)建博弈模型，又被稱為社會科學(xué)的物理學(xué).

博弈論有兩個分支：非合作博弈與合作博弈.馮·諾伊曼和摩根斯坦首次提出合作博弈的概念，并對合作博弈進(jìn)行了大量的討論和研究，而他們對非合作博弈的研究僅介紹了簡單的零和博弈，也就是說，博弈論最先發(fā)端于對合作博弈[12].繼納什之后，學(xué)者們對非合作博弈展開了深入細(xì)致的研究，取得了豐富的成果，使其成為體系相對完備的一個分支，而合作博弈的研究進(jìn)展則相對滯后，始終落后于非合作博弈.

當(dāng)前，在企業(yè)、社會、國家面臨新的競爭與合作關(guān)系的背景下，合作博弈由于其側(cè)重于合作效率以及公平分配的研究，更加符合新型競合關(guān)系的內(nèi)在要求[13]，因此，需要加強(qiáng)對合作博弈理論與應(yīng)用的探索和研究，為促進(jìn)企業(yè)、社會、國家之間的協(xié)調(diào)與合作作出應(yīng)有的貢獻(xiàn).

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看