“囚徒困境”問題探討

2016-10-14 23:39:51方孟孟

現(xiàn)代商貿(mào)工業(yè) 2016年4期

方孟孟

摘要：

現(xiàn)實世界的資源是有限的，而人的需求和欲望卻是無限的。為了實現(xiàn)社會的福利最大化，就需要有效地配置各種經(jīng)濟資源。然而，在傳統(tǒng)“理性人”的假設下，自利人為了自身利益而展開爭奪，最終形成的納什均衡結(jié)果，往往陷入“囚徒困境”的無效率境地，造成資源的無效配置和浪費。為此，試從合作博弈和交易費用的視角探討帕累托改進的路徑，尋找“囚徒困境”的破解方法，以圖實現(xiàn)帕累托最優(yōu)結(jié)果。

關鍵詞：

囚徒困境；帕累托最優(yōu)；合作博弈；交易費用

中圖分類號：F27

文獻標識碼：A

文章編號：16723198（2016）04006803

1 引言

傳統(tǒng)經(jīng)濟學中，“理性人”假設是一切經(jīng)濟分析的基礎，每個人都是聰明絕頂且自私自利，為實現(xiàn)自身效用最大而努力。然而，最終的納什均衡解卻往往是無效率的，不僅沒有實現(xiàn)自己的效用最大，也造成社會福利的損失，出現(xiàn)個體理性和集體理性之間沖突局面，既不是帕累托最優(yōu)，甚至也不是?？怂?卡爾多有效的。根據(jù)達爾文《物種起源》中的論點，可以假設：所有的生命個體在面臨選擇時，都是自私自利的，完全忽視其他個體的利益，沒有悲憫之情。但是，即便是這樣的起點，也會有類似于兄弟姐妹的伙伴關系的出現(xiàn)，并且實現(xiàn)個體利益和集體利益的協(xié)調(diào)?！扒敉嚼Ь场辈⒎鞘遣豢善瞥哪е?，只要找到合適的能夠影響參與者收益和行為的有效機制，就能走出困境的陰霾，實現(xiàn)帕累托最優(yōu)。同時，應該認識到：囚徒困境中的參與者并非是“真正的理性人”，“囚徒困境”只是兩個自私自利的人“聰明反被聰明誤”的結(jié)局，不是真正的“聰明絕頂”的人所應該做出的決策。如果是真正的“理性人”，他們就應該掌握博弈論的基本知識，能預計到自己的處境，最后兩個囚徒都會毫無顧忌的選擇抵賴，從而實現(xiàn)另一個均衡（并不坦白，不坦白）。此外，如果博弈的參與者是利他人或為己利他，也可以有效突破困境。

2 “囚徒困境”模型

“囚徒困境”是博弈論研究中虛構(gòu)的一個經(jīng)典案例，最早是在20世紀50年代，由美國Rand公司的Dresher和Flood采用。在之后，鑒于“囚徒困境”模型在社會科學研究方面的作用，普林斯頓大學的教授Albert Tucker逐漸將它推廣開來。因此，“囚徒困境”模型成為了博弈論研究的典型案例，尤其在非合作博弈中。

作為簡單的博弈模型，“囚徒困境”假設有兩個嫌疑犯（A和B）被捕，罪名是入室搶劫。根據(jù)各種推理，警察判定他們是有罪的，但是證據(jù)明顯不足。依據(jù)法律規(guī)定，如果他們兩人都對此緘口不言，最多只能被判入獄1年。為了破案，警察采取分開審訊的辦法，并對其作出承諾：在其中一人對搶劫抵賴的情況下，坦白者會被無罪釋放，抵賴者入獄10年；在兩人都選擇坦白時，均被判入獄5年。在此情況下，嫌疑犯A和B的處境相同，將他們的可能選擇及結(jié)果歸結(jié)為如圖1所示。

圖1是參與人A和B博弈的矩陣式表述。這里，A和B被隔離審訊。對于參與人A而言，不論B做出何種決策，相對不坦白而言，坦白是嚴格占優(yōu)策略，總會使其處境變好。作為一個理性的經(jīng)濟個體，A就會選擇坦白。同理，由于A和B所處的位置對稱，B也會選擇坦白。這樣，在理性的抉擇下，A和B兩人都選擇了坦白，各自被罰關押5年。這時，在給定對方的策略，任何一方都沒有動力去改變自己的策略，因為只要改變策略，自己的境況就會變得更差，因而（坦白，坦白）是這個博弈的納什均衡解。

很容易發(fā)現(xiàn)，在這個博弈中，無論是對兩個囚徒的總體來講，還是對他們各自來講，最佳的結(jié)果都不是同時坦白各得到-5，因為都不坦白各得到-1顯然比都坦白各得-5好得多，其納什均衡解并非是帕累托最優(yōu)的。然而，在不能合謀的情形下，雙方出于個人理性，都會選擇最大化自身利益的做法。由于兩個嫌疑犯都采取不合作手段，最終實現(xiàn)的結(jié)果只能是對他們而言最差的。在這個博弈中，很明顯的出現(xiàn)了個人理性和集體理性的矛盾對立：從個人利益出發(fā)，既沒能實現(xiàn)個體的最大利益，也沒能實現(xiàn)集體的最大化利益。

3 突破“囚徒困境”

“囚徒困境”的簡單博弈反映了個人理性和集體理性的深層次矛盾。它對于人類行為的預測是灰暗的：在個人理性前提下，自主決策的市場經(jīng)濟中，最大化個人利益的目標指向常常會導致合作的失敗。究其根源，主要是該博弈假定博弈方都是完全自利而不顧他人利益的經(jīng)濟人，并排除了雙方合謀的可能，然而現(xiàn)實當中并非完全如此。只要雙方存在合作的共同利益或者存在有約束力的合作協(xié)議，就有可能實現(xiàn)帕累托改進。

3.1 合作博弈視角

合作博弈主要是指在博弈過程中存在自愿簽訂但有約束力協(xié)議的博弈。這意味著參與人（疑犯A和B）能夠達成某種協(xié)議，建立攻守同盟。在此背景下，協(xié)議給參與人提供的激勵將會改變疑犯A和B的策略選擇，進而影響博弈的結(jié)局。

假定在博弈開始之前，參與者預期對方會屈從背叛的誘惑，因而每個參與者都要求簽訂一份文件，以保證如果其中一人背叛時，他將被迫支付給其他參與人足夠數(shù)額的貨幣，這個足夠大的貨幣支付要能夠抵消選擇背叛所帶來的收益，或者說背叛者將受到其他人的嚴厲報復。如果簽訂協(xié)議的激勵足夠大或報復很嚴重，每個參與人預期對方會簽訂協(xié)議，并且進行合作。這樣，原有的博弈就為新的博弈所替代。在新的博弈中，疑犯A和B的理性選擇就是同時選擇不坦白，遵守承諾、拒絕背叛。這樣，疑犯A和B的“囚徒困境”也就不會出現(xiàn)，從而實現(xiàn)帕累托改進。

即使雙方?jīng)]能達成有約束力的協(xié)議，但只要博弈重復的次數(shù)足夠多，雙方都不知道博弈結(jié)束的確切時間，仍可能形成合作的局面。這時，可將其看作無限次重復博弈，如果雙方都采用這樣的“觸發(fā)策略”：第一階段采取合作策略，在第t階段，如果前t-1階段的結(jié)果都是（合作，合作），則繼續(xù)采用合作，否則將一直采用不合作進行報復。

易知觸發(fā)策略是納什均衡?，F(xiàn)引入貼現(xiàn)因子δ，來比較參與人不同策略情形下未來各期收益的貼現(xiàn)值。首先，有必要假定參與者雙方具有相同貼現(xiàn)因子。這樣，在博弈開始時，若兩人都決定采取合作行為（抵賴），各得到收益-1。在接下來的博弈中，假如參與者A決定在某個時刻選擇了不合作策略（坦白），他將被無罪釋放而得到收益0。然而，這種選擇必定會遭到對手的報復性行為，嫌犯B在此后的博弈中，將采取永不合作的策略對其進行懲罰，使得A在隨后的每階段收益均為-5。因此，欲使在B合作時，A同樣選擇合作，需滿足條件：

-（1+δ+δ2+…δn+…）≥0-5δ-5δ2-…-5δn-…

即-11-δ≥-5δ1-δ

解上述不等式，可以得到：δ*≥0.2。

這就是說，如果δ*≥0.2，給定疑犯B堅持觸發(fā)策略并且B沒有首先選擇不合作，那么A不會首先選擇不合作，也即雙方都會選擇合作，從而促使帕累托效率的實現(xiàn)。

3.2 交易費用的視角

交易費用源于科斯的兩篇代表作：《企業(yè)的性質(zhì)》和《社會成本問題》。在文章中，科斯闡述了交易費用的思想。其體現(xiàn)交易費用的理論主要集中在兩方面：一方面是在企業(yè)與市場的相互替代關系上。由于交易費用的普遍存在，使得企業(yè)得以產(chǎn)生；企業(yè)能以內(nèi)部管理來取代市場交易，也隨之產(chǎn)生了管理費用。根據(jù)市場經(jīng)濟原則，交易總是會發(fā)生在交易費用較低的地方。也即，當管理費用小于交易費用時，交易在企業(yè)內(nèi)部進行；反之，交易則在市場進行；當管理費用和交易費用相等時，市場和企業(yè)都可進行。另一方面是在產(chǎn)權的界定與交易費用的關系上。這涉及到科斯定理的精髓，也即在零交易費用的假設下，科斯所說的市場交易的前提之一便是產(chǎn)權的界定。而最后的結(jié)果，雖然是產(chǎn)值的最大化，但這往往是與法律判決沒有關系的。

在理性經(jīng)濟人前提和完全信息條件假設下，只有在制度的運行中才會產(chǎn)生交易費用。此外，只要沒有各種不確定因素的影響，在其他條件不變和已知的情形下，所有為降低交易費用所做出的努力，都會帶來交易費用的降低。基于此降低交易費用模型（如圖2所示）。

x軸表示降低交易費用做出的努力，y軸表示交易費用，F(xiàn)（x，y）向右下方傾斜表示隨著降低交易費用的努力的增多，交易費用逐漸降低。

雖然交易費用是廣泛存在的，但在既定的制度基礎上，它并不可能無限大。因此，如交易費用模型所示，交易費用函數(shù)F（x，y）與坐標軸其實是相交的，點A表示其最大的交易費用。然而，由于各種摩擦，零交易費用是不存在的，所以函數(shù)F（x，y）只能無限的接近于X軸，卻不會與之相交。此外，隨著降低交易費用的努力的增多，交易費用會逐漸減少。因此，x與y之間存在負相關關系。

假設在一個有限的市場中，不會有外來廠商的進入或者存在極高的進入成本，僅有兩家實力相當生產(chǎn)同質(zhì)商品的廠商甲、乙，假設廠商甲、乙均為理性經(jīng)濟人，都以自身利益最大化為目標，要為自己的商品做廣告。他們之間存在囚徒困境（如圖3所示）。

在圖3的困境中，甲和乙最佳的選擇是雙方都不做廣告獲得（3，3）的最大收益，但是在現(xiàn)實生活中甲和乙往往會選擇（2，2）由于有收益4的驅(qū)動，導致雙方之間即使作出承諾也將是不可信的。

將甲和乙之間為不做廣告進行的承諾談判看作是交易，那么該項交易帶來的交易費用主要是談判發(fā)生的交易費用NC和道德行為產(chǎn)生的交易費用。如圖4所示，若不考慮道德風險的影響，只有在NC>2時（圖中的AB之間），雙方才會尋求合作，“囚徒困境”才能破除。

x軸表示降低交易費用做出的努力，y軸表示交易費用，F(xiàn)（x，y）向右下方傾斜表示隨著降低交易費用的努力的增多，交易費用逐漸降低。

總之，在現(xiàn)實的經(jīng)濟生活當中，各種摩擦的存在使得交易費用廣泛存在，而理想的零交易費用狀態(tài)是不存在的。交易費用意味著成本，因此它影響到交易的發(fā)生與否。此外，為實現(xiàn)利益最大化，盡可能的降低交易費用成為多數(shù)情況下的最優(yōu)選擇；但是也有例外。例如在“囚徒困境”模型中，與一般情況相反，為了實現(xiàn)帕累托改進或最優(yōu)，應當適當增加交易費用。

4 結(jié)語

綜上可知，基于“理性人”的假設，最終往往得到不理想的結(jié)果，致使效率的損失和資源的浪費。因為在此假設之下，個人都變成自私自利的，理性人假設抹殺了個人之間的差異甚至是人格，所有人都罔顧集體的利益。然而，如果成功是來自與其他成功的規(guī)則相互作用的話，這個成功將孕育更多的成功，而如果成功是靠占失敗者的便宜而得到的，這樣的成功者必將隨著失敗者的淘汰而失去賴以生存的基礎，走上一條自我毀滅的道路，最終的結(jié)局只能陷入“囚徒困境”。而唯有自利與利他想?yún)f(xié)調(diào)，基于有約束力的協(xié)議的合作協(xié)議或者是交易費用的提高，才有助于突破“囚徒困境”，實現(xiàn)帕累托最優(yōu)。

然而，從另一方面考慮，“囚徒困境”的參與者真的是理性人嗎？根據(jù)假設他們都聰明絕頂。而囚徒困境的結(jié)果卻是各判5年，實際上他們可以各判1年。他們自己會較被判1年好還是被判5年好，他們肯定不會滿足于被判5年，所以如果囚徒真是“理性人”，他們都會選擇抵賴，最后的結(jié)果是各判1年。這是從“理性人”的假設中自然得到的結(jié)論。按照經(jīng)典博弈論的分析，囚徒困境的納什均衡是（坦白，坦白），這顯然違背了“理性人”假設。這個結(jié)果實際上是兩個自私自利的人“聰明反被聰明誤”的結(jié)局，不是真正的“聰明絕頂”的人所做出的決策。如果是真正的“理性人”，他應該掌握博弈論的基本知識，能預計到自己的處境，最后兩個囚徒都會毫無顧忌的選擇抵賴。另外從納什均衡的定義出發(fā)也可以得到各判1年的結(jié)果。根據(jù)納什均衡的定義，在囚徒困境博弈中，各判5年不是大家最好的結(jié)果，因為有更好的選擇是各判1年。如果在最初有個攻守同盟，即兩人都不坦白，兩個“聰明”的囚徒如果能分析所有可能的戰(zhàn)略，他們應該不會打破攻守同盟的協(xié)議，因為打破攻守同盟意味著各判5年，執(zhí)行攻守同盟只判1年。所以攻守同盟（抵賴，抵賴）是納什均衡。同時上述（坦白，坦白）戰(zhàn)略也不符合納什均衡的定義。納什均衡說給定別人戰(zhàn)略的情況下，沒有人有積極性選擇其他的戰(zhàn)略。但納什均衡沒有說別人的戰(zhàn)略是不是可以變。如果雙方最初的同盟是（抵賴，抵賴），大家會看到如果有一方想法改變，另一方也會跟著改變，從而使情況進展兩步，達到一個更壞的結(jié)局各判5年，在這種情況下“理性人”會想改變同盟戰(zhàn)略嗎？因此，我認為根據(jù)納什均衡的定義（抵賴，抵賴）是納什均衡，這是兩個“真正的理性人”博弈最后達到的均衡。

同時，個人是社會中的個人，個人利益的實現(xiàn)是依托于集體利益的，沒有集體利益也就沒有個人利益的實現(xiàn)，集體利益是個人利益的前提和基礎，促進集體利益才能更好地實現(xiàn)個人利益。在“囚徒困境”模型中，如果參與者是為己利他甚至是利他的，他們每個人都輕易會認識到：只有自己選擇沉默不言時，不管對方怎樣選擇，都能使同伴的利益最大化。在這樣的邏輯下，兩人都會選擇對罪行抵賴，最終均被判入獄1年。此時，個人最佳選擇與集體最佳選擇達到一致。如同受到亞當·斯密倡導的“看不見的手”原理所指引，每個囚徒的目的都是利他，卻在集體利益增進的同時，個人利益也得到了保證。

因此，即使是在一個總是背叛的小人世界，只要有哪怕是很小的一個合作性群體，合作仍然可以產(chǎn)生，合作一旦在群體中建立，就能保護自己不受非合作策略的侵入，并不斷的發(fā)展壯大，群體以不可逆轉(zhuǎn)的方式向合作的方向進化，并保證帕累托效率的實現(xiàn)。

參考文獻

[1]胡明光.突破“囚徒困境”：合作是如何可能的[J].新政治學，2010，（01）.

[2]王健.囚徒困境的破解—基于Agent的復雜適應系統(tǒng)仿真[J].商場現(xiàn)代化，2011，（08）.

[3]黃文平.囚徒困境—沉默權與人際合作秩序的擴展[J].廣東商學院學報，2011，（03）.

[4]尹晶晶，王朝全.基于交易費用理論分析破解囚徒困境[J].經(jīng)濟研究導刊，2011，（36）.

[5]郭洪偉.囚徒困境的均衡辨析[J].技術經(jīng)濟與管理研究，2011，（02）.

[6]朱富強.重新理解合作博弈概念、內(nèi)涵和理性基礎[J].社會科學輯刊，2012，（02）.

[7]郭佳臻.綜述納什均衡與帕累托最優(yōu)的沖突—囚徒困境[J].現(xiàn)代經(jīng)濟信息，2011，（24）.

[8]謝識予.經(jīng)濟博弈論[M].上海：復旦大學出版社，2002.