李春林 譚欽文 文宣 吳春燕 盧智淵 章少康
(西南科技大學(xué) 四川綿陽 621010)
根據(jù)人的社會屬性行為模式,行為由動機支配,而動機由需求產(chǎn)生[1-2]。作為企業(yè)的雇員,從經(jīng)濟性角度考慮,工人和安全管理人員的需求就是工作過程及其結(jié)果所帶來的收益,而動機則是獲得更高的收益。
博弈論是預(yù)測一定理性狀態(tài)下博弈參與者為獲得更高收益所采取行為的一種工具,常用于研究具有斗爭或競爭性質(zhì)的現(xiàn)象,公式化了一定制度下博弈雙方的相互作用規(guī)律[3]。其中,演化博弈理論認(rèn)為博弈參與者有限理性,并且達(dá)成均衡需要一定的演化過程,演化過程中收益較低者會學(xué)習(xí)收益較高者的策略。
演化博弈中的均衡稱為演化均衡(EE),而演化均衡中的穩(wěn)定均衡稱為演化穩(wěn)定策略(ESS)[4]。求出演化穩(wěn)定策略就能在一定程度上預(yù)測模擬一個企業(yè)中工人和安全管理人員穩(wěn)定狀態(tài)下的博弈情況。在以往關(guān)于企業(yè)安全管理的演化博弈研究中,研究往往只局限于個別幾個演化博弈種類,且未對偶發(fā)性強刺激作用進行研究[5-7],因此本研究不僅可以模擬博弈情況,對企業(yè)安全工作作出指導(dǎo)建議,還能補充現(xiàn)有理論研究的不足。
不同于傳統(tǒng)博弈,演化博弈中涉及到的計算要素除了博弈參與者、行動策略和收益外還有初始博弈策略的概率。在企業(yè)安全管理的演化博弈中,博弈參與者為工人和安全管理人員;工人有遵章守紀(jì)和違規(guī)違章兩種行動策略,安全管理人員有認(rèn)真監(jiān)管和監(jiān)管懈怠兩種行動策略,遵章守紀(jì)和認(rèn)真監(jiān)管屬于安全行為,違規(guī)違章和監(jiān)管懈怠屬于不安全行為;各個博弈局面收益數(shù)值的大小關(guān)系決定了博弈的種類;初始行動策略的概率又在博弈種類的基礎(chǔ)上決定了演化博弈的具體演化過程[8]。
在企業(yè)安全管理的博弈中,工人和安全管理人員兩種策略兩兩組合會形成4種博弈收益局面。為計算便捷起見,綜合疊加各類收益因素,設(shè)工人的收益分別為W11,W12,W21,W22,安全管理人員的收益分別為S11,S12,S21,S22,以W11和S11為例,這兩個數(shù)值分別表示了安全管理人員認(rèn)真監(jiān)管且工人遵章守紀(jì)情況下工人和安全管理人員的收益;工人遵章守紀(jì)的概率為p,不遵章守紀(jì)的概率為1-p;安全管理人員認(rèn)真監(jiān)管的概率為q,監(jiān)管懈怠的概率為1-q,則博弈收益矩陣如下表1所示。
表1 博弈收益矩陣
設(shè)工人群體中遵章守紀(jì)的工人收益為U1,違規(guī)違章的收益為U2,則
U1=qW11+(1-q)W12
(1)
U2=qW21+(1-q)W22
(2)
工人群體的平均收益為
(3)
根據(jù)復(fù)制動態(tài)方程的定義,工人選擇遵章守紀(jì)行為的復(fù)制動態(tài)方程為
(4)
同理,可以得出安全管理人員選擇認(rèn)真監(jiān)管行為的復(fù)制動態(tài)方程為
(5)
通過判斷復(fù)制動態(tài)方程所組成的雅克比矩陣的行列式和跡的正負(fù)性可以判斷演化均衡是否是演化穩(wěn)定策略。見表2,如果雅克比矩陣的行列式為正,跡為負(fù),則該演化均衡點為演化穩(wěn)定策略;如果雅克比矩陣的行列式為正,跡為正,則該演化均衡點為不穩(wěn)定點;如果雅克比矩陣的行列式為負(fù),則無論跡正負(fù),該均衡點均為鞍點[7]。
企業(yè)安全管理博弈的雅克比矩陣如下所示:
(6)
表2 各均衡點雅克比矩陣的行列式和跡
結(jié)合上表2,不考慮收益相等的極端情況,W11與W12,W21與W22,S11與S12,S21與S22這4對收益的大小關(guān)系決定了演化博弈的種類,因此理論上會存在24種演化博弈。通過判斷雅克比矩陣行列式和跡的正負(fù),這16種博弈可以按照演化穩(wěn)定策略的個數(shù)分為3類。
(1)第1類,不存在演化穩(wěn)定策略的博弈(即E點為演化中心),可細(xì)分為兩種,工人和安全管理人員的收益大小關(guān)系分別為W11>W21,W22>W21,S21>S11,S12>S22或者W11 (2)第2類,只存在一個演化穩(wěn)定策略的博弈,可細(xì)分為4小類12種。 ①第1小類的演化穩(wěn)定策略為工人遵章守紀(jì)且安全管理人員認(rèn)真監(jiān)管(即D點),其收益大小關(guān)系有3種,演化趨勢相同,但是具體意義不同,分別為W11>W21,S11>S21,W12>W22,S12>S22;W11>W21,S11>S21,W22>W12,S12>S22;W11>W21,S11>S21,W12>W22,S22>S12。其中第3種收益情況:工人選擇違規(guī)違章時安全管理人員選擇認(rèn)真監(jiān)管的收益低于監(jiān)管懈怠,同時,工人選擇遵章守紀(jì)時認(rèn)真監(jiān)管收益高于監(jiān)管懈怠的收益,不符合實際,應(yīng)予以舍去。 ②第2小類的演化穩(wěn)定策略為工人不遵章守紀(jì)且安全管理人員監(jiān)管懈怠(即A點),其收益大小關(guān)系有3種,演化趨勢相同,但是具體意義不同,分別為W22>W12,S22>S12,W21>W11,S21>S11;W22>W12,S22>S12,W11>W21,S21>S11;W22>W12,S22>S12,W21>W11,S11>S21。其中第3種收益情況:工人選擇違規(guī)違章時安全管理人員選擇認(rèn)真監(jiān)管的收益低于監(jiān)管懈怠,同時,工人選擇遵章守紀(jì)時認(rèn)真監(jiān)管收益高于監(jiān)管懈怠的收益,不符合實際,應(yīng)予以舍去。 ③第3小類的演化穩(wěn)定策略為工人遵章守紀(jì)且安全管理人員監(jiān)管懈怠(即B點),其收益大小關(guān)系有3種,演化趨勢相同,但是具體意義不同,分別為W12>W22,S21>S11,W11>W21,S22>S12;W12>W22,S21>S11,W11>W21,S12>S22;W12>W22,S21>S11,W21>W11,S22>S12。其中第3種收益情況:安全管理人員選擇認(rèn)真監(jiān)管時工人的違規(guī)違章收益高于遵章守紀(jì)收益,同時,安全管理人員選擇監(jiān)管懈怠時工人的違規(guī)違章收益低于遵章守紀(jì)收益,不符合實際,應(yīng)予以舍去。 ④第4小類的演化穩(wěn)定策略為工人不遵章守紀(jì)且安全管理人員認(rèn)真監(jiān)管(即C點),其收益大小關(guān)系有3種,演化趨勢相同,但是具體意義不同,分別為W21>W11,S12>S22,W22>W12,S11>S21;W21>W11,S12>S22,W12>W22,S11>S21;W21>W11,S12>S22,W22>W12,S21>S11。其中第3種收益情況:安全管理人員選擇認(rèn)真監(jiān)管時工人的違規(guī)違章收益高于遵章守紀(jì)收益,同時,安全管理人員選擇監(jiān)管懈怠時工人的違規(guī)違章收益低于遵章守紀(jì)收益,這種情況是不符合現(xiàn)實的,應(yīng)予以舍去。 (3)第3類,存在兩個演化穩(wěn)定策略的博弈,可細(xì)分為兩種。第1種的演化穩(wěn)定策略為“工人選擇遵章守紀(jì)同時安全管理人員認(rèn)真監(jiān)管”和“工人選擇違規(guī)違章同時安全管理人員監(jiān)管懈怠”(即A,D點),其收益大小關(guān)系為W11>W21,S11>S21,W22>W12,S22>S12;第2種的演化穩(wěn)定策略為“工人選擇不遵章守紀(jì)同時安全管理人員認(rèn)真監(jiān)管”和“工人選擇違規(guī)違章同時安全管理人員監(jiān)管懈怠”(即B,C點),其收益大小關(guān)系為W21>W11,S12>S22,W12>W22,S21>S11。在第2種博弈收益情況中,安全管理人員監(jiān)管懈怠時工人遵章守紀(jì)收益高于不遵章守紀(jì)收益,同時,安全管理人員選擇認(rèn)真監(jiān)管時工人的違規(guī)違章收益高于遵章守紀(jì)收益,這種情況顯然不符合人性和實際,應(yīng)予以舍去。 所以,企業(yè)安全管理中的演化博弈可按演化穩(wěn)定策略的個數(shù)分為3類,并結(jié)合實際情況進一步分為10種。 企業(yè)的工人和安全管理人員在生產(chǎn)過程中有受到偶發(fā)性強刺激作用(如發(fā)生安全事故、政府機構(gòu)突擊檢查等)的可能,強刺激發(fā)生帶來的威懾警醒作用能夠立即改變不同博弈局面的收益大小,提升工人遵章守紀(jì)和安全管理人員認(rèn)真監(jiān)管的概率。但是這種安全上的威懾警醒作用往往會隨著時間衰退,最后恢復(fù)成原先水平。 通過MATLAB軟件模擬,發(fā)現(xiàn)第2類博弈在強刺激作用后,演化的結(jié)果均會恢復(fù)成原先的演化穩(wěn)定策略。另外,由演化博弈規(guī)則和模擬結(jié)果可知,在第2類博弈中同一小類的演化博弈其演化趨勢和結(jié)果是相同的,因此不再細(xì)分模擬。 設(shè)t=10時發(fā)生強刺激,強刺激作用下工人和安全管理人員的博弈收益突變?yōu)閃11=5,S11=5,W12=5,S21=-5,W21=-5,S12=5,W22=-5,S22=-5;安全收益常規(guī)時間段t1∈[0,10),t3∈[15,50),安全強刺激作用恢復(fù)時間段t2∈[10,15),期間工人和安全管理人員的收益勻速恢復(fù)成常規(guī)收益;設(shè)初始工人遵章守紀(jì)概率p=0.7,安全管理人員認(rèn)真監(jiān)管概率q=0.8,強刺激作用后工人遵章守紀(jì)概率突變?yōu)?.99,安全管理人員認(rèn)真監(jiān)管的概率突變?yōu)?.99。 第2類博弈中第1小類由于在強刺激作用前雙方的遵章守紀(jì)和認(rèn)真監(jiān)管的概率已經(jīng)趨于1,所以強刺激并不會將概率降低為0.99,而是保持為1。設(shè)初始W11=3,W12=3,W21=-4,W22=2,S11=3,S21=2,S12=4,S22=-4,則博弈過程如圖1所示。 圖1 第2.1類博弈演化 第2類博弈中第2小類由于在強刺激作用前雙方的遵章守紀(jì)和認(rèn)真監(jiān)管的概率已經(jīng)趨于0,所以強刺激會將雙方概率突增為0.99。設(shè)初始W11=-1,W12=-1,W21=0,W22=4,S11=2,S21=3,S12=3,S22=5,則博弈過程如圖2所示。 圖2 第2.2類博弈演化 第2類博弈中第3小類由于在強刺激作用前工人和安全管理人員的遵章守紀(jì)和認(rèn)真監(jiān)管的概率分別趨于1和0,所以強刺激作用后概率突變?yōu)?和0.99。設(shè)初始W11=3,W12=3,W21=-4,W22=2,S11=3,S21=2,S12=4,S22=-4,則博弈過程如圖3所示。 圖3 第2.3類博弈演化 第2類博弈中第4小類由于在強刺激作用前工人和安全管理人員的遵章守紀(jì)和認(rèn)真監(jiān)管的概率分別趨于0和1,所以強刺激作用后概率突變?yōu)?.99和1。設(shè)初始W11=1,W12=1,W21=4,W22=5,S11=4,S21=2,S12=4,S22=1,則博弈過程如圖4所示。 圖4 第2.4類博弈演化 2.2.1 演化軌跡改變的博弈 第1類博弈中工人和安全管理人員的安全行為概率循環(huán)波動,設(shè)定強刺激作用后雙方概率突增為0.99,設(shè)初始W11=3,W12=3,W21=-4,W22=4,S11=3,S21=5,S12=4,S22=-4,t1∈[0,30),t3∈[35,90),t2∈[30,35),則博弈過程如圖5所示。在強刺激作用消退后,雙方仍然維持了一定時間的安全行為概率,但是最后還是恢復(fù)成循環(huán)波動的狀態(tài),且波動幅度比原先更大。 圖5 第1類博弈演化 2.2.2 演化穩(wěn)定策略位置改變的博弈 第3類博弈由于有兩個演化穩(wěn)定策略,所以需要分兩種情況,按照初始雙方行為概率大小不同進行分析。設(shè)W11=0,W12=0,W21=-3,W22=4,S11=4,S21=3,S12=3,S22=4,t1∈[0,10),t3∈[15,50),t2∈[10,15)。在初始p,q值綜合較高的情況下,如p,q值分別為0.7,0.8時,強刺激作用前工人和安全管理人員的遵章守紀(jì)和認(rèn)真監(jiān)管的概率均已經(jīng)趨于1,則博弈過程如下圖6所示。 圖6 第3類博弈(高p,q值)演化 在初始p,q值綜合較低的情況下,如p,q值分別為0.3,0.4時,強刺激作用前工人和安全管理人員的安全行為的概率均已經(jīng)趨于0,所以強刺激作用后概率突變?yōu)?.99。博弈過程如下圖7所示,在強刺激作用消退后,工人和安全管理人員的行為概率維持為1的水平不變。 圖7 第3類博弈(低p,q值)演化 通過以上模擬分析可以發(fā)現(xiàn),強刺激確實能起到一定的提升安全行為概率的作用,但是對于大多數(shù)博弈種類來說這種作用并不長久。 對于第2類博弈來說,隨著時間增加,強刺激作用消失,博弈收益恢復(fù)成原先水平,雙方行為概率,即演化穩(wěn)定策略也會恢復(fù)成原先狀態(tài),但是行為概率恢復(fù)所需的時間要大于刺激作用消退所需時間。對于第1類博弈來說,隨著時間增加,強刺激作用消失,博弈收益恢復(fù)成原先水平,演化博弈中博弈雙方的行為概率恢復(fù)了波動性,但是經(jīng)過刺激后,工人p值下限變低,安全管理人員q值上限變高,雙方行為概率的波動增大。對于第3類博弈來說,強刺激作用可以使得原先初始p,q值綜合較低的博弈的演化穩(wěn)定策略從(0,0)變?yōu)?1,1),且這種改變能長期維持。 偶發(fā)性的強刺激是一種短期的、作用效果較強的激勵,不存在固定的周期。根據(jù)遺忘消退說和遺忘壓抑說,強刺激不重復(fù)出現(xiàn),威懾警醒作用會得不到強化而漸漸消退,原先壓抑的不安全動機也會得到釋放。綜上,對企業(yè)提出3點建議來提升其安全水平: (1)通過提高安全獎懲金額,加強安全行為教育等各種長效的激勵手段,改變工人和安全管理人員的行為策略收益,促使博弈收益向第2.1類靠近,改變博弈種類。 (2)結(jié)合實踐經(jīng)驗,得出定期刺激周期,保證在工人和安全管理人員安全行為概率降低前進行刺激。 (3)對于存在第1類博弈情況的企業(yè),偶發(fā)性強刺激手段應(yīng)謹(jǐn)慎使用,避免行為概率波動的增大;對于存在第3類博弈情況的企業(yè),偶發(fā)性強刺激手段可以放心使用,盡早提升工人和安全管理人員安全行為的概率。 (1)通過比較企業(yè)工人和安全管理人員在不同策略組合下收益的大小關(guān)系可以確定理論上有16種演化博弈情況,但是結(jié)合企業(yè)安全生產(chǎn)實際,不同的博弈情況只可能存在10種,并可以按演化穩(wěn)定策略的個數(shù)分為3類。 (2)通過MATLAB軟件模擬發(fā)現(xiàn),在強刺激作用消退后,大部分博弈中的工人和安全管理人員會恢復(fù)為原先的安全水平,甚至產(chǎn)生更多的違規(guī)違章和監(jiān)管懈怠行為。 (3)企業(yè)可以通過對內(nèi)部的工人和安全管理人員定期進行強刺激作用或者建立其他長效的激勵機制來長期維持安全、合理的行為收益,進而保證企業(yè)的安全生產(chǎn)。2 偶發(fā)性強刺激作用下的演化博弈模擬
2.1 演化穩(wěn)定策略不變的博弈
2.2 演化穩(wěn)定策略發(fā)生改變的博弈
2.3 偶發(fā)性強刺激的影響規(guī)律與建議
3 結(jié)論