陳赟, 劉慧琳
(長(zhǎng)沙理工大學(xué)交通運(yùn)輸工程學(xué)院, 長(zhǎng)沙 410114)
地鐵施工具有施工難度大、環(huán)境復(fù)雜等特點(diǎn),導(dǎo)致地鐵施工事故時(shí)有發(fā)生[1-2],帶來(lái)人員傷亡及財(cái)產(chǎn)損失。根據(jù)近年地鐵施工安全事故調(diào)查報(bào)告及文獻(xiàn)統(tǒng)計(jì),發(fā)現(xiàn)人的不安全行為引發(fā)安全事故比例高達(dá)95.38%[3]。因此,對(duì)人的不安全行為進(jìn)行管控是提高施工現(xiàn)場(chǎng)安全管理水平,減少事故發(fā)生的有效途徑。
近年來(lái),國(guó)內(nèi)外學(xué)者針對(duì)地鐵施工人員不安全行為進(jìn)行深入剖析,如影響因子、傳播機(jī)理、干預(yù)措施等方面。張勇等[4]、Yu等[5]分別利用解釋結(jié)構(gòu)模型、系統(tǒng)動(dòng)力學(xué)從外界環(huán)境及個(gè)體角度對(duì)不安全行為影響因素進(jìn)行分析,確定關(guān)鍵因素;來(lái)延肖等[6]、Wang等[7]利用結(jié)構(gòu)方程模型探究人的安全態(tài)度以及家庭、工作壓力與不安全行為之間的作用關(guān)系;石娟等[8]發(fā)現(xiàn)工人群體之間會(huì)相互模仿不安全行為,利用SEIMR傳播模型模擬不安全行為在群體中的傳播過(guò)程;Cao等[9]對(duì)不安全行為傳播規(guī)律進(jìn)行探索,發(fā)現(xiàn)外部干預(yù)可以減少不安全行為的傳播;陳赟等[10]分別從干預(yù)層面和干預(yù)類別對(duì)不安全行為進(jìn)行動(dòng)態(tài)仿真,發(fā)現(xiàn)從施工人員個(gè)體層面進(jìn)行干預(yù)影響程度最大。以上研究從不同角度對(duì)施工人員不安全行為進(jìn)行探析,并提出管控策略。而施工人員在既得利益與自身安全之間往往無(wú)法做出正確選擇,導(dǎo)致對(duì)不安全行為的管控難以實(shí)施,從施工人員的行為動(dòng)機(jī)角度對(duì)不安全行為進(jìn)行探究也至關(guān)重要。通過(guò)博弈方法對(duì)施工安全管理的研究大多聚焦于政府、企業(yè)、地方監(jiān)管[11]等方式,而內(nèi)部監(jiān)管的研究相對(duì)較少。在實(shí)際的施工過(guò)程中,安全管理人員有責(zé)任對(duì)施工人員進(jìn)行安全監(jiān)管[12],施工人員與安全管理人員之間存在一定的利益動(dòng)機(jī),故兩類群體之間的行為選擇可看作一個(gè)博弈的過(guò)程[13]。且現(xiàn)有研究都采用靜態(tài)懲罰策略[14]對(duì)不安全行為進(jìn)行管控,沒(méi)有從動(dòng)態(tài)視角分析策略對(duì)不安全行為控制的有效性。
基于此,現(xiàn)從地鐵施工人員和安全管理人員雙方的“成本-收益”角度出發(fā),構(gòu)建以地鐵施工人員與安全管理人員為主體的演化博弈模型,探究博弈雙方的策略選擇與行為演變過(guò)程,并利用系統(tǒng)動(dòng)力學(xué)(systematic dynamics,SD)模型對(duì)兩方博弈模型進(jìn)行仿真模擬,分析靜態(tài)及動(dòng)態(tài)懲罰制度下不安全行為狀態(tài)的轉(zhuǎn)變,進(jìn)而通過(guò)有效的懲罰手段,提高施工人員對(duì)安全施工的重視度,從而減少不安全的發(fā)生。
在構(gòu)建不安全行為檢查博弈模型之前,需要對(duì)不安全行為檢查實(shí)際情況做一些假設(shè),以此來(lái)簡(jiǎn)化演化博弈分析,對(duì)演化博弈做出如下假設(shè)。
(1)博弈主體。假定博弈主體只包括地鐵施工人員和安全管理人員,且均為有限理性參與方,在信息不對(duì)稱的條件下進(jìn)行反復(fù)博弈,為追求自身利益最大化,尋找最佳策略。
(2)不安全行為是指在施工過(guò)程中,違反現(xiàn)場(chǎng)安全管理準(zhǔn)則,可能導(dǎo)致事故發(fā)生的不正確作業(yè)習(xí)慣。
(3)假設(shè)在日常行為管理監(jiān)督下,地鐵施工人員與安全管理人員雙方策略抽象為{安全行為,不安全行為},{檢查,不檢查}。
不同的策略對(duì)應(yīng)不同的收益成本,其中相關(guān)參數(shù)含義如表1所示。
假設(shè)x為選擇安全行為的施工人員在群體中所占比例,y為選擇檢查策略的安全人員在群體中所占比例,其中0≤x,y≤1。
結(jié)合不同行為發(fā)生在群體中所占的比例,可以得到地鐵施工人員和安全管理人員相應(yīng)的收益矩陣,如表2所示。
表1 模型參數(shù)定義Table 1 Definition of model parameters
表2 博弈雙方的收益矩陣Table 2 Income matrix of metro construction personnel and safety management personnel
S1=y(R1-C1)+(1-y)(R1-C1)
=R1-C1
(1)
S2=y(R2-fL-C3)+(1-y)(R2-fL)
=R2-fL-yC3
(2)
=x(R1-C1)+(1-x)(R2-fL-yC3)
(3)
T1=x(-C2)+(1-x)(C3-C2)
=C3(1-x)-C2
(4)
T2=xR3+(1-x)(R3-fLk)
=R3+(x-1)fLk
(5)
=y[C3(1-x)-C2+(1-y)×
[R3+(x-1)fLk]
(6)
在演化博弈的過(guò)程中,作為有限理性的博弈雙方,雙方可以學(xué)習(xí)和模仿上個(gè)時(shí)間段獲取更高利益的行為策略。根據(jù)式(1)~式(6),可得到雙方復(fù)制動(dòng)態(tài)方程式為
(R2-fL-yC3)]
(7)
[R3+(x-1)fLk]}
(8)
可通過(guò)雅克比矩陣鑒定均衡解是否穩(wěn)定[15],為此,通過(guò)前文求得雅可比矩陣A如式(9)所示。
根據(jù)局部均衡解穩(wěn)定分析法的判斷準(zhǔn)則,當(dāng)均衡解對(duì)應(yīng)的DetJ>0且TrJ<0時(shí),則這個(gè)均衡解為演化穩(wěn)定策略(evolutionary stable strategy,ESS),即博弈模型處于穩(wěn)定狀態(tài)[15]。對(duì)以上5個(gè)均衡解代入矩陣中進(jìn)行求解,由于參數(shù)較多,均衡解表達(dá)式過(guò)于復(fù)雜,所以穩(wěn)定性難以確定。
為進(jìn)一步研究博弈模型行為的演化機(jī)理,利用系統(tǒng)動(dòng)力學(xué),以地鐵施工人員與現(xiàn)場(chǎng)安全管理人員雙方選擇不同策略時(shí)的復(fù)制動(dòng)態(tài)方程為基礎(chǔ),構(gòu)建地鐵施工人員不安全行為演化博弈SD模型,模擬仿真系統(tǒng)變化時(shí)對(duì)雙方策略選擇演變過(guò)程的影響。
根據(jù)上述地鐵施工人員不安全行為博弈模型分析,利用Vensim PLE 6.3對(duì)其建立SD模型,構(gòu)建的SD模型由施工人員選擇安全行為占群體比例及安全管理人員進(jìn)行檢查占群體比例2個(gè)水平變量,施工人員的安全行為變化率和安全管理人員檢查變化率2個(gè)速度變量,以及C1、C2等15個(gè)輔助變量構(gòu)成。SD模型如圖1所示。
根據(jù)文獻(xiàn)[16]以及實(shí)際情況對(duì)相關(guān)參數(shù)進(jìn)行賦值,設(shè)置初始參數(shù)為:initial time=0,final time=100,time step=0.031 25,units for time:week。設(shè)置15個(gè)輔助變量的初始值置:C1=3,C2=1,C3=4,R1=5,R2=4,R3=1,L=5,f=0.2,k=0.6?;谇拔姆治龅玫降淖兞筷P(guān)系[式(1)~式(8)]確定SD模型中流率公式及其涉及的中間變量。
(9)
圖1 施工人員不安全行為演化博弈系統(tǒng)動(dòng)力學(xué)模型Fig.1 Dynamic model of evolutionary game system for unsafe behavior of construction workers
2.2.1 初始仿真
初始階段,博弈雙方采用均衡解,將5個(gè)均衡解輸入Vensim PLE 軟件,進(jìn)行數(shù)據(jù)仿真,其結(jié)果如圖2所示。
圖2 博弈雙方行為仿真結(jié)果Fig.2 Simulation results of behaviors of both parties in the game
當(dāng)雙方采取純策略A時(shí),安全管理人員選擇“不檢查”時(shí),而地鐵施工人員作為有限理性人,出于對(duì)自身利益的考慮,其最佳策略是進(jìn)行“不安全行為”,維持現(xiàn)狀不變;當(dāng)博弈雙方采取純策略B時(shí),即所有的施工人員選擇“不安全行為”,管理人員選擇“檢查”策略,也就是說(shuō)即便施工人員先前還處于一種不利地位,在沒(méi)有通過(guò)學(xué)習(xí)而選擇新策略之前,雙方策略選擇還處于穩(wěn)定狀態(tài),純策略C同理;當(dāng)博弈雙方采取純策略D時(shí),安全管理人員選擇“檢查”時(shí),施工人員考慮到自身利益,同時(shí)還要承擔(dān)起相應(yīng)的安全責(zé)任,最佳策略是選擇“安全行為”。
2.2.2 純策略穩(wěn)定性仿真
下面對(duì)某個(gè)體更改策略后系統(tǒng)的最終穩(wěn)定狀態(tài)進(jìn)行分析。以純策略均衡解A為例進(jìn)行驗(yàn)證,將安全管理人員檢查的比例由y=0調(diào)整為y=0.05再次進(jìn)行仿真,結(jié)果如圖3所示。
圖3 純策略A(y→0.05)仿真結(jié)果Fig.3 Simulation results of pure strategy A(y→0.05)
安全管理人員中某個(gè)體改變策略后,原均衡狀態(tài)就會(huì)發(fā)生改變,安全管理人員檢查概率由0向1發(fā)生轉(zhuǎn)變,雙方策略由A逐步演化至B。發(fā)生該情況的原因可能是,當(dāng)安全管理人員中的某個(gè)個(gè)體改變策略后,檢查發(fā)現(xiàn)了地鐵施工人員不安全,對(duì)其進(jìn)行懲罰獲得了更高的收益,則該群體中的其他個(gè)體開(kāi)始模仿該行為,從而導(dǎo)致安全管理人員的檢查趨勢(shì)不斷加強(qiáng),最后演變?yōu)閳D3的狀態(tài)。則初始均衡解A不穩(wěn)定。同理,可得到其他3個(gè)純策略解都不是演化穩(wěn)定均衡解。
2.2.3 混合策略穩(wěn)定性仿真
由圖2得到混合策略均衡解E也是一種相對(duì)穩(wěn)定的狀態(tài)。同樣,對(duì)策略微小改變,再次進(jìn)行模擬,結(jié)果如圖4所示。線呈振蕩趨勢(shì),表明安全管理人員檢查與施工人員不安全行為的策略選擇是不斷震蕩變化且沒(méi)有收斂的,雙方采取不是均衡值時(shí),另一方會(huì)依據(jù)對(duì)方的策略來(lái)調(diào)整自己的策略,隨著博弈時(shí)間和博弈次數(shù)的增加,雙方策略變動(dòng)較大,系統(tǒng)穩(wěn)定存在不確定性。
仿真結(jié)果表明,混合策略以及純策略的均衡點(diǎn)具有不穩(wěn)定性,只有任意一方的策略選擇發(fā)生微小變化,原策略會(huì)趨向于其余策略穩(wěn)定,則不存在穩(wěn)定策略,說(shuō)明施工人員的策略選擇具有波動(dòng)性。
圖4 混合策略E(y→0.2)仿真結(jié)果Fig.4 Simulation results of mixed strategy E(y→0.2)
根據(jù)上述博弈結(jié)果分析中可知,5個(gè)策略都處于不穩(wěn)定狀態(tài),在這個(gè)波動(dòng)狀態(tài)下,安全管理人員難以合理地對(duì)施工人員不安全行為檢查,不安全行為難以得到及時(shí)有效的控制。因此,有必要對(duì)如何穩(wěn)定該博弈系統(tǒng)的控制策略進(jìn)行研究。
研究安全管理人員的懲罰力度對(duì)施工人員不安全行為的影響,通過(guò)改變系統(tǒng)中對(duì)施工人員不安全行為的懲罰力度,將對(duì)施工人員的懲罰力度C3=4改變?yōu)镃3=5、C3=6,初始策略選擇設(shè)定為x=0.5,y=0.5,圖5(a)、圖5(b)分別表示在對(duì)施工人員不同懲罰力度下,安全管理人員和施工人員的策略選擇。
從圖5(a)、圖5(b)的仿真結(jié)果可知,增大對(duì)不安全行為的懲罰力度,安全管理人員的檢查概率以及施工人員的安全行為概率上升,上升的幅度也更大,且存在有規(guī)律的波動(dòng)性??梢园l(fā)現(xiàn),僅提高懲罰力度,可以增加地鐵施工人員安全行為的概率,谷值和峰值均有提高,但是該策略只在短期內(nèi)有效,施工人員會(huì)因?yàn)閼土P力度的增大而選擇安全行為,但這種情形不能得到維持,隨著時(shí)間的增長(zhǎng),博弈雙方的行為選擇還是存在一定的波動(dòng)性,這使得管理人員做出錯(cuò)誤的預(yù)計(jì),從而錯(cuò)誤選擇策略,而過(guò)于嚴(yán)厲的懲罰力度引發(fā)施工人員的報(bào)復(fù)行為,可能導(dǎo)致安全偏離行為的發(fā)生[17],在制定與實(shí)施懲罰制度時(shí)存在局部限制性。
圖5 一般懲罰情景下博弈雙方行為仿真結(jié)果Fig.5 Simulation results of behaviors of both players in the game under general punishment scenario
在對(duì)施工人員不安全行為的懲罰C3為固定值的基礎(chǔ)上,懲罰力度的增大確實(shí)可以使施工人員選擇安全策略的概率上升,但是博弈雙方的策略選擇仍處于頻繁波動(dòng)的狀態(tài),施工人員不安全行為沒(méi)有被有效地約束。僅通過(guò)提高懲罰力度來(lái)減少不安全行為不可行,因此需要為安全管理人員找到一個(gè)更加合理有效的懲罰策略,同時(shí)避免博弈演化過(guò)程的波動(dòng)性。
因此,采用動(dòng)態(tài)懲罰函數(shù),設(shè)置不安全行為懲罰程度隨著不安全行為比率的上升而提高,當(dāng)施工人員選擇不安全行為時(shí),增大事故發(fā)生的可能性,而事故的嚴(yán)重程度也會(huì)增大。所以,認(rèn)為施工人員的不安全行為概率與事故嚴(yán)重程度存在正相關(guān)關(guān)系,則可以表示事故的嚴(yán)重程度。因此,假設(shè)施工人員受到的懲罰由原來(lái)的常數(shù)C3變?yōu)閯?dòng)態(tài)懲罰C3=c3(1-x),引入中間變量c3,c3表示罰款的最高標(biāo)準(zhǔn),設(shè)置初始值C3=4(1-x),保留其他參數(shù)與上述靜態(tài)懲罰策略一致。設(shè)置雙方策略選擇的初始值為:(x,y)=(0.5,0.5)、(x,y)=(0.2,0.8),對(duì)著兩種情景進(jìn)行仿真,結(jié)果如圖6(a)、圖6(b)所示,可以發(fā)現(xiàn),在動(dòng)態(tài)懲罰下,即使雙方在不同的初始策略下,演化博弈不斷變化,最終結(jié)果都穩(wěn)定在(0.36,0.39),較好地抑制了雙方博弈中的不斷波動(dòng),使兩方策略收斂于一點(diǎn)。
通過(guò)仿真結(jié)果可知,在動(dòng)態(tài)懲罰策略下,該演化模型最終穩(wěn)定于均衡解x*=(0.36,0.39)中,將均衡解帶入博弈模型中進(jìn)行進(jìn)一步驗(yàn)證,若兩者結(jié)果相同,則證明此解是有效的。
將C3=4替換為C3=c3(1-x),得到新的復(fù)制動(dòng)態(tài)方程為
(10)
令[F′(x),F′(y)]=0, 0≤x,y≤1,得到該方程組的5個(gè)均衡解為:A(0,0),B(0,1),C(1,0),D(1,1),E(0.36,0.39)。
將A~E帶入新復(fù)制動(dòng)態(tài)方程的雅可比矩陣,由表3可知,E點(diǎn)滿足ESS穩(wěn)定性條件,表明E點(diǎn)是系統(tǒng)的穩(wěn)定性解。
圖6 動(dòng)態(tài)懲罰策略仿真結(jié)果Fig.6 Simulation results of dynamic punishment strategy
表3 管理人員與施工人員演化博弈均衡點(diǎn)穩(wěn)定性判定Table 3 Stability judgment of equilibrium point of evolutionary game between managers and constructors
綜上所述,在動(dòng)態(tài)懲罰策略下,可以降低博弈策略選擇的波動(dòng)性,從而達(dá)到穩(wěn)定。上述分析結(jié)果表示雖然動(dòng)態(tài)懲罰策略可以使博弈模型達(dá)到均衡狀態(tài),但在實(shí)際施工中,僅有36%的施工人員選擇安全行為概率及39%的安全管理人員會(huì)對(duì)施工人員進(jìn)行檢查,并不是理想中的最優(yōu)穩(wěn)定策略,因此需要對(duì)動(dòng)態(tài)懲罰策略進(jìn)行優(yōu)化,將安全管理人員對(duì)進(jìn)行不安全行為的施工人員的罰款與兩者選擇概率和進(jìn)行安全行為的成本相聯(lián)系。優(yōu)化動(dòng)態(tài)懲罰方案為C3=c3(1-x)+C1/y,其中c3代表相應(yīng)的懲罰系數(shù),設(shè)置為4,參數(shù)保持與前文一致。
在優(yōu)化的動(dòng)態(tài)懲罰情況下進(jìn)行仿真,考慮初始策略(x,y)=(0.5,0.5)、(x,y)=(0.2,0.8),仿真結(jié)果如圖7(a)、圖7(b)所示。
由仿真結(jié)果可得,博弈的演化過(guò)程大致收斂于P(1,0),說(shuō)明優(yōu)化動(dòng)態(tài)懲罰方案對(duì)系統(tǒng)進(jìn)行了優(yōu)化,可以有效地抑制雙方策略的波動(dòng),提供了最優(yōu)穩(wěn)定策略,此時(shí)雙方博弈的策略選擇達(dá)到了理想狀態(tài),即安全管理人員以較小的比率對(duì)其檢查管理,同時(shí)地鐵施工人員會(huì)遵守正確操作準(zhǔn)則。將優(yōu)化動(dòng)態(tài)懲罰機(jī)制代入博弈模型進(jìn)行驗(yàn)證,解得雅克比矩陣B為
B=
(11)
代入P(1,0)求得特征值λ1=-18、λ2=-2,λ1<0,λ2<0。
因此,P(1,0)是該模型的穩(wěn)定策略,驗(yàn)證結(jié)果與仿真結(jié)果吻合。在優(yōu)化的動(dòng)態(tài)懲罰下,博弈雙方行為選擇達(dá)到了穩(wěn)定,施工人員幾乎都選擇安全行為作為最優(yōu)策略,有效地減少了不安全行為的發(fā)生。
圖7 優(yōu)化動(dòng)態(tài)懲罰策略仿真結(jié)果Fig.7 Simulation results of optimizing dynamic punishment strategy
(1)施工人員與安全管理人員在一般條件下無(wú)法達(dá)到穩(wěn)定的均衡解,單純地加大懲罰力度只能在短期內(nèi)有效地減少不安全行為的發(fā)生,但博弈雙方的行為依然不斷上下波動(dòng),且幅度增大,導(dǎo)致安全管理人員在后期對(duì)施工人員的管理更加困難,由于雙方的行為選擇是不斷循環(huán)且進(jìn)化的,地鐵施工人員容易找到管理中的漏洞,在此條件下,管理人員應(yīng)對(duì)懲罰制度及時(shí)調(diào)整,為減少不安全行為提供有力的管理。
(2)引入動(dòng)態(tài)懲罰后并對(duì)其進(jìn)行優(yōu)化后,安全管理人員可以將罰款金額與不安全行為比例及不安全行為收益掛鉤,施工人員與安全管理人員的不穩(wěn)定狀態(tài)得到抑制,達(dá)到穩(wěn)定狀態(tài),為安全管理人員實(shí)現(xiàn)有效檢查提供了最優(yōu)的策略選擇,以較小的比率對(duì)其監(jiān)督管理可以有效防止不安全行為的發(fā)生。
(3)以上結(jié)果為地鐵施工人員的安全管理機(jī)制的設(shè)計(jì)與應(yīng)用提供了思路,提供了重要理論和實(shí)踐意義,模型參數(shù)設(shè)定基于文獻(xiàn)參考與專家咨詢得到,與現(xiàn)實(shí)可能存在差異,未來(lái)將基于實(shí)際現(xiàn)場(chǎng)數(shù)據(jù)進(jìn)行仿真研究,以得到更具有說(shuō)服力的結(jié)果。