賀 琳,周代平
(1.重慶交通大學(xué) 交通運輸學(xué)院,重慶 400074;2.深圳市新城市規(guī)劃建筑設(shè)計有限公司 城市交通所,廣東 深圳 518100)
基于累積自學(xué)習(xí)機制的駕駛員路徑選擇博弈模型
賀 琳1,周代平2
(1.重慶交通大學(xué) 交通運輸學(xué)院,重慶 400074;2.深圳市新城市規(guī)劃建筑設(shè)計有限公司 城市交通所,廣東 深圳 518100)
為彌補已有駕駛員路徑選擇博弈模型將駕駛員視為完全理性的不足,探求無誘導(dǎo)信息情況下路網(wǎng)交通流臨界狀態(tài),將駕駛員視為有限理性,其依賴?yán)鄯e時間感受收益做出下一次的路徑選擇策略,并以駕駛員的行程時間感受作為決策收益建立了基于累積自學(xué)習(xí)機制的無誘導(dǎo)信息駕駛員路徑選擇博弈模型。利用該模型,分析了駕駛員路徑選擇行為對路網(wǎng)交通流的影響,并通過仿真驗證得出了不同初始狀態(tài)下的模型博弈平衡結(jié)果。仿真結(jié)果表明:博弈平衡狀態(tài)與路網(wǎng)車流總量及初始流量分配比例密切相關(guān)。當(dāng)路網(wǎng)車流總量小于或接近路網(wǎng)總通行能力時,不發(fā)布誘導(dǎo)信息,路網(wǎng)的交通流分布達到穩(wěn)定平衡,路網(wǎng)通行能力利用率較高;當(dāng)路網(wǎng)車流總量遠(yuǎn)大于路網(wǎng)總通行能力時,不發(fā)布誘導(dǎo)信息,路網(wǎng)交通流分布會形成峰谷平衡,不能有效利用路網(wǎng)通行能力,應(yīng)采取相應(yīng)的交通管理措施。
交通誘導(dǎo);累積自學(xué)習(xí)機制;模糊博弈;駕駛員路徑選擇;有限理性
進入21世紀(jì)后,我國經(jīng)濟的高速發(fā)展帶動了汽車行業(yè)的快速發(fā)展,人均汽車擁有量的增長速度相當(dāng)驚人,道路建設(shè)土地面積的不足與汽車擁有量飛速增長之間的矛盾日益突出。隨著路網(wǎng)系統(tǒng)的完善,交通壓力逐漸增大,交通誘導(dǎo)開始引起人們的注意。由于誘導(dǎo)信息是建議性的,當(dāng)誘導(dǎo)信息發(fā)布以后,駕駛員是否接受誘導(dǎo)信息、是否會形成擁堵漂移以及是否有必要發(fā)布誘導(dǎo)信息等都是管理者所需要考慮的問題。另一方面,在實際交通網(wǎng)絡(luò)中,大部分路網(wǎng)并沒有交通誘導(dǎo)系統(tǒng),因此有必要分析在無誘導(dǎo)信息條件下路網(wǎng)交通流的分布平衡,用以指導(dǎo)該路網(wǎng)系統(tǒng)是否有必要發(fā)布誘導(dǎo)信息。由此可知,對駕駛員路徑選擇行為的研究是分析解決路網(wǎng)交通壓力逐漸增大問題的關(guān)鍵。
針對駕駛員路徑選擇問題,國內(nèi)外學(xué)者開展了相關(guān)研究。李振龍[1]建立了駕駛員在誘導(dǎo)信息下的路徑選擇模型;魯叢林[2]運用Stackberg博弈建立了無誘導(dǎo)信息條件下的駕駛員反應(yīng)行為博弈模型和完全信息條件下駕駛員反應(yīng)行為博弈模型,并得出了相同的路況條件下,不同性質(zhì)的誘導(dǎo)信息對路網(wǎng)交通流的分布影響不同的結(jié)論。但是,以上博弈模型都是將駕駛員視作完全理性的,這與現(xiàn)實情況略有出入。Katsikopoulos K.V.等[3]發(fā)現(xiàn)在路徑選擇的實驗中,如果一組出行時間的平均值低于某一參照出行時間,出行者表現(xiàn)為“風(fēng)險規(guī)避”;而當(dāng)平均值高于某一參照出行時間時,則表現(xiàn)為“風(fēng)險追求”;曾松等[4]提出了駕駛員的某條路徑期望行程時間源于駕駛員的駕駛經(jīng)驗;趙凜等[5]建立了基于前景理論的先驗信息下路徑選擇理論模型,指出了駕駛員的駕駛經(jīng)驗?zāi)苡行в绊戱{駛員的路徑選擇。Roth A.E.等[6]、Erev I.等[7]認(rèn)為出行者進行路徑選擇的同時也是在不斷地實踐,通過多次不同的選擇,出行者會總結(jié)出幾次選擇的路徑中最佳的路徑,并將其作為自己今后選擇路徑的依據(jù),所以路徑的選擇也是一個學(xué)習(xí)的過程,進而轉(zhuǎn)化成自身的經(jīng)驗。故在實際出行中,駕駛員不是完全理性的,對駕駛員路徑選擇影響最大的是近期經(jīng)驗。
本文認(rèn)為自學(xué)習(xí)機制的“近期經(jīng)驗”參考的不僅是駕駛員的上一次出行的路徑選擇,而是考慮駕駛員前k次的時間感受經(jīng)驗對其第k+1次的路徑選擇的影響,故將每位駕駛員每次路徑選擇的時間感受進行累積,駕駛員依賴?yán)鄯e的時間感受收益做出下一次的路徑選擇策略,即:“累積自學(xué)習(xí)機制”。本文以模糊數(shù)學(xué)為工具,建立基于有限理性累積自學(xué)習(xí)機制的博弈模型,并給出模型的求解算法,最后對仿真結(jié)果進行分析討論。
交通出行是一個多人參與的復(fù)雜社會活動,出行選擇必然受到多方面的影響。首先,雖然駕駛員在出行前追求的是自身利益的最大化,但是其在做出路徑選擇策略時會受到其他駕駛員決策的影響,即駕駛員之間存在博弈的關(guān)系[8]。其次,受駕駛員自身的局限性限制(如信息了解不全面、判斷不準(zhǔn)確等),駕駛員并不是完全理性地做出決策,故應(yīng)將駕駛員看作是有限理性的決策者。最后,駕駛員每次出行所對應(yīng)的交通狀況不是固定不變的,駕駛員要在一次次的出行中學(xué)習(xí)和調(diào)整策略,從而達到自己的出行期望,故應(yīng)將駕駛員的出行過程看作是一個學(xué)習(xí)過程來討論。綜上所述,駕駛員的出行路徑選擇過程應(yīng)作為一個有限理性博弈過程來研究。
以往的研究包括最優(yōu)反應(yīng)動態(tài)模型[9]、復(fù)制者動態(tài)模型[10]和虛擬行動模型[14]這三大有限理性博弈中經(jīng)典的學(xué)習(xí)模型,要求局中人對其他博弈方的決策策略有一定的了解。然而在駕駛員的實際出行選擇中,駕駛員很難了解到其他大部分出行者的路徑選擇策略,故有學(xué)者提出駕駛員的策略選擇更多地取決于自身的近期經(jīng)驗[7]。
因此,本文以在出行之前駕駛員對行程時間有一個模糊的預(yù)期為基礎(chǔ),認(rèn)為博弈的演化過程中局中人是一種“自我學(xué)習(xí)”,提出了自學(xué)習(xí)機制:若駕駛員第k次選擇的路徑行程時間能達到模糊預(yù)期,即駕駛員對第k次決策的收益感到滿意,則駕駛員第k+1次將會繼續(xù)選擇該路徑;若駕駛員在第k次選擇的路徑行程時間未能達到模糊預(yù)期,則駕駛員第k+1次就有可能改變決策,選擇其他路徑。在自學(xué)習(xí)機制的基礎(chǔ)上,考慮駕駛員決策收益的累積效應(yīng),提出累積自學(xué)習(xí)機制,即駕駛員將過去的各決策收益進行累積,借以判斷選擇出最佳決策。
2.1 模型假設(shè)
出行時間的長短是影響路徑選擇最重要的標(biāo)準(zhǔn)[11],美國聯(lián)邦總局(BPR)提出路段行程時間函數(shù)的公式為[12]:
式中:T為自由行駛時(交通量為0)的路段行程時間(h);c為路段通行能力(pcu/h);q為路段實際交通量(pcu/h);?,γ為模型待定參數(shù),一般取?=0.15,γ=4。
本文以駕駛員的實際行駛時間作為駕駛員選擇某條路徑所獲得的收益??紤]如圖1所示的簡單路網(wǎng),A到B地有L1與L2兩條路徑,L1與L2的道路通行能力分別為c1與c2,q1,k與q2,k為駕駛員第k次通過L1與L2的實際交通量,t1,k與t2,k為車輛第k次通過L1與L2到達B地的實際通行時間,t0為駕駛員從A地開往B地的期望時間。
圖1 路網(wǎng)示意圖
將路徑L1與L2座位化處理:座位化處理作為一種虛擬處理手段,沒有長度之分,為了記錄每位駕駛員每次選擇了哪條路徑,同時保證每個駕駛員都能記錄到,故將兩條路徑都虛擬成具有Q個座位的路徑,如圖2所示。
圖2 路徑L1、L2的座位化處理
設(shè)每次參與博弈的局中人總數(shù)一定(等于Q),給參與博弈的每位駕駛員依次編上從1到Q的號碼,且駕駛員的編號保持不變。
設(shè)LN1p,i與LN2p,i分別表示路徑L1與L2第i次博弈第p個座位的狀態(tài),若LN1p,i=1,LN2p,i=1,則表示路徑L1與L2第i次博弈第p個座位有人;若LN1p,i=0,LN2p,i=0,則表示路徑L1與L2第i次博弈第p個座位為空。因此,若第p位駕駛員在第i次博弈選擇路徑L1,則:LN1p,i=1,LN2p,i=0;反之,若第p位駕駛員在第i次博弈選擇路徑L2,則:LN1p,i=0,LN2p,i=1。所以第i次博弈路徑L1與L2的流量為:
2.2 滿意度隸屬函數(shù)
滿意度是指駕駛員對從A地開往B地所花實際時間的滿意程度,它是個模糊的概念。隸屬函數(shù)是模糊數(shù)學(xué)的一種理論,它的作用是將模糊信息定量化。故用隸屬度函數(shù)來確定駕駛員滿意度,其取值本身也反映了從A地開往B地所花實際時間對駕駛員滿意度的隸屬程度。取論域,模糊集A1,A2,A3分別表示“滿意”、“一般”、“差”,則它們的隸屬函數(shù)分別為[13]:
若Max(A1(t),A2(t),A3(t))=A1(t),則t∈A1,駕駛員對實際駕駛時間t感覺“滿意”;若Max (A1(t),A2(t),A3(t))=A2(t),則t∈A2,駕駛員對實際駕駛時間t感覺“一般”,若Max(A1(t),A2(t),A3(t))=A3(t),則t∈A3,駕駛員對實際駕駛時間t感覺“差”。
建立路徑L1和L2的時間感受收益函數(shù)E1(t1)與E2(t2):
式中:t1,t2為路徑L1和L2上的駕駛員時間感受。
2.3 無誘導(dǎo)信息累積自學(xué)習(xí)機制
無誘導(dǎo)信息條件下的累積自學(xué)習(xí)機制是指:在有限理性自學(xué)習(xí)機制下,第p位駕駛員第k+1次的車輛路徑選擇策略取決其前k次某條路徑選擇所獲得的累積收益。具體表達如下:
式中:AE1p為第p位駕駛員前k次路徑選擇中,選擇路徑L1的累積時間感受收益;AE2p為第p位駕駛員前k次路徑選擇中,選擇路徑L2的累積時間感受收益;E1p,i為第p位駕駛員第i次選擇路徑L1的駕駛員時間感受收益;E2p,i為第p位駕駛員第i次選擇路徑L2的駕駛員時間感受收益;Q為參與博弈的總車輛數(shù)(設(shè)每次參與博弈車輛總數(shù)不變)。若第p位駕駛員第i次選擇路徑L1,則:E1p,i=E1(t1),E2p,i=0;若第p位駕駛員第i次選擇路徑L2,則:E1p,i=0,E2p,i=E2(t2)。
在無誘導(dǎo)信息累積自學(xué)習(xí)機制中,第p位駕駛員的第i+1次路徑選擇策略取決于其自身的累積時間感受收益AE1p和AE2p。駕駛員通過對自身經(jīng)驗的累積與學(xué)習(xí),判斷選擇出“有限理性的最優(yōu)方案”,借以得出第i+1次的路徑選擇方案,即若AE1p>AE2p,則第i+1次選擇路徑L1;若AE1p<AE2p,則第i+1次選擇路徑L2;若AE1p=AE2p,則駕駛員的第i+1次路徑選擇以行為強化理論為依據(jù),通過第i次的路徑選擇收益來決定第i+1的路徑選擇方案。也就是,當(dāng)駕駛員對第i次的路徑選擇收益滿意時,則其第i+1次的選擇將與第i次保持相同;而當(dāng)駕駛員對第i次的路徑選擇收益的滿意度為差時,則其第i+1次將會選擇其他路徑;當(dāng)駕駛員對第i次的路徑選擇收益的滿意度為一般時,則第i+1次駕駛員將會有β的概率選擇其他路徑。該模型的戰(zhàn)略表達式如下:
(1)局中人:
(2)局中人的策略集:
(3)局中人的收益函數(shù):
為了求解模型的博弈平衡結(jié)果,本文設(shè)計了基于累積自學(xué)習(xí)機制無誘導(dǎo)信息條件下的仿真實驗,仿真對象為圖1所示的簡單路網(wǎng),并以路徑L1上的流量反映模型的博弈平衡結(jié)果。具體算法如下:
Step1:初始化模型,給c1,c2(c1>c2),T,β賦值(定值),給m,Q賦上初始值m=0.1(m為路徑L1的初始分配比例),Q=1000,座位化路徑L1,L2,確定路徑L1,L2的初始交通量q1(1)=round (mQ),q2(1)=Q-q1(1),將q1(1)名駕駛員隨機坐到路徑L1的座位上,將q2(1)名駕駛員隨機坐到對應(yīng)L1上空位置的L2的座位上,最后找出初始時每位駕駛員路徑選擇方案;
Step2:i=1,統(tǒng)計第i次路徑L1和L2的交通量,計算第i次路徑L1和L2的時間感受E1p,i,E2p,i,并統(tǒng)計前i次的累積時間感受收益AE1p和AE2p;
Step3:判斷AE1p和AE2p大小,確定駕駛員的第i+1次路徑選擇方案;
Step4:若i>100,則轉(zhuǎn)Step5,否則i=i+1,轉(zhuǎn)Step2;
Step5:若m>1,則轉(zhuǎn)Step6,否則m=m+ 0.1,轉(zhuǎn)Step1;
為了驗證基于累積自學(xué)習(xí)機制無誘導(dǎo)信息模型的博弈結(jié)果能否達到平衡,本文對該模型進行了仿真驗證。在模型驗證中,局中人總數(shù)Q,即參與博弈的車輛的初始值為1 000輛;道路L1的通行能力c1=1500pcu/h,道路L2的通行能力c2=1000pcu/h;自由行駛時(交通量為0)的路段行程時間T=30min;滿意度為一般時駕駛員變換路徑選擇的概率β=0.25[14];局中人總數(shù)的增加步長Δq= 500pcu/h;重復(fù)博弈的次數(shù)k=100。仿真結(jié)果如圖3所示。
圖3 第k次博弈路徑L1上的流量
由圖3可知,在局中人總數(shù)Q和路徑L1的初始分配比例m一定時,經(jīng)過多次重復(fù)博弈,路徑L1上的流量總為1個定值或為某2個值,即在累積自學(xué)習(xí)機制下,無誘導(dǎo)信息博弈模型最終會達到平衡。若路徑L1上的流量在博弈達到平衡時總為1個定值,則其博弈結(jié)果狀態(tài)為穩(wěn)定平衡,若路徑L1上的流量在博弈達到平衡時為某2個值交替出現(xiàn),則其博弈結(jié)果狀態(tài)為交替平衡或峰谷平衡。圖3的仿真結(jié)果顯示,隨著參與博弈的車輛總數(shù)增加,博弈結(jié)果的平衡狀態(tài)由穩(wěn)定平衡逐漸轉(zhuǎn)變成了交替平衡和峰谷平衡。為進一步分析模型的仿真結(jié)果,本文在進行足夠多次博弈后(以保證博弈達到平衡),抽取了不同的局中人總數(shù)Q下,隨著m的變化第99次和第100次的仿真結(jié)果(見圖4、圖5)。
圖4 無誘導(dǎo)信息下累積自學(xué)習(xí)機制第99次博弈結(jié)果
圖5 無誘導(dǎo)信息下累積自學(xué)習(xí)機制第100次博弈結(jié)果
對比圖4和圖5可知:當(dāng)Q小于路網(wǎng)總通行能力2 500pcu/h時,第100次的博弈結(jié)果和第99次的博弈結(jié)果相同,當(dāng)Q大于路網(wǎng)總通行能力2 500pcu/h時,第100次的博弈結(jié)果和第99次的博弈結(jié)果具有顯著差異,當(dāng)Q保持一定時,博弈結(jié)果會隨L1的初始分配比例變化而變化。故當(dāng)路網(wǎng)車流總量遠(yuǎn)小于路網(wǎng)總通行能力時,路徑L1的初始流量所占比例m對路網(wǎng)博弈平衡狀態(tài)無顯著影響,博弈平衡狀態(tài)為穩(wěn)定平衡;當(dāng)路網(wǎng)車流總量接近路網(wǎng)總通行能力時,路網(wǎng)博弈平衡狀態(tài)與m相關(guān),博弈狀態(tài)會呈現(xiàn)穩(wěn)定平衡或交替平衡;當(dāng)路網(wǎng)車流總量超過路網(wǎng)總通行能力時,博弈平衡狀態(tài)呈現(xiàn)峰谷平衡。
仿真結(jié)果表明,基于累積自學(xué)習(xí)機制無誘導(dǎo)信息模型的博弈結(jié)果最終會達到平衡,且博弈結(jié)果的平衡狀態(tài)與Q,m相關(guān)。當(dāng)路網(wǎng)車流總量小于或接近路網(wǎng)總通行能力時,若不發(fā)布誘導(dǎo)信息,路徑L1,L2的擁擠度接近,對路網(wǎng)通行能力具有較高的利用率;當(dāng)路網(wǎng)車流總量遠(yuǎn)大于路網(wǎng)總通行能力時,若不發(fā)布誘導(dǎo)信息,路網(wǎng)系統(tǒng)會形成峰谷平衡,路徑L1,L2的擁擠度出現(xiàn)“兩極化”現(xiàn)象,對路網(wǎng)總通行能力的利用率較低,此時應(yīng)采取相應(yīng)的交通管理措施,提高路網(wǎng)通行能力的利用率。
本文討論了基于累積自學(xué)習(xí)機制的無誘導(dǎo)信息車輛路徑選擇問題,建立了以駕駛員累積時間感受為收益函數(shù)的博弈模型,并通過仿真得出了模型的博弈平衡結(jié)果。仿真結(jié)果表明,在有些初始情形下,不發(fā)布誘導(dǎo)信息,路網(wǎng)的交通流分布也能達到穩(wěn)定平衡,并且對路網(wǎng)通行能力具有較高的利用率;在路網(wǎng)總流量遠(yuǎn)大于路網(wǎng)總通行能力或其他特殊初始情形下,不發(fā)布誘導(dǎo)信息,路網(wǎng)交通流分布呈現(xiàn)峰谷平衡,不能有效利用整個路網(wǎng)系統(tǒng),應(yīng)采取相應(yīng)的交通管理措施,如發(fā)布誘導(dǎo)信息。
本文只研究了不發(fā)布誘導(dǎo)信息下的博弈平衡結(jié)果,今后的研究可以討論在發(fā)布誘導(dǎo)信息條件下的博弈平衡結(jié)果,借以對比得到在各種初始情形下發(fā)布誘導(dǎo)信息是否能有效提高路網(wǎng)總通行能力的利用率,是否有必要發(fā)布誘導(dǎo)信息等相關(guān)結(jié)論,為交通誘導(dǎo)決策提供依據(jù)。
[1]李振龍.誘導(dǎo)條件下駕駛員路徑選擇行為的演化博弈分析[J].交通運輸系統(tǒng)工程與信息,2003,3(2):23-27.
[2]魯叢林.誘導(dǎo)條件下的駕駛員反應(yīng)行為的博弈模型[J].交通運輸系統(tǒng)工程與信息,2005,5(1):58-61.
[3]KATSIKOPOULOS K V,DUSE-ANTHONY Y,FISHER D L,et al.Risk Attitude Reversals in Driver's Route Choice When Range of Travel Time is Provided[J].Human Factors, 2002,44(3):466-473.
[4]曾松,史春華,楊曉光.基于實驗分析的駕駛員路線選擇模式研究[J].公路交通科技,2002,19(4):84-88.
[5]趙凜,張星臣.基于“前景理論”的先驗信息下出行者路徑選擇模型[J].交通運輸系統(tǒng)工程與信息,2006,2(6):42-46.
[6]ROTH A E,EREV I.Learning in Extensive-Form Games: Experimental Data and Simple Dynamic Models in the In?termediate Term[J].Games and Economic Behavior,1995 (8):164-212.
[7]EREV I,BEREBY-MEYER Y,ROTH A E,The Effect of Adding a Constant to All Payoffs:Experimental Investiga?tion and Implications for Reinforcement Learning Models [J].Journal of Economic Behavior and Organization,1999, 39(1):111-128.
[8]劉建美.誘導(dǎo)條件下的路徑選擇行為及協(xié)調(diào)方法研究[D].天津:天津大學(xué),2010.
[9]謝識予.經(jīng)濟博弈論[M].2版.上海:復(fù)旦大學(xué)出版社,2002.
[10]王濟川,郭麗芳.抑制效益型團隊合作中“搭便車”現(xiàn)象研究——基于演化博弈的復(fù)制者動態(tài)模型[J].科技管理研究,2013,12(21):191-195.
[11]OUTRAM V E,THOMPSON E.Driver Route Choice[C]// Proceedings of PTRC Annual Meeting.London:PTRC An?nual Meeting,1977:39-53.
[12]楊佩坤,錢林波.交通分配中路段行程時間函數(shù)研究[J].同濟大學(xué)學(xué)報:自然科學(xué)版,1994(1):27-32.
[13]楊綸標(biāo),高英儀,凌衛(wèi)新.模糊數(shù)學(xué)原理及應(yīng)用[M].廣州:華南理工大學(xué)出版社,2011:1-67.
[14]周元峰.基于信息的駕駛員路徑選擇行為及動態(tài)誘導(dǎo)模型研究[D].北京:北京交通大學(xué),2007.
Game Theory Model of Driver's Route Selection Based on Cumulative Self-Learning Mechanism
HE Lin1,ZHOU Dai-ping2
(1.School of Traffic&Transportation,Chongqing Jiaotong University,Chongqing 400074,China; 2.Shenzhen New Land Tool Consultants Pte.,Ltd.,Urban Traffic Brunch,Shenzhen 518100,China)
In order to make up the shortage of regarding the drivers as totally rational by the existing game theory models of driver's route selection,and search the fettle of network traffic flow without induc?ing information,the drivers'rationality was deemed bounded,so he or she made the selection decision of next path according to the cumulative feeling gains of time.The driver's feeling of travel time was consid?ered as the gains of decision,then the model of the driver's routing selection without inducing informa?tion was established based on cumulative self-learning mechanism,and the impact of the driver's route choice behavior on road network traffic flow was analyzed.Finally the equilibrium results of fuzzy game on different initial states were obtained by the simulation.The simulation results show that the balance of fuzzy game is closely related to the total amount of road network traffic and initiatory flow distributionratio.When the total amount of road network traffic is less than or close to the capacity of network,the distribution of network traffic flow reaches a stable equilibrium and the utilization rate of the capacity of network is higher without inducing information.When the total amount of road network traffic is over the capacity of network,the distribution of network traffic flow forms a peak balance,the capacity of network can't be used effectively,and appropriate traffic management measures should be taken.
traffic guidance;cumulative self-learning mechanism;fuzzy game;drivers'route selec?tion;bounded rationality
U491.13
:A
:2095-9931(2015)04-0049-07
10.16503/j.cnki.2095-9931.2015.04.008
2015-04-18
賀琳(1991—),女,四川廣安人,碩士研究生,研究方向為交通規(guī)劃。E-mail:helin19911127@163.com。