• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于累積自學(xué)習(xí)機(jī)制的誘導(dǎo)信息條件下駕駛員路徑選擇

      2015-02-24 06:01:30周代平
      山東交通學(xué)院學(xué)報 2015年4期

      羅 佳,周代平,賀 琳

      (重慶交通大學(xué)交通運輸學(xué)院,重慶 400074)

      ?

      基于累積自學(xué)習(xí)機(jī)制的誘導(dǎo)信息條件下駕駛員路徑選擇

      羅佳,周代平,賀琳

      (重慶交通大學(xué)交通運輸學(xué)院,重慶400074)

      摘要:將駕駛員視為有限理性,并以駕駛員的行程時間感受作為決策收益,建立基于累積自學(xué)習(xí)機(jī)制的誘導(dǎo)信息條件下的駕駛員路徑選擇模型。通過仿真驗證得出不同初始狀態(tài)下的模型博弈平衡結(jié)果。仿真結(jié)果表明:誘導(dǎo)信息的發(fā)布并不是一直有效的,它與路網(wǎng)的車流總量以及初始流量的分配密切相關(guān)。

      關(guān)鍵詞:誘導(dǎo)信息;累積自學(xué)習(xí)機(jī)制;駕駛員路徑選擇

      博弈論中復(fù)雜的邏輯分析,使其在交通領(lǐng)域得到廣泛的應(yīng)用。文獻(xiàn)[1]建立靜態(tài)博弈模型,研究誘導(dǎo)信息的出行者選擇路徑的可能;文獻(xiàn)[2]運用博弈論的概念與方法,剖析駕駛員對誘導(dǎo)信息的反應(yīng)行為,最終得到建議性誘導(dǎo)信息能夠有效地改善博弈的結(jié)果;文獻(xiàn)[3]針對誘導(dǎo)系統(tǒng)提供無誘導(dǎo)信息、完全誘導(dǎo)信息、描述型誘導(dǎo)信息和建議型誘導(dǎo)信息4種情況的駕駛員反應(yīng)行為建立博弈論模型。以上研究都將駕駛員視為完全理性,與實際情況略有差異。由于誘導(dǎo)信息是建議性信息,因此當(dāng)發(fā)布誘導(dǎo)信息時,駕駛員可以選擇接受和不接受誘導(dǎo)信息,并且駕駛員在做出路徑選擇策略時會受到其他駕駛員決策的影響,駕駛員之間彼此存在博弈的關(guān)系。

      本文將駕駛員視為有限理性,分析討論誘導(dǎo)信息條件下基于累積自學(xué)習(xí)機(jī)制的駕駛員路徑選擇問題。

      1自學(xué)習(xí)機(jī)制

      雖然駕駛員在出行前追求的是自身利益的最大化,但是在做出路徑選擇時駕駛員之間存在博弈關(guān)系,因此有必要將博弈思想引入駕駛員出行路徑選擇的問題中[4]。交通出行是一項復(fù)雜的社會活動,受駕駛員自身的局限性限制(如信息了解不全面、判斷不準(zhǔn)確等),駕駛員在作出決策時并不是完全理性的,故應(yīng)將駕駛員看作是有限理性的決策者。另一方面,駕駛員每次出行對應(yīng)的交通狀況不是固定不變的,駕駛員要在一次次的出行中學(xué)習(xí)和調(diào)整策略,故應(yīng)將出行過程看作是一個學(xué)習(xí)過程來討論。因此,駕駛員的出行路徑選擇過程就是一個有限理性博弈過程。

      最優(yōu)反應(yīng)動態(tài)模型[5]、復(fù)制者動態(tài)模型[6]和虛擬行動模型[7]是有限理性博弈中經(jīng)典的三大學(xué)習(xí)模型。以上3種模型都要求局中人對其他博弈方的決策策略有一定的了解,然而在駕駛員的實際出行選擇中,駕駛員很難了解到其他大部分出行者的路徑選擇策略,駕駛員出行路徑的選擇更多的決定于自身的近期經(jīng)驗[8]。

      在出行之前駕駛員對行程時間有一個模糊預(yù)期。若駕駛員在第k次選擇的路徑行程時間能達(dá)到模糊預(yù)期,即駕駛員對第k次決策的收益感到滿意,則第k+1次將會繼續(xù)選擇該路徑;若駕駛員在第k次選擇的路徑行程時間未能達(dá)到模糊預(yù)期,則第k+1次就有可能改變決策,選擇其他路徑。在此機(jī)制下,博弈的演化過程中局中人是一種“自我學(xué)習(xí)”,即自學(xué)習(xí)機(jī)制。

      2誘導(dǎo)信息條件下的累積自學(xué)習(xí)機(jī)制

      2.1滿意度隸屬函數(shù)

      出行時間的長短是影響路徑選擇最重要的標(biāo)準(zhǔn)[9],最常見的路段行程時間函數(shù)是美國聯(lián)邦公路局函數(shù)(BPR函數(shù))[10],其表達(dá)式為:

      式中:t為駕駛員實際駕駛時間;T為自由行駛時(交通量為0)的路段行程時間;c為路段通行能力;q為路段實際交通量,?、r為路段行程時間函數(shù)參數(shù),一般取?=0.15,r=4。

      滿意度是指駕駛員對從A地開往B地所花實際時間的滿意程度,它是個模糊的概念。本文將駕駛員的行程時間感受作為駕駛員的路徑選擇收益,并將其時間感受劃分成3個模糊集A1、A2、A3,運用模糊集的隸屬度函數(shù)[11],其中取論域U=(0,+∞),將A1、A2、A3分別表示為“滿意”、“一般”、“差”。

      根據(jù)模糊集A1、A2、A3的隸屬函數(shù)A1(t)、A2(t)、A3(t)[11]的計算結(jié)果,若max(A1(t),A2(t),A3(t))=A1(t),則t∈A1,駕駛員對實際駕駛時間t感覺“滿意”;若max(A1(t),A2(t),A3(t))=A2(t),則t∈A2,駕駛員對t感覺“一般”;若max(A1(t),A2(t),A3(t))=A3(t),則t∈A3,駕駛員對t感覺“差”。建立路徑L1和L2的時間感受收益函數(shù)E1(t1)、E2(t2),令

      式中t1、t2分別為車輛在路徑L1和L2上的實際行駛時間。

      2.2累積自學(xué)習(xí)機(jī)制

      誘導(dǎo)信息條件下的累積自學(xué)習(xí)機(jī)制是指在有限理性自學(xué)習(xí)機(jī)制下,第p位駕駛員第k+1次的車輛路徑選擇策略(是否接受誘導(dǎo))取決其前k次接受誘導(dǎo)的累積時間感受收益和不接受誘導(dǎo)的累積時間感受收益,數(shù)學(xué)表達(dá)式為:

      式中:Yp為第p位駕駛員前i次路徑選擇中,選擇接受誘導(dǎo)的累積時間感受收益;Np為第p位駕駛員前i次路徑選擇中,選擇不接受誘導(dǎo)的累積時間感受收益;Ypi為第p位駕駛員第i次路徑接受誘導(dǎo)的駕駛員時間感受收益;Npi為第p位駕駛員第i次路徑不接受誘導(dǎo)的駕駛員時間感受收益;Q為參與博弈的車輛總數(shù)(設(shè)每次參與博弈車輛總數(shù)不變,且每位駕駛員只能駕駛1輛車)。

      若第p位駕駛員第i次接受誘導(dǎo),則:Ypi=E1(t1),Npi=0。若第p位駕駛員第i次不接受誘導(dǎo),則:Npi=E2(t2),Ypi=0。以choice(p,i)表示第p位駕駛員第i次的選擇,choice(p,i)=1表示第p位駕駛員第i次博弈接受誘導(dǎo);choice(p,i)=0表示第p位駕駛員第i次博弈不接受誘導(dǎo)。

      若發(fā)布信息建議路徑L1,有

      圖1 路網(wǎng)示意圖

      2.3模型基本假設(shè)

      以駕駛員的實際行駛時間作為駕駛員選擇某條路徑所獲得的收益。考慮如圖1所示的路網(wǎng),建立虛擬路徑:接受誘導(dǎo)路徑Ly和不接受誘導(dǎo)路徑Ln。將路徑Ly、Ln、L1和L2座位化處理,即:分別將各路徑劃分為具有Q個座位的方格化路徑。

      設(shè)每次參與博弈的駕駛員總數(shù)等于Q,初始接受誘導(dǎo)的駕駛員比例為m,則初始接受誘導(dǎo)的車輛總數(shù)qy(i)=mQ,不接受誘導(dǎo)的車輛總數(shù)qn(i)=Q-qy(i)。將qy(i)位駕駛員隨機(jī)坐在路徑Ly上,將qn(i)位駕駛員坐在Ly空的位置所對應(yīng)的Ln的座位上,并給每位駕駛員按照座位號標(biāo)上從1~Q的號碼,且保持該號碼不變。若第p位駕駛員第i次選擇接受誘導(dǎo),即choice(p,i)=1,則在路徑Ly上第p個座位為“有”,在路徑Ln上第p個座位為“空”,即:Ly(p)=1,Ln(p)=0;若第p位駕駛員第i次選擇不接受誘導(dǎo),即choice(p,i)=0,則在路徑Ly上第p個座位為“空”,在路徑Ln上第p個座位為“有”,即:Ly(p)=0,Ln(p)=1;所以,若第i次發(fā)布信息建議駕駛員走路徑L1,則L1(p)=Ly(p),L2(p)=Ln(p);若第i次發(fā)布信息建議駕駛員走路徑L2,則L1(p)=Ln(p),L2(p)=Ly(p)。因此第i次路徑L1、L2上的交通量q1(i)、q2(i)的求解公式為:

      2.4收益函數(shù)模型建立

      在誘導(dǎo)信息累積自學(xué)習(xí)機(jī)制中,第p位駕駛員的第i+1次路徑選擇策略取決于其自身的累積時間感受收益Yp和Np。駕駛員通過對自身前i次接受與不接受誘導(dǎo)的經(jīng)驗的累積與學(xué)習(xí),判斷選擇出“有限理性的最優(yōu)方案”,借以得出第i+1次是否接受誘導(dǎo),即:若Yp>Np,則第i+1次駕駛員p選擇接受誘導(dǎo)(choice(p,i+1)=1);若Yp

      式中:Gi為局中人;Sp為局中人所做的決定(即策略);Up為局中人收益函數(shù)。

      3模型求解算法

      1)初始化模型。給C1、C2(C1>C2)、T、ζ賦值(定值),其中C1、C2分別為路徑L1、L2的通行能力,T為自由流時從A到B地的行駛時間,ζ為當(dāng)?shù)趐位駕駛員前k次路徑選擇中接受誘導(dǎo)的累積收益等于不接受誘導(dǎo)的累積收益時,駕駛員p第k+1次改變路徑選擇策略的概率。給m、Q賦初始值m=0.1,Q=1 000(m為路徑L1的初始分配比例,初始誘導(dǎo)信息的建議路徑為L1)。fabu(1)=1,座位化路徑Ln、Ly、L1、L2,確定初始接受誘導(dǎo)的駕駛員qy(1)=round(mQ),不接受誘導(dǎo)的駕駛員qn(1)=Q-qy(1),將qy(1)名駕駛員隨機(jī)坐到路徑Ly的座位上,將qn(1)名駕駛員坐到對應(yīng)Ly上空位置的Ln的座位上。

      Ln=zeros(1,q);

      Ly=zeros(1,q); %座位化虛擬路徑Ln、Ly

      L1=zeros(1,q);L2=zeros(1,q);%座位化路徑L1、L2

      e=ones(1,q);

      qy(1)=round(mq);%確定初始接受誘導(dǎo)的駕駛員總數(shù)

      qn(1)=q-qy(1);

      kk=randperm(q,qy(1));

      forg=1:qy(1);%將接受誘導(dǎo)的車輛隨機(jī)坐到路徑Ly上

      Ly(kk(g))=1;

      end

      Ly=e-Ly;%將不接受誘導(dǎo)的駕駛員坐在Ln上

      forg=1:q

      ifLy(g)==1

      choice(g,1)=1;

      else

      choice(g,1)=0;

      end

      end。

      2)判斷第p位駕駛員第i次的路徑選擇策略choice(p,i)。若choice(p,i)=1,即:接受誘導(dǎo),則Ly(p)=1,Ln(p)=0;若choice(p,i)=0,即第p位駕駛員不接受誘導(dǎo),則Ln(p)=1,Ly(p)=0。

      forp=1:q

      if choice(p,i)=1

      Ly(p)=1;

      Ln(p)=0;

      else

      Ly(p)=0;

      Ln(p)=1;

      end

      end。

      3)判斷第i次誘導(dǎo)信息發(fā)布的建議路徑。若fabu(i)=1,則L1=Ly,L2=Ln;若fabu(i)=2,則L2=Ly,L1=Ln;分別統(tǒng)計路徑L1,L2上的駕駛員數(shù)q1(i)和q2(i)。

      if fabu(i)==1

      L1=Ly;

      L2=Ln;

      else

      L1=Ln;

      L2=Ly;

      end

      q1(i)=sum(L1);

      q2(i)=sum(L2); %統(tǒng)計路徑L1、L2第i次博弈的流量(車輛數(shù))。

      4)計算路徑L1、L2上的駕駛員時間感受,并根據(jù)第i次的發(fā)布信息得出第p位駕駛員第i次的接受誘導(dǎo)信息的時間感受Ypi和不接受誘導(dǎo)信息的時間感受Npi。

      5)累積駕駛員接受誘導(dǎo)信息的時間感受Ypi和不接受誘導(dǎo)信息的時間感受Npi。

      Yp=Yp+Ypi;%累積駕駛員接受誘導(dǎo)的時間感受收益;

      Np=Np+Npi,%累積駕駛員不接受誘導(dǎo)的時間感受收益。

      6)判斷Yp和Np大小,確定第p位駕駛員第i+1次的路徑選擇方案choie(p,i)。

      7)根據(jù)choice(p,i+1)計算第i+1次接受誘導(dǎo)的駕駛員總數(shù)和不接受誘導(dǎo)的駕駛員總數(shù),確定第i+1次發(fā)布的誘導(dǎo)信息fabu(i+1)。

      8)判斷博弈次數(shù)是否>100。若i>100,則轉(zhuǎn)9),否則i=i+1,轉(zhuǎn)2)。

      9)判斷初始接受誘導(dǎo)信息的駕駛員比例是否大于1。若m>1,則轉(zhuǎn)10),否則m=m+0.1,轉(zhuǎn)1)。

      10)終止條件。若Q>3(C1+C2)則終止循環(huán),否則Q=Q+Δq,轉(zhuǎn)1)。

      4模型仿真

      本算例中,C1=1 500,C2=1 000,T=30,ζ=0.333[12],Q=1 000,Δq=500。仿真結(jié)果如下:(本算例中,fabu(1)=1,即第1次誘導(dǎo)信息的建議路徑為L1)。第99次和第100次的博弈結(jié)果如圖2所示。

      a)第99次博弈                       b)第100次博弈圖2 誘導(dǎo)信息下累積自學(xué)習(xí)機(jī)制博弈結(jié)果

      仿真結(jié)果表明:在累積自學(xué)習(xí)機(jī)制下,當(dāng)參與博弈的車輛總數(shù)遠(yuǎn)大于路網(wǎng)總通行能力時,初始接受誘導(dǎo)的駕駛員比例m對博弈平衡狀態(tài)無影響,其博弈結(jié)果均為峰谷平衡;當(dāng)路網(wǎng)車輛總量接近路網(wǎng)總通行能力時,路網(wǎng)博弈平衡結(jié)果與初始接受誘導(dǎo)的駕駛員比例相關(guān),其博弈結(jié)果會呈現(xiàn)穩(wěn)定平衡或交替平衡;當(dāng)路網(wǎng)車輛總量遠(yuǎn)小于路網(wǎng)總通行能力時,初始接受誘導(dǎo)的駕駛員比例對路網(wǎng)博弈平衡結(jié)果無顯著影響,其博弈結(jié)果為穩(wěn)定平衡。

      因此,當(dāng)路網(wǎng)車流總量小于或接近路網(wǎng)總通行能力時,若發(fā)布誘導(dǎo)信息,路徑L1、L2的擁擠度接近,對路網(wǎng)通行能力具有較高的利用率;當(dāng)路網(wǎng)車流總量遠(yuǎn)大于路網(wǎng)總通行能力時,若發(fā)布誘導(dǎo)信息,路網(wǎng)系統(tǒng)會形成峰谷平衡,路徑L1、L2的擁擠度出現(xiàn)“兩極化”現(xiàn)象,可發(fā)布誘導(dǎo)信息對路網(wǎng)總通行能力的利用率較低,可采取相應(yīng)的交通管理措施,提高路網(wǎng)通行能力的利用率。

      5結(jié)語

      1)討論了基于累積自學(xué)習(xí)機(jī)制的有誘導(dǎo)信息車輛路徑選擇問題,建立以駕駛員累積時間感受為收益函數(shù)的博弈模型,并通過仿真得出模型的博弈平衡結(jié)果。

      2)當(dāng)路網(wǎng)車輛總量接近路網(wǎng)總通行能力時,發(fā)布誘導(dǎo)信息,路網(wǎng)的交通流分布也能達(dá)到穩(wěn)定平衡,并且對路網(wǎng)通行能力具有較高的利用率;在路網(wǎng)總流量遠(yuǎn)大于路網(wǎng)總通行能力或發(fā)生緊急交通事故及節(jié)假日時,發(fā)布誘導(dǎo)信息,路網(wǎng)交通流分布呈現(xiàn)峰谷平衡,不能有效利用整個路網(wǎng)系統(tǒng),此時應(yīng)采取相應(yīng)的交通管理措施。

      參考文獻(xiàn):

      [1]董斌杰,李克平,廖明軍,等,誘導(dǎo)信息下基于博弈論的路徑選擇模型[J].北華大學(xué)學(xué)報(自然科學(xué)版),2007, 8(1):88-91.

      [2]李靜,范炳全.基于駕駛員反應(yīng)行為的誘導(dǎo)博弈分析[J].上海理工大學(xué)學(xué)報,2003, 25(4): 398-400.

      [3]魯叢林.誘導(dǎo)條件下的駕駛員反應(yīng)行為的博弈模型[J].交通運輸系統(tǒng)工程與信息,2005,5(1): 58-61.

      [4]劉建美.誘導(dǎo)條件下的路徑選擇行為及協(xié)調(diào)方法研究[D].天津:天津大學(xué),2010.

      [5]謝識予.經(jīng)濟(jì)博弈論[M]. 2版.上海:復(fù)旦大學(xué)出版社,2002.

      [6]王濟(jì)川,郭麗芳.抑制效益型團(tuán)隊合作中“搭便車“現(xiàn)象研究——基于演化博弈的復(fù)制者動態(tài)模型[J].科技管理研究,2013,12(21):191-195.

      [7]劉建美,馬壽峰.交通誘導(dǎo)-出行信號博弈分析及其虛擬行動學(xué)習(xí)模型[J].武漢大學(xué)學(xué)報(工學(xué)版),2010,40(1):102-107.

      [8]EREV I,BEREBY-MEYER Y,ROTH A.The effect of adding a constant to all payoffs:experimental investigation and implications for reinforcement learning models[J].Journal of Economic Behavior and Organization,1999(39):111-128.

      [9]OUTRAM V E, THOMPSON E.Driver route choice Proceeding[C].London:PTRC Annual Meeting ,1977.

      [10]楊佩坤,錢林波.交通分配中路段行程時間函數(shù)研究[J].同濟(jì)大學(xué)學(xué)報(自然科學(xué)版),1994,22(1):41-44.

      [11]楊綸標(biāo),高英儀,凌衛(wèi)新.模糊數(shù)學(xué)原理及應(yīng)用[M].廣州:華南理工大學(xué)出版社,2011:1-67.

      [12]周元峰.基于信息的駕駛員路徑選擇行為及動態(tài)誘導(dǎo)模型研究[D].北京:北京交通大學(xué),2007.

      (責(zé)任編輯:楊秀紅)

      Driver′s Route Choice with Help of Induced Information Based on

      Cumulative Self-Learning Mechanism

      LUOJia,ZHOUDaiping,HELin

      (SchoolofTraffic&Transportation,ChongqingJiaotongUniversity,Chongqing400074,China)

      Abstract:Regarding the driver as the bounded rationality and driver′s feelings of travel time as a decision benefits, a driver′s route choice model of the induced information based on the cumulative self-learning mechanism is established. The game balance results are verified by the simulation in the different initial states. The simulation results show that the induction information release is not always effective and it is closely related to the total network traffic flow and initial flow.

      Key words:induced information; cumulative self-learning mechanism; driver′s route choice

      文章編號:1672-0032(2015)04-0034-06

      中圖分類號:U471.3

      文獻(xiàn)標(biāo)志碼:A

      DOI:10.3969/j.issn.1672-0032.2015.04.008

      作者簡介:羅佳(1993—),女,四川宜賓人,碩士研究生,主要研究方向為交通規(guī)劃.

      收稿日期:2015-05-22

      象山县| 巴彦淖尔市| 成安县| 资中县| 邛崃市| 清涧县| 吴忠市| 孝昌县| 治多县| 阳朔县| 沾化县| 中阳县| 郸城县| 阳原县| 靖西县| 灵璧县| 敖汉旗| 灯塔市| 鲁山县| 海林市| 深水埗区| 舟山市| 商城县| 桓台县| 马鞍山市| 陆河县| 新野县| 厦门市| 利辛县| 盐山县| 武功县| 工布江达县| 西华县| 宁南县| 万全县| 宜都市| 赤水市| 榆林市| 大连市| 东平县| 达尔|