• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度強化學習的城市公共交通票價優(yōu)化模型構建

      2024-12-08 00:00:00萬玲
      中國新技術新產品 2024年3期
      關鍵詞:深度強化學習城市公交

      摘 要:本文介紹了一種基于深度強化學習的城市公共交通票價優(yōu)化模型,構建該模型的目的在于提高城市交通系統(tǒng)的效率和服務質量。首先,分析了該模型的基本假設和建立過程。其次,探討了使用DQN方法對模型進行訓練和優(yōu)化的過程,最后,該文展示了持續(xù)監(jiān)測系統(tǒng)性能、乘客數量、收入和交通擁堵情況等票價模型的優(yōu)化結果,以期為城市公共交通系統(tǒng)的管理和改進提供一種前瞻性方法。

      關鍵詞:深度強化學習;城市公交;票價優(yōu)化模型

      中圖分類號:U-9 " " " " " " " 文獻標志碼:A

      隨著城市化的快速發(fā)展,公共交通成為減少城市交通擁堵、減少污染、提高居民生活質量的關鍵組成部分[1]。而公共交通票價策略是管理城市公共交通系統(tǒng)的關鍵因素之一,合理的票價策略不僅可以吸引更多乘客乘坐公共交通,還可以提高運營效益,減少擁堵,降低碳排放。基于此背景,深度強化學習(Deep Reinforcement Learning,DRL)應運而生。DRL結合深度學習和強化學習的技術,能夠使系統(tǒng)在與環(huán)境的互動中學習并適應最佳策略。本文的目標是開發(fā)一種基于DRL的城市公共交通票價優(yōu)化模型,該文將詳細介紹基于深度強化學習的城市公共交通票價優(yōu)化模型的構建和訓練過程,通過模擬和學習,使模型能夠自主決策最佳票價策略,有望為城市交通管理者提供一個靈活、自適應的工具,以優(yōu)化票價策略,提高乘客體驗,降低交通擁堵,并最大化運營收益。

      1 城市公共交通票價優(yōu)化模型

      1.1 基本假設模型

      假設城市公共交通市場存在一定數量的潛在乘客,那么這些乘客具有出行需求,前往不同的目的地、出行時間和距離各不相同[2]。這個需求可以根據不同地點和時間段而變化,形成一個動態(tài)的需求曲線。而市場中存在一定數量的公交車、地鐵列車等交通資源,用于滿足潛在乘客的出行需求,這些資源在不同線路和時段提供不同的服務。根據乘客的出行需求選擇使用公共交通,而交通資源會根據需求提供相應的服務。因此,需求與供給之間存在一定的匹配關系,交通資源的利用率會受到乘客需求的影響。在模型中,假設市場存在私人汽車、出租車以及共享單車等多種出行方式,這些方式會構成城市公共交通的競爭或替代。當乘客出行時,會考慮這些替代方式,根據其特點和成本來選擇最適合自己的方式。同時,票價是乘客出行選擇的一個重要因素,當其他出行方式提供相似的服務時,公共交通的票價策略可能會影響乘客的選擇。因此,模型需要考慮在競爭環(huán)境下的票價策略,以吸引乘客選擇公共交通方式。當乘客選擇出行方式時會綜合考慮票價、出行時間以及便捷性等方面,而模型需要考慮這些因素來制定具有競爭力的票價策略。

      1.2 模型建立

      在模型建立的過程中,對狀態(tài)空間的定義、動作空間的設定以及獎勵函數的設計等要素都是構成深度強化學習模型的核心[3]。模型的狀態(tài)空間包括城市的不同交通線路、不同時段、天氣情況以及乘客需求等多個因素。狀態(tài)空間可以表示為S={s1,s2,...,sn},其中每個sn表示一個狀態(tài)因子,例如,s1表示線路,s2表示時段,s3表示天氣等。動作空間(Action Space)包括不同線路或時段的票價設定,其可以表示為A={a1,a2,a3,.....am},其中每個am表示一個票價策略,例如,a1表示提價Δp1%,a2表示降價Δp2%,以此類推。此外,建立模型設置獎勵函數,用于評估模型每個動作的好壞,其主要影響模型的學習和決策過程。獎勵函數R(s,a)考慮多個因素,如乘客數量、收入以及交通擁堵情況等,如公式(1)所示。

      R(s,a)=ζ·(pinewci)·qi " " " " " " " " " " " " (1)

      式中:ζ為獎勵系數;pinew為新的票價;ci為單位成本;qi為出行需求。

      此外,建立模型還需要構建一個虛擬環(huán)境,以模擬乘客的行為、交通流量以及票價策略的影響等。這個模型將與深度強化學習代理進行互動,提供有關城市交通系統(tǒng)的反饋信息。深度強化學習代理將使用神經網絡Q(S,A)來表示價值函數,其中S表示狀態(tài)空間,A表示動作空間。價值函數表示了在給定狀態(tài)下采取某個動作的預期回報。模型將基于貝爾曼方程來更新Q值,以逐步優(yōu)化策略。

      2 基于深度強化學習票價優(yōu)化模型訓練

      2.1 DQN法訓練

      在基于深度強化學習的票價優(yōu)化模型中,該文主要采用了深度Q網絡(Deep Q-Network,DQN)來進行模型訓練[4]。DQN是一種強化學習算法,用于訓練智能代理以學習最佳的決策策略。DQN法訓練的核心思想是使用深度神經網絡來估計每個狀態(tài)-動作對的價值函數,以便選擇最佳的行動。具體步驟如下:1)神經網絡的輸入是狀態(tài)空間的表示,輸出是每個動作的Q值估計。神經網絡結構包括輸入層、隱藏層和輸出層。輸入層接收狀態(tài)空間的表示,描述城市交通系統(tǒng)當前狀態(tài)的信息,每個狀態(tài)因子都被編碼為網絡的輸入節(jié)點,這些輸入節(jié)點構成狀態(tài)向量,作為神經網絡的輸入。隱藏層是神經網絡的核心,包括多個神經元節(jié)點,用于處理輸入數據并提取特征。隱藏層通過學習權重和偏差來逐步優(yōu)化狀態(tài)-動作對的Q值估計。輸出層的節(jié)點數等于動作空間的大小,每個節(jié)點對應一個不同的票價策略。輸出層的值表示每個動作對應的Q值估計。而神經網絡的訓練目標就是使輸出層的Q值逼近真實的最優(yōu)Q值。2)在神經網絡結構的基礎上估計Q值,對于每個狀態(tài)-動作對(s,a),將狀態(tài)s作為輸入,通過前向傳播計算神經網絡的輸出,即預測的Q值,表示為Q(s,a)。這個預測的Q值估計是基于模型學到的知識來估計在狀態(tài)s下采取動作a的長期回報。在訓練階段,神經網絡會通過與環(huán)境的互動來不斷調整其參數,以更準確地估計Q值。模型會根據當前策略選擇動作a,進入下一個狀態(tài)s',并觀察獲得的即時獎勵R(s,a)。3)用貝爾曼方程用于更新Q值,計算模型當前預測的Q值和目標Q值之間的誤差,逐步優(yōu)化模型的決策策略。具體更新如公式(2)所示。

      Q(s,a)=Q(s,a)+a[R(s,a)+γ·max(Q(s',a'))-Q(s,a)] (2)

      式中:α為學習率,控制每次更新的幅度。R(s,a)為采取動作a后在狀態(tài)s下獲得的即時獎勵。γ為折扣因子,代表未來獎勵的重要性。s'為下一個狀態(tài),a'為在下一個狀態(tài)下選擇的最佳動作。該預估公式主要利用誤差進行反向傳播,調整神經網絡的權重和參數,使預測的Q值逐漸逼近目標Q值。此步驟允許模型不斷更新Q值,以更準確地估計每個動作的長期回報,從而指導模型選擇最佳的票價策略。

      總之,DQN法的訓練過程是一個迭代的過程,模型不斷嘗試不同的動作并觀察獎勵,以學習如何制定最佳的票價策略。通過該過程,模型可以優(yōu)化城市公共交通系統(tǒng)的票價,以滿足乘客需求并最大化運營效益。

      2.2 優(yōu)化模型

      為了提高模型訓練的穩(wěn)定性,可使用經驗回放技術觀察模型的狀態(tài)、動作、獎勵和下一個狀態(tài)的數據點存儲在一個經驗緩沖區(qū)中,然后隨機抽樣這些經驗數據來構建訓練批次[5]。主要技術要點如下。在每個時間t,將當前狀態(tài)st、采取的動作at、獲得的即時獎勵rt和下一個狀態(tài)s{t+1}組成如下經驗元祖。

      這些經驗元組將被存儲在一個經驗池中,而經驗池的大小通常是有限的,較大的經驗池可以存儲更多的經驗元組,但也需要更多的內存空間。在訓練過程中,從經驗池中隨機抽樣一批數據,通常包括N個經驗元組,其中N是抽樣的批次大小。隨機抽樣可打破數據的時間相關性,提高訓練的穩(wěn)定性。由于經驗池包括了之前的經驗,因此模型可以在不同的狀態(tài)和時間步上進行訓練,而不僅是在連續(xù)的時間步上。對于每個抽樣的經驗元組(st,at,rt,s{t+1}),采用公式(4)計算更新Q值。

      (3)

      式中:Qt表示目標Q值,即更新的Q值;rt表示即時獎勵,即在狀態(tài)st下采取動作at后獲得的獎勵;γ表示折扣因子,代表未來獎勵的重要性;max(Qtnext)表示下一個狀態(tài)s{t+1}中可選動作的最大Q值。這個目標Q值Qt用于計算Q網絡的損失,通常采用均方誤差損失,計算過程如公式(5)所示。

      (4)

      式中:Qt表示目標Q值,即通過貝爾曼方程計算得到的目標值;Q(s,a)表示模型估計的Q值,即模型在狀態(tài)s下采取動作a的估計值。通過調整模型參數可優(yōu)化這個損失函數,使模型估計的Q值逐漸逼近目標Q值。在深度強化學習中,通常使用梯度下降或其變種來優(yōu)化MS損失,通過反向傳播算法來更新神經網絡的參數,以提高模型的性能。

      3 票價模型優(yōu)化結果

      乘客數量是監(jiān)測模型優(yōu)化的關鍵指標,可以用于評估模型的效用。跟蹤不同線路和時段的乘客數量,并與模型的票價策略進行對比。具體結果如圖1所示。

      由圖1可知,在所有時段中,線路A的乘客數量都明顯高于線路B。這表明線路A在吸引乘客方面表現更好。在早高峰和晚高峰時段,乘客數量相對較高,而在非高峰時段,乘客數量較低。這符合通常的交通模式,乘客更容易在高峰時段使用公共交通工具。如果模型的票價策略能夠成功地吸引更多的乘客,那么乘客數量值可能會上升,這表明模型的優(yōu)化結果在增加乘客數量方面取得了成功。收入是城市公共交通系統(tǒng)的重要經濟指標,模型的優(yōu)化應該能夠平衡提高乘客數量和增加收入之間的關系。具體結果如圖2所示。

      由圖2可知,在給定的時段下,線路A的總收入明顯高于線路B。早高峰時段,線路A的總收入最高為450元,而線路B的最高總收入為300元。對每個線路在不同時段的收入進行比較,可以看到在07:00—08:00早高峰時段收入最高,在08:30—11:00非高峰時段的收入較低。這種時段間的差異可能受到乘客數量和需求的影響。線路A和線路B在各時段的收入都不同。這表明不同線路的乘客數量和票價策略可能有差異,導致2個線路的收入不同。城市公共交通原票價、優(yōu)化后票價以及由此帶來的收入變化,都反映了模型優(yōu)化對城市公共交通系統(tǒng)的影響,原票價代表了在模型介入前的公共交通票價水平。這些價格通常根據市場需求、運營成本和其他因素設定。優(yōu)化后票價反映了深度強化學習模型在考慮乘客需求、交通擁堵情況和城市經濟狀況等多個因素后,對票價策略進行調整后的結果,這些調整可以包括提價或降價,具體取決于線路和時段的情況。通過觀察收入變化,可以判斷模型的票價策略是否在經濟上有效。具體結果如圖3所示。

      由圖3可知,大多數情況下,模型的優(yōu)化導致了票價的降價或提價變化。這種變化可能會影響乘客數量和城市公共交通的收入。在優(yōu)化票價后,交通收入的變化是呈正值趨勢增長的,這表示模型的優(yōu)化策略在經濟上是有效的。在不同時段的票價優(yōu)化結果不同。在早高峰時段,模型降低了票價,導致乘客數量上升,在晚高峰時段,模型提高票價,但仍然提高了收入。總的來說,模型的票價優(yōu)化策略在不同線路和時段表現了靈活性和適應性,有助于提高收入并在某些情況下減輕交通擁堵。這對于城市公共交通系統(tǒng)的可持續(xù)發(fā)展非常重要。

      4 結語

      城市公共交通票價策略對于減少交通擁堵、提高居民生活質量以及降低環(huán)境污染具有重要影響,本文結合深度學習技術,研究構建一種基于深度強化學習的城市公共交通票價優(yōu)化模型,用于優(yōu)化城市公共交通的票價策略,同時在訓練該模型的過程中采用DQN法訓練,不斷更新模型的Q值,以更好地估計最佳策略,提高模型訓練的穩(wěn)定性。通過本文的研究,希望提高乘客體驗,減輕交通擁堵,最大程度地提升城市公共交通的運營收益。

      參考文獻

      [1]李雪巖,張漢坤,李靜,等.基于深度強化學習的城市公共交通票價優(yōu)化模型[J].管理工程學報,2022,36(6):12.

      [2]鄭欣宇,毛俊,弓埔政,等.地鐵共線公交線路的優(yōu)化調整方法研究——以大連地鐵二號線為例[J].內江科技,2022,43(10):41-42.

      [3]周杰.智慧城市軌道交通發(fā)展模型的構建及其發(fā)展趨勢探討[J].城市軌道交通研究,2023,26(6):7-11.

      [4]鐘力文.一種基于DQN模型提取交通信號配時決策樹的方法:CN202310189392.X[P].2023-10-16.

      [5]李蘭鵬.基于蟻群算法的城市軌道交通列車節(jié)能運行優(yōu)化模型仿真分析[J].城市軌道交通研究,2023,26(2):11-15.

      猜你喜歡
      深度強化學習城市公交
      基于策略梯度算法的工作量證明中挖礦困境研究
      計算機應用(2019年5期)2019-08-01 01:48:57
      基于深度強化學習的圖像修復算法設計
      物聯網技術(2019年6期)2019-07-29 01:12:33
      關于人工智能阿法元綜述
      商情(2019年14期)2019-06-15 10:20:13
      深度強化學習研究進展
      關于人工智能阿法元綜述
      西部論叢(2019年9期)2019-03-20 05:18:04
      基于深度強化學習的陸軍分隊戰(zhàn)術決策問題研究
      科學與財富(2018年7期)2018-05-21 08:46:30
      城市公交客車彎道行駛油耗優(yōu)化方法
      一種城市公交網絡效率評價模型
      楊傳堂主持專題會議研究部署推進城市公交優(yōu)先發(fā)展工作
      R218普利司通城市公交專用輪胎新品
      汽車零部件(2014年8期)2014-12-28 08:18:24
      宁晋县| 西乡县| 曲靖市| 葫芦岛市| 吉隆县| 徐汇区| 瑞安市| 安仁县| 临猗县| 余干县| 台山市| 伊吾县| 蒙阴县| 比如县| 仁寿县| 通江县| 蒙山县| 石泉县| 石渠县| 田东县| 清水县| 日土县| 千阳县| 仁寿县| 安新县| 维西| 申扎县| 商水县| 泸溪县| 巴塘县| 大港区| 板桥市| 汝南县| 枣庄市| 慈利县| 万年县| 桃江县| 永善县| 庄河市| 罗江县| 孟连|