• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于回歸模型的共享單車需求預測

      2024-07-01 10:06:34張山山鮑蓉馬玉婷
      關鍵詞:隨機森林

      張山山 鮑蓉 馬玉婷

      【摘 ?要】為了準確掌握城市共享單車投放量,論文提出了一種以隨機森林為基礎的預測方法。首先,通過隨機森林模型篩選出符合條件的共享單車影響因素;其次,將單車變化量和影響因素分別作為神經(jīng)網(wǎng)絡參數(shù),建立共享單車需求投放模型;最后,以公開數(shù)據(jù)集為對象,對其工作日及節(jié)假日間的單車投放量進行預測。在隨機森林模型下,預測得分為84.48,選出權重最高的6個影響因素分別為溫度、小時、太陽輻射、是否是工作日、濕度、降雨量。然后建立LSTM神經(jīng)網(wǎng)絡模型,以這些特征訓練網(wǎng)絡,得到預測得分為82.48,在大幅減少特征維度、降低計算量的情況下,預測結果與其實際出行特征基本吻合,較好地驗證了該模型的實用性和普適性,具有一定的實際參考價值。

      【關鍵詞】共享單車需求預測;隨機森林;LSTM網(wǎng)絡;Python

      【中圖分類號】F713.36;F570 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文獻標志碼】A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章編號】1673-1069(2024)04-0038-03

      1 引言

      隨著城市化進程的日益加速,共享單車作為一種新興的綠色出行方式,正逐漸改變著人們的出行習慣。它既提供了靈活便捷的交通選擇,減輕了城市交通擁堵,又符合現(xiàn)代社會對可持續(xù)發(fā)展和環(huán)保的需求,成為越來越多人短途出行的首選[1]。與此同時,共享單車供需不平衡的問題日漸凸顯,因此,對其需求進行準確預測成為提升人們出行效率和單車使用率的關鍵[2],更有助于優(yōu)化車輛調(diào)度,提高運營效率,有效緩解城市交通壓力,推動城市的可持續(xù)發(fā)展。

      共享單車需求預測是一個跨學科的復雜問題,受到眾多因素的影響,包括時間、地點、天氣、節(jié)假日、政策調(diào)整等。這些因素相互交織,使得共享單車的需求變化呈現(xiàn)出高度的復雜性和不確定性。因此,構建一個準確且有效的需求預測模型,成為共享單車行業(yè)亟待解決的重要問題?;貧w模型作為一種經(jīng)典的統(tǒng)計分析方法,在需求預測領域具有廣泛的應用。它通過建立自變量和因變量之間的數(shù)學關系,實現(xiàn)對因變量的預測。在共享單車需求預測中,回歸模型可以根據(jù)歷史數(shù)據(jù)和相關特征,構建需求預測模型,并通過訓練和優(yōu)化模型,實現(xiàn)對未來需求的準確預測。

      盡管國內(nèi)外學者在共享單車需求預測方面已經(jīng)取得了一些研究成果[3-5],但現(xiàn)有的研究仍存在一些不足之處。部分研究在數(shù)據(jù)處理和特征提取方面存在局限,導致預測精度不高。同時,一些研究缺乏對模型性能的系統(tǒng)評估和優(yōu)化,使得模型的泛化能力和穩(wěn)定性有待提升。

      鑒于此,本研究通過回歸模型,關注天氣、環(huán)境等多因素,旨在深入了解這些因素對共享自行車需求的影響,進而挖掘數(shù)據(jù)中真正的影響因素。本項研究致力于建立一個簡潔而可靠的神經(jīng)網(wǎng)絡預測框架,為優(yōu)化共享自行車系統(tǒng)提供科學支持,推動城市交通的可持續(xù)發(fā)展。

      2 隨機森林模型

      隨機森林是一種集成算法,它通過組合多個弱分類器,最終結果通過投票或取均值,使得整體模型的結果具有較高的精確度和泛化性能[6]。隨機森林使用了CART決策樹作為弱學習器,它是一種在原始數(shù)據(jù)集上通過又放回抽樣重新選出k個新數(shù)據(jù)集來訓練分類器的集成技術,它使用訓練出來的分類器的集合來對新樣本進行分類,然后用多數(shù)投票或者對輸出求均值的方法統(tǒng)計所有分類器的分類結果,結果最高的類別即最終標簽[7]。

      對于一般的決策樹,假如總共有K類,樣本屬于第k類的概率為:pk,則該概率分布的基尼指數(shù)為公式(1),其可以取得不錯成績,主要歸功于“隨機”和“森林”,一個使它具有抗過擬合能力,一個使它更加精準。基尼指數(shù)越大,說明不確定性就越大;基尼系數(shù)越小,不確定性越小,數(shù)據(jù)分割越徹底、越干凈。

      在遍歷每個特征的每個分割點時,當使用特征A=a,將D劃分為兩部分,即D1(滿足A=a的樣本集合)、D2(不滿足A=a的樣本集合)。則在特征A=a的條件下D的基尼指數(shù)為公式(2)。隨機森林中的每棵CART決策樹都是通過不斷遍歷這棵樹的特征子集的所有可能的分割點,尋找Gini系數(shù)最小的特征的分割點,將數(shù)據(jù)集分成兩個子集,直至滿足停止條件為止。

      3 神經(jīng)網(wǎng)絡模型

      神經(jīng)網(wǎng)絡是一種受到人類大腦結構啟發(fā)的計算模型,由大量的神經(jīng)元以及他們之間的連接組成。神經(jīng)網(wǎng)絡可以通過學習和調(diào)整連接權重來進行模式識別、回歸等任務。神經(jīng)網(wǎng)絡中,每一層都由多個神經(jīng)元組成,通過前向傳播和反向傳播來不斷優(yōu)化模型以適應給定的任務。

      長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)架構,用于處理序列數(shù)據(jù)。LSTM的設計目的是解決傳統(tǒng)RNN在處理長序列時存在的梯度消失或爆炸問題[8]。本文使用的神經(jīng)網(wǎng)絡模型為雙向長短期記憶網(wǎng)絡(Bidirectional Long Short-Term Memory,BiLSTM),它是在LSTM的基礎上進行改進的一種架構,用于處理序列數(shù)據(jù),網(wǎng)絡的完整結構見表1。與傳統(tǒng)LSTM不同的是,BiLSTM同時考慮了序列數(shù)據(jù)的過去和未來信息。它包含兩個方向的LSTM層:一個按照時間順序處理輸入序列(正向),另一個按照時間逆序處理輸入序列(反向)。通過這種方式,BiLSTM可以同時捕捉到序列數(shù)據(jù)的過去和未來信息,從而更好地理解序列中的上下文和依賴關系,提高模型的性能和泛化能力[9]。

      4 實例應用

      選取UCI上公開的首爾共享單車數(shù)據(jù)集作為研究對象[10]。該數(shù)據(jù)集包含2017年12月1日至2018年11月30日的共計8 760條數(shù)據(jù),每條數(shù)據(jù)包含13個自變量:Date(日期)、Hour(小時)、Temperature(溫度)、Humidity(濕度)、Wind speed(m/s,風速)、Visibility(10 m,能見度)、Dew point temperature(露點溫度)、Solar Radiation (太陽輻射)、Rainfall(下雨量)、Snowfall(下雪量)、Seasons(季節(jié))、Holiday(是否假期)、Functioning Day(是否工作日),以及1個目標變量Rented Bike Count(每小時單車使用量)。因為每小時單車的使用數(shù)量是與所在城市的氣候以及環(huán)境監(jiān)測相關的,所以可以推廣到所有擁有共享單車系統(tǒng)的城市。本文使用隨機森林方法進行研究,隨機選取其中70%的樣本作為訓練數(shù)據(jù)集,剩下30%作為測試數(shù)據(jù)集。首先,對每一條樣本數(shù)據(jù)提取年、月、日添加進數(shù)據(jù)集,然后對數(shù)據(jù)集的數(shù)值型變量進行預處理——歸一化操作,處理后的數(shù)據(jù)樣本見表2。

      經(jīng)過預處理后,初始化隨機森林,為了取得最優(yōu)效果,使用scikit-learn庫中的GridSearchCV模塊來遍歷搜索最優(yōu)參數(shù)組,搜索算法見算法1,其中N為樣本數(shù),T為時間,V為特征數(shù)。最終經(jīng)過搜索取樹最大深度為20,最大葉子節(jié)點數(shù)為100,決策樹的數(shù)量為40。

      算法1:最優(yōu)隨機森林搜索算法

      1: 給定訓練數(shù)據(jù)X∈RT×V和初始化隨機森林α

      2: 初始化搜索最優(yōu)參數(shù)n_estimators、max_depth等

      3: for k=1,2,...,遍歷n_estimators(k)、max_depth(k)等網(wǎng)絡參數(shù) do

      4: GridSearchCV:訓練網(wǎng)絡

      5: GridSearchCV:計算網(wǎng)絡分數(shù)

      6: end for

      在最優(yōu)森林下對訓練數(shù)據(jù)進行擬合,得到測試集分數(shù)為84.48,RMSE為0.057,將預測值與實際值繪制成圖1,可以看到,預測值與實際值是相對接近的,即結果是可靠的。將影響預測的前6種因素按權重輸出,分別是溫度、小時、太陽輻射、是否是工作日、濕度、降雨量。

      經(jīng)過隨機森林特征選擇,使用被選擇的屬性訓練神經(jīng)網(wǎng)絡,以減輕模型計算量。與隨機森林不同的是,由于使用的是LSTM神經(jīng)網(wǎng)絡,因此需要對數(shù)據(jù)再次進行處理。設置窗口大小為4,LSTM中隱藏單元的個數(shù)為10,將原始特征轉(zhuǎn)化為適合神經(jīng)網(wǎng)絡輸入的X'∈RN'×W×V,其中W為窗口大小,訓練迭代次數(shù)為300次,批處理大小設置為4,最終得到的R2分數(shù)為82.48,損失變化見預測結果與真實值如圖2所示,可得出結論,神經(jīng)網(wǎng)絡使用更少的數(shù)據(jù)量,更小的計算量達到了與隨機森林模型相近的準確性,由于數(shù)據(jù)輸入模式更真實,因此具有更好的泛化性。

      5 結語

      通過對共享自行車需求預測任務進行隨機森林分析,得到了84.48的分數(shù),并獲得影響該預測任務最重要的6個因素,這與前期相關性分析得到的結果基本保持一致。接下來只選擇這些特征,將數(shù)據(jù)輸入設計的神經(jīng)網(wǎng)絡中,預測得分為82.48,與使用全部數(shù)據(jù)的隨機森林預測作對比,發(fā)現(xiàn)使用更低的特征維度,更少的計算資源達到了相近的預測結果,提高了模型的泛化性,為共享單車的需求預測任務提供了有效的參考。

      使用回歸模型來預測共享單車的需求可以為共享單車行業(yè)的運營和管理提供科學依據(jù)。主要體現(xiàn)在以下幾個方面:首先,準確預測共享單車需求有助于優(yōu)化車輛調(diào)度。通過了解不同時間和地點的需求分布,共享單車運營商可以更加精準地安排車輛的投放和調(diào)度,從而提高車輛利用效率,降低運營成本。其次,需求預測有助于提升用戶體驗。通過預測用戶的需求變化,共享單車運營商可以提前做好車輛維護和保養(yǎng)工作,確保車輛的安全性和可用性。同時,根據(jù)需求預測結果,運營商還可以調(diào)整收費標準和服務策略,更好地滿足用戶需求,提升用戶滿意度和忠誠度。最后,本研究有助于推動共享單車行業(yè)的可持續(xù)發(fā)展。通過深入研究共享單車需求預測問題,可以為行業(yè)的健康發(fā)展提供理論支持和實踐指導,促進共享單車行業(yè)的長期穩(wěn)定發(fā)展。

      【參考文獻】

      【1】楊鑫宇.基于機器學習的地鐵站區(qū)域共享單車需求預測[J].石家莊鐵道大學學報(自然 科學版),2023(36):92-98+126.

      【2】謝光明.基于改進時空圖神經(jīng)網(wǎng)絡的共享單車流量預測[D].上海:華東師范大學,2023.

      【3】Gregory R. Krykewycz,Christopher M. Puchalsky,Joshua Rocks,et al.Defining a primary market and estimating demand for major bicycle-sharing program in philadelphia, pennsylvania[J].Transportation Research Record Journal of the Transportation Research Board,2010,2143(-1):117-124.

      【4】徐葉冉子,沈瑾.基于圓分布法和時間序列模型的公共自行車需求量分析[J].工業(yè)工程,2014(2):55-63.

      【5】何流,李旭宏,陳大偉,等.公共自行車動態(tài)調(diào)度系統(tǒng)需求預測模型研究[J].武漢理工大學學報(交通科學與工程版),2013,37(2):278-282.

      【6】韓成成.基于數(shù)據(jù)挖掘任務的分類方法綜述[J].軟件,2023,44(06):95-97.

      【7】方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統(tǒng)計與信息論壇,2011,26(03):32-38.

      【8】楊麗,吳雨茜,王俊麗,等.循環(huán)神經(jīng)網(wǎng)絡研究綜述[J].計算機應用,2018,38(S2):1-6+26.

      【9】徐先峰,黃劉洋,龔美.基于卷積神經(jīng)網(wǎng)絡與雙向長短時記憶網(wǎng)絡組合模型的短時交通流預測[J].工業(yè)儀表與自動化裝置,2020(01):13-18.

      【10】UCI Machine Learning Repository.Seoul Bike Sharing Demand[EB/OL].https://doi.org/10.24432/C5F62R,2020-02-29.

      猜你喜歡
      隨機森林
      隨機森林在棉蚜蟲害等級預測中的應用
      基于二次隨機森林的不平衡數(shù)據(jù)分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測預報的隨機森林模型及應用
      基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
      基于隨機森林算法的B2B客戶分級系統(tǒng)的設計
      基于多視角特征融合與隨機森林的蛋白質(zhì)結晶預測
      临沧市| 丰宁| 清徐县| 玉树县| 江山市| 体育| 出国| 广宗县| 崇礼县| 呼玛县| 永善县| 同心县| 芷江| 彰化县| 盈江县| 古浪县| 万安县| 宜州市| 桃园县| 临漳县| 天水市| 阿克陶县| 泽库县| 景洪市| 韶山市| 砀山县| 肥东县| 永丰县| 会同县| 漠河县| 西平县| 乌兰察布市| 忻州市| 黑水县| 靖宇县| 江口县| 漳平市| 闵行区| 漾濞| 济阳县| 托克托县|