蔡夢(mèng)琴 王艷敏 柯文娟 石志穎
【摘 要】從地鐵站、公交站等到目的地的“最后一公里”的問題,一直困擾著人們。共享單車的爆發(fā)式增長(zhǎng)與“放養(yǎng)式”發(fā)展帶來了一系列問題,引起了社會(huì)各界的廣泛關(guān)注。文章基于南京市共享單車借還數(shù)據(jù),利用線性判別分析、k-近鄰、貝葉斯判別分析、隨機(jī)森林、支持向量機(jī)等方法構(gòu)建不同區(qū)域共享單車需求波動(dòng)趨勢(shì)預(yù)測(cè)模型,基于模型預(yù)測(cè)結(jié)果,為南京市共享單車區(qū)域管理提供建議。
【關(guān)鍵詞】共享單車;判別分析;支持向量機(jī);隨機(jī)森林;需求預(yù)測(cè)
【中圖分類號(hào)】U491.225 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1674-0688(2021)12-0076-03
1 研究意義
共享單車平穩(wěn)、有序、健康、綠色、持續(xù)發(fā)展的關(guān)鍵是實(shí)現(xiàn)供需平衡,即共享單車的投放比與用戶的需求度相匹配。用戶的需求是一個(gè)動(dòng)態(tài)的變化過程,受多種因素影響,故通過對(duì)各個(gè)因素進(jìn)行分析,用戶需求可呈現(xiàn)出一定的可預(yù)測(cè)性。動(dòng)態(tài)調(diào)整共享單車區(qū)域投放數(shù)量,降低運(yùn)營(yíng)成本、協(xié)調(diào)資源、提升用戶體驗(yàn)、增強(qiáng)服務(wù)質(zhì)量,對(duì)共享單車行業(yè)的可持續(xù)發(fā)展具有重大意義。
關(guān)于共享單車的需求預(yù)測(cè),國(guó)內(nèi)外學(xué)者已進(jìn)行了大量研究。例如,宋鵬等[1]構(gòu)建了基于不同核函數(shù)支持向量機(jī)的共享單車需求預(yù)測(cè)模型,并進(jìn)行仿真模擬。蘇影[2]以北京市摩拜單車的出行數(shù)據(jù)為基礎(chǔ),使用K-means聚類法對(duì)共享單車的投放區(qū)域進(jìn)行了劃分,并利用Xgboost算法對(duì)各區(qū)域內(nèi)共享單車用戶需求進(jìn)行動(dòng)態(tài)預(yù)測(cè),建立了共享單車動(dòng)態(tài)調(diào)配優(yōu)化模型,得到動(dòng)態(tài)調(diào)配方案。焦志倫等[3]探討了共享單車短期(基于小時(shí))需求預(yù)測(cè)的主要影響因素,并對(duì)不同模型的預(yù)測(cè)效果進(jìn)行比較分析。史越[4]分析了共享單車需求特征,提出了共享單車調(diào)度網(wǎng)絡(luò)構(gòu)建方法,建立了共享單車需求量預(yù)測(cè)模型,并進(jìn)行了實(shí)例研究。
基于此,本課題以南京市為例,調(diào)查與研究共享單車的需求波動(dòng),分析預(yù)測(cè)共享單車供需之間存在的問題,了解供需不平衡的原因,從而提出具有針對(duì)性、可操作性的解決對(duì)策,以促進(jìn)共享單車長(zhǎng)久發(fā)展。
2 共享單車需求預(yù)測(cè)的基本原理與方法
2.1 共享單車需求現(xiàn)狀和波動(dòng)分析
自行車共享世界地圖網(wǎng)站曾對(duì)世界范圍內(nèi)的自行車規(guī)劃進(jìn)行統(tǒng)計(jì),結(jié)果顯示,截至2019年底中國(guó)自行車共享項(xiàng)目已投放約47萬輛公共自行車,全球排第一位。
基于南京市2019年3月18—24日共享單車需求數(shù)據(jù)繪制共享單車借還數(shù)據(jù)折線圖(如圖1所示)。
由此可以看出,共享單車的需求具有明顯的時(shí)空特征和呈周期性變化。上午9時(shí)為集體早高峰時(shí)期,下午6~7時(shí)為集體晚高峰時(shí)期,晚7時(shí)以后共享單車需求量整體下降。共享單車白天的需求量明顯大于夜晚,同時(shí)存在高峰期和低谷期,呈現(xiàn)兩個(gè)波峰、兩個(gè)波谷,需求波動(dòng)變化特點(diǎn)顯著。
2.2 共享單車需求波動(dòng)影響因素理論分析
共享單車是當(dāng)前人們重要的出行方式之一,影響共享單車需求的因素有很多,比如時(shí)間、季節(jié)、天氣、溫度、風(fēng)速及節(jié)假日等,都對(duì)共享單車的需求產(chǎn)生影響。
3 基于判別分析的共享單車需求波動(dòng)趨勢(shì)預(yù)測(cè)模型的構(gòu)建與應(yīng)用
3.1 分類結(jié)果的評(píng)價(jià)指標(biāo)
分類算法通過預(yù)測(cè)變量可以很好地將類別進(jìn)行分離,混淆矩陣匯總了正確分類和錯(cuò)誤分類的數(shù)量,當(dāng)數(shù)據(jù)量足夠大,并且兩個(gè)類別都不稀少時(shí),這種估計(jì)是可靠的。
對(duì)于分類效果的評(píng)估,使用幾種常用的預(yù)測(cè)精度測(cè)算指標(biāo)(見表1)。
定義錯(cuò)誤率:
FN+(1)
準(zhǔn)確率:
TP+(2)
召回率:
reall==(3)
精準(zhǔn)率:
precision=(4)
F1得分(使用調(diào)和平均結(jié)合召回率和精度的指標(biāo)):
F1=(5)
其中,P為精準(zhǔn)率,R為召回率。
3.2 數(shù)據(jù)選取及樣本分析
選取2019年3月18—24日的南京市共享單車需求量作為樣本數(shù)據(jù)(如圖2所示)。
計(jì)算樣本數(shù)據(jù)的描述性統(tǒng)計(jì)量:樣本總量為5 040個(gè),樣本均值為311.467 658 7,標(biāo)準(zhǔn)差為291.425 311 5,樣本最小值為0,最大值為1 208,下四分位數(shù)為510,上四分位數(shù)為31,可得出共享單車需求量離散程度較高。從分布形狀來看,計(jì)算得到選取樣本的偏度為0.714 939,峰度為-0.509 132,可得出共享單車需求量數(shù)據(jù)呈現(xiàn)右偏分布,并且數(shù)據(jù)分布比標(biāo)準(zhǔn)正態(tài)分布平坦。
3.3 預(yù)測(cè)結(jié)果分析
分別利用線性判別分析(LDA)、k-近鄰(k-NN)、貝葉斯(Bayes)判別、隨機(jī)森林(Random forest)、支持向量機(jī)(SVM)對(duì)一周內(nèi)的共享單車需求波動(dòng)趨勢(shì)進(jìn)行預(yù)測(cè)。
3.3.1 訓(xùn)練集與測(cè)試集結(jié)果分析
在每個(gè)樣本區(qū)間內(nèi)將80%的數(shù)據(jù)劃分為訓(xùn)練集,20%的數(shù)據(jù)劃分為測(cè)試集,利用Python軟件進(jìn)行仿真。我們給出上述5種判別分析算法在一周期的樣本區(qū)間內(nèi)訓(xùn)練集預(yù)測(cè)精度指標(biāo)和測(cè)試集預(yù)測(cè)精度指標(biāo)的對(duì)照結(jié)果(如3圖所示)。
由圖3可以看到,運(yùn)用5種判別分析算法預(yù)測(cè)共享單車需求波動(dòng)趨勢(shì),在訓(xùn)練集上的預(yù)測(cè)精度指標(biāo)均優(yōu)于測(cè)試集上的預(yù)測(cè)精度指標(biāo),這是符合常理的。
3.3.2 5種預(yù)測(cè)模型測(cè)試集結(jié)果比較分析
評(píng)價(jià)一個(gè)預(yù)測(cè)模型的優(yōu)劣主要看其在測(cè)試集上的預(yù)測(cè)精度指標(biāo),對(duì)共享單車的需求量的預(yù)測(cè)結(jié)果進(jìn)行分析,得到基于5種預(yù)測(cè)模型的預(yù)測(cè)精度指標(biāo)對(duì)比結(jié)果(如圖4所示)。
對(duì)5種預(yù)測(cè)模型進(jìn)行對(duì)比,模型預(yù)測(cè)精度按從高到低依次排序:從測(cè)試集正確率角度來看,隨機(jī)森林>貝葉斯判別>k-近鄰>LDA>SVM;從測(cè)試集精確度角度來看,隨機(jī)森林>LDA>k-近鄰>貝葉斯判別分析>SVM;從測(cè)試集召回率角度來看,5種預(yù)測(cè)模型預(yù)測(cè)精度從高到低依次排序?yàn)镾VM>隨機(jī)森林>貝葉斯判別分析>LDA>k-近鄰;從測(cè)試集F1角度來看,隨機(jī)森林>k-近鄰>SVM>LDA>貝葉斯判別分析;從5個(gè)精度指標(biāo)的平均值角度來看,隨機(jī)森林>SVM>k-近鄰>貝葉斯判別分析>LDA;從預(yù)測(cè)模型的穩(wěn)定性角度來看,5種預(yù)測(cè)模型預(yù)測(cè)結(jié)果穩(wěn)定性程度從高到低依次為k-近鄰、LDA、隨機(jī)森林、貝葉斯判別分析、SVM。
因此綜合來看,隨機(jī)森林預(yù)測(cè)模型預(yù)測(cè)精度最高且預(yù)測(cè)結(jié)果的穩(wěn)定性較好,得到如下結(jié)論:隨機(jī)森林預(yù)測(cè)模型在共享單車需求量預(yù)測(cè)方面具有最好的效果。
4 研究結(jié)論及預(yù)測(cè)結(jié)果
4.1 研究結(jié)論
本文在對(duì)共享單車的需求波動(dòng)特征進(jìn)行系統(tǒng)梳理的基礎(chǔ)上,針對(duì)共享單車的需求波動(dòng)趨勢(shì)預(yù)測(cè)問題,把樣本分為2個(gè)部分,80%為訓(xùn)練集,20%為測(cè)試集,分別構(gòu)建LDA分析、k-近鄰、貝葉斯判別分析、隨機(jī)森林、SVM 5種預(yù)測(cè)模型。對(duì)得到的預(yù)測(cè)結(jié)果,分別利用訓(xùn)練集的正確率、精確度、召回率、F1值,以及測(cè)試集的正確率、精確度、召回率、F1值等預(yù)測(cè)結(jié)果精度指標(biāo)進(jìn)行分析,得到如下結(jié)論。
(1)對(duì)比5種預(yù)測(cè)模型在共享單車的需求波動(dòng)特征訓(xùn)練集和測(cè)試集上的預(yù)測(cè)結(jié)果,5種預(yù)測(cè)模型整體預(yù)測(cè)效果表現(xiàn)良好。
(2)在預(yù)測(cè)共享單車的需求波動(dòng)時(shí),SVM預(yù)測(cè)模型預(yù)測(cè)精度最高且具有最小的預(yù)測(cè)波動(dòng)性,隨機(jī)森林預(yù)測(cè)模型具有次高的預(yù)測(cè)精度且預(yù)測(cè)結(jié)果的穩(wěn)定性較好,但SVM 模型易出現(xiàn)過擬合現(xiàn)象。因此得到如下結(jié)論:在預(yù)測(cè)共享單車的需求波動(dòng)時(shí),隨機(jī)森林預(yù)測(cè)模型在預(yù)測(cè)共享單車的需求波動(dòng)趨勢(shì)預(yù)測(cè)方面效果最好。
4.2 隨機(jī)森林預(yù)測(cè)及結(jié)論分析
4.2.1 模型建立
將時(shí)間、共享單車需求量作為輸入變量,下一個(gè)星期的共享單車需求量作為輸出變量,建立隨機(jī)森林的預(yù)測(cè)模型,使用pycharm運(yùn)行,得出下一個(gè)星期的共享單車需求量。
4.2.2 模型求解分析
運(yùn)行代碼得出圖像如圖5所示。
由圖5可知,2019年3月25—31日的共享單車預(yù)測(cè)的需求波動(dòng)規(guī)律相同,相比3月18—24日的共享單車需求量下降的趨勢(shì),3月25—31日在上午9時(shí)左右達(dá)到第一次需求高峰時(shí)期、下午6~7時(shí)達(dá)到第二次需求高峰時(shí)期,但是整體高峰、低峰及平峰時(shí)期的共享單車需求量都比上一個(gè)星期少,由此得出下一個(gè)星期的共享單車需求量下降。通過對(duì)實(shí)際數(shù)據(jù)進(jìn)行分析得出,理論結(jié)果與實(shí)際相符。
參 考 文 獻(xiàn)
[1]宋鵬,黃同愿,劉渝橋.基于SVM的共享單車需求預(yù)測(cè)[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2019(7):187-
194.
[2]蘇影.基于數(shù)據(jù)分析的共享單車動(dòng)態(tài)調(diào)配優(yōu)化研究[D].北京:北京交通大學(xué),2019.
[3]焦志倫,金紅,劉秉鐮,等.大數(shù)據(jù)驅(qū)動(dòng)下的共享單車短期需求預(yù)測(cè)——基于機(jī)器學(xué)習(xí)模型的比較分析[J].商業(yè)經(jīng)濟(jì)與管理,2018(8):16-25,35.
[4]史越.共享單車需求預(yù)測(cè)及調(diào)度方法研究[D].北京:北京交通大學(xué),2019.