李少泉
基于紐約2016年1-6月出租車出行記錄,分析了紐約出租車行駛數(shù)據(jù),探究出租車每次行程的出行時(shí)間與出租車所在公司、乘客人數(shù)、上車日期、是否周末以及行駛距離之間的關(guān)系。
描述性分析部分,首先基于數(shù)據(jù)進(jìn)行統(tǒng)計(jì),計(jì)算出平均每天出租車出行時(shí)間、平均行駛路程、出行高峰期等數(shù)據(jù)特點(diǎn),其次利用Arcgis軟件,將所有出租車上車下車地點(diǎn)畫在紐約市地圖上,研究人們送別或迎接親朋好友的習(xí)慣。
對于出租車出行時(shí)間的預(yù)測,本文首先使用了多元線性回歸模型,再利用向前向后逐步回歸,之后引入主成分分析法,利用六個(gè)主成分回歸新的線性模型,于是進(jìn)一步改進(jìn)使用神經(jīng)網(wǎng)絡(luò)擬合,分別建立了Levenberg模型、貝葉斯模型以及量化梯度下降算法,分別都建立了有十個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)模型,效果有較大改善,平均絕對誤差分別為:286s,281s,293s。
一、數(shù)據(jù)來源及說明
數(shù)據(jù)主要來源于機(jī)器學(xué)習(xí)競賽網(wǎng)站kaggle,分析了2016年1月-6月共計(jì)145萬條紐約出租車數(shù)據(jù)。
具體如下表:
自變量:公司、開車月份、開車日期、開車幾點(diǎn)鐘、乘客數(shù)、上車經(jīng)度、上車緯度、下車經(jīng)度、下車緯度。
應(yīng)變量:行駛時(shí)長。
二、描述性分析
該部分主要是對數(shù)據(jù)進(jìn)行簡單分析處理。將145萬條數(shù)據(jù)進(jìn)行統(tǒng)計(jì)后發(fā)現(xiàn),紐約出租車每天出行平均時(shí)間為2136小時(shí),平均載客行駛直線距離為23900公里。
曼哈頓的出租車非常密集,幾乎占紐約出租車上下車的百分之九十。 注意到地圖的右下角出租車也較為密集,發(fā)現(xiàn)該地點(diǎn)為紐約最大的國際機(jī)場:肯尼迪國際機(jī)場。挑出該地的數(shù)據(jù)進(jìn)行分析。
找出飛機(jī)場的經(jīng)緯度,將所有出租車的經(jīng)緯度挑出與之計(jì)算距離,小于5公里定義為在飛機(jī)場停車的人們。
發(fā)現(xiàn),目的地是飛機(jī)場的出租車明顯少于出發(fā)地是飛機(jī)場的出租車。于是我們提出疑問,是否人們更傾向于使用使用私家車送別親朋好友,這可以是后續(xù)的研究方向。
再之后研究了工作日與周末出租車的運(yùn)行情況。發(fā)現(xiàn)周末出租車凌晨發(fā)車輛明顯高于工作日,甚至周末0點(diǎn)時(shí)出租車出發(fā)時(shí)間為全天最高,說明紐約周末夜生活很豐富。
三、數(shù)據(jù)建模
首先直接利用多元線性回歸,方程為:
得到如下結(jié)果,除了公司、乘客數(shù)以外,其他都較為顯著,模型整體p值也較小。
但返回驗(yàn)證后,平均絕對誤差為340,較大,該模型效果一般。
用向前向后逐步回歸后,得到方程為
計(jì)算后平均絕對誤差也為340,效果未得到改善。
再建立主成分分析線性模型。
方程為:
計(jì)算后平均絕對誤差為340,效果也未得到改善。
四、模型改進(jìn)
經(jīng)過研究認(rèn)為,出租車行駛時(shí)間與各個(gè)自變量之間線性關(guān)系不強(qiáng),導(dǎo)致誤差較大。又因?yàn)樯窠?jīng)網(wǎng)絡(luò)模型可以很好的回歸定量數(shù)據(jù),于是想到運(yùn)用神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn)。
主要運(yùn)用了matlab中的神經(jīng)網(wǎng)絡(luò)擬合工具箱,分別使用Levenberg模型,貝葉斯模型以及量化梯度下降算法,都建立了具有10個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)模型。
結(jié)果如下表:
五、未來研究方向
雖然最后使用的神經(jīng)網(wǎng)絡(luò)三種算法已經(jīng)明顯改進(jìn)了算法,但是由于使用的是matlab工具包,無法對模型細(xì)節(jié)進(jìn)行更多調(diào)節(jié),之后可以嘗試用python進(jìn)行算法的詳細(xì)構(gòu)建。(作者單位為北京化工大學(xué))