沈麗娜+程介虹+馮丹
【摘要】 城市化促進(jìn)了社會(huì)經(jīng)濟(jì)的發(fā)展,同時(shí)為人們提供了方便,但也帶來了交通擁堵、出行耗時(shí)長等問題。為了了解出行情況,緩解交通問題,交通管理部門將越來越多的傳感設(shè)備安裝在出租車上,如GPS等。利用GPS設(shè)備采集得到了大量出租車載客數(shù)據(jù)。由于得到的出租車載客數(shù)行建模,建模的目的是為了利用數(shù)據(jù)處理軟件將復(fù)雜且量大的數(shù)據(jù)用圖形表示,可以更直觀的看到居民的出行,利用這種方法改善交通擁擠的問題從而優(yōu)化交通,為人們的出行提供方便。
【關(guān)鍵詞】 出租車軌跡 R語言 數(shù)據(jù)分析 數(shù)據(jù)建模
一、設(shè)計(jì)內(nèi)容
在本設(shè)計(jì)中我們將利用GPS設(shè)備得到出租車的在載客數(shù)據(jù),在得到的數(shù)據(jù)非常的復(fù)雜,而且數(shù)量非常的大,在對(duì)數(shù)據(jù)進(jìn)行分析之前,要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,把不合適的數(shù)據(jù)進(jìn)行數(shù)據(jù),之后找到數(shù)據(jù)之間的關(guān)系,對(duì)數(shù)據(jù)分析和建模。
二、本設(shè)計(jì)的組織結(jié)構(gòu)
(1)出租車軌跡數(shù)據(jù)分析和處理。在得到出租車的數(shù)據(jù)時(shí),通過對(duì)軌跡數(shù)據(jù)的分析,在對(duì)數(shù)據(jù)的采集的情況下,由于可能因?yàn)橥饨绲囊蛩?,造成?shù)據(jù)的采集出現(xiàn)問題,因此在數(shù)據(jù)處理之前要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將不合適的數(shù)據(jù)進(jìn)行刪除或者修改。
(2)搜索和可視化。在數(shù)據(jù)導(dǎo)入時(shí),完成了對(duì)數(shù)據(jù)的分析和處理,之后通過R語言軟件對(duì)數(shù)據(jù)進(jìn)行匯總統(tǒng)計(jì)和繪圖,數(shù)據(jù)更好的理解是為之后正確的建模做準(zhǔn)備。
(3)分析和建模。在使用匯總統(tǒng)計(jì)和圖形能更好的幫助我們理解數(shù)據(jù),但他們有一定的局限性。統(tǒng)計(jì)數(shù)據(jù)不能告訴你數(shù)據(jù)的形狀,而圖形不能擴(kuò)展到多個(gè)變量,他們?cè)跀?shù)量上也不能擴(kuò)展,而且統(tǒng)計(jì)數(shù)據(jù)和圖形都不能從數(shù)據(jù)中預(yù)測什么,所以通過建模,對(duì)相關(guān)數(shù)據(jù)進(jìn)行定量判斷而做出預(yù)測,構(gòu)建可視化圓形系統(tǒng),實(shí)現(xiàn)出租車軌跡數(shù)據(jù)的可視化分析。
三、數(shù)據(jù)來源及基本特征
數(shù)據(jù)的來源很多,R內(nèi)置有很多數(shù)據(jù)集而在其他的附件包中能找到更多的數(shù)據(jù),在本設(shè)計(jì)中的數(shù)據(jù)時(shí)利用GPS設(shè)備,將GPS設(shè)備安裝在各個(gè)出租車上,將采集得到城市出租車的載客的數(shù)據(jù),其中可以采集得到一個(gè)固定地點(diǎn)的出租車的載客數(shù)據(jù),也可以得到在流動(dòng)的地點(diǎn)的出租車的載客數(shù)據(jù),以及在同一個(gè)時(shí)間的不同出租車的載客數(shù)據(jù),一個(gè)出租車的在不同時(shí)間的相同地點(diǎn)的運(yùn)行狀態(tài)。
四、數(shù)據(jù)處理結(jié)果
4.1 k-means算法
k-means算法有k個(gè)輸入量;然后將n個(gè)數(shù)據(jù)對(duì)象劃分為k個(gè)聚類以便使得所獲得的聚類滿足:同一聚類中的對(duì)象相似度較高;而不同聚類中的對(duì)象相似度較小。聚類相似度是利用聚類中各個(gè)對(duì)象的均值來獲得一個(gè)中心的對(duì)象,以及來計(jì)算中心對(duì)象的坐標(biāo)。
k-means算法的工作過程說明如下:首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇 k 個(gè)對(duì)象作為初始聚類中心;而對(duì)于所剩下其它對(duì)象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計(jì)算每個(gè)所獲新聚類的聚類中心(該聚類中所有對(duì)象的均值);不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測度函數(shù). k個(gè)聚類具有以下特點(diǎn):各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。
4.2模型的建立
假設(shè)給定數(shù)據(jù)集X={,i=1,2,,4…n}其中還有m個(gè)樣本描述。
K個(gè)聚類中心分別為
兩樣本之間的歐氏距離為d( )=
再有評(píng)價(jià)準(zhǔn)則函數(shù)T=
最后得到k個(gè)聚類中心
4.3模型求解
根據(jù)出租車載客的數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行分析,篩選出擁擠的路段和時(shí)段,而擁擠的標(biāo)準(zhǔn)可以自己設(shè)定,根據(jù)整個(gè)蘭州城市的交通考慮,給出擁擠的標(biāo)準(zhǔn)和時(shí)間段,根據(jù)所有數(shù)據(jù)通過excel篩選出需要的時(shí)間段,并對(duì)數(shù)據(jù)進(jìn)行分析,根據(jù)excel篩選出的數(shù)據(jù)應(yīng)用matalb仿真軟件對(duì)在確定的時(shí)間段畫出速度圖,根據(jù)速度的大小標(biāo)準(zhǔn)來確定交通的擁擠狀況。
五、結(jié)論
在周末節(jié)假日的出租車的全天的任務(wù)量,載客的距離(任務(wù)量),運(yùn)營時(shí)間,明顯的高于平常,因此城市的相關(guān)部門應(yīng)該對(duì)數(shù)據(jù)分析,找到合適的出租車的調(diào)度,和運(yùn)行措施來減少出租車的空駛,提高出租車的運(yùn)行比率,以及減少出租車的空駛浪費(fèi)。來解決群眾上下班時(shí)段一車難求、高峰時(shí)段還常遇拒載、等問題,同時(shí)群眾可以根據(jù)分析得到的數(shù)據(jù)進(jìn)行分析,自己選擇相應(yīng)的出行方式與時(shí)間。
總結(jié):本設(shè)計(jì)采用數(shù)據(jù)分析及處理,在將得到的GPS軌跡數(shù)據(jù)進(jìn)行分析,處理,借助可視化的方法,利用地圖匹配,matalb軟件,R語言軟件對(duì)數(shù)據(jù)進(jìn)行分析,在不同的時(shí)間段內(nèi),人們的出行狀況,以及在不同地方交通的狀況,交通潛在的規(guī)律及其特征進(jìn)行分析,在所得到數(shù)據(jù)很難看到這個(gè),所以利用這些軟件對(duì)數(shù)據(jù)可視化分析,分析得到的結(jié)果可以直觀的看到出租車的變規(guī)律,為人們的出行提供更方便的條件。
參 考 文 獻(xiàn)
[1]李釗,彭勇,謝豐等.信息物理系統(tǒng)安全威脅與措施.清華大學(xué)校報(bào),2012.
[2]黎作鵬,張?zhí)祚Y,張菁.信息物理融合系統(tǒng)研究綜述.哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院.2011.