吳乃星,鈐建考,湯長猛,董路熙,張瑞,李燕敏,高翔
(1.中國聯(lián)通網(wǎng)絡(luò)通信有限公司深圳市分公司;2.深圳北斗應(yīng)用技術(shù)研究院有限公司)
了解人們的日常出行行為模式(例如空間位置、出行時間長短、出行順序、出行模式和活動類型)可以支持城市規(guī)劃和交通管理。因此,在過去幾年里,相關(guān)研究越來越受到關(guān)注。
各種方法用于采集人們出行數(shù)據(jù),例如GPS數(shù)據(jù)、公交和地鐵卡數(shù)據(jù),居民出行調(diào)查數(shù)據(jù)、遙感數(shù)據(jù)、信用卡交易數(shù)據(jù)等。每種數(shù)據(jù)都有其獨特優(yōu)勢,但手機數(shù)據(jù)可作為移動傳感器,實時采集居民出行數(shù)據(jù)。首先,移動蜂窩網(wǎng)絡(luò)覆蓋面廣[1]。其次,作為人們?nèi)粘I钪斜夭豢缮俚慕涣鞴ぞ?,手機通常全天都在工作,所以記錄時間長。再次,生活中手機普及率較高。除了少數(shù)買不起手機或者年紀(jì)太小以至于無法使用手機的人之外,幾乎所有城市居民都可以通過移動手機進行監(jiān)控,而無需額外的硬件成本[2]。因此,立足于數(shù)據(jù)驅(qū)動角度,手機數(shù)據(jù)在人口出行行為分析方面具有很大潛力。
海量的手機數(shù)據(jù)給預(yù)處理和特征提取帶來困難。主要困難是人們?nèi)粘3鲂心J降漠愘|(zhì)性[3]。在本文中,我們采用可視化技術(shù)從手機數(shù)據(jù)中提取有用的信息??梢暬秋@示和分析多維數(shù)據(jù)的直觀而有效的方法,有助于發(fā)現(xiàn)隱藏出行模式[4]。自2005年以來,可視化分析方法已逐漸成為研究方向。最近大數(shù)據(jù)可視化給出定義:“可視化將自動分析技術(shù)與交互式可視化相結(jié)合,以便在龐大異構(gòu)的數(shù)據(jù)集基礎(chǔ)上進行理解、推理和決策[5]”?;趫D像可視化是傳達動態(tài)信息的自然技術(shù)。動畫增加視覺可擴展性,而靜態(tài)可視化技術(shù)不能提供足夠的空間來顯示大規(guī)模數(shù)據(jù)集[6]。
國外方面,文獻[7]提出能夠識別用戶停留點的方法,以測試用戶作為實驗樣本研究出行特征和規(guī)律。文獻[8]利用手機定位數(shù)據(jù)分析居民出行特征,建立居民出行特征表和城市交通規(guī)劃模型。文獻[9]開發(fā)一種基于手機數(shù)據(jù)的智能工具,幫助政府機構(gòu)探索市民的移動規(guī)律和優(yōu)化公共交通。
國內(nèi)方面,楊飛[10]通過手機定位平面坐標(biāo)對用戶進行追蹤,獲取居民運動狀態(tài),分析活動位置的集中特征,得到出行OD數(shù)據(jù)。張新虎等[11]通過手機定位方式提取OD數(shù)據(jù),總結(jié)當(dāng)前研究中存在的問題,指出未來研究方向。扈中偉[12]利用手機數(shù)據(jù)分析居民出行特征。張惠等[13]對手機信令數(shù)據(jù)進行處理,提取用戶出行特征,評估城市總體交通水平,為交通規(guī)劃提供指導(dǎo)建議。
在本文中,我們通過以下兩種動畫分析居民出行行為:①出行OD圖,揭示出行需求的空間結(jié)構(gòu);②人口密度圖表征城市居民的連續(xù)空間分布;③人口流線圖描述大規(guī)模人口運動規(guī)律?;诖藙赢嫞覀冄芯恳韵履J剑孩俪鞘谐鲂行枨蠼Y(jié)構(gòu);②城市居民的日常動態(tài)分布;③居民聚集和消散的時空格局。居民出行行為的研究結(jié)果可為地方政府在城市交通規(guī)劃和居民出行規(guī)劃中提供幫助和借鑒。
本文模擬的手機信令數(shù)據(jù)。數(shù)據(jù)內(nèi)容主要包括用戶編號(User_ID)、時間戳(Timestamp)、經(jīng)緯度(Longi?tude、Latitude)、小區(qū)編號(Cell_ID)。
模擬原始數(shù)據(jù)中的位置數(shù)據(jù)存在重復(fù),統(tǒng)計Hash?set得到基站坐標(biāo)。通過新建ID并結(jié)合Hashtable建立位置數(shù)據(jù)與ID間的映射關(guān)系,格式為{1,(121.311212,31.472341)},并存儲為基站位置文件。
由于傳輸過程或通信系統(tǒng)的未知因素,會產(chǎn)生冗余數(shù)據(jù)。這部分?jǐn)?shù)據(jù)無法用于后續(xù)研究,主要表現(xiàn)為兩類:
一類是空行、字段缺失,數(shù)據(jù)采集的信息無法分析,因此將其刪除。
另一類是異常數(shù)據(jù),模擬原始數(shù)據(jù)中Flag字段表示記錄是否獲取手機IMSI。若Flag為001,表示為沒有獲取到手機IMSI,意味著記錄的用戶ID有誤,需將其刪除。
本文中的時間粒度是指識別用戶位置變化的最小時間間隔。因此選擇一分鐘作為時間粒度,需過濾因基站頻繁切換引起的噪聲數(shù)據(jù),同時滿足視覺連續(xù)性的要求。
本文通過三種方法研究居民出行行為:①出行OD圖,②人口密度圖,③人口流線圖。每個動畫都表征一種出行行為模式。
由于手機記錄不能反映每個基站用戶的實時數(shù)量,所以在各基站中計算用戶的相對數(shù)量?;c時間為凌晨3點。然后統(tǒng)計每個基站的用戶相對數(shù)量,統(tǒng)計規(guī)則如下:
Step1:如果用戶是以前沒有記錄的新用戶,則對應(yīng)基站的相對人數(shù)加1;
Step2:如果用戶以前已經(jīng)記錄過,那么我們應(yīng)該判斷用戶是移動到基站還是留在基站。以下的條件將被判斷;
Step3:如果用戶進入,則前基站的用戶數(shù)減1。如果是停留,基站的用戶數(shù)量保持不變。
出行OD圖反映基站間的出行需求。為了盡可能簡化呈現(xiàn)元素,畫面由連線和圓圈組成。每條連線代表從出發(fā)地到目的地的人口轉(zhuǎn)移行為。線段權(quán)重代表轉(zhuǎn)移人數(shù)。圓心是以基站經(jīng)緯度為中心,圓圈大小代表基站小區(qū)的當(dāng)前用戶數(shù)量。
圖1
我們可以發(fā)現(xiàn)居民聚集過程。出行開始時間是在上午7點30分。上午9:30之前,大量居民涌入城市中心和分中心。當(dāng)城市中心傾向于飽和時,聚集現(xiàn)象消息在上午11點。
城市主要走廊將城市主要中心與分中心及其周邊地區(qū)連接起來。分中心周圍也可以看到聚集現(xiàn)象,主要是由于分中心有交通樞紐來轉(zhuǎn)移區(qū)域居民。
密度圖展示人口密度時空分布。模擬手機數(shù)據(jù)只能提供各基站小區(qū)的人口總數(shù),為了刻畫人口密度在時空上的連續(xù)變化,我們對基站的人口密度數(shù)據(jù)進行高斯濾波平滑,得到時空連續(xù)的人口密度圖。
平滑方法:按照相對人數(shù)的統(tǒng)計方法,得到各基站的相對人數(shù)Ci,t,即第i個基站t時刻的相對人數(shù)。PXi和Pyi表示第i個基站在地圖中的位置。本文使用二維高斯低通濾波方法,對各基站小區(qū)離散人數(shù)進行平滑處理。高斯濾波器結(jié)構(gòu)如下:
圖2
傳輸網(wǎng)絡(luò)圖表示了人口在不同區(qū)域之間的移動,呈現(xiàn)人口移動的完整網(wǎng)絡(luò),因此引入了人口流動矢量場圖。
首先將地圖分成900個格點作為控制點,其中控制點包含中心點,再以30×30網(wǎng)格頂點為中心點,得到控制點。然后將密度圖按照十分鐘的時間間隔進行時間差分,得到城市人口密度變化量圖。最后求出各差值點到各控制點的梯度:
用箭頭長短和顏色表示grad(xi,yi)的大小,箭頭的方向表示grad(xi,yi)的方向,得到網(wǎng)格化的人口流線圖。
按照向量圖的方法,以控制點為起點畫出相應(yīng)的向量。此時的向量我們只用長短代表人流的大小,顏色不變。得到向量的終點后,計算個向量終點處的梯度,再以終點為起點畫出相應(yīng)的向量,并保持一定的時間間隔,這樣便刻畫出流線的效果。
最后對人流較大的地方,按照一定概率隨機增加一些向量,形成線簇,來豐富流線的線條。這個概率與該處梯度大小成正比。流線圖繪制的線條不再是單一的直線,而是細(xì)小的線段。細(xì)小的線段首位相連形成流線的效果。
通過人口密度圖和人口流線圖可研究城市各區(qū)域出行需求狀況。研究居民的聚集和消散模式,定性分析居民出行狀況。
圖3
聚集過程:從上午8:00到中午12:00,人口出現(xiàn)了聚集的現(xiàn)象。從上午8:00開始人口從各個方向聚集到城市中心。8:30-11:30人口聚集速度最快,11:30點之后人口聚集速度有較大幅度回落,12:30聚集過程結(jié)束。
消散過程:從下午5:00到晚上11:30,出現(xiàn)人口外流情況,與上午正好相反的過程。
可視化是一種新興技術(shù),適合從大數(shù)據(jù)中提取居民出行行為特征。本文采用三種可視化方法,揭示出行需求的空間結(jié)構(gòu)和刻畫城市居民出行行為模式。基于手機數(shù)據(jù)的人口出行行為分析研究表明,可視化方法有助于政府制定合理的城市規(guī)劃方案。