許洪波 許金輝
(北京億陽信通科技有限公司,北京 100093)
基于手機(jī)信令的空間位置數(shù)據(jù)計(jì)算職住地
許洪波 許金輝
(北京億陽信通科技有限公司,北京 100093)
通過手機(jī)信令數(shù)據(jù)提取人們?cè)谑褂檬謾C(jī)時(shí)記錄下來的基站位置和服務(wù)時(shí)間,用以識(shí)別居民出行的職業(yè)地和居住地。在分析提取到的手機(jī)信令數(shù)據(jù)時(shí),由于數(shù)據(jù)采集、整合的質(zhì)量問題,需要對(duì)手機(jī)信令數(shù)據(jù)進(jìn)行提取、清洗、關(guān)聯(lián)等預(yù)處理,在預(yù)處理后的標(biāo)準(zhǔn)化數(shù)據(jù)的基礎(chǔ)上,通過搭建數(shù)學(xué)算法、模型來識(shí)別職業(yè)地和居住地,用以輔助城市交通調(diào)查、規(guī)劃。
手機(jī)信令 職業(yè)地 居住地 交通調(diào)查 交通規(guī)劃
近年來,隨著定位技術(shù)、互聯(lián)網(wǎng)技術(shù)和移動(dòng)通訊技術(shù)的不斷發(fā)展以及政府在數(shù)據(jù)開放、共享上的政策推動(dòng),人們迎來了“大數(shù)據(jù)時(shí)代”[1]。至2015年10月,中國(guó)移動(dòng)電話用戶規(guī)模突破13億[2],手機(jī)已經(jīng)成為了人們?nèi)粘I畹谋匦杵?。在出行群體中的手機(jī)擁有率和使用率已達(dá)到較高比例。在人們使用手機(jī)接打電話、收發(fā)短信、上網(wǎng)瀏覽網(wǎng)頁等行為時(shí),就會(huì)記錄下來手機(jī)所在的基站位置和服務(wù)時(shí)間。手機(jī)大數(shù)據(jù)使得我們獲取大量動(dòng)態(tài)的、帶有精準(zhǔn)時(shí)空信息的個(gè)人數(shù)據(jù)成為可能,為關(guān)注個(gè)人的時(shí)空間行為提供了重要的契機(jī)和數(shù)據(jù)基礎(chǔ),同時(shí)深刻影響著居民的生活方式和學(xué)者的研究范式,在交通規(guī)劃領(lǐng)域掀起了手機(jī)信令數(shù)據(jù)研究的一次熱潮。
通過海量手機(jī)信令數(shù)據(jù)分析,構(gòu)建數(shù)學(xué)模型、算法,可掌握城市居民的職住地出行的往返特征,為城市交通規(guī)劃研究提供了一種全新的數(shù)據(jù)獲取技術(shù)方法。本文結(jié)合廈門市手機(jī)信令數(shù)據(jù)與城市交通規(guī)劃的大數(shù)據(jù)研究,闡述了手機(jī)信令數(shù)據(jù)的基本處理流程和職業(yè)地與居住地的識(shí)別算法。
2.1 信令數(shù)據(jù)
研究采用的手機(jī)信令數(shù)據(jù)是一種典型的手機(jī)大數(shù)據(jù),它通過數(shù)量龐大的基站連續(xù)不斷地追蹤手機(jī)用戶的位置、狀態(tài)等信息,實(shí)現(xiàn)對(duì)居民活動(dòng)比較全面完整的記錄。與傳統(tǒng)數(shù)據(jù)和其它大數(shù)據(jù)相比,手機(jī)信令數(shù)據(jù)的突出價(jià)值在于近似全面樣本性、全時(shí)性,以及借助定位基站而附帶的時(shí)空間信息,因此在研究城市交通規(guī)劃上最切合需求。
手機(jī)信令數(shù)據(jù)主要包括四個(gè)信息:
(1)匿名用戶編號(hào)MSS:可以理解為手機(jī)用戶的ID;
(2)時(shí)問戳:記錄了信令事件的發(fā)生時(shí)問;
(3)基站小區(qū)編號(hào):信令事件發(fā)生時(shí)所在的基站小區(qū);
(4)信令事件類型:記錄了用戶手機(jī)行為屬性,如掛機(jī)、發(fā)短信、接短信、主叫、被叫、正常位置更新、小區(qū)切換等。
2.2 數(shù)據(jù)預(yù)處理
對(duì)手機(jī)信令數(shù)據(jù)進(jìn)行清洗,剔除異常數(shù)據(jù),主要的數(shù)據(jù)處理過程:
(1)數(shù)據(jù)表的整理主要是將信令的原始txt文件的幾個(gè)表數(shù)據(jù),經(jīng)過關(guān)聯(lián)處理,整理成如下結(jié)構(gòu)的規(guī)則如表1:
表1 數(shù)據(jù)整理規(guī)則表
續(xù)表1
(2)刪除重復(fù)數(shù)據(jù)的方法是基于表1:
1)以IMSI分組,按ODATE及OTIME升序排序;
2)遍歷數(shù)據(jù),以IMSI分組,找出經(jīng)緯度坐標(biāo)相同的連續(xù)記錄塊;
3)對(duì)于相同IMSI的一組連續(xù)的記錄塊,將第一條記錄的DDATE和DTIME替換為最后一條記錄的DDATE和DTIME,保留第一條記錄,刪除其余記錄;
4)處理完所有連續(xù)記錄塊后,根據(jù)每條記錄離開時(shí)間與進(jìn)入時(shí)間之差,計(jì)算停留時(shí)長(zhǎng)STAY;
5)全月數(shù)據(jù)整體處理,不按日期分割,需要注意不同日期交接處的數(shù)據(jù)處理,以及停留時(shí)間的計(jì)算。
(3)剔除無效切換的數(shù)據(jù)過程如下:
1)針對(duì)同一IMSI編號(hào),順次選取三條記錄(第n-1條、第n條、第n+1條),如果第n-1條記錄與第n+1條記錄坐標(biāo)相同,且與第n條記錄不同,則標(biāo)記第n條記錄為一條乒乓記錄;例如:CABABABAD標(biāo)黃的部分為重復(fù)組,紅字表示乒乓記錄,這個(gè)情況屬于具有5條乒乓記錄的重復(fù)組。
2)對(duì)于只有一條乒乓記錄的重復(fù)組(CABAD),考慮兩點(diǎn)間的距離和事件發(fā)生的時(shí)間。首先,計(jì)算第n條記錄的穿越速度(Dn/TSn),當(dāng)?shù)趎條記錄與第n+1條記錄距離小于1km時(shí),穿越速度如果大于步行平均速度(6km/h),則第n條記錄坐標(biāo)修改為第n-1條記錄的坐標(biāo);否則不作修改。其次,以記錄時(shí)刻為依據(jù),將凌晨02:00:00-06:00:00來回切換的數(shù)據(jù)(指其中的B記錄的time1或time2落在該時(shí)段內(nèi)),直接替換為相鄰坐標(biāo)。
3)對(duì)于大于等于兩條乒乓記錄的重復(fù)組(CABABD以及CABABAD),將第一個(gè)乒乓記錄坐標(biāo)替換為其相鄰的記錄坐標(biāo),一個(gè)重復(fù)組內(nèi)沿用相同規(guī)則進(jìn)行替換,不再依次進(jìn)行判斷。
4)遍歷結(jié)束后重復(fù)步驟2。
(4)標(biāo)識(shí)停留點(diǎn)
完成前三步驟的數(shù)據(jù)處理后,根據(jù)每條記錄的STAY字段,篩選出大于等于30min的記錄,為所有用戶的停留點(diǎn),標(biāo)識(shí)為1
職住出行是指從家(居住地)中往返工作地點(diǎn)的出行過程,職住出行是城市居民最基本和最重要的出行,相對(duì)于其他出行,職住出行在時(shí)間和空間上具有更大的規(guī)律性,其時(shí)間安排直接影響城市居民其他活動(dòng)和出行的選擇。特別是隨著城市進(jìn)程加快,城市擴(kuò)張迅速,導(dǎo)致居民就業(yè)范圍的擴(kuò)大,職住出行的距離、時(shí)間不斷增加,使得職住出行日益復(fù)雜。因此,有必要對(duì)居民的職住出行特征進(jìn)行全面的分析研究,掌握職住出行的規(guī)律,改善出行的交通環(huán)境,為城市交通規(guī)劃研究提供數(shù)據(jù)支撐。
(1)居住地識(shí)別的主要算法過程:
1)根據(jù)居民的生活及休息時(shí)間的特征判定絕大多數(shù)居民,在所觀測(cè)時(shí)間段內(nèi)(22:00-6:00),都處于休息、睡眠狀態(tài)。在這段時(shí)間,居民應(yīng)該主要停留在居住地,因此,我們可以計(jì)算居民在每個(gè)停留點(diǎn)的相對(duì)停留時(shí)間,作為識(shí)別居民居住地的指標(biāo)。樣本i在停留點(diǎn)j的相對(duì)停留時(shí)間為:
3)針對(duì)每一個(gè)居民,我們選取使得P取值最大的j作為居民的居住地,即:
4)表2給出了7個(gè)樣本的前5個(gè)P的取值(按照由大到小排列),我們可以發(fā)現(xiàn),通常每個(gè)用戶的最大相對(duì)停留時(shí)間要遠(yuǎn)大于其他相對(duì)停留時(shí)間。
表2 相對(duì)停留時(shí)間表
按照這種方法,我們能夠?qū)⑺杏脩舻木幼〉刈R(shí)別出來。但是,這種方法忽視了上夜班或者作息不規(guī)律的一部分人,可能將其工作地錯(cuò)誤地識(shí)別為居住地。但考慮到此類情況在居民中所占比例不大,利用大數(shù)據(jù)大樣本的優(yōu)勢(shì),這種方法在一定誤差范圍內(nèi)也能夠被接受。以廈門市的移動(dòng)運(yùn)營(yíng)商的數(shù)據(jù)為數(shù)據(jù)源,識(shí)別出來的居住地可視化圖(圖1)。
(2)職業(yè)地的識(shí)別:
根據(jù)居民的生活及上班的時(shí)間特征,從預(yù)處理的數(shù)據(jù)中提取平均停留時(shí)間和平均信令條數(shù)大于一定的閾值的數(shù)據(jù),識(shí)別某地是工作地或是非工作地,計(jì)算過程分為以下3步:
1)根據(jù)時(shí)間截取數(shù)據(jù):提取原始數(shù)據(jù)中工作日(周一到周五)每天上午9點(diǎn)到下午5點(diǎn)之間的數(shù)據(jù)work_data;
2)根據(jù)步驟(1)得到work_data,計(jì)算每個(gè)經(jīng)緯度點(diǎn)的累計(jì)停留時(shí)間,累計(jì)信令天數(shù)及該經(jīng)緯度點(diǎn)出現(xiàn)的天數(shù);
3)根據(jù)步驟(2)結(jié)果計(jì)算每個(gè)經(jīng)緯度點(diǎn)的特征值:
a)平均停留時(shí)間=累計(jì)停留時(shí)間/出現(xiàn)天數(shù)
b)平均信令條數(shù)=累計(jì)信令條數(shù)/出現(xiàn)天數(shù)
通過設(shè)置平均停留時(shí)間和平均信令條數(shù)的閾值,識(shí)別為工作地,以廈門市移動(dòng)運(yùn)營(yíng)商的數(shù)據(jù)為數(shù)據(jù)源,識(shí)別出來的職業(yè)地?zé)崃D,見圖2。
本文通過手機(jī)信令數(shù)據(jù),構(gòu)建數(shù)學(xué)模型計(jì)算職住地,所得結(jié)果經(jīng)與城市交通調(diào)查的數(shù)據(jù)成果對(duì)比,一致率達(dá)到90%,所得結(jié)果與實(shí)際調(diào)查結(jié)果極為接近,成果可信度高。
本文的研究成果可用于交通規(guī)劃的通勤特征分析,如通勤距離、通勤時(shí)間、職住特征等研究,這是本文后續(xù)的研究方向。
[1] 柴彥威.大數(shù)據(jù)研究需“以人為本”[J].城市規(guī)劃學(xué)刊,2015,(3):4-4.
[2] 中華人民共和國(guó)工業(yè)和信息化部.2015年通信運(yùn)營(yíng)業(yè)統(tǒng)計(jì)公報(bào)[EB/OL].2016[2016-01-21]. http://www.miit.gov.cn/n1146290/n1146402/n1146455/c4611243/content.html.
[3] 張?zhí)烊?,基于手機(jī)信令數(shù)據(jù)的上海市域職住空間分析 [J].城市交通,2016,(1):15-22.
[4] 楊超,張玉梁,張帆,基于手機(jī)話單數(shù)據(jù)的通勤出行特征分析-以深圳市為例 [J].城市交通.(1):30-36.
[5] 王德,王燦,謝棟燦等,基于手機(jī)信令數(shù)據(jù)的上海市不同等級(jí)商業(yè)中心商圈的比較-以南京市東路、五角場(chǎng)、鞍山路為例 [J].城市規(guī)劃學(xué)刊,2015,(3):50.
[6] 汪光燾,大數(shù)據(jù)時(shí)代城市交通學(xué)發(fā)展的機(jī)遇 [J].城市交通,2016,(1):01-07.
Calculation of Spatial Position Data Based on Mobile Phone Signaling Work and Live
XU Hong-bo,XU Jin-hui
(Beijing Boco Inter-Telecom, Beijing 100093, China)
Using the mobile phone signaling data to extract the location of the base station and the service time recorded when the mobile phone is used to identify the occupation and residence of the residents. In analysis to extract the cellular signaling data, due to the data acquisition, the integration of quality problems and need of cellular signaling data extracting, cleaning and relatedpre processing, in the standardization data preprocessing based, through building the mathematical model and algorithm, to identify occupation and residence, to assist urban traffic survey and planning.
mobile phone signaling; work place; place to live; traffic investigation; traffic planning
2016-05-13
P208
B
1007-3000(2016)06-4