包 婷,章志剛,金澈清
(華東師范大學(xué) 數(shù)據(jù)科學(xué)與工程研究院 上海市高可信計算重點實驗室,上海 200062)
信息技術(shù)的高速發(fā)展加速了城市化進程.在此過程中,城市人口的劇增也加大了城市管理難度,例如交通壓力、就業(yè)壓力等.由于地區(qū)間經(jīng)濟發(fā)展不均衡,城市內(nèi)部各區(qū)域的功能分工各有不同,導(dǎo)致城市內(nèi)部人口會大量流動.受限于地理和社交等因素,人們的行為往往呈現(xiàn)出規(guī)律性[1-3],就是人們在工作地和居住地的周期性位置變遷[4].通過分析人口流動行為以及居民工作地和居住地等信息,有助于優(yōu)化社會資源分配,應(yīng)對交通壓力、維護社會公共治安.
長期以來,人口流動行為研究往往采用如現(xiàn)場觀察調(diào)查、問卷調(diào)查、座談訪談等人工手段,成本高昂且效率不高.隨著智能手機的不斷發(fā)展與普及,海量的手機軌跡數(shù)據(jù)為研究城市人口流動行為提供了一種新方法.在各大城市中,各個移動通訊運營商均布置了多個基站.當用戶接聽/撥打電話、收發(fā)短信或者使用數(shù)據(jù)通訊服務(wù)時,就會生成基站連接記錄,產(chǎn)生海量的手機數(shù)據(jù).手機軌跡數(shù)據(jù)不僅數(shù)量龐大,而且質(zhì)量低下.基站類型多樣,包括微站、宏站、直放站和射頻拉遠站,覆蓋范圍從幾百米到幾千米不等.而定位精度很大程度上依賴于基站的分布密度及其覆蓋范圍的大小,在不同區(qū)域,基站的分布密度差異顯著.例如市中心區(qū)域的基站密度遠高于郊區(qū)的基站密度.此外,基站跳變也會極大地影響手機軌跡數(shù)據(jù)的質(zhì)量;換言之,如果用戶所處位置恰巧處于多個基站的服務(wù)范圍之內(nèi),當用戶稍微移動位置甚至固定在某個地方時,手機也會在多個基站間切換連接,而我們使用手機與基站連接日志記錄來判定用戶的移動軌跡,這就導(dǎo)致難以真正判定用戶的真實位置.
盡管手機定位數(shù)據(jù)是離散和稀疏的,但利用手機數(shù)據(jù)仍然可以對人們的行為進行高精度的預(yù)測[5].該結(jié)論為利用手機數(shù)據(jù)研究城市人口流動提供了理論前提.現(xiàn)有工作大都是針對集中式環(huán)境,無法直接應(yīng)用于海量數(shù)據(jù)環(huán)境.為此,本文提出了一種基于Map/Reduce的分布式框架來對城市人口流動行為進行研究分析,具有較好的執(zhí)行效率和可擴展性.本文利用運營商提供的海量手機軌跡數(shù)據(jù),對手機用戶在城市的流動行為進行分析和挖掘,同時對數(shù)據(jù)進行了模糊化處理以滿足用戶的隱私保護需求,并建立了多個模型,包括進出城市的人口流動行為分析模型、市內(nèi)各區(qū)縣間的人口流動行為分析模型,特別地,對區(qū)縣間流動行為建立了居民工作地居住地流動行為分析模型.這些模型為更好地了解用戶特征,分析城市人口流動提供了可能.
近年來,已有不少工作針對手機軌跡數(shù)據(jù)研究用戶的行為模式.文獻[7]將OD(Origin-Destination,起止)矩陣作為輸入,從手機軌跡數(shù)據(jù)中提取用戶起止點信息.文獻[8]將移動手機流量關(guān)聯(lián)到交通流量,設(shè)計GSM(Global System for Mobile Communication)網(wǎng)絡(luò)模擬器來模擬從電話網(wǎng)絡(luò)中提取出的網(wǎng)絡(luò)數(shù)據(jù),將數(shù)據(jù)處理后轉(zhuǎn)化成OD矩陣,從而判定出移動行為的起始地點.文獻[9]將基站的連接記錄與交通流量相結(jié)合,建立OD矩陣,從而進一步分析用戶軌跡.文獻[10]從手機數(shù)據(jù)中提取用戶每天位置軌跡并轉(zhuǎn)化為活動序列,將序列進行分類得到用戶活動的轉(zhuǎn)移模式.文獻[11]利用近百萬條手機數(shù)據(jù)提取用戶行為模式并分析不同用戶工作地間的相關(guān)性.文獻[12]利用聚類、回歸的方法分析匿名化的手機數(shù)據(jù),根據(jù)用戶稀疏的位置信息發(fā)現(xiàn)有意義的重要位置如工作地、居住地.海量的手機數(shù)據(jù)為分析人們行為提供了可能,文獻[13]利用手機軌跡數(shù)據(jù)挖掘用戶異常聚集活動,如異常的社會活動的發(fā)現(xiàn).文獻[14]將手機數(shù)據(jù)與推薦系統(tǒng)相結(jié)合,挖掘用戶行為模式并向用戶推薦感興趣的社會活動.
文獻[15]利用實時采集的移動手機數(shù)據(jù)分析城市交通狀況、預(yù)測行人活動序列.社會經(jīng)濟水平可以反映出人們住房、教育、健康以及其他基礎(chǔ)服務(wù)情況,文獻[16]利用手機數(shù)據(jù)聚類分析后的信息來確定社會經(jīng)濟水平,并利用SVM和隨機森林模型來預(yù)測社會經(jīng)濟水平.有很多研究利用手機數(shù)據(jù)對交通流量進行評估,但這些研究往往忽視了每輛車可能有多個手機的情況,文獻[17]利用聚類的方法判定同一輛車中是否有多臺手機,從而利用手機數(shù)據(jù)確定車速、車輛密度等,并對高速公路交通流量作出更精確評估.
由于手機軌跡數(shù)據(jù)數(shù)量龐大且質(zhì)量低下,同時為了不泄露用戶隱私,移動運營商往往會將用戶手機軌跡數(shù)據(jù)進行模糊處理,這些給相關(guān)研究帶來了很大的挑戰(zhàn).本文針對城市人口流入流出行為展開研究,利用手機軌跡數(shù)據(jù)發(fā)現(xiàn)用戶行為模式,并挖掘用戶工作地、居住地信息,為今后的研究提供了一種新思路.
本節(jié)介紹系統(tǒng)的框架結(jié)構(gòu),如圖1所示.
圖1 系統(tǒng)框架結(jié)構(gòu)Fig.1 System architecture
構(gòu)建人口流動分析平臺需要使用以下數(shù)據(jù):基站連接日志數(shù)據(jù)、基站信息數(shù)據(jù)、用戶注冊信息.基站連接日志數(shù)據(jù)描述了用戶每一次手機連接基站的情況,包括:手機設(shè)備號、連接起始時間、連接基站號、連接扇區(qū)號、手機開關(guān)機狀態(tài)、加載時間等字段.基站數(shù)據(jù)描述了基站的基礎(chǔ)信息,包括:基站ID、地理位置、GPS坐標、所在行政區(qū)等.用戶注冊信息包括:用戶身份證號碼、姓名、手機號、性別、出生年月等.
為了保護用戶隱私和移動運營商的隱私,在發(fā)布使用數(shù)據(jù)時,本文對這兩部分數(shù)據(jù)進行了隱私保護.對于用戶注冊信息,隱匿了身份證號碼和姓名,且對其手機號和基站連接日志中的手機號使用了一致的加密手段.為了保護移動運營商的基站信息,對基站位置在不影響功能分析的基礎(chǔ)上做了位置修正.
系統(tǒng)架構(gòu)在設(shè)計上采用分布式、分層結(jié)構(gòu),包括大數(shù)據(jù)管理層、業(yè)務(wù)邏輯層、應(yīng)用支撐層、界面展示層4層結(jié)構(gòu).
大數(shù)據(jù)管理層使用HBase、Hive、Pig、ZooKeeper來管理基站連接日志.Hadoop集群上使用MapReduce框架來執(zhí)行任務(wù),數(shù)據(jù)庫使用HBase,數(shù)據(jù)倉庫使用Hive,并使用Pig語言來簡化Hadoop工作任務(wù),使用Zookeeper進行集群內(nèi)的協(xié)作服務(wù).
業(yè)務(wù)邏輯層利用數(shù)據(jù)管理層對手機數(shù)據(jù)分析處理后輸出的數(shù)據(jù),建立分析模型,包括城市間人口流動模型、區(qū)縣間人口流動模型、居住地分析模型、工作地分析模型.針對這四個模型,對數(shù)據(jù)進行分析處理,訓(xùn)練出相應(yīng)的特征,這些特征可用來表示城市人口在城市間、各區(qū)縣間、居住地/工作地這三個層次的流動情況.
后臺開發(fā)框架使用集成的Structs.Struts采用Java Servlet/JSP技術(shù),開發(fā)Web應(yīng)用程序的開放源碼的框架.數(shù)據(jù)庫主要用來存儲后臺分析好的結(jié)果,本項目采用MySQL數(shù)據(jù)庫,MySQL是開源數(shù)據(jù)庫且體積小、速度快、適用于快速部署.后臺處理程序使用Java/Python語言編寫,負責處理前端發(fā)過來的請求,并從大數(shù)據(jù)平臺獲取分析結(jié)果,存放到數(shù)據(jù)庫中.系統(tǒng)通過創(chuàng)建腳本文件并將文件加入到任務(wù)計劃中,實現(xiàn)周期性更新數(shù)據(jù).
界面展示層用來與用戶進行交互,并展示系統(tǒng)分析結(jié)果.網(wǎng)頁效果設(shè)計采用的主要是Flash技術(shù),使用Flash技術(shù)可以創(chuàng)作出可改變尺寸的導(dǎo)航界面以及其他奇特的效果.本項目采用Flash技術(shù)的主要原因是可以自定義開發(fā),開發(fā)周期短,圖形和動畫效果豐富,并且Flash使用向量運算的方式,產(chǎn)生出來的文件占用存儲空間較小.系統(tǒng)使用JSON+XML技術(shù)來獲取數(shù)據(jù)庫中的數(shù)據(jù).
大數(shù)據(jù)管理使用Hadoop這一開源平臺來實現(xiàn).如圖2[18]所示,該平臺集成了HBase、Hive、Pig、Zookeeper等實用工具,方便了用戶對數(shù)據(jù)的管理和操作.HBase是Hadoop的數(shù)據(jù)庫,能夠?qū)Υ髷?shù)據(jù)提供隨機、實時的讀寫訪問功能,是一個高可靠、高性能、面向列、可伸縮的分布式存儲系統(tǒng).HBase存儲的數(shù)據(jù)從邏輯上來看就像一張很大的表,并且它的數(shù)據(jù)列可以根據(jù)需要動態(tài)地增加.Hive是一個基于Hadoop文件系統(tǒng)之上的數(shù)據(jù)倉庫架構(gòu).它為數(shù)據(jù)倉庫的管理提供了許多功能:數(shù)據(jù)ETL(抽取、轉(zhuǎn)換和加載)工具、數(shù)據(jù)存儲管理和大型數(shù)據(jù)集的查詢和分析能力.同時,Hive定義了類SQL的語言——Hive QL.Hive QL允許用戶進行和SQL相似的操作,還允許開發(fā)人員方便地使用map和reduce操作,這對Map/Reduce框架是一個強有力的支持.Hive本身建立在Hadoop的體系架構(gòu)上,可將外部命令解析成一個Map/Reduce可執(zhí)行計劃.Pig為大型數(shù)據(jù)集的處理提供了更高層次的抽象,它提供了一套強大的數(shù)據(jù)變換操作,這些操作整體上描述了一組數(shù)據(jù)流到另一組數(shù)據(jù)流的轉(zhuǎn)換,而這些轉(zhuǎn)換操作被轉(zhuǎn)換成一系列的Map/Reduce作業(yè),這樣一來使得程序員僅僅需要編寫簡單的腳本代碼,就能輕松處理TB級的數(shù)據(jù)集[18].此外,Pig和Hive還為HBase提供了高層語言支持,使得在HBase上進行數(shù)據(jù)統(tǒng)計處理變得非常簡單.
圖2 大數(shù)據(jù)管理的技術(shù)框架Fig.2 Technical architecture of data management
為方便各種分析任務(wù)對用戶信息和基站信息的實時查詢,本系統(tǒng)將用戶的注冊信息和和基站的信息存放在HBase中.同時,將用戶連接基站數(shù)據(jù)存放在HDFS上,并導(dǎo)入到Hive所構(gòu)建的數(shù)據(jù)倉庫中進行管理.為了滿足各種任務(wù)分析需求,本系統(tǒng)提供了3種數(shù)據(jù)操作方式:首先,對于簡單的數(shù)據(jù)查詢使用Hive QL命令來進行操作.比如查詢指定用戶某天連接過哪些基站,使用Hive QL編寫一句查詢語句就能完成任務(wù);其次,對于批處理任務(wù),本系統(tǒng)通過Pig腳本程序?qū)崿F(xiàn).比如,由于用戶連接基站數(shù)據(jù)每天會批量更新,如果想知道用戶每天都出現(xiàn)在哪些區(qū)縣.在實現(xiàn)該任務(wù)時涉及到兩個數(shù)據(jù)的連接操作,這時使用Pig腳本程序能夠方便的完成上述分析任務(wù);最后,對于復(fù)雜分析任務(wù),通過編寫Map/Reduce程序?qū)Υ娣旁贖DFS的數(shù)據(jù)進行操作,比如需要從用戶連接基站歷史記錄中分析出用戶的居住地時,Hive QL和Pig程序無法滿足需求,這時就需要用戶自己編寫Map/Reduce程序完成分析.
本節(jié)介紹本系統(tǒng)所涉及到的各個分析模型.人口流動的分析涉及范圍很廣,包括城市的流入流出分析、城市內(nèi)部各區(qū)縣間人口流動分析和用戶居住地/工作地分析.系統(tǒng)分別建立了三個相應(yīng)的數(shù)據(jù)分析模型.
本文提出了一種利用手機軌跡數(shù)據(jù)監(jiān)測人口流動的方法,處理框架如圖3所示.首先對基站連接數(shù)據(jù)進行預(yù)處理,以降低手機基站數(shù)據(jù)低質(zhì)問題的影響,然后分析進出城市的行為模式,利用分析分類模型判定用戶軌跡是否進出城市.
(1)數(shù)據(jù)預(yù)處理
該過程是為了減小基站定位不準以及信號跳變造成的影響,本系統(tǒng)分析手機基站數(shù)據(jù)特點,挖掘出用戶的重要停留區(qū)域,由此降低用戶在該區(qū)域范圍內(nèi)的信號定位不準以及信號頻繁跳變問題的影響.將這些停留區(qū)域按時序串聯(lián)以構(gòu)成用戶的活動軌跡.數(shù)據(jù)預(yù)處理部分包括三步:①去除異常點與建立移動軌跡;②挖掘用戶活動軌跡;③建立樞紐區(qū)域和邊境區(qū)域.
圖3 進出城市人口流動處理框架Fig.3 Processing framework of population flow among cities
(2)進出城市流動分析
用戶行為軌跡復(fù)雜,本文通過分析用戶進出城市的軌跡行為特點,與非進入非離開城市行為進行對照,挖掘軌跡特征.具體特征如下:
1)信號消失時長 相鄰兩停留點之間的時間間隔.
2)樞紐區(qū)域出現(xiàn)概率 用戶進入或離開城市時,在某交通樞紐處(如火車站、機場等)出現(xiàn)的可能性.
3)樞紐區(qū)域停留指數(shù) 用戶在某樞紐區(qū)的停留程度.
4)是否在邊境區(qū)域出現(xiàn) 用戶的手機信號消失或出現(xiàn)時,是否與城市邊境處的基站進行連接交互.
5)與居住地和工作地的平均距離 手機信號消失或出現(xiàn)時,用戶與其居住地和工作地之間的平均距離.
用戶進出城市的行為必定發(fā)生在某一信號消失時段的前后,因此本文針對信號消失時段的前后,分別得到用戶的離開行為特征向量和進入行為特征向量,然后利用標注數(shù)據(jù)訓(xùn)練分類模型(如決策樹、邏輯回歸等),之后運用分類模型的訓(xùn)練結(jié)果進行軌跡行為判定,最終判定用戶在某時刻是否進入或離開了城市[19].
區(qū)縣間人口分析框架如圖4所示.首先同樣需要進行數(shù)據(jù)預(yù)處理,處理方法與城市間人口流動數(shù)據(jù)預(yù)處理方式一致,然后通過分析各區(qū)縣間人口流動判定用戶在區(qū)縣間流動情況.
針對某一用戶的行為軌跡,數(shù)據(jù)預(yù)處理階段可得到該用戶的多個重要停留區(qū),用戶在這些區(qū)域中有較大的可能性進行活動,停留的時間較長.本文將這些重要的停留區(qū)域用圓表示,這些圓的圓心所在的區(qū)縣即為用戶的停留區(qū)縣,將處于同一區(qū)縣并且時間上相隔小于一定閾值的停留區(qū)域進行狀態(tài)合并,即可得到該用戶的區(qū)縣停留狀態(tài),該狀態(tài)信息中包括區(qū)縣ID和停留的起止時間.
由于用戶去往目的區(qū)縣的過程中可能會經(jīng)過某些“經(jīng)過區(qū)”,例如某用戶從普陀出發(fā),去往閔行上班,途中經(jīng)過長寧區(qū)和徐匯區(qū),這兩個區(qū)即為“經(jīng)過區(qū)”.在分析用戶在區(qū)縣間流入流出行為時,需過濾“經(jīng)過區(qū)”,以挖掘用戶行走路線的真正意圖.上述過程所得的停留區(qū)縣即為用戶真正的活動區(qū)縣,“經(jīng)過區(qū)”不構(gòu)成停留區(qū)縣狀態(tài),因此時間上相鄰的兩個停留區(qū)縣間的狀態(tài)轉(zhuǎn)移伴隨著用戶的一次離開區(qū)縣和進入另一區(qū)縣的行為.最后通過匯總?cè)w數(shù)據(jù)集中用戶所有停留區(qū)縣間的狀態(tài)轉(zhuǎn)移情況,即可得到在各個時間段內(nèi)的不同區(qū)縣間的人口流動情況[19].
圖4 區(qū)縣間人口流動處理框架Fig.4 Processing framework of population flow among districts
為了發(fā)現(xiàn)用戶工作地居住地信息,本文提出了一個基于Map/Reduce的框架,該處理框架主要包含4個步驟:①過濾各個用戶的軌跡記錄;②找出包含工作地、居住地的候選區(qū)域;③調(diào)用傳統(tǒng)聚類算法對候選區(qū)域進行聚類操作;④從聚類結(jié)果中發(fā)現(xiàn)工作地、居住地信息.同時,本文在該框架中分別嵌入了兩種不同的發(fā)現(xiàn)策略,即:GPMA和SPMA.這個分布式挖掘框架主要思路是:首先,通過Map/Reduce編程模型將同一個用戶在總時間內(nèi)的連接記錄,合并到同一個計算節(jié)點.然后,選擇合適的位置范圍化方法,針對用戶原始連接基站的記錄使用狀態(tài)生成算法生成狀態(tài)序列.接著,根據(jù)停留時間和停留次數(shù),刪除那些不滿足給定閾值的狀態(tài),從剩下的狀態(tài)所對應(yīng)的區(qū)域中找出那些可能包含工作地、居住地位置的候選區(qū)域.最后,對找出的候選區(qū)域繼續(xù)聚類,從聚類結(jié)構(gòu)中分析出用戶的工作地、居住地信息.
針對基于網(wǎng)格范圍和基于基站覆蓋范圍的兩種區(qū)域范圍化方法,利用提出的分布式挖掘框架,設(shè)計了兩種并行挖掘算法:GPMA算法和SPMA算法.GPMA算法首先將整個區(qū)域進行柵格化,然后將用戶連接基站的情況映射為在各個網(wǎng)格內(nèi)的停留狀態(tài),停留狀態(tài)包含停留的網(wǎng)格號、起始停留時間、結(jié)束停留時間.由于精度和基站跳變的原因,則認為該用戶停留在某網(wǎng)格中時,實際所處位置也有可能是該網(wǎng)格的鄰居網(wǎng)格.SPMA算法利用基站覆蓋范圍來表示用戶所在區(qū)域范圍,它將用戶連接基站的情況轉(zhuǎn)換為連接各個基站的序列.GPMA算法思想的想法比較簡單直觀,但該方法將同一網(wǎng)格中的基站等同看待,這會加大所得工作地、居住地位置的偏差.而SPMA算法克服了這一問題,它將每一個基站單獨看待,每一個基站可以有不同的覆蓋范圍.當用戶連接到某基站時,則用戶可以確定用戶在該基站的覆蓋范圍內(nèi),同時由于基站切換原因,用戶也可能在該基站鄰居的覆蓋范圍內(nèi)[20].
圖5是城市各區(qū)縣間人口流動展示界面.為了提高用戶與系統(tǒng)的交互性,用戶可直接點擊地圖上的相應(yīng)區(qū)縣直接選擇,查看其它各區(qū)縣流入到該區(qū)縣或者該區(qū)縣流出到其他區(qū)縣的人口流量.默認展示的是當天的人口流量.系統(tǒng)后端進行數(shù)據(jù)處理后將結(jié)果保存在MySQL數(shù)據(jù)庫中,并編寫腳本文件實現(xiàn)系統(tǒng)數(shù)據(jù)的周期性更新.前端采用XML+JSON技術(shù)獲取所需數(shù)據(jù),考慮到系統(tǒng)的多模塊性以及用戶所選時間段的多樣性,采用分模塊加載數(shù)據(jù),提高系統(tǒng)的響應(yīng)速度,提供良好的用戶體驗.
圖5 人口流動界面對比圖Fig.5 Contrast figure of interface of population flowing
圖6是系統(tǒng)的數(shù)據(jù)對比圖模塊,分別從上海市、各區(qū)縣的角度來動態(tài)展示不同時期的人口流動對比情況.系統(tǒng)提供了月與月間、周末與工作日間的對比,多樣化的展示人口流動的變化情況.系統(tǒng)設(shè)計了簡單查詢與復(fù)合查詢兩種查詢功能.簡單查詢提供按照時間的查詢,復(fù)合查詢提供區(qū)縣、時間的組合查詢.用戶可根據(jù)自身需求采用相應(yīng)查詢方法,獲取所需數(shù)據(jù).
圖6 數(shù)據(jù)對比圖Fig.6 Contrast figure of data
本文利用大數(shù)據(jù)平臺分析用戶的手機軌跡數(shù)據(jù),挖掘用戶的行為模式,設(shè)計了基于傳統(tǒng)數(shù)據(jù)倉庫、Hadoop集群和MySQL數(shù)據(jù)庫的上海市人口流動分析平臺,包括三個分析模塊,分別是城市間人口流動分析模塊、區(qū)縣間人口流動分析模塊、工作地/居住地流動分析模塊.在分析城市間人口流動時,提出了在分布式框架下的基于軌跡行為特征的判定算法;在分析區(qū)縣間人口流動時,對用戶在區(qū)縣間流動行為加以分析;對工作地、居住地進行分析時,介紹了兩種挖掘重要位置信息的算法:GPMA和SPMA.本文為有效、準確分析城市人口行為提供了有力支持.
[1]GONZALEZ M C,HIDALGO C A,BARABASI A L.Understanding individual human mobility patterns[J].Nature,2008,453(7196):779-782.
[2]SONG C,QU Z,BLUMM N,et al.Limits of predictability in human mobility[J].Science,2010,327(5968):1018-1021.
[3]SONG C,KOREN T,WANG P,et al.Modelling the scaling properties of human mobility[J].Nature Physics,2010,6(10):818-823.
[4]LI Z,DING B,HAN J,et al.Mining periodic behaviors for moving objects[C]//Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2010:1099-1108.
[5]陳佳,胡波,左小清,等.利用手機定位數(shù)據(jù)的用戶特征挖掘[J].武漢大學(xué)學(xué)報:信息科學(xué)版,2014,39(6):734-738.
[6]ASHBROOK D,STARNER T.Using GPS to learn significant locations and predict movement across multiple users[J].Personal and Ubiquitous Computing,2003,7(5):275-286.
[7]WHITE J,WELLS I.Extracting origin destination information from mobile phone data[C]//11th International Conference on Road Transport Information and Control,2002:30-34.
[8]CACERES N,WIDEBERG J P,BENITEZ F G.Deriving origin destination data from a mobile phone network[J].Intelligent Transport Systems,IET,2007,1(1):15-26.
[9]IQBAL M S,CHOUDHURY C F,WANG P,et al.Development of origin-destination matrices using mobile phone call data[J].Transportation Research Part C Emerging Technologies,2014,40(1):63-74.
[10]LIU F,JANSSENS D,CUI J X,et al.Building a validation measure for activity-based transportation models based on mobile phone data[J].Expert Systems with Applications,2014,41(14):6174-6189.
[11]PHITHAKKITNUKOON S,HORANONT T,LORENZO G D,et al.Activity-aware map:identifying human daily activity pattern using mobile phone data[C]//Proceedings of the First international conference on Human behavior understanding.Springer-Verlag,2010:14-25.
[12]ISAACMAN S,BECKER R,CACERES R,et al.Identifying Important Places in People′s Lives from Cellular Network Data[J].Lecture Notes in Computer Science,2011,6696:133-151.
[13]TRAAG V A,BROWET A,CALABRESE F,et al.Social Event Detection in Massive Mobile Phone Data Using Probabilistic Location Inference[C]//Proceedings of the Third IEEE International Conference on Social Computing,2011:9-11.
[14]QUERCIA D,LATHIA N,CALABRESE F,et al.Recommending social events from mobile phone location data[C]//Proceedings of the 10th International Conference on Data Mining(ICDM),2010:971-976.
[15]CALABRESE F,COLONNA M,LOVISOLO P,et al.Real-Time Urban Monitoring Using Cell Phones:A Case Study In Rome[J].IEEE Transactions on Intelligent Transportation Systems,2011,12(1):141-151.
[16]SOTO V,F(xiàn)RIAS-MARTINEZ V,VIRSEDA J,et al.Prediction of Socioeconomic Levels Using Cell Phone Records[J].Lecture Notes in Computer Science,2011,6787:377-388.
[17]HONGYAN G,F(xiàn)ASHENG L.Estimating freeway traffic measures from mobile phone location data[J].European Journal of Operational Research,2013,229(1):252-260.
[18]陸嘉恒.Hadoop實戰(zhàn)[M].第2版.北京:機械工業(yè)出版社,2012:85-329.
[19]孔揚鑫.手機軌跡數(shù)據(jù)的人口流動分析[R].上海:華東師范大學(xué)軟件工程學(xué)院,2015.
[18]章志剛.面向海量手機軌跡數(shù)據(jù)的重要位置發(fā)現(xiàn)[R].上海:華東師范大學(xué)軟件工程學(xué)院,2015.