摘要:在互聯(lián)網(wǎng)時(shí)代,依靠網(wǎng)絡(luò)、虛擬化、物聯(lián)網(wǎng)等大數(shù)據(jù)處理技術(shù),帶來了地理信息提供方式的巨大變革。本文通過介紹以阿里巴巴的大數(shù)據(jù)分析公司為代表的移動定位大數(shù)據(jù)分析,深入探討了移動定位大數(shù)據(jù)分析和地理信息的結(jié)合方法,并著重探討了移動定位大數(shù)據(jù)分析的清晰擴(kuò)樣、地域關(guān)系和旅行特征提取等新方法,并在此基礎(chǔ)上通過Leaflet、DataV、ECharts等開源方法,建立了一個(gè)面向大數(shù)據(jù)分析可視化技術(shù)的新架構(gòu),研究了成果在城市規(guī)劃、港區(qū)治理、動物疫病防治、森林消防等方面的具體應(yīng)用方法與趨勢。
關(guān)鍵詞:互聯(lián)網(wǎng)大數(shù)據(jù);動態(tài)位置信息;地理關(guān)聯(lián);大數(shù)據(jù)可視化
引言
當(dāng)前,中國地理信息產(chǎn)業(yè)正面臨著以互聯(lián)網(wǎng)、大數(shù)據(jù)技術(shù)為依托的數(shù)字化多業(yè)共存、融合發(fā)展新模式,以GIS信息技術(shù)擁抱互聯(lián)網(wǎng)也已形成潮流,并開始重建中國地理信息技術(shù)的全產(chǎn)業(yè)鏈條。N市為全省首個(gè)系統(tǒng)推進(jìn)智慧城市建設(shè)工作的城市,發(fā)展中大數(shù)據(jù)基礎(chǔ)堅(jiān)實(shí)、前景廣闊。近年來,N市人民政府也頻頻出招,積極推動互聯(lián)網(wǎng)落地。2016年10月,N市人民政府發(fā)布的《關(guān)于推進(jìn)信息化發(fā)展的實(shí)施意見》中提出,到2020年將把N市打造成為國家級的城市信息化產(chǎn)業(yè)基礎(chǔ)。2016年底,N市政府與百度公司簽署了策略合作備忘錄,雙方確定將以國內(nèi)首家試驗(yàn)示范性的高標(biāo)準(zhǔn)共同建立百度云智N城市信息產(chǎn)業(yè)培訓(xùn)基地。2020年5月,N市政府與阿里巴巴(中國)有限公司簽署了全方位合作框架性協(xié)議書,成立了N市阿里中心,雙方將在五大方面進(jìn)行一系列協(xié)作,共同推動智慧城市、智能經(jīng)濟(jì)與大數(shù)據(jù)領(lǐng)域的融合發(fā)展。
互聯(lián)網(wǎng)大數(shù)據(jù)是一個(gè)覆蓋面最廣、內(nèi)容最豐富的大數(shù)據(jù)分析,涵蓋了所有人類群體的空間行為特點(diǎn),可有效揭示都市人員活動的發(fā)展軌跡及其空間聚集情況;經(jīng)過相應(yīng)的空間可視化表達(dá)分析,可以直接表達(dá)都市中人口的空間分布情況,很好地克服了傳統(tǒng)靜態(tài)地理數(shù)據(jù)的限制,有著重大的科學(xué)探索價(jià)值與實(shí)際使用意義。
1. 數(shù)據(jù)源分析與處理
互聯(lián)網(wǎng)定位大數(shù)據(jù)分析的樣本量大、信息真實(shí)全面、采樣結(jié)果不會出現(xiàn)很明顯的傾向性,而且具備了很大的時(shí)間穩(wěn)定性,可以監(jiān)測到客戶出行的全部情況,是任何其他數(shù)據(jù)源都不能做到的。阿里巴巴是目前國內(nèi)規(guī)模最大的網(wǎng)絡(luò)企業(yè)之一,掌握著80%的智能手機(jī)客戶,每天地址與路線數(shù)據(jù)信息請求量超過了千億級,通過在各種地點(diǎn)情況下進(jìn)行的GPS確定、IP確定、基站確定、Wi-Fi確定等四類地址數(shù)據(jù)信息的篩選和配合,進(jìn)行客戶定位數(shù)據(jù)信息的錄入與追蹤,并生成客戶地址軌跡信息;借助阿里系服務(wù)(如高德地圖、天貓、淘寶、餓了嗎等)以及高德地圖自有的人地關(guān)系數(shù)據(jù)分析,在各個(gè)層次對用戶線上行為信息進(jìn)行記錄、排序、提取,并通過與客戶的ID進(jìn)行聯(lián)系,生成客戶畫像數(shù)據(jù)分析。
我們采用了從阿里云特殊接口分析數(shù)據(jù)處理,并濾除客戶特征內(nèi)容后的加密手機(jī)信號數(shù)據(jù)分析,但不會觸及個(gè)人隱私內(nèi)容[1]。在開展研究期間,需對這些資料開展了格式轉(zhuǎn)換、清洗降噪等前期處理操作,并通過將電腦的定位數(shù)據(jù)映射到地域空間位置,可以全面、真實(shí)地復(fù)原手機(jī)用戶的出行鏈路徑,最后發(fā)掘得出人口空間分布與經(jīng)濟(jì)活動特征等內(nèi)容。
1.1 數(shù)據(jù)預(yù)處理
因?yàn)樵械木W(wǎng)絡(luò)定位大數(shù)據(jù)分析都是以JSON形式保存的,日期、地點(diǎn)等都不能簡單地保存,且信息冗余率高,所以首先必須依照信息內(nèi)容的分類設(shè)置數(shù)據(jù)字典,將大數(shù)據(jù)分析統(tǒng)一傳輸至Postgre SQL數(shù)據(jù)庫中。另外,因?yàn)槭艿搅藗鬏敻蓴_、信號彈跳、偏移等問題,通過網(wǎng)絡(luò)收集的定位軌跡大數(shù)據(jù)分析會出現(xiàn)大量無效且出錯(cuò)的信息,使得原有大數(shù)據(jù)分析無法準(zhǔn)確地描述客戶的出行路徑,所以必須及時(shí)對原有數(shù)據(jù)分析加以處理,以確定并消除出錯(cuò)或無效的信息。針對各種數(shù)據(jù)ID信息缺失的現(xiàn)象,通過利用對上下文信息的補(bǔ)滿,篩選出時(shí)間持續(xù)、但地址偏離卻較大的重要信息,并抽稀同一個(gè)空間位置所產(chǎn)生的大量密集點(diǎn),以實(shí)現(xiàn)對網(wǎng)絡(luò)地址重大信息的規(guī)范、格式化或清洗入庫[2]。
1.2 地理空間關(guān)聯(lián)
網(wǎng)絡(luò)大數(shù)據(jù)的原始數(shù)據(jù)中除時(shí)間屬性高度有序外,其空間位置信息內(nèi)容和空間語義信息內(nèi)容均高度不規(guī)則,不能直觀完成出行統(tǒng)計(jì)分析,需通過地理空間關(guān)系,以完成大數(shù)據(jù)空間地圖的可視化展現(xiàn)。因此我們通過整合已有的計(jì)算機(jī)數(shù)據(jù)庫、地名地址表等要素向量資料,將網(wǎng)絡(luò)大數(shù)據(jù)分析的空間位置信息內(nèi)容與地域網(wǎng)格(分為區(qū)縣、城鎮(zhèn)街巷、居民村、基層網(wǎng)格等各種行政區(qū)劃數(shù)據(jù)信息)通過多級綁定聯(lián)系,從而形成了文字信息內(nèi)容與地理空間關(guān)系的索引字典,并基于時(shí)間戳對其完成了時(shí)間聚合,從而獲得了符合空間結(jié)構(gòu)特征的客戶生活大數(shù)據(jù)分析日期排序;再以月、周、天、時(shí)辰、分等不同時(shí)間段為單元,按照各種統(tǒng)計(jì)的時(shí)間戳大小依次展開時(shí)間歸類,并以全國公安、政法等部門人員調(diào)查數(shù)據(jù)為母體,再按照樣品與母體之間的大小差異計(jì)算擴(kuò)樣關(guān)系,從移動用戶群體中有效地?cái)U(kuò)樣至全國整個(gè)系統(tǒng)人員中(包含持電話人員與無電話人員);最后構(gòu)造出帶有時(shí)限空間屬性的以時(shí)間點(diǎn)為單元的位置大數(shù)據(jù)集合。
1.3 出行特征提取
在地理空間聯(lián)系的基礎(chǔ)上,提煉交通特點(diǎn),形成完善的交通鏈。出行鏈?zhǔn)侵赣脩粼趶某霭l(fā)點(diǎn)開始至終點(diǎn)的移動過程中,所經(jīng)歷的空間位置序列。確定一個(gè)客戶的兩條旅行記錄是否屬于同一次出游行為,一般要求最小間隔長度和最小間隔時(shí)間兩個(gè)閾值。其具體過程如下:第一步,對客戶的出游軌跡根據(jù)時(shí)間序列進(jìn)行排序;第二步,確定相鄰站點(diǎn)間的時(shí)間距離,若超過給定閾值范圍,則可確認(rèn)為下一次的出行站點(diǎn),并進(jìn)入逗留站點(diǎn)預(yù)選序列;第三步,確定預(yù)選序列中所有相鄰站點(diǎn)雙方的時(shí)間距離,若超過時(shí)間間距閾值范圍,則標(biāo)識為逗留站點(diǎn),以此類推直到遍歷全部的數(shù)據(jù)集。經(jīng)過對大量數(shù)據(jù)的檢驗(yàn)后確定,如果相鄰地點(diǎn)間的距離閾值僅為5min,且相鄰間隔長度均小于10m,則認(rèn)為這是一個(gè)完整的出行鏈,反之則視為有同一個(gè)人二次不同的外出活動情形[3]。
在出行鏈集的基礎(chǔ)上,可以通過對一個(gè)地區(qū)較長階段(1年)的人口活動狀況訓(xùn)練確定夜間居所(home)和白天上班地(work),其方法是:在持續(xù)一年內(nèi)對定位工具實(shí)時(shí)追蹤,如果有一個(gè)地點(diǎn)多次發(fā)現(xiàn),且時(shí)間集中在9:00-19:00時(shí),確認(rèn)該地點(diǎn)為上班地;相反,如果時(shí)間集中在20:00以后,且整個(gè)周末時(shí)段都發(fā)生在這個(gè)地點(diǎn)上,則確認(rèn)為上班居所,從而獲得完整的出行鏈數(shù)據(jù)。出行鏈接的每一條信息,都具有地理坐標(biāo)、起點(diǎn)網(wǎng)絡(luò)編號、終點(diǎn)站網(wǎng)絡(luò)編號、路徑、時(shí)間區(qū)域、是否是為居所、是否是為上班地點(diǎn)等特征。
2. 大數(shù)據(jù)地理空間可視化
大數(shù)據(jù)的空間數(shù)據(jù)可視化是利用地圖和統(tǒng)計(jì)圖等方法對大數(shù)據(jù)進(jìn)行圖像可視化表示,不但較好地解決了大信息的空間位置表示問題,同時(shí)可完成對大信息的分類利用,直接揭示了大信息的內(nèi)涵意義。目前的海量空間數(shù)據(jù)可視化應(yīng)用,一般主要采用了專門的GIS應(yīng)用軟件平臺搭建、可視化函數(shù)庫開發(fā)工具構(gòu)建和根據(jù)地圖應(yīng)用軟件的二次定制使用。雖然上述手段已經(jīng)在一定程度上提高了數(shù)據(jù)可視化應(yīng)用的搭建效果,但仍然存在著很大的應(yīng)用入口難度,且缺乏復(fù)用度,很難再次移植使用,對大量正交的大數(shù)據(jù)空間也缺乏動態(tài)關(guān)系表達(dá)[4]。面向互聯(lián)網(wǎng)大數(shù)據(jù)的地圖可視化開發(fā)與應(yīng)用框架如下:
2.1 數(shù)據(jù)層
該層使用PostgreSQL的擴(kuò)展插件PostGIS儲存了JSON數(shù)據(jù)庫格式的網(wǎng)絡(luò)信息,將網(wǎng)絡(luò)信息經(jīng)過標(biāo)準(zhǔn)化處理之后,再引入PostGIS中實(shí)現(xiàn)數(shù)據(jù)信息的儲存和地理關(guān)系。
2.2 邏輯服務(wù)層
該層通過對Tomcat客戶端的Ge-oServer.war包完成對Ge-oServer的配置。Ge-oServer將新增的數(shù)據(jù)鏈接到PostGIS中,將PostGIS作為主數(shù)據(jù)庫完成服務(wù)開發(fā)工作。該層承擔(dān)信息的發(fā)送和分析等任務(wù),在Web客戶端中,Tomcat客戶端層主要接受用戶在網(wǎng)站端的點(diǎn)擊或其他形式的操作事件,并將其所收到的請求事件與其自身作為特定服務(wù)器的地址匹配,在配對成功后再將請求事件轉(zhuǎn)發(fā)到GIS服務(wù)器Ge-oServer;在邏輯業(yè)務(wù)層中,Ge-oServer客戶端接受了Tomcat客戶端發(fā)出的請求后,對其需要的服務(wù)類型加以分析,從中獲取申請方需要的GIS類型信息,然后將其返回送到Tomcat客戶端,實(shí)現(xiàn)整個(gè)服務(wù)的申請流程。該階段使用Node.js實(shí)現(xiàn)前后端的隔離。
2.3 展示應(yīng)用層
該層是地圖顯示界面,主要載體是網(wǎng)頁瀏覽器,也支援IE、Chrome、Firefox等主流網(wǎng)頁瀏覽器。實(shí)現(xiàn)以地圖為基礎(chǔ)的圖表與可視化元素的有效結(jié)合,并通過氣泡圖形、熱力圖、燈光圖形、動圖表、散點(diǎn)圖形、流場圖形、柱狀圖、餅圖、樹圖形等空間可視化方式呈現(xiàn)豐富的點(diǎn)、線、面等信息,形成了基于海量信息展示功能和開發(fā)應(yīng)用的新型空間可視化地圖引擎,可整合當(dāng)前絕大多數(shù)領(lǐng)域現(xiàn)有的空間可視化框架,支撐跨平臺跨終端信息展示,并提供支持自定義的配置功能、多維度信息的相互關(guān)聯(lián)以及秒級動態(tài)渲染功能,實(shí)現(xiàn)海量信息的動態(tài)連接與即時(shí)呈現(xiàn),并支撐為各領(lǐng)域客戶迅速構(gòu)建個(gè)性化的空間可視化體系。
2.4 前端表現(xiàn)層
構(gòu)成該層的界面框架包括ECharts、DataV、UI框架等,其實(shí)現(xiàn)基本地圖操作的主要方式是引用Leaflet框架,并結(jié)合一系列插件將可視化功能變成可能。而這種運(yùn)行路徑需要設(shè)計(jì)人員有較強(qiáng)的宏觀組織能力,將重復(fù)利用的代碼劃分成不同的模塊。基本操作包括地圖加載、標(biāo)記、調(diào)整圖層、設(shè)置彈窗的位置與時(shí)間等,本質(zhì)上是大數(shù)據(jù)套件的個(gè)性化展示。
3. 典型應(yīng)用成果
目前,該框架已分別在城市空間規(guī)劃、智能碼頭區(qū)控制、森林火災(zāi)保險(xiǎn)預(yù)防、禽流感預(yù)防等方面開展了初步實(shí)踐,給政府部門帶來了基于大數(shù)據(jù)視角的決策依據(jù),推動了城市交通的精細(xì)化、智能治理。
3.1 城市空間規(guī)劃
通過可視化框架,借助網(wǎng)絡(luò)大數(shù)據(jù)分析有效研究了N城市的人口空間分布現(xiàn)狀,并探索了各區(qū)域職住通勤狀況,對城市綜合開發(fā)政策的制訂以及對城市規(guī)劃的制定、評價(jià),提出了更為合理、科學(xué)的技術(shù)框架[5]。該市居民活動變化能夠直接呈現(xiàn)出該市的熱力生活隨時(shí)間推移變動的現(xiàn)象,比較了各個(gè)時(shí)期的居民熱力活躍度;再整合周邊POI公用設(shè)施數(shù)據(jù),可為N市空間規(guī)劃發(fā)展和質(zhì)量升級提供依據(jù)。綜合統(tǒng)計(jì)各區(qū)域職住比、居民偏好距離、通學(xué)程度等信息,對各區(qū)域的居民偏好聯(lián)系做出了客觀判斷,直接體現(xiàn)出各區(qū)域發(fā)展的互動關(guān)系,將為地方的城市規(guī)劃建設(shè)奠定科學(xué)基礎(chǔ)[6]。
3.2 森林火險(xiǎn)預(yù)警
通過可視化框架,以及移動位置大數(shù)據(jù)分析,實(shí)時(shí)監(jiān)測山林火災(zāi)事故多發(fā)期、高發(fā)點(diǎn)周邊的人員分布狀況和區(qū)域密度情況,對N市內(nèi)歷史火災(zāi)事故高發(fā)點(diǎn)、歷史風(fēng)景區(qū)、墓區(qū)、游步道等重點(diǎn)部位或地區(qū)客流情況開展即時(shí)監(jiān)測,并重點(diǎn)監(jiān)視周末、十一、元旦、清明等法定節(jié)假日的客流狀況,進(jìn)而做到對山林火災(zāi)事故采取針對性的防控措施,為政府森林消防工作決策和社會管理決策提供了可靠依據(jù)[7]。
3.3 避免出現(xiàn)踩踏事件
在節(jié)假日等高人流量期間,通過居民流動行為大數(shù)據(jù)分析顯示城市內(nèi)各密集地區(qū),特別是非常住居民以及游客遷入N市的狀況,持續(xù)追蹤每日各地入N市人員的變化,幫助預(yù)測人員流動方向,為避免踩踏、精準(zhǔn)施策提供輔助保障,促進(jìn)健康教育等公共服務(wù)方面的常態(tài)化信息監(jiān)控,增強(qiáng)城市居民對重大公眾突發(fā)事件的應(yīng)對能力。
3.4 智慧港區(qū)管理
在可視化框架的幫助下,港區(qū)客流情況能夠始終處在動態(tài)位置大數(shù)據(jù)的監(jiān)控之下,有關(guān)部門可以在工作日或節(jié)假日時(shí)間段進(jìn)行分段控流,也能夠記錄歷史客流人數(shù)。這些數(shù)據(jù)都是港區(qū)制定后續(xù)發(fā)展計(jì)劃的重要依據(jù),也是我國規(guī)劃公共服務(wù)計(jì)劃的基礎(chǔ),還能夠用于應(yīng)急指揮與旅游統(tǒng)計(jì)等??梢哉f,大數(shù)據(jù)的應(yīng)用大大增強(qiáng)了港區(qū)智慧化管理的改革進(jìn)程,為我國第三產(chǎn)業(yè)做出了重大貢獻(xiàn)。
3.5 交通網(wǎng)絡(luò)管理
可視化框架能夠與道路監(jiān)控系統(tǒng)相結(jié)合,為我國交通網(wǎng)絡(luò)管理提供詳細(xì)的車流量與流向數(shù)據(jù),這在提高我國交通安全系數(shù)的同時(shí),也能夠?yàn)楹罄m(xù)的交通網(wǎng)絡(luò)現(xiàn)代化改革提供關(guān)鍵數(shù)據(jù)。
結(jié)語
論文詳盡闡述了最新的大數(shù)據(jù)分析清洗擴(kuò)樣、地理相關(guān)、生物特征提取等新技術(shù),還提出和發(fā)展了以圖為基礎(chǔ)元素的大數(shù)據(jù)分析空間可視化技術(shù)框架,并介紹了該框架在城市規(guī)劃、森林消防、傳染病防治等諸多方面的應(yīng)用示例。作為一種利用網(wǎng)絡(luò)大數(shù)據(jù)分析開展地理信息應(yīng)用的實(shí)踐與探索,在應(yīng)用技術(shù)以及對大數(shù)據(jù)分析的管理方面還有許多未完善之處,我們今后在研究上將進(jìn)一步加強(qiáng)探索,爭取為其他同類大數(shù)據(jù)分析探索與應(yīng)用提供借鑒。
參考文獻(xiàn):
[1]吳秀蕓,王海江,梁寒冬.互聯(lián)網(wǎng)位置大數(shù)據(jù)空間可視化研究與應(yīng)用[J].地理空間信息,2022,20(11):21-24.
[2]江平.基于大數(shù)據(jù)可視化激光測距城市空間三維圖像重構(gòu)[J].激光雜志,2022,43(3):174-178.
[3]馬夢宇.大規(guī)模地理矢量數(shù)據(jù)交互式實(shí)時(shí)可視化分析技術(shù)研究[D].國防科技大學(xué),2020.
[4]崔曉軍,高子航.基于GIS與云計(jì)算的溫州市農(nóng)業(yè)大數(shù)據(jù)可視化平臺研究[J].電腦編程技巧與維護(hù),2020(4):113-115.
[5]尹言軍,劉暉,葉琳,等.數(shù)據(jù)清洗和空間可視化在浮動車數(shù)據(jù)處理中的應(yīng)用[J].地理空間信息,2019,17(5):116-119,6.
[6]王志敏.基于GIS云服務(wù)的云南省國土空間大數(shù)據(jù)可視化系統(tǒng)建設(shè)研究[J].地礦測繪,2018,34(3):12-16.
[7]周文濤.一種企業(yè)數(shù)據(jù)空間可視化匯聚流程建模方法與查詢優(yōu)化策略[D].青島:山東科技大學(xué),2010.
作者簡介:徐建軍,碩士研究生,講師,研究方向:地理信息、大數(shù)據(jù)。
基金項(xiàng)目:2021年江蘇高校哲學(xué)社會科學(xué)研究項(xiàng)目——基于社交媒體數(shù)據(jù)的網(wǎng)絡(luò)事件時(shí)空演化研究(編號:2021SJA2479)。