張景峰
摘 要:隨著數(shù)字城市建設(shè)逐步完成,形成了多源海量的POI數(shù)據(jù)資源,針對不同來源的POI在數(shù)據(jù)格式、坐標參考、屬性結(jié)構(gòu)等方面的差異,綜合運用ArcGIS、Geoway、4dConvert軟件,通過數(shù)據(jù)收集分析、數(shù)據(jù)準備、數(shù)據(jù)預(yù)處理、數(shù)據(jù)核查、屬性賦值、數(shù)據(jù)入庫及元數(shù)據(jù)制作等生產(chǎn)環(huán)節(jié),利用ModelBuilder開發(fā)出了與生產(chǎn)相匹配的工具箱,多源異構(gòu)POI的融合方法,建設(shè)統(tǒng)一的、權(quán)威的、內(nèi)容規(guī)整、信息量豐富的省級地名地址數(shù)據(jù)庫,最后通過保密技術(shù)處理,發(fā)布使用,并持續(xù)更新。該數(shù)據(jù)庫建設(shè)完成后,為“天地圖”省級節(jié)點提供地名地址在線服務(wù)數(shù)據(jù)集,為數(shù)字城市政務(wù)版、公眾版服務(wù)平臺提供地名地址數(shù)據(jù)基礎(chǔ)。
關(guān)鍵詞:POI;多源異構(gòu);省級地名地址數(shù)據(jù)庫;數(shù)據(jù)融合
中圖分類號:P208 文獻標識碼:A 文章編號:1671-2064(2019)14-0009-02
為滿足國家信息化建設(shè)中政府部門和社會公眾對地理信息在線服務(wù)的迫切需求,國家測繪地理信息局提出了構(gòu)建數(shù)字中國地理空間框架建設(shè)的戰(zhàn)略性決策。數(shù)字省區(qū)、數(shù)字城市、數(shù)字縣區(qū)是數(shù)字中國的有機組成部分;地名地址數(shù)據(jù)是對地名、地址信息的結(jié)構(gòu)化描述與空間化標識,其以坐標點位的方式描述某一特定空間位置上自然或人文地理實體的專有名稱和屬性,是社會經(jīng)濟信息與地理空間信息通過地理編碼或地址匹配進行掛接的媒介與橋梁。地名地址數(shù)據(jù)是數(shù)字省區(qū)、數(shù)字城市地理空間框架建設(shè)、數(shù)字縣區(qū)地理空間框架建設(shè)、“天地圖”省市級節(jié)點建設(shè)等項目的基礎(chǔ)數(shù)據(jù),是地理信息公共服務(wù)平臺數(shù)據(jù)的重要組成部分。本文結(jié)合筆者多年從事省級地名地址數(shù)據(jù)庫建設(shè)及更新的實踐,探索出一套基于ArcGIS的省級地名地址數(shù)據(jù)庫建設(shè)方法,為省級海量地名地址數(shù)據(jù)庫的建設(shè)及動態(tài)維護更新提供了一種新的思路。
1 研究框架
本文研究的核心內(nèi)容為:資料收集完整后,運用ArcGIS作業(yè)平臺對數(shù)據(jù)進行分析,制定作業(yè)方案,實現(xiàn)多源數(shù)據(jù)的統(tǒng)一分類、統(tǒng)一屬性結(jié)構(gòu),并完成質(zhì)量檢查等,再將數(shù)據(jù)入庫,形成省地名地址數(shù)據(jù)庫成果。數(shù)據(jù)生產(chǎn)流程按其先后順序,可分為數(shù)據(jù)分析、坐標轉(zhuǎn)換、數(shù)據(jù)提取、數(shù)據(jù)組織重構(gòu)、生僻字處理、數(shù)據(jù)核查、屬性項完善、入庫前檢查、數(shù)據(jù)入庫及元數(shù)據(jù)制作10個部分。具體生產(chǎn)流程如圖1所示。
2 研究內(nèi)容
2.1 數(shù)據(jù)準備
對獲取的大量的POI數(shù)據(jù)進行預(yù)處理,處理的過程是首先進行坐標轉(zhuǎn)換,再利用ArcGIS ModelBuilder對數(shù)據(jù)進行清洗,以保證用于融合的數(shù)據(jù)的質(zhì)量。主要包括以下內(nèi)容。
(1)對源數(shù)據(jù)進行分析,通過自主開發(fā)的4dConvert進行坐標轉(zhuǎn)換,統(tǒng)一坐標系;
(2)數(shù)據(jù)格式的統(tǒng)一,非漢字字符統(tǒng)一使用英文字符,并對特殊字符進行刪除處理,處理屬字段中出現(xiàn)的分融符;
(3)政區(qū)實體處理,政區(qū)實體處理是地名點屬性賦值和數(shù)據(jù)劃分作業(yè)單元的基礎(chǔ),在鋪開作業(yè)前必須完成;
(4)數(shù)據(jù)提取,從多源導(dǎo)構(gòu)數(shù)據(jù)中提取地名地址數(shù)據(jù),數(shù)據(jù)提取要求:1)行政區(qū)域名提取注記數(shù)據(jù),包括注記點位置、名稱、分類代碼和政區(qū)編碼;2)街巷名提取注記數(shù)據(jù),包括注記點位置、名稱和分類代碼;3)小區(qū)名提取注記數(shù)據(jù),包括注記點位置、名稱和分類代碼;4)標志物名和興趣點名提取注記數(shù)據(jù),包括注記點位置、名稱和分類代碼;5)門(樓)址名提取注記數(shù)據(jù),包括注記點位置、名稱和分類代碼。
2.2 數(shù)據(jù)預(yù)處理
(1)空值檢查,由于數(shù)據(jù)源的原因,許多地名點并沒有NAME屬性,而NAME屬性又為地名地址數(shù)據(jù)庫屬性的的必填字段,在對數(shù)據(jù)進行轉(zhuǎn)換和分層處理前,需要對NAME屬性為空的點進行刪除或?qū)Υ_有必要保留的地名點補充NAME屬性;
(2)數(shù)據(jù)分類的初步處理,數(shù)據(jù)在采集過程中有可能因為分類標準不同而歸類到不同的地名類別中,所以為了對數(shù)據(jù)進行正確的分類,需要對各個數(shù)據(jù)源的數(shù)據(jù)分別進行分類的初步處理,通過對照數(shù)據(jù)源的分類代碼表及數(shù)據(jù)中實際所包含的地名點名稱進行對照;
(3)代碼轉(zhuǎn)換和分層,將不同數(shù)據(jù)的地物類代碼轉(zhuǎn)換成標準的地名地址代碼
2.3 數(shù)據(jù)核查
以地級市為作業(yè)單元,參考省地圖院出版的相關(guān)圖件資料對地名進行全面的檢查,并將歸類錯誤的地名點修正到正確的類別中。在進行POI融合過程中,首先通過Python腳本對要進行同名點判別。根據(jù)相關(guān)文獻資料,采用文本名稱相似度、距離相似度、門址相似度3個指標進行判別,在判別過程中,根據(jù)不斷優(yōu)化和試驗,分別賦予0.5、0.3、0.2的權(quán)重可取得最好的判別效果。對于兩個POI對象,如果總體相似度大于0.8,則判定為疑似同名點,并作標記,采用人工交互處理方式最終判定,并在數(shù)據(jù)庫中進行標識,其次,通過人工核對的方式,進行判斷。具體流程圖2所示。
2.4 屬性項完善
所有地名點全部核查并修改完成后,就要對未賦值的字段按作業(yè)單元通過自主開發(fā)的《省地名地址生產(chǎn)工具箱》進行賦值,如圖3所示。
2.5 涉密地名及興趣點刪除
按照《公開地圖內(nèi)容表示若干規(guī)定》及其補充規(guī)定的要求,對數(shù)據(jù)庫的涉密地名及興趣點數(shù)據(jù)運用批處理工具進行刪除,生成政務(wù)版和公眾版地名地址數(shù)據(jù)庫。
2.6 建立地名地址數(shù)據(jù)庫管理系統(tǒng)
地名地址數(shù)據(jù)庫管理系統(tǒng)旨在提供地名地址數(shù)據(jù)及相應(yīng)地理實體數(shù)據(jù)的組織、建庫、維護、更新、安全管理、數(shù)據(jù)發(fā)布和元數(shù)據(jù)發(fā)布等服務(wù)。因此地名地址數(shù)據(jù)庫管理系統(tǒng)主要實現(xiàn)地名地址數(shù)據(jù)及相應(yīng)地理實體數(shù)據(jù)的組織、入庫、維護 、更新、查詢檢索、瀏覽、定位、距離量算以及對入庫數(shù)據(jù)的數(shù)據(jù)格式轉(zhuǎn)換等功能。
2.7 基于ArcGIS Server及ModelBuilder的模塊化自動更新維護
(1)首先制作ModelBuilder數(shù)據(jù)處理流程模板,主要將POI處理流程的各階段數(shù)據(jù)處理過程制作可執(zhí)行的腳本。
(2)對外源性數(shù)據(jù),通過腳本進行自動化處理并更新入庫。
3 結(jié)語
本文提出了一種基于多源異構(gòu)POI融合方法的省級地名地址數(shù)據(jù)庫建設(shè)及應(yīng)用方法。該方法通過對多源異構(gòu)POI空間位置、屬性信息進行自動化和人工交互比對,確定POI數(shù)據(jù)間融合的機率和置信度,最終形成全省統(tǒng)一的、權(quán)威的、內(nèi)容規(guī)整、信息量豐富的地名地址數(shù)據(jù)庫,滿足數(shù)字省區(qū)、天地圖建設(shè)和日益增加的LBS的需要??傮w來說,該方法是一種比較實用、高效的方法,為多源POI資源的整合成為省級地名地址數(shù)據(jù)庫,作為基礎(chǔ)測繪數(shù)據(jù)的一部分,數(shù)據(jù)庫建設(shè)完成后通過全省統(tǒng)一發(fā)布和定期更新,為POI數(shù)據(jù)的有效利用、降低POI數(shù)據(jù)的重復(fù)生產(chǎn)提供了一種新的思路,本文成果應(yīng)用在天地圖省級節(jié)點在線服務(wù)地名地址數(shù)據(jù)集、數(shù)字縣區(qū)、一村一鎮(zhèn)一地圖等項目中,有效降低了建設(shè)成本,取得了顯著的經(jīng)濟效率和社會效益。
參考文獻
[1] 邵蕾.網(wǎng)絡(luò)POI數(shù)據(jù)增量更新技術(shù)研究[D].蘭州:蘭州交通大學(xué),2016.
[2] 高新院.基于空間位置信息的多源POI數(shù)據(jù)融合問題的研究[D].青島:中國海洋大學(xué),2013.
[3] 張巍,高新院,李瑞姍.空間位置信息的多源POI數(shù)據(jù)融合[J].中國海洋大學(xué)學(xué)報(自然科學(xué)版),2014,44(7):111-116.
[4] 陳瑞.基于多源POI數(shù)據(jù)的匹配融合方法研究[D].蘭州:蘭州交通大學(xué),2014.
[5] 李瑞姍.基于自然語言處理的多源POI數(shù)據(jù)融合的研究[D].青島:中國海洋大學(xué),2013.
[6] 王婷婷.基于位置與屬性的多源POI數(shù)據(jù)融合的研究[D].青島:中國海洋大學(xué),2014.
[7] 曾李陽,齊華,譚明建,等.基于天地圖的POI數(shù)據(jù)采集系統(tǒng)設(shè)計與實現(xiàn)[J].測繪與空間地理信息,2016,39(3):55-58.
[8] 吳張峰,夏蘭芳.多源異構(gòu)POI融合方法及應(yīng)用[J].測繪通報,2018(3):143-146.