衛(wèi)啟云,渠偉勇,黃 鴻,趙振盛
(1.太原市基礎(chǔ)地理數(shù)據(jù)中心,山西太原030009;2.北京星球數(shù)碼(集團(tuán)),北京100190;3.太原市民政局,山西太原030002)
地理編碼又稱地址匹配,是將自然語言描述的地址信息根據(jù)地址模型和編碼規(guī)則進(jìn)行智能語義解析,并通過與地名地址標(biāo)準(zhǔn)庫進(jìn)行匹配建立與之對應(yīng)的空間坐標(biāo)信息和地理編碼關(guān)聯(lián)的過程[1]。
20世紀(jì)60年代中期,美國為配合由美國國情情報(bào)局負(fù)責(zé)的人口普查,做了大量的關(guān)于地址編碼的工作,研究出了雙重獨(dú)立地圖編碼系統(tǒng)(dual independent map encoding,DIME)。80年代后期,美國國情普查局將DIME系統(tǒng)發(fā)展為TIGER(topologically integrated geographic encoding and referencing)系統(tǒng),作為地址編碼的參考系。TIGER在美國已經(jīng)成為一種公認(rèn)的標(biāo)準(zhǔn),影響力非常大。此外,加拿大也完成了國家級的地址編碼數(shù)據(jù)庫建設(shè);德國、以色列、澳大利亞等國家在很早之前也進(jìn)行了許多詳細(xì)的關(guān)于地址編碼技術(shù)的研究工作,并且都已投入了使用。
20世紀(jì)80年代,北京、上海、廣州、深圳等一些城市在地名地址匹配和定位技術(shù)方面開發(fā)了一些相應(yīng)的軟件和應(yīng)用,但是沒有標(biāo)準(zhǔn)的地址編碼數(shù)據(jù)庫,且基本上都是僅限于針對某個具體的應(yīng)用系統(tǒng)。
隨著太原市數(shù)字城市建設(shè)的不斷推進(jìn),以及政府對跨部門數(shù)據(jù)需求的增加,部門間數(shù)據(jù)共享成為一個迫切需要解決的問題,人民群眾和各政府部門對地名地址數(shù)據(jù)的需求越來越大,地理編碼系統(tǒng)逐漸成為了豐富共享數(shù)據(jù)、推進(jìn)應(yīng)用的重要手段;而采用地理編碼,快速地將文本形態(tài)的業(yè)務(wù)數(shù)據(jù)空間化,推進(jìn)了GIS在業(yè)務(wù)部門中的應(yīng)用。本文以太原市地名地址數(shù)據(jù)采集與建庫項(xiàng)目建設(shè)為契機(jī),結(jié)合數(shù)字太原建設(shè)現(xiàn)狀,實(shí)踐地名地址標(biāo)準(zhǔn)庫建設(shè)和地理編碼,制定地名地址數(shù)據(jù)更新模式,并將建設(shè)成果在“數(shù)字太原”地理信息公共服務(wù)平臺、太原各政府部門應(yīng)用系統(tǒng)及移動端上開展了一些應(yīng)用,實(shí)現(xiàn)了多部門業(yè)務(wù)數(shù)據(jù)“落地”及跨部門數(shù)據(jù)的共享。
總體技術(shù)架構(gòu)如圖1所示。
圖1 總體技術(shù)架構(gòu)圖
本研究將充分利用現(xiàn)有軟硬件與網(wǎng)絡(luò)環(huán)境,以現(xiàn)勢性較高的地形數(shù)據(jù)、影像數(shù)據(jù)、專題數(shù)據(jù)為基礎(chǔ),建設(shè)地名地址標(biāo)準(zhǔn)庫和地名地址專題庫,形成核心數(shù)據(jù)層;借助工作流引擎、地址匹配引擎、GIS通用組件等,發(fā)布地址匹配、查詢統(tǒng)計(jì)、質(zhì)檢入庫等功能服務(wù),在“數(shù)字太原”平臺、應(yīng)用系統(tǒng)、移動端開展地名地址應(yīng)用。
筆者采用ArcGIS+Oracle+.NET技術(shù)平臺進(jìn)行開發(fā),搭建CS架構(gòu)地名地址管理系統(tǒng),搭建BS架構(gòu)的地址匹配引擎和地名服務(wù)發(fā)布系統(tǒng)。
(1)基于規(guī)則庫和實(shí)時(shí)索引的地址匹配技術(shù)
地址分詞是與地址匹配相結(jié)合的過程,通用的地址一般由行政區(qū)劃和街道地址的詳細(xì)信息構(gòu)成,首先對整條地址字符串進(jìn)行過濾,分離出行政區(qū)劃和街道詳細(xì)地址兩部分信息,這就大大縮小了搜索范圍,也加快了搜索速度。對于街道地址的詳細(xì)信息,通過地址分詞技術(shù)可以將其分割成最小的地址要素,參考建立的地址匹配的規(guī)則庫,搜索的范圍越來越小,當(dāng)滿足某一個規(guī)則時(shí),匹配即完成,這種算法達(dá)到了搜索范圍的彈性伸縮。
這種基于分詞方法的匹配技術(shù)具有一個明顯的弊端,即對于詞表中未登錄的詞難以進(jìn)行匹配和切分,同時(shí)在很多情況下由于前后漢字的特殊組合也容易出現(xiàn)錯誤的切分。針對這種情況,可以在地址的規(guī)則庫中加入存儲常見地址別名、地址歷史名稱、地址常見拼寫錯誤的規(guī)則庫,在進(jìn)行地址分詞匹配之前,先進(jìn)行歧義、錯誤、別名地址的匹配監(jiān)測,將大大提高基于地址分詞匹配的精度。
為了應(yīng)用的快捷,地址匹配引擎啟動后,會自動關(guān)聯(lián)到地址數(shù)據(jù)并創(chuàng)建索引,整個過程只有毫秒級的延遲,不會對使用造成任何影響。地址數(shù)據(jù)更新后,只需更新地址匹配引擎的應(yīng)用實(shí)例,所有更新操作立即生效,實(shí)現(xiàn)更新即展現(xiàn)。
(2)地名地址與實(shí)體地理要素的空間相關(guān)性識別與關(guān)聯(lián)技術(shù)
太原市主城區(qū)地址詳細(xì)程度精確至建筑物,高密度的地名地址數(shù)據(jù)覆蓋為地名地址與建筑物的空間關(guān)聯(lián)奠定了數(shù)據(jù)基礎(chǔ)。通過對地名地址數(shù)據(jù)與建筑物數(shù)據(jù)內(nèi)在關(guān)聯(lián)性進(jìn)行剖析,對地名地址數(shù)據(jù)與對應(yīng)的地理空間圖形數(shù)據(jù)(如建筑物、行政區(qū)劃、道路等)進(jìn)行空間相關(guān)性識別與關(guān)聯(lián);利用地名地址數(shù)據(jù)和建筑物等數(shù)據(jù)各自的空間位置特性,建立起它們相互間的空間關(guān)聯(lián)關(guān)系。
(3)基于中間件技術(shù)的政務(wù)資源一體化交換入庫
地名地址數(shù)據(jù)要實(shí)現(xiàn)共享交換,務(wù)必要與平臺集成,各種服務(wù)資源都通過服務(wù)注冊的方式注冊到ESB服務(wù)總線?!皵?shù)字太原”平臺、移動端及第三方系統(tǒng)可以通過服務(wù)總線檢索自己需要的服務(wù),并進(jìn)行調(diào)用,以支撐各自的應(yīng)用。
基于地名地址實(shí)現(xiàn)政務(wù)資源一體化規(guī)范體系建設(shè)及自動化政務(wù)資源交換入庫,以地名地址數(shù)據(jù)和地理編碼技術(shù)為紐帶,建立整個政務(wù)資源體系與空間信息的關(guān)聯(lián),也建立起政務(wù)資源數(shù)據(jù)間的關(guān)聯(lián),實(shí)現(xiàn)政務(wù)資源數(shù)據(jù)的一體化融合和自動入庫;同時(shí),利用地名地址的橋梁作用獲取社會經(jīng)濟(jì)的詳細(xì)信息,提供標(biāo)準(zhǔn)化的與空間位置信息相關(guān)聯(lián)的屬性數(shù)據(jù),更靈活、便捷地查詢、統(tǒng)計(jì)各種綜合應(yīng)用信息,為社會經(jīng)濟(jì)、文化、人口、環(huán)境變化、統(tǒng)計(jì)等相關(guān)領(lǐng)域的多源、多層次、多時(shí)空研究奠定基礎(chǔ),為社會經(jīng)濟(jì)快速發(fā)展提供決策支持。
地名地址標(biāo)準(zhǔn)庫是地理編碼的核心和關(guān)鍵,筆者參考國家標(biāo)準(zhǔn)、行業(yè)、地方及企業(yè)標(biāo)準(zhǔn)規(guī)范,結(jié)合太原市數(shù)據(jù)現(xiàn)狀,從現(xiàn)有可獲取的數(shù)據(jù)及外業(yè)采集數(shù)據(jù)中提取、整合、規(guī)整出地名地址數(shù)據(jù),并經(jīng)過數(shù)據(jù)質(zhì)檢,將數(shù)據(jù)入庫更新至地名地址標(biāo)準(zhǔn)庫。地名地址標(biāo)準(zhǔn)庫建設(shè)流程如圖2所示。
圖2 地名地址標(biāo)準(zhǔn)庫建設(shè)流程
地名地址標(biāo)準(zhǔn)庫共定義了涵蓋門樓址信息、地名信息、時(shí)態(tài)信息等內(nèi)容的34個字段。為了提高地址匹配和檢索的效率,在標(biāo)準(zhǔn)庫中將標(biāo)準(zhǔn)地址字段拆分成行政區(qū)劃、街路巷、門牌號、樓號、單元號、房間號等字段,并按照《數(shù)字城市地理空間信息公共平臺地名/地址分類、描述及編碼規(guī)則》對地址進(jìn)行編碼。
地理編碼的實(shí)現(xiàn)是將需要匹配的地址字符串進(jìn)行拆分和標(biāo)準(zhǔn)化處理,然后用處理后的關(guān)鍵地址字段的值與地址編碼地址庫中數(shù)據(jù)對應(yīng)字段的屬性值進(jìn)行匹配,如果匹配成功,就將該數(shù)據(jù)的坐標(biāo)值賦給屬性表中的相應(yīng)記錄,從而實(shí)現(xiàn)對該記錄的地址匹配[2]。
在地名地址匹配的過程中,經(jīng)常需要對兩類數(shù)據(jù)進(jìn)行匹配:一種是只包含地理實(shí)體位置描述信息、而沒有空間坐標(biāo)的地址數(shù)據(jù),如街道地址、郵政編碼、行政區(qū)劃等;另一種是已經(jīng)包含了相關(guān)地圖定位信息(空間坐標(biāo))的地理參考數(shù)據(jù)(如街道地圖數(shù)據(jù)、行政區(qū)劃地圖數(shù)據(jù)、郵政編碼地圖數(shù)據(jù)等),這些數(shù)據(jù)集合或數(shù)據(jù)庫在地址匹配過程中起空間參考的作用[3-4]。完成匹配后,給前者賦予地理空間坐標(biāo),是地理編碼實(shí)現(xiàn)中最核心的部分。
地名地址數(shù)據(jù)的來源是多方面的,包括太原市公安局、太原市民政局等多個部門,以及快遞公司及導(dǎo)航數(shù)據(jù)等。在更新機(jī)制上,建立太原市基礎(chǔ)地理數(shù)據(jù)中心與太原市民政局、太原市公安局等政府部門的協(xié)同管理,社會公眾參與維護(hù)的更新機(jī)制。數(shù)據(jù)中心管理人員通過地名地址數(shù)據(jù)庫管理系統(tǒng)對發(fā)生變更的地名地址數(shù)據(jù)進(jìn)行增加、修改、刪除;民政部門各級管理人員通過“數(shù)字太原”平臺提供的空間數(shù)據(jù)或非空間數(shù)據(jù)進(jìn)行上傳→地址匹配→地圖糾正,將更新信息推送至地名地址數(shù)據(jù)庫服務(wù)系統(tǒng),系統(tǒng)對重復(fù)數(shù)據(jù)進(jìn)行甄別及標(biāo)準(zhǔn)化處理后,進(jìn)行流程化更新;社會公眾可以通過“數(shù)字太原”平臺客戶端(互聯(lián)網(wǎng))提供的在線標(biāo)繪或地址糾錯,對轄區(qū)內(nèi)發(fā)生變更的地名地址數(shù)據(jù)進(jìn)行標(biāo)繪或糾錯描述,并將更新信息發(fā)送給平臺管理員,管理員對變更信息進(jìn)行甄別及標(biāo)準(zhǔn)化處理,即進(jìn)行流程化更新。
建立地名地址數(shù)據(jù)常態(tài)化的多源協(xié)同收集與集中更新模式,有效地促進(jìn)了地名地址日常管理的質(zhì)態(tài),保障了地名地址數(shù)據(jù)的持續(xù)鮮活。
(1)地名地址數(shù)據(jù)成果與平臺無縫連接
地名地址數(shù)據(jù)是“數(shù)字太原”地理空間框架數(shù)據(jù)的重要組成部分,也是“數(shù)字太原”地理信息公共服務(wù)平臺數(shù)據(jù)擴(kuò)展的有力工具之一。太原地名地址建設(shè)成果與“數(shù)字太原”地理信息公共服務(wù)平臺的無縫集成,既完善了平臺的服務(wù)體系,也通過平臺擴(kuò)大了地名地址成果的應(yīng)用范圍,如圖3所示。借助平臺提供的服務(wù)共享與交換功能,各部門的業(yè)務(wù)系統(tǒng)可通過網(wǎng)絡(luò)獲取互聯(lián)網(wǎng)/局域網(wǎng)服務(wù)器端的數(shù)據(jù)服務(wù),在其業(yè)務(wù)系統(tǒng)中實(shí)現(xiàn)以地圖為中心的資源查詢展示功能。
圖3 地名地址數(shù)據(jù)在平臺端展示效果圖
(2)地名地址與實(shí)體地理要素空間關(guān)聯(lián)
經(jīng)過省測繪地理信息局、公安局、民政局等多部門的提供及外業(yè)地名地址的采集與核查工作,共匯集了太原主城區(qū)400 km228萬余條地名地址數(shù)據(jù),地址詳細(xì)程度精確至建筑物。利用地名地址數(shù)據(jù)和建筑物等數(shù)據(jù)各自的空間位置特性,建立起它們相互間的空間關(guān)聯(lián)關(guān)系,就可以通過建筑物、行政區(qū)劃或道路等找到相關(guān)的地名地址信息,也可以根據(jù)地名地址信息找到其所在的建筑物、行政區(qū)劃或道路。圖4為地名地址數(shù)據(jù)與建筑物實(shí)體關(guān)聯(lián)效果示意圖。
圖4 地名地址與建筑物關(guān)聯(lián)示意圖
(3)部門業(yè)務(wù)數(shù)據(jù)“落地”及共享
地名地址標(biāo)準(zhǔn)庫建成后,通過地址匹配可實(shí)現(xiàn)衛(wèi)生局、教育局等部門業(yè)務(wù)數(shù)據(jù)的空間化,并對匹配結(jié)果進(jìn)行質(zhì)檢入庫,形成地名地址數(shù)據(jù)資源;將這部分?jǐn)?shù)據(jù)以服務(wù)的形式發(fā)布至公共服務(wù)平臺,在平臺上進(jìn)行展示和應(yīng)用;同時(shí),不同部門之間也可共享并交換專題數(shù)據(jù)服務(wù)。圖5為部門業(yè)務(wù)數(shù)據(jù)匹配效果。
圖5 部門業(yè)務(wù)數(shù)據(jù)匹配效果
地名地址數(shù)據(jù)庫作為數(shù)字城市的基礎(chǔ),在數(shù)字城市的地理空間框架建設(shè)中起著關(guān)鍵的作用,它既是一個技術(shù)問題,又是一個標(biāo)準(zhǔn)化問題。本文通過對太原市地名地址建設(shè)的實(shí)踐,總結(jié)了地名地址標(biāo)準(zhǔn)庫建設(shè)和地理編碼的主要技術(shù)流程、地名地址數(shù)據(jù)更新模式及地名地址建設(shè)的應(yīng)用成果。在以后的工作中,還需進(jìn)一步提高業(yè)務(wù)兼容性,加大地名地址數(shù)據(jù)應(yīng)用的宣傳與推廣力度,逐步實(shí)現(xiàn)太原市各政府委辦局、企事業(yè)單位的業(yè)務(wù)專題數(shù)據(jù)整合,促進(jìn)城市數(shù)字化、網(wǎng)絡(luò)化、智能化發(fā)展。
[1]唐潔.數(shù)字南昌地址編碼數(shù)據(jù)庫的設(shè)計(jì)與實(shí)現(xiàn)[D].撫州:東華理工大學(xué),2012.
[2]馬照亭,李志剛,孫偉,等.一種基于地址分詞的自動地理編碼算法[J].測繪通報(bào),2011(2):59-62.
[3]程昌秀,于濱.一種基于規(guī)則的模糊中文地址分詞匹配方法[J].地理與地理信息科學(xué),2011,27(3):26-29.
[4]于濱.面向經(jīng)濟(jì)普查項(xiàng)目需求的模糊中文地址匹配方法研究[D].長沙:中南大學(xué),2010.