朱宣霖
(河海大學(xué),江蘇 南京 211100)
地理編碼(Geocoding)又稱地址匹配(address-matching),指建立地理坐標(biāo)與給定地址一致性的過程[1]。該計(jì)算過程是將地址數(shù)據(jù)與參考地址庫中的地址進(jìn)行匹配,找到最接近的地址,然后利用空間插值算法對這幾個地址對應(yīng)的坐標(biāo)進(jìn)行插值,從而估算出給定地址的坐標(biāo)。近年來,外賣平臺、打車軟件、快遞服務(wù)等基于地址的網(wǎng)絡(luò)經(jīng)濟(jì)刺激了地址服務(wù)的需求,催生了網(wǎng)絡(luò)地址服務(wù)的迅猛發(fā)展[2]。如何快速、準(zhǔn)確地將地址數(shù)據(jù)轉(zhuǎn)化為空間坐標(biāo)成為當(dāng)前互聯(lián)網(wǎng)經(jīng)濟(jì)發(fā)展的剛需。中文地址一般有“小區(qū)+樓號”的小區(qū)地址和“道路+門牌號”的道路地址兩種類型[3]??臻g形態(tài)的不同導(dǎo)致編碼平臺對兩種地址編碼的精度可能存在差異。
為了提升地理編碼的精度,人們在參考地址庫構(gòu)建、地址匹配算法提升、地址規(guī)則化等方面展開了大量的研究。在參考地址庫構(gòu)建方面,Prener等[4]利用興趣點(diǎn)地址數(shù)據(jù)豐富了參考地址庫,提升了地理編碼的精度。在地址匹配算法方面,目前比較常用的有針對地塊的地址匹配算法和基于道路與門牌號的插值算法[5-7]。在地址規(guī)則化方面,人們對于地址分詞、文字錯誤識別等問題展開了大量的探索[1,3,6]。此外,人們發(fā)現(xiàn)地址數(shù)據(jù)分布對于地理編碼的精度也會產(chǎn)生一定的影響。Cayo等[8]通過對城市、郊區(qū)以及鄉(xiāng)村的地址編碼精度進(jìn)行比較。結(jié)果表明,人口稀疏的地區(qū)編碼精度較低,人口密集的地區(qū)編碼精度較高。其基本設(shè)想是:人口密集的地區(qū)參考地址數(shù)據(jù)豐富,因而更容易找到匹配結(jié)果,編碼精度相對更高。在遇到無法匹配的地址時,可以利用相近的地址數(shù)據(jù)插值得到對應(yīng)坐標(biāo)。相反,人口稀疏的地區(qū)編碼精度就越低。該研究表明,地理編碼精度會受到城市空間結(jié)構(gòu)的影響。然而,當(dāng)前研究的一個重要假設(shè)是門牌號/樓號空間連續(xù)、規(guī)則排列,且與建筑物一一對應(yīng)[1,4,8-10]。在遇到地址庫中不存在的門牌號/樓號時,可以利用插值算法獲取對應(yīng)坐標(biāo)。當(dāng)?shù)刂窋?shù)據(jù)不規(guī)則時,就可能會導(dǎo)致較大的編碼誤差。
與西方的城市地址不同,中國的城市地址類型復(fù)雜[2-3,11-12],既有沿著道路線性分布的道路地址,也有按照一定規(guī)則排列的小區(qū)內(nèi)地址。這種地址分布的差異給地理編碼精度提升帶來了更大的挑戰(zhàn)。
道路地址情況比較復(fù)雜。有的道路門牌號排列比較規(guī)則,號碼完整;有的位于尚未城市化改造的城中村或已經(jīng)改造過的傳統(tǒng)街區(qū),這類小區(qū)內(nèi)建筑物形狀復(fù)雜,空間分布緊湊,門牌地址雜亂無序,往往存在相鄰小區(qū)犬牙交錯、局部包容的狀態(tài)。受到拆遷的影響,許多的建筑物被移除,導(dǎo)致小區(qū)門牌號不連續(xù)。此外,有的居民對建筑結(jié)構(gòu)進(jìn)行了改造甚至擴(kuò)建,導(dǎo)致一個門牌號對應(yīng)多個建筑物。這些問題導(dǎo)致地址數(shù)據(jù)庫中的地址存在門牌號/樓號缺失、空間上不連續(xù)、分布不規(guī)則、與建筑物不對應(yīng)等問題。當(dāng)一個地址無法準(zhǔn)確匹配時,地理編碼算法不僅很難通過插值的方式找到匹配對象,甚至可能帶來更大的空間誤差。
與之相比,封閉小區(qū)外部設(shè)有圍墻,內(nèi)部為規(guī)則排列的樓房,地籍權(quán)屬明確,樓號排序規(guī)則(見圖1)。有研究表明高達(dá)82%的新建小區(qū)為封閉小區(qū)[13]。按照國家房產(chǎn)測量規(guī)范對于小區(qū)的編碼規(guī)定,每個小區(qū)都擁有一個獨(dú)立的門牌號碼。小區(qū)內(nèi)部的建筑物幢號排序統(tǒng)一按照規(guī)范要求,“從進(jìn)大門起,從左到右,從前到后,按照‘S’形編號[14]。每棟樓的地址是小區(qū)門牌號地址加上樓號單元(通常以“*幢”表示)構(gòu)成,如“江蘇省南京市秦淮區(qū)秦虹南路52號秦虹小區(qū)2幢”。
小區(qū)地址與道路地址之間空間結(jié)構(gòu)的顯著差異可能會引起地理編碼精度的差異。針對這一問題,本文重點(diǎn)比較兩類地址之間編碼精度的差異。同時,為了比較不同編碼平臺對這種差異的敏感性,本文采用目前可用的4個網(wǎng)絡(luò)地理編碼平臺分別對兩類小區(qū)的地址進(jìn)行編碼計(jì)算。
將N市核心區(qū)作為研究區(qū)域。該區(qū)位于城市中部,下轄12個街道、112個社區(qū),總面積49.11 km2,常住人口約74萬人。該區(qū)域內(nèi)住宅居民人數(shù)多,有大量的封閉式和道路地址。研究區(qū)域內(nèi)有從明清朝代遺留下來的傳統(tǒng)街區(qū),雖然有部分改造成了旅游景點(diǎn),但仍有大量的市民居住其中。這些區(qū)域內(nèi)的房屋大多為獨(dú)立房屋或院落,受城市改造的影響,區(qū)域內(nèi)存在門牌號不連續(xù)、不規(guī)則甚至一個地址多個建筑的問題(見圖1)。此外,該區(qū)域內(nèi)也有大量新開發(fā)的小區(qū),這些小區(qū)的地址排列規(guī)則,數(shù)據(jù)相對完整。
研究采用近年來的入室盜竊數(shù)據(jù)作為研究對象。相比興趣點(diǎn)地址和疫情地址數(shù)據(jù),入室盜竊的案發(fā)地址單一,不存在第二地址的問題。此外,這些數(shù)據(jù)經(jīng)過報案人報警記錄,且經(jīng)過警察登記,保證地址信息完整的同時避免了口徑不一致導(dǎo)致的差異性問題。相對于其他數(shù)據(jù)來源,該數(shù)據(jù)每條地址包含了所在城市、區(qū)/縣、道路、小區(qū)及樓號等數(shù)據(jù),完整的數(shù)據(jù)結(jié)構(gòu)為地理編碼計(jì)算提供了理想的實(shí)驗(yàn)數(shù)據(jù)。依據(jù)小區(qū)類型分類,共有1 050個道路地址和1 229個小區(qū)地址。大部分地址數(shù)據(jù)集中在區(qū)域的中心位置,并形成以此為中心向周邊逐級擴(kuò)散的形態(tài)(見圖2)。
圖2 研究數(shù)據(jù)空間分布
利用獲取的地址數(shù)據(jù),本文通過以下操作流程獲取研究數(shù)據(jù),并開展實(shí)驗(yàn)研究。
(1)地址數(shù)據(jù)整理。將地址數(shù)據(jù)中不完整、不一致的信息去除掉。
(2)基于網(wǎng)絡(luò)地圖平臺的地理編碼計(jì)算?;诎俣?、高德、騰訊以及天地圖4個地圖平臺提供的API,將地址數(shù)據(jù)轉(zhuǎn)化為坐標(biāo)數(shù)據(jù)。百度地圖提供的是百度坐標(biāo),高德、騰訊以及天地圖平臺提供的是火星坐標(biāo)。因此,利用WanderGIS (2015)提供的火星坐標(biāo)/百度坐標(biāo)轉(zhuǎn)換程序?qū)⒁陨献鴺?biāo)轉(zhuǎn)換為WGS84坐標(biāo)。
(3)真實(shí)位置獲取。利用已有的地籍?dāng)?shù)據(jù)庫對地址數(shù)據(jù)進(jìn)行配準(zhǔn),并采用人工校正的方式對數(shù)據(jù)進(jìn)行糾正。將人工糾正后的坐標(biāo)數(shù)據(jù)作為真值,并用于數(shù)據(jù)的比較分析當(dāng)中。
(4)誤差分布分析。利用編碼平臺獲取的WGS84坐標(biāo)與人工糾正的數(shù)據(jù)比較,獲取誤差相對真值的相對位置。基于誤差分布制作雷達(dá)圖,對各個平臺形成的雷達(dá)圖進(jìn)行比較,分析各個平臺在編碼封閉小區(qū)和道路地址之間的精度差異(見表1)。
(5)誤差統(tǒng)計(jì)分析。通過對誤差的統(tǒng)計(jì),分析各個平臺編碼誤差的統(tǒng)計(jì)差異。
(6)累計(jì)圖比較。通過累計(jì)圖的比較,分析各個平臺編碼誤差在不同量級上的分布差異。
表1 封閉小區(qū)與非小區(qū)地址地理編碼誤差對比 單位:m
(7)分析并得出結(jié)論。從統(tǒng)計(jì)的角度分析各個平臺之間在統(tǒng)計(jì)上的差異以及產(chǎn)生原因,并與以往的研究比較,驗(yàn)證平臺的優(yōu)劣勢。比較封閉小區(qū)與道路地址精度的差異,找出哪一類社區(qū)地址的編碼精度高,并分析原因(見圖3)。
圖3 地理編碼及數(shù)據(jù)分析流程
由表1可以看出4個地圖平臺的編碼結(jié)果精度存在一定差異。針對小區(qū)地址數(shù)據(jù),騰訊地圖的編碼結(jié)果誤差均值最大(115.71 m),其他3個平臺的誤差未發(fā)現(xiàn)太大的差異(59.81 m,50.71 m)。針對非小區(qū)地址數(shù)據(jù),騰訊地圖的誤差均值略高(278.83 m),其余幾個編碼平臺的編碼誤差(223.30 m,225.08 m)沒有太大的差異。這與以往關(guān)于地理編碼平臺精度差異的研究結(jié)論不同[2,11]。在田沁等[2]的研究中,騰訊的編碼精度最高,而高德、搜狗的編碼精度最低。其原因可能包括3個方面。第一,文中采用的是房屋地址數(shù)據(jù),而不是POI(興趣點(diǎn))數(shù)據(jù)。POI數(shù)據(jù)存在大量的名稱相似,甚至名稱一致的情況(比如:鼓樓區(qū)中山路、玄武區(qū)中山路),名稱存在大量字段相似,容易導(dǎo)致地址匹配出現(xiàn)較大的誤差。而小區(qū)和小區(qū)樓號數(shù)量少,且存在相似或重復(fù)的情況也少,因此匹配的誤差更小。第二,文中采用的數(shù)據(jù)位于城市的主城區(qū)。廖薇薇等[11]的研究采用的數(shù)據(jù)覆蓋全市,其中包含了部分郊區(qū)。與郊區(qū)相比,市中心人口密集,數(shù)據(jù)庫地址豐富,為地理編碼匹配提供了大量的參考地址。第三,近年來百度地圖的編碼地址算法不斷升級,地址庫數(shù)據(jù)也在不斷更新和豐富,因此地理編碼算法的精度會有所提升。
從編碼誤差的分布來看,4個平臺在識別地址性能方面也存在較大的差異。針對小區(qū)地址,4個平臺的編碼誤差大多集中在1 km以內(nèi),而道路地址的編碼誤差大量超過1 km,其中有部分超過2 km。在4個平臺之間,騰訊計(jì)算小區(qū)地址的誤差相對聚集。此外,幾個平臺編碼誤差未見較大的空間差異,這可能是由于圖4的制圖范圍在2 km以內(nèi),只有各個平臺之間的編碼誤差較大、數(shù)量多時才能通過這種制圖方式反映出來。
編碼誤差的百分位分布進(jìn)一步表明了幾個平臺編碼誤差的差異(見表2)。針對小區(qū),百度、天地圖在85%分位和95%分位的誤差最小(百度98 m,187 m,天地圖95 m,187 m),高德在85%分位和95%分位的誤差最大(201 m,496 m);針對開放式小區(qū),騰訊在85%分位和95%分位的誤差最小(207 m,493 m),高德在85%分位和95%分位的誤差最大(290 m,502 m)。
針對小區(qū)地址,百度和天地圖產(chǎn)生大誤差的比例較少,而高德產(chǎn)生大誤差的數(shù)量較多;針對道路地址,騰訊產(chǎn)生大誤差的比例較少,而高德產(chǎn)生大誤差的數(shù)量較多。
表2 4個平臺地理編碼誤差累計(jì)百分比 單位:m
不同平臺誤差的分布更細(xì)致地刻畫了各個平臺編碼誤差的分布情況(見圖4)。針對小區(qū)地址,百度地圖和天地圖中誤差線長度在100 m以內(nèi)的地址數(shù)量占比為85%左右,誤差線長度在180 m以內(nèi)的地址數(shù)量占比達(dá)95%;騰訊地圖和高德地圖中85%分位所對應(yīng)的誤差線長度分別為150 m和200 m, 95%分位對應(yīng)的誤差線長度分別達(dá)到300 m和480 m。
不同的地圖平臺中所對應(yīng)的地理編碼精度存在差異。針對開放式小區(qū),在4類平臺中誤差線長度在200 m以內(nèi)的小區(qū)數(shù)量占比為85%左右,與小區(qū)相比,顯然其誤差更大;而且同一地圖平臺中從小區(qū)地址和道路地址數(shù)據(jù)對比中可以發(fā)現(xiàn),當(dāng)小區(qū)數(shù)量累計(jì)占比達(dá)到85%和95%時,4個平臺對小區(qū)地址的編碼精度都高于道路地址的精度。這一結(jié)果與表1中對于均值的統(tǒng)計(jì)結(jié)果一致,說明小區(qū)地址的編碼精度普遍高于非小區(qū)地址的編碼精度,這與本研究對于這一問題的猜想相一致。
由累計(jì)曲線的走勢(見圖5)可以看出,4類平臺中道路地址相比于小區(qū)曲線增長更為緩慢,并始終低于小區(qū)的累計(jì)曲線;小區(qū)地址和道路地址累計(jì)曲線的總體走勢均為先陡增再緩慢增長,但小區(qū)地址的增長速度始終高于道路地址。兩類曲線均在最初的200 m范圍內(nèi)增長最為迅速,并隨著誤差大小的增加,曲線縱坐標(biāo)的增長速度逐漸下降,說明小區(qū)地址的編碼誤差更集中。相比之下,道路地址誤差的分布值域更廣。
圖4 4個網(wǎng)絡(luò)編碼平臺針對封閉小區(qū)與非小區(qū)地址編碼誤差分布
由不同的平臺所得到的累計(jì)曲線分布圖可以看出,百度地圖和天地圖的曲線形狀較相近。因此判斷百度和天地圖使用的編碼地址參考庫和算法的一致性比較強(qiáng),且高精度匹配的比例更高;高德地圖的曲線最緩,產(chǎn)生小誤差的比例較低,大誤差的比例較高;騰訊地圖的編碼結(jié)果位于中間。
圖5 4種平臺地理編碼誤差累計(jì)曲線
綜合看來,小區(qū)地址的編碼精度全面優(yōu)于道路地址的編碼精度,這一結(jié)論在4個地理編碼平臺中表現(xiàn)比較一致。該結(jié)果驗(yàn)證了本研究關(guān)于編碼平臺針對小區(qū)地址與道路地址編碼精度差異的設(shè)想。即封閉小區(qū)在空間上存在邊界,編碼誤差受到地理邊界的約束而限制在一定范圍內(nèi),道路地址的邊界模糊,因而編碼誤差容易較大。隨著城市化進(jìn)程加速,許多房屋拆遷改造導(dǎo)致小區(qū)形狀不規(guī)則,使誤差沒有地理邊界的約束。此外,新小區(qū)內(nèi)地址一般分布比較規(guī)律。
(1)小區(qū)地址的編碼精度較高,道路地址的編碼精度相對較低。這一結(jié)論在4個網(wǎng)絡(luò)編碼平臺的結(jié)果具有一致性。這主要與城市的結(jié)構(gòu)有關(guān),需要針對不同的地址類型開發(fā)相應(yīng)的匹配算法。道路地址分布結(jié)構(gòu)雜亂無序,利用地理編碼進(jìn)行精度配準(zhǔn)時,偶然性較大,即使地圖平臺內(nèi)部的算法十分完善,也無法完全降低道路地址配準(zhǔn)不可控性的發(fā)生,使得相對于小區(qū)而言,其地理編碼配準(zhǔn)的精度較低,誤差較大。小區(qū)分布結(jié)構(gòu)有序,利用地理編碼進(jìn)行插值算法時能夠更加快速定位小區(qū)單元樓號,使得地址匹配準(zhǔn)確率更高,誤差較小。
(2)針對同類型的地址,各編碼平臺之間存在精度的差異。百度和天地圖在小區(qū)地址匹配中精度更高,高德在小區(qū)地址匹配中精度最低;騰訊在開放式小區(qū)地址匹配中精度更高,高德在開放式小區(qū)地址匹配中精度最低。表明平臺在解碼粗粒度地址和細(xì)粒度地址之間的能力存在差異。編碼結(jié)果中大誤差比例高說明編碼平臺對于粗粒度地址識別能力弱。封閉小區(qū)誤差小說明小區(qū)識別能力強(qiáng);道路地址誤差大且比例高,說明平臺對于粗粒度地址(如道路、區(qū)縣)識別能力弱。編碼結(jié)果小誤差比例高,說明平臺針對小區(qū)地址識別能力弱。平臺地址庫中的樓號地址完整性有待豐富,匹配算法有待改善。道路地址小誤差多說明樓號/門牌號地址不完整,插值算法精度有待提高。
(3)綜合各個平臺編碼結(jié)果的差異,可以給地理編碼平臺提出建議:針對封閉小區(qū)的地址,百度和天地圖匹配小區(qū)/道路的能力較強(qiáng),樓號/門牌號地址編碼能力有待進(jìn)一步提升;高德地圖匹配小區(qū)/道路,甚至區(qū)縣的能力較弱,這類粗粒度地址的編碼能力有待進(jìn)一步提升;針對非小區(qū)地址,騰訊產(chǎn)生大誤差的比例較少,說明騰訊在粗粒度的地址庫構(gòu)建和匹配能力上較好;而高德產(chǎn)生大誤差的數(shù)量較多,說明高德地圖粗粒度地址庫的構(gòu)建及匹配能力較弱。
(1)研究區(qū)域及數(shù)據(jù)的制約。由于研究區(qū)域僅為一個城市的部分區(qū)域,而研究數(shù)據(jù)為犯罪數(shù)據(jù)。本文的研究成果是否適用于其他城市和區(qū)域(如城鎮(zhèn)及鄉(xiāng)村地區(qū)),以及其他數(shù)據(jù)類型(如POI數(shù)據(jù)、疾病數(shù)據(jù))仍值得進(jìn)一步探討。
(2)如何利用本文的結(jié)果提升編碼精度仍值得進(jìn)一步研究。本文通過對比性分析總結(jié)了封閉小區(qū)與道路地址編碼誤差的差異,但如何利用這些結(jié)果提升編碼的精度仍值得進(jìn)一步研究。