顧及位置關(guān)系的網(wǎng)絡(luò)POI地址信息標準化處理方法

2016-09-06 09:13:21劉紀平郭慶勝

測繪學報 2016年5期

關(guān)鍵詞：待處理要素標準化

王　勇，劉紀平，郭慶勝，羅　安

1. 武漢大學資源與環(huán)境科學學院，湖北武漢 430079； 2. 中國測繪科學研究院，北京 100830

顧及位置關(guān)系的網(wǎng)絡(luò)POI地址信息標準化處理方法

王勇1,2，劉紀平2，郭慶勝1，羅安2

1. 武漢大學資源與環(huán)境科學學院，湖北武漢 430079； 2. 中國測繪科學研究院，北京 100830

Foundation support： The National High-tech Research and Development Program of China (863 Program) (Nos.2012AA12A402;2013AA12A403) ; The National Natural Science Foundation of China (No.41471384); Research Projects of Public Welfare for Surveying and Mapping Industry(Nos. 201512021;201512032 )

針對互聯(lián)網(wǎng)POI(興趣點)地址信息中廣泛存在的地址要素不完整、文字表達不一致等不規(guī)范現(xiàn)象，提出一種顧及位置關(guān)系的網(wǎng)絡(luò)POI地址信息標準化處理方法，首先對POI信息進行切分提取并逐層匹配地址樹模型；然后基于4種位置關(guān)系從標準POI庫中選出相應(yīng)集合，作為豐富和修正非標準POI地址要素的候選；最后通過最小粒度地址要素的回溯，實現(xiàn)POI地址信息的快速標準化處理。試驗表明該方法可以獲得較高的準確率，尤其適用于在互聯(lián)網(wǎng)數(shù)據(jù)環(huán)境中的POI地址信息標準化。

網(wǎng)絡(luò)POI；地址樹；位置關(guān)系；地址標準化

近年來，隨著互聯(lián)網(wǎng)地理信息服務(wù)的蓬勃發(fā)展，網(wǎng)絡(luò)POI已經(jīng)成為大數(shù)據(jù)時代一種重要的空間信息資源。在我國，網(wǎng)絡(luò)POI主要來源于地圖服務(wù)商和用戶標注，不同地圖數(shù)據(jù)提供者對于同一個地址的文字表達不盡相同，而用戶標注中的地址信息也經(jīng)常以口述和簡化表達的方式來描述，使得同一個地址可能出現(xiàn)多種不同的文字表達，導致來源不同的POI數(shù)據(jù)融合困難，難以發(fā)揮多源信息的聚合作用。

地址標準化處理是網(wǎng)絡(luò)POI數(shù)據(jù)清洗、融合與分析的重要內(nèi)容，是實現(xiàn)地址編碼(geocoding)等網(wǎng)絡(luò)服務(wù)的重要基礎(chǔ)[1-8]，其核心是將不規(guī)范、不完整的“非標準”地址信息以符合常見地址表達模型的方式進行“規(guī)范化”處理和表達。現(xiàn)有的商業(yè)化地址標準化處理工具如ArcGIS的Address Geocoding、MapInfo的MapMarker、Oracle的Spatial Geocoder等，均基于內(nèi)嵌判別規(guī)則來實現(xiàn)地址標準化[9-10]；文獻[11]通過構(gòu)建專家系統(tǒng)實現(xiàn)中文地址的標準化；文獻[12—13]通過構(gòu)建多層地址規(guī)則實現(xiàn)地名地址向標準化表達模型的轉(zhuǎn)化；文獻[14]采用決策樹模型實現(xiàn)地址模式匹配。以上方法均需要構(gòu)建大量領(lǐng)域規(guī)則或基于規(guī)則形成專家系統(tǒng)，這些方法能較好地滿足英文地址信息的標準化與位置匹配要求，但對于中文地址信息處理效果較差，且規(guī)則構(gòu)建過程需要大量人工參與。相比而言，機器學習方法可以基于大量標準化地址樣本自動構(gòu)建出地址要素間的組合規(guī)則，從而支持非標準化地址信息的標準化處理[15-22]，因而可移植性更強。文獻[17]利用機器訓練后獲得的地址語料庫及相關(guān)規(guī)則，通過局部模糊匹配實現(xiàn)地名地址解析與標準化；文獻[20]利用半監(jiān)督機器學習方法，基于HMM訓練模型實現(xiàn)地名地址標準化；文獻[21]通過總結(jié)中文地址模型的內(nèi)部規(guī)則與空間約束關(guān)系，提出基于可擴展地址樹的標準地址提取方法。然而，由于漢語言文字固有的地址描述信息不帶分隔符等特點，使得基于機器學習的方法也存在樣本需求較大、訓練周期較長、標準化準確率較低等弊端。

以上基于規(guī)則和基于機器學習的地址標準化方法，側(cè)重從純文本(地址文本)分析角度挖掘地址信息的組合規(guī)則，而對POI的位置屬性卻未充分加以利用。本文試圖提出一種顧及空間位置關(guān)系的網(wǎng)絡(luò)POI地址信息標準化處理方法，以可擴展中文地址樹模型為指導，首先基于特征詞對待處理POI的地址信息進行地址要素切分、識別并與地址樹模型逐層匹配，其次將待處理POI的地理坐標與標準參考庫進行位置關(guān)系計算并形成參考對象庫，最后根據(jù)最佳匹配結(jié)果完成待處理POI地址信息的標準化處理。

1　中文地址模型

1.1中文地址的層次模型

中文地址模型是一種基于層次關(guān)系的排列模型，可分為政區(qū)級地址要素、街區(qū)級地址要素、門牌級地址要素3個層級，其中：政區(qū)級要素可細分為國家名、省名、市名、區(qū)縣名、鄉(xiāng)鎮(zhèn)名等；街區(qū)級要素一般表現(xiàn)為道路、街巷、住宅區(qū)等基礎(chǔ)限定物；門牌級要素一般表現(xiàn)為樓牌號、單位名稱、標志物等局部點位置描述。針對中文地址的結(jié)構(gòu)特征，以及目前我國地址模型存在多套標準的現(xiàn)狀，本文設(shè)計了一種包含行政區(qū)劃、基礎(chǔ)地址限定物、局部點位置描述的3層地址樹模型，如圖1所示。

圖1　地址樹模型的構(gòu)成Fig.1　Composition of the address model

1.2地址要素組合的限定關(guān)系

一個完整的中文地址由政區(qū)級、街區(qū)街、門牌級等3層要素構(gòu)成，各層要素還可細分為不同的級別。對于某個具體的地址實例而言，上下級地址要素實例需要遵循一定的限定關(guān)系(通常為行政或管理意義上的隸屬關(guān)系)，如圖2所示。這種要素實例的限定/映射關(guān)系普遍存在，是實現(xiàn)地址標準化尤其是缺失地址要素補全的重要依據(jù)。

2　POI地址信息標準化處理

本文提出的POI地址信息標準化處理流程為：首先基于特征詞典實現(xiàn)要素識別與切分，將輸入的地址信息分割為多個地址要素；其次，通過匹配地址要素，構(gòu)建各級要素的層次關(guān)系，形成地址樹；再次，通過位置關(guān)系計算篩選出與待標準化POI緊密相關(guān)的參考樣本；最后利用最小粒度回溯法，基于參考POI實現(xiàn)地址信息中缺失要素自動填充與標準化。

圖2　地址要素組合關(guān)系圖Fig.2　Relations of elements in the address tree

2.1地址要素識別與切分

中文地址要素通常采用“專名+通名”的組合方式進行描述，如“北京市”、“海淀區(qū)”、“中關(guān)村創(chuàng)業(yè)大廈”。其中，通名是表征地址要素級別或類型的特征詞，如“市”、“區(qū)”、“大廈”；一個地址要素中除掉通名部分如“北京”、“海淀”、“中關(guān)村創(chuàng)業(yè)”即為專名，專名通常與通名相配合來完整表達一個地址要素。利用通名特征詞可以很好地實現(xiàn)地址要素的切分和識別，本文使用的特征詞庫如表1所示。

表1　地址要素類別與通名(特征詞)列表

2.2地址要素逐層匹配

在對地址信息進行要素切分后，需要根據(jù)地址樹模型匹配處理，具體匹配方法是：讀取一個待處理的地址信息后，首先按照2.1節(jié)所述的要素組成規(guī)則及特征詞，將其切分為若干最小粒度的地址要素，然后順次將各個地址要素與地址樹模型的各個層次進行匹配。一旦某要素與地址樹模型中的某一級別匹配成功，就將待處理的下一個地址要素與當前匹配級別的下級節(jié)點進行逐層比較直至成功匹配；若匹配失敗，則將其作為成功匹配出的上級要素的下級節(jié)點。如此循環(huán)，直到所有地址要素都匹配成功或都已經(jīng)加入到地址樹中。

地址要素匹配主要有3種情況：完全匹配、粗粒度匹配、細粒度匹配。

完全匹配：當能夠從地址樹中完全匹配到從地址信息中切分出的地址要素時，該地址樹無須進行擴展，具體情況見匹配路徑(圖3(a))，這屬于完全匹配情況。

粗粒度匹配：根據(jù)切分出的地址要素的上下層次關(guān)系，上層較粗粒度的地址要素匹配成功，但下層細粒度的地址要素無法匹配成功。此時，可自動將細粒度地址要素添加到地址樹中，匹配過程見圖3(b)、(c)、(d)3條路徑，其中虛線為擴展。

細粒度匹配：在匹配過程中，地址樹中間某層的地址要素無法匹配成功，該情況下可將未匹配成功的地址要素，插入到地址樹中，并建立地址樹的父子語義關(guān)系，匹配過程見圖3(e)的匹配路徑。

圖3　地址樹中地址要素的匹配示意圖Fig.3　Matching of address elements in address tree

2.3顧及位置關(guān)系的參考樣本選取

POI的地理位置與其地址描述具有強烈的關(guān)聯(lián)關(guān)系，因此，待處理POI與標準化POI之間的位置關(guān)系對提升地址標準化效果具有重要參考價值。根據(jù)對地址標準化的影響程度，本文重點考慮歐氏距離、從屬同一區(qū)域、從屬同一線狀要素和從屬同一點狀要素等4類位置關(guān)系。假定P1為待處理的POI，P2為地址信息已經(jīng)標準化的POI，Pixq、Piy分別代表Pi點的地理坐標，則4種位置關(guān)系(圖4)的定義及計算方法如下：

圖4　4種位置關(guān)系示意圖Fig.4　Four types of positional relations

歐氏距離：以POI之間的直線距離來表示，其計算公式為

(1)

歐氏距離一般只用于POI點比較稀少且路網(wǎng)、居民地較為稀少的農(nóng)村或邊遠地區(qū)，主要作為一種弱空間相關(guān)的參考POI樣本選取據(jù)。在地址標準化參考樣本選取時，可以設(shè)定一個距離閾值N，當標準化POI與待處理POI的距離大于閾值N時，將不作為地址標準化處理的樣本。對我國縣級行政區(qū)的面積進行統(tǒng)計發(fā)現(xiàn)最小面積為56 km2，本文以面積相當?shù)膱A反算對應(yīng)半徑，因此將距離閾值設(shè)置為N=4.2 km。

從屬同一區(qū)域：表示兩個POI點處于同一個面狀地理對象范圍內(nèi)，即被同一個面狀地理對象包含，如同一行政區(qū)劃市包含關(guān)系、同一行政區(qū)劃區(qū)包含關(guān)系、同一社區(qū)包含關(guān)系等。

Area(Ai,Pm,Pn)=PtInArea(Pm,Ai)&

PtInArea(Pn,Ai)

(2)

式中，Area(Ai,Pm,Pn)表示點Pm、Pn同時被面對象Ai包含范圍；PtInArea用于判斷某點P是否被面對象A包含，計算公式如下

PtInArea(P,Area)={?Area[i],Area[j]|(Px-Area[i]x)*(Area[j]y-Area[i]y)-

(Area[j]x-Area[i]x)*(Py-Area[i]y)<0}

(3)

式(3)通過計算P與Area中任意兩點Area[i]、Area[i]的向量叉積是否小于0，判斷點P是否被面對象Area包含。

從屬同一線狀要素：表示兩個POI點同處于某一個線性地理對象上，如相同道路附屬關(guān)系、相同街道附屬關(guān)系等

Line(Li,Pm,Pn)=PtOnLine(Pm,Li)&

PtOnLine(Pn,Li)

(4)

式中，Line(Li,Pm,Pn)表示點P、P2同屬于線對象Li。PtOneLine用于判斷是否位于某個線對象上，計算公式如下

PtOnLine(P,Line)={?Line[i]|Dist

(P,Line[i])=0}

(5)

式中，Line[i]為構(gòu)成Line的任一線段；Dist(P,Line[i])表示點與和線段的歐氏距離。

從屬同一點狀要素：表示兩個POI點處于同一點狀對象或同一地理位置，如屬于同一座大廈、位于同一個單元號、或位于同一個地理坐標

Dist(P1,P2)=0‖Dist(P1,P2)

(6)

式中，Dist(P1,P2)表示點P1、P2的歐氏距離；M為實際計算中判斷為共點關(guān)系的閾值。在地址標準化處理中，可作為參考POI的一般為相對固定的點狀交通管線要素(如公交站、電線桿)和地標物(如大廈、廣場等)。因此本文在重點參考城市道路、建筑設(shè)計等相關(guān)規(guī)范(詳見表2)的基礎(chǔ)上，設(shè)定閾值M=3.5m。

表2　共點距離閾值M設(shè)置的主要參考依據(jù)

2.4地址要素填充與標準化處理

根據(jù)位置關(guān)系對地址標準化的影響程度，給出如下強弱關(guān)系排序為：共點關(guān)系>共線關(guān)系>從屬同一區(qū)域關(guān)系>歐氏距離關(guān)系。在給定一個具有標準化地址信息的POI數(shù)據(jù)集后，可以為某個待處理的POI計算出對應(yīng)于4種位置關(guān)系的參考POI集合，分別為Mpt(滿足共點關(guān)系的集合)、Mln(滿足共線關(guān)系的集合)、Mar(從屬同一區(qū)域關(guān)系的集合)、Md(符合歐氏距離閾值條件的集合)。依次從4個數(shù)據(jù)集中選取標準地址作為參考，對待處理POI地址信息中的“缺位”的地址要素進行自動填充，并使地址信息標準化盡可能達到地址要素的最小粒度。具體分為3種情況：

(1) 基于共點匹配的地址標準化：當Npt>0時，可以根據(jù)參考POI的地址信息實現(xiàn)門牌級地址要素標準化。首先通過文本相似度計算，篩選出與待處理地址具有最大文本相似度的POI作為候選；若候選POI個數(shù)大于1，則取距離最近的作為標準化依據(jù)。后續(xù)的地址標準化處理流程為：以待處理POI地址的最小粒度要素為起點，逐層追溯參考POI的上級地址要素直至最頂層，然后將各級要素的名稱順序串聯(lián)起來。

(2) 基于共線/共面關(guān)系的地址標準化：當Npt=0&(Nln>0‖Nar>0)時，門牌級地址要素匹配失敗，但可以根據(jù)共線或共面位置關(guān)系匹配到關(guān)聯(lián)POI。在這兩種情況下，可以回溯到門牌級地址要素的上一級，再根據(jù)上一級地址要素與地址樹的匹配情況進行處理：①如果該要素的上一級地址要素匹配成功，則找出所有以該上一級地址要素為父節(jié)點的地址要素，并依次與當前地址要素進行相似度計算，選取相似度最高的地址要素作為地址標準化的參考節(jié)點，然后再從該參考地址要素為起點，逐層追溯其所有的上級地址要素，直至地址樹的最頂層，從而實現(xiàn)中文地址的標準化處理；②如果該要素的上一級地址要素仍然匹配失敗，則依次循環(huán)，繼續(xù)回溯到更上一級的地址要素進行匹配，直到匹配成功，最終完成地址標準化處理。

(3) 基于歐氏距離的地址標準化：當Npt=0&Nln=0&Nar=0即不存在與該POI共點/共線/共面的參考POI資源時，可以通過歐氏距離計算來選擇參考POI。根據(jù)Md中POI對象的地址信息，利用文本相似度進行匹配。如果匹配成功，則以該參考地址要素為起點進行地址標準化處理；如果失敗，則不以該POI地址作為標準化參考。

3　試驗與分析

3.1算法試驗

本文以北京市為例，選取4家互聯(lián)網(wǎng)地圖商的POI數(shù)據(jù)進行試驗，以其中2家互聯(lián)網(wǎng)地圖商的地址數(shù)據(jù)作為基礎(chǔ)匹配資源庫，另外2家地址數(shù)據(jù)作為待處理的測試數(shù)據(jù)。測試中，基礎(chǔ)匹配庫分別設(shè)置了3萬和6萬兩個級別的數(shù)據(jù)量，待處理測試數(shù)據(jù)的數(shù)量分別為5000、8000、10 000、15 000、20 000、25 000，測試結(jié)果如圖5所示。其中，a1、b1表示基礎(chǔ)POI資源庫有3萬條地址數(shù)據(jù)時的匹配率曲線，a2、b2則表示基礎(chǔ)POI資源庫數(shù)量增加至6萬條時的匹配率曲線。

從圖5可看出：①不同來源的地址數(shù)據(jù)標準化的正確率不完全相同，其原因是由于不同來源的網(wǎng)絡(luò)POI地址表達方式不盡相同，地址表達相對規(guī)范或與某一地址模型更為接近的數(shù)據(jù)源，其地址標準化正確率也相對高些；②隨著基礎(chǔ)POI資源庫數(shù)量的增大，尤其是能基本覆蓋整個試驗地區(qū)后，地址標準化將獲得更高的正確率，可達90%左右。

圖5　中文地址標準化試驗結(jié)果對比Fig.5　Comparison of experimental result for address standardization

3.2算法討論

本文提出的地址標準化方法，其處理效果與參考POI數(shù)據(jù)的豐富程度密切相關(guān)，因為參考數(shù)據(jù)越多，為待標準化地址的各級要素匹配到對應(yīng)參考對象的幾率就越大，從而使缺失的地址要素得以補全、較粗粒度的地址信息也得以提升到更細粒度。在網(wǎng)絡(luò)數(shù)據(jù)環(huán)境中，由于地圖服務(wù)提供的POI數(shù)量龐大且地址信息較為規(guī)范，使得本文提出的基于位置關(guān)系POI地址標準化方法具有相當?shù)目尚行浴?/p>

以北京市為例，當基礎(chǔ)參考信息為行政區(qū)劃數(shù)據(jù)即北京市所轄各區(qū)時，待標準化處理的POI數(shù)據(jù)如表3所示，其標準化匹配遍歷及結(jié)果如圖10。主要存在兩種情況：

(1) 成功標準化：POI4-POI8的地址標準化處理可以以POI1-POI3的地址要素為參考樣本，同時也能自動修正與填充POI1-POI3中地址缺失的地址要素。

(2) 標準化失?。簩τ赑OI10地址為“北京西絨線胡33號”，由于地址要素“西城區(qū)”與“西絨線胡”在其他POI中從未出現(xiàn)，導致該條POI地址標準化失敗。

3.3與傳統(tǒng)方法比較

基于規(guī)則匹配和純文本機器學習等傳統(tǒng)中文地址信息標準化處理方法[11,20]，都聚焦在對“地址文本”進行分析處理，而對因地理坐標派生的“位置關(guān)系”及其參考資源考慮較少。此外，基于規(guī)則匹配的方法由于需要人工構(gòu)建地址信息的規(guī)則庫和專家?guī)?，較為耗時耗力，通用性較差，地址標準化效果受規(guī)則庫質(zhì)量的影響較大；純文本機器學習方法多采用半監(jiān)督學習方法，具有較高的通用性，可以獲得較高的準確率。

表3　POI地址標準化匹配示例數(shù)據(jù)

與之相比，本文提出的顧及位置關(guān)系的地址信息標準化處理方法考慮了待處理POI與參考資源庫的位置關(guān)系，充分利用網(wǎng)絡(luò)POI數(shù)量龐大、樣本豐富的優(yōu)勢，在有效克服地址要素缺失、標準化粒度較粗等問題的同時達到較高準確率(表4)；無監(jiān)督學習方式也使得該方法具有較高通用性，可以很好地解決我國大部分城市的POI地址標準化問題。但在偏遠地區(qū)，由于受參考POI樣本數(shù)量限制，標準化效果與純文本機器學習方法相當。

表4　本文方法與傳統(tǒng)地址標準化方法的比較

4　結(jié)　論

本文提出一種顧及空間位置關(guān)系的網(wǎng)絡(luò)POI地址信息標準化處理方法，該方法基于可擴展中文地址樹模型，首先在對POI地址信息進行要素切分和匹配，其次通過基于地理坐標衍生的4種位置關(guān)系從標準參考庫中抽取出參考對象庫，最后根據(jù)共點、共線、共面等不同情況完成待處理POI地址信息的細粒度要素匹配和缺失要素填充。與傳統(tǒng)地址標準化方法相比，該方法充分利用了POI的坐標信息及其衍生位置關(guān)系，能夠明顯改善機器學習、規(guī)則匹配方法等傳統(tǒng)方法訓練和歸納成本較大、耗時耗力等問題，尤其在具有大量參考POI樣本資源的互聯(lián)網(wǎng)數(shù)據(jù)環(huán)境中具有更好的適用性和更高的準確率。目前本方法使用的位置關(guān)系較為簡單，相關(guān)閾值設(shè)定也主要為經(jīng)驗取值，在后續(xù)工作中將考慮增加更多的位置關(guān)系(如通達性)，并就相關(guān)閾值設(shè)置進行更多的討論，以使篩選出的候選目標對POI地址標準化具有更好的參考價值。

[1]GOLDBERGDW,WILSONJP,KNOBLOCKCA.FromTexttoGeographicCoordinates:TheCurrentStateofGeocoding[J].URISAJournal, 2007,19(1): 33-46.

[2]黃頌. 中文地址編碼技術(shù)的研究[D]. 北京: 北京大學, 2005.

HUANGSong.ResearchonChineseAddressCodingTechnology[D].Beijing:BeijingUniversity, 2005.

[3]陳細謙, 遲忠先, 金妮. 城市地理編碼系統(tǒng)應(yīng)用與研究[J]. 計算機工程, 2004, 30(23): 50-52.

CHENXiqian,CHIZhongxian,JINNi.ApplicationandStudyofCityGeocodingSystem[J].ComputerEngineering, 2004, 30(23): 50-52.

[4]江洲, 李琦, 王凌云. 空間信息融合與地理編碼數(shù)據(jù)庫的開發(fā)[J]. 計算機工程, 2004, 30(5): 1-2, 153.

JIANGZhou,LIQi,WANGLingyun.GeospatialInformationFusionandImplementationofGeocodingDatabase[J].ComputerEngineering, 2004, 30(5): 1-2, 153.

[5]李琦, 羅志清, 郝力, 等. 基于不規(guī)則網(wǎng)格的城市管理網(wǎng)格體系與地理編碼[J]. 武漢大學學報(信息科學版), 2005, 30(5): 408-411.

LIQi,LUOZhiqing,HAOLi,etal.ResearchonUrbanGridSystemandGeocodes[J].GeomaticsandInformationScienceofWuhanUniversity, 2005, 30(5): 408-411.

[6]程承旗, 關(guān)麗. 基于地圖分幅拓展的全球剖分模型及其地址編碼研究[J]. 測繪學報, 2010, 39(3): 295-302.

CHENGChengqi,GUANLi.TheGlobalSubdivisionGridBasedonExtendedMappingDivisionandItsAddressCoding[J].ActaGeodaeticaetCartographicaSinica, 2010, 39(3): 295-302.

[7]ZANDBERGENPA.AComparisonofAddressPoint,ParcelandStreetGeocodingTechniques[J].Computers,EnvironmentandUrbanSystems, 2008, 32(3): 214-232.

[8]薛明, 肖學年. 關(guān)于地理編碼幾個問題的思考[J]. 北京測繪, 2007(2): 54-56.XUEMing,XIAOXuenian.ConsideringonSomeQuestionsofGeocoding[J].BeijingSurveyingandMapping, 2007(2): 54-56.

[9]章意鋒, 吳健平, 程怡, 等.ArcGIS中地理編碼方法的改進[J]. 測繪與空間地理信息, 2007, 30(3): 116-119.

ZHANGYifeng,WUJianping,CHENGYi,etal.TheImprovementofGeocodinginArcGIS[J].Geomatics&SpatialInformationTechnology, 2007, 30(3): 116-119.

[10]朱前飛.MapInfo中的地理編碼及應(yīng)用[J]. 四川測繪, 2001, 24(3): 117-119.

ZHUQianfei.GeocodeandItsApplicationinMapInfo[J].SurveyingandMappingofSichuan, 2001, 24(3): 117-119.

[11]GUBin,JINYanfeng,ZHANGChang.StudyontheStandardizedMethodofChineseAddressesBasedonExpertSystem[C]∥ProceedingsoftheIEEE2ndInternationalConferenceonCloudComputingandIntelligentSystems(CCIS).Hangzhou:IEEE, 2012: 1254-1258.

[12]KOTHARIG,FARUQUIETA,SUBRAMANIAMLV,etal.TransferofSupervisionforImprovedAddressStandardization[C]∥Proceedingsofthe20thInternationalConferenceonPatternRecognition(ICPR).Istanbul:IEEE, 2010: 2178-2181.

[13]CHENLiyan,FANGYuan.TheDesignandResearchofStandardAddressDatabaseSystemBasedonWebGISinPanyu,Guangzhou[C]∥Proceedingsof2008InternationalSeminaronBusinessandInformationManagement.Wuhan:IEEE, 2008: 233-235.

[14]AUTHORITYTV.AddressDataContentStandardPublicReviewDraft[S]. [S.l.]:SubcommitteeonCulturalandDemographicData,FederalGeographicDataCommittee,2003.

[15]高紅, 黃德根, 楊元生. 漢語自動分詞中中文地名識別[J]. 大連理工大學學報, 2006, 46(4): 576-581.

GAOHong,HUANGDegen,YANGYuansheng.ChinesePlaceNamesRecognitionforChineseAutomaticSegmentation[J].JournalofDalianUniversityofTechnology, 2006, 46(4): 576-581.

[16]張春菊, 張雪英, 吉蕾靜, 等. 地名通名與地理要素類型的關(guān)系映射[J]. 武漢大學學報(信息科學版), 2011, 36(7): 857-861.ZHANGChunju,ZHANGXueying,JILeijing,etal.RelationMappingbetweenGenericTermsofPlaceNamesandGeographicalFeatureTypes[J].GeomaticsandInformationScienceofWuhanUniversity, 2011, 36(7): 857-861.

[17]唐旭日, 陳小荷, 張雪英. 中文文本的地名解析方法研究[J]. 武漢大學學報(信息科學版), 2010, 35(8): 930-935, 982.

TANGXuri,CHENXiaohe,ZHANGXueying.ResearchonToponymResolutioninChineseText[J].GeomaticsandInformationScienceofWuhanUniversity, 2010, 35(8): 930-935, 982.

[18]BOURLANDFJ,WALDENSC,BAKERCA.RichBrowser-basedInterfaceforAddressStandardizationandGeocoding:US, 20080065605[P]. 2008-03-13.

[19]MASREKMN,RAZAKZA.MalaysianAddressSemantic:TheProcessofStandardization[C]∥Proceedingsofthe2ndInternationalConferenceonComputerResearchandDevelopment.KualaLumpur:IEEE, 2010: 77-80.

[20]KALEEMA,GHORIKM,KHANZADAZ,etal.AddressStandardizationUsingSupervisedMachineLearning[C]Proceedingsof2011InternationalConferenceonComputerCommunicationandManagement.Singapore:IACSITPress, 2011, 5: 441-445.

[21]亢孟軍, 杜清運, 王明軍. 地址樹模型的中文地址提取方法[J]. 測繪學報, 2015, 44(1): 99-107.DOI: 10.11947/j.AGCS.2015.20130205.

KANGMengjun,DUQingyun,WANGMingjun.ANewMethodofChineseAddressExtractionBasedonAddressTreeModel[J].ActaGeodaeticaetCartographicaSinica, 2015, 44(1): 99-107.DOI: 10.11947/j.AGCS.2015.20130205.

[22]GUOHonglei,ZHUHuijia,GUOZhili,etal.AddressStandardizationwithLatentSemanticAssociation[C]∥Proceedingsofthe15thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACM, 2009: 1155-1164.

(責任編輯：宋啟凡)

WANGYong(1976—)，male，associateprofessor，majorsinretrievingandminingofWebgeospatialinformation.

The Standardization Method of Address Information for POIs from Internet Based on Positional Relation

WANG Yong1,2, LIU Jiping2, GUO Qingsheng1, LUO An2

1. School of Resource and Environmental Sciences, Wuhan University, Wuhan 430079, China； 2. Chinese Academy of Surveying and Mapping, Beijing 100830, China

As points of interest (POI)on the internet, exists widely incomplete addresses and inconsistent literal expressions, a fast standardization processing method of network POIs address information based on spatial constraints was proposed. Based on the model of the extensible address expression, first of all, address information of POI was segmented and extracted. Address elements are updated by means of matching with the address tree layer by layer. Then, by defining four types of positional relations, corresponding set are selected from standard POI library as candidate for enrichment and amendment of non-standard address. At last, the fast standardized processing of POI address information was achieved with the help of backtracking address elements with minimum granularity. Experiments in this paper proved that the standardization processing of an address can be realized by means of this method with higher accuracy in order to build the address database.

POIs from internet;addresses tree; positional relation；standalization of address

2015-12-08

2016-03-22

王勇(1976—)，男，副研究員，研究方向為網(wǎng)絡(luò)地理信息獲取與挖掘。

E-mail：wangyong@casm.ac.cn

10.11947/j.AGCS.2016.20150618.

WANG Yong, LIU JiPing, GUO QingSheng, et al.The Standardization Method of Address Information for POIs from Internet Based on Positional Relation[J]. Acta Geodaetica et Cartographica Sinica,2016,45(5):623-630. DOI:10.11947/j.AGCS.2016.20150618.

P208

1001-1595(2016)05-0623-08

國家863計劃(2012AA12A402；2013AA12A403)；國家自然科學基金 (41471384);國家測繪地理信息局公益科研專項(201512021；201512032)

引文格式：王勇，劉紀平，郭慶勝，等.顧及位置關(guān)系的網(wǎng)絡(luò)POI地址信息標準化處理方法[J].測繪學報，2016,45(5)：623-630.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

顧及位置關(guān)系的網(wǎng)絡(luò)POI地址信息標準化處理方法

1 中文地址模型

2 POI地址信息標準化處理

3 試驗與分析

4 結(jié) 論

1　中文地址模型

2　POI地址信息標準化處理

3　試驗與分析

4　結(jié)　論