朱明 何永寧 吳博
摘要:【目的】研究高并發(fā)、大流量農(nóng)業(yè)信息地理匹配引擎,改進(jìn)其算法,解決廣西區(qū)內(nèi)壯語地名匹配問題,實(shí)現(xiàn)農(nóng)業(yè)信息的自動(dòng)匹配與空間定位,以滿足農(nóng)業(yè)大數(shù)據(jù)平臺(tái)高并發(fā)、大流量的地理匹配需求。?!痉椒ā客ㄟ^改造開源的Solr全文搜索引擎,結(jié)合廣西地名中的少數(shù)民族語言特點(diǎn),擴(kuò)充地名詞典、設(shè)計(jì)數(shù)據(jù)組織方式與逆向分詞算法、改進(jìn)TF-IDF算法。【結(jié)果】在改進(jìn)方法的基礎(chǔ)上設(shè)計(jì)并實(shí)現(xiàn)了農(nóng)業(yè)地理信息地理匹配引擎。經(jīng)過第三方15484條數(shù)據(jù)測(cè)試,能夠準(zhǔn)確切分壯語地名,引擎在500并發(fā)下仍具有良好的響應(yīng)速度,匹配準(zhǔn)確率達(dá)98.43%。地理匹配引擎目前已應(yīng)用到糖業(yè)發(fā)展大數(shù)據(jù)平臺(tái)中,并取得了良好的效果?!窘ㄗh】針對(duì)測(cè)試中出現(xiàn)的問題,建議在下一步工作中擴(kuò)充并完善詞庫內(nèi)容、增強(qiáng)語義推理能力、研究基于空間語義的定位算法,提高廣西農(nóng)業(yè)信息的定位精度。
關(guān)鍵詞: 農(nóng)業(yè)信息;地理匹配引擎;地名分詞;地名檢索;地名匹配算法;廣西
中圖分類號(hào): S126;P208? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)志碼: A 文章編號(hào):2095-1191(2019)01-0201-07
0 引言
【研究意義】數(shù)據(jù)處理是農(nóng)業(yè)地理信息系統(tǒng)建設(shè)的主要工作之一。在農(nóng)業(yè)大數(shù)據(jù)時(shí)代,人工處理數(shù)據(jù)成本高、效率低,難以滿足面向海量數(shù)據(jù)的實(shí)際應(yīng)用需求。地理匹配引擎能根據(jù)農(nóng)業(yè)信息中的地名快速匹配空間位置,批量完成數(shù)據(jù)的空間化處理,為農(nóng)業(yè)地理信息系統(tǒng)的開發(fā)與應(yīng)用帶來極大的便利。在建設(shè)廣西糖業(yè)發(fā)展大數(shù)據(jù)平臺(tái)過程中,通過研發(fā)高效、準(zhǔn)確的農(nóng)業(yè)信息地理匹配引擎技術(shù),利用匹配引擎自動(dòng)完成海量農(nóng)業(yè)信息的空間定位,能有效解決壯語地名匹配問題,實(shí)現(xiàn)提高系統(tǒng)效能,降低人工處理數(shù)據(jù)成本,改善用戶體驗(yàn)等建設(shè)目標(biāo)。【前人研究進(jìn)展】在早期的地理匹配系統(tǒng)中,地理匹配一般利用通配符匹配,使用通配符構(gòu)建SQL搜索語句進(jìn)行模糊查詢。陳德權(quán)(2013)、梁明等(2014)研究表明使用通配符匹配簡單易行、實(shí)現(xiàn)難度較小,在數(shù)據(jù)量與用戶并發(fā)量較小的情況下效率較高。但由于使用通配符進(jìn)行查詢,在數(shù)據(jù)大幅增加后查詢效率下降明顯,且對(duì)于非標(biāo)準(zhǔn)名址無法通過簡單的模糊匹配檢索到相關(guān)結(jié)果。針對(duì)上述問題,柴潔(2014)、徐道柱等(2017)提出了基于全文搜索引擎的地理編碼系統(tǒng),實(shí)現(xiàn)了地址匹配搜索引擎模糊查詢、分級(jí)搜索,但未對(duì)中文分詞算法作進(jìn)一步完善,制約了中文地名匹配的準(zhǔn)確率。馬照亭等(2011)、夏蘭芳等(2012)總結(jié)認(rèn)為地名分詞器的關(guān)鍵技術(shù)是通過地名分詞算法、詞庫與分詞處理,將搜索關(guān)鍵詞按語義切分為包含若干地址要素或名稱要素。鄒崇堯等(2014)、陳利燕等(2016)、俞敬松等(2016)研究表明,地名匹配過程中由于中文本身的復(fù)雜性及地址信息描述規(guī)則的不確定性,使中文地名分詞成為地理匹配引擎中的技術(shù)難點(diǎn)。上述研究一定程度上解決了地理匹配技術(shù)難點(diǎn),有效提高了匹配準(zhǔn)確率,但均屬于實(shí)驗(yàn)性質(zhì)或面向小型應(yīng)用系統(tǒng),未在大、中型系統(tǒng)上進(jìn)行應(yīng)用驗(yàn)證。【本研究切入點(diǎn)】目前針對(duì)廣西地名的高性能地名匹配引擎的研究,以及滿足省級(jí)農(nóng)業(yè)大數(shù)據(jù)平臺(tái)地理匹配關(guān)鍵技術(shù)的研究較少,特別是缺乏投入實(shí)際應(yīng)用的地理匹配引擎?!緮M解決的關(guān)鍵問題】通過改進(jìn)地名分詞技術(shù)、地名匹配算法,研發(fā)高性能農(nóng)業(yè)信息地理匹配引擎,解決壯語地名識(shí)別率低、地名匹配破壞實(shí)際地名語義等問題,實(shí)現(xiàn)農(nóng)業(yè)大數(shù)據(jù)的空間定位與自動(dòng)匹配,降低數(shù)據(jù)采集成本,以滿足農(nóng)業(yè)大數(shù)據(jù)平臺(tái)高并發(fā)、大流量的地理匹配需求。
1 數(shù)據(jù)來源與研究方法
1. 1 數(shù)據(jù)收集與處理
地理匹配引擎中地名數(shù)據(jù)來源于廣西基礎(chǔ)地理信息數(shù)據(jù)庫,由地名、POI(Point of interest)、同義詞及品牌詞等數(shù)據(jù)組成。數(shù)據(jù)的采集與更新時(shí)間為2018年3月,總計(jì)106萬條數(shù)據(jù)量,覆蓋廣西全部14個(gè)地市。各數(shù)據(jù)系統(tǒng)的關(guān)系如圖1所示,數(shù)據(jù)主要存放在POI和(區(qū)劃)地名數(shù)據(jù)表中,兩個(gè)表中的數(shù)據(jù)按照標(biāo)準(zhǔn)地名與地址數(shù)據(jù)結(jié)構(gòu)組織,具有規(guī)整的層次結(jié)構(gòu),能有效反映地名的所在位置與從屬關(guān)系,是地理匹配引擎的主要檢索對(duì)象。但在實(shí)際應(yīng)用中,用戶輸入的歷史地名、俗稱、簡稱等不能與標(biāo)準(zhǔn)地名地址準(zhǔn)確匹配。為了解決實(shí)際應(yīng)用中的品牌與同義問題,本研究在數(shù)據(jù)設(shè)計(jì)上增加了品牌詞和同義詞數(shù)據(jù)表。其中,品牌詞數(shù)據(jù)表記錄明確帶有企業(yè)品牌名稱的關(guān)鍵詞,主要用于分類搜索與關(guān)聯(lián)搜索;同義詞數(shù)據(jù)表記錄同義地名,以提高搜索準(zhǔn)確率并貼近用戶日常使用習(xí)慣。POI數(shù)據(jù)、品牌詞數(shù)據(jù)和同義詞數(shù)據(jù)通過地理實(shí)體編碼與地名數(shù)據(jù)關(guān)聯(lián)。
1. 2 地名匹配算法設(shè)計(jì)
地名搜索模塊是地理匹配引擎的核心,關(guān)鍵技術(shù)是地名分詞算法、地名搜索匹配算法與排序算法的設(shè)計(jì)。搜索模塊基于開源的Solr搜索引擎開發(fā)而成,Solr是基于JAVA開發(fā)的開源全文搜索引擎,能夠提供基礎(chǔ)的全文檢索API與服務(wù)框架,支持二次開發(fā),具有良好的算法擴(kuò)展性。
1. 2. 1 地名分詞算法設(shè)計(jì) 王俊超等(2012)對(duì)中文地名分詞的研究證明,采用逆向分詞方法的準(zhǔn)確率高于正向分詞。為提高分詞準(zhǔn)確率,本研究設(shè)計(jì)了地名逆向分詞算法,算法具體分為4個(gè)步驟。步驟[①]:初始化分詞集,即分詞處理隊(duì)列與分詞回收棧,并將搜索關(guān)鍵詞的字符逐個(gè)輸入分詞處理隊(duì)列。步驟[②]:將分詞處理隊(duì)列中所有字符作為一個(gè)單詞與詞典匹配,如果匹配成功,則將單詞輸出到分詞集,然后跳轉(zhuǎn)到步驟[③];如果無匹配結(jié)果則首字符出隊(duì),出隊(duì)字符輸出到分詞回收棧并繼續(xù)重復(fù)本步驟。步驟[③]:如果分詞回收棧為空,則跳轉(zhuǎn)到步驟[④],否則將分詞回收棧中的字符出棧并逐個(gè)輸入到分詞處理隊(duì)列,并跳轉(zhuǎn)回到步驟[②]。步驟[④]:輸出分詞集,結(jié)束分詞處理過程。
1. 2. 2 地名搜索匹配與排序算法 地名搜索匹配與排序算法的主要步驟是構(gòu)建相似度計(jì)算分詞集、分詞權(quán)重,并計(jì)算匹配相似度。構(gòu)建相似度計(jì)算分詞集是計(jì)算匹配相似度的基礎(chǔ),地理匹配引擎利用Solr的全文檢索能力進(jìn)行地名匹配,將含有i個(gè)分詞的集合S={S1,S2,…,Si}進(jìn)行全文檢索,并返回所有有分詞匹配的結(jié)果,形成搜索結(jié)果集R={R1,R2,…,Rn}。匹配相似度計(jì)算采用向量空間模型算法,先從結(jié)果集R中逐條取出搜索結(jié)果,將取出的第i個(gè)搜索結(jié)果Ri按匹配的分詞打斷為幾部分,并將打斷部分取出構(gòu)成Rn的未匹配分詞集T={T1,T2,…,Tj},匹配部分構(gòu)成詞集P={P1,P2,…,Pk},Rn的分詞集為Rn=T∪P;將分詞集S與T合并構(gòu)建為含m個(gè)分詞的相似度計(jì)算集合Sim={S1,S2,…,Si,T1,T2,…,Tj},構(gòu)建過程如圖3所示。
Solr采用的是詞頻—逆文檔頻率(Term frequency-inverse focument grequency,TF-IDF)搜索權(quán)重算法。唐旭日等(2010)、朱少楠等(2013)、程鋼和盧小平(2014)研究發(fā)現(xiàn)中文地名地址一般由行政區(qū)域、基本區(qū)域限定物和局部點(diǎn)位置3個(gè)部分構(gòu)成,該層次結(jié)構(gòu)決定了中文地址的特征詞一般位于名址詞條的尾部,當(dāng)詞條含有多條分詞時(shí),處于詞條尾部的分詞一般具有較高的識(shí)別度。針對(duì)中文地名的上述特性,中文地名分詞匹配權(quán)重需要根據(jù)匹配分詞詞頻、詞序和長度等因素以改進(jìn)默認(rèn)的TF-IDF算法。定義WF、WD和WL分別為詞頻、詞序和詞長的權(quán)重,搜索結(jié)果集R中總條目數(shù)為N,分詞集中某個(gè)分詞Si在搜索結(jié)果中的詞頻數(shù)為k,d為分詞在詞條中的詞序,長度為LS,RN長度為LR,M為分詞集合中分詞的數(shù)量,W為總權(quán)重,各權(quán)重的計(jì)算公式為:
WF=1-[kN+1]? ?(1)
WD=[dM12]? ? ? ? ? ? ? ?(2)
WL=[LSLR]? ? ? ? ? ? ? ? ? ? ? ? (3)
W=WF·WD·WL? ? ? ?(4)
按照公式(1)~(4)對(duì)匹配向量[S]和[R]中的每個(gè)分詞項(xiàng)計(jì)算匹配權(quán)重,匹配向量按權(quán)重調(diào)整為[S]=(WS1S1,WS2S2,…,WS3Sm),[R]=(WU1U1,WU2U2,…,WUmUm)。
構(gòu)建完成集合后,將關(guān)鍵詞S集合、搜索結(jié)果Ri分別與集合Sim進(jìn)行匹配,按照匹配結(jié)果形成m維的匹配向量[S]=(S1,S2,…,Sm)和[R]=(U1,U2,…,Um)。匹配相似度[ρ]按公式(5)計(jì)算:
[ρ]=[1mWSiSiWUiUi1m(WSiSi)21m(WUiUi)2]? ? ? ? ?(5)
在計(jì)算獲得每個(gè)檢索的匹配相似度后,將所有的搜索結(jié)果按匹配相似度排序,并根據(jù)不同的情況將搜索結(jié)果分為準(zhǔn)確搜索結(jié)果、推薦結(jié)果及偽結(jié)果三類。準(zhǔn)確搜索結(jié)果和推薦結(jié)果將推送給檢索服務(wù)模塊,通過封裝后傳輸?shù)秸?qǐng)求方,偽命中結(jié)果將被系統(tǒng)直接拋棄,減少不必要的干擾項(xiàng)。
2 結(jié)果與分析
2. 1 地理匹配引擎實(shí)現(xiàn)與應(yīng)用效果
本研究中地理匹配引擎由檢索服務(wù)、全文檢索及檢索數(shù)據(jù)庫3個(gè)模塊構(gòu)成(圖4)。其中,檢索服務(wù)提供地理匹配引擎的各類服務(wù)接口,全文檢索主要負(fù)責(zé)實(shí)現(xiàn)地名的高效檢索與準(zhǔn)確匹配,檢索數(shù)據(jù)庫存放各類基礎(chǔ)信息。
目前,地理匹配引擎已完成開發(fā),并應(yīng)用于廣西糖業(yè)大數(shù)據(jù)平臺(tái),在大數(shù)據(jù)平臺(tái)中引擎提供了地名搜索、POI搜索、地址搜索等一系列服務(wù)。在Web、移動(dòng)客戶端等跨平臺(tái)服務(wù)應(yīng)用上,通過JSON與XML方式封裝的服務(wù)可將功能提供給其他糖業(yè)應(yīng)用平臺(tái)及移動(dòng)調(diào)查終端使用。已有測(cè)試結(jié)果顯示,地理匹配引擎性能穩(wěn)定,取得了很好的應(yīng)用效果。圖5是地理匹配引擎在廣西糖業(yè)發(fā)展大數(shù)據(jù)平臺(tái)中的具體應(yīng)用示例,左側(cè)上部的搜索欄為地名搜索的輸入接口,列表為根據(jù)地名關(guān)鍵詞搜索返回的信息匹配結(jié)果,右側(cè)地圖模塊將匹配結(jié)果按具體坐標(biāo)位置逐一標(biāo)注,方便用戶查看信息的地理分布及具體內(nèi)容。除直接調(diào)用方式外,還可通過服務(wù)接口調(diào)用地理匹配引擎以實(shí)現(xiàn)信息的自動(dòng)化匹配。
2. 2 分詞方法測(cè)試與分析
本研究在開發(fā)測(cè)試環(huán)境下進(jìn)行,軟件環(huán)境配置為Windows server 2008、Solr 6.6、JDK1.7和MySQ L5.7,硬件配置為E7-4830、32GB內(nèi)存,測(cè)試數(shù)據(jù)為收集到廣西全區(qū)范圍內(nèi)的15484條含有名址的文本屬性數(shù)據(jù),壓力測(cè)試工具為LoadRunner 12.02。地理匹配引擎使用改進(jìn)后的分詞算法實(shí)現(xiàn)地名分詞器,基于Java語言開發(fā),地名分詞處理過程主要包括詞典加載、地名預(yù)處理和地名分詞3個(gè)部分。
本研究對(duì)比了Solr分詞器與改進(jìn)分詞器的應(yīng)用效果,通過樣例具體分析兩個(gè)分詞器的效能差異(表1)。在對(duì)比測(cè)試中,發(fā)現(xiàn)Solr自帶的中文分詞器對(duì)廣西區(qū)內(nèi)地名的分詞準(zhǔn)確率不高,特別是對(duì)壯語地名不能按實(shí)際語義正確切分,除了市一級(jí)地名外,其他地名均被分割為沒有實(shí)際語義的單字,破壞了地名地址含義的層次性。產(chǎn)生上述問題的主要原因是Solr默認(rèn)的分詞詞典僅包含一般地名,在分詞算法上未針對(duì)地名的語義結(jié)構(gòu)進(jìn)行相應(yīng)優(yōu)化。而改進(jìn)后的分詞器除了算法以外,還針對(duì)上述問題進(jìn)行如下改進(jìn):(1)詞典加載。詞典是地名分詞器進(jìn)行分詞的基礎(chǔ),系統(tǒng)中加載的詞典包括主詞典、量詞詞典和擴(kuò)展詞典。針對(duì)廣西地名的壯族語言特點(diǎn),例如那坡縣、那馬鎮(zhèn)、那弄村等專有名詞,通過擴(kuò)展詞典進(jìn)行補(bǔ)充。(2)地名預(yù)處理,主要針對(duì)關(guān)鍵詞中的英文字符、數(shù)字、標(biāo)點(diǎn)符號(hào)等非漢字部分進(jìn)行規(guī)范化處理,完成全角字符到半角字符的轉(zhuǎn)換,對(duì)可能存在的非法字符進(jìn)行清洗處理。在樣例對(duì)比中,對(duì)不規(guī)范的①號(hào)中含有的全角字符進(jìn)行清洗。(3)地名分詞,即搜索過程的關(guān)鍵環(huán)節(jié)。由于地名特點(diǎn),不同的算法會(huì)產(chǎn)生不同的分詞結(jié)果,導(dǎo)致出現(xiàn)搜索歧義,影響匹配引擎的匹配效率。在地名分詞過程中遵循以下原則:一是分詞過程中盡可能完整解析出包含地名的部分;二是分詞過程中盡可能保留最大語義分詞;三是對(duì)于關(guān)鍵詞中的數(shù)字與英文部分直接保留不進(jìn)行拆分。對(duì)比測(cè)試結(jié)果表明,上述改進(jìn)已達(dá)到預(yù)期目的,切分的地名能正確識(shí)別壯語地名并且符合地名語義特點(diǎn)。
2. 3 匹配準(zhǔn)確率分析
匹配準(zhǔn)確率包含匹配準(zhǔn)確度和空間精度兩個(gè)方面,其中,匹配準(zhǔn)確度是指關(guān)鍵詞與地名在文本上是否正確匹配,空間精度是指匹配后的空間定位精度是否與關(guān)鍵詞的地理位置相一致。地理匹配流程如圖6所示。
匹配準(zhǔn)確率是地理匹配引擎的重要指標(biāo),由于本測(cè)試數(shù)據(jù)來源于人工填報(bào),在填報(bào)過程中對(duì)名址的書寫未進(jìn)行標(biāo)準(zhǔn)化約束,部分信息中的地名不規(guī)范或存在錯(cuò)別字。測(cè)試過程中對(duì)比了傳統(tǒng)的SQL語句匹配法、Solr默認(rèn)分詞搜索方法與改進(jìn)后的算法,從表2可看出,經(jīng)過改進(jìn)后的匹配算法準(zhǔn)確率最高,正確匹配15241條,匹配成功率達(dá)98.43%。243條數(shù)據(jù)無法匹配和錯(cuò)誤匹配,其中,錯(cuò)誤匹配87條,占比0.56%,主要是個(gè)別地名地址數(shù)據(jù)在錄入階段出現(xiàn)文字錯(cuò)誤,導(dǎo)致分詞存在歧義,如“大明紙業(yè)有限公司”被錯(cuò)誤記錄為“大名紙業(yè)有限公司”;無法匹配的數(shù)據(jù)156條,占比1.01%,主要是存在地名數(shù)據(jù)庫中沒有的新地名,說明在現(xiàn)有搜索匹配算法下,制約搜索準(zhǔn)確率的主要原因是地名庫中數(shù)據(jù)的豐富程度。在空間匹配精度方面,13704條地名地址能夠?qū)崿F(xiàn)準(zhǔn)確定位,1537條數(shù)據(jù)僅能實(shí)現(xiàn)大致定位。經(jīng)過具體分析,不能準(zhǔn)確定位的數(shù)據(jù)主要集中在農(nóng)村地區(qū),具體原因是大多數(shù)農(nóng)村地址缺乏具體的門牌編號(hào),地址的最小單元一般為自然村或屯,導(dǎo)致定位無法精確到具體空間位置。
2. 4 檢索效率分析
地理匹配引擎在準(zhǔn)確檢索的前提下必須具備高并發(fā)下良好的響應(yīng)速度。為測(cè)試改進(jìn)后地理匹配引擎的效率,使用LoadRunner分別模擬100、300和500并發(fā)訪問效果進(jìn)行對(duì)比試驗(yàn),結(jié)果如表3所示,3種搜索方法中Solr默認(rèn)引擎在各種模擬條件下的搜索響應(yīng)速度最快,本研究中使用的引擎速度次之,二者在500并發(fā)情況下均能獲得較好的搜索響應(yīng)速度,對(duì)用戶搜索體驗(yàn)未產(chǎn)生明顯影響。在實(shí)際應(yīng)用中,地理匹配引擎將被部署到高性能服務(wù)器集群,500并發(fā)搜索響應(yīng)時(shí)間能降至100 ms以內(nèi)。
3 討論
本研究從實(shí)際應(yīng)用需求出發(fā),設(shè)計(jì)并實(shí)現(xiàn)了適用于廣西糖業(yè)發(fā)展大數(shù)據(jù)平臺(tái)的農(nóng)業(yè)信息地理匹配引擎。其中,全文檢索模塊采用開源軟件,開發(fā)成本低廉、擴(kuò)展性好。通過擴(kuò)充廣西壯語地名詞典、改進(jìn)地名匹配規(guī)則及排序算法,使地理匹配引擎適應(yīng)廣西區(qū)域地名地址搜索需求,經(jīng)過第三方實(shí)際業(yè)務(wù)數(shù)據(jù)測(cè)試驗(yàn)證,系統(tǒng)相比原有基于SQL語句的檢索與默認(rèn)的Solr引擎,在保證匹配速度的同時(shí)提高了匹配精度,完全能夠滿足廣西糖業(yè)發(fā)展大數(shù)據(jù)平臺(tái)的應(yīng)用需求。
在王俊超等(2012)研究成果的基礎(chǔ)上,本研究總結(jié)了地名匹配的主要規(guī)則,針對(duì)地名語義的分詞進(jìn)行算法改進(jìn)與優(yōu)化,設(shè)計(jì)了逆向地名分詞算法,使分詞結(jié)果更加符合地名語義。經(jīng)過對(duì)比測(cè)試分析,發(fā)現(xiàn)面向普通文本的分詞引擎對(duì)廣西區(qū)內(nèi)地名分詞一般破壞了實(shí)際地名語義,而改進(jìn)后的分詞算法能按地名語義完成分詞,匹配精度從75.19%提高到98.43%。在匹配及排序算法上,參考了公冶小燕等(2017)、武永亮等(2017)、葉敏等(2017)的研究成果,針對(duì)壯語地名與地名地址數(shù)據(jù)特點(diǎn)進(jìn)一步改進(jìn)TF-IDF匹配算法,通過權(quán)重提高模糊搜索的準(zhǔn)確率,降低了偽命中項(xiàng)對(duì)匹配精度的影響程度。通過15484條數(shù)據(jù)測(cè)試結(jié)果表明,與陳利燕等(2016)基于開源Lucene構(gòu)建的地理匹配引擎相比,本研究開發(fā)的方法將匹配精度從91.00%提高到98.43%;在匹配效率方面,改進(jìn)算法增加了計(jì)算步驟,計(jì)算量增大,500并發(fā)條件下,平均響應(yīng)時(shí)間由373 ms增加到541 ms,匹配速率有所下降,但考慮到測(cè)試環(huán)境設(shè)備計(jì)算能力遠(yuǎn)低于實(shí)際運(yùn)行環(huán)境,在實(shí)際應(yīng)用中不會(huì)對(duì)用戶體驗(yàn)造成不良影響。
本研究不足之處主要表現(xiàn)為:檢索詞庫依賴于靜態(tài)詞庫,需要定期更新才能保證檢索精度;缺乏聯(lián)系上下文的地名推理能力,對(duì)用戶輸入過程中的人為錯(cuò)誤無法進(jìn)行自動(dòng)糾正;匹配排序權(quán)重主要與語義相關(guān),不能根據(jù)用戶匹配頻率動(dòng)態(tài)調(diào)整排序,無法使排序結(jié)果符合大多數(shù)用戶的預(yù)期目標(biāo)。
4 建議
4. 1 擴(kuò)充并完善詞庫內(nèi)容
從測(cè)試結(jié)果來看,影響匹配準(zhǔn)確率的關(guān)鍵因素是詞庫數(shù)據(jù)的豐富程度。目前引擎使用的是靜態(tài)詞庫,數(shù)據(jù)需要定期更新,且涉及農(nóng)村地區(qū)的信息,地址的最小粒度一般為自然村或屯,缺少具體的門牌號(hào),影響了定位的空間精度。在下一步的工作中,一是需要進(jìn)一步完善廣西全區(qū)的地名地址庫,尤其是加強(qiáng)對(duì)農(nóng)村地區(qū)地址數(shù)據(jù)的采集與補(bǔ)充工作;二是研究從民政、公安、電力、工商及互聯(lián)網(wǎng)等多種數(shù)據(jù)來源動(dòng)態(tài)提取地址數(shù)據(jù),實(shí)現(xiàn)地名詞庫的多源數(shù)據(jù)更新,確保已經(jīng)實(shí)際編號(hào)的地址及時(shí)聯(lián)動(dòng)更新入庫;三是擴(kuò)充地址表達(dá)的維度,研究并制定一套適用于不同粒度的地址表達(dá)方式,形成規(guī)范的地址層級(jí)結(jié)構(gòu)。
4. 2 增強(qiáng)語義推理能力
當(dāng)前的匹配精度主要依賴文本匹配,對(duì)于因人為輸入錯(cuò)誤的地名缺乏語義糾錯(cuò)能力,對(duì)于兩個(gè)以上分詞出現(xiàn)錯(cuò)誤的文本一般無法正確匹配;此外,對(duì)數(shù)據(jù)庫中不存在的地名切分準(zhǔn)確率較低。針對(duì)上述問題,應(yīng)研究新的算法和數(shù)據(jù)組織模式,綜合考慮信息來源、用戶訪問IP地址、用戶檢索習(xí)慣及信息類別等多源數(shù)據(jù)分析信息的潛在語義,在潛在語義基礎(chǔ)上總結(jié)其與潛在地名的關(guān)聯(lián)規(guī)則,增強(qiáng)聯(lián)合上下文推理地名的能力,從而實(shí)現(xiàn)識(shí)別潛在地名并進(jìn)行正確匹配。
4. 3 研究基于空間語義的定位算法
目前的匹配引擎可做到精確的點(diǎn)到點(diǎn)匹配,但缺乏處理復(fù)雜的語義匹配與語義定位能力,對(duì)語義方位上進(jìn)行定位精度較低。盡管Solr本身具有空間語義搜索能力,但對(duì)于“村委會(huì)斜對(duì)面”此類以地標(biāo)作為參照物的空間表述,僅能做到范圍定位,不能根據(jù)建筑物的坐落方位、圍墻隔離及街道走向等空間語義來精確確定匹配位置。因此,需進(jìn)一步研究改進(jìn)算法,研發(fā)理解人類思維的空間語義定位方法,提高此類信息的定位精度。
參考文獻(xiàn):
柴潔. 2014. 基于IKAnalyzer和Lucene的地理編碼中文搜索引擎的研究與實(shí)現(xiàn)[J]. 城市勘測(cè),(6): 45-50. [Chai J. 2014. Research and implementation of Chinese search engine in geocoding based on IKAnalyzer and Lucene[J]. Urban Geotechnical Investigation & Surveying,(6): 45-50.]
陳德權(quán). 2013. GIS地名搜索系統(tǒng)的關(guān)鍵技術(shù)設(shè)計(jì)與實(shí)現(xiàn)[J]. 測(cè)繪與空間地理信息,36(8): 58-60. [Chen D Q. 2013. Design and implementation of key technologies for GIS place search system[J]. Geomatics & Spatial Information Technology, 36(8): 58-60.]
陳利燕, 林鴻, 張新長. 2016. 一種改進(jìn)的Lucene算法及在空間數(shù)據(jù)融合中的應(yīng)用[J]. 測(cè)繪通報(bào),(10):106-109. [Chen L Y, Lin H, Zhang X C. 2016. An improved Lucene algorithm and its application to spatial data fusion[J]. Bulletin of Surveying and Mapping,(10):106-109.]
程鋼, 盧小平. 2014. 顧及通名語義的漢語地名相似度匹配算法[J]. 測(cè)繪學(xué)報(bào),43(4): 404-410. [Cheng G, Lu X P. 2014. Matching algorithm for Chinese place names by similarity in consideration of semantics of general names for place[J]. Acta Geodaetica et Cartographica Sinica, 43(4): 404-410.]
公冶小燕, 林培光, 任威隆, 張晨, 張春云. 2017. 基于改進(jìn)的TF-IDF算法及共現(xiàn)詞的主題詞抽取算法[J]. 南京大學(xué)學(xué)報(bào)(自然科學(xué)),53(6): 1072-1080. [Gongye X Y,Lin P G,Ren W L,Zhang C,Zhang C Y. 2017. A method of extracting subject words based on improved TF-IDF algorithm and co-occurrence words[J]. Journal of Nanjing University(Natural Science), 53(6): 1072-1080.]
梁明, 羅榮, 胡最. 2014. 基于Lucene和PostGIS的地圖搜索研究[J]. 測(cè)繪通報(bào),(11): 42-45. [Liang M, Luo R, Hu Z. Map search based on Lucene and PostGIS[J]. Bulletin of Surveying and Mapping,(11): 42-45.]
馬照亭, 李志剛, 孫偉, 印潔. 2011. 一種基于地址分詞的自動(dòng)地理編碼算法[J]. 測(cè)繪通報(bào),(2): 59-62. [Ma Z T, Li Z G,Sun W,Yin J. 2011. An automatic geocoding algorithm based on address segmentation[J]. Bulletin of Surveying and Mapping,(2): 59-62.]
唐旭日,陳小荷,張雪英. 2010. 中文文本的地名解析方法研究[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),35(8): 930-935. [Tang X R,Chen X H,Zhang X Y. 2010. Research on toponym resolution in Chinese text[J]. Geomatics and Information Science of Wuhan University,35(8):930-935.]
王俊超, 劉晨帆, 徐明世, 紀(jì)山, 蘭偉. 2012. 語義相似性度量技術(shù)在地名匹配研究中的應(yīng)用[J]. 遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版),31(6): 871-874. [Wang J C, Liu C F,Xu M S, Ji S,Lan W. 2012. Application of semantic similarity measurement technology in place name ma-tching[J]. Journal of Liaoning Technical University(Natural Science), 31(6): 871-874.]
武永亮, 趙書良, 李長鏡, 魏娜娣, 王子晏. 2017. 基于TF-IDF和余弦相似度的文本分類方法[J]. 中文信息學(xué)報(bào), 31(5):138-145. [Wu Y L, Zhao S L,Li C J,Wei N D,Wang Z Y. Text classification method based on TF-IDF and cosine similarity[J]. Journal of Chinese Information Processing, 31(5): 138-145.]
夏蘭芳,毛煒青,郭功舉. 2012. 上海城市地理編碼系統(tǒng)應(yīng)用與研究[J]. 測(cè)繪通報(bào),(1):78-80. [Xia L F, Mao W Q, Guo G J. 2012. The application and research of geoco-ding system based on the city of Shanghai[J]. Bulletin of Surveying and Mapping,(1):78-80.]
徐道柱,焦洋洋,蘇雪梅. 2017. 基于Lucene的地名管理模型設(shè)計(jì)與實(shí)現(xiàn)[J]. 測(cè)繪與空間地理信息,40(3):6-10. [Xu D Z,Jiao Y Y,Su X M. 2017. Design and implementation of toponym management model based on Lucene[J]. Geomatics & Spatial Information Technology,40(3):6-10.]
葉敏,湯世平,牛振東. 2017. 一種基于多特征因子改進(jìn)的中文文本分類算法[J]. 中文信息學(xué)報(bào),31(4): 132-137. [Ye M,Tang S P,Niu Z D. 2017. An improved Chinese text classification algorithm based on multiple feature factors[J]. Journal of Chinese Information Processing,31(4): 132-137.]
俞敬松, 王惠臨, 楊潔. 2016. 大規(guī)模地名本體數(shù)據(jù)庫系統(tǒng)的建構(gòu)技術(shù)與方法[J]. 圖書情報(bào)工作,60(8): 126-131. [Yu J S,Wang H L,Yang J. 2016. Research on large-scale toponym ontology database construction techniques and methods[J]. Library and Information Serivce,60(8): 126-131.]
朱少楠,張雪英,李明,王宇. 2013. 基于行政隸屬關(guān)系樹狀圖的地名消歧方法[J]. 地理與地理信息科學(xué), 29(3): 39-42. [Zhu S N,Zhang X Y,Li M,Wang Y. 2013. Topo-nym disambiguation based on administrative district relation tree[J]. Geography and Geo-Information Science,29(3): 39-42.]
鄒崇堯,朱貴方,趙雙明. 2014. 基于搜索引擎技術(shù)的地名地址定制查詢研究[J]. 測(cè)繪通報(bào),(8): 92-94. [Zou C Y, Zhu G F, Zhao S M. 2014. Research on customized query of geographic name and address based on search engine[J]. Bulletin of Surveying and Mapping,(8): 92-94.]
(責(zé)任編輯 鄧慧靈)