程 鋼,盧小平
1.河南理工大學(xué)礦山空間信息技術(shù)國(guó)家測(cè)繪地理信息局重點(diǎn)實(shí)驗(yàn)室,河南焦作 454000;2.河南理工大學(xué)測(cè)繪與國(guó)土信息工程學(xué)院,河南焦作 454000;3.信息工程大學(xué)測(cè)繪與科學(xué)技術(shù)博士后流動(dòng)站,河南鄭州 450052
顧及通名語義的漢語地名相似度匹配算法
程 鋼1,2,3,盧小平1
1.河南理工大學(xué)礦山空間信息技術(shù)國(guó)家測(cè)繪地理信息局重點(diǎn)實(shí)驗(yàn)室,河南焦作 454000;2.河南理工大學(xué)測(cè)繪與國(guó)土信息工程學(xué)院,河南焦作 454000;3.信息工程大學(xué)測(cè)繪與科學(xué)技術(shù)博士后流動(dòng)站,河南鄭州 450052
地名匹配是地理信息檢索、多源地理空間數(shù)據(jù)集成及更新中的關(guān)鍵技術(shù)問題。本文根據(jù)規(guī)范漢語地名構(gòu)詞特點(diǎn),依據(jù)地名通名與地名類型的關(guān)系,建立規(guī)范地名通名語義知識(shí)庫,并將由其提供的地名語義作為地名相似度匹配的重要指標(biāo)。針對(duì)基于字面和空間數(shù)據(jù)的地名匹配方法存在的不足,面向規(guī)范地名提出一種綜合了地名專名字面相似度和地名通名語義相似度兩種因素的復(fù)合相似度匹配算法模型。該模型模擬人的認(rèn)知習(xí)慣,根據(jù)通名語義相似度程度,通過單調(diào)函數(shù)關(guān)系動(dòng)態(tài)設(shè)置專名和通名相似度各自的權(quán)重值,利用動(dòng)態(tài)加權(quán)方法求得復(fù)合地名相似度指標(biāo)。在上述模型基礎(chǔ)上,本文提出漢語地名匹配策略和流程,利用通名蘊(yùn)含的語義增強(qiáng)漢語地名匹配算法的理論基礎(chǔ)和完備性,提高了地名匹配算法準(zhǔn)確率。試驗(yàn)結(jié)果表明該模型符合認(rèn)知習(xí)慣,驗(yàn)證了該方法的合理性和有效性。
通名;語義;本體;復(fù)合相似度;地名匹配
隨著“數(shù)字城市地理空間框架建設(shè)”戰(zhàn)略的推廣,數(shù)字地名建設(shè)及研究已經(jīng)成為學(xué)術(shù)界的熱點(diǎn)。尤其隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展及人們對(duì)基于位置服務(wù)需求的快速增長(zhǎng),地名已經(jīng)成為普通民眾獲取信息的重要地理參考。因此,如何從海量的地理信息資源中快速、準(zhǔn)確檢索所需信息,已成為地名研究中的重要課題。準(zhǔn)確高效的地名匹配算法是實(shí)現(xiàn)以地名為參考的信息檢索、排序、數(shù)據(jù)挖掘等功能的關(guān)鍵,更是空間數(shù)據(jù)庫中要素匹配的重要研究?jī)?nèi)容。
地名匹配算法目前主要分為三大類:①將地名視為字符串,從字面相似度的角度研究地名匹配程度,包括全字匹配方法、字符串匹配度函數(shù)法、基于SQL通配符的漢字匹配方法和基于全文檢索技術(shù)的查詢方法、模糊查詢及以字母代替漢字等方法[1-3],該類方法提供了較好的查詢效率,但由于將地名作為普通字符串處理,忽略了其符號(hào)和語義特性,難以保證較高的準(zhǔn)確率;②從空間或幾何角度研究地名或地理要素匹配[4-6],該類方法是以距離、面積、大小、位置及形狀等空間和幾何特性為依據(jù)構(gòu)建相似度模型,為多源空間數(shù)據(jù)集成和更新提供基礎(chǔ),該類方法易受數(shù)據(jù)存儲(chǔ)方式、空間數(shù)據(jù)精度、數(shù)據(jù)格式、數(shù)據(jù)庫存取效率等影響,其通用性和應(yīng)用范圍受到較大限制,由于涉及大量幾何運(yùn)算,執(zhí)行效率相對(duì)較低;③從地名語義特征角度研究地名表達(dá)和查詢方法[7-11],該類方法從本質(zhì)性上比較地名間的關(guān)系,結(jié)果具有較好的可靠性,但由于缺乏統(tǒng)一規(guī)范的標(biāo)準(zhǔn)地名本體,影響了該方法在實(shí)際中的應(yīng)用。
針對(duì)上述3類地名匹配算法存在的不足,考慮到地名組成形式的復(fù)雜性,本文面向規(guī)范漢語地名提出了一種顧及通名語義的地名復(fù)合相似度匹配算法。該算法顧及了規(guī)范漢語地名獨(dú)特的構(gòu)詞方式[12]及地名通名對(duì)地名的指義性[13-14],除考慮專名字面特性外,將地名通名語義知識(shí)作為地名匹配的重要參考,結(jié)合認(rèn)知習(xí)慣,利用動(dòng)態(tài)加權(quán)法求取地名復(fù)合相似度指標(biāo),從而提高地名匹配的召回率和準(zhǔn)確率。
規(guī)范漢語地名一般由專名和通名兩部分構(gòu)成。本文提出分別求取兩地名的專名和通名相似度值,再根據(jù)兩者所占的權(quán)重計(jì)算兩地名的復(fù)合相似度值,用公式(1)表示。模型中的專名相似度和通名相似度分別采用字面相似度和語義相似度方法求解
式中,a、b表示兩個(gè)規(guī)范地名;a1、b1分別為a、b的專名;a2、b2分別為a、b的通名;sim_lit(a1,b1)為a1、b1的字面相似度值;sim_sem(a2,b2)為a2、b2的語義相似度值;sim(a,b)為地名復(fù)合相似度值,三者均為0到1的數(shù),數(shù)值越大表示相似度越大,0表示完全不同,1表示二者為同一對(duì)象。Plit為專名相似度的權(quán)重(Plit∈[0,1]);Psem則為通名相似度權(quán)重(Psem∈[0,1]),二者滿足Plit+Psem=1。
權(quán)重設(shè)置遵循以下認(rèn)知思想:當(dāng)通名語義相似度高時(shí),認(rèn)為二者表達(dá)的是相近的地理實(shí)體,地名相似度主要由專名相似度表達(dá);反之,說明兩地名表達(dá)的是相異的地理實(shí)體,專名相似度可靠性隨之降低。由此可見,專名相似度和通名相似度的權(quán)重是動(dòng)態(tài)變化的,據(jù)此本文提出了動(dòng)態(tài)確權(quán)方法——首先為地名定性,考察其語義關(guān)系,再由語義相似度決定其專名相似度的權(quán)重。
本文提出的地名相似度值的計(jì)算方法(式(1))滿足如下要求:
(1)任何概念與其自身的語義相似度為1。
(2)所有地名通名均為同根概念節(jié)點(diǎn),故sim_sem均為大于0的值。
(3)若sim_sem為無窮小,則Plit接近0,專名可靠性最低,此時(shí)兩通名表示完全不同的兩種地理實(shí)體或現(xiàn)象,在不考慮轉(zhuǎn)義通名的情況下,認(rèn)為二者不可能為同一地名。
(4)若sim_sem=1,則Plit為1,此時(shí)兩地名通名為同一概念,只需比較專名的相似度。
(5)若sim_sem=1且sim_lit=1,則兩地名的復(fù)合相似度值為1,二者為同一地名。
(6)若sim_lit=0,此時(shí)表示個(gè)體的標(biāo)志符完全不同,基本可排除同一地名的可能。
根據(jù)上文權(quán)重設(shè)置思想和計(jì)算要求,本文提出建立Plit與sim_sem的分段連續(xù)單值遞增函數(shù)關(guān)系,如下式
圖1 專名相似度權(quán)重與語義相似度的函數(shù)關(guān)系Fig.1 Function between similarity weight of the special names and semantic similarity
該函數(shù)中PL和PH為分界點(diǎn),當(dāng)通名相似度小于PL時(shí),兩地名語義相差較遠(yuǎn),專名可信度急劇降低,取sim_sem2為專名相似度值權(quán)重;當(dāng)通名相似度大于PH時(shí)認(rèn)為兩地名語義相近,專名相似度較為可靠,以sim_sem作為專名相似度值權(quán)重;PL和PH(PL<sim_sem<PH)之間的區(qū)域?qū)C尚哦冉橛谏鲜鰞煞N情況,權(quán)重關(guān)系以連接兩端點(diǎn)的直線函數(shù)表示。PL和PH的設(shè)置可以根據(jù)專家經(jīng)驗(yàn)設(shè)置初值,并利用大樣本數(shù)據(jù)進(jìn)行檢驗(yàn)、修改,以適應(yīng)不用的應(yīng)用環(huán)境。
專名用于指示地理實(shí)體專有屬性,由于其用詞廣泛,目前尚缺少統(tǒng)一的漢字語義庫及比較標(biāo)準(zhǔn),本文簡(jiǎn)化其語義比較過程,將其作為字符串,在進(jìn)行專名比對(duì)時(shí)僅考慮其字面特性。編輯距離法是較為常用的字面相似度求解方法,用以計(jì)算從原字符串轉(zhuǎn)換到目標(biāo)字符串串所需要的最少的字符插入、刪除和替換的編輯次數(shù)。本文采用該方法計(jì)算地名專名相似度,首先從兩個(gè)字符串的一端開始比較,記錄已經(jīng)比較過的子串編輯操作,然后得到下一個(gè)字符位置時(shí)的編輯操作。漢語地名專名比較時(shí)以漢字為基本處理單位,對(duì)于兩個(gè)漢語字符串X=x1x2x3…xn,Y=y(tǒng)1y2y3…ym,其中xi(i∈[1,n]),yi(i∈[1,m])均為漢字字符。漢字編輯距離計(jì)算中,編輯操作代價(jià)的值是[0,1]之間的非負(fù)數(shù),可以根據(jù)需要預(yù)先設(shè)置不同的值。本文選取0和1兩個(gè)值,并規(guī)定:當(dāng)漢字xi=y(tǒng)j(i=1,2,…,n;j=1,2,…,m)時(shí),替換的代價(jià)為0;否則所有編輯操作代價(jià)都是1。
設(shè)Ed(a1,b1)為專名a1、b1的編輯距離,則構(gòu)造地名專名相似度模型如下式
式中,max(a1,b1)表示漢語字符串a(chǎn)1、b1最大長(zhǎng)度(以漢字為單位)。
例如“河南理工大學(xué)”和“河南大學(xué)”的專名“河南理工”及“河南”的最小編輯距離為Ed=2,最大長(zhǎng)度為4,根據(jù)式(3)可得專名相似度為0.5。
地名匹配時(shí)除考慮地名專名的字面相似度外,還應(yīng)考慮地名之間的語義相似度。與傳統(tǒng)的以詞形為切入點(diǎn)、字符匹配算法相比,語義相似度計(jì)算是對(duì)源和目標(biāo)詞語在概念層面上的相似度的度量,需要考慮詞語所在的語境和語義等信息。
本體因其能準(zhǔn)確描述概念及其之間的內(nèi)在聯(lián)系,已經(jīng)成為語義相似度的研究基礎(chǔ)。完整的地名本體涉及概念、關(guān)系、實(shí)例、公理、規(guī)則等內(nèi)容,涵蓋廣泛,包含實(shí)例的地名本體數(shù)據(jù)量龐大,涉及空間概念及關(guān)系時(shí)則更加復(fù)雜,其基本內(nèi)涵、構(gòu)建方法、存儲(chǔ)模式、檢索方式等尚沒有成熟理論和統(tǒng)一的技術(shù)。因此,本文提出基于地名分類標(biāo)準(zhǔn),依據(jù)通名與地名類型的緊密關(guān)系,建立僅涉及簡(jiǎn)單層次關(guān)系的輕量級(jí)地名本體——地名通名語義知識(shí)庫,用于支持地名語義相似度判斷。
4.1 地名通名語義知識(shí)庫
地名通名是地名所代表的地理實(shí)體或現(xiàn)象的類型、隸屬關(guān)系、形態(tài)和性質(zhì)的規(guī)定稱呼,用來區(qū)分地理實(shí)體性質(zhì)類別[15]。由于地名用詞不規(guī)范及各種歷史原因,同一通名可能表示多種地理實(shí)體類型。對(duì)此,本文取地名的主要含義進(jìn)行表達(dá),暫不考慮近義通名、轉(zhuǎn)義通名等情況[13-16]。
為充分利用地名中的通名語義知識(shí),通過搜集整理大量地名專著、文獻(xiàn)及開源資料對(duì)常用地名通名進(jìn)行統(tǒng)計(jì),依據(jù)《地名分類與類別代碼編制規(guī)則(GB/T18521—2001)》建立了規(guī)范漢語地名通名語義知識(shí)庫,并使其成為一個(gè)輕量級(jí)的上層地名本體[16]。該本體中的地名通名主要依據(jù)通名所反映地理實(shí)體的最基本、最穩(wěn)定的屬性對(duì)地名進(jìn)行分類,建立基于上下位關(guān)系(“IS-A”)的通名本體框架。本文建立的通名語義知識(shí)庫片段如圖2所示,箭頭表示“IS-A”關(guān)系。
圖2 地名通名知識(shí)庫片段Fig.2 Excerpt from knowledge base for general names for places
4.2 通名語義相似度算法
基于本體的語義相似度算法主要包括概念信息量法、語義距離法、基于屬性的語義相似度及混合式語義相似度等方法[17-18]。概念信息量法以信息論和概率統(tǒng)計(jì)為基礎(chǔ),需進(jìn)行大量文集統(tǒng)計(jì)工作,不適宜于通名語義的計(jì)算;由于缺少對(duì)地名通名的嚴(yán)格屬性定義,基于屬性的相似度判斷同樣不適合通名語義計(jì)算。因此,本文采用基于概念層次結(jié)構(gòu)的語義距離法計(jì)算地名通名之間的語義相似度。
基本假設(shè)如下:兩概念的語義距離越大,其相似度越低,反之相似度越高[17-18]。設(shè)通名a2和b2分別對(duì)應(yīng)通名語義知識(shí)庫中的概念(要素類別)con1和con2,記sim_sem(con1,con2)為二者的語義相似度,根據(jù)通名與概念的關(guān)系可知sim_sem(a2,b2)=sim_sem(con1,con2)。
設(shè)Dist(con1,con2)為本體中兩概念的最短語義距離,則語義相似度與語義距離之間的存在如下關(guān)系:
式中,d為調(diào)節(jié)因子,可根據(jù)專家意見或由指定語義距離的概念之間的相似度反演得到。例如,設(shè)定某本體中最短距離為1的概念間的語義相似度為0.96,代入上式,可求出d的參考值為24。
基于語義距離的通名語義相似度算法中,影響語義的主要因子有:概念深度,概念密度,關(guān)系類型,關(guān)聯(lián)強(qiáng)度和概念屬性等[18-22]。根據(jù)當(dāng)前通名知識(shí)庫的內(nèi)容和結(jié)構(gòu)特點(diǎn),本文主要考慮前三者對(duì)語義相似度的影響。
4.2.1 概念深度
概念深度指概念節(jié)點(diǎn)與根節(jié)點(diǎn)的最短路徑中包括的邊數(shù)。概念深度對(duì)語義相似度的影響基于以下思想:以“IS-A”關(guān)系建立的本體概念樹中,每一概念是其上位概念的細(xì)化,越到下層,概念所指的對(duì)象越具體,內(nèi)涵越豐富。同等語義距離下,兩個(gè)概念節(jié)點(diǎn)的深度越大,相似度越高,反之相似度越低;相反,同等語義距離下二者的概念層次差越小,則二者的語義相似度越高,反之相似度越低。
定義Dep(con)為概念con的深度;設(shè)root為根節(jié)點(diǎn),令其深度為1,即Dep(root)=1。
任意非根節(jié)點(diǎn)概念con的深度Dep(con)=Dep(Parent(con))+1,其中Parent(con)為con的直接上位概念節(jié)點(diǎn)。
Dep(tree)為本體樹的深度,Dep(tree)=max(Dep(coni)),(i=1,2,…,n),其中n為概念的總數(shù),coni為本體中的任意概念。
因此,概念深度對(duì)語義相似度影響因子的計(jì)算如式(5),且滿足Ps∈(0,1]
4.2.2 概念密度
本體層次中,局部區(qū)域概念密度越大,說明該區(qū)域概念細(xì)化程度越大,該處概念分類越具體,在其他因素相同的條件下,直接概念子節(jié)點(diǎn)間的語義相似度就越高。
定義Child(con)為概念con所包含的直接子節(jié)點(diǎn)的個(gè)數(shù);Child(tree)為本體樹中各概念節(jié)點(diǎn)中子節(jié)點(diǎn)數(shù)的最大值。
設(shè)兩個(gè)概念con1和con2最近共同祖先為cona,其直接子節(jié)點(diǎn)的個(gè)數(shù)為Child(cona);則概念密度對(duì)語義相似度影響因子計(jì)算如式(6),且滿足Pm∈(0,1]
4.2.3 關(guān)系類型
本體中概念通過各種關(guān)系聯(lián)系在一起,不同關(guān)系類型對(duì)概念語義相似度的影響也有所不同。如上下位的“同義關(guān)系”所表征的語義相似度應(yīng)大于“整體-部分”關(guān)系所表征的語義相似度。在關(guān)系類型不多的情況下,可采用專家打分的方法來確定關(guān)系類型的語義強(qiáng)度。設(shè)Pr為關(guān)系強(qiáng)度,則Pr∈(0,1]。
4.2.4 改進(jìn)的語義相似度算法
綜合了上述影響因素的地名通名語義相似度算法為
式中,α、β、γ、δ為調(diào)節(jié)因子,且滿足α+β+γ+δ=1。由于語義距離在相似度計(jì)算中占主導(dǎo)地位,其他因子起輔助作用,所以α的權(quán)重相對(duì)較大,而β、γ、δ的權(quán)重相對(duì)較小。該語義相似度模型中權(quán)重大小的設(shè)置,除遵循上述原則外,可采用與用戶交互或大樣本數(shù)據(jù)進(jìn)行訓(xùn)練的方法對(duì)初始權(quán)重進(jìn)行修正,以滿足不同上下文應(yīng)用環(huán)境的要求。
5.1 地名復(fù)合相似度匹配綜合評(píng)價(jià)
基于上文的匹配算法模型,本文進(jìn)一步提出了該算法的計(jì)算策略及地名關(guān)系的綜合評(píng)價(jià)方法,其技術(shù)流程如圖3。該計(jì)算流程采用閾值過濾被檢索對(duì)象,逐步排除非目標(biāo)對(duì)象,縮小目標(biāo)范圍。基本過程如下:①對(duì)地名進(jìn)行預(yù)處理,剔除非法字符,保證地名用詞和構(gòu)成的完整性;②將地名與通名庫進(jìn)行比對(duì),遵循右側(cè)優(yōu)先,長(zhǎng)度優(yōu)先等原則,確定地名通名,進(jìn)而將地名分解為專名和通名兩部分;③計(jì)算通名相似度,其結(jié)果可以對(duì)兩地名性質(zhì)進(jìn)行判斷,根據(jù)閾值決定是否需要進(jìn)入下一步專名相似度的判斷;④比較專名字面相似度,根據(jù)閾值決定是否進(jìn)入復(fù)合相似度計(jì)算;⑤根據(jù)上述通名和專名相似度值結(jié)合動(dòng)態(tài)權(quán)重函數(shù)求取地名復(fù)合相似度值,并對(duì)大于閾值的地名進(jìn)行排序,得到匹配結(jié)果。綜合考慮上述流程產(chǎn)生的單項(xiàng)和復(fù)合指標(biāo),可以較為全面地把握地名的性質(zhì)及它們之間的關(guān)系。由于復(fù)合相似度的范圍為0~1的正數(shù),數(shù)值越高相似度越高,即越可能為同一地名;數(shù)值越接近0則說明二者的相似度越小,不是同一地名的可能性越大。上述閾值的大小會(huì)直接影響算法的效果,其設(shè)定通常先根據(jù)經(jīng)驗(yàn)設(shè)定初值,再利用樣本進(jìn)行檢驗(yàn)和迭代,逐步接近最優(yōu)值。
圖3 地名相似度匹配流程Fig.3 Matching process for similarity of place names
將上述閾值1、閾值2、閾值3均設(shè)置為0.5,以下表1中“華北水利水電學(xué)院”、“華北水利水電大學(xué)”為例說明復(fù)合相似度比對(duì)過程如下:分離二者的專名和通名,分別得到專名“華北水利水電”和“華北水利水電”及通名“學(xué)院”和“大學(xué)”;求“學(xué)院”、“大學(xué)”的語義相似度為0.8,大于0.5;于是進(jìn)行專名相似性的比較,得到專名相似度為1,大于0.5;再進(jìn)行復(fù)合相似度求取,其值為0.96,大于0.5,且較接近于1,因此認(rèn)為二者很可能為同一地名。
5.2 試驗(yàn)分析
本文利用河南省某地名數(shù)據(jù)庫對(duì)上述算法及流程進(jìn)行了檢驗(yàn),試驗(yàn)結(jié)果證明了該算法的合理性和有效性。
5.2.1 數(shù)據(jù)來源
本文以河南省某地名數(shù)據(jù)庫隨機(jī)抽取的3000條地名記錄作為試驗(yàn)數(shù)據(jù)。這些數(shù)據(jù)覆蓋了全省范圍,其中無通名地名147條,無專名地名1條,不規(guī)范地名412條,同區(qū)域(縣級(jí))重復(fù)地名322條,不同區(qū)域重復(fù)地名541條。試驗(yàn)使用《地名分類與類別代碼編制規(guī)則(GB/T18521— 2001)》作為構(gòu)建通名知識(shí)庫的基本框架,并利用試驗(yàn)地名數(shù)據(jù)庫的通名對(duì)其進(jìn)行擴(kuò)充,作為本次試驗(yàn)語義比較的基礎(chǔ)。利用兩個(gè)同樣的地名記錄集合,進(jìn)行相互匹配試驗(yàn),以驗(yàn)證匹配效果。由于試驗(yàn)數(shù)據(jù)并非完全的規(guī)范地名,為保證試驗(yàn)的有效性,試驗(yàn)對(duì)無通名的地名僅進(jìn)行了專名相似度求解,對(duì)部分不規(guī)范地名進(jìn)行了預(yù)處理。本文僅從規(guī)范地名角度研究地名關(guān)系,不考慮地名實(shí)際的空間位置關(guān)系,因此僅將上述重復(fù)地名作為相同地名處理,而不作進(jìn)一步空間關(guān)系的辨析。
5.2.2 試驗(yàn)結(jié)果與分析
本文建立的通名知識(shí)庫中僅考慮了通名間的上下位關(guān)系(未考慮其他關(guān)系類型),因此設(shè)Pr=1。試驗(yàn)時(shí),將式(2)、式(3)、式(7)代入式(1),并根據(jù)專家經(jīng)驗(yàn)及隨機(jī)抽取的300條樣本數(shù)據(jù)利用迭代算法對(duì)參數(shù)進(jìn)行優(yōu)化,最終設(shè)PL=0.4,PH=0.6,u=24,α=0.8,β=γ=0.1。表1分別求取了典型地名對(duì)的“通名相似度”、“專名相似度”、“復(fù)合相似度”、純基于字符串的“字面相似度”。
表1 部分試驗(yàn)數(shù)據(jù)及匹配結(jié)果Tab.1 Part of experiment data and matching results
(1)“確山縣”和“確山”,從規(guī)范地名來看二者語義上差別很大,前者是“行政區(qū)劃”,后者是“自然地名”,復(fù)合相似度指標(biāo)借助語義知識(shí)庫進(jìn)行判斷,結(jié)果為0.32,較接近人的認(rèn)知的判斷,而字面相似度0.67不能很好地反映這種關(guān)系;“東風(fēng)渠公園”和“東風(fēng)渠”與此情況類似。
(2)“河南理工大學(xué)”和“河南大學(xué)”,為同類型地名,復(fù)合相似度匹配算法在通名相同的情況下,以專名相似度代替復(fù)合相似度,結(jié)果為0.5,降低了二者為同一地名的可信度,較符合實(shí)際;其字面相似度為0.67,表明二者是同一地名的可靠性較高,與實(shí)際情況不相符。
(3)“鄭州市”和“焦作市”的情況與(2)類似,通名相同,專名完全不同,復(fù)合相似度指標(biāo)為0,否定了二者同一地名的可能性。
(4)“河南省”和“焦作市”,通名具有較高的相似度說明二者在性質(zhì)上有相似之處;專名相似度為0,則從符號(hào)角度否定了二者的同一性,其復(fù)合相似度僅為0.23,基本可以判斷不是同一地名;各指標(biāo)值符合認(rèn)知習(xí)慣。
(5)“華北水利水電學(xué)院”與“華北水利水電大學(xué)”,為同類型高等本科院校,且專名相同,為同一所大學(xué)可能性極大,復(fù)合相似度指0.96印證了這一點(diǎn);純字面相似度則忽略了“學(xué)院”和“大學(xué)”的語義,相似度僅為0.75,不能很好地反映二者的同一性。
上述典型地名實(shí)例充分說明了本文提出的地名復(fù)合相似度指標(biāo)具有較高的地名辨析能力。由試驗(yàn)結(jié)果可以看出,基于本文算法及策略實(shí)現(xiàn)的匹配程序查全率為99.08%,查準(zhǔn)率為98.55%,達(dá)到了預(yù)期目標(biāo),而且該算法更接近人的認(rèn)知習(xí)慣,提高了規(guī)范地名的匹配準(zhǔn)確率,為地名關(guān)系判斷提供了科學(xué)依據(jù)。從數(shù)據(jù)誤差分析上看,地名不規(guī)范是影響算法有效性的主要因素,今后應(yīng)進(jìn)一步加強(qiáng)非規(guī)范地名的處理方法研究。
本文將規(guī)范地名分解為專名和通名,利用編輯距離法和改進(jìn)的語義距離法分別求取專名和通名的單項(xiàng)相似度,再利用動(dòng)態(tài)加權(quán)方法求得地名復(fù)合相似度指標(biāo),并提出了基于該模型的地名匹配策略和流程,采用閾值過濾非目標(biāo)對(duì)象,增強(qiáng)了地名匹配算法的理論完備性和有效性。主要?jiǎng)?chuàng)新有兩點(diǎn):①建立基于地名分類的地名通名語義知識(shí)庫,并在該庫支持下,從地名性質(zhì)入手,逐步確定地名之間的關(guān)系;②模擬認(rèn)知習(xí)慣,根據(jù)地名通名語義相似度動(dòng)態(tài)確定各單項(xiàng)相似度指標(biāo)的權(quán)重。試驗(yàn)結(jié)果驗(yàn)證了該方法的科學(xué)性和可靠性,提高了無約束規(guī)范地名的匹配準(zhǔn)確率,為地名參照的查詢系統(tǒng)提供了有效的檢索方法,為地名本體的應(yīng)用提供了新思路。該算法中的語義關(guān)系僅考慮了通名間的“IS-A”關(guān)系,不能全面反映地名間語義關(guān)系,今后將重點(diǎn)研究地名本體中其他關(guān)系類型尤其是空間關(guān)系對(duì)地名相似度的影響以及其他地名形式的匹配算法。
[1] ZENG Wen,YAN Junxia.Design and Application of an Urban GIS Place Name Location Tool[J].Journal of Earth Science,2006,31(9):725-728.(曾文,鄢軍霞.城市GIS地名定位工具的設(shè)計(jì)及應(yīng)用[J].地球科學(xué):中國(guó)地質(zhì)大學(xué)學(xué)報(bào),2006,31(9):725-728.)
[2] YU Jianfeng,WANG Guangxia,WAN Gang.Implement of Geographical Name Retrieval Based on Fuzzy Bopomofo [J].Journal of Geomatics Science and Technology,2008, 25(2):120-123.(於建峰,王光霞,萬剛.基于漢字模糊音的地名查詢方法設(shè)計(jì)與實(shí)現(xiàn)[J].測(cè)繪科學(xué)技術(shù)學(xué)報(bào),2008, 25(2):120-123.)
[3] LIAO Yilan,WANG Jinfeng,MA Jiaqi,et al.Place Name Data Matching Based on BPM-BM Algorithm[J].Bulletin of Surveying and Mapping,2008(6):22-25.(廖一蘭,王勁峰,馬家奇,等.基于BPM-BM算法的地名數(shù)據(jù)匹配[J].測(cè)繪通報(bào),2008(6):22-25.)
[4] TONG Xiaohua,DENG Susu,SHI Wenzhong.A Probabilistic Theory Based Matching Method[J].Acta Geodaetica et Cartographica Sinaca,2007,36(2):210-217.(童小華,鄧愫愫,史文中.基于概率的地圖實(shí)體匹配方法[J].測(cè)繪學(xué)報(bào),2007,36(2):210-217.)
[5] HAO Yanling,TANG Wenjing,ZHAO Yuxin,et al.Areal Feature Matching Algorithm Based on Spatial Similarity[J].Acta Geodaetica et Cartographica Sinaca, 2008,37(4):501-506.(郝燕,唐文靜,趙玉新,等.基于空間相似性的面實(shí)體匹配算法研究[J].測(cè)繪學(xué)報(bào),2008,37 (4):501-506.)
[6] AN Xiaoya,SUN Qun,XIAO Qiang,et al.A Shape Multilevel Description Method and Application in Measuring Geometry Similarity of Multi-scale Spatial Data[J].Acta Geodaetica et Cartographica Sinica,2011,40(4):495-502.(安曉亞,孫群,肖強(qiáng),等.一種形狀多級(jí)描述方法及在多尺度空間數(shù)據(jù)幾何相似性度量中的應(yīng)用[J].測(cè)繪學(xué)報(bào), 2011,40(4):495-502.)
[7] LIU Yu,ZHANG Yi,TIAN Yuan,et al.On General Place Names and the Associated Ontology[J].Geography and Geo-Information Science,2007,23(6):1-7.(劉瑜,張毅,田原,等.廣義地名及其本體研究[J].地理與地理信息科學(xué),2007,23(6):1-7.)
[8] CHENG Gang,DU Qingyun.Construction and Application of Ontologies in Location-based Services[J].Journal of Liaoning Technical University:Natural Science,2009,28 (5):708-711.(程鋼,杜清運(yùn).基于位置服務(wù)中的本體構(gòu)建及應(yīng)用[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào):自然科學(xué)版,2009, 28(5):708-711.)
[9] LI Shuxia,AN Min,LI Hongwei,et al.Design of the Ontology of Place Based on Commonsense Spatial Cognition[J].Journal of Geomatics Science and Technology, 2011,28(6):450-453.(李淑霞,安敏,李宏偉,等.常識(shí)空間認(rèn)知研究與地名本體設(shè)計(jì)[J].測(cè)繪科學(xué)技術(shù)學(xué)報(bào),2011, 28(6):450-453.)
[10] JANOWICZ K,KESSLER C.The Role of Ontology in Improving Gazetteer Interaction[J].International Journal of Geographical Information Science,2008,22(10):1129-1157.
[11] JI Xiaoyan,ZHOU Min.A Study of Processing Technique of Place Name Data in Construction of Global Basic Geographic Base Map Database[J].Bulletin of Surveying and Mapping,2006(7):45-48.(季曉燕,周敏.全球基礎(chǔ)地理底圖數(shù)據(jù)庫建設(shè)中對(duì)地名數(shù)據(jù)處理技術(shù)的探討[J].測(cè)繪通報(bào),2006(7):45-48.)
[12] BENNETT B,AGARWAL P.Semantic Categories Underlying the Meaning of Place[C]∥Proceedings of the 8th International Conference on Spatial Information Theory (COSIT 2007).Melbourne:[s.n.],2007.
[13] ZHANG Chunju,ZHANG Xueying,JI Leijing,et al.RelationMapping between Generic Terms of Place Names and Geographical Feature Types[J].Geomatics and Information Science of Wuhan University,2011,36(7):857-861.(張春菊,張雪英,吉蕾靜,等.地名通名與地理要素類型的關(guān)系映射[J].武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2011,36(7):857-861.)
[14] CHU Yaping,YIN Junke,SUN Donghu.The Toponymy Essentials[M].2nd ed.Beijing:Surveying and Mapping Press,2009.(褚亞平,尹鈞科,孫冬虎.地名學(xué)基礎(chǔ)教程[M].第2版.北京:測(cè)繪出版社,2009.)
[15] WANG Jitong.Norms for General Chinese Place Name[J].China Place Name,2002(3):20-23.(王際桐.中國(guó)漢語地名通名的規(guī)范[J].中國(guó)地名,2002(3):20-23.)
[16] Ministry of Civil Affairs of the People's Republic of China.Rules for Classification of Geographical Names and Code Representation GB/T18521-2001[S].Beijing:China Biaozhun Press,2002.(中華人民共和國(guó)民政部.地名分類與類別代碼編制規(guī)則GB/T18521-2001[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2002.)
[17] CHENG Gang,LU Xiaoping,GE Xiaosan,et al.Data Fusion Method for Digital Gazetteer[C]∥Proceedings of 18th International Conference.Beijing:[s.n.],2010.
[18] HUANG Shiguo,GENG Guohua.The Survey on Semantic Similarity Metric[J].Computer Applications and Software,2008,25(2):37-39.(黃世國(guó),耿國(guó)華.語義相似性測(cè)度方法研究綜述[J].計(jì)算機(jī)應(yīng)用與軟件,2008,25 (2):37-39.)
[19] SUN Haixia,QIAN Qing,CHENG Ying.Review of Ontologybased Semantic Similarity Measuring[J].New Technology of Library and Information Service,2010(1):51-56.(孫海霞,錢慶,成穎.基于本體的語義相似度計(jì)算方法研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010(1):51-56.)
[20] LIU Jingfang,ZOU Ping,ZHANG Pengzhu,et al.Research on an Improved Algorithm of Concept Semantic Similarity Based on Ontology[J].Journal of Wuhan University of Technology,2010,32(20):112-127.(劉景方,鄒平,張朋柱,等.一種改進(jìn)的本體概念語義相似度算法研究[J].武漢理工大學(xué)學(xué)報(bào),2010,32(20):112-127.)
[21] JIANG Hua.Research on Concept Semantic Similarity Computation Based on Ontology[J].Computer Applications and Software,2009,26(7):143-145.(姜華.一種基于本體的概念語義相似度計(jì)算研究[J].計(jì)算機(jī)應(yīng)用與軟件, 2009,26(7):143-145.)
(責(zé)任編輯:宋啟凡)
Matching Algorithm for Chinese Place Names by Similarity in Consideration of Semantics of General Names for Places
CHENG Gang1,2,3,LU Xiaoping1
1.Key Laboratory of Mine Spatial Information Technologies,National Administration of Surveying,Mapping and Geoinformation,Henan Polytechnic University,Jiaozuo 454000,China;2.School of Surveying and Land Information Engineering,Henan Polytechnic University,Jiaozuo 454000,China;3.Postdoctoral Research Center of Surveying and Mapping,PLA Information Engineering University,Zhengzhou 450052,China
Matching of place names is one of the key issues in geographic information retrieval, integration and updating for multi-source geospatial data.According to the morphology characteristics for Chinese place names and relations between general names for places and its types;ontology knowledge base for general names for places has been established,based on which semantic of place names is used as an important indicator for matching of place names by their similarity.Aiming at overcoming the shorts of queries by literals or geospatial data for place names,a new matching algorithm and query strategy is proposed for Chinese place names taking both similarities of special names and general names for places into consideration.The method simulates human cognitive habits,in which the weights of similarity for special names and general names for places are set dynamically according to the degree of semantic similarity by a monotonic function relationship.The final composite similarity index for place names is weighted average for similarities of special names and general names for places.Based on the model above,the strategy and flow have been put forward,which enhances the theoretical basis and completeness of matching algorithm for Chinese place names by using semantic knowledge from general names for places,and it thereby improves the accuracy of the matching algorithm.The experimental results show that the matching model is consistent with human cognitive habits,and further demonstrate the rationality and effectiveness of this method.
general names for places;semantic;ontology;composite index;matching of place names
CHENG Gang(1981—),male,PhD, associate professor,majors in theory and methods for GIS.
P208
A
1001-1595(2014)04-0404-07
2013-04-27
程鋼(1981—),男,博士,副教授,主要研究方向?yàn)镚IS理論與方法。
E-mail:chenggang1218@163.com
CHENG Gang,LU Xiaoping.Matching Algorithm for Chinese Place Names by Similarity in Consideration of Semantics of General Names for Places[J].Acta Geodaetica et Cartographica Sinica,2014,43(4):404-410.(程鋼,盧小平.顧及通名語義的漢語地名相似度匹配算法[J].測(cè)繪學(xué)報(bào),2014,43(4):404-410.)
10.13485/j.cnki.11-2089.2014.0060
國(guó)家自然科學(xué)基金(41001226;41340034);河南省高等學(xué)校骨干教師計(jì)劃(2012GGJS-055);河南省教育廳自然科學(xué)研究計(jì)劃(2010B170006);國(guó)家測(cè)繪地理信息局重點(diǎn)實(shí)驗(yàn)室開放課題(KLM201202);數(shù)字制圖與國(guó)土信息應(yīng)用工程國(guó)家測(cè)繪地理信息局重點(diǎn)實(shí)驗(yàn)室開放基金(GCWD201002);河南理工大學(xué)博士基金(B2010-9)
修回日期:2013-07-20