朱喬利 李學(xué)鋒 李永剛 胡波 李亞
摘要:地理信息概念語義關(guān)系分析是異構(gòu)分布式地理信息系統(tǒng)在語義層次上實(shí)現(xiàn)共享的重要基礎(chǔ)。本文以豐富地理信息概念的語義關(guān)系為目的,在分析各種結(jié)構(gòu)化語義詞表中定義的語義關(guān)系的基礎(chǔ)上,結(jié)合中文分詞,提出了一種基于MindNet的地理信息概念語義關(guān)系分析模型,并以部分水系地理信息概念為例對(duì)此方法進(jìn)行了可行性分析。
關(guān)鍵詞:地理信息概念 語義關(guān)系 MindNet 中文分詞
中圖分類號(hào):TP391.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2016)08-0066-03
地理信息共享與互操作問題一直都是地理信息科學(xué)領(lǐng)域研究的熱點(diǎn),利用地理本體可以實(shí)現(xiàn)對(duì)各種地理信息資源的歸類和分級(jí),實(shí)現(xiàn)跨數(shù)據(jù)庫間語義互換等,最終實(shí)現(xiàn)異構(gòu)分布式系統(tǒng)之間在語義層次上的互操作,因此地理信息分類是地理本體論研究中最重要的方面甚至前提之一。而領(lǐng)域中術(shù)語以及術(shù)語之間的關(guān)系是本體研究的主要對(duì)象之一[1]。然而,地理信息的復(fù)雜特性增加了進(jìn)行地理信息語義分類的難度,一些簡(jiǎn)單的地理信息概念語義關(guān)系無法完全指導(dǎo)地理信息的語義分類體系構(gòu)建,因此需要更加豐富的語義關(guān)系知識(shí)。一些結(jié)構(gòu)化語義詞表如敘詞表、WordNet、MindNet、FramNet還有我國(guó)的知網(wǎng)(HowNet)中的詞間關(guān)系可以為地理信息概念關(guān)系和分類提供借鑒內(nèi)容[2]。本文通過比較分析以上結(jié)構(gòu)化語義詞表中定義的各種語義關(guān)系,提出一種基于MindNet的地理信息概念語義分析方法,并以水系地理信息概念為例對(duì)此方法進(jìn)行了可行性分析。
1 基于結(jié)構(gòu)化語義詞表的語義關(guān)系
本體工程中,處于不同邏輯層概念之間的關(guān)系和反映物體組成結(jié)構(gòu)的關(guān)系對(duì)于理論與實(shí)際應(yīng)用都相當(dāng)重要,這些關(guān)系對(duì)于指導(dǎo)分類是非常重要的。Gangemi認(rèn)為理解本體中的不同類型的關(guān)系是構(gòu)造不同的本體分類體系的首要任務(wù),并介紹了一些基本關(guān)系如成員關(guān)系、實(shí)例關(guān)系、部分關(guān)系、連接關(guān)系等等,并提出這些關(guān)系在本體中具有重要的角色[3]。結(jié)合地理信息的特點(diǎn),王紅等將地理信息概念間的語義關(guān)系分為分類關(guān)系、依賴關(guān)系、部分-整體關(guān)系、實(shí)例關(guān)系以及概念屬性關(guān)系幾大類[4]。由于地理信息的復(fù)雜性,地理信息概念的分類研究需要更加豐富的語義關(guān)系知識(shí)支撐,包括概念之間和概念內(nèi)部的語義關(guān)系。各種結(jié)構(gòu)化語義詞表中定義的語義關(guān)系能夠極大地豐富地理信息概念的語義關(guān)系。
MindNet是微軟研究院自然語言處理(NLP)組設(shè)計(jì)開發(fā)的一個(gè)概念詞匯語義知識(shí)庫系統(tǒng),通過使用句法分析器從兩部英語詞典(朗文當(dāng)代英語詞典Longman Dictionary of Contemporary English,美國(guó)傳統(tǒng)詞典American Heritage Dictionary)和一部百科全書(微軟多媒體電子百科全書Encarta)中自動(dòng)獲取自然語言概念以及語義信息而建立的,三元組(triple)作為這些知識(shí)的表示基元[5]。MindNet中定義有24種不同類型的語義關(guān)系,旨在全面分析與表達(dá)文本語句中各種語義關(guān)系,本文采用了MindNet中定義的24種語義關(guān)系(表1),對(duì)地理概念描述語句中包含的詞語進(jìn)行語義分析,從它們的語義關(guān)系中得出關(guān)于這些地理概念的深層含義和本質(zhì)信息,為地理信息分類研究提供輔助。
2 地理信息領(lǐng)域的中文分詞
本文面對(duì)的是中文地理信息,與英語等其它語言不同的是,漢語中詞的形態(tài)基本沒有什么變化,一連串前后連續(xù)的漢字便組成了一個(gè)漢語句字,詞與詞之間不像英語有空格這種明顯的分界標(biāo)識(shí)。因此要想實(shí)現(xiàn)中文地理信息描述語句中的詞匯之間的語義關(guān)系分析,必須經(jīng)過專門的技術(shù)進(jìn)行處理,這種技術(shù)就是中文分詞。
2.1 分詞方法
以地理信息領(lǐng)域中對(duì)地理概念“沙灘”的描述語句“海岸線與干出線之間的沙質(zhì)潮漫地帶”在ICTCLAS中的分詞結(jié)果為例,該語句被分為“海岸線/n 與/cc 干/v 出/vf線/n 之間/f 的/ude1 沙質(zhì)潮/nr 漫/v 地帶/n”(“/”后面為詞性標(biāo)注),我們可以看出地理概念“干出線”被分為“干”、“出”、“線”三個(gè)單獨(dú)的字,“沙質(zhì)潮漫地帶”被分為“沙質(zhì)潮”、“漫”和“地帶”,地理概念詞語“潮漫地帶”被分隔開。因此,為獲得更加準(zhǔn)確的地理信息領(lǐng)域分詞結(jié)果,本研究還通過自定義領(lǐng)域詞典來解決中文分詞領(lǐng)域適應(yīng)性問題,并借助“結(jié)巴中文分詞”Java版實(shí)現(xiàn)對(duì)地理信息概念描述語句的分詞。結(jié)巴分詞源程序操作示例如圖1。
2.2 地理信息領(lǐng)域分詞結(jié)果
以GB/T20258.1-2007基礎(chǔ)地理信息要素?cái)?shù)據(jù)字典中部分地理要素概念及其要素描述語句為例。表2列舉了選取的部分要素名稱及其要素描述。
這里為了分詞結(jié)果顯示需要,使用“/”將所分詞語分隔,后續(xù)大量處理中將使用空格分隔分詞結(jié)果以符合標(biāo)注處理格式要求。首先加載地理信息概念自定義詞典,另外由于本研究需要處理的是大量的地理概念,將概念及其描述語句按行存儲(chǔ)在文本文件中,然后使程序?qū)ξ谋疚募械膬?nèi)容進(jìn)行分詞。編寫代碼設(shè)置程序以讀取的方式打開文本文件,輸出結(jié)果寫入一個(gè)新的文本文件,函數(shù)為splitSentence(‘MyGeoInput.txt,‘MyGeoOutput.txt),文本文件MyGeoInput.txt里存放的內(nèi)容即為地理概念及其描述語句,設(shè)置編碼格式為utf-8,輸出結(jié)果在新生成文本文件MyGeoOutput.txt中,對(duì)表2中列舉的概念分詞處理結(jié)果如圖2所示。
3 基于MindNet語義關(guān)系的地理信息概念分析
本文采用MindNet中定義的24種語義關(guān)系,結(jié)合地理概念描述語句的分詞結(jié)果,對(duì)地理概念進(jìn)行了語義關(guān)系分析。以基礎(chǔ)地理信息要素?cái)?shù)據(jù)字典中對(duì)地理概念“湖泊”的描述語句分詞結(jié)果為例,該描述語句分詞結(jié)果為“陸地/上/洼地/積水/形成/的/水域/寬闊/、/水量/變化/緩慢/的/水體/”,結(jié)合表1中定義的部分語義關(guān)系可以對(duì)地理概念“湖泊”做如圖3的語義關(guān)系分析。
由圖3可以看出地理要素湖泊的空間位置是在陸地,成因是由于積水形成,上位類別是屬于水體等,由此既可以分析其本質(zhì)屬性,又能知道它與其它概念(水系)之間的關(guān)系。對(duì)于其它地理概念描述語句的分詞結(jié)果也可以用同樣的方式進(jìn)行類似的語義關(guān)系分析,這些語義關(guān)系揭示了一個(gè)具體地理概念的組成成分以及成分之間的內(nèi)在聯(lián)系,并希望通過結(jié)構(gòu)化的方式展現(xiàn),對(duì)進(jìn)一步挖掘地理概念的內(nèi)涵具有重要的輔助意義,對(duì)于分析地理概念的本質(zhì)屬性有很大的幫助。同時(shí)有助于對(duì)地理概念含義的理解并發(fā)現(xiàn)不同地理概念間存在的相似點(diǎn)或差異,消除歧義理解,輔助完善地理信息語義分類。
4 結(jié)語
本文采用MindNet語義關(guān)系對(duì)地理信息概念描述語句的分詞結(jié)果進(jìn)行深入分析,進(jìn)一步豐富了地理信息概念的語義關(guān)系內(nèi)容,揭示了地理概念具體的組成成分以及這些成分之間的內(nèi)在聯(lián)系,對(duì)進(jìn)一步挖掘地理概念的內(nèi)涵具有重要的輔助意義,為地理信息語義分類提供很好的輔助作用,同時(shí)對(duì)于分析地理概念的本質(zhì)屬性也有很大的幫助。通過對(duì)地理信息概念“湖泊”的語義關(guān)系的具體分析,表明該語義關(guān)系模型對(duì)地理信息概念的語義關(guān)系分析具有很好的效果,該分析方法具有一定的可行性。但是,對(duì)地理信息概念語義關(guān)系分析的最終目的是便于計(jì)算機(jī)理解和處理地理信息,實(shí)現(xiàn)語義共享,如何在地理信息概念語義關(guān)系分析模型的構(gòu)建中實(shí)現(xiàn)自動(dòng)化,仍有待進(jìn)一步研究。
參考文獻(xiàn)
[1]Gruber T R. A translation approach to portable ontologies [J]. KnowledgeAcquisition, 1993,5(2):199-220.
[2]王世清.本體構(gòu)建中建立概念間關(guān)系方法研究[D]:[碩士]. 北京:農(nóng)業(yè)信息研究所研究生院,2010.
[3]Gangemi A, Guarino N, Masolo C, et al. Understanding top-level ontologicaldistinctions[A]. In Proceedings of IJCAI workshop on ontologies and InformationSharing[C],2001.
[4]王紅,李霖,朱海紅.國(guó)家基礎(chǔ)地理信息本體關(guān)鍵問題研究[M].北京:科學(xué)出版社,2011.
[5]黃昌寧,張小鳳.自然語言處理技術(shù)的三個(gè)里程碑[J].外語教學(xué)與研究,2002,34(3):180-187.