張雪英,朱少楠,張春菊
南京師范大學(xué)虛擬地理環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室,江蘇南京210046
全球技術(shù)研究和咨詢公司2002年調(diào)查報(bào)告表明,未來(lái)10年中至少95%的人機(jī)交互信息是文本語(yǔ)言,而80%以上的文本中涉及地理信息描述[1]。文本、圖形/圖像/地圖、GIS和虛擬地理環(huán)境是現(xiàn)實(shí)世界和虛擬世界應(yīng)用的主要地理語(yǔ)言[2]。除了傳統(tǒng)的攝影測(cè)量和地圖數(shù)字化手段之外,GPS、遙感影像、文本等已成為新型的重要地理信息來(lái)源[3-4]。實(shí)現(xiàn)文本中地理信息的語(yǔ)義解析,有助于更加深入地理解空間認(rèn)知和空間語(yǔ)言的表達(dá)規(guī)律,建立自然語(yǔ)言與GIS計(jì)算模型之間的語(yǔ)義映射關(guān)系,可廣泛應(yīng)用于GIS空間查詢、地理信息檢索、空間推理等方面[9-12]。在文本描述中,空間概念可能頻繁改變,而且涉及不同的實(shí)體、空間關(guān)系、屬性等信息[5-8]。這些信息在文本中主要采用特定的空間詞匯和定性方式進(jìn)行表達(dá),但是在詞匯、句法和語(yǔ)義等方面存在較為明顯的不確定性。語(yǔ)料庫(kù)不僅是語(yǔ)言定性、定量分析研究的基礎(chǔ),而且支持特定領(lǐng)域的應(yīng)用系統(tǒng)開(kāi)發(fā)[13-15]。標(biāo)注體系構(gòu)建的任務(wù)是對(duì)語(yǔ)言中特定信息進(jìn)行分析,發(fā)現(xiàn)文本中特定領(lǐng)域信息的語(yǔ)言結(jié)構(gòu)(比如詞、詞組、句法模式等),建立描述它們的元數(shù)據(jù)[16]。不同層次標(biāo)注的語(yǔ)料庫(kù)是文本信息解析系統(tǒng)的必備資源,為其提供標(biāo)準(zhǔn)化的訓(xùn)練和測(cè)試數(shù)據(jù)。相關(guān)標(biāo)注體系和語(yǔ)料庫(kù)的匱乏是阻礙文本中地理信息解析的重要因素[17]。
地理標(biāo)記語(yǔ)言(geography markup language,GML)以一種互聯(lián)網(wǎng)上容易共享的方式來(lái)描述、表達(dá)現(xiàn)實(shí)世界中的地理信息。GML定義數(shù)據(jù)的格式和數(shù)據(jù)內(nèi)容,提供一個(gè)描述地理對(duì)象的框架。KML(keyhole markup language)是基于XML(extensible markup language)語(yǔ)法和文件格式的文件,用來(lái)描述和保存地理信息,并在Google Earth客戶端中顯示。GML和KML是當(dāng)前應(yīng)用最廣的兩種地理信息標(biāo)記語(yǔ)言,主要面向結(jié)構(gòu)化、定量化地理信息的描述、表達(dá)和保存,且二者具有較好的兼容性。GUM(generalized upper model)是一個(gè)通用語(yǔ)言驅(qū)動(dòng)本體,將自然語(yǔ)言中空間表達(dá)式形式化為:SpatialLocating SL(locatum"XX",placement GL(hasSpatial-Modality XX,relatum"XX"|hasSpatialModality XX,relatum"XX"+quantitativeDistance-Extent"XX",relatum"XX")),SpatialModality指連接、相離、左、右、遠(yuǎn)等關(guān)系狀態(tài)[18]。TRML(toponym resolution markup language)是用于標(biāo)注英文文本中地名及其要素名稱、幾何類型、經(jīng)緯度、上層實(shí)體等屬性的標(biāo)注體系[19]。GeoTagger與TRML較為類似,可以對(duì)不同類型不同語(yǔ)言的文檔進(jìn)行地名標(biāo)注,已應(yīng)用于MetaCarta公司的智能化地名搜索系統(tǒng)。TESLA(the geospatial language annotator)是專用于實(shí)時(shí)路徑描述的語(yǔ)音語(yǔ)料標(biāo)注系統(tǒng),與GIS數(shù)據(jù)庫(kù)相結(jié)合,構(gòu)建了PURSUIT語(yǔ)料庫(kù),對(duì)路徑描述中的坐標(biāo)、街道、交叉口、地址和標(biāo)志性點(diǎn)狀實(shí)體進(jìn)行了標(biāo)注[20-21]。SpatialML定義了文本中地名及其空間關(guān)系的標(biāo)注體系,并擴(kuò)展為ACE(automatic content extraction)英文文本空間關(guān)系抽取評(píng)測(cè)語(yǔ)料庫(kù)的標(biāo)注規(guī)范[17]。20世紀(jì)80年代以來(lái),面向語(yǔ)言學(xué)和信息抽取方法研究,國(guó)內(nèi)相繼建立了一些大型的標(biāo)注語(yǔ)料庫(kù)。但是,絕大多數(shù)都沒(méi)有考慮空間語(yǔ)義的表達(dá)與解析問(wèn)題。哈爾濱工業(yè)大學(xué)對(duì)中文版《伊索寓言》中的地名、人、物等實(shí)體和空間關(guān)系進(jìn)行了標(biāo)注[22]。文獻(xiàn)[23]初步探討了中文文本的空間語(yǔ)義角色標(biāo)注,并以30篇標(biāo)注文本為數(shù)據(jù)集,測(cè)試了中文文本中地理實(shí)體、空間關(guān)系和空間過(guò)程的信息抽取效果。綜上所述,GUM、TRML和SpatialML等較為完善的標(biāo)注體系適用于英文文本中地名標(biāo)注,而針對(duì)漢語(yǔ)的相關(guān)研究尚處于初步探索階段,缺乏較大規(guī)模的應(yīng)用型標(biāo)注語(yǔ)料庫(kù)。
命名實(shí)體是自然語(yǔ)言處理、信息抽取和文本數(shù)據(jù)挖掘等領(lǐng)域廣泛使用的概念,通常指文本中描述具有特定意義實(shí)體的特殊短語(yǔ),包括人名、地名、機(jī)構(gòu)名、專有名詞等[24]。地理命名實(shí)體(geographical named entities,GNE)可看成是特定領(lǐng)域的命名實(shí)體,即文本中描述具有地理位置特性的命名實(shí)體,包括地名、地址、機(jī)構(gòu)名、郵政編碼等,具有模糊性、不確定性和多維動(dòng)態(tài)等特點(diǎn)[25]。地名是地理命名實(shí)體的重要組成部分,具有濃厚的語(yǔ)言表達(dá)特征[26-27]。具體來(lái)講,中文文本中地理命名實(shí)體的語(yǔ)言描述特征包括:① 用字較自由、分散,但具有相對(duì)集中的覆蓋能力[28];② 結(jié)尾常有特征詞,比如“省、路、山”等;③ 附加方位詞,比如 “五臺(tái)山”是一個(gè)地名,而“五臺(tái)山北部”則是一個(gè)完整的地理命名實(shí)體;④ 大多數(shù)情況下作為名詞出現(xiàn),有時(shí)作為形容詞修飾其他實(shí)體,如“[老山]洋槐蜜”;⑤ 有的地理命名實(shí)體沒(méi)有具體名稱,但是根據(jù)上下文中的空間位置關(guān)系描述,可以對(duì)其進(jìn)行空間定位,比如“南師大正門前的池塘”中的“池塘”是一個(gè)地理命名實(shí)體,但不是一個(gè)嚴(yán)格意義上的地名。很顯然,中文文本和GIS中對(duì)于地理實(shí)體的描述與表達(dá)機(jī)制存在較大的差異(表1)。
表1 中文文本與GIS中地理實(shí)體描述與表達(dá)機(jī)制的差異Tab.1 Difference of representation of geographical entities in Chinese text and GIS
地理命名實(shí)體標(biāo)注體系側(cè)重于地理實(shí)體在文本中的空間語(yǔ)義表達(dá),同時(shí)考慮信息的兼容、共享與交換性能。本文以XML為標(biāo)記元語(yǔ)言,設(shè)計(jì)了地理命名實(shí)體的標(biāo)注體系。地理命名實(shí)體采用〈GNE〉標(biāo)簽,包括4個(gè)屬性:①id是標(biāo)注單元序號(hào);②type和typecode分別描述地理實(shí)體的要素類型和代碼,本文樣例中分類參考《地理命名實(shí)體要素類型分類體系(GNEC)》[29];③form,標(biāo)識(shí)地理命名實(shí)體的具名和不具名特性,NAM和NOM分別指示有具體名稱和無(wú)具體名稱的地理實(shí)體;④mod,文本中經(jīng)常存在對(duì)地理命名實(shí)體的一些限制性修飾(如方位詞),為了便于實(shí)體的空間位置語(yǔ)義解析,這些詞匯作為實(shí)體的mod屬性標(biāo)注。
在標(biāo)注過(guò)程中,需要考慮漢語(yǔ)中地理實(shí)體描述的語(yǔ)言特點(diǎn)。地理命名實(shí)體的標(biāo)注以句子為單位,在保證空間位置語(yǔ)義基本完整的前提下,對(duì)地理實(shí)體概念進(jìn)行最小語(yǔ)義單元的標(biāo)注,具體標(biāo)注定義如下。
(1)組合式地理命名實(shí)體:對(duì)于不同等級(jí)連續(xù)描述的地理命名實(shí)體,按照地理范圍進(jìn)行分級(jí)標(biāo)注。
(2)并列式地理命名實(shí)體:以頓號(hào)、短劃線或其他符號(hào)分隔的地理命名實(shí)體,如果單獨(dú)標(biāo)注會(huì)破壞空間語(yǔ)義的完整性,則整體進(jìn)行標(biāo)注。
(3)關(guān)聯(lián)式地理命名實(shí)體:多個(gè)地理命名實(shí)體與上下文連接起來(lái)描述某種空間關(guān)系,將實(shí)體分開(kāi)標(biāo)注。
若一個(gè)或多個(gè)具名的地理命名實(shí)體和一個(gè)不具名的地理命名實(shí)體合起來(lái)表示一個(gè)地理實(shí)體,則進(jìn)行整體標(biāo)注。
(4)后綴式地理命名實(shí)體。
空間關(guān)系詞匯:地理命名實(shí)體通常后接表示方位詞,指示實(shí)體的區(qū)域范圍,此類詞匯作為地理命名實(shí)體的屬性標(biāo)注。
地理概念:一個(gè)地理命名實(shí)體與表示地理要素類型詞語(yǔ)合起來(lái)表示一個(gè)新的地理實(shí)體,則進(jìn)行整體標(biāo)注。
混合型:空間方位詞加岸、麓、坡等地理要素概念構(gòu)成的實(shí)體名稱,如上游、南岸、南麓,南坡等,首先標(biāo)注為空間關(guān)系詞匯〈SIGNAL〉,然后作為地理實(shí)體的mod屬性。
(5)指代名稱:地理命名實(shí)體在下文中通常以指代名稱出現(xiàn),如××省、××縣在下文通常表達(dá)為“省、市、縣”,或者下文中繼續(xù)描述該地理實(shí)體的“北部、東部”等。如果指代名稱與完整地理實(shí)體名稱位于同一語(yǔ)句,則對(duì)指代名稱進(jìn)行標(biāo)注,否則不予標(biāo)注。
(6)地理分區(qū):有些區(qū)域名稱描述的地理實(shí)體,并沒(méi)有固定邊界,如“中東地區(qū)”和“西北地區(qū)”等,需要進(jìn)行標(biāo)注。
(7)機(jī)構(gòu)名稱:機(jī)構(gòu)名稱具有空間位置的指示作用,作為地理命名實(shí)體標(biāo)注。
(8)替代性名稱:地理命名實(shí)體的別名、簡(jiǎn)稱等替代性名稱,需要標(biāo)注。但是,“意指(意為)[× ××]”等不作標(biāo)注。
(9)抽象概念:如果地理命名實(shí)體不包括地理位置含義,而是僅僅作為一個(gè)抽象概念使用,則不進(jìn)行標(biāo)注,如“[麥當(dāng)勞]24小時(shí)營(yíng)業(yè)”。
為了確定文本中地理實(shí)體的地理位置,標(biāo)注者可以使用整篇文章作為語(yǔ)義背景,或者參考常識(shí)知識(shí)和專業(yè)知識(shí)。如果文本中沒(méi)有明確的位置指示,可以不標(biāo)注地理參考,或者標(biāo)注為最高級(jí)別的行政區(qū)劃類別。例如,“蕪湖”可以指安徽省的“蕪湖市”,也可以指蕪湖市的蕪湖縣。
開(kāi)源自然語(yǔ)言處理軟件GATE,可接受XSD格式的schema文件,使用戶按照一定標(biāo)注框架對(duì)文本進(jìn)行標(biāo)注,同時(shí)提供標(biāo)注數(shù)據(jù)管理方案,經(jīng)過(guò)GATE處理的語(yǔ)料可統(tǒng)一存儲(chǔ)為XML格式。本文以《中國(guó)大百科全書(shū)中國(guó)地理》為源數(shù)據(jù)(約213萬(wàn)字),以GATE為標(biāo)注平臺(tái)(圖1),參考本文設(shè)計(jì)的地理命名實(shí)體標(biāo)注體系,建立了大規(guī)模的標(biāo)注語(yǔ)料庫(kù)GeoCorpus。
圖1 基于GATE的地理命名實(shí)體標(biāo)注界面Fig.1 Annotation interface of geographical named entities with GATE
表2 語(yǔ)料庫(kù)GeoCorpus中各大類標(biāo)注樣例Tab.2 Annotation samples of main classes in GeoCorpus
續(xù)表2
語(yǔ)料庫(kù)中各大類標(biāo)注樣例參見(jiàn)表2。地理命名實(shí)體標(biāo)注總數(shù)為7135個(gè),其中大類“境界、政區(qū)與其他區(qū)域”3387個(gè)、“水系”1497個(gè)、“居民地及設(shè)施”983個(gè)、“地貌”958個(gè)、“交通”256個(gè)、“組織機(jī)構(gòu)”49個(gè)、“管線”等其他類5個(gè);“國(guó)家行政區(qū)”、“自然地貌”、“河流”、“名勝古跡”、“居民地”、“湖泊”、“其他水系要素”、“非行政區(qū)域”、“鐵路”、“其他建筑物及其設(shè)施”10種要素類型的地理命名實(shí)體數(shù)量最多。從空間認(rèn)知的角度看,這些類型的地理實(shí)體具有較高的認(rèn)知顯著度,其語(yǔ)言描述特征具有一定的代表性。因此,盡管從數(shù)據(jù)量來(lái)看語(yǔ)料庫(kù)存在一定的不平衡性,但是仍然具有作為標(biāo)準(zhǔn)數(shù)據(jù)的研究和應(yīng)用能力。
探討中文文本中地理命名實(shí)體的標(biāo)注體系和語(yǔ)料庫(kù)標(biāo)注方法,不僅充分考慮中文文本的語(yǔ)言描述特點(diǎn),而且在保證空間語(yǔ)義正確的情況下,能夠?qū)Ω鞣N不同類型的地理命名實(shí)體進(jìn)行標(biāo)注;以《中國(guó)大百科全書(shū)中國(guó)地理》為源數(shù)據(jù)的標(biāo)注語(yǔ)料庫(kù),不僅規(guī)模較大,而且達(dá)到較高的標(biāo)注質(zhì)量,對(duì)中文文本中地理信息的語(yǔ)義解析有重要意義。下一步研究工作主要包括兩個(gè)方面:一是進(jìn)一步完善標(biāo)注體系,通過(guò)大規(guī)模普通網(wǎng)頁(yè)的標(biāo)注,解決語(yǔ)料庫(kù)的不平衡性問(wèn)題;二是與GIS數(shù)據(jù)庫(kù)相結(jié)合,開(kāi)發(fā)可視化的標(biāo)注工具,進(jìn)一步提高標(biāo)注效率和標(biāo)注質(zhì)量。
[1] PALKOWSKY B,METACARTA I.A New Approach to Information Discovery—Geography Really Does Matter[C]∥Proceedings of the SPE Annual Technical Conference and Exhibition.Dallas:[s.n.],2005.
[2] LIN Hui,GONG Jianghua.On Virtual Geographic Environments[J].Acta Geodaetica et Cartographica Sinica,2002,31(1):1-6.(林暉,龔建華.論虛擬地理環(huán)境[J].測(cè)繪學(xué)報(bào),2002,31(1):1-6.)
[3] GOODCHILD M F.Citizens as Voluntary Sensors:Spatial Data Infrastructure in the World of Web 2.0[J].International Journal of Spatial Data Infrastructures Research,2007(2):24-32.
[4] CHANG K T.Introduction to Geographic Information Systems[M].New York:McGraw-Hill,2008.
[5] HERSKOVITS A.Language and Spatial Cognition:An Interdisciplinary Study of the Prepositions in English[M].London:Cambridge University Press,1986.
[6] TALMY L.Toward a Cognitive Semantics:Concept Structuring Systems[M].Cambridge:MA,MIT Press,2000.
[7] TENBRINK T.Space,Time and the Use of Language:An Investigation of Relationships[M].Berlin:Mouton de Gruyter,2007.
[8] HOIS J,KUTZ O.Counterparts in Language and Space Similarity and Connection[C]∥Proceedings of the Fifth International Conference on Formal Ontology in Information Systems.[S.l.]:DFKI,2008.
[9] FRANK A U.Qualitative Spatial Reasoning:Cardinal Directions as an Example[J].International Journal of Geographical Information System,1996,10:269-290.
[10] TAPPAN D.Knowledge-based Spatial Reasoning for Automated Scene Generation from Text Descriptions[D].Las Cruces:New Mexico State University,2004.
[11] JONES C B,PURVES R.Geographical Information Retrieval[J].International Journal of Geographical Information Science,2008,22:219-228.
[12] LIU Y,GUO Q H,WIECZOREK J,et al.Positioning Localities Based on Spatial Assertions[J].International Journal of Geographical Information Science,2008,23(11):1471-1501.
[13] WEN Boyan.Corpus and It’s Application[J].Foreign Language Learning Theory and Practice,2001,2:32-35.(文渤燕.語(yǔ)料庫(kù)及其作用[J].國(guó)外外語(yǔ)教學(xué),2001,2:32-35.)
[14] SINCLAIR J.Corpus Concordance Collocation[M].Shanghai:Shanghai Foreign Language Education Press,1995.(辛克萊.語(yǔ)料庫(kù)、檢索與搭配[M].上海:上海外語(yǔ)教育出版社,1995.)
[15] LIU Lianyuan.Study of Corpus for Contemporary Chinese Language[J].Applited Linguistics,1996,3:2-9.(劉連元.現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)研制[J].語(yǔ)言文字應(yīng)用,1996,3:2-9.)
[16] KIM J D,OHTA T,TSUJII J I.Multilevel Annotation for Information Extraction[J].Speech and Language Technology,2010,40:125-142.
[17] MANI I,HITZEMAN J,RICHER J,et al.SpatialML:Annotation Scheme,Corpora,and Tools[C]∥Proceedings of the 6th International Conference on Language Resources and Evaluation.Morocco:LREC,2008.
[18] TALMY L.The Fundamental System of Spatial Schemes in Language[J].From Perception to Meaning:Image Schemes in Cognitive Linguistics,2005,1,199-263.
[19] LEIDNER J L.Toponym Resolution in Text[D].Scotland:Universal of Edinburgh,2007.
[20] KILGOUR J,CARLETTAM J.The NITE XML Toolkit:Demonstration from Five Corpora[C]∥Proceedings of the 5th Workshop on NLP and XML:Multi-Dimensional Markup in Natural Language Processing.Trento:[s.n.],2005:65-68.
[21] CARLETTA J,KILGOUR J.The NITE XML Toolkit Meets the ICSI Meeting Corpus:Import,Annotation,and Browsing[C]∥Proceedings of Machine Learning for Multimodal Interaction:First International Workshop.Berlin:Springer-Verlag,2005:111-121.
[22] LI Hanjing.Research on Spatial Conceptual Model Based on Natural Language Processing[D].Harbin:Harbin Institute of Technology,2007.(李晗靜.基于自然語(yǔ)言處理的空間概念建模研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2007.)
[23] LE Xiaoqiu.Research on Intelligent Web Search Engine of Unstructured Spatial Inofrmation[D].Beijing:Institute of Remote Sensing Applications,2007.(樂(lè)小虬.非結(jié)構(gòu)化網(wǎng)絡(luò)空間信息智能搜索與服務(wù)研究[D].北京:中國(guó)科學(xué)院遙感應(yīng)用研究所,2007.)
[24] LI Yusen.Chinese Toponym Resolution and Visualization[D].Chongqing:Chongqing University of Posts and Telecommunications,2009.(李玉森.面向空間位置服務(wù)的地名解析方法研究[D].重慶:重慶郵電大學(xué),2009.)
[25] CAO Han.Research on Knowledge Representation and Reasoning Mechanism for Spatial Relation Reasoning[D].Wuhan:Wuhan University,2002.(曹菡.空間關(guān)系推理的知識(shí)表示與推理機(jī)制研究[D].武漢:武漢大學(xué),2002.)
[26] DONG Huirong.Probing the Thinking Mode and Social Psychology of the Hans in the View of Chinese Place Name[J].Academic Exchange,2003(12):138-141.(鄧慧蓉.從中國(guó)地名透視漢族人的思維方式和社會(huì)心理[J].學(xué)術(shù)交流,2003(12):138-141.)
[27] WU Zhirong.Discussion on Place Name Words[J].Map,2006(1):42-43.(吳志榮.地名用字瑣談[J].地圖,2006(1):42-43.)
[28] FENG Zhiwei.Empiricism-based Corpus Research[J].Terminology Standardization &Information Technology,2007(1):29-39.(馮志偉.基于經(jīng)驗(yàn)主義的語(yǔ)料庫(kù)研究[J].術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù),2007(1):29-39.)
[29] ZHANG Xueying,ZHANG Chunju,LV Guonian.Design and Analysis of a Classification Scheme of Geographical Named Entities[J].Journal of Geo-Information Science,2010(2):220-227.(張雪英,張春菊,閭國(guó)年.地理命名實(shí)體分類體系的設(shè)計(jì)與應(yīng)用分析[J].地球信息科學(xué),2010(2):220-227.)