蔣秉川,萬 剛,許 劍,李 鋒,溫薈琦
1. 地理信息工程國家重點實驗室,陜西 西安 710054; 2. 信息工程大學地理空間信息學院,河南 鄭州 450001; 3. 清華大學建筑學院,北京 100084; 4. 西安測繪研究所,陜西 西安 710054
當前地理科學數據豐富但知識匱乏,而智能化虛擬地理環(huán)境需要構建VGE知識工程[1],智慧城市的建設也需要構建地理知識基礎設施[2](geographic knowledge infrastructure),地理信息服務必須實現從“數據—信息—知識—智慧”的智能化轉化,構建面向大眾的地理空間知識服務體系[3-4]。
虛擬地理環(huán)境作為新一代的地理語言,改變了傳統(tǒng)的地理科學知識的表達與獲取方式,加速了地理數據、信息到知識的轉換,是協(xié)助人類認識地理世界和解決地理問題的新型地理分析工具[5-6]。VGE知識工程是基于知識的智能虛擬地理環(huán)境系統(tǒng)的支撐理論、方法和技術體系,其關鍵問題是地理知識的表達與建模、知識庫的構建和管理、地理知識的智慧化服務[1]。將人工智能與地理空間信息領域相結合,是解決虛擬地理環(huán)境智能化的重要手段。
地理空間知識的存儲、共享和分類是虛擬地理環(huán)境系統(tǒng)通向智能服務的重要知識庫支撐。在大數據、人工智能等技術的推動下,需要利用高性能計算、云計算、大數據可視分析、知識圖譜等技術體系,實現對多源異構時空數據的分析與挖掘,從地理數據到地理知識的轉變,為虛擬地理環(huán)境的智能化提供技術支撐。在人工智能領域,知識圖譜、知識表示、知識鏈接等技術逐漸成為機器人認知的重要手段,在智能搜索、機器翻譯、機器理解、自然語言問答等領域得到了廣泛應用。知識圖譜核心是構建相關領域的語義知識網絡,對VGE知識的表達與建模、VGE知識庫的構建和管理、VGE知識的可視化方法具有廣泛的借鑒意義。
本文將知識圖譜技術與地理知識工程相結合,提出基于多源異構數據的大規(guī)模地理知識圖譜的構建,目的是建立大規(guī)模的地理知識庫,用于融合語義關系和空間關系的地理智能搜索和地理知識自然語言智能問答,最終為智能虛擬地理環(huán)境系統(tǒng)的構建提供技術支撐。論文首先評述了知識圖譜及地理知識圖譜的研究現狀;然后,提出了地理知識圖譜構建的技術體系和流程,探討了地理知識圖譜與其他領域知識圖譜的區(qū)別和聯系;最后,討論和闡述了地理知識圖譜的應用方向。
知識圖譜是人工智能領域的分支,是大數據時代知識表示最重要的一種方式。本質上是由具有屬性的實體通過關系鏈接而成的網狀知識庫,即具有有向圖結構的一個知識庫,其中圖的節(jié)點代表實體(entity)或者概念(concept),而圖的邊代表實體/概念之間的各種語義關系[7]。
知識圖譜的概念起源于20世紀50年代末60年代初提出的語義網絡(semantic net)[8],知識圖譜的發(fā)展在相關文獻中都有了深入的闡述[7-9]。從20世紀70年代出現的“專家系統(tǒng)(expert system)”,70年代中后期利用哲學領域的本體論創(chuàng)建計算機模型,到萬維網之父Berners-Lee提出的“語義網(semantic web)”[10]和“鏈接數據(linked data)”[11],都是“知識圖譜”的前身。當前,開放域知識圖譜比較有代表性的有:DBpedia[12]、YAGO[13]、Probase[14]、BableNet[15]等,國內的有Zhishi.me[16]、CN-DBpedia[17],見表1。知識圖譜具有規(guī)模大、語義豐富、質量高和結構友好等特點。
表1 主要開放知識圖譜的實體及關系數量
對地理知識的認識,不同的學者有不同的看法,大致可以分為3類:
(1) 地理知識的專業(yè)性認識。地理知識包括大量的地理概念、地理現象的描述,是關于地理時空問題的認知、理解與規(guī)律表達[18],是高層次的地理信息[19]。
(2) 地理知識的泛在化認識。由于泛在地理信息獲取渠道的不斷拓展,認為地理知識是描述地球系統(tǒng)中自然和人文環(huán)境的信息[20],互聯網中隱含了大量的地理知識[21],是廣義GIS的知識支撐[22]。
(3) 地理知識的綜合性認識。從地理知識共享角度,按照不同的分類方法,將地理知識進行了系統(tǒng)性的分類。代表性的有:文獻[3]將虛擬地理環(huán)境地理知識劃分為事實型知識、規(guī)則及控制型知識和決策型知識3個層次。文獻[1]認為地理知識基礎 (geographic knowledge base,GKB)包括地理實體(geographic objects)、地理結構(geographic structures)、地理關系(geographic relations)、地理規(guī)則(geographic Rules)、地理本體(geographic ontology)、地名詞典(gazetteer)、物理數學模型(physico-mathematical models)和外部知識(external knowledge)。
與地理知識圖譜字面較為相近的概念是陳述彭和廖克等提出的地學信息圖譜。文獻[23]認為地學信息圖譜是應用地學分析的系列多維圖解來描述現狀,并通過建立時空模型來重建過去和虛擬未來。文獻[24]認為其是一種空間圖形譜系,經過空間模型與地學認知的深入分析,可進行推理、反演與預測,形成對事物和現象更深層次的認識。由此可見,地學信息圖譜是一種時空分析方法,是譜系(spectrum)的概念。地理知識圖譜(geographic knowledge graph)是地理知識工程的一種知識表示,是網絡圖(graph)的概念。二者有著本質的不同。地理知識圖譜的研究,主要是作為開放語義網的一個子集出現的,代表性的成果有:GeoNames Ontology,LinkedGeoData,GeoWorldNet等[25]。針對地理知識圖譜構建的相關技術研究,主要有地理實體抽取[26-27]、拓撲和方位關系的抽取[28-29]和地理知識圖譜存儲[30-32]等。在地理知識圖譜應用方面,典型的有地理知識語義共享網絡系統(tǒng)[33](Geo-Wiki)和基于地理知識的地名詞典[34](KIDGS)。
如圖1所示,地理知識圖譜的核心是建立地理知識庫,在其基礎上形成地理知識語義網,然后通過語義模型,實現地理知識的語義搜索、地理知識推薦、關聯分析等功能,從而具備對地理、空間上分散的人、環(huán)境、事件等進行大規(guī)模實時關聯和因果分析的能力。
地理知識圖譜是知識圖譜在地理學的拓展,是結構化的地理語義知識庫,通過形式化地描述地理學領域的概念、實體、屬性及其相互關系,使得概念、實體間相互聯結,構成網狀知識結構。
地理知識可采用資源描述框架(resource description framework,RDF)表示為三元組形式,即“〈s(主語),p(謂語),o(賓語)〉”,形成由“點—邊”組成的大規(guī)模有向圖,如圖2所示。其中點表示地理概念、地理實體及屬性值,邊表示概念與概念之間的關系、概念與實體的關系、實體與實體之間的關系、實體與屬性的關系、屬性與屬性值的關系。
舉例說明,如圖3所示,實體與概念的關系:〈中國,屬于,國家〉;實體與實體之間的關系:〈中國,首都,北京〉;實體與屬性的關系:〈北京,人口,2 069.3萬〉。
圖1 地理知識圖譜概念圖Fig.1 Concept map of geographic knowledge graph
地理知識圖譜不單單是一個“增強型”的開放域知識圖譜,而是需要針對地理知識自身的特點,對知識的概念、實體和關系進行拓展,具有以下特點:
(1) 地理知識圖譜的構建是一項地理知識工程。地理知識圖譜的構建是對地理知識的形式化表達的基礎上,實現對地理知識抽取、融合、眾包、表示、推理、鏈接、問答、語義搜索和可視化等,是一個系列的地理知識工程。
(2) 地理知識圖譜描述的關系包括語義關系、空間關系和時間關系。開放域知識圖譜描述的關系主要是實體之間的語義關系,地理知識圖譜除了描述語義關系外,還需要考慮空間關系和時間關系的描述。如何建立地理時空關系和自然語言空間關系的映射,是地理知識圖譜構建的核心關鍵問題。
圖2 地理知識圖譜數據層構建流程Fig.2 Flowchart of knowledge graph data layer building
(3) 地理知識圖譜需要描述事實型知識和過程型知識。事實型知識主要指已經得到地理學家或人們認可的地理術語、地理名詞、地理分布、地理數據等反映地理事物外部特征和聯系的知識,屬于“輕量型”知識。過程型知識是指描述地理演變規(guī)律、地理預測規(guī)律等地理時空變換的地理模型,屬于專業(yè)性較強的知識。知識圖譜技術能夠較好地描述、存儲和表示事實型知識,并建立知識之間的聯系。對地理規(guī)則、地理模型等知識如何用圖譜技術建模與表示,也是需要研究的。
地理知識圖譜的構建采用“自頂向下”的方法構建,主要分為模式層和數據層構建。模式層包括地理本體和概念,主要通過本體構建方法實現地理本體概念分類體系的構建。數據層包括地理實體和相關屬性,基于多源異構地理信息數據實現地理知識抽取、知識融合和知識更新,構建流程見圖3。
圖3 地理知識圖譜示例Fig.3 Example of geographic knowledge graph
2.3.1 多源異構數據的地理知識抽取
多源異構地理實體抽取和關系建立包括地理知識抽取、關系鏈接、關系推理等過程。地理知識的來源包括地理本體庫、基礎地理信息數據、百科數據、微博客、微信、新聞網站、專題網站等,可從中提取地理概念、地理實體、地理屬性、語義關系、空間關系和時間關系。
地理概念主要源于地理本體的建立,如國家、城市、河流、草原等都是概念范疇,地理實體是概念的實例,含有具體的地理屬性,如中國、鄭州、黃河、呼倫貝爾大草原等都屬于地理實體。地理關系主要有語義關系和空間關系(圖4)。語義關系包括“is-a關系”、等同關系、相似關系、互斥關系等[35]。is-a關系,既包括概念之間的父子關系(如“水系”與“河流”),也包括概念與實體(如“河流”與“黃河”)的實例關系;等同關系用來描述同級地理概念或實例之間的等價關系,如“黃河”與“母親河”;互斥關系用來描述同級地理概念之間及相同性質實例之間的互斥關系,如“平原”與“山地”;相似關系用來描述意思上相近的同級地理概念或實例,如“第三世界”與“發(fā)展中國家”。
圖4 地理關系分類[35]Fig.4 Classification of geospatial relations[35]
時間關系主要用于描述時變特征較為明顯的各類地理現象。對時間關系的形式化描述,大致可分為兩類:①地理事件、過程等地理實體之間的時變關系,如“人物→國家,人物→地點”等之間的關系[36]。非結構化的地理事件主要通過新聞網站等網絡中獲取,如“2018年4月3日,普京訪問土耳其”,可對“普京—訪問—土耳其”三元組加入時間標簽拓展為四元組,用于描述時間關系。②空間信息的時間屬性值變化??捎糜趫D譜實體和關系的更新,如城市地名、空間位置、可隨時間變化而變化,如“人行走在路上”,地點隨著時間不斷變化,則對人的位置屬性值(如經緯度坐標)描述需要加入時間戳。
空間關系抽取的過程是GIS計算模型到自然語言空間關系的語義轉換[37],通過建立地理空間關系和自然語言描述對照詞典實現關聯[38],如表2所示,拓撲相離關系和拓撲包含關系對應方位詞,拓撲相交關系對應空間動詞。不同的地圖要素需要建立不同的對照表,如橋和河流之間有“橫跨”動作,道路和公園之間有“穿過”動作等[39]。由計算機圖形學計算方法(如點與線、面的關系)判斷得到的空間關系類別,對應的自然語言描述存在多個詞匯的情況,可根據地理實體的不同類別確定其常用的自然語言描述詞匯。舉例:線、面的相交關系對應“相交、交叉、流經、途徑……”等多種描述,根據水系、交通、居民地等不同要素類型,將河流與城市的相交關系定義為“流經”,道路與城市的相交關系定義為“途徑”。如圖5 是通過地圖抽取出的城市、交通和河流之間的語義關系示例(部分)。
表2空間拓撲關系與自然語言描述對應[37]
Tab.2Spatialtopologicalrelationscorrespondingtonaturallanguagedescriptions[37]
空間拓撲關系自然語言描述相等相等、相當、相同、相近、接近……相交相交、交叉、順著、沿著、流經、途徑……穿越穿越、 橫過、橫穿、劃分、橫越、橫斷、橫貫、穿過、經過……內部內部、里、內、里面……包含包含、圍繞、環(huán)繞……相離旁路、近旁、旁邊、遠處、附近……重疊重疊、覆蓋、交迭……相接鄰接、相鄰、連接、周圍……
多源異構地理信息數據按存儲類型可分為結構化、半結構化和非結構化數據。針對結構化數據(如地圖、地名庫等),通過建立數據庫中概念與知識圖譜中本體的映射關系以及基于規(guī)則的推理,實現從數據庫中自動抽取出地理實體、屬性及其關系。例如基于電子地圖和百科知識抽取地理實體,首先按照不同圖層設計不同的抽取規(guī)則,抽取實體類、屬性和屬性值,然后借助開放知識庫(如百度百科等)通過實體消歧、去重和屬性填充等操作豐富地理實體的屬性信息。
圖5 1∶25萬鄭州市地圖提取的地理實體語義關系(部分)Fig.5 Semantic relationships of geographic entities extracted from 1∶250 000 map of Zhengzhou
針對半結構化數據(如百科數據等互聯網數據),由于互聯網網站主要通過模板方式構建,可建立相應的模板抽取器實現知識抽取。如圖6所示,從百度百科、互動百科和中文維基百科抽取的實體,主要抽取的是實體名、標簽、基本描述、信息卡、擴展鏈接、分類等信息,重點需要解決不同源數據的實體融合。
針對非結構化數據(如文本、微博微信等數據),主要利用已有的知識圖譜知識,通過遠程監(jiān)督的方式來構建訓練集,并利用深度學習的方法[40]學習出抽取器,利用抽取器來進文本中的知識進行抽取。
2.3.2 地理知識融合
由于地理知識的來源渠道眾多,必須進行地理知識融合。地理知識融合是不同數據中不同標識實體的語義理解,關聯到同一實體上,實現對同名、多名和縮寫等多種實體語義的消歧和共指消解(例如:“中國”、“中華人民共和國”等都是指同一個地理實體)。
地理知識的融合包括模式層(即概念層)和實體層的融合。概念層的融合主要是基于地理本體庫的地理本體知識擴展。實體層的融合主要用到實體鏈接技術,主要包括3個步驟[41]:①生成候選地理實體。通過地理實體指稱項從地理知識庫中選取候選地理實體,主要有基于名稱詞典、基于搜索引擎的方法。②候選實體排序。主要方法可分為兩類:一類是有監(jiān)督的排序方法,通過標注訓練數據集訓練候選實體排序模型,包括二進制分類方法,概率方法和基于圖的方法;另一類是無監(jiān)督的排序方法,基于無標簽的語料庫進行模型訓練。包括向量空間模型(vector space model,VSM)[42]和信息檢索方法[43]。③無鏈接指稱項預測。當地理知識庫中沒有相關的候選實體選項時,需要給出近似的實體。
實體鏈接技術按照不同的實體消歧方法可分為四種[7]。①基于概率生成模型方法:通過構建候選實體與實體指稱項之間的概率模型[44],提高實體鏈接的效率。②基于主題模型的方法:訓練數據集訓練LDA主題模型,通過語義相似度實現實體消歧[45]。③基于圖的方法:建立基于圖的模型,實現目標實體的選擇[46]。④基于神經網絡的方法:主要是利用深度神經網絡模型以監(jiān)督或半監(jiān)督的方式訓練實體表示模型,依據語義相似度進行排序[47]。
圖6 多源非結構化數據抽取Fig.6 The example of geographic knowledge card
2.3.3 地理知識推理
地理知識推理是指從地理知識庫中的地理實體關系數據出發(fā),經過計算機推理,建立地理實體間的新關聯,從而拓展和豐富地理知識網絡[9]。地理知識推理包括概念(即本體)的推理、地理實體的推理和實體屬性值的推理等。地理本體推理,例如已知(河南,屬于,中國)和(鄭州,屬于,河南),可以推出(鄭州,屬于,中國)。地理實體推理,例如已知(乾隆,父親,雍正)和(雍正,父親,康熙),可以得到(乾隆,祖父,康熙)或(康熙,孫子,乾隆)。
知識推理可以粗略地分為基于符號的推理和基于統(tǒng)計的推理[7]?;诜柕耐评碇饕抢孟嚓P規(guī)則,從已有實體關系推理出新的實體關系,并對知識圖譜進行邏輯沖突檢測?;诮y(tǒng)計的推理是利用機器學習方法,通過統(tǒng)計規(guī)律從知識圖譜中學習到新的實體間關系,主要包括實體關系學習方法、類型推理方法和模式歸納方法[7]。也可按解決方法分為:基于描述邏輯的推理[48]、基于規(guī)則挖掘的推理[49]、基于概率邏輯的推理和基于表示學習與神經網絡的推理。由于知識庫足夠大,知識網絡足夠豐富,可以從地理知識庫中推理出隱含的關系和知識。
2.3.4 地理知識的動態(tài)感知與更新
地理知識并非一成不變的,多是隨著時間的變化而變化,在地理實體、關系和屬性值都會發(fā)生變化,需要建立地理知識庫的動態(tài)感知與更新機制。地理知識庫的知識來源需建立不同的知識更新方法,可分為3種:
(1) 基于結構化的地理信息數據文件更新。傳統(tǒng)的地理信息數據已經有了一套較為完整的更新機制,地理知識庫需保持與地理信息數據的更新周期一致,完成知識的局部更新。
(2) 周期性更新。由于一些非結構化的地理知識數據,是從互聯網得到的,新聞類、專題類網站,可建立周期性更新機制,但這樣的更新方法花費很大,效率較低。
(3) 基于新聞熱搜詞的更新方法。利用互聯網爬蟲系統(tǒng)實時監(jiān)控互聯網媒體,包括各類新聞網站、搜索關鍵字、微博等。從中識別出每日熱詞,根據熱詞進行地理知識的更新。
按照應用服務對象,地理知識圖譜的應用可分為面向人的和面向智能平臺的應用。面向人的應用可使地理信息服務輕量化、大眾化,通過智能語義搜索、地理知識智能問答、知識挖掘與決策分析等更好地為人認知地理世界服務;面向智能平臺(如機器人)的地理知識應用,主要使機器人具備地理知識,從而在感知世界的基礎上進一步實現認知和理解現實世界的目標。具體應用可分為以下幾類:
基于地理知識圖譜的搜索結果是地理知識的形式化表達,多為地理知識卡片的形式(如圖7所示),可將地理環(huán)境、地理實體、人文要素等資源進行融合和關聯,以地理實體的形式對地理知識實現語義搜索和查詢,在統(tǒng)一視圖里進行管控。
圖7 地理知識卡片示例Fig.7 The example of geographic knowledge card
自然語言在交互形式上更接近人類的交流習慣,基于地理知識庫的智能問答系統(tǒng)可以實現高度智能化,能夠適應地理信息快速、準確、啟發(fā)式獲取信息的需求。由于地理知識圖譜具有結構化、關聯化的特征,地理知識圖譜相比純文本資料、結構化數據庫等,具有更豐富的語義表達、更精確的數據內容和更高效的檢索方式等優(yōu)勢,基于地理知識庫的智能問答是地理知識圖譜的一個重要應用方向。
基于地理知識圖譜,可通過相關的大數據挖掘算法,包括分類、聚類方法等,以及圖計算方法包括圖遍歷、最短路徑、路徑探尋、權威節(jié)點分析、族群分析、相似節(jié)點發(fā)現等,實現地理實體關聯分析、地理事件聚類分析等功能,實現時間空間上離散分布的人、環(huán)境、事件等的關聯分析與挖掘,進而為相關決策服務。
當前,機器學習、深度學習等技術的應用,使機器人等智能平臺具備了對周圍環(huán)境的動態(tài)感知能力,但若要使機器人能夠具備環(huán)境的理解能力,則必須要有相關知識庫的支撐。地理知識圖譜可為機器人等智能平臺提供地理空間相關知識,為機器人導航地圖提供豐富的語義網,使其具備地理空間理解能力。
虛擬地理環(huán)境的知識工程是智能虛擬地理環(huán)境的基礎工程。地理信息智能化服務是虛擬地理環(huán)境智能化發(fā)展的新趨勢。對多源異構隱性的泛在地理信息處理,是地理信息向大眾化、普適化方向轉變的基礎。業(yè)界已經對地理知識表示、地學信息圖譜等方面進行了相關的研究,但其主要仍是對專業(yè)的地理學領域專家知識的刻畫與表示,難以適應大規(guī)模地理知識的共享、交互與應用。地理知識圖譜適合對事實型地理知識的大規(guī)模建模與表示,可為虛擬地理環(huán)境的知識工程建設提供基礎支撐。
本文重點剖析了地理知識圖譜的概念、內涵及研究現狀,提出了基于多源異構地理信息數據的地理知識構建技術體系和流程。地理環(huán)境知識圖譜的構建是地理信息服務通向智能化的橋梁,其有著廣闊的應用前景,存在諸多挑戰(zhàn),需重點解決地理知識的多源數據抽取、地理實體空間關系、語義關系抽取、地理知識融合、地理知識鏈接、地理知識質量評價及地理知識的更新等關鍵科學問題,為實現面向智能虛擬地理環(huán)境的自動化、智能化的地理知識服務奠定理論與方法基礎。