余 麗,陸 鋒,劉希亮
1. 中國科學院地理科學與資源研究所資源與環(huán)境信息系統(tǒng)國家重點實驗室,北京 100101; 2. 中國科學院大學,北京 100101; 3. 江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇 南京 210023
?
開放式地理實體關(guān)系抽取的Bootstrapping方法
余麗1,2,陸鋒1,3,劉希亮1
1. 中國科學院地理科學與資源研究所資源與環(huán)境信息系統(tǒng)國家重點實驗室,北京 100101; 2. 中國科學院大學,北京 100101; 3. 江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇 南京 210023
Foundation support: The National Natural Science Foundation of China (No.41271408); The National High-Tech Research and Development Program of China (863 Program) (No.2013AA120305)
從網(wǎng)絡(luò)文本中抽取地理實體間空間關(guān)系和語義關(guān)系要求高時效性和強魯棒性。本文提出一種開放式地理實體關(guān)系的自動抽取方法,通過bootstrapping技術(shù)統(tǒng)計詞語的詞性、位置和距離特征來計算語境中詞語權(quán)值,據(jù)此確定描述地理實體關(guān)系的關(guān)鍵詞,最終組織成結(jié)構(gòu)化實例,并使用百度百科和Stanford CoreNLP開展了試驗。研究結(jié)果表明,本文方法能自動挖掘自然語言的部分詞法特征,無須領(lǐng)域?qū)<抑R和大規(guī)模標注語料,適用于未知關(guān)系類型的信息抽取任務;較之經(jīng)典的Frequency、TF-IDF和PPMI頻率統(tǒng)計方法,精度和召回率分別提升約5%和23%。
文本挖掘;地理實體;關(guān)系抽??;定量評價;bootstrapping
包含地理實體(如地名、組織機構(gòu)、地緣政治實體)間語義關(guān)系(如從屬、合作、繼承關(guān)系)和空間關(guān)系(如拓撲、方位、距離關(guān)系)的文本資源在廣義地理信息采集與服務中占據(jù)重要地位[1-2],為地圖數(shù)據(jù)庫更新提供了巨大潛能,催生了開放式地理實體關(guān)系抽取研究[3-5]。開放式地理實體關(guān)系抽取旨在從自然語言文本中抽取地理實體間的空間關(guān)系和語義關(guān)系,形成結(jié)構(gòu)化的表達形式[6]。它不限定于處理規(guī)范的新聞文本或者特定領(lǐng)域文本,無須預先定義關(guān)系的類別;以“抽取”代替“識別”,挖掘文本中蘊含的一切關(guān)系實例,能更好地適應高動態(tài)、富信息的網(wǎng)絡(luò)文本的處理需求[7]。
相比實體關(guān)系抽取[8],地理實體關(guān)系抽取有如下特殊性:①缺乏大規(guī)模地理實體關(guān)系標注語料[9]用于訓練監(jiān)督的機器學習模型,以檢測種類繁多的關(guān)系類型;②缺乏典型的地理知識庫作為啟動弱監(jiān)督機器學習模型的種子?,F(xiàn)有的地理知識庫(GeoNames Ontology、OSM SemanticNetwork、GeoWordNet等)僅限于描述面狀地理實體間的“分離”、“包含”和“相鄰”3種空間關(guān)系,遠不能滿足多類型地理實體關(guān)系抽取的需求;③文本蘊含的地理實體關(guān)系實例分布異質(zhì)性極強,熱點地理實體相關(guān)的關(guān)系描述頻繁出現(xiàn),而不受關(guān)注的地理實體文本描述較少;④地理實體關(guān)系抽取結(jié)果難以定量評價。人工逐條檢查上萬條地理實體關(guān)系實例的質(zhì)量是不切實際的,而小規(guī)模的隨機采樣又無法計算系統(tǒng)的召回率。因此,從自然語言文本中抽取地理實體關(guān)系面臨著巨大的挑戰(zhàn)。
本文重在解決開放式地理實體關(guān)系抽取的兩個核心問題:①缺乏大規(guī)模標注語料和地理知識庫的前提下,如何自動產(chǎn)生地理實體間空間關(guān)系和語義關(guān)系的結(jié)構(gòu)化元組;②如何定量評價開放式地理實體關(guān)系抽取效果。本文利用bootstrapping技術(shù)分析關(guān)系詞的詞法特征,引入到關(guān)鍵詞提取的權(quán)值計算中,據(jù)此將共現(xiàn)地理實體組織成結(jié)構(gòu)化形式,然后分析結(jié)果集的質(zhì)量分布情況,計算關(guān)系抽取精度和召回率,并基于百度百科文本驗證方法的有效性。
針對文本蘊含地理實體關(guān)系抽取的問題,大量的研究成果集中在模式匹配方法。該方法通過提取和泛化詞法(句法)模式,可識別出有限的關(guān)系實例。文獻[10]將蘊含“包含”和“相鄰”空間關(guān)系的隱式表達(文本中未出現(xiàn)關(guān)系詞)定義為詞法模式,作為查詢條件在Google和Yahoo中搜索新的地理實體關(guān)系實例。該方法適用于按照行政區(qū)劃級別排列的規(guī)范化地址文本,但僅能抽取指定的兩種地理實體關(guān)系。文獻[11]使用人工設(shè)計的493種中文模式與網(wǎng)頁摘要進行匹配,以獲取顯式表達(文本中出現(xiàn)關(guān)系詞)的地理實體關(guān)系實例。該方法能識別出多種類型的地理實體關(guān)系,但需要預先準備大規(guī)模的空間詞典和模式庫。與文獻[11]的方法相同,文獻[12]使用234個空間動詞建立語法規(guī)則,實現(xiàn)了意大利語空間關(guān)系抽取。上述的模式匹配方法,其模式發(fā)現(xiàn)過程仍依賴于手工勞動,需要領(lǐng)域?qū)<抑R;且有限的模式難以適應文本快速增長和變化需求。文獻[13]基于自建立的大規(guī)??臻g關(guān)系標注語料,采用序列比對的方法自動生成空間關(guān)系句法模式庫。該方法提高了模式挖掘的自動化程度,但仍需耗費大量人力構(gòu)建標注語料庫。與之不同,關(guān)系抽取的模式發(fā)現(xiàn)過程充分利用了海量文本的冗余性,整個模式庫的構(gòu)建過程無須人工干預。利用該方法建立的經(jīng)典關(guān)系抽取系統(tǒng)有Reverb、OLLIE、OpenIE。然而,這些系統(tǒng)仍需由領(lǐng)域?qū)<翌A先定義詞法或句法規(guī)則。
為了放松地理實體關(guān)系抽取方法對領(lǐng)域?qū)<抑R的限制,一些研究者使用監(jiān)督的機器學習方法從文本中自動抽取地理實體關(guān)系:通過大規(guī)模的標記數(shù)據(jù)訓練某個分類模型,再對未標記數(shù)據(jù)自動分配某種預定義的關(guān)系類型。該方法的主要障礙是缺乏可獲取的地理實體關(guān)系標注語料。考慮到存在大量未標注的文本且人工標注語料的成本太高,自動生成大規(guī)模標注語料的弱監(jiān)督學習方法逐步成為研究熱點。文獻[14]使用在線的酒店點評文本自動構(gòu)建了地理實體“相鄰”關(guān)系的標注語料,規(guī)模為10.6萬個文檔。文獻[15]使用維基百科自動回標技術(shù),建立了河流與水系的“流入”關(guān)系、郊區(qū)與城鎮(zhèn)的“組成”關(guān)系。然而,上述自動構(gòu)建標注語料的方法僅能建立指定類型的關(guān)系標注語料。當建立新類型的關(guān)系標注語料時,仍需一定的手工勞動,難以快速適應地理實體關(guān)系的多樣性。此外,以空間本體為知識庫的弱監(jiān)督學習算法也備受關(guān)注。文獻[16]通過手動建立空間本體,成功抽取了地理實體之間的拓撲和方位關(guān)系。相比自動生成大規(guī)模標注語料的方法,空間本體更容易擴展到新類型的地理實體關(guān)系抽??;然而該方法不能識別出一對地理實體之間的多種關(guān)系。
目前,業(yè)界尚未開展開放式地理實體關(guān)系抽取無監(jiān)督機器學習方法研究,而在關(guān)系抽取領(lǐng)域已有大量的無監(jiān)督機器學習研究成果。其中,頻率統(tǒng)計[17-18]是一種廣泛應用于無監(jiān)督關(guān)系抽取的重要技術(shù),其核心思想是通過統(tǒng)計詞語頻數(shù)反映詞語重要性,并選擇權(quán)值最大的詞語作為關(guān)系名稱。然而,頻率統(tǒng)計方法要求表征關(guān)系的詞語頻繁出現(xiàn),難以適用于稀疏分布的地理實體關(guān)系實例。
地理實體關(guān)系抽取過程包含:數(shù)據(jù)獲取、數(shù)據(jù)預處理和數(shù)學計算,如圖1所示。下文將重點闡述數(shù)學計算子過程。
圖1 地理實體關(guān)系抽取流程Fig.1 Flowchart of geo-entity relation extraction
2.1任務定義
本文研究范圍僅限于抽取一個句子中共現(xiàn)的兩個地理實體之間的空間關(guān)系詞語和語義關(guān)系詞語,且關(guān)系詞語存在于句中,即顯式表達的二元地理實體關(guān)系。針對一個句子中共現(xiàn)的兩個地理實體(e1, e2);從所在的句中提取詞語組成一個語境s,并過濾停用詞“了”、“的”等。關(guān)鍵詞抽取即是從集合s中選擇一個詞語k,使得k能表達一種空間關(guān)系或者語義關(guān)系。
semanticrelation=(e1,k,e2)
(1)
semanticrelation=(e1,d,k,m,e2)
(2)
式(1)將語義關(guān)系實例作為屬性表達式,用于描述地理實體指定類型的屬性值。式(2)將空間關(guān)系實例作為位置表達式,用于描述一個地理實體相對于參考地理實體的空間位置。分析文本發(fā)現(xiàn),空間關(guān)系表達習慣于同時使用方位和拓撲詞語(“天津東臨渤?!?,或者同時使用方位、行為和度量詞語(“西子灣距高雄市中心車程約20分鐘”)。因此,式(2)中d表示方位詞語(“東”、“中心”),m表示度量詞語(“20分鐘”)。
2.2特征選擇
本文借鑒實體關(guān)系抽取和關(guān)鍵詞提取方法,探索自然語言表達的地理實體關(guān)系文本在“詞性”、“位置”、“長度”和“距離”方面的規(guī)律,為下文地理實體關(guān)系抽取提供先驗知識。
(1) 詞性POS(名詞、動詞、介詞或者其他)。
(2) 位置LOC(e1的左邊,e1和e2中間,e2的右邊)。
(3) 左邊有連詞或者介詞時的位置LCCP(e1的左邊,e1和e2中間,e2的右邊)。
(4) 到e1的距離DIS(e1)。
(5) 到句尾的距離DIS(e2)。
(6) 長度LEN,以字為單位。
(7)e1到e2的距離DIS(e1,e2),以詞語為單位。
考慮到文本數(shù)量龐大且構(gòu)建標注語料的成本太高,本文使用bootstrapping技術(shù)[19]分析上述7個特征。bootstrapping的原理是通過隨機重采樣,利用小樣本來推測總體的統(tǒng)計量;當樣本規(guī)模足夠大時,基于樣本的統(tǒng)計結(jié)果即可代表總體的水平。首先,隨機排列句子,利用等間距抽樣的方法選擇100個句子;然后,手工標注每個句子的關(guān)系詞語,形成標注語料;最后,從標注語料中隨機采樣形成一個等規(guī)模的新樣本。該過程重復多次(10 000次)得到一個大規(guī)模的樣本集合,統(tǒng)計每個樣本中上述7個特征的值,計算出各項特征的均值。
統(tǒng)計結(jié)果如表1、表2所示,得到如下規(guī)律:①15%的句子不存在地理實體關(guān)系,超過半數(shù)的關(guān)系詞為名詞,余下的為動詞和介詞;②沒有關(guān)系詞位于e1的左邊,大多數(shù)都位于e2的右邊;③當關(guān)系詞的左邊存在連詞或者介詞時,94.16%的關(guān)系詞位于e2的右邊;④關(guān)系詞到e1的距離為1的比例最大;⑤關(guān)系詞位于句尾的比例最大;⑥關(guān)系詞遠離地理實體e2的概率最高;⑦名詞長度至少為2個字,且跨度較大;⑧當存在關(guān)系詞時,兩個地理實體之間的距離不超過6個詞語。
與現(xiàn)有方法中獲取的詞法和句法規(guī)則不同[20],上述規(guī)律不是直接用于模式匹配,而是輔助數(shù)據(jù)預處理并將在2.3節(jié)使用統(tǒng)計學方法將其定量化表達,以指導地理實體關(guān)系抽取。同時,這些規(guī)律不是某個文本的變換形式,而是真實數(shù)據(jù)直觀反映出的人們對關(guān)系表達的普遍認知。考慮到語言的地域、文化和認知差異性,bootstrapping方法針對不同體裁、風格的文本獲取規(guī)律的取值范圍將發(fā)生變化。
表1 特征的平均比例
表2 特征的平均取值范圍
2.3關(guān)鍵詞提取
基于bootstrapping方法得到的統(tǒng)計結(jié)果,本文引入詞語的詞性、位置和距離的重要性,設(shè)計關(guān)鍵詞提取方法,如式(3)—(6)。針對詞語i,wgti表示在詞性、位置、距離影響下的重要性。POSi、locationi、distancei分別表示詞性、位置、距離重要性。Ii、Ie1、Ie2、Iccp分別表示詞語i、地理實體e1和e2、連詞或者介詞在句中的索引,Len表示句子長度。對于每一對地理實體(e1,e2),使用式(3)從語境s中選擇一個重要程度最高的詞語k,作為表達地理實體關(guān)系的關(guān)鍵詞。公式中數(shù)字來源于2.2節(jié)的統(tǒng)計結(jié)果,如式(4)中0.56表示樣本中有56%的關(guān)系詞是名詞。這些數(shù)字不是人為設(shè)定的固定值,會隨著數(shù)據(jù)變化而變化。
wgti=(wgt(POSi)+wgt(locationi)+
wgt(distancei))/3
(3)
(4)
(5)
wgt(distancei)=
(6)
2.4關(guān)系實例構(gòu)建
將每一對地理實體(e1,e2)和它的關(guān)鍵詞k代入式(1)組成語義關(guān)系實例(e1,k,e2)。然而,本文僅為一對地理實體提取一個關(guān)鍵詞,不能完整地描述空間關(guān)系實例(e1,d,k,m,e2)。具體地,方位詞語d受到分詞結(jié)果的影響:若d和拓撲詞被劃分成一個整體(“東鄰”),則提取的關(guān)鍵詞既蘊含方位關(guān)系又包含拓撲關(guān)系;若d和拓撲詞被劃分成兩個部分(“東”和“鄰”),則提取的關(guān)鍵詞僅表達方位關(guān)系。同時,度量詞語m通過預定義的規(guī)則來識別:①若句中存在數(shù)量詞(詞性為CD),且位于地理實體e2右邊x個窗口內(nèi)(取值為3),則保存該數(shù)量詞和單位(詞性為M)作為度量詞m;②默認地關(guān)系表達式(1)和(2)中e1是主體,e2是客體,如果關(guān)鍵詞k位于e2右邊,則將e1設(shè)置為客體,e2設(shè)置為主體。
3.1試驗數(shù)據(jù)
本文以新浪旅游的中國景點名稱作為地理實體的基礎(chǔ)地名,在百度百科中逐個獲取對應的簡介或正文首段,使用Stanford CoreNLP進行數(shù)據(jù)預處理(分段、分句、分詞、詞性標注、地理實體識別),構(gòu)建了地理實體關(guān)系抽取的文本集合,數(shù)據(jù)分布如表3所示。
表3 不同階段的語料規(guī)模
3.2真值
本文使用bootstrapping技術(shù),基于少量的手工評價結(jié)果,自動產(chǎn)生大規(guī)模的真值:首先,使用等間距隨機采樣法選擇100個句子(不包括特征選擇使用的句子),逐句標注地理實體關(guān)系實例;然后,從標注句子中隨機采樣形成一個等規(guī)模的新樣本,該過程重復10 000次,共產(chǎn)生10 000個樣本,作為評價結(jié)果質(zhì)量的標注語料,每個語料的規(guī)模為100個句子。此外,本文將與經(jīng)典的3種頻率統(tǒng)計方法(Frequency、TF-IDF和PPMI)進行質(zhì)量對比。
3.3評價指標
本文結(jié)合地理實體關(guān)系抽取任務描述,定義精度和召回率如表4。Ri表示結(jié)果集i,G(unrel)i表示標注語料i中不存在關(guān)系的實例,G(rel)i表示標注語料i中存在關(guān)系的實例,每個標注語料的精度和召回率計算如式(7),均值計算如式(8)。
表4 精度和召回率的定義
(7)
(8)
本文針對18 588對地理實體共抽取了27 012個關(guān)系實例,一對地理實體可擁有多種關(guān)系。4種方法的精度和召回率如圖2所示(本文方法表示為WFS)。試驗結(jié)果顯示,本文方法的精度和召回率分別為80%和87.79%,比其他3種統(tǒng)計方法的均值分別提高了約5%和23%。
圖2 4種方法的精度和召回率的均值Fig.2 Means of precision and recall of four approaches
表5展示了百度百科詞條“海寧”的文本抽取地理實體關(guān)系的結(jié)果。其中,斜體表示根據(jù)句意表達的邏輯調(diào)整元素順序后的關(guān)系實例,黑體表示擴展了度量詞后的空間關(guān)系實例。本文針對一個句子中共現(xiàn)的兩個地理實體僅提取一個關(guān)鍵詞。例如表5,若“東鄰”被劃分成一個詞語,則提取的關(guān)系詞為“東鄰”;否則提取的關(guān)系詞為“東”。為了避免分詞結(jié)果不一致導致的信息誤判,本文認為上述的兩種關(guān)系抽取結(jié)果都是正確的。
表5 地理實體關(guān)系抽取的示例
據(jù)統(tǒng)計,試驗文本中97.63%的語境存在多個頻數(shù)最大的詞語。此時,TF-IDF和PPMI僅與詞語在整個文本集合中的分布有關(guān),將賦予低頻詞語更大的權(quán)值;而Frequency恰好相反,將賦予高頻詞語更大的權(quán)值。因此對于分布稀疏的地理實體關(guān)系實例,單純地依靠頻率統(tǒng)計難以判斷詞語在句中的重要程度。本文基于自然語言描述的詞法特征,通過bootstrapping技術(shù)自動引入詞語的詞性、位置和距離的重要性,提取關(guān)鍵詞作為描述地理實體關(guān)系的線索。對比Frequency、TF-IDF和PPMI 3種頻率統(tǒng)計方法,本文方法產(chǎn)生了更高質(zhì)量的關(guān)系實例。同時,本文方法無須領(lǐng)域?qū)<抑R和大規(guī)模標注語料,不限定地理實體關(guān)系的類型,僅需少量的標注語料即可啟動算法,能快速適應新領(lǐng)域的地理實體關(guān)系抽取需求。
然而,本文抽取的地理實體關(guān)系實例中存在兩類錯誤:①不存在關(guān)系的地理實體對提取出關(guān)系(FP);②存在關(guān)系的地理實體對提取出錯誤的關(guān)系(FN)。針對上述兩類錯誤,本文使用bootstrapping技術(shù)對結(jié)果集中10 000個標注語料進行統(tǒng)計,結(jié)果如表6所示。FP錯誤可分為4種情況:①是地理實體對之間不存在關(guān)系,本文方法僅能通過語境為空或者地理實體之間的距離大于6個詞語判斷不存在關(guān)系,尚未深入到句意理解層次;②是不能識別隱式的地理實體關(guān)系,本文的研究范圍僅限于明確提及關(guān)鍵詞的顯式地理實體關(guān)系抽?。虎酆廷芫怯晌谋绢A處理帶來的級聯(lián)錯誤。FN錯誤可分為6種情況:①是當關(guān)系詞語(“進入”)作為謂語且存在多個狀語修飾詞(“間或”“蜿蜒”),長距離的影響增大了狀語修飾詞的權(quán)值,無法準確提取出謂語關(guān)系詞;②是當多個地理實體按照行政級別順次排列(“中國”“云南省”“麗江市”),僅僅依靠詞語本身的特征尚不能準確識別出嵌套地理實體之間復雜的空間關(guān)系;③是當多個詞語組成一個復雜的關(guān)系描述,單個關(guān)鍵詞語無法概括完整的語義;④—⑥均是由文本預處理帶來的級聯(lián)錯誤。
綜上所述,本文針對顯式表達的地理實體關(guān)系,僅考慮了詞法特征,尚未深入到句法分析和語義理解層次。同時,本文未考慮中文分詞、詞性標注、地理實體識別、指代消解等環(huán)節(jié)帶來的級聯(lián)錯誤,文本預處理的質(zhì)量有待提高;且本文僅使用百度百科進行試驗,語料的規(guī)模和多樣性有待進一步擴展。此外,本文產(chǎn)生的27 012個關(guān)系實例共有9148種關(guān)系類型,存在大量語義相似但描述不同的關(guān)系,例如“位于”“處于”“在”“地處”“坐落”均表達同一種空間關(guān)系。本文研究的關(guān)鍵詞提取方法是語義聚類的基礎(chǔ),下一步將研究語義聚類問題,以減少關(guān)系實例表達的冗余,為地理實體高動態(tài)信息的增量更新提供基礎(chǔ)數(shù)據(jù)。
表6 錯誤分析
本文研究了開放式地理實體關(guān)系抽取中的關(guān)鍵詞提取方法。通過bootstrapping技術(shù)驗證了本文的關(guān)鍵詞提取方法在精度和召回率上均優(yōu)于3種經(jīng)典的頻率統(tǒng)計方法。同時,本文方法無須領(lǐng)域?qū)<抑R和大規(guī)模標注語料,不限定地理實體關(guān)系的類型,具有潛在的領(lǐng)域移植性。在后續(xù)的工作中,需要加入不同領(lǐng)域、體裁、規(guī)模的文本擴充試驗,以驗證方法的可移植性;同時需要研究語義聚類技術(shù),以降低地理實體關(guān)系實例的冗余性。
[1]陸鋒, 張恒才. 大數(shù)據(jù)與廣義GIS[J]. 武漢大學學報(信息科學版), 2014, 39(6): 645-654.
LU Feng, ZHANG Hengcai. Big Data and Generalized GIS[J]. Geomatics and Information Science of Wuhan University, 2014, 39(6): 645-654.
[2]劉紀平, 栗斌, 石麗紅, 等. 一種本體驅(qū)動的地理空間事件相關(guān)信息自動檢索方法[J]. 測繪學報, 2011, 40(4): 502-508.
LIU Jiping, LI Bin, SHI Lihong, et al. An Automated Retrieval Method of Geo-spatial Event Information Based on Ontology[J]. Acta Geodaetica et Cartographica Sinica, 2011, 40(4): 502-508.
[3]張春菊. 面向中文文本的事件時空與屬性信息解析方法研究[J]. 測繪學報, 2015, 44(5): 590. DOI: 10.11947/j.AGCS.2015.20140657.
ZHANG Chunju. Interpretation of Event Spatio-temporal and Attribute Information in Chinese Text[J]. Acta Geodaetica et Cartographica Sinica, 2015, 44(5): 590. DOI: 10.11947/j.AGCS.2015.20140657.
[4]張恒才, 陸鋒, 陳潔. 微博客蘊含交通信息的提取[J]. 中國圖象圖形學報, 2013, 18(1): 123-129.
ZHANG Hengcai, LU Feng, CHEN Jie. Extracting Traffic Information from Massive Micro-blog Messages[J]. Journal of Image and Graphics, 2013, 18(1): 123-129.
[5]JONES C B, PURVES R S, CLOUGH P D, et al. Modelling Vague Places with Knowledge from the Web[J]. International Journal of Geographical Information Science, 2008, 22(10): 1045-1065.
[6]JONES C B, PURVES R S. Geographical Information Retrieval[J]. International Journal of Geographical Information Science, 2008, 22(3): 219-228.
[7]趙軍, 劉康, 周光有, 等. 開放式文本信息抽取[J]. 中文信息學報, 2011, 25(6): 98-110.
ZHAO Jun, LIU Kang, ZHOU Guangyou, et al. Open Information Extraction[J]. Journal of Chinese Information Processing, 2011, 25(6): 98-110.
[8]楊博, 蔡東風, 楊華. 開放式信息抽取研究進展[J]. 中文信息學報, 2014, 28(4): 1-11, 36.YANG Bo, CAI Dongfeng, YANG Hua. Progress in Open Information Extraction[J]. Journal of Chinese Information Processing, 2014, 28(4): 1-11, 36.
[9]張雪英, 張春菊, 朱少楠. 中文文本的地理空間關(guān)系標注[J]. 測繪學報, 2012, 41(3): 468-474.ZHANG Xueying, ZHANG Chunju, ZHU Shaonan. Annotation for Geographical Spatial Relations in Chinese Text[J]. Acta Geodaetica et Cartographica Sinica, 2012, 41(3): 468-474.
[10]SCHOCKAERT S, SMART P D, ABDELMOTY A I, et al. Mining Topological Relations from the Web[C]∥Proceedings of the 19th International Workshop on Database and Expert Systems Application. Turin: IEEE, 2008: 652-656.
[11]CAO Cungen, WANG Shi, JIANG Lin. A Practical Approach to Extracting Names of Geographical Entities and Their Relations from the Web[C]∥Proceedings of the 7th International Conference on Knowledge Science, Engineering and Management. Switzerland: Springer, 2014: 210-221.
[12]ELIA A, GUGLIELMO D, MAISTO A, et al. A Linguistic-based Method for Automatically Extracting Spatial Relations from Large Non-structured Data[C]∥Proceedings of the 13th International Conference on Algorithms and Architectures for Parallel Processing. Switzerland: Springer, 2013: 193-200.
[13]ZHU Shaonan, ZHANG Xueying, ZHANG Chunju. Syntactic Pattern Recognition of Geospatial Relations Described in Natural Language[C]∥Proceedings of the 2010 International Conference on Broadcast Technology and Multimedia Communication. New York: IEEE, 2010: 354-357.
[14]WALLGRüN J O, KLIPPEL A, BALDWIN T. Building a Corpus of Spatial Relational Expressions Extracted from Web Documents[C]∥Proceedings of the 8th Workshop on Geographic Information Retrieval. New York: ACM, 2014.
[15]BLESSING A, SCHüTZE H. Fine-grained Geographical Relation Extraction from Wikipedia[C]∥Proceedings of the 7th International Conference on Language Resources and Evaluation. Valletta: LREC, 2010.
[16]LOGLISCI C, IENCO D, ROCHE M, et al. Toward Geographic Information Harvesting: Extraction of Spatial Relational Facts from Web Documents[C]∥Proceedings of the 2012 IEEE 12th International Conference on Data Mining Workshops. Brussels: IEEE, 2012: 789-796.
[17]MORO A, NAVIGLI R. Integrating Syntactic and Semantic Analysis into the Open Information Extraction Paradigm[C]∥Proceedings of the 23rd International Joint Conference on Artificial Intelligence. Beijing: [s.n.], 2013: 2148-2154.
[18]LIU Zhiyuan, CHEN Xinxiong, ZHENG Yabin, et al. Automatic Keyphrase Extraction by Bridging Vocabulary Gap[C]∥Proceedings of the 15th Conference on Computational Natural Language Learning. Stroudsburg: Association for Computational Linguistics, 2011: 135-144.
[19]ABNEY S P. Bootstrapping[C]∥Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2002: 360-367.
[20]鄧敏, 徐銳, 李志林, 等. 空間查詢中自然語言空間關(guān)系與度量空間關(guān)系的轉(zhuǎn)換方法研究: 以面目標為例[J]. 測繪學報, 2009, 38(6): 527-531.
DENG Min, XU Rui, LI Zhilin, et al. A Spatial-query-driven Transformation between Metric Spatial Relations and Natural Language Spatial Relations: Taking Regions as Example[J]. Acta Geodaetica et Cartographica Sinica, 2009, 38(6): 527-531.
(責任編輯:宋啟凡)
YU Li (1986—), female, PhD candidate, majors in spatial information mining in internet.
A Bootstrapping Based Approach for Open Geo-entity Relation Extraction
YU Li1,2,LU Feng1,3,LIU Xiliang1
1. State Key Lab of Resources and Environmental Information System, The Institute of Geographic Sciences and Natural Resources Research, Beijing 100101, China; 2. University of Chinese Academy of Sciences, Beijing 100101, China; 3. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
Extracting spatial relations and semantic relations between two geo-entities from Web texts, asks robust and effective solutions. This paper puts forward a novel approach: firstly, the characteristics of terms (part-of-speech, position and distance) are analyzed by means of bootstrapping. Secondly, the weight of each term is calculated and the keyword is picked out as the clue of geo-entity relations. Thirdly, the geo-entity pairs and their keywords are organized into structured information. Finally, an experiment is conducted with Baidubaike and Stanford CoreNLP. The study shows that the presented method can automatically explore part of the lexical features and find additional relational terms which neither the domain expert knowledge nor large scale corpora need. Moreover, compared with three classical frequency statistics methods, namely Frequency, TF-IDF and PPMI, the precision and recall are improved about 5% and 23% respectively.
text mining; geo-entities; relation extraction; quantitative evaluation; bootstrapping
2015-04-07
2016-02-02
余麗(1986—),女,博士生,研究方向為互聯(lián)網(wǎng)空間信息搜索。
E-mail: yul@lreis.ac.cn
陸鋒
LU Feng
E-mail: luf@lreis.ac.cn
10.11947/j.AGCS.2016.20150181.
YU Li,LU Feng,LIU Xiliang.A Bootstrapping Based Approach for Open Geo-entity Relation Extraction[J]. Acta Geodaetica et Cartographica Sinica,2016,45(5):616-622. DOI:10.11947/j.AGCS.2016.20150181.
P208
A
1001-1595(2016)05-0616-07
國家自然科學基金(41271408);國家863計劃(2013AA120305)
引文格式:余麗,陸鋒,劉希亮.開放式地理實體關(guān)系抽取的Bootstrapping方法[J].測繪學報,2016,45(5):616-622.