• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      檢索應(yīng)用中地理信息資源相似度計算方法研究

      2017-03-30 08:51:15賈奮勵宋國民高云亮
      測繪工程 2017年6期
      關(guān)鍵詞:計算方法檢索數(shù)值

      段 帥,賈奮勵,宋國民,高云亮,蓋 森

      (1.信息工程大學 地理空間信息學院,河南 鄭州 450001,2.南京陸軍指揮學院,江蘇 南京 210045)

      檢索應(yīng)用中地理信息資源相似度計算方法研究

      段 帥1,賈奮勵1,宋國民1,高云亮1,蓋 森2

      (1.信息工程大學 地理空間信息學院,河南 鄭州 450001,2.南京陸軍指揮學院,江蘇 南京 210045)

      在地理信息資源檢索應(yīng)用中,資源屬性間相似關(guān)系的計算還不夠深入,地理信息資源的精準推薦及檢索可視化應(yīng)用尚難以實現(xiàn)。針對該問題,統(tǒng)一采用“相似度”對資源屬性間的相似關(guān)系進行表達。資源的屬性類型大部分為文本,其中具有語義差異,文中提出復(fù)合文本的相似度算法對文本類型屬性進行匹配,并給出數(shù)值類型屬性的“相似度”映射方案。在此基礎(chǔ)上,實現(xiàn)資源時間、空間屬性的相似度計算?;谒岢龅南嗨贫人惴ㄟM行地理信息資源檢索實驗,實現(xiàn)地理信息資源屬性間相似關(guān)系的量化,促進信息可視化在地理信息資源檢索中的應(yīng)用。

      地理信息資源;資源檢索;相似計算;相似度

      地理信息資源主要指用于描述地理信息的各種空間數(shù)據(jù),包括各種矢量數(shù)據(jù)、柵格數(shù)據(jù)、文本描述數(shù)據(jù)及多媒體數(shù)據(jù)等。在當今數(shù)字時代,數(shù)字化地理數(shù)據(jù)的數(shù)據(jù)量正在快速增長[1],在各國政府、國際組織、企業(yè)和部門的普遍重視與長期建設(shè)下,其積累量已達到相當規(guī)模,各類地理信息資源共享服務(wù)平臺紛紛投入建設(shè)[2]。如美國聯(lián)邦地理數(shù)據(jù)委員會(FGDC)交換中心(CleaningHouse)、歐委會啟迪地理門戶網(wǎng)站(INSPIRE geoportal),我國的地球系統(tǒng)科學數(shù)據(jù)共享平臺、地理空間數(shù)據(jù)云等。

      地理信息元數(shù)據(jù)標準是地理信息資源在共享應(yīng)用中的主要描述依據(jù)。如ISO/TC211元數(shù)據(jù)標準(ISO19115)、《地理信息 元數(shù)據(jù)》(GB/T19710)、DIF數(shù)據(jù)交換目錄等,這些元數(shù)據(jù)標準在地理信息資源的描述項目及描述方式上存在一定的差異。同一資源屬性可能采用不同的描述方式及不同的度量單位,并且地理信息資源屬性類型大部分都是文本,其中含有大量的語義成分[3]。資源的屬性需要進行一定的匹配和計算,才能給用戶提供較準確的檢索結(jié)果。

      然而,在地理信息資源共享應(yīng)用中通常采用關(guān)鍵字匹配的方式,在屬性計算方面通常只涉及到空間范圍的計算,而資源其它屬性間的相似關(guān)系卻很少涉及,地理信息資源的相似推薦及檢索可視化等應(yīng)用還難以實現(xiàn)。這樣,一方面用戶難以發(fā)現(xiàn)感興趣信息;另一方面,一些資源成為少人問津的“暗信息”[4]。

      基于以上背景,本文面向地理信息資源檢索應(yīng)用,采用相似度對地理信息資源屬性間的相似關(guān)系進行量化表達,促進資源更精準的推薦及信息可視化在地理信息資源檢索中的應(yīng)用。

      1 地理信息資源屬性的相似度概念

      地理信息資源檢索應(yīng)用是將與檢索條件相匹配的資源進行聚集并展示的過程,實質(zhì)上是基于資源屬性將相似的資源在邏輯上進行聚集。采用相似度對地理信息資源屬性間的相似程度進行量化,以便于對相似的資源進行聚集,促進檢索結(jié)果更好地排序及信息可視化對資源間相似關(guān)系的表達。下面對相似度的概念及其表達范圍進行分析。

      相似度定義:用于描述地理信息資源屬性間的相似程度,統(tǒng)一采用介于0至1之間數(shù)值進行表達,當相似關(guān)系最強時,設(shè)定其相似度為1;當相似關(guān)系最弱時,其相似度為0。

      地理信息元數(shù)據(jù)標準提供給地理信息資源的描述項多達400余項,實際應(yīng)用中通常選取其中十幾項或幾十項作為資源的描述。兩個資源對象可基于其中任一描述項計算出兩者的相似關(guān)系。對地理信息資源設(shè)定統(tǒng)一描述項已在另一文中作詳細敘述,具體包括了資源的基本特征、時空特征及深度內(nèi)容特征3個方面,本文的研究重點是對描述項的相似度進行計算。面向地理信息資源檢索應(yīng)用,需要明確相似度的表達范圍,下面對資源的描述項進行分析。

      資源的描述項按照類型可劃分為文本類型和數(shù)值類型兩種。地理信息資源大部分屬性為文本類型,如資源名稱、采集工具、主題、關(guān)鍵字等;其余少量屬性的類型為數(shù)值類型,如時間、空間范圍、存儲大小、價格等。文本類型屬性需要進行文本相似度計算,得到更加準確的匹配結(jié)果;數(shù)值屬性中的時間、空間范圍需要進行特殊的計算處理,而存儲大小、價格等屬性,需要將數(shù)值之間的關(guān)系轉(zhuǎn)換為相似度。

      2 資源屬性的相似度計算方法

      文本和數(shù)值屬性的相似度計算是進行其它相似關(guān)系計算的基礎(chǔ),本節(jié)將針對文本、數(shù)值兩種類型屬性的相似度計算方法進行研究,并給出資源空間屬性、時間屬性的相似度計算方法。

      2.1 文本相似度計算

      文本的相似度計算能夠促進資源的模糊匹配,提高資源的查全率,從而為用戶推薦更多相似的資源結(jié)果。下面對常見的文本相似度算法進行介紹,并針對地理信息資源檢索應(yīng)用給出具體的計算方法。

      2.1.1 常見的文本相似度計算方法

      2.1.1.1 字符串匹配算法

      字符串相似度[5]可以用來衡量兩個字符串的相似程度,它利用兩個目標字符串的公共子串的長度,根據(jù)相應(yīng)公式得出相似程度。對于兩個字符串P,T,分別可表示為P={P1,P2,P3,…,Pn},T={T1,T2,T3,…,Tm}。對P,T的元素進行匹配,所有匹配對(Pi,Tj)的集合表達為Rs,兩個字符串相似度可以表示為

      Sim(P,T)=

      其中:Sim(P,T)表示兩個字符串P,T的相似度;|?|表示內(nèi)部集合的元素個數(shù);若Rs集合為空,則Sim值為0;當P,T完全相同,Sim為1。

      2.1.1.2 詞語的相似度計算方法

      1)基于語料庫的詞語相似度計算。該方法通過統(tǒng)計大規(guī)模語料庫,根據(jù)詞語間信息量或者詞語共現(xiàn)頻率來計算詞語相似度。按照語料庫的類型具體分為傳統(tǒng)大規(guī)模語料庫和Web語料庫[6]。該方法適宜用于計算兩個詞語的相關(guān)性,如“軍人”和“武器”兩個概念,兩者意義上差別很大卻具有很強的相關(guān)性。但基于語料庫的方法依賴于語料庫,算法復(fù)雜且存在數(shù)據(jù)稀疏的問題,其應(yīng)用并不廣泛。

      2)基于《同義詞詞林》的詞語相似度計算。梅家駒等人于1983年編纂了《同義詞詞林》,這本詞典中包括了詞語的同義詞及同類詞,哈工大在其基礎(chǔ)上進行拓展,在原有三層分類體系基礎(chǔ)上增加兩層,形成了五層分類體系。并給每個詞7個位置編碼及一個標記,具體編碼如表1所示。

      3)基于《知網(wǎng)》的詞語相似度計算?!吨W(wǎng)》并非將所有的“概念”歸結(jié)到一個樹狀的層次體系中,而是試圖用一系列的“義原”來對每一個“概念”進行描述。其具體概念的定義如下:

      表1 詞語“影像”的編號示例[7]

      概念:是對詞匯語義的一種描述。每一個詞可以表達為幾個概念?!案拍睢笔怯靡环N“知識表示語言”來描述的,這種“知識表示語言”所用的“詞匯”叫做“義原”。

      義原:是用于描述一個“概念”的最小意義單位。《知網(wǎng)》中的義原可以分為三類:基本義原、語法義原、關(guān)系義原。

      2.1.1.3 上述方法的對比

      表2對上述幾種方法的優(yōu)缺點進行總結(jié)。

      2.1.2 兼顧語義的復(fù)合文本相似度計算方法

      綜合字符串匹配的思想和詞語相似度計算方法,本文提出兼顧語義的復(fù)合文本相似度計算方法。

      2.1.2.1 算法思路

      為對資源屬性進行良好的語義處理,提出一種兼顧語義的復(fù)合文本相似度計算方法,具體算法流程如圖1所示。

      表2 文本相似度計算方法對比

      圖1 文本相似度算法流程

      步驟1:分詞。對于待比較的兩個屬性值A(chǔ)與B,考慮到A,B可能為復(fù)合詞語或短語,在進行比較時先采用分詞工具對復(fù)合詞匯A,B進行分詞,分別得到A,B的屬性向量A(a1,a2,…,am)和B(b1,b2,…,bn)。

      步驟2:匹配。將兩個屬性向量中的每個元素進行一一匹配,形成m×n個配對的元素,如下所示:

      (a1,b1)(a1,b2)…(a1,bn)

      (a2,b1)(a2,b2)…(a2,bn)

      …………

      (am,b1)(am,b2)…(am,bn)

      步驟3:詞語相似度計算。對上述匹配對中的每個元素進行詞語相似度計算。首先判斷配對(ai,bj)中兩個元素是否相同,若相同,則其相似度為1;若不同,則利用詞語相似度算法進行計算,得到m×n特征矩陣M,表示如下:

      步驟4:提取。首先遍歷相似度特征矩陣,提取矩陣中最大的元素Max1,并刪除其所在的行與列,得到(m-1)×(n-1)的矩陣M1。重復(fù)該步驟,每次提取矩陣中的最大元素Maxi,并去除該元素所在的行與列,直到矩陣元素只剩下一行或一列為止。得到min(m,n)個元素集合并記為Max:

      Max={Max1,Max2,…,Maxmin(n,m)}.

      步驟5:基于字符串匹配思想,對于兩個待匹配的屬性,以分詞后的元素作為最小單位進行匹配,且語義相似度的值范圍為(0,1),因此結(jié)合屬性的相似度計算,將兩個概念中的相似度計算公式調(diào)整為

      2.1.2.2 詞庫調(diào)整

      由于地理信息資源檢索是特定領(lǐng)域的檢索,需要對領(lǐng)域特有的詞匯進行檢驗,對缺乏的專業(yè)領(lǐng)域詞匯進行添加,以滿足地理信息資源檢索應(yīng)用?!锻x詞詞林》及《知網(wǎng)》兩種詞庫都不包含“攝影測量”、“遙感影像”這類的詞語。鑒于《同義詞詞林》的詞語結(jié)構(gòu)相對簡單,易于調(diào)整,采用《同義詞詞林》的詞庫進行文本相似度計算,并對詞匯進行添加及調(diào)整。

      1)添加詞匯。對地理信息資源檢索應(yīng)用的核對核心詞匯進行分析,添加缺少的詞匯。例如,添加“圖像 1 Dk31A01=”、“圖像 1 Dk31A01=”、“圖像1 Dk31A01=”、“航拍1 Dk31A02=”至“同義詞詞林.txt”文件中。

      2)調(diào)整詞匯距離。對詞語相似度進行測試,對明顯偏差的詞匯距離進行修改。例如,對記錄“攝影 3 Ae17C07# Hh03A01= Df04A05#”,添加“Df04A05#”編碼以減少與詞匯“遙感”的距離。

      2.2 數(shù)值屬性相似度計算

      數(shù)值類型的屬性主要包括資源的存儲大小、價格、分辨率等,這類屬性采用“數(shù)值+單位”的形式進行表示。實現(xiàn)數(shù)值距離向相似度的映射,具體分為以下兩個步驟。

      步驟1:轉(zhuǎn)換為統(tǒng)一的計量單位,計算兩個待匹配數(shù)值的差值。

      同一屬性可能具有不同的表示單位。如存儲大小可能采用KB、MB、GB、TB幾種單位進行表示,進行匹配時首先將其換算為統(tǒng)一單位,再計算兩個數(shù)值的差值,這里將差值記為D。

      步驟2:對差值進行分階,映射為0~1間的相似度。

      對步驟1中計算出的差值D進行分階,將每一階的范圍映射為相似度。以數(shù)據(jù)儲存大小屬性為例,表3對其相似度映射方法進行分析。

      需特別指出的是,數(shù)值型屬性間差值的分階方法并不固定,具體應(yīng)用中可參照該屬性的特征以及數(shù)據(jù)庫中該屬性的密集程度。

      2.3 時間相似度計算

      地理信息元數(shù)據(jù)標準對資源的時間信息通常采用“時間點”和“時間段”兩種方式進行表達。如“時間點”主要采用“年—月—日”的形式進行描述;時間段包括起始時間點與終止時間點來表達。學術(shù)界將點時間看作一個極短的段時間[8]?;谠撍枷耄r間段的中點作為時間段的簡化表示,便于統(tǒng)一計算。如圖2所示。

      表3 資源存儲大小的相似度映射

      圖2 時間映射示意圖

      將時間段映射為時間軸的點之后,可以統(tǒng)一計算時間的間隔值D,采用上節(jié)中數(shù)值屬性相似度的計算方法,對時間間隔進行相似度映射,在此不再贅述。

      2.4 空間相似度計算

      空間關(guān)系可細分為水平空間關(guān)系、資源方向、方位以及拓撲等多個類別。考慮到資源方向、方位、拓撲及垂直空間上的復(fù)雜關(guān)系在檢索中并不常用,因此重點研究地理信息資源檢索中水平空間的相似關(guān)系。資源水平空間的描述可能采用直角坐標系、大地坐標系、地名、郵編、行政區(qū)劃等多種類型的描述方式。因此,實現(xiàn)資源水平空間關(guān)聯(lián)關(guān)系的計算首先要實現(xiàn)多種描述方式的統(tǒng)一映射。

      本文將水平空間的多種描述方式統(tǒng)一映射為大地坐標系的表達,并采用空間重疊度和空間距離兩個參數(shù)對資源的空間相似度進行度量,具體如圖3所示。

      圖3 水平空間描述方式的統(tǒng)一映射與計算

      重疊度:從檢索的角度,設(shè)區(qū)域A為待比較資源的水平空間區(qū)域或搜索范圍,區(qū)域B為待比較區(qū)域,區(qū)域B與區(qū)域A的重疊度σ(A,B)表示為

      其中:SAB為區(qū)域A與B的公共面積,SA為區(qū)域A

      的面積。

      空間距離:僅僅采用空間重疊度往往還難以發(fā)現(xiàn)足夠多的資源,在此采用空間距離這一參數(shù)對相似度進行補充。

      設(shè)區(qū)域A中心點經(jīng)緯度為(LonA,LatA),區(qū)域B中心點經(jīng)緯度為(LonB,LatB)。對經(jīng)緯度進行規(guī)范化處理:東經(jīng)取正值(Lon),西經(jīng)取負值(-Lat),北緯(90-Lat),南緯(90+Lat),經(jīng)處理后的坐標分別表示為(MLonA,MLatA)和(MLonB,MLatB),空間距離計算公式為

      Distance(A,B)=R×Arccos(sin(MLatA)×

      sin(MLatB)×cos(MLonA-MLonB)+

      cos(MLatA)×cos(MLatB))×PI/180.

      其中:R為地球平均半徑;PI為圓周率。根據(jù)空間重疊度與空間距離公式,資源的水平空間總體相似度可表示如下:

      其中:W1,W2分別對應(yīng)空間重疊度與空間距離的權(quán)重;N為距離的調(diào)整因子。水平空間相似度在理論上可以超過1,當相似度超過1時,調(diào)整其相似度值為1。

      3 實驗驗證

      采用本文提出的地理信息資源屬性的相似度計算方法,開發(fā)原型試驗系統(tǒng)進行檢索實驗。系統(tǒng)中地理信息資源的元數(shù)據(jù)庫中包含了主題內(nèi)容、時間、空間等詳細的屬性信息。原型系統(tǒng)提供單一要素檢索和多要素檢索功能,采用兩個功能分別進行兩組檢索實驗。

      3.1 單要素檢索實驗

      設(shè)定檢索項為“主題”,檢索關(guān)鍵字為“山脈”,檢索結(jié)果如圖4所示。

      圖4 主題檢索結(jié)果

      表4對檢索結(jié)果進行統(tǒng)計,表中的匹配度代表資源與當前檢索條件的相似度。

      表4 檢索結(jié)果統(tǒng)計

      對比可知,匹配度為100%的記錄中其主題包含了“山”、“山地”,與檢索詞匯“山脈”概念相一致;“海島”、“島礁”與其的相似度為79%,而湖泊、森林、城市等與“山脈”距離較遠。檢索系統(tǒng)對每一頁的檢索結(jié)果以圖形進行顯示(見圖5),初步實現(xiàn)了檢索結(jié)果的可視化表達。

      圖5 檢索結(jié)果的圖形顯示

      3.2 空間范圍檢索實驗

      設(shè)定3個檢索條件:資源類型為“影像”,“主題”為“河流”,“地名”為“鄭州”,其檢索結(jié)果目錄及圖形顯示分別如圖6、圖7所示。

      圖6 多要素檢索結(jié)果

      圖7 多要素檢索可視化顯示

      表5對圖中的檢索結(jié)果進行統(tǒng)計。當有多個檢索條件時,檢索系統(tǒng)計算出對應(yīng)屬性的相似度,求取平均值作為總體相似度。當資源對象的相關(guān)屬性與3個檢索條件完全匹配時,其總體相似度為100%;當滿足其中兩個檢索條件,相似度約為66%;表5中匹配度為59%的資源,其空間范圍屬性與“空間范圍”檢索條件的相似度為1,并且其包含的主題“湖泊”與檢索條件“河流”在概念上相似,其相似度更高,該資源的總體相似度較高。

      表5 多要素檢索結(jié)果統(tǒng)計

      兩組檢索實驗證明,統(tǒng)一采用相似度對地理信息資源屬性的相似關(guān)系進行計算,有利于對屬性相似關(guān)系的統(tǒng)一量化,促進資源的精確排序及信息可視化對檢索結(jié)果的表達;驗證了文本屬性、空間屬性的相似度算法的有效性,促進資源的相似發(fā)現(xiàn),提高了查全率。

      4 結(jié)束語

      面向檢索應(yīng)用,對地理信息資源屬性的相似度計算方法進行研究。統(tǒng)一采用介于0至1的相似度值對資源屬性的相似關(guān)系進行統(tǒng)一表示。提出了復(fù)合文本的相似度算法對資源文本類型屬性進行匹配,并給出數(shù)值屬性的相似度映射方案。在其基礎(chǔ)上,完成資源的時間、空間屬性的相似度計算。采用提出的屬性相似度計算方法進行檢索實驗,實驗證明,本文所提出的屬性相似度計算方法能夠促進資源屬性間相似關(guān)系的量化,促進資源的精確排序及相似資源的發(fā)現(xiàn)。

      本文采用圖形方法對檢索結(jié)果進行可視化顯示,該表達方式還比較簡單。在本文研究的基礎(chǔ)上,將信息可視化方法與地理信息資源檢索進行深入結(jié)合是下一步研究工作的重點。

      [1] 龔健雅,耿晶,吳華意,等.地理信息資源網(wǎng)絡(luò)服務(wù)技術(shù)及其發(fā)展[J].測繪科學技術(shù)學報,2013,30(4):353-360.

      [2] 陸海英,花存宏.地理信息資源共享服務(wù)平臺建設(shè)構(gòu)想[J].地理信息世界,2009,7(4):19-23.

      [3] 宋國民,賈奮勵.地理空間數(shù)據(jù)共享機制研究[J].測繪學院學報,2002,19(2):134-136.

      [4] 劉建國,周濤,汪秉宏.個性化推薦系統(tǒng)的研究進展[J].自然科學進展,2009,19(1):1-15.

      [5] 牛永潔,張成.多種字符串相似度算法的比較研究[J].計算機與數(shù)字工程,2012,40(3):14-17.

      [6] 李慧.詞語相似度算法研究綜述[J].現(xiàn)代情報,2015,35(4):172-177.

      [7] 劉丹丹,彭成,錢龍華,等.《同義詞詞林》在中文實體關(guān)系抽取中的作用[J].中文信息學報,2014,28(2):91-99.

      [8] 侯志偉,諸云強,高星,等.時間本體及其在地學數(shù)據(jù)檢索中的應(yīng)用[J].地球信息科學學報,2015(4):379-390.

      [責任編輯:劉文霞]

      On the method of similarity computation of geographic information resources in the retrieval

      DUAN Shuai1, JIA Fenli1, SONG Guomin1,GAO Yunliang1,GAI Sen2

      (1.Information Engineering University,Zhengzhou 450001,China, 2.Nanjing Army Command College,Nanjing 210045,China)

      In the retrieval of geographic information resources, as the computation of relationship between the attributes of resources is not deep enough, it is difficult to recommend the geographic information resources accurately and display the results in a visual form. In view of the above problems, this paper uses relationship to express the similarity between resource attributes. The mostly-used type of attributes is text, which has much semantic difference.So a similarity algorithm is proposed to match the text attributes, and to obtain the similarity mapping scheme of numerical attributes.On this basis the similarity of time and space attributes are calculated. Based on the proposed similarity algorithm, geographic information resources retrieval experiments are carried out,which will realize the quantification of resource similarity relation and application of information visualization in geographic information retrieval.

      geographic information resources; resource retrieval; similarity algorithm; similar degree

      引用著錄形式:段 帥,賈奮勵,宋國民.檢索應(yīng)用中地理信息資源相似度計算方法研究[J].測繪工程,2017,26(6):53-59.

      10.19349/j.cnki.issn1006-7949.2017.06.010

      2016-05-06;

      2016-06-01

      國家自然科學基金資助項目(41371382);信息工程大學地理空間信息學院碩士學位創(chuàng)新與創(chuàng)優(yōu)論文基金(ZS201505)

      段 帥(1990-),男,碩士研究生.

      P208

      A

      1006-7949(2017)06-0053-07

      猜你喜歡
      計算方法檢索數(shù)值
      用固定數(shù)值計算
      浮力計算方法匯集
      數(shù)值大小比較“招招鮮”
      2019年第4-6期便捷檢索目錄
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      隨機振動試驗包絡(luò)計算方法
      基于Fluent的GTAW數(shù)值模擬
      焊接(2016年2期)2016-02-27 13:01:02
      不同應(yīng)變率比值計算方法在甲狀腺惡性腫瘤診斷中的應(yīng)用
      一種伺服機構(gòu)剛度計算方法
      國際標準檢索
      烟台市| 颍上县| 淮北市| 南昌市| 航空| 和静县| 金寨县| 灵寿县| 茌平县| 神木县| 阜南县| 乌兰浩特市| 连山| 汝南县| 九龙坡区| 杭锦旗| 大田县| 瑞丽市| 芮城县| 南通市| 西青区| 平和县| 进贤县| 合水县| 桑日县| 炉霍县| 普宁市| 阳西县| 新田县| 元阳县| 同江市| 蒲城县| 比如县| 修水县| 綦江县| 城固县| 井研县| 嘉荫县| 佛山市| 天水市| 贵南县|