• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于本體和語義標(biāo)引的地質(zhì)資料服務(wù)與管理研究

      2018-03-02 19:45閆東王誠
      軟件 2017年9期
      關(guān)鍵詞:標(biāo)引本體文檔

      閆東+王誠

      摘要:在信息化時(shí)代,高效地組織管理大量地質(zhì)領(lǐng)域數(shù)據(jù)成為實(shí)現(xiàn)良好的地質(zhì)資料服務(wù)與管理的關(guān)鍵所在。為解決我國地質(zhì)資料標(biāo)準(zhǔn)化程度低及應(yīng)用難度大等問題,本文提出了一種基于本體和語義標(biāo)引的地質(zhì)資料服務(wù)與管理方法。首先建立地質(zhì)領(lǐng)域信息資源元數(shù)據(jù)模型和關(guān)聯(lián)關(guān)系模型;并根據(jù)關(guān)聯(lián)模型自動化構(gòu)建計(jì)算機(jī)可讀的地質(zhì)本體;采用基于地質(zhì)本體的語義概念映射的方法將高維的詞語向量轉(zhuǎn)換到低維語義空間,加之詞頻、詞位置和詞跨度等權(quán)重因子的綜合作用,對地質(zhì)資料文本進(jìn)行精準(zhǔn)快速有效的分類,實(shí)現(xiàn)文本的語義標(biāo)引;最后根據(jù)地質(zhì)本體和語義標(biāo)引開展地質(zhì)資料檢索試驗(yàn),試驗(yàn)結(jié)果表明,查全率和查準(zhǔn)率分別從75.7%和81.2%提高到80.7%和84.8%,檢索效果得到了明顯提升。因此,本文為地質(zhì)資料的服務(wù)與管理模型設(shè)計(jì)與實(shí)現(xiàn)奠定了良好的基礎(chǔ)。

      關(guān)鍵詞:計(jì)算機(jī)應(yīng)用技術(shù);知識服務(wù);本體;語義標(biāo)引理的趨勢。利用本體方法可以建立地質(zhì)領(lǐng)域的知識脈絡(luò),可以更好地繼承共享已有的知識;利用自動化標(biāo)引可以有效組織地質(zhì)專業(yè)資源,可以更有效地管理資源。因此,根據(jù)本體和文本自動標(biāo)引技術(shù)可以實(shí)現(xiàn)良好的地質(zhì)資料服務(wù)與管理,在此基礎(chǔ)上可進(jìn)一步優(yōu)化地質(zhì)資料檢索服務(wù)。本文提出的地質(zhì)資料服務(wù)與管理框架主要包含四部分。

      元數(shù)據(jù)關(guān)聯(lián)模型:元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),根據(jù)文檔的元數(shù)據(jù)標(biāo)簽,可建立資源之間的關(guān)聯(lián)關(guān)系模型。元數(shù)據(jù)的關(guān)聯(lián)關(guān)系可以是指同一文檔兩主體之間的“關(guān)聯(lián)關(guān)系”,也可以代表不同文檔的“關(guān)聯(lián)關(guān)系”,元數(shù)據(jù)關(guān)聯(lián)模型的設(shè)計(jì)是實(shí)現(xiàn)本體構(gòu)建以及文本關(guān)聯(lián)關(guān)系的重要保障。

      基于元數(shù)據(jù)關(guān)聯(lián)模型的本體構(gòu)建:在本體中有等級、等同、相關(guān)等關(guān)系。而元數(shù)據(jù)模型的關(guān)聯(lián)關(guān)系恰好可以在文檔之間也建立起相應(yīng)的關(guān)聯(lián)關(guān)系。而對于在同一元數(shù)據(jù)項(xiàng)有相同值的文檔,可以直接建立關(guān)聯(lián)關(guān)系,因此,基于元數(shù)據(jù)模型可以實(shí)現(xiàn)準(zhǔn)確而快速的本體自動化構(gòu)建。

      基于本體映射的語義標(biāo)引:利用面向自動標(biāo)引應(yīng)用的地質(zhì)本體對詞向量進(jìn)行降維,盡量達(dá)到詞與詞之間語義的正交性,降低特征詞之間的冗余度,實(shí)現(xiàn)地質(zhì)資料分本的正確分類,為地質(zhì)資料服務(wù)與管理奠定基礎(chǔ)。

      基于本體和語義標(biāo)引的服務(wù)與管理:地質(zhì)資料服務(wù)的主要是依賴于語義網(wǎng)技術(shù)實(shí)現(xiàn)的各種服務(wù),如檢索、關(guān)聯(lián)、推薦等;地質(zhì)資料管理的則是實(shí)現(xiàn)知識的搜集、存儲和組織。通過本體與語義標(biāo)引技術(shù)可有效提高地質(zhì)資料的服務(wù)效果和管理效率。

      2 地質(zhì)資料服務(wù)與管理設(shè)計(jì)與實(shí)現(xiàn)

      2.1 元數(shù)據(jù)關(guān)聯(lián)模型

      針對地質(zhì)資料中的文檔資源建立元數(shù)據(jù)模型,通過元數(shù)據(jù)描述文本信息,并根據(jù)文檔的元數(shù)據(jù)標(biāo)簽,建立資源之間的關(guān)聯(lián)關(guān)系模型。見表1。

      2.2 基于元數(shù)據(jù)模型構(gòu)建本體

      自動構(gòu)建本體是基于自然語言分析和基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法抽取文檔中的概念和關(guān)系,自動本體。自動構(gòu)建本體的方法是當(dāng)前的研究熱點(diǎn)和難點(diǎn)。確定資源本體庫的結(jié)構(gòu)、概念、概念間關(guān)系、實(shí)例關(guān)系。在這里概念實(shí)際上是指館藏目錄資源和用戶信息的元數(shù)據(jù),而關(guān)系就是通過計(jì)量學(xué)方法得到的各個(gè)字段間關(guān)系。但由于在元數(shù)據(jù)庫中的所有概念和概念關(guān)系都是已經(jīng)確定好的,無需專家再進(jìn)行人工干預(yù),完全可以計(jì)算機(jī)自動操作。

      本文使用OWL(Web Ontology Language)進(jìn)行本體的白動化描述,OWL是從RDF(ResourceDescription Framework)上發(fā)展起來的本體描述語言,是一種標(biāo)準(zhǔn)的描述本體的類、概念及概念間關(guān)系的描述語言,也是目前應(yīng)用最多的本體語義化描述方式‘5]。

      在本體描述中,存在一定量的同義詞或等價(jià)詞,即等同關(guān)系。用“”標(biāo)簽來描述這種關(guān)系。所以在對OWL文件進(jìn)行解析推理時(shí),就可以首先鎖定關(guān)鍵詞“”,然后再根據(jù)具體的進(jìn)行具體等同關(guān)系的解析及推理;等級關(guān)系指的是概念之間的上下位關(guān)系,并且是廣義的上下位關(guān)系,可以包含多層次的層級關(guān)系。在OWL中,用標(biāo)簽“”來表示等級關(guān)系。同時(shí)值得說明的是,在本體中等級關(guān)系具有傳遞性,如果A是B的父類,B又是C的父子類,則A也是C的父類;相關(guān)關(guān)系是一種比較籠統(tǒng)的說法,相關(guān)關(guān)系可以細(xì)化為很多種,可以是屬性相關(guān)、物理相關(guān)、空間相關(guān)等??梢允褂脴?biāo)簽“” 或者“”進(jìn)行相關(guān)關(guān)系描述。

      最終,使用OWL將元數(shù)據(jù)關(guān)聯(lián)模型中的數(shù)據(jù)轉(zhuǎn)化為本體,含有概念4651個(gè),概念間的關(guān)系25527條,其中等同關(guān)系4943條,等級關(guān)系13786條和相關(guān)關(guān)系6798條。

      2.3基于本體映射的語義標(biāo)引

      影響地質(zhì)資料檢索服務(wù)效果的主要原因有兩個(gè):第一,檢索詞單一,僅僅依靠關(guān)鍵詞的匹配大大降低了檢索效果;第二,地質(zhì)資料分類不準(zhǔn)確,單一的使用題目中的主題詞作為分類標(biāo)準(zhǔn),無法實(shí)現(xiàn)真正的本文分類。2.2節(jié)所述的本體能夠很好的解決檢索詞單一問題。接下來本文提出一種基于本體映射的文本語義標(biāo)引技術(shù),能夠很好的解決地質(zhì)資料分類不準(zhǔn)確問題。

      (1)文本預(yù)處理

      本文使用的是中科院的開源分詞系統(tǒng)實(shí)現(xiàn)的文本預(yù)處理,去除停用詞、時(shí)間、副詞等無用詞匯,預(yù)處理過程中盡量保留能夠顯示文本特征的詞匯。

      (2)基于詞權(quán)重的文本特征選擇

      通常的文本特征選擇使用的是公式TF*IDF,TF是詞語在文檔中出現(xiàn)的頻率,IDF是出現(xiàn)該詞的文檔的倒頻率。本研究使用TW方法代替TF計(jì)算文本特征權(quán)重,詞Vi-文檔Dj權(quán)重Wi,j的計(jì)算公式為:

      其中,Ni是與詞Vi相關(guān)的文檔的個(gè)數(shù);/D/是全部文檔數(shù)。

      TW對詞頻、詞位置和詞跨進(jìn)行綜合評估,比單純的詞頻TF更能反映詞對文本主題的重要性。TW的計(jì)算公式為:

      TW=TF×LOC×SPAN

      TF為詞頻因子,詞i在文檔d中的TFi,d,計(jì)算公式為:

      Fre是詞i在文檔d中出現(xiàn)的頻數(shù),MAXj(Frejd)是文檔d中jL}{現(xiàn)頻數(shù)最高的詞的頻數(shù)。

      LOC為位置因子,出現(xiàn)在標(biāo)題、摘要的詞一般更能反映文本的主題,將不同位置出現(xiàn)的詞賦予不同的權(quán)重值。出現(xiàn)在標(biāo)題、摘要、正文三處不同區(qū)域的詞語,其位置值分別設(shè)為60、30和10。

      SPAN為詞跨因子,詞跨度是指詞在文中首次出現(xiàn)和末次出現(xiàn)之間的距離,一般詞跨度越大(即在開篇和結(jié)論都使用該詞)對文本的主題就越重要。

      其中,las為詞Vi在文中最后一次出現(xiàn)的序號,fir為詞Vi在文中首次出現(xiàn)的序號,sum為經(jīng)分詞計(jì)算后的文本分詞總數(shù)。

      (3)基于本體映射的語義標(biāo)引

      利用面向自動標(biāo)引應(yīng)用的地質(zhì)本體對詞向量進(jìn)行降維,盡量達(dá)到詞與詞之間語義的正交性。這里的降維主要使用本體的層級關(guān)系和等同關(guān)系。例如:“頁巖氣、致密氣層氣、Shale gas”都可以用“頁巖氣”代替,這屬于同等詞的映射降維;“伴生氣、低硫氣、火山氣”都可以用“天然氣”代替,這屬于等級詞的映射降維;語義映射增大了與類別的語義關(guān)聯(lián)強(qiáng)的詞匯的權(quán)重;將同義詞、近義詞、相關(guān)詞用一個(gè)詞語表示,同時(shí)累積權(quán)重;將分散的底層概念映射到較高層概念,權(quán)重累加到高層概念詞匯,高層概念能概括文本主題。

      2.4 基于本體和文本標(biāo)引的地質(zhì)資料服務(wù)與管理

      2.4.1 本體的解析與推理

      為了完成基于本體的地質(zhì)資料服務(wù)與管理,必須實(shí)現(xiàn)基于本體的推理解析工作。OWL是一種很好的描述本體語言,但本身并不具備任何推理和計(jì)算能力,因此,為實(shí)現(xiàn)基于本體的語義檢索,必須對OWL文件進(jìn)行相應(yīng)的推理解析,導(dǎo)出本體中存在的知識,滿足對檢索條件的擴(kuò)展和推送。本文采用的方法是將OWL解析為XML文件,由于OWL是在XML基礎(chǔ)上發(fā)展而來,因此轉(zhuǎn)換起來相對方便,且方便保留原始特性。

      圖1所展示的是將OWL文件解析為XML文件之后,將其發(fā)布為Web Service。發(fā)布后,可以通過訪問服務(wù)地址發(fā)出查詢請求,在輸入?yún)?shù),完成查詢偏好設(shè)置。參數(shù)的主要作用是提供多種查詢條件,即不同參數(shù)值表示返回等同詞、上位詞、下位詞、相關(guān)詞等內(nèi)容,能夠保障用戶按照自己的偏好進(jìn)行檢索。

      2.4.2 基于本體和語義標(biāo)引的檢索原型

      如圖2所示,當(dāng)用戶輸入檢索詞后,推理引擎根據(jù)本體對檢索詞進(jìn)行擴(kuò)展,檢索詞擴(kuò)展的方式非常靈活,可以選擇等同詞與原來的檢索詞組合成新的查詢條件,或者將原檢索詞的等級詞或者相關(guān)詞一并解析出來組合新的查詢條件,并且與已經(jīng)被語義標(biāo)引過的地質(zhì)資料庫進(jìn)行匹配,匹配成功后完成一次完整的語義檢索。與此同時(shí),推理引擎還將與檢索詞有關(guān)的詞動態(tài)地生成一組超鏈接,這種超鏈接能夠?yàn)橛脩籼峁└喔信d趣的檢索推薦。同時(shí),為了提高系統(tǒng)的靈活性,用戶還可以在Web Service接口服務(wù)中根據(jù)自己的檢索習(xí)慣來輸入相應(yīng)參數(shù),如是否返回檢索詞的英文詞、等級詞和相關(guān)詞等,從而方便用戶更快速地獲取檢索結(jié)果。

      通過對于同義詞(等同關(guān)系)的返回,能夠提高檢索的命中率,即實(shí)現(xiàn)了檢索詞的有效擴(kuò)展,相比于模糊匹配,又能夠有效控制擴(kuò)展詞的數(shù)量,達(dá)到最高效的檢索模式。

      對于智能導(dǎo)航的生成(等級關(guān)系和相關(guān)關(guān)系),能夠有針對性的給出用戶分類推送列表,可以使用戶快速的獲取檢索資源的相關(guān)知識。

      對于Web Service參數(shù)設(shè)置,可以滿足用戶根據(jù)自己的檢索習(xí)慣和檢索需要進(jìn)行個(gè)性化的設(shè)置,以更適合的方式進(jìn)行檢索。

      3 實(shí)驗(yàn)分析

      本次基于本體和語義標(biāo)引的檢索試驗(yàn)采用查準(zhǔn)率(P)、查全率(R)和F值作為評測標(biāo)準(zhǔn)。使用1000檔地質(zhì)資料進(jìn)行測試。評測標(biāo)準(zhǔn)計(jì)算公式如下。

      由表2可以看出,在使用本體和語義標(biāo)引后,查全率和查準(zhǔn)率得到了明顯提升。同時(shí)值得提出的是,檢索結(jié)果受檢索系統(tǒng)的檢索方式影響,本文主要是借助現(xiàn)有的檢索系統(tǒng)實(shí)現(xiàn)的檢索試驗(yàn),因此在檢索結(jié)果上會收到諸多限制。

      4 總結(jié)

      基于元數(shù)據(jù)關(guān)聯(lián)模型的本體構(gòu)建既能夠使人從繁重的本體手工構(gòu)建中解脫出來,又能夠提高本體構(gòu)建質(zhì)量和效率;而基于本體映射的文本自動標(biāo)引方法,利用本體概念的層級關(guān)系映射,有效降低了文本的特征數(shù)量,快速準(zhǔn)確地為文本標(biāo)注了語義標(biāo)簽。由試驗(yàn)結(jié)果可知,結(jié)合本體和語義標(biāo)引后的檢索系統(tǒng)所能夠提供的服務(wù)與管理明顯優(yōu)于傳統(tǒng)系統(tǒng)。因此,本文為地質(zhì)資料的服務(wù)與管理模型奠定了良好的基礎(chǔ)。endprint

      猜你喜歡
      標(biāo)引本體文檔
      Abstracts and Key Words
      淺談Matlab與Word文檔的應(yīng)用接口
      有人一聲不吭向你扔了個(gè)文檔
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      檔案主題標(biāo)引與分類標(biāo)引的比較分析
      本刊對來稿中關(guān)鍵詞標(biāo)引的要求
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      本刊對來稿中關(guān)鍵詞標(biāo)引的要求
      《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      自治县| 海城市| 凤庆县| 应城市| 九龙县| 台中县| 涿鹿县| 菏泽市| 天津市| 万荣县| 宁蒗| 新郑市| 南阳市| 合山市| 巴楚县| 政和县| 黑河市| 招远市| 广汉市| 静海县| 沁水县| 聊城市| 武宣县| 门头沟区| 徐水县| 永善县| 黑龙江省| 西乌| 石家庄市| 浪卡子县| 巫山县| 古交市| 岱山县| 牙克石市| 屏东市| 茂名市| 黄龙县| 宝坻区| 宁陵县| 义乌市| 会理县|