• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      多源文本知識融合算法分析

      2018-06-21 11:46:28閆昱姝雷玉霞
      軟件導(dǎo)刊 2018年5期

      閆昱姝 雷玉霞

      摘 要:知識融合是知識管理和知識工程的重要環(huán)節(jié),從文本中獲取專業(yè)知識是人們獲取新知識的首選方式。對于多源文本知識,由于作者描述的角度和側(cè)重點(diǎn)不同,往往導(dǎo)致文本知識描述的整體性、知識粒度和精度有所差異,從而引起知識的不一致問題。為得到粒度小、精度高且完備的文本知識,提出一種基于本體的多源文本知識融合算法。利用本體概念框架將文本知識結(jié)構(gòu)化,并將概念框架進(jìn)行融合。實(shí)驗(yàn)結(jié)果表明,該算法有效解決了文本知識的不一致問題,提高了知識融合效率。

      關(guān)鍵詞:知識融合;文本知識;知識不一致;概念框架

      DOI:10.11907/rjdk.172864

      中圖分類號:TP312

      文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2018)005-0062-03

      Abstract:Knowledge fusion is an important part of knowledge management and knowledge engineering. Acquiring professional knowledge from text is the preferred way for people to acquire new knowledge. For multi-source text knowledge, different description angles and focuses of the authors, often lead to the differences in integrity of text knowledge description, knowledge granularity and precision and cause the problem inconsistent of knowledge.In order to obtain small-size, high precision and complete text knowledge, this paper proposes a multi-source text knowledge fusion algorithm based on ontology. Text knowledge are structured by ontology conceptual framework and integrated with it. Experimental results show that the presented knowledge fusion algorithm can effectively solve the problem of text knowledge inconsistency and improve the efficiency of knowledge fusion.

      Key Words:knowledge fusion; text knowledge; inconsistent problem of knowledge; conceptual framework

      0 引言

      知識是人類社會進(jìn)步的重要推動力。隨著數(shù)字化、信息化時代的到來,知識來源也變得更加多樣化。其中,文本知識是人類直接獲取所需知識的有效途徑,因此對文本知識的研究顯得尤為重要[1]。知識融合是知識管理和知識工程的重要組成部分,主要研究分布式知識庫系統(tǒng)中知識的轉(zhuǎn)換、集成和融合,并產(chǎn)生新知識,是知識科學(xué)和信息融合的交叉學(xué)科[2]。通過融合將多源知識綜合為新知識,提高知識的內(nèi)涵、層次和置信度[3],從而進(jìn)一步完善知識庫,為人類提供基于知識的服務(wù)。目前,知識融合方法種類很多,而基于貝葉斯準(zhǔn)則的知識融合算法、基于證據(jù)組合理論的知識融合算法應(yīng)用最為廣泛。由于貝葉斯決策準(zhǔn)則具有最小的分類錯誤率[4],將貝葉斯理論應(yīng)用于知識融合中,可將一個較大問題分解成若干個易解決的小問題,然后利用極大后驗(yàn)概率假設(shè),最終得到最佳融合結(jié)果。證據(jù)組合理論D-S是由Dempster[5]于1967年提出,并于1976年由Shafer[6]進(jìn)一步發(fā)展和完善的結(jié)果。D-S定義信任函數(shù)和基本概率分配,并依據(jù)最大支持度準(zhǔn)則進(jìn)行最終融合。在現(xiàn)代社會中,雖然人們可以從各種媒體中得到所需知識并拓展視野,但從文本中獲取知識依舊是人們的第一選擇。動物學(xué)是人類自然科學(xué)的重點(diǎn)研究方向,對同一動物的描述,由于來源不同,其內(nèi)容也不盡相同。為解決該問題,本文針對多源文本知識,采用概念框架的知識表示方法,提出一種基于本體的知識融合算法。利用概念框架,將領(lǐng)域知識結(jié)構(gòu)形象化,最大程度地實(shí)現(xiàn)對知識庫本身的進(jìn)一步挖掘,從而提供面向?qū)ο蟮闹R服務(wù)。

      1 相關(guān)工作

      對于本文提出的多源文本知識融合算法,利用本體對文本知識進(jìn)行處理,并選擇恰當(dāng)?shù)闹R表示方法將文本清晰化與結(jié)構(gòu)化。

      1.1 本體知識

      本體是知識的一種組織方式,定義了組成某領(lǐng)域詞匯表的基本術(shù)語及其關(guān)系,并結(jié)合這些術(shù)語和關(guān)系定義了詞匯表的外延規(guī)則,反映出事物本質(zhì)特征。本體與知識實(shí)例的結(jié)合構(gòu)成了知識庫,成為人們知識共享和重用的有效工具[7],如圖1所示。

      1.2 知識表示方法

      知識表示是人工智能領(lǐng)域的一個核心問題[8]。在知識工程中,常用的知識表示方法有謂詞邏輯表示法、產(chǎn)生式表示法、框架表示法、腳本表示法、語義網(wǎng)絡(luò)表示法與面向?qū)ο蟊硎痉ǖ取闹R可重用性和可共享性角度出發(fā),基于本體的知識表示方法逐漸成為研究熱點(diǎn)[9]。本文以基于本體的概念框架形式表示知識,使文本知識的結(jié)構(gòu)脈絡(luò)更加形象化。

      1.3 不一致類型分析

      多源文本知識存在較強(qiáng)的異構(gòu)性,易引起知識的不一致,以下是幾種常見的不一致類型:

      (1)概念名稱不一致。在不同來源的文本中,對同一事物的描述往往存在一定差異。例如:我國珍惜保護(hù)動物大熊貓?jiān)谂_灣被稱為貓熊,其實(shí)是同一種生物。

      (2)時間/日期不一致。本文將時間/日期的不一致類型分為兩大類:古代紀(jì)年類型和近現(xiàn)代紀(jì)年類型,如圖2所示。

      (3)計(jì)量單位類型不一致。常用單位有長度單位、質(zhì)量單位和時間單位,而不同文本對同一事物的測量標(biāo)準(zhǔn)不同,從而導(dǎo)致單位不一致的情況產(chǎn)生。例如:在描述身高時,既可描述為以厘米為單位,也可描述為以米為單位,均可表示同一人身高。常用單位的具體類型如圖3所示。

      2 融合算法

      不同文本對同一概念的描述往往不同,因此需要找到一種避免由異構(gòu)引起差異的方法。本文提出一種文本知識融合算法,對不同來源的文本知識進(jìn)行框架處理,當(dāng)所獲得的概念名稱相同而內(nèi)容不同時,將概念屬性進(jìn)行融合,形成新的、完備的概念框架[10]。

      3 實(shí)驗(yàn)分析

      在查閱資料后,從百度百科[11]、維基百科[12]、互動百科[13]、《漢語大辭典》[14]、《環(huán)境科學(xué)大詞典》[15]中獲取關(guān)于大熊貓的介紹。F1、F2、F3、F4、F5分別表示來源于百度百科、維基百科、互動百科、漢語大辭典、環(huán)境科學(xué)大詞典的5個概念框架。其屬性用mi表示,m1~m13分別表示的屬性為:學(xué)名、英文名稱、所屬類別、體色、特點(diǎn)、存活時間、稱號、主要棲息地、野生數(shù)量、圈養(yǎng)數(shù)量、食物、野生壽命、圈養(yǎng)壽命、別名、現(xiàn)存數(shù)量、體長。對概念框架進(jìn)行屬性分析,如圖4、圖5及表1所示。

      通過將來源于百度百科、維基百科等的大熊貓文本知識進(jìn)行融合,得到融合的匹配復(fù)雜度為9.26,框架融合度為0.52,而直接兩兩融合的匹配復(fù)雜度為12.28,框架融合度為0.48。實(shí)驗(yàn)結(jié)果表明,本文提出的融合算法能夠有效提高知識融合效率。

      4 結(jié)語

      本文首先介紹了與研究內(nèi)容相關(guān)的本體知識和知識表示方法的選擇,然后對知識不一致類型進(jìn)行分析,提出多源文本知識融合算法,用實(shí)例驗(yàn)證算法的可行性和有效性,最后對實(shí)驗(yàn)結(jié)果進(jìn)行分析。實(shí)驗(yàn)結(jié)果表明,本文提出的多源文本知識融合算法有效解決了文本知識的不一致問題,提高了知識融合效率。下一步工作將繼續(xù)探索在概念名稱不同、內(nèi)容相同的情況下,如何將不同來源的文本知識更好地融合在一起。

      參考文獻(xiàn):

      [1] DENG Y, SHI W K. Experts′ knowledge fusion in model-based diagnosis based on Bayes networks [J].Journal of Systems Engineering and Electronics, 2003,14(2):25-30.

      [2] 徐賜軍,李愛平,劉雪梅.基于本體的知識融合框架[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2010,22(7):1230-1236.

      [3] 周芳,王鵬波,韓立巖.多源知識融合處理算法[J].北京航空航天大學(xué)學(xué)報(bào),2013,39(1):109-114.

      [4] 王爽,郭軍海,張艷,等.導(dǎo)彈目標(biāo)識別的最小貝葉斯風(fēng)險分類器[J].現(xiàn)代防御技術(shù),2012,40(1):60-64.

      [5] DEMPSTER A P. Upper and lower probabilities induced by a multivalued mapping[J]. Annals of Mathematical Statistics, 1967,38(2):325-339.

      [6] SHAFER G. A mathematical theory of evidence[M].Princeton,NJ:Princeton University Press,1976.

      [7] 李娜.基于本體的文本知識修正與獲取[D].青島:中國石油大學(xué)(華東),2009.

      [8] 韓永花,雷玉霞,陳娟,等.多框架知識的不一致性檢測及其修正算法[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(23):94-97.

      [9] 張德海.NKI國家和地區(qū)地理知識的獲取與分析[D].昆明:云南師范大學(xué),2002.

      [10] 雷玉霞,陳娟,韓永花,等.Frame知識的不一致性分析與修正[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(22):155-158.

      [11] 百度百科[EB/OL].https:∥baike.baidu.com/item/%E5%A4%A7%E7%86%8A%E7%8C% AB/34935.

      [12] 維基百科[EB/OL].https:∥zh.wikipedia.org/wiki/%E5%A4%A7%E7%86%8A%E7%8C%AB.

      [13] 互動百科[EB/OL].http:∥www.baike.com/wiki/大熊貓&prd;=so_1_doc.

      [14] 傅玉芳.漢語大詞典 [J].辭書研究,1994(3):80-81.

      [15] 《環(huán)境科學(xué)大詞典》編委會.環(huán)境科學(xué)大辭典(修訂版)[M].北京:中國環(huán)境科學(xué)出版社,2008.

      (責(zé)任編輯:黃 ?。?/p>

      兴义市| 衡水市| 麻栗坡县| 安陆市| 沙河市| 阜康市| 和顺县| 克什克腾旗| 钟祥市| 讷河市| 阜南县| 灵川县| 高陵县| 安化县| 江陵县| 扎鲁特旗| 山丹县| 莎车县| 五华县| 津市市| 北辰区| 沁阳市| 大埔县| 金阳县| 称多县| 平定县| 永州市| 益阳市| 南投县| 邹平县| 彭泽县| 广安市| 镇原县| 磐石市| 八宿县| 广东省| 宁国市| 临猗县| 富锦市| 县级市| 惠安县|