• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于語義推理的文本信息關聯(lián)關系分析技術*

      2014-09-28 12:09:06陳天瑩蘇智慧
      電訊技術 2014年1期
      關鍵詞:本體關聯(lián)檢索

      陳天瑩,蘇智慧

      (中國西南電子技術研究所,成都610036)

      1 引言

      基于文本信息的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)是當前信息處理的一大熱點。文本信息中蘊含的潛在信息非常豐富,信息之間既具有語義性又具有關聯(lián)性。文本信息的無結(jié)構(gòu)性導致計算機對其理解、處理、分析較為受限,目前主要依托人工閱讀、編輯、分析的方式來進行處理。因此,如何快速從文本信息中找到信息之間的所有直接和潛在關聯(lián),并快速對關聯(lián)信息進行分析是輔助文本信息分析人員工作的重要技術。

      關聯(lián)關系屬于知識發(fā)現(xiàn)的范疇,分別在數(shù)據(jù)挖掘和文本挖掘中有不同的內(nèi)涵和處理技術,針對不同領域、不同信息處理對象其涉及的關鍵技術也大有不同。

      在數(shù)據(jù)挖掘中的關聯(lián)分析主要是指關聯(lián)規(guī)則挖掘,它由 Agrawal等人[1-2]提出,其處理對象主要是海量的有結(jié)構(gòu)的數(shù)據(jù)庫數(shù)據(jù)。關聯(lián)規(guī)則挖掘主要是在有結(jié)構(gòu)化的數(shù)據(jù)集上發(fā)現(xiàn)數(shù)據(jù)集中項之間的聯(lián)系。現(xiàn)已發(fā)表的研究論文包括確定性關聯(lián)規(guī)則的挖掘、量化關聯(lián)規(guī)則的挖掘、增量式關聯(lián)規(guī)則的挖掘、廣義關聯(lián)規(guī)則的挖掘等。最著名的關聯(lián)規(guī)則算法是Apriori[3]算法,其思想是通過多次迭代找出所有的頻繁項目集。關聯(lián)規(guī)則主要運用于交易數(shù)據(jù)庫中發(fā)現(xiàn)各數(shù)據(jù)項之間的關聯(lián)關系,從而生成形如“X Y”的規(guī)則。

      文本挖掘中的關聯(lián)分析主要是指知識關聯(lián),它是利用各項智能分析技術對非結(jié)構(gòu)化文本進行信息提取、存儲、分析后獲取有用知識和信息的技術。文本信息中的關聯(lián)性指對象之間的關聯(lián)性,如(A和B相關)、(B和C相關)、(C和D相關);檢索希望實現(xiàn)A到D的查詢,推理希望告訴用戶A和D具有路徑關聯(lián)關系,這是人們基于語義的一種推理過程。同時,知識之間存在很多有用的關聯(lián)性,在知識組織中,如果將知識視為一種網(wǎng)狀結(jié)構(gòu),那么這種特定意義上的知識就是由眾多的結(jié)點(知識)和結(jié)點間關系組成的[4]。有人將知識關聯(lián)定義為,知識關聯(lián)就是指大量的知識點之間存在的知識序化的聯(lián)系,以及所隱藏的、可理解的、最終可用的關聯(lián),它超出信息檢索的范疇,主要是揭示知識之間隱含的關聯(lián)與寓意,發(fā)現(xiàn)更有價值的知識[5]。

      文本信息的潛在關聯(lián)關系分析技術主要引入語義技術,將信息抽取處理的結(jié)果采用本體進行知識表示,并結(jié)合知識檢索技術、推理技術來實現(xiàn)文本信息挖掘。當前,國內(nèi)研究將文本挖掘的方法集中在分類、聚類、機器學習等傳統(tǒng)技術上,對信息抽取的結(jié)果采用關聯(lián)規(guī)則提取的方式完成文本信息的挖掘,而本技術在信息抽取結(jié)果表示、處理上均采用語義技術,保留數(shù)據(jù)間的語義關系,在語義關系上進行知識檢索和推理實現(xiàn)潛在關聯(lián)關系發(fā)現(xiàn)。

      2 文本信息中目標的關聯(lián)關系分析

      技術以文本信息的關聯(lián)關系分析為研究對象,主要模擬文本信息處理和分析人員的需求,將信息的關聯(lián)關系分析限定為目標的關聯(lián)關系分析和潛在關聯(lián)關系發(fā)現(xiàn)。目標是指進行作戰(zhàn)或者采取行動時需要考慮的一個實體或者一個物體,它可以是為支持指揮員作戰(zhàn)目標與作戰(zhàn)意圖所采取行動而識別出得地域、集群、設施、部隊、裝備、能力、功能、個人、人群、系統(tǒng)、實體或者行為[6],研究的目標主要是文本信息中的個人、設施、地域、機構(gòu)。為了完成文本信息中目標的關聯(lián)關系分析,首先,采用基于本體的信息抽取技術對文本內(nèi)容進行信息提取,獲取語義關系;其次,將提取的信息和關聯(lián)關系存儲到知識庫中;最后,在知識庫上進行知識檢索和推理完成兩種關聯(lián)關系的分析。

      2.1 關聯(lián)數(shù)據(jù)抽取

      本技術采用基于本體的信息抽取技術來完成關聯(lián)數(shù)據(jù)和關聯(lián)關系的獲取。關聯(lián)關系抽取首先要確定抽取信息的范疇,即確定哪些信息是有價值的。抽取對象是目標對象及目標對象之間的關系。經(jīng)過仔細分析,在文本信息中目標對象之間的關聯(lián)關系通常是和目標的動向情況進行直接關聯(lián)的。目標動向事件是指目標的行為,例如目標的參與活動、發(fā)表言論等,將動向事件簡稱為動向。研究的范疇定義如下:

      因此,“目標-動向”是目標關聯(lián)的重要信息,其關系圖及示例如圖1所示。

      圖1 目標對象-事件”關系圖及示例Fig.1 Diagram of target-event relationship with an example

      由圖1可以看出,目標的關聯(lián)關系包括“目標-動向”、“動向-時間”、“動向-地點”以及間接的“目標-時間”、“目標-地點”、“目標-目標”6種關系。文本采用基于本體的信息抽取技術來提取關聯(lián)關系,流程如圖2所示。

      圖2 關聯(lián)關系抽取流程Fig.2 Relationship extraction workflow

      信息抽取首先對待處理文本進行目標實體識別,將目標實體識別的位置和分句結(jié)果相結(jié)合選取候選事件,為保證動向事件的可讀性和完整性,我們將一個完整的包含動向事件的語句作為一個動向;在候選動向事件中進行語義分析,語義分析主要包括語法分析和句法分析,當候選動向事件包含的要素滿足事件定義時,將其確定為動向事件,簡稱動向;將動向事件按照本體模型進行關聯(lián)關系提取;最后將提取出來的關系按照本體模型的schema進行存儲。

      2.2 關聯(lián)本體模型構(gòu)建

      本體模型的構(gòu)建是信息抽取、知識庫存儲、知識檢索和知識推理的依據(jù)。下面重點介紹如何對文本信息中的目標對象及目標對象關聯(lián)關系進行建模。

      首先,確定領域本體的建模范圍,即建模對象(概念)有哪些,并對其關系進行描述和建模。本研究中的概念和關系如下:

      其次,分別對Concept概念和關系進行建模。本體模型分為兩個部分:一個是對概念及概念之間關系的描述,在描述邏輯中通常稱為TBox;另一個可以簡單看成是對TBox進行實例化后的關系模型,稱為ABox。采用Topbraid Composer本體建模工具進行建模。

      (1)概念模型

      概念模型按照本體構(gòu)建的標準和規(guī)范,主要定義了Class,以及Class之間的分類關系。由圖3可看出,我們定義了目標、動向2個Class,并在目標下細分人物、機構(gòu)、設施、地點4個子類。如此層層細分,將我們所需要研究的概念分層分類進行表示。

      圖3 概念模型圖Fig.3 Diagram of conceptual model

      (2)關系模型

      圖4 關系模型圖Fig.4 Diagram of relation model

      如圖4所示,關系模型同樣是在本體構(gòu)建得標準和規(guī)范下,定義每個Class之間的關系,以及這些關系的數(shù)據(jù)模型和邏輯描述模型。所有定義規(guī)范遵循W3C的規(guī)范標準,同時引用了RDF/RDFs、OWL標準。關系模型表如表1所示。

      表1 關系模型表Table1 Table of relation model

      2.3 關聯(lián)檢索及推理

      關聯(lián)檢索及推理是在知識庫的基礎上,運用知識檢索技術和知識庫推理技術來對知識庫中的知識進行關聯(lián)關系挖掘和發(fā)現(xiàn)的一種基于業(yè)務驅(qū)動的應用性技術。關聯(lián)分析主要解決目標的知識檢索、目標的路徑關聯(lián)分析和目標的潛在關聯(lián)關系發(fā)現(xiàn)三個方面。

      目標的知識檢索區(qū)別于關鍵詞檢索的不同在于,關鍵詞檢索使用戶只能查詢哪些文本中出現(xiàn)了該目標,返回的結(jié)果集大,從結(jié)果集中需要人工定位后通過上下文獲取到該目標的信息;目標的知識檢索是從目標出發(fā),在網(wǎng)狀結(jié)構(gòu)的知識中將目標關聯(lián)的所有事件聚合后返回給用戶。因此,目標的知識檢索是基于語句的檢索,而關鍵詞檢索是基于文章的檢索,目標的知識檢索返回的結(jié)果更加精確。同時,在知識檢索的結(jié)果上可以按時間、地點排序和統(tǒng)計,以實現(xiàn)對目標的簡要分析,如目標動向、目標活動軌跡以及活動預測等。圖5用某人物為示例展示了知識檢索和關鍵詞檢索的結(jié)果及可擴展的分析能力。

      圖5 知識檢索和關鍵詞檢索結(jié)果對比圖Fig.5 Comparison between knowledge search result and keyword search result

      目標的關聯(lián)關系分析分為路徑關聯(lián)分析和潛在關聯(lián)關系發(fā)現(xiàn)兩種,前者主要是基于知識檢索進行的路徑關聯(lián)查詢,后者是基于知識推理規(guī)則進行的知識發(fā)現(xiàn)。下面我們將根據(jù)一個實際的示例來主要描述潛在關聯(lián)關系發(fā)現(xiàn)得的分析方法和模型及結(jié)果。首先示例ABox用triples形式描述如圖6。

      圖6 事件描述及抽取關聯(lián)關系Fig.6 Event description and extraction relationship

      目標對象的潛在關聯(lián)關系發(fā)現(xiàn)模型及示例如下:

      (1)關聯(lián)規(guī)則1定義:如果兩個目標A和B在同一時間、同一地點出現(xiàn),則目標對象A和B具有潛在關聯(lián)。

      Prolog規(guī)則模型如圖7所示。

      圖7 規(guī)則1描述圖Fig.7 Description diagram of rule 1

      (2)關聯(lián)規(guī)則2定義:如果兩個目標對象A和B,分別檢索并得到A和B的直接關聯(lián)目標對象集合,直接目標對象中超過兩個以上相同,則A和B具有潛在關聯(lián)性。

      Prolog規(guī)則描述如圖8所示。

      圖8 規(guī)則2描述圖Fig.8 Description diagram of rule 2

      3 系統(tǒng)主要流程

      信息關聯(lián)分析系統(tǒng)主要實現(xiàn)基于語義的知識檢索,并在知識檢索的結(jié)果上進行知識分析;在信息知識庫的知識上通過基于語義的知識推理來完成目標對象的路徑關聯(lián)分析和目標對象的潛在關聯(lián)關系發(fā)現(xiàn)。系統(tǒng)處理流程如圖9所示。

      首先將文本信息接入到系統(tǒng),系統(tǒng)通過本體模型中的概念來確定需要在該文本信息中識別和提取哪些目標,以及判別這些目標實體的類型;通過目標實體識別結(jié)果、類型及位置來獲取候選事件集;將候選事件集進行語法、句法分析來進行檢測,選取符合條件的事件;在抽取的事件集中,結(jié)合本體模型的關系模型來提取目標實體之間的關聯(lián)關系;將抽取的目標實體關聯(lián)關系存儲到實例知識庫中;在實例知識庫、本體知識庫上進行知識檢索;在實體知識庫、本體知識庫和規(guī)則庫上進行知識推理;最后給出關聯(lián)分析的結(jié)果。

      圖9 系統(tǒng)流程圖Fig.9 Diagram of system workflow

      文本關聯(lián)關系分析技術其目的在于為文本信息處理人員提供快速的關聯(lián)關系檢索,并輔助其完成關聯(lián)關系發(fā)現(xiàn)。結(jié)合工程系統(tǒng)應用,本技術對接入的文本信息中人物目標的相關信息進行提取,在抽取結(jié)果上引入語義技術進行人物目標的信息聚合,采用知識檢索技術實現(xiàn)人物目標關聯(lián)信息的快速檢索,運用知識推理技術完成指定人物目標的潛在關聯(lián)人物發(fā)現(xiàn)等功能,為信息分析人員進行人物跟蹤監(jiān)控、多人物間關系分析等提供輔助決策信息。

      4 結(jié)論

      文本關聯(lián)關系分析技術針對文本信息處理領域中文本信息的關聯(lián)關系自動提取、快速檢索、潛在關聯(lián)關系發(fā)現(xiàn)等重大處理需求進行研究和設計,采用語義技術抽取并表示文本信息的關聯(lián)關系,運用知識檢索和推理技術實現(xiàn)信息聚合檢索和潛在關聯(lián)關系發(fā)現(xiàn)。基于語義進行文本信息的挖掘是一個新的研究方向,仍需要對每個處理環(huán)節(jié)進行持續(xù)研究,包括如何提取有價值的關聯(lián)信息,如何更加合理、靈活地保留其語義信息和表示,語義信息的推理技術是否可以有效結(jié)合非語義數(shù)據(jù)從而演變新的技術來滿足業(yè)務的處理需求等。

      [1]Gao J.Resolution and accuracy of terrain representation by grid GEMs at a micro scale[J].International Journal of Geographical Information Science,1997,11(2):199-212.

      [2]湯國安,楊勤科,張勇,等.不同比例尺DEM提取地面坡度的精度研究——以在黃土丘陵溝壑區(qū)的試驗為例[J].水土保持通報,2001,21(1):53-56.TANG Guo-an,YANG Qin-ke,ZHANG Yong,et al.Research on Accuracy of Slope Derived From DEMs of Different Map Scales[J].Bulletin of Soil and Water Conservation,2001,21(1):53-56.(in Chinese)

      [3]吳強,劉宗田,強宇.基于本體的知識庫推理研究[J].計算機應用研究,2005,21(1):55-57.WU Qiang,LIU Zong-tian,QIANG Yu.Ontology based knowledge reasoning research[J].Application Research of Computers,2005,21(1):55-57.(in Chinese)

      [4]曹錦丹.基于文獻知識單元的知識組織—文獻知識庫建設研究[J].情報科學,2002,20(11):1187-1189.CAO Jin-dan.The knowledge organization based on the document knowledge unit[J].Information Science,2002,20(11):1187-1189.(in Chinese)

      [5]盧寧.面向知識發(fā)現(xiàn)的知識關聯(lián)提示及其應用研究[D].南京:南京理工大學,2007.LU Ning.Knowledge discovery oriented knowledge relationship reveal and application research[D].Nanjing:Nanjing University of Science and Technology,2007.(in Chinese)

      [6]中國電子科技集團公司第十研究所.聯(lián)合情報[J].電訊技術,2012,52(suppl.1):1-132.The 10th Institute of CETC.Joint Information[J].Telecommunication Engineering,2012,52(Suppl.1):1-132.(in Chinese)

      [7]于龍,蹇強.面向主題的信息抽取需求描述與分析[J].計算機工程,2012(23):57-59.YU Long,QIAN Qiang.Theme oriented information extraction requirement description and anaylsys[J].Computer Engineering,2012(23):57-59.(in Chinese)

      [8]高強,游宏梁.事件抽取技術研究綜述[J].情報理論與實踐,2013(4):118-121,132.GAO Qiang,YOU Hong-liang.Summery of event extraction technology research[J].Information Studies:Theory& Application,2013(4):118-121,132.(in Chinese)

      猜你喜歡
      本體關聯(lián)檢索
      Abstracts and Key Words
      哲學分析(2023年4期)2023-12-21 05:30:27
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      中國音樂學(2020年4期)2020-12-25 02:58:06
      “一帶一路”遞進,關聯(lián)民生更緊
      當代陜西(2019年15期)2019-09-02 01:52:00
      2019年第4-6期便捷檢索目錄
      奇趣搭配
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
      文學教育(2016年27期)2016-02-28 02:35:15
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      語言學與修辭學:關聯(lián)與互動
      當代修辭學(2011年2期)2011-01-23 06:39:12
      苏尼特右旗| 景德镇市| 平度市| 米泉市| 商都县| 三门峡市| 漯河市| 平罗县| 五大连池市| 上林县| 巍山| 彩票| 盐山县| 静安区| 元氏县| 阿拉善盟| 武鸣县| 兴宁市| 增城市| 洛宁县| 三明市| 河津市| 乡宁县| 石河子市| 金堂县| 方城县| 静乐县| 长武县| 大足县| 密山市| 伊吾县| 德惠市| 米林县| 漳州市| 阿巴嘎旗| 思茅市| 江西省| 邳州市| 墨脱县| 乌兰县| 双城市|