馮士軒,張益民
(大連東軟信息學(xué)院,遼寧 大連 116023)
面向提升東北亞航運(yùn)中心信息化水平的語(yǔ)義檢索研究
馮士軒,張益民
(大連東軟信息學(xué)院,遼寧 大連 116023)
首先對(duì)東北亞航運(yùn)中心信息化研究現(xiàn)狀作了綜述,介紹了本體構(gòu)建的方法,在給出本體的形式化定義基礎(chǔ)上構(gòu)建了航運(yùn)領(lǐng)域本體,并使用網(wǎng)絡(luò)本體語(yǔ)言O(shè)WL加以描述。利用構(gòu)建的本體對(duì)航運(yùn)事故信息進(jìn)行了形式化表示,給出了基于本體的語(yǔ)義檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)過程,研究結(jié)果表明,本體在實(shí)現(xiàn)知識(shí)的語(yǔ)義化推理和智能化檢索方面有明顯的優(yōu)勢(shì),能較大地提升檢索的查全率和查準(zhǔn)率。
本體;東北亞航運(yùn)中心;語(yǔ)義信息檢索;信息化
2003年10月中共中央和國(guó)務(wù)院共同下發(fā)了《關(guān)于實(shí)施東北地區(qū)等老工業(yè)基地振興戰(zhàn)略的意見》,該意見中強(qiáng)調(diào):“要充分利用東北地區(qū)現(xiàn)有的港口優(yōu)勢(shì)和條件,力爭(zhēng)把大連建設(shè)成為東北亞地區(qū)最重要的國(guó)際航運(yùn)中心;2006年國(guó)務(wù)院又將大連確認(rèn)為繼上海之后的第二大國(guó)際航運(yùn)中心。政府的政策支持對(duì)大連乃至整個(gè)東北老工業(yè)地區(qū)都是極大的機(jī)遇,東北亞航運(yùn)中心的建立能夠增強(qiáng)其對(duì)經(jīng)濟(jì)的牽動(dòng)和輻射能力,實(shí)現(xiàn)內(nèi)地和口岸的經(jīng)濟(jì)互動(dòng),更能提升大連在亞太地區(qū)甚至全世界的重要影響。在東北亞航運(yùn)中心的建設(shè)過程中,信息化的建設(shè)起著至關(guān)重要的作用,信息的及時(shí)獲取與管理對(duì)提升該航運(yùn)中心的服務(wù)水平和完善航運(yùn)中心的運(yùn)作效率有著極大的幫助。基于此,很多的航運(yùn)管理中心相繼建設(shè)了針對(duì)航運(yùn)信息進(jìn)行集中管理的信息系統(tǒng),如:桑凌志等[1]針對(duì)水上交通事故調(diào)查處理,提出了一個(gè)協(xié)同事故系統(tǒng)的建設(shè)框架,旨在提升對(duì)航運(yùn)事故處理的效率和透明度;肖智等提出使用J2EE技術(shù)的構(gòu)建地方海事信息平臺(tái),力圖實(shí)現(xiàn)對(duì)地區(qū)海事信息的大范圍整合。然而,總體來(lái)看,當(dāng)前的信息管理方式仍較為落后,基于關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)存儲(chǔ)方式導(dǎo)致了大量信息分散存儲(chǔ)在不同的地點(diǎn),形成了一座座信息孤島;另外,不同系統(tǒng)的設(shè)計(jì)模式、實(shí)現(xiàn)結(jié)構(gòu)等存在著差異,使得不同數(shù)據(jù)間呈現(xiàn)了很大的異構(gòu)性,對(duì)資源的信息整合提出了艱巨的挑戰(zhàn)。究其原因,基于關(guān)系型數(shù)據(jù)管理的解決方案還是建立在關(guān)鍵字匹配的基礎(chǔ)上,缺乏對(duì)資源對(duì)象語(yǔ)義方面的描述,更無(wú)法實(shí)現(xiàn)不同資源對(duì)象之間語(yǔ)義層面上的互連。
本體是起源于哲學(xué)的概念,它在哲學(xué)的作用在于“對(duì)大千世界中客觀存在事物進(jìn)行系統(tǒng)性地描述和表示,即事物存在理論”,它關(guān)心的是客觀現(xiàn)象的本質(zhì)抽象,是對(duì)客觀存在性的系統(tǒng)說明和解釋[1]。后來(lái),相關(guān)學(xué)者將本體的概念引入了信息處理領(lǐng)域,Neches等人給出了最早的本體定義,他將本體定義為“給出構(gòu)成某個(gè)相關(guān)領(lǐng)域詞匯集的基本術(shù)語(yǔ)和關(guān)系描述,以及利用這些關(guān)系和術(shù)語(yǔ)構(gòu)成的規(guī)定詞匯外延規(guī)則的定義[2]。之后,Cruber又給出一個(gè)最經(jīng)典的本體定義,即“本體是對(duì)某種概念化體系的規(guī)范化說明”[3]。
在人工智能領(lǐng)域,本體已經(jīng)受到了廣大學(xué)者的關(guān)注,并開展了廣泛的研究,在信息資源管理、智能系統(tǒng)設(shè)計(jì)、知識(shí)的管理與組織方面都取得了較大的進(jìn)展。因此,本文的工作主要在于:立足于東北亞航運(yùn)中心信息化水平的提升,借助本體實(shí)現(xiàn)信息的語(yǔ)義化表示與智能化檢索。本文的主要內(nèi)容包括:先給出本體的構(gòu)建方法,再參考本體的形式化定義給出具體的本體構(gòu)建過程,之后基于實(shí)現(xiàn)基于本體的語(yǔ)義信息檢索,以體現(xiàn)本體在知識(shí)重用與共享方面的優(yōu)勢(shì),最后給出本文結(jié)論。
本體的構(gòu)建方法主要包括以下幾種:
(1)企業(yè)建模法[4]。該方法是多倫多大學(xué)的一個(gè)研究項(xiàng)目,目的是建立一套為公共企業(yè)和商業(yè)建模所使用的集成本體。同時(shí),它設(shè)計(jì)并開發(fā)了一套評(píng)價(jià)本體的體系和方法。該方法包括的主要步驟如圖1所示。
(2)骨架法[5]。該方法只提供了開發(fā)本體的方針指導(dǎo),可用于描述企業(yè)之間定義和術(shù)語(yǔ)的集合,包括的主要步驟如下:
a.確定本體的應(yīng)用范圍。范圍越大,本體構(gòu)建的工作量也越大,所以要把本體的目標(biāo)限定在合理的范圍內(nèi),以保證本體構(gòu)建的可行性。
b.分析本體。明確本體內(nèi)的術(shù)語(yǔ)及其相互關(guān)系,對(duì)領(lǐng)域中的術(shù)語(yǔ)掌握得越多,本體構(gòu)建的就越完善。
c.模型表示。使用語(yǔ)義模型描述本體,使之具備機(jī)器可處理的語(yǔ)義基礎(chǔ)。
d.對(duì)本體評(píng)價(jià)。通過引用一致性、可擴(kuò)展性、完善性和清晰性等標(biāo)準(zhǔn)評(píng)價(jià)本體的結(jié)果。
圖1 企業(yè)建模法的步驟及流程
3.1 本體的形式化定義
本文使用由德國(guó)卡爾斯魯厄大學(xué)所屬的AIFB研究所提出的基本本體模型[6]作為本體的形式化描述方式,并以此為指導(dǎo)構(gòu)建航運(yùn)領(lǐng)域的本體。
定義 本體是一個(gè)五元組O:=(C,R,?,σ,A),其中:
(1)C是一個(gè)概念集合,C中的每一個(gè)元素稱為概念(concept)。
(2)R是一個(gè)關(guān)系的集合,R中的每一個(gè)元素稱為關(guān)系(relations)。C與R是兩個(gè)不相交的集合。
(3)概念集C上偏序關(guān)系?,體現(xiàn)的是概念間的父類與子類關(guān)系,被稱為概念的層次結(jié)構(gòu)(concepthierarchy)。
(4)函數(shù)σ:R→P(C×C),其中,函數(shù)的作用是將R中的每個(gè)元素映射為C×C的子集,P(C×C)是冪集;
(5)A定義的是公理集合。
3.2 本體的構(gòu)建過程
根據(jù)上述本體的形式化定義,構(gòu)建如下的東北亞領(lǐng)域航運(yùn)事故本體:
步驟①:構(gòu)建核心概念集C。可參考相關(guān)的主題詞表,如《交通漢語(yǔ)主題詞表》對(duì)船舶的分類,構(gòu)建相應(yīng)的船舶類,通過對(duì)航運(yùn)領(lǐng)域的進(jìn)一步分析,提取其它相關(guān)的概念,構(gòu)成核心概念集。概念集C的構(gòu)建過程如下:
C={航運(yùn),船舶,商用船,軍用船,科學(xué)考察船,事故,事故類型,碰撞事故,沉船事故,船員,船公司,事故地…}
步驟②:構(gòu)建核心關(guān)系集R。使用對(duì)象類型屬性可以描述概念間存在的某種語(yǔ)義關(guān)聯(lián),部分關(guān)系集Robject構(gòu)建如下:
Robject={擁有的事故類型,事故所在地,公司擁有的員工,…}
使用數(shù)據(jù)類型屬性可以描述對(duì)象與某些類型文字之間的關(guān)系,部分關(guān)系集Rdatatype構(gòu)建如下:
Rdatatype={事故時(shí)間,事故傷害人數(shù),事故描述,事故經(jīng)濟(jì)損失,…}
步驟③:構(gòu)建概念集間的偏序關(guān)系?。?={<船,航運(yùn)>,<商船,船>,<船類型,航運(yùn)>,<碰撞事故,事故類型>,<事故等級(jí),航運(yùn)>,…}
步驟④:構(gòu)建概念的映射函數(shù)σ。將關(guān)系R映射為C×C的子集,構(gòu)建的映射函數(shù)σ如下:
σ={σ(擁有的事故類型)={<航運(yùn),事故類型>},σ(事故所在地)={<事故,事故地>},…}
步驟⑤:構(gòu)建相關(guān)的公理集A。公理集可用于提供領(lǐng)域中事實(shí)和規(guī)則的描述,是語(yǔ)義推理的基礎(chǔ),公理集一般采用“如果-則”的形式表示。公理集A構(gòu)建如下:
A={如果?x是事故類型,?y是貨船,?z是船類型,?y碰撞了?z,?x受傷人數(shù)是?a,?a的人數(shù)大于1,?y與?z不相等,則?x可判定為是碰撞事故類型…}
依據(jù)上述本體描述,本文選取發(fā)生在東北亞大連地區(qū)的一起航運(yùn)事件,以實(shí)例的形式說明事件的語(yǔ)義標(biāo)注結(jié)果,并給出關(guān)于該碰撞事件的OWL描述,如下所示:
<!—事件的OWL語(yǔ)句片段-->
<o(jì)wl:NamedIndividual rdf:about="事故&;錦樂 67 輪與遼普漁運(yùn)13 碰撞事故">
<rdf:type rdf:resource="事故事故類型"/>
<rdfs:label>
錦樂67輪與遼普漁運(yùn)13碰撞事故
</rdfs:label>
<受傷人數(shù)>12</受傷人數(shù)>
<事件描述>
漁船船體漏水,發(fā)生傾斜,需要救助。 ……
</事件描述>
<事故地點(diǎn)>
大連港進(jìn)港航道H2浮附近
</事故地點(diǎn)>
<事故時(shí)間>2017-03-04</事故時(shí)間>
</owl:NamedIndividual>
本節(jié)首先給出基于本體的語(yǔ)義信息檢索系統(tǒng)原型,之后給出Java實(shí)現(xiàn)的核心代碼,最后對(duì)語(yǔ)義檢索的應(yīng)用效果進(jìn)行分析,以揭示本文方法的有效性。
本文的語(yǔ)義檢索系統(tǒng)原型如圖2所示,并給出每個(gè)模塊的詳細(xì)說明。
圖2 基于本體的語(yǔ)義檢索系統(tǒng)
5.1 資源采集模塊
資源采集模塊用于對(duì)東北亞地區(qū)發(fā)生的所有航運(yùn)事故信息進(jìn)行采集,獲取的資源渠道較為豐富,比如:從已有的資源庫(kù)獲取或者是來(lái)源于網(wǎng)絡(luò)的信息資源。資源采集模塊收集的數(shù)據(jù)大多數(shù)都是非結(jié)構(gòu)化或半結(jié)構(gòu)化的,且彼此之間是異構(gòu)存在的,需要進(jìn)一步進(jìn)行語(yǔ)義化描述。
5.2 語(yǔ)義處理模塊
在語(yǔ)義處理模塊中需要對(duì)獲取的各種資源文件進(jìn)行元數(shù)據(jù)的描述,通過數(shù)據(jù)抽取、轉(zhuǎn)換和裝載獲取原始數(shù)據(jù)資源,并對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)注,使資源具備一定的語(yǔ)義信息,重組為語(yǔ)義元數(shù)據(jù)庫(kù),為進(jìn)一步的語(yǔ)義檢索提供基礎(chǔ)。
5.3 本體管理模塊
通過本體模塊可以管理本體的構(gòu)建過程,并不斷補(bǔ)充、豐富和完善本體的詞匯庫(kù),不僅可用于對(duì)資源的語(yǔ)義標(biāo)注,也可以為基于本體的推理提供語(yǔ)義的基礎(chǔ),以提升東北亞航運(yùn)中心的信息化水平,該模塊是語(yǔ)義檢索系統(tǒng)的核心。
5.4 檢索模塊
檢索模塊接受用戶的檢索輸入,并通過本體標(biāo)注自動(dòng)實(shí)現(xiàn)將關(guān)鍵字檢索向語(yǔ)義檢索轉(zhuǎn)換,由檢索器控制整個(gè)轉(zhuǎn)換的過程,并向推理機(jī)發(fā)出推理的指示。推理機(jī)通過調(diào)用事先存儲(chǔ)好的公理執(zhí)行推理過程,可以發(fā)現(xiàn)新的事實(shí)和知識(shí),從而向用戶返回語(yǔ)義層面的檢索結(jié)果。以下給出基于JAVA實(shí)現(xiàn)語(yǔ)義檢索的部分核心算法代碼。//提取本體文件到內(nèi)存模型中
Modelschema=loadModel(“…/filepath/…/本體文件.owl”);
schema=loadModel(“…filepath…/實(shí)例文件.owl”);
//讀取規(guī)則文件到列表容器中
Listrules=rulesFromURL(“…/filepath/…/規(guī)則文件.rule”);
//創(chuàng)建執(zhí)行推理的推理機(jī)對(duì)象
GenericRuleReasoner reasoner=new Generic-RuleReasoner(rules);
//設(shè)置基于Rete算法的正向鏈?zhǔn)酵评矸绞?/p>
reasoner.setMode(GenericRuleReasoner.FORWARD_RETE);
//執(zhí)行推理過程并在InfModel中保存結(jié)果
InfModel infmodel=ModelFactory.createInf-Model(reasoner,schema);
//將推理結(jié)果寫回實(shí)例文件中
infmodel.write(newFileOutputStream(“…/filepath/…/資源文件.rdf”));
在傳統(tǒng)的基于關(guān)鍵字的檢索中,檢索的過程只會(huì)按照提供的關(guān)鍵字執(zhí)行“精確”或“模糊”的匹配,存在著較大的漏檢與錯(cuò)檢情況。而基于語(yǔ)義信息檢索的優(yōu)勢(shì)在于根據(jù)本體事先定義好的語(yǔ)義關(guān)系,可借助推理機(jī)的推理功能,實(shí)現(xiàn)智能化的語(yǔ)義檢索,擴(kuò)大檢索的范圍和深度。以語(yǔ)義檢索“事故類型”為例,在本體模型中,定義了“碰撞事故”、“沉船事故”等都是“事故類型”的子類,如果是以“事故類型”為輸入對(duì)象,則智能檢索系統(tǒng)會(huì)根據(jù)以上定義的語(yǔ)義關(guān)系,將檢索的范圍自動(dòng)擴(kuò)展為包含“碰撞事故”、“沉船事故”等所有類型的事故實(shí)例,從而提高信息檢索的查全率和查準(zhǔn)率。
本文以提升東北亞航運(yùn)中心信息化水平為目標(biāo),嘗試性地引用人工智能領(lǐng)域中的本體技術(shù),在介紹本體構(gòu)建的方法與形式化定義后,給出了航運(yùn)領(lǐng)域本體的具體構(gòu)建過程。以此為基礎(chǔ),設(shè)計(jì)并實(shí)現(xiàn)了語(yǔ)義信息檢索系統(tǒng),從而實(shí)現(xiàn)了東北亞航運(yùn)信息的智能化檢索,提高了檢索的查全率與查準(zhǔn)率。
[1]朱禮軍,陶蘭,黃赤.語(yǔ)義萬(wàn)維網(wǎng)的概念、方法及應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(3):79-83.
[2]Neches R,Fikes R,Finin T,et al.Enabling Technology for Knowledge Sharing[J].Ai Maga-zine,1991,12(3):36-56.
[3]Gruber T R.A translation approach to portable ontology specifications[J].Knowledge Acquisition,1993,5(2):199-220.
[4]Gruninger M,Fox M S.Methodology for the Design and Evaluation of Ontologies[Z].Work shop on Basic Ontological Issues in Knowledge Sharing,1995.
[5]Gruninger M U M.Ontologies:principles,methods and applications[J].Knowledge Engineering Review,1996,11(2):93-136.
[6]Stumme G,Ehrig M,Handschuh S,et al.The Karlsruhe View on Ontologies[R].Karlsruhe,Ger.:Universitat Karlsruhe(TH),2003.
Study on Semantic Retrieval to Improve IT Level of Northeastern Asian Shipping Center
Feng Shixuan,Zhang Yimin
(Dalian NeusoftUniversity of Information,Dalian 116023,China)
In this paper,we first summarized the current researches on the informatization of the Northeastern Asian Shipping Center,introduced the method for the construction of ontology,then on the basis of giving the formal definition of ontology,constructed the ontology in the shipping field and used the OWL to describe it.Next,we proposed the formal representation of the information concerning shipping accidents using the ontology constructed and introduced the process of the design and realization of the ontology-based semantic retrieval system.
ontology;NortheasternAsianShipping Center;semantic information retrieval;informatization
F253.9
A
1005-152X(2017)07-0150-04
10.3969/j.issn.1005-152X.2017.07.032
2017-06-01
遼寧省教育廳項(xiàng)目“面向東北亞的貿(mào)易人才國(guó)際化培養(yǎng)體系和質(zhì)量研究”(ZX2015SK010)
馮士軒(1971-),男,吉林琿春人,碩士,副教授,大連東軟信息學(xué)院副院長(zhǎng),研究方向:信息學(xué)、教育學(xué)、語(yǔ)言學(xué);張益民(1975-),男,陜西華縣人,副教授,碩士,研究方向:高等教育、電子商務(wù)信息平臺(tái)、個(gè)性化推薦、數(shù)據(jù)挖掘。