王勇
(江西科技學院 信息工程學院,江西 南昌 330098)
Web網(wǎng)絡(luò)環(huán)境下的語義檢索平臺設(shè)計與分析
王勇
(江西科技學院 信息工程學院,江西 南昌330098)
摘要:在Web網(wǎng)絡(luò)環(huán)境下,傳統(tǒng)信息檢索方法僅依據(jù)簡單的字和詞進行匹配,未考慮知識的描述、處理以及理解等性能,檢索質(zhì)量和效率低。因此,設(shè)計了基于Web的語義檢索平臺,其由數(shù)據(jù)層、數(shù)據(jù)訪問層、業(yè)務邏輯層、控制層和人機接口層組成。業(yè)務邏輯層依據(jù)數(shù)據(jù)訪問層操作數(shù)據(jù),并將數(shù)據(jù)反饋給控制層;控制層是用戶申請和業(yè)務邏輯操作間的調(diào)控器;人機接口層是用戶同檢索平臺間實現(xiàn)交互的橋梁,用戶通過該層中的操作界面完成信息的檢索。分析Jena在語義檢索平臺中的作用,并在軟件設(shè)計部分,分析通過Jena實現(xiàn)語義檢索平臺數(shù)據(jù)檢索的過程和其中的關(guān)鍵代碼。實驗結(jié)果表明所設(shè)計的語義檢索平臺具有較高的檢索質(zhì)量和效率。
關(guān)鍵詞:Web網(wǎng)絡(luò);語義檢索平臺;信息檢索;軟件設(shè)計
隨著計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,人們進入了網(wǎng)絡(luò)信息時代,使得網(wǎng)絡(luò)中的信息量不斷增加。因此,從海量信息中尋求有效檢索方法檢索有價值信息成為相關(guān)學者分析的熱點[1?2]。在語義Web網(wǎng)絡(luò)環(huán)境下,傳統(tǒng)信息檢索方法僅依據(jù)簡單的字和詞進行匹配,未考慮知識的描述、處理以及理解等性能,檢索質(zhì)量和效率低[3?5]。
當前的語義檢索方法都存在一定的問題,如文獻[6]分析了基于關(guān)鍵詞語法匹配的檢索方法,通過索引手段完成語義檢索,但是大部分用戶不能依據(jù)關(guān)鍵詞準確表達自身的檢索需求,導致檢索質(zhì)量大大降低。文獻[7]設(shè)計了基于潛在語義分析的語義檢索方法,該方法通過分析語義的潛在信息間的關(guān)聯(lián)性,實現(xiàn)有價值信息的檢索,具有較高的檢索質(zhì)量,檢索效率較低,并且需要耗費大量的資源,不利于廣泛推廣使用。文獻[8]提出了基于內(nèi)容的語義檢索方法,該方法采用詞形匹配方法完成信息的查詢,其查全率較低,并且檢索結(jié)果中存在較多的無效信息,導致查準率較低。文獻[9]分析了基于領(lǐng)域本體的開放存取資源語義檢索平臺,該方法可面向不同種類的語義信息進行檢索,但是需要耗費大量的時間,并且檢索結(jié)果質(zhì)量較差。
針對上述研究的問題,設(shè)計了基于Web的語義檢索平臺,給出語義檢索平臺的 Web結(jié)構(gòu)圖,其由數(shù)據(jù)層、數(shù)據(jù)訪問層、業(yè)務邏輯層、控制層和人機接口層組成。分析了Jena在語義檢索平臺中的作用,并在軟件設(shè)計部分,分析通過Jena實現(xiàn)語義檢索平臺數(shù)據(jù)檢索的過程和其中的關(guān)鍵代碼。實驗結(jié)果說明,所設(shè)計的語義檢索平臺具有較高的檢索質(zhì)量和效率。
1.1基于Web的語義檢索平臺結(jié)構(gòu)設(shè)計
采用分層設(shè)計思想,塑造Web網(wǎng)絡(luò)環(huán)境下,基于Web的語義檢索平臺,其結(jié)構(gòu)如圖1所示。該檢索平臺由數(shù)據(jù)層、數(shù)據(jù)訪問層、業(yè)務邏輯層、控制層和人機接口層組成。
圖1 基于Web的語義檢索系平臺
檢索平臺將Jena語義框架當成推理機,完成語義的推理檢索。平臺通過數(shù)據(jù)庫與索引表保存數(shù)據(jù),采用Spring MVC模式塑造不同的結(jié)構(gòu)層次。底層數(shù)據(jù)層由索引文件、問題集表以及詞匯表等構(gòu)成,這些信息塑造在本體的基礎(chǔ)上,通過Jena的數(shù)據(jù)庫保存方式映射到MySQL數(shù)據(jù)庫內(nèi);通過JDBC完成數(shù)據(jù)庫連接和數(shù)據(jù)訪問工作;業(yè)務邏輯層依據(jù)數(shù)據(jù)訪問層操作數(shù)據(jù),并將數(shù)據(jù)反饋給控制層;控制層是用戶申請和業(yè)務邏輯操作間的調(diào)控器,可將用戶申請和業(yè)務邏輯進行并行處理;人機接口層是用戶同檢索平臺間進行交互的橋梁,用戶通過該層中的操作界面完成信息的檢索。
1.2數(shù)據(jù)訪問層設(shè)計與實現(xiàn)
檢索平臺中的數(shù)據(jù)訪問層通過MySQL數(shù)據(jù)保存語義檢索平臺的領(lǐng)域詞匯表和問題集,采用JDBC實現(xiàn)檢索平臺中數(shù)據(jù)庫的連接和訪問。JDBC的數(shù)據(jù)庫訪問配置文件 cin.pageendwn內(nèi)容為:
檢索平臺的數(shù)據(jù)訪問層通過JDBC對數(shù)據(jù)庫進行連接和訪問的具體流程為:通過Class.for Name()創(chuàng)建驅(qū)動類;在Driver Manager類內(nèi)對數(shù)據(jù)庫驅(qū)動進行設(shè)置;采集配置文件信息,得到數(shù)據(jù)庫連接。
1.3業(yè)務邏輯層設(shè)計與實現(xiàn)
語義檢索平臺中的業(yè)務邏輯層對數(shù)據(jù)進行操作,并且將數(shù)據(jù)反饋給控制層。業(yè)務邏輯層中的模塊間交互情況如圖2所示。
圖2 業(yè)務邏輯層各模塊的交互圖
圖2中的形式化處理模塊向問句匹配模塊以及語義推理模塊提供數(shù)據(jù)服務,若問句匹配失敗,則運行語義推理模塊。通過索引查詢模塊分析問句匹配以及語義推理模塊。
因為采用Spring MVC架構(gòu),設(shè)計Web網(wǎng)絡(luò)環(huán)境下的語義檢索平臺,所以該檢索平臺中的業(yè)務邏輯層采用Spring注解手段,用@Service標識不同的Service類,進而將對應的類描述成服務類。采用@Reinform注解說明組件的價值度,將價值度反饋到Spring容器中,設(shè)置該容器的原始信息和價值度,Spring配置文件是appli?cation Context.xml。
1.4控制層設(shè)計與實現(xiàn)
檢索平臺中的控制層對用戶申請和業(yè)務邏輯操作進行調(diào)控,將用戶申請和業(yè)務邏輯進行并行處理。因為設(shè)計的語義檢索平臺采用 Spring MVC架構(gòu),所以將Dispatcher Servlet作為控制層中的關(guān)鍵類。該類可對其他Action進行變換和管理,并且完成用戶同檢索平臺間的交互以及平臺中Action的交互調(diào)控。Action類采用Spring注解手段,用@Scroll描述該類,進而標識該類是控制器,通過@Duing Elret注解完成申請和操作手段間的映射,檢索入口控制器 Search Action代碼片段為:
1.5人機接口層設(shè)計與實現(xiàn)
人機接口層是用戶同檢索平臺間實現(xiàn)交互的橋梁,用戶通過該層中的操作界面完成信息的檢索。采用JSP設(shè)計用戶檢索的操作頁面,具體包括檢索頁面、全文檢索頁面和語義推理結(jié)果描述頁面等。人機接口層采用Ontology技術(shù)完成信息的精準檢索,Ontology是一種共享的概念集合,它是一種通用概念的表達,能夠統(tǒng)一用戶的概念,深刻了解用戶的需求,實現(xiàn)精確的信息檢索。詳細的檢索過程為:用戶輸入關(guān)鍵詞,并將其反饋給界面模塊,將關(guān)鍵詞進行擴展,再從Ontology中檢索該關(guān)鍵詞,完成關(guān)鍵詞的初步模糊分析,獲取該關(guān)鍵詞對應的領(lǐng)域信息。將該領(lǐng)域信息傳遞給用戶,用戶進行再次選擇后,再進行精準的定位檢索。上述描述的人機接口層的工作流程如圖3所示。
圖3 人機接口層工作流程
1.6Jena在語義檢索平臺中的作用
設(shè)計的基于Web的語義檢索平臺將Jena語義框架當成推理機,實現(xiàn)語義的檢索。Jena是一種開放資源,是塑造語義Web檢索平臺的Java結(jié)構(gòu)。其可向依據(jù)RDF,RDFS,OWL文件的語義Web創(chuàng)造合理的開發(fā)環(huán)境,提高基于Web的語義檢索效率。Jena由對RDF文件和模型進行操作的RDF應用程序接口,對RDF,RDFS,OWL文件進行解析的解析器,實現(xiàn)RDF模型的長期性保存,以及基于規(guī)則的推理機子系統(tǒng)等組成。Jena的這些組成部分在Web網(wǎng)絡(luò)環(huán)境下的語義檢索平臺中具體不同作用,如圖4所示。
圖4 Jena各組成部分在語義檢索平臺中的作用
圖4中XML/RDF文檔為檢索平臺中信息資源的原始存儲格式,這些信息采用XML/RDF解析器以及RDF API變換成 RDF Model,并保存到計算機中。RDF Mod?el融合推理機子系統(tǒng)以及Ontology子系統(tǒng),產(chǎn)生具有語義推理能力的Inf Model或者Ont Model,完成語義檢索。Jena采用RDQL分析Model的檢索結(jié)果,并與用戶進行交互。
2.1數(shù)據(jù)的導入以及本文模型的塑造
Web網(wǎng)絡(luò)環(huán)境下,基于Web的語義檢索平臺,依據(jù)本文模型實現(xiàn)數(shù)據(jù)的檢索,通過Protege塑造以及導出數(shù)據(jù)通過OWL文件格式保存。開發(fā)語義檢索平臺時應先導出這些數(shù)據(jù),再塑造相應的模型為程序檢索和操作提供基礎(chǔ)。Jena對上述分析過程提供了具體的實現(xiàn)方案,其偽代碼為:
2.2本體模型的長期化
設(shè)計的語義檢索平臺采用Jena的長期化模型保存本體文件和實例,Jena支持的數(shù)據(jù)庫有Postgre SQL、MySQL以及Oracle。語義檢索平臺中的本文模型長期化過程為:先同數(shù)據(jù)庫驅(qū)動進行連接,塑造HEAssociat?ed實例。Jena能夠在同一數(shù)據(jù)庫中塑造不同的模型,數(shù)據(jù)庫種類是HEAssociated實例中的末位參數(shù)。融合HEAssociated實例同Jena的Model Shape塑造數(shù)據(jù)庫模型,長期化本體模型的詳細代碼如下:
2.3對本體模型進行推理查詢
通過上述過程將語義檢索平臺中的本體模型長期化保存到數(shù)據(jù)庫內(nèi)后,再對本文模型進行推理查詢,完成總體語義平臺的檢索。采用Jena工具包,依據(jù)用戶輸入的檢索要求完成語義推理,獲取準確的檢索結(jié)果,并將檢索結(jié)果反饋到用戶界面。進行檢索推理查詢的部分代碼為:
通過實驗評估本文設(shè)計的基于Web的語義檢索平臺性能,實驗分別采用本文檢索平臺和基于內(nèi)容的檢索方法,對如表1所示的5個不同的檢索語句進行檢索。
表1 檢索矩陣類型
實驗分別采用本文檢索方法和基于內(nèi)容的語義檢索方法,對表1中的檢索語句進行檢索,獲取的結(jié)果分別如表2~表4所示。其中,表2給出了檢索結(jié)果中A/B/C不同價值度等級的命中個數(shù),A,B,C等級的價值度呈現(xiàn)遞減趨勢;表3給出了檢索語句在2種檢索方法下返回的有價值信息數(shù)以及2種檢索方式下返回的結(jié)果中總的有價值信息數(shù);表4給出了檢索方法的查全率和查準率對比。
表2 檢索結(jié)果中等級A/B/C的命中數(shù)量
分析表4能夠看出,基于內(nèi)容的檢索方法的平均查全率和查準率分別為49.04%,48.82%。而本文設(shè)計的檢索方法的平均查全率和查準率分別為93.72%,76.15%,遠遠高于基于內(nèi)容的檢索方法,檢索質(zhì)量較高。將基于內(nèi)容的以語義檢索方法的查全率和查準率看成參照基數(shù)(即都設(shè)為 1),由表4可以得出,兩種方法的檢索效果相對對比圖,如圖5所示。
表3 有價值信息分析
表4 檢索查全率和查準率對比
圖5 兩種方法檢索效果相對對比
從圖5中可以得出,本文方法相比于基于內(nèi)容的檢索方法的平均改進效果。分析可得,相對于基于內(nèi)容的檢索方法,本文檢索方法的查全率和查準確率明顯提升,具有較高的優(yōu)越性。
在Web網(wǎng)絡(luò)環(huán)境下,傳統(tǒng)信息檢索方法僅依據(jù)簡單的字和詞進行匹配,未考慮知識的描述、處理以及理解等性能,檢索質(zhì)量和效率低。因此,本文設(shè)計了基于Web的語義檢索平臺,其由數(shù)據(jù)層、數(shù)據(jù)訪問層、業(yè)務邏輯層、控制層和人機接口層組成。業(yè)務邏輯層依據(jù)數(shù)據(jù)訪問層操作數(shù)據(jù),并將數(shù)據(jù)反饋給控制層。控制層是用戶申請和業(yè)務邏輯操作間的調(diào)控器。人機接口層是用戶同檢索平臺間實現(xiàn)交互的橋梁,用戶通過該層中的操作界面完成信息的檢索。分析了Jena在語義檢索平臺中的作用,并在軟件設(shè)計部分,分析通過Jena實現(xiàn)語義檢索平臺數(shù)據(jù)檢索的過程和其中的關(guān)鍵代碼。實驗結(jié)果表明,所設(shè)計的語義檢索平臺具有較高的檢索質(zhì)量和效率。
參考文獻
[1]陸泉,劉高,陳靜.一個圖像語義可視化交互標注研究平臺:以“情感語義標注”為例[J].情報理論與實踐,2014,37(8):111?116.
[2]許泉立,易俊華,楊昆.基于地理本體的空間信息檢索機制初探[J].測繪地理信息,2015,40(1):65?68.
[3]普措才仁.基于潛在語義分析的藏文Web不良信息檢索算法研究[J].西北民族大學學報(自然科學版),2014,35(4):14?18.
[4]許鑫,谷俊,袁豐平,等.面向?qū)@倔w的語義檢索分析系統(tǒng)的設(shè)計與實現(xiàn)[J].圖書情報工作,2014,58(9):96?104.
[5]張小博,蔣銘.智能媒資檢索系統(tǒng)設(shè)計與實現(xiàn)[J].電視技術(shù),2015,39(13):36?39.
[6]寧琳.一種基于語義擴展的跨語言自動檢索方法的設(shè)計[J].現(xiàn)代情報,2014,34(1):155?158.
[7]張世博,劉博愛,柳朝陽,等.基于潛在語義分析的文檔檢索設(shè)計方法[J].北京石油化工學院學報,2015,23(2):37?42.
[8]楊帆.基于內(nèi)容的體育視頻檢索系統(tǒng)設(shè)計分析[J].電子設(shè)計工程,2015,23(20):38?40.
[9]鮑玉來,畢強.基于領(lǐng)域本體的開放存取資源語義檢索引擎設(shè)計與實現(xiàn)[J].情報理論與實踐,2014,37(5):87?91.
中圖分類號:TN926?34;TP301
文獻標識碼:A
文章編號:1004?373X(2016)16?0014?05
doi:10.16652/j.issn.1004?373x.2016.16.004
作者簡介:王勇(1968—),男,江西南昌人,講師,碩士。研究方向為計算機應用。
收稿日期:2016?01?11
基金項目:江西省教育廳基金項目(35216649)
Design and analysis of semantic retrieval platform in Web network environment
WANG Yong
(School of Information Engineering,Jiangxi University of Technology,Nanchang 330098,China)
Abstract:In the Web network environment,the traditional information retrieval methods are based on simple word and word matching only,without consideration of the knowledge description,processing and understanding.That is why its retrieval quality and efficiency are low.Therefore,the Web?based semantic retrieval platform was designed,which is proposed of data layer,data access layer,business logic layer,control layer and the man?machine interface layer.The data is operated in the business logic layer according to the data access layer,and fed back to the control layer which is a governor between the user application and business logic operation.The man?machine interface layer is the bridge of interaction between user and retrieval platform.The user complete the information retrieval through the operation interface in this layer.The Jena′s role in the semantic retrieval platform is analyzed.In the software design part,the key code and the data retrieval process of semantic retrieval plat?form,realized through Jena,are analyzed.The experiment result shows that the designed semantic retrieval platform has high re?trieval quality and efficiency.
Keywords:Web network;semantic retrieval platform;information retrieval;software design