齊云飛 趙宇翔 朱慶華
摘 要:為滿足數(shù)字圖書(shū)館語(yǔ)義化資源整合與發(fā)現(xiàn)需要,文章提出了基于書(shū)目框架(BIBFRAME)的數(shù)字圖書(shū)館語(yǔ)義搜索框架,并對(duì)資源的語(yǔ)義化描述、組織和搜索過(guò)程以及各模塊的功能進(jìn)行了設(shè)計(jì)和說(shuō)明。最后,通過(guò)搭建實(shí)驗(yàn)系統(tǒng)對(duì)框架功能進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明,系統(tǒng)滿足了預(yù)期的功能需求,提出的數(shù)字圖書(shū)館語(yǔ)義搜索框架具有較好的科學(xué)性和有效性。
關(guān)鍵詞:書(shū)目框架;數(shù)字圖書(shū)館;關(guān)聯(lián)數(shù)據(jù);資源整合;語(yǔ)義搜索
中圖分類號(hào):G250.76 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.11968/tsyqb.1003-6938.2017010
Abstract This paper proposes the semantic search framework in digital library to meet the needs of resource integration and discovery. On the basis, the author introduces the process of semantic description, organization, and search, as well as the function of each module. Furthermore, an experiment system is constructed to verify the function of the framework. The results show that the system meets the functional requirements, and the semantic search framework of digital library is scientific and efficient.
Key words BIBFRAME; digital library; linked data; resource integration; semantic search
隨著分布式存儲(chǔ)、云計(jì)算等信息技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為用戶發(fā)布、獲取信息的主要渠道,以知識(shí)服務(wù)為核心的圖書(shū)館正面臨著用戶流失的風(fēng)險(xiǎn)[1]。數(shù)字圖書(shū)館作為數(shù)字資源的存儲(chǔ)、組織和傳播中心,實(shí)現(xiàn)了圖書(shū)館功能向互聯(lián)網(wǎng)的延伸,代表了圖書(shū)館未來(lái)的發(fā)展方向。然而,在網(wǎng)絡(luò)信息高速發(fā)展的今天,數(shù)字圖書(shū)館仍然無(wú)法真正融入開(kāi)放的互聯(lián)網(wǎng)絡(luò),且面臨著多個(gè)方面的發(fā)展困境,如:核心資源主要來(lái)源于長(zhǎng)期的館藏積累,數(shù)據(jù)量少,更新慢,且不完整;資源組織方面仍然采用圖書(shū)館特有的MARC元數(shù)據(jù),編目信息缺少通用性和可讀性,無(wú)法適用互聯(lián)網(wǎng)多來(lái)源異構(gòu)、多類型、多粒度資源的整合需要;仍然采用基于關(guān)鍵詞的檢索方式,缺少對(duì)檢索語(yǔ)句的語(yǔ)義解讀,無(wú)法發(fā)現(xiàn)深層的用戶需求。
語(yǔ)義搜索是基于語(yǔ)義網(wǎng)技術(shù)提出的全新的資源搜索方法,其能夠從語(yǔ)義層面識(shí)別用戶的檢索請(qǐng)求[2],以機(jī)器可理解的方式對(duì)資源及資源間的關(guān)系進(jìn)行語(yǔ)義描述和組織,并通過(guò)邏輯推理實(shí)現(xiàn)資源的語(yǔ)義檢索[3]。本體是實(shí)現(xiàn)語(yǔ)義搜索的基礎(chǔ),其與關(guān)聯(lián)數(shù)據(jù)的結(jié)合可以有效解決多來(lái)源、多領(lǐng)域、多類型資源的整合問(wèn)題[4]。書(shū)目框架(BIBFRAME)是美國(guó)國(guó)會(huì)圖書(shū)館提出的新一代編目本體。與MARC元數(shù)據(jù)不同,BIBFRAME采用本體的方式對(duì)資源進(jìn)行描述,并通過(guò)關(guān)聯(lián)數(shù)據(jù)進(jìn)行發(fā)布。本文基于BIBFRAME提出了一種數(shù)字圖書(shū)館的語(yǔ)義搜索框架,該框架融合了關(guān)聯(lián)數(shù)據(jù)、自然語(yǔ)言處理、SPARQL搜索等相關(guān)技術(shù),實(shí)現(xiàn)了信息的語(yǔ)義整合、需求的語(yǔ)義識(shí)別和資源的語(yǔ)義搜索。以為解決數(shù)字圖書(shū)館語(yǔ)義整合和搜索提供了經(jīng)驗(yàn)。
1 數(shù)字圖書(shū)館語(yǔ)義搜索分析
1.1 語(yǔ)義搜索概述
語(yǔ)義搜索的出現(xiàn)源于語(yǔ)義網(wǎng)這一概念的提出[2]。根據(jù)蒂姆·伯納斯·李的構(gòu)想,語(yǔ)義網(wǎng)環(huán)境下所有的資源具有唯一的URI,資源之間通過(guò)語(yǔ)義關(guān)系進(jìn)行關(guān)聯(lián),整個(gè)互聯(lián)網(wǎng)被聚合成為一個(gè)巨大的數(shù)據(jù)庫(kù),通過(guò)語(yǔ)義搜索為各個(gè)領(lǐng)域提供知識(shí)發(fā)現(xiàn)和決策支持服務(wù)[5]。語(yǔ)義搜索作為語(yǔ)義網(wǎng)環(huán)境下新一代的知識(shí)獲取方式,涉及信息檢索、人工智能、語(yǔ)義網(wǎng)挖掘等眾多研究領(lǐng)域[6],許多研究者將本體、關(guān)聯(lián)數(shù)據(jù)、自然語(yǔ)言處理等技術(shù)應(yīng)用于語(yǔ)義搜索,取得了豐碩的研究成果[3]。
在資源組織方面,本體是語(yǔ)義搜索的基礎(chǔ)[2],本體中的抽象概念可以對(duì)資源進(jìn)行聚類,屬性可以描述資源間豐富的語(yǔ)義關(guān)系,基于本體構(gòu)建的概念模型是結(jié)構(gòu)化、語(yǔ)義化資源組織的重要工具。目前,許多研究者探索了本體在非結(jié)構(gòu)化信息描述[7] 、元數(shù)據(jù)轉(zhuǎn)換[8]和移動(dòng)語(yǔ)義搜索中的應(yīng)用[9-10]。在語(yǔ)義編碼方面,關(guān)聯(lián)數(shù)據(jù)是本體發(fā)布和映射的主要方式,其采用三元組對(duì)語(yǔ)義關(guān)系進(jìn)行描述,通過(guò)RDF對(duì)概念模型進(jìn)行編碼,并支持以RDF圖的形式進(jìn)行基于推理的關(guān)系發(fā)現(xiàn)和語(yǔ)義檢索[11-16]。在自動(dòng)化處理方面,自然語(yǔ)言處理技術(shù)提供了高效和智能的語(yǔ)義處理,可以解決搜索過(guò)程中的語(yǔ)義標(biāo)注[17-18]、語(yǔ)義識(shí)別[19-21]、語(yǔ)義排序[22]和搜索評(píng)價(jià)[23]等問(wèn)題。
1.2 數(shù)字圖書(shū)館語(yǔ)義搜索
語(yǔ)義搜索具有廣闊的發(fā)展前景,許多研究者從互聯(lián)網(wǎng)、生物、醫(yī)療、旅游等眾多領(lǐng)域探索了其在網(wǎng)絡(luò)內(nèi)容監(jiān)管[24-25]、極地?cái)?shù)據(jù)分析[26]、用戶生成內(nèi)容挖掘[27-28]、學(xué)科知識(shí)服務(wù)[29]等方面的應(yīng)用。在數(shù)字圖書(shū)館領(lǐng)域,我們認(rèn)為語(yǔ)義搜索同樣具有重要的價(jià)值:(1)在海量資源管理方面,基于本體的資源描述可以更好的實(shí)現(xiàn)數(shù)字圖書(shū)館資源的組織與整合;(2)在編目數(shù)據(jù)序列化方面,基于關(guān)聯(lián)數(shù)據(jù)的編目信息具有更好的通用性和可讀性。通過(guò)關(guān)聯(lián)數(shù)據(jù)云技術(shù),數(shù)字圖書(shū)館可以更方便的分享館藏信息,提高互聯(lián)網(wǎng)環(huán)境下的資源可見(jiàn)度;(3)在資源語(yǔ)義檢索方面,基于語(yǔ)義的檢索方式可以更有效的發(fā)掘資源內(nèi)涵、理解用戶需求,提供更全面、更準(zhǔn)確的知識(shí)發(fā)現(xiàn)服務(wù)。
同時(shí),筆者也認(rèn)為數(shù)字圖書(shū)館在實(shí)現(xiàn)語(yǔ)義搜索方面存在著巨大的優(yōu)勢(shì):(1)數(shù)字圖書(shū)館采用結(jié)構(gòu)化的資源描述和組織方式,專業(yè)人員編輯的書(shū)目數(shù)據(jù)提供了豐富的語(yǔ)義信息,這些信息在揭示資源內(nèi)涵方面發(fā)揮著重要的作用;(2)語(yǔ)義網(wǎng)一直是圖書(shū)館領(lǐng)域的研究熱點(diǎn),許多受控詞表、本體模型已經(jīng)通過(guò)關(guān)聯(lián)數(shù)據(jù)進(jìn)行發(fā)布。BIBFRAME是美國(guó)國(guó)會(huì)圖書(shū)館基于關(guān)聯(lián)數(shù)據(jù)發(fā)布的新一代編目本體,其代表了編目格式未來(lái)的發(fā)展趨勢(shì)。通過(guò)上述分析,筆者認(rèn)為BIBFRAME作為圖書(shū)館領(lǐng)域的編目本體,具有強(qiáng)大的語(yǔ)義描述和組織功能,如果將其與語(yǔ)義搜索技術(shù)結(jié)合將可以有效的推動(dòng)數(shù)字圖書(shū)館知識(shí)服務(wù)的創(chuàng)新與變革。
2 BIBFRAME概述
2.1 BIBFRAME的產(chǎn)生與發(fā)展
2011年5 月,美國(guó)國(guó)會(huì)圖書(shū)館開(kāi)始了“書(shū)目框架轉(zhuǎn)換活動(dòng)”計(jì)劃,旨在解決傳統(tǒng)MARC數(shù)據(jù)向關(guān)聯(lián)數(shù)據(jù)的轉(zhuǎn)化問(wèn)題。次 年11月,又發(fā)布了書(shū)目框架的模型草案(BIBFRAME1.0),隨后陸續(xù)修訂、完善了元數(shù)據(jù)、轉(zhuǎn)換工具、測(cè)試數(shù)據(jù)集等相關(guān)內(nèi)容。BIBFRAME提出后受到了業(yè)界極大的關(guān)注,美國(guó)國(guó)會(huì)圖書(shū)館聯(lián)合英國(guó)國(guó)家圖書(shū)館等機(jī)構(gòu)對(duì)BIBFRAME的功能性和交互性進(jìn)行了大量研究和測(cè)試,并于2016年1月提出了最新的修訂版本BIBFRAME2.0。
2.2 BIBFRAME的特點(diǎn)
BIBFRAME作為新一代的圖書(shū)館編目標(biāo)準(zhǔn),其目標(biāo)是打破傳統(tǒng)OPAC系統(tǒng)的封閉性,實(shí)現(xiàn)互聯(lián)網(wǎng)資源與圖書(shū)館資源的整合與共享,使圖書(shū)館真正融入以互聯(lián)網(wǎng)為核心的現(xiàn)代信息社會(huì)[1]。對(duì)此,BIBFRAME采用了全新的資源描述和組織方式。
(1)構(gòu)建層次化的概念模型。BIBFRAME2.0將資源統(tǒng)一抽象為作品、實(shí)例和單件三個(gè)核心類,其他的類和屬性均與這三個(gè)類進(jìn)行關(guān)聯(lián)(見(jiàn)圖1)。作品是對(duì)資源本質(zhì)的概念化描述,與其相關(guān)的是主題、責(zé)任者、事件等內(nèi)容。實(shí)例反映的是作品的一個(gè)具體版本,與其相關(guān)的是作品的出版信息。單件反映的是作品的一個(gè)具體副本,與其相關(guān)的是副本的館藏信息。本文通過(guò)構(gòu)建層次化的概念模型,BIBFRAME對(duì)圖書(shū)館編目數(shù)據(jù)進(jìn)行了層次劃分,實(shí)現(xiàn)了不同主題的資源描述。
(2)明確定義實(shí)體類型和屬性。BIBFRAME明確規(guī)定了作品、實(shí)例支持的實(shí)體類型,并以子類的形式進(jìn)行規(guī)范。如明確規(guī)定作品支持的實(shí)體為文本、地圖、音頻等11種類型。實(shí)例支持的出版物為印刷版、手稿、電子版等5種類型。在實(shí)體關(guān)系方面,BIBFRAME在描述的通用性和專業(yè)性上作出了平衡,制定了合理的屬性用于描述實(shí)體內(nèi)部和實(shí)體間的關(guān)系。
(3)采用語(yǔ)義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)技術(shù)。BIBFRAME接受了語(yǔ)義網(wǎng)的思想,采用實(shí)體-關(guān)系的方式構(gòu)建概念模型,實(shí)現(xiàn)了編目數(shù)據(jù)的層次化組織。在概念模型和內(nèi)容規(guī)則方面,BIBFRAME充分借鑒了已有的RDA、Schema.org等標(biāo)準(zhǔn),堅(jiān)持復(fù)用已有的本體術(shù)語(yǔ),從而保持了數(shù)據(jù)的兼容性;在編碼方式方面,采用RDF/RDFS、OWL等關(guān)聯(lián)數(shù)據(jù)和本體描述語(yǔ)言進(jìn)行編碼和發(fā)布,為基于關(guān)聯(lián)數(shù)據(jù)的資源整合和SPARQL搜索提供了支持。
2.3 BIBFRAME的應(yīng)用
為推動(dòng)BIBFRAME的發(fā)展,美國(guó)國(guó)會(huì)圖書(shū)館開(kāi)發(fā)了BIBFRAME的編輯、比較和轉(zhuǎn)化工具,并聯(lián)合英國(guó)國(guó)家圖書(shū)館等機(jī)構(gòu)發(fā)布了BIBFRAME的數(shù)據(jù)集。此外,美國(guó)國(guó)會(huì)圖書(shū)館還開(kāi)通了針對(duì)BIBFRAME的應(yīng)用注冊(cè)服務(wù),目前已經(jīng)有15家機(jī)構(gòu)參與其中。BIBFRAME的快速發(fā)展同樣引起了國(guó)內(nèi)圖書(shū)館領(lǐng)域?qū)W者的關(guān)注。劉煒[20]、夏翠娟[1]等國(guó)內(nèi)較早開(kāi)展相關(guān)研究的學(xué)者詳細(xì)介紹了BIBFRAME的內(nèi)涵和特點(diǎn),并對(duì)其在語(yǔ)義網(wǎng)和家譜本體方面的應(yīng)用進(jìn)行了深入的研究;安小麗等[33]研究了BIBFRAME對(duì)圖書(shū)館工作帶來(lái)的變革;婁秀明和危紅[34]介紹了從MARC到BIBFRAME編目格式的發(fā)展歷程,并對(duì)BIBFRAME的實(shí)踐進(jìn)行了探索;胡小菁[35]深入分析了BIBFRAME模型變化的原因,并對(duì)其發(fā)展方向進(jìn)行了研究;李勇文[36]對(duì)BIBFRAME的數(shù)據(jù)模型、應(yīng)用規(guī)則等進(jìn)行分析,提出了BIBFRAME的實(shí)踐策略。目前,關(guān)于BIBFRAME的研究主要集中在圖書(shū)館資源描述和組織方面,而將其應(yīng)用于資源語(yǔ)義整合和搜索的研究還很少,尤其是在具體的系統(tǒng)設(shè)計(jì)方面還沒(méi)有實(shí)際的研究案例。
3 基于BIBFRAME的數(shù)字圖書(shū)館語(yǔ)義搜索框架
3.1 功能需求
本研究提出的數(shù)字圖書(shū)館語(yǔ)義搜索主要實(shí)現(xiàn)三個(gè)方面的功能:(1)實(shí)現(xiàn)互聯(lián)網(wǎng)資源的語(yǔ)義化描述與整合?;ヂ?lián)網(wǎng)環(huán)境下,數(shù)字圖書(shū)館需要面對(duì)網(wǎng)絡(luò)用戶、數(shù)字出版商和圖書(shū)館同行等的信息交互與共享需求,為了提供完整、準(zhǔn)確的知識(shí)服務(wù),語(yǔ)義搜索系統(tǒng)要能夠適應(yīng)不同的資源描述方式,實(shí)現(xiàn)異構(gòu)資源組織與整合;(2)實(shí)現(xiàn)用戶需求的語(yǔ)義化解讀。用戶在訪問(wèn)數(shù)字圖書(shū)館時(shí)通常采用自然語(yǔ)言進(jìn)行檢索,語(yǔ)義搜索系統(tǒng)要能夠識(shí)別檢索語(yǔ)句中的實(shí)體對(duì)象和深層語(yǔ)義,理解用戶真正的檢索需求;(3)實(shí)現(xiàn)資源的語(yǔ)義化搜索。語(yǔ)義搜索系統(tǒng)要支持對(duì)語(yǔ)義關(guān)系的描述和基于推理的檢索,提供全面、準(zhǔn)確的知識(shí)發(fā)現(xiàn)服務(wù)。
3.2 系統(tǒng)架構(gòu)
針對(duì)上述需求,本研究提出了基于BIBFRAME的數(shù)字圖書(shū)館語(yǔ)義搜索框架(見(jiàn)圖2),該框架主要包括七個(gè)核心模塊,實(shí)線箭頭顯示了資源的構(gòu)建過(guò)程,虛線箭頭顯示了資源的檢索過(guò)程。資源的構(gòu)建過(guò)程主要通過(guò)模型構(gòu)建、模型映射、模型編碼和語(yǔ)義存儲(chǔ)四個(gè)模塊實(shí)現(xiàn)。首先,模型構(gòu)建模塊負(fù)責(zé)基于BIBFRAME構(gòu)建資源描述的概念模型。模型映射模塊則負(fù)責(zé)對(duì)外部數(shù)據(jù)進(jìn)行整合。由于外部數(shù)據(jù)通常采用不同的描述格式,所以需要采用差異化的映射方式;然后,模型編碼模塊對(duì)上述模塊生成的描述信息進(jìn)行關(guān)聯(lián)數(shù)據(jù)編碼,生成機(jī)器可理解的RDF文件;最后,語(yǔ)義存儲(chǔ)模塊將生成的RDF數(shù)據(jù)存入三元組數(shù)據(jù)庫(kù),并提供添加、刪除、查找等數(shù)據(jù)管理功能。資源的搜索過(guò)程主要通過(guò)檢索語(yǔ)句處理、檢索語(yǔ)句轉(zhuǎn)換和SPARQL搜索三個(gè)模塊實(shí)現(xiàn)。首先,檢索語(yǔ)句處理模塊對(duì)用戶檢索式進(jìn)行語(yǔ)義分析,通過(guò)自然語(yǔ)言處理技術(shù)提取其中的本體術(shù)語(yǔ)和命名實(shí)體;然后,檢索語(yǔ)句轉(zhuǎn)換模塊對(duì)提取到的本體和實(shí)體詞匯進(jìn)行標(biāo)注,并將其轉(zhuǎn)化為SPARQL檢索語(yǔ)句;最后,SPARQL搜索模塊對(duì)數(shù)據(jù)庫(kù)進(jìn)行檢索,并將結(jié)果返回用戶。
3.3 系統(tǒng)模塊
(1)模型構(gòu)建模塊。該模塊主要負(fù)責(zé)基于BIBFRAME構(gòu)建概念模型對(duì)圖書(shū)館本地資源進(jìn)行描述,具體功能包括:本體模型構(gòu)建和實(shí)體構(gòu)建。本體模型構(gòu)建主要根據(jù)BIBFRAME構(gòu)建概念描述模型。因?yàn)锽IBFRAME已經(jīng)進(jìn)行了較為詳細(xì)的類和屬性定義,所以構(gòu)建過(guò)程中主要對(duì)類的約束、關(guān)系(等價(jià)、互斥)和屬性特性(功能、傳遞、對(duì)稱、反身)等進(jìn)行定義。實(shí)體構(gòu)建主要定義實(shí)體所屬的類,以及實(shí)體之間的屬性關(guān)系。
(2)模型映射模塊。模型映射模塊主要負(fù)責(zé)從結(jié)構(gòu)和內(nèi)容兩個(gè)方面對(duì)外部異構(gòu)信息進(jìn)行整合。BIBFRAME提供了作品、實(shí)例、單件構(gòu)成的層次模型,每個(gè)核心類分別對(duì)應(yīng)了不同的描述主題(見(jiàn)表1),能夠?qū)崿F(xiàn)不同粒度的資源描述。
①整合策略。系統(tǒng)需要根據(jù)外部資源類型選擇合適的概念層次對(duì)信息進(jìn)行整合。對(duì)于海量的網(wǎng)絡(luò)用戶生成內(nèi)容(User Generated Content,UGC)由于缺少明確的出版和館藏信息可以在作品層進(jìn)行描述,通過(guò)添加標(biāo)題、作者、主題等信息實(shí)現(xiàn)數(shù)字圖書(shū)館對(duì)網(wǎng)絡(luò)資源的整合。對(duì)于出版機(jī)構(gòu)可以在作品層和實(shí)例層進(jìn)行描述,實(shí)現(xiàn)數(shù)字圖書(shū)館與出版機(jī)構(gòu)資源的交互與共享。對(duì)于圖書(shū)館同行之間的信息整合可以在作品、實(shí)例、單件三層進(jìn)行,實(shí)現(xiàn)完整的書(shū)目信息整合;②整合方法。在結(jié)構(gòu)方面,對(duì)于非結(jié)構(gòu)化的外部信息,系統(tǒng)需要根據(jù)整合策略為其補(bǔ)充相應(yīng)的描述信息。對(duì)于基于不同本體的異構(gòu)信息,系統(tǒng)首先需要設(shè)置本體之間的等價(jià)關(guān)系(等價(jià)類、等價(jià)屬性、等價(jià)實(shí)體),然后通過(guò)推理實(shí)現(xiàn)本體模型和實(shí)體數(shù)據(jù)的整合。在內(nèi)容方面,利用BIBFRAME提供的主題、事件、集合等抽象概念,從內(nèi)容上對(duì)資源信息進(jìn)行整合。
(3)模型編碼模塊。模型編碼模塊主要通過(guò)關(guān)聯(lián)數(shù)據(jù)的方式對(duì)之前構(gòu)建的概念、實(shí)體模型進(jìn)行編碼,生成機(jī)器可識(shí)別的RDF文件。概念、實(shí)體模型的關(guān)聯(lián)數(shù)據(jù)編碼主要包括兩項(xiàng)內(nèi)容:①為所有的類、屬性和實(shí)體定義全網(wǎng)唯一的URI,從而實(shí)現(xiàn)資源的唯一定位。URI由前綴和對(duì)象名兩部分組成;②生成RDF編碼。資源描述框架(Resource Description Framework,RDF)是W3C組織發(fā)布的語(yǔ)義網(wǎng)資源描述標(biāo)準(zhǔn),其采用三元組的方式(主語(yǔ)、謂語(yǔ)、客體)對(duì)資源間的關(guān)系進(jìn)行描述,生成機(jī)器可理解的關(guān)系模型。目前,DC、DCTERMS、BIBFRAME等元數(shù)據(jù)和本體詞匯集都已經(jīng)通過(guò)RDF進(jìn)行發(fā)布。
(4)語(yǔ)義存儲(chǔ)模塊。語(yǔ)義存儲(chǔ)模塊負(fù)責(zé)對(duì)生成的RDF數(shù)據(jù)進(jìn)行存儲(chǔ)和管理。由于RDF特殊的數(shù)據(jù)結(jié)構(gòu),傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)無(wú)法對(duì)其進(jìn)行有效管理,所以需要專門的三元組數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。三元組數(shù)據(jù)庫(kù)主要采用SPARQL語(yǔ)言進(jìn)行管理,能夠提供對(duì)RDF數(shù)據(jù)的插入、刪除、修改和查詢操作。區(qū)別于傳統(tǒng)數(shù)據(jù)庫(kù)的處理方式,三元組存儲(chǔ)器主要通過(guò)圖模式匹配的方式執(zhí)行SPARQL操作。
(5)檢索語(yǔ)句處理模塊。檢索語(yǔ)句處理模塊負(fù)責(zé)檢索句的命名實(shí)體提取和本體標(biāo)注[37]。因?yàn)榫幠啃畔⒅幸呀?jīng)包含了完整的本體和實(shí)體定義,所以系統(tǒng)主要采用基于規(guī)則和用戶詞典方式進(jìn)行分詞。具體方法是將全部的命名實(shí)體和本體詞匯存入用戶詞典,以優(yōu)化用戶檢索語(yǔ)句的分詞。分詞后所有的命名實(shí)體和本體詞匯將被單獨(dú)切分,對(duì)此還需要構(gòu)建實(shí)體索引和本體索引。實(shí)體索引以類為單位進(jìn)行構(gòu)建,索引表的名稱為類的名稱。本體索引主要包括本體名稱和URI兩個(gè)關(guān)鍵字段,分別存儲(chǔ)類和屬性的相應(yīng)信息。通過(guò)對(duì)分詞結(jié)果進(jìn)行實(shí)體和本體檢索,系統(tǒng)就可以識(shí)別檢索語(yǔ)句中的命名實(shí)體和本體詞匯。
(6)檢索語(yǔ)句轉(zhuǎn)化模塊。SPARQL轉(zhuǎn)化主要負(fù)責(zé)將提取的命名實(shí)體和本體標(biāo)注結(jié)果轉(zhuǎn)化為SPARQL語(yǔ)句進(jìn)行語(yǔ)義搜索。SPARQL是W3C針對(duì)RDF提出的查詢標(biāo)準(zhǔn)和數(shù)據(jù)訪問(wèn)協(xié)議,主要由PREFIX、SELECT、FROM和WHERE四部分構(gòu)成。PREFIX用于設(shè)置前綴,SELECT用于設(shè)置檢索的對(duì)象,F(xiàn)ROM用于設(shè)置檢索的位置,WHERE用于設(shè)置檢索的條件。檢索語(yǔ)句的轉(zhuǎn)換涉及較為復(fù)雜的句法分析,目前本研究?jī)H針對(duì)簡(jiǎn)單句提出了若干轉(zhuǎn)換規(guī)則,對(duì)于復(fù)雜句的處理還需要更深入的研究。
(7)SPARQL搜索模塊。SPARQL搜索模塊主要負(fù)責(zé)對(duì)構(gòu)建的SPARQL檢索式進(jìn)行語(yǔ)義檢索。區(qū)別于傳統(tǒng)的檢索方式,SPARQL檢索的對(duì)象是RDF三元組。檢索過(guò)程中,SPARQL搜索引擎首先將數(shù)據(jù)庫(kù)存儲(chǔ)的三元組數(shù)據(jù)轉(zhuǎn)化成RDF圖,然后通過(guò)圖搜索算法進(jìn)行檢索。目前,常用的SPARQL搜索引擎是Apache開(kāi)發(fā)的fuseki。另外,也可以通過(guò)調(diào)用JeanAPIs對(duì)JenaTDB進(jìn)行檢索。為了提高系統(tǒng)檢索質(zhì)量,還可以采用推理機(jī)提高系統(tǒng)的語(yǔ)義發(fā)現(xiàn)能力。目前,JeanAPIs主要支持基于規(guī)則的推理,而RACER、FaCT++、Pellet等則可以在OWL2 RL規(guī)則的約束下進(jìn)行更專業(yè)的推理。
4 語(yǔ)義搜索框架測(cè)試
為了驗(yàn)證上述語(yǔ)義搜索框架的效果,本研究搭建了基于該框架的驗(yàn)證系統(tǒng),并設(shè)計(jì)了多個(gè)實(shí)驗(yàn)對(duì)系統(tǒng)的運(yùn)行效果進(jìn)行檢驗(yàn)。
4.1 驗(yàn)證系統(tǒng)的搭建
(1)本體模型的構(gòu)建及序列化。采用protege5.0對(duì)概念模型進(jìn)行構(gòu)建,并在模型的基礎(chǔ)上進(jìn)行實(shí)體和實(shí)體屬性的定義。概念模型主要基于BIBFRAME進(jìn)行構(gòu)建,除此以外還復(fù)用了DC、EVENT、FOAF等常用的本體詞匯集;根據(jù)實(shí)驗(yàn)需要,選取了網(wǎng)絡(luò)用戶、圖書(shū)館和出版機(jī)構(gòu)等多個(gè)來(lái)源的信息,如書(shū)籍的出版信息、館藏信息和用戶評(píng)論等;構(gòu)建完成后系統(tǒng)生成RDF格式的序列化文件。
(2)檢索語(yǔ)句處理及轉(zhuǎn)換。采用NLPIR2016進(jìn)行檢索語(yǔ)句的分詞,用戶字典采用系統(tǒng)自帶的UserDict文件;命名實(shí)體索引和本體索引采用MySQL5.7.14數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)和檢索;SPARQL轉(zhuǎn)換通過(guò)JAVA代碼實(shí)現(xiàn)。
(3)RDF存儲(chǔ)與檢索。采用JenaTDB+Fuseki+Tomcat的架構(gòu)。JenaTDB主要負(fù)責(zé)RDF數(shù)據(jù)的存儲(chǔ);Fuseki是開(kāi)源的SPARQL搜索引擎,提供RDF查詢服務(wù);Tomcat主要提供WEB服務(wù),在使用前需要先導(dǎo)入Fuseki的WAR文件。
4.2 實(shí)驗(yàn)測(cè)試
為了驗(yàn)證系統(tǒng)效果,本研究設(shè)計(jì)了三個(gè)實(shí)驗(yàn)分別對(duì)系統(tǒng)的語(yǔ)義描述、語(yǔ)義整合和語(yǔ)義檢索功能進(jìn)行測(cè)試。
(1)語(yǔ)義描述功能測(cè)試。為了驗(yàn)證系統(tǒng)的語(yǔ)義描述功能,本研究從豆瓣、中國(guó)圖書(shū)網(wǎng)、中國(guó)國(guó)家圖書(shū)館等網(wǎng)站獲取了與書(shū)籍相關(guān)的書(shū)評(píng)、出版和館藏信息,然后采用基于BIBFRAME的概念模型對(duì)上述資源進(jìn)行了描述。具體描述了采用的類和屬性(見(jiàn)表2),生成了書(shū)評(píng)和書(shū)籍RDF數(shù)據(jù)(見(jiàn)圖3)。
實(shí)驗(yàn)結(jié)果表明,BIBFRAME提供了豐富的類和屬性定義,Work、Instance和Item三個(gè)核心類能夠較好的滿足書(shū)評(píng)信息、出版信息和館藏信息的描述需要。同時(shí),測(cè)試也顯示BIBFRAME具有適度的描述彈性,在描述責(zé)任者、分類標(biāo)記、作品名稱時(shí),允許使用者自己定義需要的類型。如BIBFRAME設(shè)置了Contribution類和role屬性,通過(guò)定義Contribution實(shí)體和該實(shí)體role屬性的值,使用者可以定義需要的貢獻(xiàn)者類型。此外,VarientTitle、Source也都采用了類似的定義方法,能夠?qū)σ延械臉?biāo)題和標(biāo)記類型進(jìn)行擴(kuò)展。
(2)語(yǔ)義整合功能測(cè)試。為驗(yàn)證系統(tǒng)語(yǔ)義整合功能,本研究收集了多個(gè)來(lái)源的圖像、視頻、報(bào)告、期刊等資源的描述信息,每種信息均采用了不同的本體描述結(jié)構(gòu)。為解決異構(gòu)信息整合問(wèn)題,筆者采用owl:equivalentClass 、owl:equivalentProperty和owl:sameAs對(duì)異構(gòu)本體進(jìn)行映射,并通過(guò)FaCT++推理機(jī)和BIBFRAME中的事件類實(shí)現(xiàn)了資源在結(jié)構(gòu)和內(nèi)容上的整合。為了驗(yàn)證整合效果,筆者以“2001年7月13日北京申奧成功”為事件進(jìn)行檢索,結(jié)果顯示了所有與該事件相關(guān)的資源信息(見(jiàn)圖4)。測(cè)試結(jié)果表明基于等價(jià)關(guān)系的本體映射和BIBFRAME的概念、屬性能夠?qū)Ξ悩?gòu)資源進(jìn)行有效的整合。
(3)語(yǔ)義檢索功能測(cè)試。為了驗(yàn)證系統(tǒng)的語(yǔ)義檢索功能,本研究采用了多條檢索語(yǔ)句進(jìn)行實(shí)驗(yàn)(見(jiàn)表3),以測(cè)試系統(tǒng)各個(gè)環(huán)節(jié)的運(yùn)行效果。
系統(tǒng)通過(guò)對(duì)檢索語(yǔ)句分詞實(shí)現(xiàn)了實(shí)體和本體詞匯的單獨(dú)分割(見(jiàn)表3)。系統(tǒng)對(duì)檢索語(yǔ)句的轉(zhuǎn)換結(jié)果(見(jiàn)表4),通過(guò)對(duì)SPARQL搜索結(jié)果進(jìn)行驗(yàn)證(見(jiàn)圖5),確認(rèn)系統(tǒng)獲取了較為準(zhǔn)確的結(jié)果,達(dá)到了預(yù)期的語(yǔ)義檢索效果。
上述實(shí)驗(yàn)結(jié)果表明,本研究基于BIBFRAME提出的數(shù)字圖書(shū)館語(yǔ)義搜索框架具有較好的科學(xué)性和有效性,根據(jù)其構(gòu)建的驗(yàn)證系統(tǒng)能夠較好的實(shí)現(xiàn)數(shù)字圖書(shū)館資源的語(yǔ)義描述、組織和檢索,滿足了預(yù)期的資源整合和發(fā)現(xiàn)需求。同時(shí),測(cè)試也顯示驗(yàn)證系統(tǒng)在深層語(yǔ)義發(fā)現(xiàn)和復(fù)雜語(yǔ)句識(shí)別方面存在不足,這主要由于兩個(gè)方面的原因:①驗(yàn)證系統(tǒng)主要針對(duì)實(shí)體間的顯性關(guān)系構(gòu)建概念模型,對(duì)資源深層語(yǔ)義的發(fā)現(xiàn)存在不足;②系統(tǒng)雖然能夠處理常見(jiàn)的簡(jiǎn)單句查詢,但是由于缺少句法分析導(dǎo)致系統(tǒng)對(duì)復(fù)雜語(yǔ)句的識(shí)別存在不足。
5 結(jié)語(yǔ)
為提高數(shù)字圖書(shū)館對(duì)互聯(lián)網(wǎng)資源的整合與發(fā)現(xiàn)能力,本文提出了基于BIBFRAME的數(shù)字圖書(shū)館語(yǔ)義搜索框架,實(shí)驗(yàn)結(jié)果表明,本研究提出的數(shù)字圖書(shū)館語(yǔ)義搜索框架具有較好的科學(xué)性和有效性,能夠有效解決數(shù)字圖書(shū)館面臨的資源整合和發(fā)現(xiàn)難題。目前,本文提出的框架還存在深層語(yǔ)義發(fā)現(xiàn)和復(fù)雜語(yǔ)句處理兩個(gè)方面的不足。后續(xù)研究中,我們將繼續(xù)對(duì)框架進(jìn)行細(xì)化,并嘗試采用推理、概率統(tǒng)計(jì)的方法提高系統(tǒng)對(duì)潛在語(yǔ)義的發(fā)現(xiàn)能力;在檢索語(yǔ)句處理方面,將嘗試增加句法分析功能,提高系統(tǒng)對(duì)復(fù)雜語(yǔ)句的處理能力。
參考文獻(xiàn):
[1] Pesch O,Miller E.Using BIBFRAME and library linked data to solve real problems:an interview with eric miller of zepheira:edited by oliver pesch[J].The Serials Librarian,2016,71(1):1-8.
[2] 蘇明明,宋文.基于本體的語(yǔ)義搜索引擎解決方案研究新進(jìn)展[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2008(11):24-28.
[3] 郭衛(wèi)寧,司莉.國(guó)外語(yǔ)義搜索引擎調(diào)查與分析[J].圖書(shū)情報(bào)工作,2013,57(23):121-129.
[4] 王碩,周華琳.基于語(yǔ)義搜索引擎的數(shù)字圖書(shū)館服務(wù)優(yōu)化研究[J].圖書(shū)館學(xué)研究,2012(14):41-45.
[5] 文坤梅,盧正鼎,孫小林,等.語(yǔ)義搜索研究綜述[J].計(jì)算機(jī)科學(xué),2008,35(5):1-4.
[6] Wei X,Zeng D D.Exna:an efficient search pattern for semantic search engines[J].Concurrency and Computation:Practice and Experience,28(15):4107-4124.
[7] Hu Y,Janowicz K,Prasad S,et al.Enabling Semantic Search and Knowledge Discovery for ArcGIS Online:A Linked-Data-Driven Approach[M].Agile 2015.Switzerlan:Springer,2015:107-124.
[8] Koutsomitropoulos D A,Solomou G D,Kalou A K.Herding linked data:semantic search and navigation among scholarly datasets[J].International Journal of Semantic Computing,2015,9(4):459-482.
[9] Shin S,Ko J,Eom S,et al.Keyword-based mobile semantic search using mobile ontology[J].Journal of Information Science,2015,41(2):178-196.
[10] Song M,Eom S,Shin S,et al.Enriching Mobile Semantic Search with Web Services[C].Semantic Computing (ICSC),2015 IEEE International Conference on Image Process.Quebec:IEEE,2015:452-455.
[11] Stanchev L.Semantic Search Using a Similarity Graph[C].Semantic Computing (ICSC),2015 IEEE International Conference on Image Process.Quebec:IEEE,2015:93-100.
[12] Stanchev L.Fine-tuning an algorithm for semantic search using a similarity graph[J].International Journal of Semantic Computing,2015,9(3):283-306.
[13] Tablan V,Bontcheva K,Roberts I,et al.Mímir:an open-source semantic search framework for interactive information seeking and discovery[J].Web Semantics:Science,Services and Agents on the World Wide Web,2015(30):52-68.
[14] Cohen T,Widdows D,Rindflesch T.Expansion-by-Analogy:A Vector Symbolic Approach to Semantic Search[C].International Symposium on Quantum Interaction.Filzbach:Springer,2015:54-66.
[15] Fatima A,Luca C,Hobbs M.Free-Text User Queries for Semantic Search[C].2015 IEEE 13th International Conference on Industrial Informatics (INDIN).Cambridge:IEEE,2015:838-843.
[16] El-gayar M M,Mekky N,Atwan A.Efficient proposed framework for semantic search engine using new semantic ranking algorithm[J].International Journal of Advanced Computer Science and Applications,2015,6(8):136-143.
[17] Berlanga R,Nebot V,Pérez M.Tailored semantic annotation for semantic search[J].Web Semantics:Science,Services and Agents on the World Wide Web,2015(30):69-81.
[18] 楊麗姣,肖航.漢語(yǔ)深層語(yǔ)義理解與知識(shí)表示-面向語(yǔ)義搜索的語(yǔ)料庫(kù)語(yǔ)境信息標(biāo)注研究[J].語(yǔ)言文字應(yīng)用,2015 (1):107-116.
[19] Davelaar E J.Semantic search in the remote associates test[J].Topics in Cognitive Science,2015,7(3):494-512.
[20] Hong K J,Kim H J.A Semantic Search Technique with Wikipedia-Based Text Representation Model[C].2016 International Conference on Big Data and Smart Computing (BigComp).Hong Kong:IEEE,2016:177-182.
[21] 陳國(guó)華,湯庸,許玉贏,等.基于詞向量的學(xué)術(shù)語(yǔ)義搜索研究[J].華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,48(3):53-58.
[22] Shabbir U,Kanwal T,Malik R,et al.Comparison between SSTC and LINGO Algorithms in Clustered Based Semantic Search for Browsing Scholarships[C].International Conference on Frontiers of Information Technology.Islamabad:IEEE Computer Society,2015:53-58.
[23] Elibedweihy K M,Wrigley S N,Clough P,et al.An overview of semantic search evaluation initiatives[J].Web Semantics Science Services & Agents on the World Wide Web,2015,30(C):82-105.
[24] Laura L,Me G.Searching the web for illegal content:the anatomy of a semantic search engine[J].Soft Computing,2015(534):1-8.
[25] Ma B,Zhang N,Liu G,et al.Semantic search for public opinions on urban affairs:a probabilistic topic modeling-based approach[J].Information Processing & Management,2015,forthcoming(3):430-445.
[26] Li W,Bhatia V,Cao K.Intelligent polar cyberinfrastructure:enabling semantic search in geospatial metadata catalogue to support polar data discovery[J].Earth Science Informatics,2015,8(1):111-123.
[27] Ma B,Zhang N,Liu G,et al.Semantic search for public opinions on urban affairs:a probabilistic topic modeling-based approach[J].Information Processing & Management,2016,52(3):430-445.
[28] 柯葉青,馬志柔,伍海江,等.一種簡(jiǎn)歷語(yǔ)義搜索系統(tǒng)的實(shí)現(xiàn)方法[J].計(jì)算機(jī)科學(xué),2015,42(12):56-59.
[29] 盛東方,孫建軍.基于語(yǔ)義搜索引擎的學(xué)科知識(shí)服務(wù)研究—以GoPubMed為例[J].圖書(shū)情報(bào)知識(shí),2015 (4):113-120.
[30] 劉煒,夏翠娟.書(shū)目數(shù)據(jù)新格式BIBFRAME及其應(yīng)用[J].大學(xué)圖書(shū)館學(xué)報(bào),2014,32(1):5-13.
[31] 夏翠娟.面向語(yǔ)義網(wǎng)的書(shū)目框架(BIBFRAME):功能需求及實(shí)現(xiàn)[J].大學(xué)圖書(shū)館學(xué)報(bào),2014,32(6):61-69.
[32] 夏翠娟,劉煒,張磊,等.基于書(shū)目框架(BIBFRAME)的家譜本體設(shè)計(jì)[J].圖書(shū)館論壇,2014(11):5-19.
[33] 安曉麗.BIBFRAME圖書(shū)館工作的變革[J].圖書(shū)館建設(shè),2015(10):40-42.