張舒雅 余琳
摘? 要:文獻(xiàn)檢索系統(tǒng)是圖書館建設(shè)的重要組成部分。本文首先對(duì)武漢6所高校現(xiàn)有的文獻(xiàn)檢索系統(tǒng)進(jìn)行比較,并詳細(xì)描述傳統(tǒng)檢索系統(tǒng)的特點(diǎn)。然后對(duì)現(xiàn)有檢索系統(tǒng)存在的不足,引出兩種智能化檢索方式:語(yǔ)義檢索和圖像檢索,并對(duì)這兩種方式進(jìn)行概述。最后探討了未來(lái)圖書館可行的文獻(xiàn)檢索方式。
關(guān)鍵詞:文獻(xiàn)檢索;語(yǔ)義檢索;圖像識(shí)別
中圖分類號(hào):G252.7? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)07-0022-02
Abstract:Document retrieval system is an important part of library construction. Firstly,this paper compares the existing literature retrieval systems of six universities in Wuhan,and describes the characteristics of the traditional retrieval system in detail. Secondly,the shortcomings of the existing retrieval system are pointed out,and two intelligent retrieval methods are introduced:semantic retrieval and image retrieval,and the two methods are summarized. Finally,it discusses the feasible literature retrieval methods in future libraries.
Keywords:document retrieval;semantic retrieval;image recognition
0? 引? 言
隨著信息技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)成為我們工作和生活中不可或缺的一部分,網(wǎng)絡(luò)化也對(duì)我們圖書管理領(lǐng)域產(chǎn)生了巨大的影響。圖書館在經(jīng)歷了第一代、第二代、第三代的變遷后,文獻(xiàn)檢索方式也由最原始的卡片檢索、關(guān)鍵詞檢索過渡到現(xiàn)在的智能檢索。如何根據(jù)圖書館文獻(xiàn)檢索的特點(diǎn)和使用需要,建立適用的檢索系統(tǒng),是目前我國(guó)圖書館界普遍關(guān)心和探索的問題[1]。
本文對(duì)傳統(tǒng)檢索方式、語(yǔ)義檢索方式、圖像檢索方式進(jìn)行簡(jiǎn)要描述。
1? 圖書館常用傳統(tǒng)檢索模式
從整體情況看,這些系統(tǒng)盡管在檢索操作上各有特點(diǎn),但在檢索功能的設(shè)置和使用的便利性方面進(jìn)行了許多努力,具有以下相同的特點(diǎn)。
1.1? 提供多功能的檢索入口
檢索入口的豐富性,直接關(guān)系到系統(tǒng)的檢索能力和便利性。多種角度的檢索,方便讀者根據(jù)自己的需求,實(shí)現(xiàn)個(gè)性化檢索。從檢索入口可以發(fā)現(xiàn),目前主要的檢索字段是題名、責(zé)任者、關(guān)鍵詞、索書號(hào)。武漢大學(xué)還提供“全面檢索”,將各種可能的字段檢索融合在一起,實(shí)現(xiàn)更加精準(zhǔn)的圖書檢索。
1.2? 提供檢索條件
根據(jù)圖書館實(shí)際情況的不同,還額外提供了個(gè)性化檢索條件。以華中科技大學(xué)圖書館為例,除表1設(shè)定的檢索目錄,還提供檢索范圍,如東校區(qū)圖書館、主校區(qū)圖書館、醫(yī)學(xué)分館;提供語(yǔ)種選擇,如英語(yǔ)、法語(yǔ)、德語(yǔ)、意大利語(yǔ)等;提供圖書入藏時(shí)間的范圍選擇。有了這些多種類的檢索條件,就更加方便讀者在眾多圖書中,根據(jù)自己的需要,檢索到目標(biāo)書籍。
表1? 武漢6所高校檢索入口對(duì)照
1.3? 界面友好功能
目前針對(duì)圖書檢索,各個(gè)圖書館大體都差不多,但是為了提高用戶使用幸福感,各個(gè)圖書館都不同程度地注意使用友好界面,并提供各種檢索幫助。華中科技大學(xué)提供檢索歷史、保存檢索頁(yè)面記錄;武漢大學(xué)圖書館提供中文與西文的分類統(tǒng)計(jì)、通用命令語(yǔ)言、分類瀏覽、檢索歷史、上次檢索;中南財(cái)經(jīng)政法大學(xué)提供導(dǎo)航欄展示圖書分類、文獻(xiàn)類型、館藏地;華中師范大學(xué)提供檢索結(jié)果可按照降序或升序排列。
以武漢6所高校為例,對(duì)目前圖書館的常用檢索方式匯總?cè)绫?。
2? 基于語(yǔ)義檢索模式
針對(duì)傳統(tǒng)圖書檢索系統(tǒng)只是基于關(guān)鍵字的檢索,無(wú)法進(jìn)行語(yǔ)義擴(kuò)展,存在查全率和查準(zhǔn)率不高的問題,出現(xiàn)了基于語(yǔ)義圖書檢索。讀者只需要做一段描述,或者是提一個(gè)問題,在可以不依賴關(guān)鍵詞匹配的情況下,檢索出想要的書籍[2]。
語(yǔ)義檢索需要本體構(gòu)建、實(shí)體生成和結(jié)果展示三大組成部分[3]:(1)本體構(gòu)建。有學(xué)者以著錄規(guī)范MARC為技術(shù)設(shè)計(jì)書目本體,典型的本體有MarcOnto、Dublin Core及BibTeX等[4-6]。這些本體的優(yōu)點(diǎn)是可以從不同角度揭示書目特征;缺點(diǎn)是只關(guān)注書目自身的描述,缺乏對(duì)作者和書目的描述及各類之間的關(guān)系的建立。(2)實(shí)體生成。書目數(shù)據(jù)的實(shí)體來(lái)自圖書館質(zhì)量良好的結(jié)構(gòu)化數(shù)據(jù),實(shí)體生成是根據(jù)書目本體生成與書一一對(duì)應(yīng)的描述信息。(3)結(jié)果展示。對(duì)語(yǔ)義檢索返回的結(jié)果,以友好頁(yè)面進(jìn)行展示。增加圖書檢索的使用幸福感。
目前語(yǔ)義檢索的流程[3]如圖1所示。其詳細(xì)步驟為:(1)讀者通過檢索界面輸入檢索詞m;(2)判斷該檢索詞能夠直接定位到本體,如果能則轉(zhuǎn)到(4);(3)通過已經(jīng)建立的本體文件,對(duì)用戶輸入的檢索詞進(jìn)行規(guī)范,得到檢索詞w;(4)將傳入的詞定位到本體文件中,并進(jìn)行語(yǔ)義上的擴(kuò)展,歸類或者關(guān)聯(lián)擴(kuò)展;(5)得到擴(kuò)展后的檢索詞N1,N2,N3;(6)通過已經(jīng)建立的對(duì)數(shù)據(jù)源文件的索引文件,對(duì)擴(kuò)展后的檢索詞進(jìn)行搜索,得到其路徑;(7)加載搜索到的文件,將搜索到的個(gè)體取出來(lái),并且按照相似度進(jìn)行排序;(8)得到結(jié)果。
3? 基于圖像識(shí)別檢索模式
隨著智能手機(jī)的普及,圖片獲取與閱讀已經(jīng)成為人們消費(fèi)互聯(lián)網(wǎng)信息的重要方式。圖像識(shí)別是通過計(jì)算機(jī)模擬人類對(duì)圖片的分類理解,自動(dòng)地把圖片歸為不同的語(yǔ)義類別[7]。目前圖像識(shí)別在眾多領(lǐng)域都有廣泛的應(yīng)用,比如公安系統(tǒng)的人臉識(shí)別、網(wǎng)上購(gòu)物的物品識(shí)別、公路系統(tǒng)的車牌識(shí)別等。
圖書館應(yīng)該順勢(shì)為讀者提供更加便捷的文獻(xiàn)檢索方式,因此提出圖像檢索。因?yàn)閳D像檢索需要對(duì)數(shù)據(jù)集有一定的要求,因此暫時(shí)還沒在圖書館推廣使用,但這必將是一個(gè)趨勢(shì)。
文獻(xiàn)圖像檢索系統(tǒng),采用B/S三層架構(gòu)模型,有效地對(duì)生命周期進(jìn)行管理[8]。
第一層為數(shù)據(jù)層:數(shù)據(jù)層主要使用MySQL集群存放圖書圖片信息數(shù)據(jù),這些數(shù)據(jù)的獲取主要是館員錄入,網(wǎng)上獲取,讀者上傳。
第二層為業(yè)務(wù)邏輯層:主要包括數(shù)據(jù)交互、內(nèi)容識(shí)圖系統(tǒng)模塊和上層數(shù)據(jù)分發(fā)模塊。
第三層為展示層:將匹配檢索出的結(jié)果,展示成原始的HTML頁(yè)面。
圖像識(shí)別檢索的優(yōu)點(diǎn)是快捷方便,尤其是對(duì)于年齡較大不方便打字的人群?,F(xiàn)在智能手機(jī)的普及和拍照水平的提高,更加方便讀者使用圖像檢索。圖像檢索的缺點(diǎn)是前期圖片集的采集、圖片預(yù)處理與特征提取,需要較大的工作量;現(xiàn)有的圖像識(shí)別算法支持向量機(jī)、卷積神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等,這些算法對(duì)于設(shè)備的計(jì)算能力有一定的要求。
4? 結(jié)? 論
本文主要從三個(gè)方面概述現(xiàn)有的文獻(xiàn)檢索系統(tǒng)。近幾年,各大高校圖書館紛紛推出移動(dòng)端文獻(xiàn)檢索,這種方式更加便捷。但是移動(dòng)終端的檢索只局限于傳統(tǒng)的檢索方式,因此借助智能移動(dòng)終端結(jié)合新技術(shù),有望實(shí)現(xiàn)更加便捷的檢索方式。
文獻(xiàn)檢索是圖書館數(shù)字化發(fā)展的重要體現(xiàn),是圖書館建設(shè)的關(guān)鍵環(huán)節(jié)。雖然在現(xiàn)階段的應(yīng)用還存在一定的局限性,但是圖書館應(yīng)跟隨現(xiàn)代技術(shù)的步伐,不斷探討、不斷嘗試,這樣才會(huì)有新的突破。
參考文獻(xiàn):
[1] 馬張華.我國(guó)大型圖書館機(jī)檢系統(tǒng)檢索特點(diǎn)研究 [J].中國(guó)圖書館學(xué)報(bào),2003(4):55-58.
[2] 本刊訊.谷歌發(fā)布“與書對(duì)話”檢索引擎,實(shí)現(xiàn)句子層級(jí)的圖書檢索 [J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018,2(4):80.
[3] 張萍,羅軍,程正椿,等.基于本體的圖書檢索系統(tǒng)的研究 [J].廣西民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,18(2):53-56.
[4] 白海燕,喬曉東.基于本體和關(guān)聯(lián)數(shù)據(jù)的書目組織語(yǔ)義化研究 [J].現(xiàn)代圖書情報(bào)技術(shù),2010(9):18-27.
[5] 宋琳琳,李海濤.大型文獻(xiàn)數(shù)字化項(xiàng)目圖書書目本體的構(gòu)建研究 [J].圖書館建設(shè),2013(12):19-25.
[6] 郭振英,趙文兵,魏育輝.輕量級(jí)書目本體關(guān)聯(lián)數(shù)據(jù)建設(shè)實(shí)踐 [J].現(xiàn)代圖書情報(bào)技術(shù),2015(Z1):139-143.
[7] 閆河,王鵬,董鶯艷,等.改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)圖片分類識(shí)別方法 [J].計(jì)算機(jī)應(yīng)用與軟件,2018,35(12):193-198.
[8] 謝彥.基于內(nèi)容的圖像識(shí)別搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) [D].武漢:華中科技大學(xué),2016.
作者簡(jiǎn)介:張舒雅(1993.10-),女,漢族,湖北武漢人,助理館員,碩士研究生,研究方向:智慧圖書館,圖書館技術(shù);余琳(1988.01-),女,漢族,湖北武漢人,工程師,工學(xué)碩士,研究方向:高校信息化、數(shù)據(jù)分析。