• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      館藏?cái)?shù)字資源整合系統(tǒng)構(gòu)建探究

      2012-04-12 10:05:47陳錦波
      河南圖書館學(xué)刊 2012年1期
      關(guān)鍵詞:資源整合館藏檢索

      陳錦波

      (廣東藥學(xué)院圖書館,廣東 廣州 510006)

      1 前言

      當(dāng)前,國內(nèi)圖書館已基本進(jìn)入數(shù)字化時(shí)代,許多圖書館都加大對數(shù)字資源的建設(shè)和利用,比如創(chuàng)建館藏文獻(xiàn)書目數(shù)據(jù)庫、自建各種特色數(shù)據(jù)庫和購買各類型文獻(xiàn)數(shù)據(jù)庫等。這些數(shù)據(jù)庫由于來源不同,系統(tǒng)之間彼此獨(dú)立、數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、信息組織方式和查詢方式等都各不相同,用戶若要查找、利用館藏?cái)?shù)字資源,必須分別進(jìn)入各個(gè)數(shù)據(jù)庫系統(tǒng),在熟悉每個(gè)數(shù)據(jù)庫的檢索方式下才能獲得所需要的數(shù)字資源,這給用戶利用信息造成一定程度的困難;為了使用戶能快速地利用圖書館數(shù)字資源,有必要對館藏?cái)?shù)字資源進(jìn)行整合,建立圖書館館藏?cái)?shù)字資源整合系統(tǒng)。

      館藏?cái)?shù)字資源整合,是指依據(jù)一定原則與規(guī)定,借助數(shù)字資源無縫鏈接等技術(shù),把不同來源和不同通信協(xié)議的信息系統(tǒng)相互兼容,使不同類型、不同格式的數(shù)字資源實(shí)現(xiàn)無縫鏈接[1]。館藏?cái)?shù)字資源整合系統(tǒng)是一個(gè)跨平臺(tái)、跨數(shù)據(jù)庫、跨內(nèi)容、多層次的數(shù)字資源體系。

      2 館藏?cái)?shù)字資源整合的必要性

      2.1 館藏?cái)?shù)據(jù)庫資源存儲(chǔ)格式不同,給用戶利用館藏資源帶來不便

      當(dāng)前我國對數(shù)字資源的存儲(chǔ)格式?jīng)]有統(tǒng)一規(guī)定,數(shù)字資源的存儲(chǔ)格式由數(shù)字資源研制機(jī)構(gòu)自己決定,比如,圖像文件可選擇JPEG格式、GIF格式或TIFF格式[2];文本文件可選擇PDF格式、TXT格式、SGML格式、HTML格式或XML格式;音頻或視頻文件可選擇AVI格式、MPEG格式、WAV格式或MIDI格式。這些不同的存儲(chǔ)格式,決定了各個(gè)數(shù)據(jù)庫擁有相對獨(dú)立的管理系統(tǒng)、檢索界面和檢索方式;由于各個(gè)數(shù)據(jù)庫的檢索設(shè)計(jì)規(guī)則和檢索字符等互不相同,用戶必須先后進(jìn)入各個(gè)數(shù)據(jù)庫中進(jìn)行信息檢索才能從各個(gè)數(shù)據(jù)庫中獲取所需要的信息,這給用戶利用館藏?cái)?shù)字資源帶來了很大的不便。

      2.2 館藏?cái)?shù)據(jù)庫的內(nèi)容存在著一定程度的交叉重復(fù),降低了用戶對信息的查準(zhǔn)率

      館藏文獻(xiàn)數(shù)據(jù)庫內(nèi)容重復(fù)使用戶必須花費(fèi)大量的時(shí)間和精力對數(shù)據(jù)進(jìn)行篩選,從而降低用戶對信息的查準(zhǔn)率。比如中國期刊數(shù)據(jù)庫、維普中文期刊數(shù)據(jù)庫,它們都是收錄國內(nèi)的期刊論文、會(huì)議論文和學(xué)位論文;一篇普通的論文,既被中國期刊數(shù)據(jù)庫收錄,又被維普中文期刊數(shù)據(jù)庫收錄,從而造成中國期刊數(shù)據(jù)庫和維普中文期刊數(shù)據(jù)庫的收錄內(nèi)容交叉重復(fù)。超生電子圖書數(shù)據(jù)庫和書生電子圖書數(shù)據(jù)庫,它們收錄的對象都是國內(nèi)出版的圖書,這使它們所收錄的圖書數(shù)據(jù),有很多條目的內(nèi)容是相同的;這些相同的信息,不僅增加圖書館的收藏成本和運(yùn)行成本,還增加用戶對館藏資源利用的時(shí)間成本,從而降低用戶對館藏?cái)?shù)字資源的利用效率。

      2.3 檢索途徑與檢索界面不同

      各種數(shù)據(jù)庫對信息資源采用不同的描述方式和組織架構(gòu),使它們的檢索途徑各有特色,從而導(dǎo)致它們的檢索界面迥然不同[3];此外,各種數(shù)據(jù)庫中還存在著大量的附件,它們以DOC、PPT、PDF等文件形式存儲(chǔ)在服務(wù)器上,僅僅在檢索界面上保留了附件的標(biāo)題、年份、作者等信息,用戶難以通過簡單的標(biāo)題、年份、作者等信息來辨認(rèn)該條信息的具體內(nèi)容。

      2.4 網(wǎng)站代理登錄

      網(wǎng)站代理登錄系統(tǒng)是指圖書館在購買商業(yè)數(shù)據(jù)庫的使用權(quán)后,在圖書館的網(wǎng)站建立該商業(yè)數(shù)據(jù)庫的登錄鏈接。由于商業(yè)數(shù)據(jù)庫網(wǎng)站創(chuàng)建的時(shí)間和采用的技術(shù)不同,其檢索方式也存在著差異;用戶若需要利用這些數(shù)據(jù)庫資源,必須不斷游走于各個(gè)數(shù)據(jù)庫網(wǎng)站,從而降低用戶對信息的利用效率。

      為解決館藏?cái)?shù)字資源因數(shù)據(jù)描述方法和組織方式不同、信息存儲(chǔ)格式差異和數(shù)據(jù)庫內(nèi)容交叉重復(fù),方便用戶對館藏?cái)?shù)字資源的利用,有必要在圖書館構(gòu)建數(shù)字資源整合系統(tǒng)。

      3 館藏?cái)?shù)字資源整合系統(tǒng)的構(gòu)建

      3.1 館藏?cái)?shù)字資源的整合方法

      在館藏?cái)?shù)據(jù)庫中,既有數(shù)據(jù)組織方式和通訊協(xié)議不相同,又有數(shù)據(jù)收錄內(nèi)容交叉重復(fù);既有自建數(shù)據(jù)庫,又有購買商業(yè)數(shù)據(jù)庫;因此,針對不同類型的數(shù)據(jù)庫,分別采用協(xié)議標(biāo)準(zhǔn)整合方法、主題圖整合方法和網(wǎng)絡(luò)爬蟲與搜索引擎相結(jié)合的方法。

      3.1.1 協(xié)議標(biāo)準(zhǔn)整合方法

      對數(shù)據(jù)組織方式和通信協(xié)議不相同的數(shù)據(jù)庫,需采用協(xié)議標(biāo)準(zhǔn)整合方法。協(xié)議標(biāo)準(zhǔn)整合方法是通過借助中間件技術(shù)手段,比如OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting)協(xié)議[4],對采用不同數(shù)據(jù)組織方式和不同通信協(xié)議的數(shù)據(jù)庫在同一界面內(nèi)實(shí)現(xiàn)整合檢索,從而實(shí)現(xiàn)數(shù)字資源整合目的。

      3.1.2 主題圖整合方法

      針對數(shù)據(jù)庫收錄內(nèi)容交叉重復(fù)的數(shù)字資源,易采用主題圖整合方法。主題圖整合方法是將數(shù)字資源之間的關(guān)系通過“主題、資源出處和關(guān)聯(lián)關(guān)系”的形式,將一定領(lǐng)域內(nèi)的知識(shí)結(jié)構(gòu)和它們之間的語義關(guān)系具體化。主題圖整合方法是一種操作簡單且具有成效的解決方法。[5]

      3.1.3 網(wǎng)絡(luò)爬蟲與搜索引擎相結(jié)合的方法

      圖書館購買商業(yè)數(shù)據(jù)庫的使用權(quán),用戶若需要利用這些數(shù)據(jù)資源,必須先登錄各個(gè)商業(yè)數(shù)據(jù)庫網(wǎng)頁,這難免給用戶帶來麻煩,而采用網(wǎng)絡(luò)爬蟲與搜索引擎相結(jié)合的方法,則能為用戶減少這些麻煩。網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它與搜索引擎相結(jié)合,從萬維網(wǎng)上下載網(wǎng)頁;網(wǎng)絡(luò)爬蟲與搜索引擎相結(jié)合,使館藏?cái)?shù)字資源整合系統(tǒng)能根據(jù)一定的搜索策略從各商業(yè)數(shù)據(jù)庫中選擇需要抓取的網(wǎng)頁URL(Universal Resource Locator),所有被抓取的網(wǎng)頁,經(jīng)分析、過濾、存貯,供用戶查詢和檢索。

      3.2 館藏?cái)?shù)字資源的整合步驟

      3.2.1 針對數(shù)據(jù)組織方式和通信協(xié)議不同的數(shù)據(jù)庫的整合步驟

      利用OAI-PMH協(xié)議,儲(chǔ)存整合對象的數(shù)據(jù)庫系統(tǒng),其中包含可使用擷取協(xié)定進(jìn)行檢索的詮釋資料;這些詮釋資料經(jīng)過都柏林(Dublin Core)元素集(Element Set)編碼記錄后,以XML的編碼格式傳回。OAI-PMH還支持Perl、Java和C++等程序語言,它能從不同的數(shù)據(jù)組織方式和通信協(xié)議的數(shù)據(jù)庫中獲得詮釋資料,依據(jù)詮釋資料制作索引作為搜尋線索,以達(dá)到搜尋全文信息的目的。此外,還需要建立新的框架體系結(jié)構(gòu),來解決館藏?cái)?shù)字資源整合系統(tǒng)與各數(shù)據(jù)庫系統(tǒng)之間的互操作性問題。比如,采用OAI-PMH建立典型的元數(shù)據(jù)采集框架,實(shí)現(xiàn)元數(shù)據(jù)的互操作,實(shí)現(xiàn)館藏?cái)?shù)字資源整合系統(tǒng)與各數(shù)據(jù)庫系統(tǒng)之間的互操作。利用OAI-PMH協(xié)議標(biāo)準(zhǔn)整合數(shù)據(jù)資源,實(shí)現(xiàn)館藏?cái)?shù)字資源整合系統(tǒng)與各數(shù)據(jù)庫系統(tǒng)之間的互操作是數(shù)字圖書館發(fā)展的新趨勢。

      3.2.2 館藏?cái)?shù)據(jù)庫收錄內(nèi)容交叉重復(fù)的整合步驟

      對館藏?cái)?shù)據(jù)庫收錄內(nèi)容交叉重復(fù)的整合,必須采用主題圖整合方法。主題圖起源于傳統(tǒng)的圖書館查詢輔助工具,比如書后索引、術(shù)語表和敘詞表等,它吸收了傳統(tǒng)索引和圖書館學(xué)科等優(yōu)點(diǎn),它用來描述龐大復(fù)雜的信息結(jié)構(gòu)。主題圖能夠?yàn)轲^藏?cái)?shù)據(jù)庫整合提供一個(gè)語義接口,為用戶提供語義層面的檢索功能,克服基于關(guān)鍵詞匹配查找效率低的缺點(diǎn)。利用主題圖整合方法的步驟是將每一個(gè)主題作為一個(gè)結(jié)點(diǎn),通過主題關(guān)聯(lián)關(guān)系將各個(gè)結(jié)點(diǎn)相互聯(lián)系起來;通過資源出處,在資源域和主題域之間建立映射關(guān)系。資源域既包括結(jié)構(gòu)化數(shù)據(jù),也包括文本文檔、XML文檔等非結(jié)構(gòu)化數(shù)據(jù),可實(shí)現(xiàn)對分布式資源的多重索引;主題域則是在資源域之上建立起來的概念地圖,它為主題圖提供有效的信息組織和導(dǎo)航方法,減輕用戶使用信息資源時(shí)的信息迷航。資源域和主題域相互分離,使相同的主題可以覆蓋不同的資源域,不同的主題也可以覆蓋相同的資源域,這種機(jī)制為用戶提供不同角度的視圖,它迎合用戶使用習(xí)慣,更能滿足用戶對數(shù)字信息的需求。

      3.2.3 商業(yè)數(shù)據(jù)庫的整合步驟

      對商業(yè)數(shù)據(jù)庫的整合,必須采用網(wǎng)絡(luò)爬蟲與搜索引擎相結(jié)合的方法。它的整合步驟是:先創(chuàng)建采集對象,讀取爬蟲程序的配置文件;根據(jù)配置文件創(chuàng)建采集線程;根據(jù)預(yù)先設(shè)定好的語義,讀取所有數(shù)據(jù)庫,判斷該數(shù)據(jù)庫是否需要登錄;如果需要登錄,則系統(tǒng)會(huì)自動(dòng)跳轉(zhuǎn)到登錄處,并利用預(yù)先設(shè)定的字符、字段抽取信息列表中的URL,放入采集隊(duì)列中;重復(fù)以上步驟,直到信息列表中的URL全部被獲取,并編入采集隊(duì)列;循環(huán)以上采集隊(duì)列,訪問數(shù)字資源的詳細(xì)頁面,利用抽取規(guī)則獲取頁面HTML文件,諸如標(biāo)題、作者、摘要等字段內(nèi)容,將獲取的內(nèi)容存入相關(guān)表中,完成本次采集。爬蟲程序既采集頁面上的信息,也采集存儲(chǔ)于商業(yè)數(shù)據(jù)庫的附件文件,從而保證整合系統(tǒng)信息資源的完整性[6]。

      3.3 數(shù)據(jù)清理

      為了保證用戶在資源整合系統(tǒng)中使用標(biāo)準(zhǔn)的檢索詞進(jìn)行檢索,準(zhǔn)確獲取檢索結(jié)果,需要對上述三種形式獲取的數(shù)據(jù)進(jìn)行必要的數(shù)據(jù)清理。具體的方法是在系統(tǒng)中設(shè)定機(jī)構(gòu)、作者、年份和敘詞表,以保證系統(tǒng)中指定字段的標(biāo)準(zhǔn)記錄;設(shè)計(jì)去重的標(biāo)識(shí)字段,讓整合程序首先運(yùn)用去重標(biāo)識(shí)字段對入庫數(shù)據(jù)進(jìn)行掃描,先剔除相同的記錄,再使用相似度比對方法,對數(shù)據(jù)庫的題錄信息進(jìn)行比較,若比較結(jié)果大于相似閥值,則作為相似記錄處理,錄入備用表中;利用已創(chuàng)建機(jī)構(gòu)、作者、年份、敘詞表,結(jié)合字符串比對方式對部分字段中的數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換和數(shù)據(jù)清理,并為館藏?cái)?shù)字資源整合系統(tǒng)建立標(biāo)準(zhǔn)的數(shù)據(jù)格式。

      3.4 標(biāo)引模塊

      標(biāo)引模塊的主要任務(wù)是構(gòu)建一個(gè)分類體系,建立類與類之間的層級(jí)關(guān)系。利用分類標(biāo)引方法,在館藏?cái)?shù)字資源整合系統(tǒng)中建立各種分類標(biāo)引模塊,使用戶能借助分類標(biāo)引模塊接口對館藏?cái)?shù)字資源進(jìn)行導(dǎo)航和檢索。為保證用戶從每個(gè)類目入口都可以檢索到與之相關(guān)的信息,館藏?cái)?shù)字資源整合系統(tǒng)必須采用可疊加的分類標(biāo)引,即可對單條記錄進(jìn)行多次標(biāo)引。

      3.5 檢索模塊

      以題名、作者、出版年、主題詞和關(guān)鍵詞等條目作為索引導(dǎo)向,創(chuàng)建可提供用戶信息檢索的模塊稱檢索模塊。檢索模塊包括跨庫檢索、高級(jí)檢索、布爾邏輯檢索、機(jī)構(gòu)導(dǎo)航和分類導(dǎo)航等。跨庫檢索是用戶可同時(shí)選中多個(gè)異構(gòu)數(shù)據(jù)系統(tǒng),進(jìn)行一鍵式檢索。高級(jí)檢索是用戶無需在檢索界面上輸入邏輯算符、語種和年代限制等符號(hào),只需在系統(tǒng)提供的“Search For”檢索對話框中輸入檢索詞,選擇所需的邏輯算符、語種、年代和文獻(xiàn)類型等以及相應(yīng)的限制字段,即可執(zhí)行檢索。布爾邏輯檢索是高級(jí)檢索的組成部分,它提供檢索生成器,用戶只需在生成器中通過選擇字段和操作符,利用檢索式之間的邏輯關(guān)系建一個(gè)樹形結(jié)構(gòu),系統(tǒng)就會(huì)自動(dòng)生成一個(gè)布爾表達(dá)式;通過這種方式,用戶可構(gòu)建一個(gè)復(fù)雜的檢索式。機(jī)構(gòu)導(dǎo)航和分類導(dǎo)航,是指用戶選擇相關(guān)機(jī)構(gòu)或分類,通過鏈接方式找到需要的資源。檢索模塊所檢索出來的信息,按相關(guān)度正序或時(shí)間倒序排列,用戶只要選擇其中任何一條信息,就會(huì)得到該信息的位置和詳細(xì)內(nèi)容。[7]

      3.6 全文數(shù)據(jù)管理模塊

      館藏?cái)?shù)字資源整合系統(tǒng)中的所有數(shù)據(jù),還是存在于各個(gè)數(shù)據(jù)庫中,這就需要在館藏?cái)?shù)字資源整合系統(tǒng)中建立全文數(shù)據(jù)管理模塊。全文數(shù)據(jù)管理模塊是判斷用戶檢索信息的數(shù)據(jù)庫來源,通過系統(tǒng)設(shè)定的路徑,自動(dòng)轉(zhuǎn)向該信息所在的數(shù)據(jù)庫,直到打開相關(guān)文件信息。全文數(shù)據(jù)管理模塊的工作方式分為兩種。第一種,對于開放鏈接的數(shù)據(jù)庫,可直接通過訪問數(shù)據(jù)庫的URL獲取全文信息;具體操作是用戶將索引庫中保存的原文地址或附件地址打開,根據(jù)系統(tǒng)提示瀏覽或保存所需要獲取的信息。[8]第二種,對于不支持開放鏈接的數(shù)據(jù)庫,則需要登錄相關(guān)數(shù)據(jù)庫才能獲取全文;具體操作是用戶選擇記錄在索引表中的數(shù)據(jù)庫信息,整合系統(tǒng)憑借該信息指定的數(shù)據(jù)源,根據(jù)預(yù)設(shè)的策略,在信息來源數(shù)據(jù)庫中用指定的檢索詞進(jìn)行檢索,并將檢索結(jié)果返回用戶界面。

      4 結(jié)語

      圖書館館藏?cái)?shù)字資源整合系統(tǒng)的構(gòu)建是數(shù)字資源整合理論在數(shù)字圖書館工作上的實(shí)踐運(yùn)用,但不同性質(zhì)和規(guī)模的圖書館還是要結(jié)合自身情況、用戶對數(shù)字資源的需求情況,合理構(gòu)建館藏?cái)?shù)字資源整合系統(tǒng)。館藏?cái)?shù)字資源整合系統(tǒng)能支持用戶利用信息、提煉知識(shí)和解決問題,真正為用戶提供一站式服務(wù),真正為用戶創(chuàng)造一個(gè)良好的數(shù)字資源學(xué)習(xí)和運(yùn)用環(huán)境。

      [1]吳麗娜.高校圖書館數(shù)字資源整合研究[J].圖書館學(xué)刊,2010(4):52-54.

      [2]王軍.保存型元數(shù)據(jù)研究[J].圖書館理論與實(shí)踐,2006(5):30-32.

      [3]劉罡.圖書館數(shù)字資源的整合方式[J].情報(bào)探索,2009(8):61-62.

      [4]郭少友.基于OAI-PMH的信息資源整合[J].大學(xué)圖書館學(xué)報(bào),2005(3):16-18.

      [5]張玉濤,夏立新.基于主題圖的電子政務(wù)信息資源整合模型研究[J].情報(bào)雜志,2009(7):161-165.

      [6]谷俊,嚴(yán)明.企業(yè)數(shù)字資源整合系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].情報(bào)雜志,2010(5):183-187.

      [7]胡朝明,黃志強(qiáng).模塊化整合圖書館數(shù)字資源的方法和策略[J].圖書情報(bào)工作,2010(4):34-38.

      [8]姜愛蓉,黃美君,竇天芳.數(shù)字資源整合與信息門戶建設(shè)——清華大學(xué)圖書館的探索與實(shí)踐[J].現(xiàn)代圖書情報(bào)技術(shù),2006(11):2-6.

      猜你喜歡
      資源整合館藏檢索
      館藏
      少先隊(duì)活動(dòng)與校外資源整合的實(shí)踐與探索
      “五育并舉”下家校社資源整合的價(jià)值意義
      博物館的生存之道:館藏能否變賣?
      海外并購中的人力資源整合之道
      中國外匯(2019年19期)2019-11-26 00:57:32
      2019年第4-6期便捷檢索目錄
      知還印館藏印選——古印篇
      智慧高速資源整合方式實(shí)踐
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      介紹兩件館藏青銅器
      文物春秋(2014年2期)2014-12-24 21:23:05
      周宁县| 瑞金市| 江北区| 钟祥市| 黄山市| 甘泉县| 云阳县| 秭归县| 普洱| 四子王旗| 深水埗区| 龙南县| 西乌珠穆沁旗| 双柏县| 塘沽区| 色达县| 凌海市| 织金县| 汤原县| 涟源市| 新源县| 抚顺市| 合江县| 儋州市| 花莲县| 鄂尔多斯市| 乡城县| 驻马店市| 炉霍县| 革吉县| 湖口县| 板桥市| 运城市| 永和县| 兴和县| 绥芬河市| 林甸县| 扎兰屯市| 孝义市| 绥滨县| 泾阳县|