黃艷艷
(長江水利委員會(huì)網(wǎng)絡(luò)與信息中心,湖北 武漢 430015)
隨著社會(huì)信息化進(jìn)程的不斷加快,信息資源占有量的增加是信息化發(fā)展的必然趨勢和時(shí)代要求。計(jì)算機(jī)網(wǎng)絡(luò)的日益普及,數(shù)字化技術(shù)的日趨成熟,可以最大限度地突破時(shí)空限制,為人們提供方便快捷豐富的信息資源。不同組織和機(jī)構(gòu)擁有海量信息資源得到有效共享是社會(huì)信息化的重要課題。在水利信息化建設(shè)中,水利系統(tǒng)各個(gè)部門和機(jī)構(gòu)也逐步把文獻(xiàn)信息資源共享建設(shè)放在重要位置。2001年4月,在全國水利信息化工作會(huì)議上,“水利數(shù)字圖書館工程”被列為水利部《金水工程“十五”計(jì)劃及到 2010年規(guī)劃綱要》中的任務(wù)之一[1]。長江水利委員會(huì)(以下簡稱長江委)作為水利系統(tǒng)最大的流域管理機(jī)構(gòu),涉及的部門多、專業(yè)廣,急需先進(jìn)的文獻(xiàn)信息資源服務(wù)。2009年,長江委數(shù)字圖書館開始建設(shè),這既是長江委信息資源開發(fā)、利用和共享的需要,也是與全國水利信息資源共享與整合的必然要求。
長江委數(shù)字圖書館建設(shè)計(jì)劃用3a時(shí)間(2009~2011年),依托長江委已有的信息網(wǎng)絡(luò),通過對文獻(xiàn)業(yè)務(wù)需求和功能的系統(tǒng)梳理,采用基于統(tǒng)一的標(biāo)準(zhǔn)、技術(shù)架構(gòu),開發(fā)可以覆蓋全長江委的重要單位的數(shù)字圖書館,配備必要的硬件網(wǎng)絡(luò)環(huán)境,建成具有國內(nèi)先進(jìn)水平的開放式水利文獻(xiàn)信息資源共享平臺(tái)(數(shù)字圖書館應(yīng)用平臺(tái)),整合不同類型的文獻(xiàn)信息資源,向長江委的管理、科研、技術(shù)人員等用戶提供免費(fèi)的文獻(xiàn)信息服務(wù)[2]。
長江委數(shù)字圖書館平臺(tái)主要包含信息資源、應(yīng)用軟件系統(tǒng)2個(gè)相對獨(dú)立的建設(shè)內(nèi)容[3]。
長江委數(shù)字圖書館平臺(tái)的總體框架是由標(biāo)準(zhǔn)規(guī)范層、基礎(chǔ)設(shè)施層、系統(tǒng)軟件層、應(yīng)用軟件平臺(tái)層、數(shù)據(jù)庫資源層、用戶服務(wù)層等6層自下而上組成的,其中標(biāo)準(zhǔn)規(guī)范層主要是定義所有的技術(shù)標(biāo)準(zhǔn)、資源加工規(guī)則、文獻(xiàn)信息著錄規(guī)則等方面標(biāo)準(zhǔn)規(guī)范,是數(shù)字圖書館統(tǒng)一規(guī)劃與建設(shè)的前提;基礎(chǔ)設(shè)施層是系統(tǒng)運(yùn)行的硬件環(huán)境;應(yīng)用軟件平臺(tái)層是水利文獻(xiàn)信息資源共享平臺(tái)工作平臺(tái)。總體結(jié)構(gòu)如圖1所示。
應(yīng)用系統(tǒng)平臺(tái)建設(shè)是長江委數(shù)字圖書館建設(shè)的基礎(chǔ),數(shù)字圖書館應(yīng)用系統(tǒng)建設(shè)需要實(shí)現(xiàn)對內(nèi)外部各種異構(gòu)信息資源的高度集成整合,實(shí)現(xiàn)對于信息資源內(nèi)容的采、編、發(fā)加工處理,實(shí)現(xiàn)信息資源的快速統(tǒng)一搜索,實(shí)現(xiàn)信息資源的個(gè)性化信息服務(wù)等。
圖1 基礎(chǔ)信息管理系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)圖
數(shù)據(jù)資源整合是通過各種手段和工具將已有的信息資源集成起來,并按照一定的邏輯關(guān)系進(jìn)行組織,實(shí)現(xiàn)信息資源的有效共享,為用戶提供規(guī)范化的信息服務(wù),為后續(xù)信息的管理與使用提供規(guī)范。長江委數(shù)字圖書館采用了元數(shù)據(jù)整合方式,系統(tǒng)通過將各種類型的數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、加載的方式合并入1個(gè)大的數(shù)據(jù)倉庫中,數(shù)據(jù)資源整合示意圖如圖2所示。
圖2 數(shù)據(jù)資源整合示意圖
信息資源采、編、發(fā)主要完成對系統(tǒng)信息資源的維護(hù)與管理,包括信息采集、加工處理、分析和發(fā)布等后臺(tái)維護(hù)管理功能。
2.2.1 信息采集
信息采集子系統(tǒng)通過信息采集轉(zhuǎn)換工具完成各種格式數(shù)據(jù)文件或光盤數(shù)據(jù)的數(shù)據(jù)轉(zhuǎn)換、批量加載和維護(hù)、處理功能。信息采集的主要信息源包括互聯(lián)網(wǎng)信息源、文檔信息源、自身數(shù)字化加工的各種資源和關(guān)系數(shù)據(jù)庫信息源等。
互聯(lián)網(wǎng)信息采集實(shí)現(xiàn)對于各種外部互聯(lián)網(wǎng)網(wǎng)站信息的監(jiān)測和采集,用戶完全能夠根據(jù)自己對網(wǎng)頁信息源的需求,實(shí)現(xiàn)網(wǎng)頁信息的抽取與加載入庫。
文檔信息源采集實(shí)現(xiàn)各種格式文檔的按目錄分類標(biāo)引,自動(dòng)掃描,特征標(biāo)引,全文抽取,原始鏈接生成,自動(dòng)入庫等功能。
資源數(shù)字化加工主要完成各種紙質(zhì)檔案、電子圖書和期刊、產(chǎn)品技術(shù)資料等紙介質(zhì)的快速掃描和識(shí)別,并能夠抽取相應(yīng)的文本數(shù)據(jù)用于全文檢索,同時(shí)能夠?qū)呙鑸D片組織成可原樣顯示的電子文檔或圖書全文。
關(guān)系數(shù)據(jù)庫信息源采集主要解決已有數(shù)據(jù)庫信息的整合和數(shù)據(jù)加載,支持 Oracle,Sybase,DB2,SQL Server 等各種主流異構(gòu)關(guān)系數(shù)據(jù)庫的數(shù)據(jù)導(dǎo)入和整合[2]。
2.2.2 信息加工處理
信息加工處理子系統(tǒng)主要包括內(nèi)容采、編、發(fā)和信息統(tǒng)計(jì)分析。內(nèi)容采編發(fā)用來支持流程可定制的信息編輯、分類標(biāo)引,信息審核和簽發(fā);信息統(tǒng)計(jì)分析提供信息采集、加工處理的日志瀏覽,信息采集、加工處理的日常統(tǒng)計(jì)分析,信息生產(chǎn)的考核管理功能。
2.2.3 信息發(fā)布
信息發(fā)布子系統(tǒng)主要完成發(fā)布信息門戶的定制管理,以及根據(jù)定制配置實(shí)現(xiàn)信息門戶站點(diǎn)的生成。
數(shù)字圖書館平臺(tái)的信息資源非常豐富,基本能涵蓋各類用戶的需求,然而這些資源情況比較復(fù)雜,如何讓用戶從海量的數(shù)據(jù)資源中突破各種客觀因素造成的障礙而獲得目標(biāo)信息是平臺(tái)功能建設(shè)的關(guān)鍵。這就需要我們?yōu)橛脩籼峁┒喾N模式的服務(wù)。長江委數(shù)字圖書館向用戶提供統(tǒng)一檢索、原文傳遞、定題服務(wù)、參考咨詢等多元化的服務(wù)。
2.3.1 統(tǒng)一檢索
用戶通過統(tǒng)一的資源搜索入口,可以快速搜索所有整合資源,如各種本地?cái)?shù)據(jù)庫、采購鏡像系統(tǒng)數(shù)據(jù)庫、各種網(wǎng)絡(luò)電子資源,可以對資源進(jìn)行全文、字段、高級(jí)組合、二次、跨庫等檢索,也可以進(jìn)行資源瀏覽,查看資源詳細(xì)信息,獲取和下載資源原文,統(tǒng)一檢索示意圖如圖3所示。
圖3 統(tǒng)一檢索示意圖
為了提升統(tǒng)一檢索能力,統(tǒng)一檢索平臺(tái)提供多種檢索方式,如支持模糊檢索,文中的任意字、詞、短語、句和片段檢索。用戶通過統(tǒng)一的檢索方式、輸出格式,對于網(wǎng)格中的任意資源進(jìn)行檢索、調(diào)用、全文獲取和訪問。
2.3.2 原文傳遞
原文傳遞主要滿足以下2方面的需求:1)平臺(tái)用戶查詢到的平臺(tái)資源提供原文下載,只能通過原文傳遞的方式返回給用戶;2)平臺(tái)數(shù)據(jù)資源少,用戶委托平臺(tái)管理人員代為檢索,并將檢索結(jié)果通過原文傳遞的方式返回給用戶。
用戶在提交原文傳遞申請時(shí),填寫聯(lián)系方式及需要的文檔的介質(zhì)類型。平臺(tái)將檢索到的結(jié)果通過傳真、信函、電子郵箱等多種途徑將紙質(zhì)或電子文檔傳遞給用戶。
2.3.3 定題服務(wù)
后臺(tái)管理人員利用專題管理模塊定制各種各樣的專題,結(jié)合訂閱推送將相關(guān)專題內(nèi)容推送到用戶注冊郵箱里,供用戶離線瀏覽。
2.3.4 委托檢索
圖書館工作人員根據(jù)委托人提供的檢索命題及準(zhǔn)確的檢索詞,在平臺(tái)豐富的電子資源、網(wǎng)絡(luò)檢索系統(tǒng)和其他聯(lián)機(jī)資源范圍內(nèi),代為檢索題錄、文摘或全文資料,將檢索結(jié)果以索引、摘要或全文等形式通過拷盤復(fù)制、E-mail 發(fā)送或打印輸出等手段提供給委托人。
2.3.5 參考咨詢
在參考咨詢單中,讀者填入問題標(biāo)題和描述,提交咨詢問題表單,由對應(yīng)咨詢?nèi)藛T進(jìn)行咨詢問題回復(fù),并將回復(fù)結(jié)果在用戶個(gè)性化的參考咨詢中予以展現(xiàn)。
文獻(xiàn)信息資源建設(shè)是長江委數(shù)字圖書館建設(shè)的重點(diǎn),通過采用“自建+引進(jìn)”的建設(shè)方式,逐步建立長江水利數(shù)字文獻(xiàn)資源體系,長江委數(shù)字圖書館規(guī)劃建立以下3大類信息資源庫:
1)水利特色專題文獻(xiàn)數(shù)據(jù)庫。圍繞水利創(chuàng)新和技術(shù)進(jìn)步的戰(zhàn)略需求,廣泛收集水利特色文獻(xiàn)資源,按照專業(yè)內(nèi)容,建設(shè)多個(gè)專題數(shù)據(jù)庫,包括防洪減災(zāi)、生態(tài)環(huán)境保護(hù)、水資源開發(fā)與保護(hù)、水土保持、流域管理、湖泊治理和庫區(qū)移民等專題文獻(xiàn)數(shù)據(jù)庫等。
2)常用科技文獻(xiàn)專題數(shù)據(jù)庫。針對廣大職工工作和學(xué)習(xí)的需要,建立或引進(jìn)論文、標(biāo)準(zhǔn)規(guī)范、法律法規(guī)和電子圖書等全文數(shù)據(jù)庫資源。長江委數(shù)字圖書館擬建的數(shù)據(jù)庫包括長江委館藏中文圖書和期刊、法律法規(guī)、標(biāo)準(zhǔn)規(guī)范、科技文獻(xiàn)信息、會(huì)議論文、外文文獻(xiàn)、數(shù)字圖書和中文期刊全文等數(shù)據(jù)庫。
3)網(wǎng)絡(luò)資源數(shù)據(jù)庫。根據(jù)工作和生活的需要,圖書館專業(yè)工作人員從互聯(lián)網(wǎng)抓取有價(jià)值的信息,建立網(wǎng)絡(luò)信息資源數(shù)據(jù)庫,主要包括熱點(diǎn)追蹤、生活百科數(shù)據(jù)庫,以及視頻、音頻、圖片和電子書等多媒體數(shù)據(jù)庫[2]。
長江委數(shù)字圖書館作為長江水利文獻(xiàn)信息資源共享的應(yīng)用平臺(tái),為實(shí)現(xiàn)水利文獻(xiàn)信息資源共享提供基礎(chǔ),為水利信息化和管理決策提供重要數(shù)據(jù)支撐。在社會(huì)信息化快速發(fā)展的今天,長江委數(shù)字圖書館也需要明確自己的發(fā)展方向。在應(yīng)用平臺(tái)建設(shè)上,數(shù)字圖書館一方面要以滿足用戶信息需求為導(dǎo)向,以用戶方便快捷獲取文獻(xiàn)資源為目標(biāo),不斷修改完善已有的系統(tǒng)平臺(tái);另一方面要根據(jù) “數(shù)字長江”規(guī)劃任務(wù),逐步向“長江委數(shù)據(jù)中心”提供基礎(chǔ)數(shù)據(jù)作為發(fā)展方向。在文獻(xiàn)信息資源建設(shè)方面,應(yīng)該在長江委系統(tǒng)內(nèi)部進(jìn)行水利文獻(xiàn)信息資源共建共享模式的探索,讓更多的單位參與到信息資源共享共建中來,避免資源重復(fù)建設(shè),使有限的財(cái)力和人力資源得到合理配置,保證水利文獻(xiàn)信息資源建設(shè)的順利延續(xù)。
長江委數(shù)字圖書館的共建成員可以包括水利部、各流域管理機(jī)構(gòu)及長江委委屬二級(jí)單位,使得長江委所有的寶貴信息資源得到充分利用,也使整個(gè)水利系統(tǒng)的資源為長江委所用,真正實(shí)現(xiàn)水利信息資源的有效共享。
[1] 李晶,姜斌,劉倩,等.水利數(shù)字圖書館[M].北京:知識(shí)產(chǎn)權(quán)出版社,2006: 155.
[2] 黃艷艷.長江委水利電子文獻(xiàn)信息資源系統(tǒng)建設(shè)實(shí)施方案[R].武漢:長江水利委員會(huì)網(wǎng)信中心(長江檔案館),2009: 5.
[3] 吳昌春,莊宇,張紅建.淺談水利信息資源共享體系的構(gòu)建模式[J].水利發(fā)展研究,2006(9): 43.