張競元
(宿遷市圖書館,江蘇 宿遷 223800)
隨著計算機技術和互聯(lián)網(wǎng)技術的不斷發(fā)展,圖書館信息資源管理已經(jīng)由傳統(tǒng)的手工操作模式轉變?yōu)槁?lián)機事務處理模式,這不僅給圖書管理人員提供了極大的便利,也產(chǎn)生了海量的且需要管理的數(shù)據(jù),不然很難甚至無法從零散分布的數(shù)據(jù)中獲得有價值的信息[1]。在此背景下,數(shù)據(jù)挖掘技術應運而生,在圖書館信息資源管理系統(tǒng)中發(fā)揮著十分積極的作用,可對原始數(shù)據(jù)進行歸納和整理,使之成為有參考價值的信息,從而為圖書館管理人員的相關決策提供現(xiàn)實依據(jù)。而數(shù)據(jù)挖掘得以開展的前提是建立一個完善的數(shù)據(jù)倉庫。有鑒于此,筆者對基于數(shù)據(jù)倉庫的圖書館信息資源管理系統(tǒng)設計進行研究,旨在更好地服務于圖書館。
1993年,有著“數(shù)據(jù)倉庫之父”之稱的W.H.Inmon在其創(chuàng)作的《Building the Data Warehouse》一書中針對“數(shù)據(jù)倉庫”這一概念進行了如下描述[2]:“一個直接面向主題的,隨時間推移而不斷完善的,具有集成以及非易失性特點的數(shù)據(jù)集合,能夠為管理層相關決策的制訂與實施提供現(xiàn)實依據(jù)?!?/p>
圖書館數(shù)據(jù)倉庫的特點有:①數(shù)據(jù)倉庫屬于一種信息技術方法,以數(shù)據(jù)資源為目標對象,對其進行集成和整理。數(shù)據(jù)倉庫和常規(guī)意義上的數(shù)據(jù)庫有所區(qū)別,其是遵循相關標準,圍繞某具體主題,對既有的呈分散或彼此獨立的操作型數(shù)據(jù)予以高度集成;②對于數(shù)據(jù)倉庫,其存儲的數(shù)據(jù)通常具有理想的穩(wěn)定性;③數(shù)據(jù)倉庫中數(shù)據(jù)的基礎作用是為管理決策提供參考依據(jù)[3]。
數(shù)據(jù)倉庫的上述特點,為數(shù)據(jù)倉庫技術的進一步發(fā)展和應用提供了理想空間。現(xiàn)階段,越來越多的行業(yè)開始關注數(shù)據(jù)倉庫技術,并采用該技術以實現(xiàn)對信息資源的高效管理,同時為相關決策提供參考依據(jù),創(chuàng)造了巨大的經(jīng)濟效益?;跀?shù)據(jù)倉庫的圖書館信息資源管理系統(tǒng)的設計便是該技術實踐應用的一個代表。
構建基于數(shù)據(jù)倉庫的圖書館信息資源管理系統(tǒng)具有以下重要意義:①圖書采購是圖書館信息資源管理的核心工作,而該系統(tǒng)的建立,能夠為該項工作的高效開展提供決策支持,也是圖書館邁入現(xiàn)代化管理階段的標志之一;②能夠明顯提高圖書館的服務水平,如對相關信息進行收集,從而總結出圖書的一般借閱規(guī)律,為管理人員的管理工作提供便利;③極大地推動了圖書館的數(shù)字化建設,與此同時,也在某種程度上為圖書館管理模式以及管理理念的創(chuàng)新提供了良好的外部環(huán)境。
需求分析是系統(tǒng)數(shù)據(jù)倉庫設計的基礎。該環(huán)節(jié)需要設定一個合理的、現(xiàn)實的目標,不僅要明確全部需求,同時還需要確定主題以及數(shù)據(jù)源。
對于數(shù)據(jù)倉庫,主題設計是重中之重,基于圖書館信息資源管理系統(tǒng)的客觀需求,可總結出三大主題:一是讀者,二是圖書,三是圖書借閱[4]。在上述主題中,又以圖書借閱這一主題為核心。以圖書借閱數(shù)據(jù)為目標對象,進行相關分析,便能獲得與主題相關的一系列分析結果,進而為決策的制定提供參考。讀者和圖書這兩大主題占次要地位,發(fā)揮輔助決策作用,與此同時,還反映了圖書館目前發(fā)展過程中應當注意的一些問題。
在整個數(shù)據(jù)庫設計工作中,首先應確立一個中心思想,并圍繞該中心思想選出與之配套的一系列數(shù)據(jù)信息。該部分設計工作結束之后,以篩選出來的數(shù)據(jù)為目標對象,對其進行深入分析以及整體匯總,并得到一個具有多元特點的數(shù)據(jù)信息表以為接下來的設計工作提供支持。其次應設立相應分析以及查詢工具,從而為數(shù)據(jù)倉庫的及時有效更新提供技術支持[5]。
所謂邏輯設計指的是對數(shù)據(jù)倉庫邏輯結構所對應的表現(xiàn)形式進行確定。結合圖書館業(yè)務需求分析,準確確定數(shù)據(jù)倉庫的主題,一方面要確定事實表的粒度以及必要的維,另一方面還應確定維的具體屬性。設計作業(yè)時建議采用星型多維模型,這一模型具有諸多優(yōu)點,如采用的數(shù)據(jù)結構,不僅直觀,而且簡單,能夠在一定程度上提高查詢的效率和質量。在數(shù)據(jù)倉庫中,主題和星型模型結構呈一一對應關系,主要由事實表與一系列維表組成,并根據(jù)粒度差異以完成數(shù)據(jù)的存儲工作,其結構如圖1所示。
圖1 星型模型數(shù)據(jù)結構
物理結構設計主要包括兩大內(nèi)容,一個是數(shù)據(jù)倉庫物理模型的構建,另一個是硬件平臺的配置。在物理結構設計工作中,應重視并做好存儲策略的制定以及索引技術的選用,從而最大限度地提升數(shù)據(jù)倉庫的工作性能。在數(shù)據(jù)倉庫的技術條件下,主要借助位圖索引以及聯(lián)合索引以提升和保證查詢速度,與此同時,還可根據(jù)實際需要設計相關的匯總表以及視圖等。
在數(shù)據(jù)倉庫設計工作中,ETL設計主要包括數(shù)據(jù)抽?。‥xtract)、數(shù)據(jù)轉換(Transformation)以及數(shù)據(jù)加載(Loading)[6]。ETL設計是至關重要的,甚至決定了系統(tǒng)整體設計的成功與否,且具有一定的難度。數(shù)據(jù)抽取方法多種多樣,比較常用的有:①基于存儲過程的數(shù)據(jù)抽??;②基于編程工具以及調(diào)用接口的數(shù)據(jù)抽??;③基于ODBC的數(shù)據(jù)抽取;④基于腳本的數(shù)據(jù)抽?。虎莼谏虡I(yè)工具的數(shù)據(jù)抽取等。不論采用上述哪一種方法,均需要保證如下基本功能:第一,保證數(shù)據(jù)格式的一致性;第二,保證抽取數(shù)據(jù)的高質量;第三,保證數(shù)據(jù)源數(shù)據(jù)具有良好的異構獲取能力;第四,保證數(shù)據(jù)處理(抽取、轉換以及加載)的自動化等。
一般設計步驟及內(nèi)容如下:先是在SQL Server數(shù)據(jù)服務器上創(chuàng)建一個所謂的數(shù)據(jù)準備區(qū),并將其當作數(shù)據(jù)倉庫的中間存儲區(qū),接下來將維表以及事實表所對應的一系列數(shù)據(jù)源將會應用到的表均借助該設計工具導入SQL Server的“數(shù)據(jù)準備區(qū)”的數(shù)據(jù)庫中,并對其進行初步清理,將可能存在的NULL值及時且徹底地清除掉。然后,再借助ETL工具提供的數(shù)據(jù)轉換模塊,對上述表予以相應轉換,從而獲得與之對應的事實表以及維度表。
圖書館信息資源管理系統(tǒng)在功能上應滿足3大方面的需求:一是應滿足來自圖書借閱者的需求,主要包括圖書館存書查詢、個人借閱情況以及個人信息修改等;二是應滿足來自圖書館工作人員的需求,主要包括對圖書館借閱者的借閱和還書要求進行相關操作,與此同時,制作關于借書以及還書的報表以供借閱者隨時查看與確認;三是應滿足來自圖書館管理人員的需求。該功能需求最為復雜,不僅包括對上述兩大群體的管理以及維護,還包括對系統(tǒng)狀態(tài)的實時查看以及維護,同時還涉及圖書催還報表的制作等[7]。
基于面向對象的分析方法對圖書館信息資源管理系統(tǒng)的一系列功能需求進行深入分析和具體劃分,最終將其劃分為兩大部分,一個是管理員對功能的需求,另一個是讀者對功能的需求。
管理員對功能的需求:①讀者基本信息的輸入、查詢以及修改;②書籍信息的輸入、查詢以及修改;③借書信息的輸入;④還書信息的輸入;⑤購書決策功能[9]。
讀者對功能的需求:①圖書信息檢索;②個人信息檢索。其系統(tǒng)功能結構詳見圖2。
圖2 圖書館信息資源管理系統(tǒng)功能架構
由圖2可知,系統(tǒng)的功能架構主要包括6大部分,分別是:①圖書管理,主要包括新書入庫以及圖書出庫;②圖書館流通管理,主要包括借書操作以及還書操作;③讀者管理,主要包括添加/刪除讀者以及修改密碼;④查詢,主要包括查詢目標圖書以及查詢借閱情況;⑤系統(tǒng)管理,主要包括添加管理員以及刪除管理員;⑥采購,圖書采購以及藏書剔除。
以基于數(shù)據(jù)挖掘的圖書館用戶資源管理為例。用戶資源管理是圖書館應用數(shù)據(jù)挖掘技術的主要領域之一,相關應用主要體現(xiàn)在兩個方面[8]:一是圖書館借助數(shù)據(jù)挖掘技術以強化既有的用戶資源管理能力,從而完成對當前用戶資源管理模式的分析及調(diào)整;二是圖書館以數(shù)據(jù)挖掘得到的相關需求為牽引,更加高效地完成用戶資源管理的一系列工作,從最基本的用戶數(shù)據(jù)獲取發(fā)展到數(shù)據(jù)發(fā)掘內(nèi)容的獲取,從而為工作目標及標準的制定提供有益參考。具體設計過程如下:①用戶數(shù)據(jù)搜集以及存儲,主要包括搜集用戶數(shù)據(jù)和構建用戶了數(shù)據(jù)倉庫;②用戶多維特征分析和群體分類;③面向用戶生命周期的數(shù)據(jù)挖掘,主要包括用戶的獲取、用戶的保持和流失。
借助數(shù)據(jù)分析與展現(xiàn)工具能夠針對圖書館信息資源管理系統(tǒng)中的數(shù)據(jù)展開多維分析與匯總,并生成相應的圖表或報表,如此一來,能夠清晰且直觀地表現(xiàn)分析結果。在圖書館信息流通的常規(guī)情況下,基于數(shù)據(jù)倉庫的圖書館信息資源管理系統(tǒng)應具備以下分析以及決策能力。
①對圖書館借閱情況進行分析。對圖書的平均借閱次數(shù)進行分析,從而進行熱門圖書以及冷門圖書的劃分;對讀者常借圖書的出版社、類別以及語種具體分布情況進行統(tǒng)計;確定最受讀者喜歡的圖書以及出版社,從而制定合理的圖書采購方案[9]。
②對圖書館讀者情況進行分析。在分析的基礎上,掌握不同級別、不同類型、不同學科專業(yè)的讀者的具體分布情況以及圖書的具體使用情況。如對不同專業(yè)讀者借閱圖書的種類予以統(tǒng)計和分析,從而了解和掌握讀者的態(tài)度以及興趣等,并向他們推薦相關書籍。這種做法能夠大幅節(jié)省讀者的查詢時間,或者提供非常有用的信息[10];統(tǒng)計和分析不同讀者對不同圖書的需求以及表現(xiàn)出來的階段性特征,從而實現(xiàn)不同圖書的實際需求量的預測。
③對圖書館藏書進行分析。對圖書館館藏的具體使用情況以及讀者反饋的相關信息進行全面統(tǒng)計和深入分析,能夠比較客觀地對現(xiàn)階段的館藏質量進行評價,從而為圖書館藏書質量的提高提供有益指導;對圖書館藏書的文種及其學科結構進行全面統(tǒng)計和深入分析,能夠讓館員在圖書采購環(huán)節(jié)充分考慮館藏的實際情況,從而持續(xù)調(diào)整圖書館藏書結構,最終有目的且有計劃地形成具有自身特色的藏書體系。
數(shù)據(jù)倉庫技術是上世紀90年代發(fā)展起來的一種先進的信息技術,為以圖書館為代表的諸多領域的信息化建設注入了新的活力。對于圖書館數(shù)據(jù)倉庫,它和圖書館數(shù)據(jù)庫是兩個不同的概念,它支持對圖書館各種歷史數(shù)據(jù)的即時訪問,圖書館用戶可利用圖書館數(shù)據(jù)倉庫提供的面向用戶的統(tǒng)一數(shù)據(jù)接口進行相關訪問及查詢,從而為圖書館的各類決策提供有益支持。現(xiàn)階段,圖書館數(shù)據(jù)倉庫技術尚未完全成熟,未能形成一套通用的、完備的技術及理論體系,在實踐應用之中還有很多問題亟待解決,如異構數(shù)據(jù)庫之間的集成等,但相信在信息技術的不斷發(fā)展推動下,相關問題將會得到有效解決。
[1]劉晶.基于數(shù)據(jù)倉庫的高校圖書館管理的設計與實現(xiàn)[J].圖書情報工作,2009(15):126-128.
[2]李穎,等.基于GIS的數(shù)據(jù)倉庫管理系統(tǒng)開發(fā)與實現(xiàn)[J].遼寧工程技術大學學報:自然科學版,2010(3):451-453.
[3]侯杰.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術在高校圖書館管理中的應用[J].沿海企業(yè)與科技,2010(6):51-53.
[4]唐曦文,崔希振.基于數(shù)據(jù)倉庫的試驗數(shù)據(jù)管理系統(tǒng)[J].制造業(yè)自動化,2011(3):16-17,149.
[5]劉繼紅.基于數(shù)據(jù)倉庫的質量信息管理系統(tǒng)設計[J].情報科學,2012(4):583-585.
[6]張維明.數(shù)據(jù)倉庫原理與應用[M].北京:電子工業(yè)出版社,2002:15-17.
[7]李英珍.高校圖書館管理的數(shù)據(jù)倉庫技術研究[J].蘭臺世界,2013(35):32-33.
[8]陳進.關于數(shù)據(jù)倉庫元數(shù)據(jù)管理系統(tǒng)的研究與建立[D].青島:中國海洋大學,2011.
[9]李小平,李軍.圖書館管理系統(tǒng)中的數(shù)據(jù)挖掘應用[J].貴州工業(yè)大學學報:社會科學版,2007(3):101-103.
[10]陳利民.論網(wǎng)絡環(huán)境下圖書館信息資源共享[J].圖書情報工作,2008(S1):170-173.