張宏武
(渭南師范學院圖書館,陜西渭南714000)
數(shù)據(jù)倉庫技術(shù)在高校圖書館中的應用研究
張宏武
(渭南師范學院圖書館,陜西渭南714000)
網(wǎng)絡(luò)技術(shù)、信息技術(shù)以及通訊技術(shù)的飛速發(fā)展,使得高校圖書館數(shù)字化建設(shè)進程越來越快.各類自動化管理系統(tǒng)的應用、各種數(shù)字資源的購買,從而積累了大量的業(yè)務數(shù)據(jù),圖書館各級工作人員都想從這些雜亂無章的數(shù)據(jù)中獲取有價值的信息,而現(xiàn)有的圖書管理信息系統(tǒng)只能進行簡單的查詢和分析,如何找出這些業(yè)務數(shù)據(jù)中潛在的規(guī)律非常困難,數(shù)據(jù)倉庫、聯(lián)機分析處理以及數(shù)據(jù)挖掘技術(shù)的開發(fā)應用,為我們解決上述困難提供了強有利的技術(shù)支持.
高校圖書館;數(shù)據(jù)倉庫;數(shù)據(jù)挖掘
隨著網(wǎng)絡(luò)技術(shù)、信息技術(shù)以及通訊技術(shù)的飛速發(fā)展,高校圖書館數(shù)字化建設(shè)已經(jīng)成為圖書館建設(shè)的重點,各類自動化管理系統(tǒng)的開發(fā)和應用,必然積累了大量的數(shù)據(jù),圖書館各級工作人員都想從所積累的數(shù)據(jù)中獲取有價值的信息,領(lǐng)導層則希望利用現(xiàn)有數(shù)據(jù)指導圖書館決策.因此就需要創(chuàng)建一種體系化的數(shù)據(jù)存儲環(huán)境,將分析決策所需的大量數(shù)據(jù)從傳統(tǒng)的操作環(huán)境中分離出來,使分散、不一致的操作數(shù)據(jù)轉(zhuǎn)換成集成、統(tǒng)一的信息.[1]高校圖書館內(nèi)各個部門、各級工作人員都能在這個環(huán)境下,運用其中的相關(guān)數(shù)據(jù)和信息,發(fā)現(xiàn)新的分析、想法和問題,從而發(fā)展相應的決策系統(tǒng),使得圖書館的服務質(zhì)量更為優(yōu)質(zhì).要實現(xiàn)這個目的,必須獲得大量的歷史業(yè)務數(shù)據(jù)和匯總數(shù)據(jù).現(xiàn)有的管理信息系統(tǒng)只能進行簡單的查詢和分析,難以實現(xiàn)多層次分析和深層次挖掘,找出潛在的規(guī)律非常困難,而數(shù)據(jù)倉庫、聯(lián)機分析處理以及數(shù)據(jù)挖掘技術(shù)的開發(fā)應用,為我們解決上述困難提供了強有利的技術(shù)支持.
20世界80年代中期,美國信息工程專家William Inmon博士首次表述了數(shù)據(jù)倉庫的概念.他在《建立數(shù)據(jù)倉庫》一書中這樣定義數(shù)據(jù)倉庫,數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,用于支持管理決策.[2]雖然數(shù)據(jù)倉庫的定義至今沒有被標準化,但William H.Inmon所提出的定義已被人們普遍接受.數(shù)據(jù)倉庫因此具有以下特點:
(1)面向主題:主題從根本講是一個抽象概念,它是把數(shù)據(jù)在較高層次上綜合、歸類后進行分析利用的抽象.主題的抽取是按照分析的要求來確定的.數(shù)據(jù)在進入數(shù)據(jù)倉庫之前必須要經(jīng)過加工與集成,將原始數(shù)據(jù)結(jié)構(gòu)做一個從面向應用到面向主題的大轉(zhuǎn)變.
(2)集成性:數(shù)據(jù)倉庫中數(shù)據(jù)是把原來分散的各個子系統(tǒng)中的數(shù)據(jù),經(jīng)過抽取、清理、轉(zhuǎn)換后加載到數(shù)據(jù)倉庫中的.應該說數(shù)據(jù)倉庫是對源數(shù)據(jù)的增值和統(tǒng)一.
(3)時變性:數(shù)據(jù)倉庫隨著時間的變化要不斷增加新的內(nèi)容,同時也要隨著時間變化刪除長期不被使用的陳舊內(nèi)容.
(4)相對穩(wěn)定性:數(shù)據(jù)倉庫雖然隨時間變化但它是相當穩(wěn)定的.這種穩(wěn)定性指的是數(shù)據(jù)倉庫的數(shù)據(jù)主要供決策人員決策之用,決策人員主要是進行數(shù)據(jù)查詢,一般不修改數(shù)據(jù).某個數(shù)據(jù)進入數(shù)據(jù)倉庫后,一般情況下會被長期保留,經(jīng)過一定的時間,當前數(shù)據(jù)就被按一定的方法轉(zhuǎn)換成歷史數(shù)據(jù).由系統(tǒng)管理員或者系統(tǒng)自動將時間長且查詢率低的數(shù)據(jù)從數(shù)據(jù)倉庫脫離到廉價慢速的設(shè)備上,并從數(shù)據(jù)倉庫中刪除分析處理不再有用的數(shù)據(jù).
聯(lián)機分析處理(OLAP)概念是E.F.Codd于1993年提出的.[3]OLAP是分析人員、管理人員或執(zhí)行人員能夠從多種角度對原始數(shù)據(jù)中轉(zhuǎn)化出來的,能夠真正為用戶所理解的并真實反映企業(yè)維持性的信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù).[4]對于OLAP來說,“維”是它的核心和關(guān)鍵屬性.系統(tǒng)必須提供對數(shù)據(jù)分析的多維分析和視圖,包括對層次維和多重層次維的完全支持.因此,多維分析是分析企業(yè)數(shù)據(jù)最有效的方法,是OLAP的靈魂.
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有模糊的、噪聲的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程.[5]
數(shù)據(jù)挖掘的任務是從數(shù)據(jù)中發(fā)現(xiàn)模式,即通過關(guān)聯(lián)分析、聚類分析、分類、預測、時序模式和偏差分析等挖掘出數(shù)據(jù)中潛在的模式,預測其發(fā)展的行為,從而幫助決策者調(diào)整方案,輔助做出正確的決策.
知名公司,諸如IBM、Sybase、Microsoft和Oracle等都相繼推出了自己的數(shù)據(jù)倉庫解決方案.本文采用的是Microsoft的數(shù)據(jù)倉庫解決方案.Microsoft公司于2000年4月,發(fā)布了一套完全的數(shù)據(jù)庫和數(shù)據(jù)分析解決方案,即SQL Server 2000 Beta 2版本,該版本用戶可以快速創(chuàng)建下一代的可擴展電子商務和數(shù)據(jù)倉庫解決方案.[6]Micorsoft把OLAP功能集成到了SQL Server數(shù)據(jù)庫中,提供可擴充的基于COM的OLAP接口.SQL Server還支持第三方數(shù)據(jù)展現(xiàn)工具.它的主要技術(shù)包括:
(1)數(shù)據(jù)傳輸服務DTS(Data Transformation Services)是用于完成各種異構(gòu)數(shù)據(jù)庫之間的數(shù)據(jù)轉(zhuǎn)換,使用DST可視化工具就可以創(chuàng)建適合自身的數(shù)據(jù)移動解決方案.它通過提供一組工具,使用戶實現(xiàn)SQLServer2000數(shù)據(jù)庫中數(shù)據(jù)和其它數(shù)據(jù)源之間進行導入和導出.DTS可以和各種類型的數(shù)據(jù)庫交換數(shù)據(jù),包括 Paradox、Microsoft Excel和 Access、dBase、FoXPro 和文本文件.
(2)Microsoft知識庫(Microsoft Repository)由兩大部分組成,一個是被稱作開放信息模型的ActiveX接口集合,開發(fā)人員可以用它來定義數(shù)據(jù)模型;第二個是一個知識庫引擎,用來存放描述對象的設(shè)計、開發(fā)和部署環(huán)境的數(shù)據(jù)模型.該知識庫引擎運行在Microsoft SQL Server或Microsoft Jet數(shù)據(jù)庫上,用來存放由它描述的模型和對象.
(3)PivorTableServices除了提供客戶端OLAP數(shù)據(jù)訪問功能外,還允許在本地客戶機上存儲數(shù)據(jù),開發(fā)人員可以通過這一服務用VB等語言開發(fā)用戶前端數(shù)據(jù)展現(xiàn)程序.
(4)MMC(Microsoft Management Console)是微軟管理控制臺,顧名思義,它是一個專門用于管理的控制臺.其設(shè)計主要用于為Windows管理員提供一個統(tǒng)一的、規(guī)范的管理接口和操作平臺.
了解了數(shù)據(jù)庫的相關(guān)技術(shù)、選擇了相應的數(shù)據(jù)庫倉庫解決方案,現(xiàn)在開始進行具體的數(shù)據(jù)倉庫構(gòu)建.經(jīng)過對高校圖書館的業(yè)務需求的分析,確定了其管理系統(tǒng)中的決策主題分別有:讀者需求分析、館藏結(jié)構(gòu)分析、圖書流通分析、圖書借閱分析、圖書采購決策.限于篇幅,這里只介紹讀者需求分析的數(shù)據(jù)倉庫設(shè)計.
概念模型也稱信息模型,它是按用戶的觀點來對數(shù)據(jù)和信息建模.概念模型實際上是現(xiàn)實世界到機器世界的一個中間層次.同時也是數(shù)據(jù)庫設(shè)計人員和用戶之間進行交流的語言.這里采用信息包圖作為概念模型的設(shè)計工具,信息包圖由事實、維度、粒度組成,它采用二維表格的形式反映用戶使用數(shù)據(jù)倉庫進行多維分析處理的需求.如圖1所示.
邏輯模型是著重用邏輯的過程或主要的業(yè)務來描述對象系統(tǒng),描述系統(tǒng)要“做什么”,或者說具有哪些功能.本設(shè)計采用星型模型創(chuàng)建數(shù)據(jù)倉庫的邏輯模型,星型結(jié)構(gòu)圖中間是一個事實表,其周圍是一組維表.每個維表都有主鍵,與事實表上的外鍵相關(guān)連.如圖2所示.
物理設(shè)計的任務就是把邏輯模型轉(zhuǎn)變?yōu)閷嶋H的數(shù)據(jù)庫存儲.一般情況下,物理設(shè)計須與邏輯設(shè)計相一致,對應與邏輯模型給出讀者需求分析數(shù)據(jù)倉庫的物理設(shè)計.如表1所示,數(shù)據(jù)庫表的命名規(guī)則為:事實表讀者需求表的命名以字母C開頭(cube的首字母),而其它維表的命名以字母D開頭(dimension的首字母).分別有讀者需求表CDZXQ、借閱時間維表DJYSJ、書目維表DSHM讀者維表DDUZ、借閱地點維表DJYDD.
ETL是數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程,它是構(gòu)建數(shù)據(jù)倉庫的重要環(huán)節(jié).本設(shè)計使用Microsoft SQL Server 2000數(shù)據(jù)轉(zhuǎn)換服務(DTS)作為ETL工具,DTS從源數(shù)據(jù)中獲取需要的數(shù)據(jù)并清理、轉(zhuǎn)換后集成到數(shù)據(jù)倉庫中.首先,在數(shù)據(jù)倉庫服務器上創(chuàng)建數(shù)據(jù)轉(zhuǎn)換服務包sjzh_dw;其次,在sjzh_dw中創(chuàng)建兩個數(shù)據(jù)源,并使這兩個數(shù)據(jù)源分別連上原數(shù)據(jù)庫和數(shù)據(jù)倉庫數(shù)據(jù)庫;再次,在這兩個數(shù)據(jù)源上為讀者需求分析事實表和上述的幾個維度表建立對應的轉(zhuǎn)換任務;然后,為每個轉(zhuǎn)換任務設(shè)置數(shù)據(jù)源、目的地和轉(zhuǎn)換的對應關(guān)系;最后,將包含所有轉(zhuǎn)換任務的轉(zhuǎn)換包保存.執(zhí)行包就可以完成實際的數(shù)據(jù)轉(zhuǎn)移,轉(zhuǎn)換任務完成后為各個表設(shè)置主鍵和表間關(guān)系.
高校圖書館數(shù)據(jù)倉庫的設(shè)計完成以后,其主要功能在圖書館自動化管理系統(tǒng)的以下方面得到很好地發(fā)揮和應用.
(1)讀者需求分析.對歷史業(yè)務數(shù)據(jù)進行挖掘,根據(jù)對不同類型讀者對圖書館各類資源的需求情況的分析,追蹤高校讀者對不同服務產(chǎn)生的不同效果,可以預測未來一定的時間內(nèi)各層次讀者對館藏圖書的需求量.讀者需求的分析還包括對讀者借閱量、借閱傾向、讀者需求與館藏結(jié)構(gòu)的符合程度等項目的分析.
表1 多維需求分析的物理模型
(2)館藏結(jié)構(gòu)分析.分析不同年度各類圖書的入藏情況,發(fā)現(xiàn)各種館藏的有效性.進行館藏結(jié)構(gòu)分析的目的是通過剔除陳舊的、無人問津的圖書,補充新品種、供不應求圖書的復本量的辦法.不斷調(diào)整均衡館藏的策略,使每本圖書都能得到充分利用,從而平衡館藏、優(yōu)化結(jié)構(gòu),最終形成最佳的藏書結(jié)構(gòu).館藏結(jié)構(gòu)分析還包括圖書分布情況分析、圖書使用價值分析和館藏文獻比例分析等.
(3)圖書流通分析.分析館藏的二十二大類圖書的流通情況,選定一定的時間區(qū)段,分析出圖書流通的高峰期和低谷期.根據(jù)對圖書平均流通率、圖書月流通率、圖書拒借率、圖書呆滯率等歷史數(shù)據(jù)的統(tǒng)計分析,有效地幫助圖書館管理層發(fā)現(xiàn)圖書流通工作規(guī)律,指導決策層制定相應的工作方法,從而為讀者提供更優(yōu)質(zhì)的服務.
(4)圖書借閱分析.發(fā)現(xiàn)并分析出讀者對不同種類圖書的借閱規(guī)律、借閱傾向,從而為制定藏書補充計劃提供了科學依據(jù),也為提高服務質(zhì)量提供了基本依據(jù).圖書借閱分析包括流通率統(tǒng)計分析、借閱頻率統(tǒng)計分析、拒借率統(tǒng)計、工作量統(tǒng)計分析等.
(5)圖書采購決策.高校圖書館每年都購入一定量的圖書,運用數(shù)據(jù)倉庫技術(shù)、OLAP和數(shù)據(jù)挖掘等技術(shù)對歷史采購數(shù)據(jù)、流通數(shù)據(jù)、讀者數(shù)據(jù)和讀者需求的挖掘和分析,幫助圖書館采購人員確定采購方向和重點,使得圖書館信息資源體系更為科學與合理,從而為高校學科建設(shè)提供強有力的保障.
數(shù)據(jù)倉庫技術(shù)自問世以來,在很多行業(yè)已經(jīng)廣泛的應用,近幾年圖書館領(lǐng)域也已開始對數(shù)據(jù)倉庫技術(shù)的應用著手研究,高校圖書館數(shù)據(jù)倉庫支持對圖書館歷史業(yè)務數(shù)據(jù)的分析、挖掘,能實現(xiàn)對異構(gòu)數(shù)據(jù)庫數(shù)據(jù)的集成,作為信息技術(shù)構(gòu)建的新焦點,相信它將對圖書館信息化的發(fā)展起到強大的推動作用.
[1]彭木根.數(shù)據(jù)倉庫技術(shù)與實現(xiàn)[M].北京:電子工業(yè)出版社,2002.5.
[2][德]M.巴斯蒂安.數(shù)據(jù)倉庫與挖掘技術(shù)[M].武森,高學東,譯.北京:冶金工業(yè)出版社,2003.
[3]于在洋,何偉,劉啟賢.OLAP技術(shù)及其在民族決策支持系統(tǒng)中的應用[J].中央民族大學學報(自然科學版),2008,17(3):63-66.
[4]張曉明,劉萍,王鵬.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘及聯(lián)機分析技術(shù)[J].網(wǎng)絡(luò)與信息技術(shù),2008,27(9):58-59.
[5]周曉梅,王潛平,蘇琳.基于XML的 Web數(shù)據(jù)挖掘模型的設(shè)計[J].計算機工程與設(shè)計,2007,28(2):272-277.
[6]雷德蒙·華盛頓.微軟公司發(fā)布SQL Server 2000 Beta2版[EB/OL].(2000-04-26)[2010-12-20].微軟新聞,http://www.microsoft.com/china/press/2000/04/0426.mspx.
Research on the Application for Data Warehouse of University Library
ZHANG Hong-wu
(Library,Weinan Teachers University,Weinan,714000,China)
Network technology,information technology and the rapid development of communication technology make the digital technology in university library develop faster and faster.The application of various types of automated management systems and the purchase of various types of digital resources have accumulated a large amount of business data,the library staff at all levels want the data from these chaotic to obtain valuable information,while the existing library management information system can only perform simple queries and analysis of business data,to identify the potential of these laws is very difficult.Development application of data warehousing,online analytical processing and data mining technology provides a strong advantage of technical support to solve the above problems.
university library;data warehouse;data mining
G250.76
A
1009—5128(2011)12—0080—05
2011—05—09
陜西省教育廳專項科研計劃資助項目(08JK285)
張宏武(1964—),男,陜西渭南臨渭區(qū)人,渭南師范學院圖書館副研究館員.研究方向:數(shù)字圖書館.
[責任編輯 曹 靜]