馮明毅 (湖北文理學院理工學院圖書館 湖北 襄陽 441003)
隨著網(wǎng)絡信息技術的快速發(fā)展,數(shù)字資源數(shù)量正在指數(shù)級快速增長,圖書館作為信息服務中心也在盡可能地收集并存儲齊備的數(shù)字化信息資源,以滿足廣大讀者對信息服務的需求。如何科學處理資料量龐大、種類多元、更迭迅速的信息資源的存儲、管理與提供應用的問題,已成為當前圖書館業(yè)務中面臨的新難點之一。本文將借助信息生命周期管理理論,提出圖書館的存儲管理架構,建立分級的數(shù)字資源存儲與服務體系,以不同的信息服務等級和服務方式實施圖書館的信息資源管理與服務工作,緩解圖書館由于信息資源存儲與服務能力不足所引起的“信息過載”現(xiàn)象。
信息資源在其存在的生命周期的不同階段具有不同的價值,需要采用與之匹配的管理策略和方法。在信息的生命周期中,資源在剛建立的數(shù)月內(nèi)使用頻率最高,為組織帶來的效益和收入也最高,隨著時間的推移,使用頻率逐漸降低,資源的價值也隨之下降[1]。信息生命周期管理(Information Life-cycle Management,簡稱ILM)是一種信息管理模型,它根據(jù)信息資源所處不同生命階段時的效用差異采取不同的存儲與服務策略,力爭在信息生命周期的每個階段都能以最低的成本獲得最大的效益。ESG(Enterprise Strategy Group,企業(yè)戰(zhàn)略集團)研究顯示,在信息生命周期中,信息資源的價值一直都在變化,大部分信息資源在一定時期后就會進入使用頻率極低的狀態(tài),隨著時間的更迭,90%以上的信息價值會逐步衰竭甚至面臨淘汰[2]。一般情況下,資料使用頻率與資源生命周期之間呈現(xiàn)一定的相關關系(見圖1)。
圖1 信息使用率與信息生命周期的關系[2]
ILM的核心是針對不同數(shù)據(jù)的不同生命階段,采用不同的存儲策略和存儲介質(zhì)。為了解決日益劇增的數(shù)字資源管理與服務問題,數(shù)據(jù)存儲界提出了ILM 的概念,希望通過對信息的價值判斷,將最重要的信息、最常被存取的信息資源存儲在最昂貴、反應速度最快的存儲設備上;次重要的信息資源則存儲在稍便宜的硬盤上;使用頻次較低的信息資源可以存儲在磁帶等更便宜的存儲媒介上,以符合信息價值與存儲成本平衡的原則,并通過有效管理降低不必要的設備擴充投資,提高現(xiàn)有存儲設備的使用效能。參考業(yè)內(nèi)學者對信息生命周期的研究總結和實驗分析,綜合存儲界對信息演化特性的分析,可將信息的生命周期劃分為資料建立、資料存儲、資料擷取、資料歸檔與資料剔除5個階段,并根據(jù)此5個階段建立ILM的整體構架(見圖2)[3]。
圖2 ILM的整體構架
在ILM的整體構架中,信息資源的形成和演進過程依序為:資料建立——資料存儲——資料擷取——資料歸檔——資料剔除,其中在資料歸檔過程中,需要剔除無用資料,以保證歸檔資料的質(zhì)量。在ILM5個階段的演進過程中,資料需求環(huán)節(jié)為資料建立提供了方向性指導;資料分類環(huán)節(jié)為標準化處理資料存儲提供了基礎和依據(jù);檢索規(guī)劃環(huán)節(jié)為處理資料擷取提供了框架指引;價值評估環(huán)節(jié)則為實施科學的資料定期歸檔提供了保障,在以上4項信息資源的處理環(huán)節(jié)過程中,實現(xiàn)了最終的ILM閉路循環(huán)。ILM的5個階段的內(nèi)容詳細描述為:
(1)資料建立階段 此階段組織會自主收集加工或者直接購買信息服務商的多種信息資源,以滿足組織發(fā)展的各項需求。由于屬于信息源頭的建立階段,其作用直接影響到信息資源體系后續(xù)的各個階段。
(2)資料存儲階段 該階段需主要解決資料量龐大、種類多元、更迭迅速的海量信息資源的存儲、管理與提供應用的問題;根據(jù)信息的需求等級和價值分配不同性能的存儲介質(zhì),建立分級的數(shù)字資源存儲與服務體系,即為該階段的核心內(nèi)容。
(3)資料擷取階段 ILM的主要目標是確保信息資源可以最大限度地發(fā)揮其信息服務的價值。根據(jù)信息的需求層次,用戶存在3種資料擷取途徑:線上、近線和離線。這3種資料擷取途徑需要不同類型的存儲介質(zhì)和服務系統(tǒng)完成資料擷取服務。
(4)資料歸檔階段 資料歸檔是信息資源存儲策略的重要組成部分,由于部分信息資源進入其生命周期的末期后,資料擷取的頻率和速度要求均不是很高, 因而價格低、容量大的存儲介質(zhì)和系統(tǒng)成為資料存儲的最佳選擇。
(5)資料剔除階段 許多信息資源在一段時間后就沒有了再繼續(xù)存儲的價值,因此組織必須要制定相關的政策,對沒有保留或存儲必要的信息資源進行銷毀或回收,這就需要組織建立明確的信息資源銷毀規(guī)則,不能輕率地進行銷毀。
ILM整體構架為實施科學的信息管理與服務提供了基本導向。在ILM研究中,許多信息服務商提供了多種類型的信息生命周期整體解決方案,但在具體行業(yè)應用方面,大量信息資源分級、分類存儲的實現(xiàn)依然存在較大技術局限和問題。在圖書館信息資源服務體系中,高效能的網(wǎng)絡存儲設備長期存儲大量使用頻率低的數(shù)字資源已經(jīng)成為一種嚴重的資源浪費現(xiàn)象,同理,高價值的信息資源如果被存儲在普通的設備中提供服務也是其管理的失敗,理想的狀態(tài)是達到價值和成本之間的平衡。基于此,筆者以湖北文理學院圖書館數(shù)字化信息資源的管理規(guī)劃為樣本,結合實際工作討論、分析基于ILM的圖書館信息資源管理模式。
湖北文理學院圖書館(以下簡稱我館)目前館藏數(shù)量182萬余冊(件),辦證人數(shù)約1.2萬,每月借閱冊數(shù)約1.5萬冊(件),數(shù)字資源日訪問量(在線瀏覽與下載量)1.5~4萬人次。我館擁有豐富的數(shù)字文獻資源且更新迅速,年數(shù)字資源新增量為20~30TB,其中自主加工數(shù)字資源量為200~500GB,在線存儲服務能力為100TB,普通存儲空間為400TB。我館數(shù)字資源類型主要包括:數(shù)字圖書、隨書光盤點播系統(tǒng)、數(shù)字影音資源、數(shù)字典藏、重點學科服務專題資源、地方特色數(shù)據(jù)庫等,其中期刊數(shù)據(jù)采用網(wǎng)上包庫形式提供服務,不占用本地存儲空間。為了統(tǒng)計分析我館網(wǎng)上數(shù)字信息資源的訪問現(xiàn)狀,筆者借助圖書館系統(tǒng)對下載或瀏覽日志文件的數(shù)量進行統(tǒng)計分析得到我館各類資源的使用狀況。統(tǒng)計結果顯示:我館網(wǎng)上數(shù)字信息資源的下載或瀏覽量主要集中在2008年以后入庫的信息資源,2005年前入庫的信息資源只有極低的訪問頻率,甚至有相當比例的資源在2005年后一直處于“無人問津”的狀態(tài)。我館在2003—2012年對不同年度網(wǎng)上數(shù)字信息資源受訪比例進行了統(tǒng)計(見表1和圖3)。
表1 湖北文理學院圖書館不同年度數(shù)字信息資源受訪統(tǒng)計(2012年) (單位:%)
圖3 湖北文理學院圖書館不同年度的網(wǎng)上數(shù)字信息資源受訪比率分布
由表1數(shù)據(jù)和圖3曲線顯示的我館網(wǎng)上數(shù)字資源受訪統(tǒng)計可知,我館網(wǎng)上數(shù)字資源受訪比率隨著年度的更迭,其受訪比率會出現(xiàn)急劇下滑,這說明最新入庫的網(wǎng)上資源較受訪問者青睞。2005年以前入庫資源的受訪比率明顯較低,尤其是數(shù)字圖書、隨書光盤和數(shù)字影音等資源,其受訪比率均不足5%,這充分說明信息生命周期理論在我館網(wǎng)上數(shù)字資源中也同樣適用。2005年以前的數(shù)據(jù)資源中,30%的資源內(nèi)容在最近5年內(nèi)沒有訪問記錄,即在最近5年內(nèi)沒有讀者再使用過該資源項;在所有數(shù)據(jù)資源中,低使用頻率的信息資源量遠遠超過高使用頻率的信息資源量,日益更新的網(wǎng)絡資源已成為讀者訪問的主體內(nèi)容,而早期的大部分資源已逐步淡出讀者視線。因此,管理者應該制定科學的信息資源管理體系,合理處理訪問量極低的陳舊數(shù)字館藏,集中高性能網(wǎng)絡存儲設備存儲新數(shù)據(jù)資源,為提供高質(zhì)量的網(wǎng)絡檢索與信息服務奠定基礎。
為了更好地解決新數(shù)據(jù)資源的網(wǎng)絡存儲與提供優(yōu)質(zhì)、高效的信息服務中存在的問題,我館決定根據(jù)數(shù)字資源的訪問頻率,借助ILM理論科學地規(guī)劃我館的存儲管理架構,建立分級的數(shù)字資源存儲與服務體系,以不同的服務等級和服務方式為讀者提供服務,力求最大限度地實現(xiàn)圖書館存儲設備的效能與信息資源的效用,取得最大化的服務效益。根據(jù)ILM的5個階段,結合圖書館信息服務的要求和信息更迭的過程,筆者參考何俊、楊明(2007)的研究成果[4],構建出基于ILM的圖書館信息資源管理模式(見圖4)。
圖4 基于ILM的圖書館信息資源管理的運作過程
根據(jù)圖書館信息資源管理運作過程可知,圖書館實施信息資源管理主要需要完成以下工作:
(1)建立圖書館信息服務等級評價標準,制定圖書館數(shù)字資源綜合服務流程。在圖書館實施基于ILM的信息資源服務模式前,首先需要成立圖書館信息資源價值分析小組,完成圖書館資料總量、資料類型、資料年增長率、資料下載使用率、資料使用者的偏好和類型的綜合調(diào)研分析。然后根據(jù)圖書館的信息服務能力和未來規(guī)劃,制定科學的圖書館信息服務等級,確定圖書館館藏數(shù)字資源的服務方式。例如,①公網(wǎng)即時,指可在圖書館資源信息授權的IP范圍內(nèi),即時獲取使用頻率較高、價值較高的各類文獻資源;②延時傳遞,一般為使用頻率較低或沒有被授權公共使用的資源按讀者定制服務需求,采取一對一傳遞的方式提供使用;③館內(nèi)即時,如在線視頻等資源僅限制在圖書館內(nèi)在線點播使用;④歸檔查詢,部分使用率極低或較為久遠且已經(jīng)采取歸檔處理的信息資源僅提供網(wǎng)絡目錄檢索,詳細的全文內(nèi)容需要進入圖書館獲取;⑤館際待查,部分信息資源由于過于陳舊(沒有入庫或已經(jīng)剔除)或過于新近(新出版信息資源,還未進入圖書館館藏),可采用館際服務的手段,協(xié)助讀者完成信息資源獲取。以上多種信息資源服務形式的應用,可較好地解決讀者多元化的信息服務要求。
(2)整合圖書館現(xiàn)有的服務系統(tǒng)與存儲介質(zhì),建立分級存儲的綜合信息服務體系。一般存儲架構設計主要分為直連式存儲(Direct Attached Storage,簡稱DAS)、網(wǎng)絡附加存儲(Network Attached Storage,簡稱NAS)與存儲區(qū)域網(wǎng)絡( Storage Area Network,簡稱SAN)等3種存儲形式[5]。建立數(shù)字資源生命周期存儲管理系統(tǒng),需要先完成存儲硬件的整合分類,提升存儲設備的利用率。圖書館為解決目前以及未來可能面臨的存儲設備系統(tǒng)的使用效率問題,依據(jù)國際存儲網(wǎng)絡產(chǎn)業(yè)協(xié)會(Storage Networking Industry Association,簡稱SNIA)的整體架構規(guī)范,參考圖書館數(shù)字資源的特性和服務要求,將圖書館存儲設備分為在線(On-line)、近線(Near-line)及離線(Off-line)等3種存儲等級[6]。重構的圖書館存儲設備架構與各類服務系統(tǒng)的整體構架如圖5所示。
在圖書館分級存儲架構的體系中,將第一層(Tier1)配置為高性能的Fiber Channel(光纖通道)存儲設備;第二層(Tier2)配置SAS(Serial Attached SCSI,串行連接SCSI)、SATA(Serial Advanced Technology Attachment,串行高級技術附件,一種串行硬件驅(qū)動器接口)等高性能硬盤;第三層(Tier3)使用低成本的SATA、ISCSI(Internet Small Computer System Interface,Internet小型計算機系統(tǒng)接口)或磁帶等存儲介質(zhì),必要時還可以多分幾個層次來構架存儲介質(zhì)[7]。在分級構架存儲集群的基礎上,合理規(guī)劃圖書館Web主機群及電子圖書室等系統(tǒng)主機群、歸檔管理系統(tǒng)、備份主機系統(tǒng)等圖書館服務器形成網(wǎng)絡體系,完成基于生命周期存儲管理的圖書館數(shù)字資源存儲與管理系統(tǒng)的相關架構。其中,分級存儲是建立數(shù)字資源生命周期存儲管理系統(tǒng)的硬件核心,其存儲規(guī)范原則上將以時間和使用頻率作為分類基礎,同時注意信息資源的可用性,即是否能隨時取得信息資源,為使用者提供最佳服務。
圖5 基于分級存儲的圖書館數(shù)字信息資源綜合管理體系示意圖
(3)建立綜合的信息資源整合與遷移的管理體系。根據(jù)信息所處不同生命階段的價值差異,將應用價值較高的信息資源存儲于性能較高的存儲介質(zhì)中,將價值相對較低的信息資源存儲于性能普通的存儲介質(zhì)中,以最低的成本獲得最大的應用價值。筆者推薦使用賽門鐵克公司推出的Symantec Enterprise Vault解決方案。此歸檔軟件能夠自動統(tǒng)計信息資源受訪頻率,智能識別重復數(shù)據(jù),并把重復數(shù)據(jù)按照邏輯存儲模式進行處理,保持數(shù)據(jù)的唯一性,從而將存儲空間和成本節(jié)約 60% 以上[8],同時也可以自動地將比較陳舊、不經(jīng)常被訪問的信息從昂貴的存儲介質(zhì)中轉(zhuǎn)移到成本較低的存儲介質(zhì)中,完成數(shù)據(jù)的集中自動歸檔,以避免信息資源數(shù)量的無限擴大,提高圖書館信息系統(tǒng)的綜合服務能力,增強圖書館各類館藏數(shù)據(jù)的安全性。
本文借助分級存儲的管理思想,根據(jù)信息資源在不同生命周期階段所體現(xiàn)的不同的信息價值,選取不同類別的存儲介質(zhì),為實現(xiàn)信息更迭過程中存儲介質(zhì)服務效用的最大化提供了可能。本文構建的基于分級存儲的圖書館數(shù)字信息資源綜合管理體系示意圖,給出了圖書館實施信息資源管理的主要方法和策略,為圖書館實施信息資源科學管理提供了一則參考范式?;贗LM的圖書館信息資源管理體系可以在一定程度上緩解圖書館日益劇增的信息資源在不斷更迭的過程中因需要存儲介質(zhì)不斷擴容而帶來的經(jīng)濟壓力,提高圖書館存儲介質(zhì)的服務效能。
目前,ILM 作為全新的信息管理思維正引航數(shù)據(jù)存儲與信息服務業(yè)的發(fā)展方向,但由于ILM本身就是個難以量化的概念,現(xiàn)有應用系統(tǒng)中的數(shù)據(jù)如何按照生命周期實施科學的管理始終是一個難點,需要在實踐中不斷摸索、深化。
[1]白獻陽.知識生命周期方法論研究[J].圖書館學研究,2013(1):2-6.
[2]Birkinshaw J,Sheehan T.Managing the Knowledge Life Cycle[J].MIT Sloan Management Review,2002(3):135-143.
[3]索傳軍,王 濤.國內(nèi)外信息生命周期管理研究綜述[J].圖書館雜志,2008(7):14-20.
[4]何 俊,楊 明.信息生命周期管理的分層模型及實施方法[J].圖書情報工作,2007(2):59-61.
[5]裴 雷,望俊成.信息生命周期管理研究進展述評[J].情報雜志,2010(9):7-10,20.
[6]張春穎.信息生命周期管理研究述評[J].情報科學,2012(6):953-958.
[7]竇天芳,張成昱.數(shù)字圖書館存儲系統(tǒng)建設方案與技術[J].現(xiàn)代圖書情報技術,2005(1):67-70.
[8]索傳軍.試論信息生命周期的概念及研究內(nèi)容[J].圖書情報工作,2010(13):5-9.