郭 敏
(太原師范學院 圖書館, 山西 晉中 030619)
?
大數(shù)據(jù)與圖書館服務趨向
郭 敏
(太原師范學院 圖書館, 山西 晉中 030619)
大數(shù)據(jù)時代,巨大的數(shù)據(jù)存儲、復雜的數(shù)據(jù)處理和智能化的服務將成為今后圖書館建設的主旋律。圖書館建設應該結合實際,做好未來的建設與布局,加強館藏資源數(shù)據(jù)化和去邊界化,探索和利用數(shù)據(jù)分析技術與工具,逐步向服務智能化靠攏。
大數(shù)據(jù);圖書館;數(shù)據(jù)處理;去邊界化;智能化;服務;建設
時至今日,人類社會正處于“第三次浪潮”,即互聯(lián)網(wǎng)時代?;ヂ?lián)網(wǎng)帶給我們最深刻的一個詞,就是“大數(shù)據(jù)”。所謂的大數(shù)據(jù),是指一種大大超越常規(guī)的數(shù)據(jù)集合,其規(guī)模巨大的程度,已經(jīng)無法在可承受的時間范圍內(nèi)用常規(guī)工具進行捕捉、管理和處理。簡言之,它已經(jīng)超越了傳統(tǒng),人類必須借助大型計算機和網(wǎng)絡才能進行運用。大數(shù)據(jù)的增長是裂變式的,迅猛到超出人們的想象。據(jù)有關數(shù)據(jù)顯示,人類文明所獲得的全部數(shù)據(jù),有90%以上是近兩年獲得的,而到2020年,全世界的數(shù)據(jù)規(guī)模將達到今天的44倍。
在大數(shù)據(jù)背景之下,圖書館將在數(shù)據(jù)存儲、挖掘、分析等方面面臨巨大挑戰(zhàn),復雜數(shù)據(jù)的處理也將成為圖書館工作的主旋律,通過大量的非結構化數(shù)據(jù)、半結構化數(shù)據(jù)去尋找隱藏在數(shù)據(jù)背后的世界,進而為圖書館服務的模式、對未來發(fā)展趨勢提供分析與預測將成為大數(shù)據(jù)時代圖書館的一大主要服務內(nèi)容。網(wǎng)絡君臨天下,讀者通過手機等移動終端可以訪問數(shù)字圖書館,查詢世界各國數(shù)字圖書館的資源。
大數(shù)據(jù)的最大特點是“大”,維克多·麥爾·舍恩伯格和肯尼斯·庫克耶在《大數(shù)據(jù)時代》里提出了“五V”說法:Volume、Velocity、Variety、Value、Veracity,即大量、高速、多樣、價值和真實性。
數(shù)據(jù)一般被分為結構化數(shù)據(jù)、非結構化數(shù)據(jù)和半結構化數(shù)據(jù)。結構化數(shù)據(jù)是指傳統(tǒng)的以文本為主的數(shù)據(jù),有固定的數(shù)據(jù)庫存儲和相對應的結構關系。非結構化數(shù)據(jù)是指我們無法直接知道其內(nèi)容,而數(shù)據(jù)庫也只能打包將之存儲到一個BLOB字段的數(shù)據(jù),比如圖片、聲音、視頻和內(nèi)容管理器等等。而半結構化數(shù)據(jù)則介于二者之間,它屬于結構化數(shù)據(jù),但結構變化很大很多很快,是互聯(lián)網(wǎng)時代最有特點的數(shù)據(jù)結構樣式,對傳統(tǒng)圖書管理而言,最生動也最有沖擊性,所以,可以研究的方向和領域也最廣泛。近些年來不斷出現(xiàn)的QQ、微博和微信等等使用互聯(lián)網(wǎng)設備進行交流的數(shù)據(jù)種類和數(shù)據(jù)量,基本都屬于半結構化數(shù)據(jù)類型。
但數(shù)據(jù)的價值密度卻存在一個悖論,就是和數(shù)據(jù)量的大小成反比。數(shù)據(jù)量越大,數(shù)據(jù)的價值就會越小,從而給檢索工作帶來困難。如何在浩如煙海的數(shù)據(jù)中進行有效的提純,是未來的圖書管理亟待解決的難題。在大數(shù)據(jù)時代,瀏覽器可以說是汪洋大海中的一條船,它周圍都是水,卻并不能同時到達所有的海域。
1.館藏資源數(shù)字化
大數(shù)據(jù)海量信息環(huán)境的形成,使圖書館行業(yè)與其他信息服務行業(yè)的界面日漸融合與模糊,它必須由待字閨中的“藏”,變?yōu)闊o處不在的“送”。而要適應這一深刻巨變,就必須對已經(jīng)占有的資源進行根本性的數(shù)字化,這是時代的要求。
圖書館藏包括實體印刷館藏和數(shù)字館藏。
實體印刷館藏因為數(shù)據(jù)的穩(wěn)定與體量太小而日漸式微,似乎成了一個無法動搖的趨勢。盡管有人反復慨嘆電子圖書怎么也不會有紙質(zhì)圖書的舒適與感覺,甚至國外的很多學者也指責現(xiàn)代人尤其是現(xiàn)代中國人越來越懶惰,越來越不喜歡讀書,但可以肯定地說,這只是一個相當片面的說法。
事實是,現(xiàn)代人的閱讀量不是減少了而是劇增了,只不過閱讀的對象和方式發(fā)生了改變而已。從紙質(zhì)到電子文本,從借閱到家里蹲式的網(wǎng)絡終端,從一天數(shù)小時到一天十數(shù)小時,所造成的信息傳輸成果與以前是不可同日而語的。所以印刷館藏的價值越來越向兩個方向靠攏:一個是考據(jù)收藏,一個是數(shù)據(jù)時代里的“元數(shù)據(jù)”。元數(shù)據(jù)是個借用的說法,但這是印刷館藏的必由之路。
數(shù)字館藏包括實體數(shù)字館藏和虛擬數(shù)字館藏。據(jù)調(diào)查,在以網(wǎng)絡形式進入圖書館的用戶中,70%以上的用戶選擇的是數(shù)字館藏。而且,這個比例隨著時代的發(fā)展呈現(xiàn)越來越高的趨勢。
但數(shù)字館藏的制作是一件浩大而復雜的工程。在大數(shù)據(jù)和系統(tǒng)化時代,這并不是單獨一個圖書館所能擔負起來的任務,它必將通過互聯(lián)網(wǎng)面向社會?,F(xiàn)代傳媒服務行業(yè)已經(jīng)做了很多有益的嘗試,并取得了令人驚喜的成果。比如翻譯一部外國影片,傳統(tǒng)方式需要至少半年的時間,而現(xiàn)在通過網(wǎng)絡組合分工形式,最多不過幾個小時甚至幾十分鐘、十幾分鐘就解決了。
數(shù)字館藏制作流程包括:元數(shù)據(jù)的標準和規(guī)范、知識資源(含聲、像、圖、文)的通用型加工系統(tǒng)、語法層次的大容量文獻自動采集、自動篇名生成、自動標引、自動文摘生成的實用化技術、知識概念(語義)體系的建立、實現(xiàn)語義層次的自動標引、自動文摘生成、分布式藏品元數(shù)據(jù)的聚集與元數(shù)據(jù)庫的構建、超大規(guī)模多媒體數(shù)字資源的長久保存、歸檔和存儲管理技術,包括檔案系統(tǒng)等、數(shù)字內(nèi)容藏品的版權管理系統(tǒng)、數(shù)字對象和媒體的新型經(jīng)濟與商務模型研究、與創(chuàng)建和使用數(shù)字收藏有關的社會經(jīng)濟法律問題的技術、方法、過程等等。
2.圖書館服務去邊界化
大數(shù)據(jù)背景下,傳統(tǒng)圖書館概念變得越來越模糊,它們不再是一個個相對獨立的個體,而是越來越趨向于集合形態(tài),用戶可以通過網(wǎng)絡徜徉于世界各個圖書館,去尋找他們想要得到的知識數(shù)據(jù)和信息,即所謂的“插拔人生”。全世界的圖書館整合成一個大服務器,而用戶則更像U盤,找個USB接口即可獲得或者傳輸各種知識和信息。這在過去是可望不可即的,現(xiàn)在來看也是路漫漫其修遠,但因為互聯(lián)網(wǎng)的存在,而變得一切皆有可能。
數(shù)字圖書館的建設應該以不斷改善用戶服務為最終目標,為用戶在知識發(fā)現(xiàn)與利用上提供高效方便的工具,并且使得用戶可方便地通過數(shù)字圖書館的多個資源庫無縫獲取所需的知識。服務的核心技術就是網(wǎng)絡化。網(wǎng)絡化包括先進的高效導航系統(tǒng)、適用于TB級數(shù)據(jù)的高效搜索引擎;開發(fā)實用的多語言、多文字、多文化以及個性化用戶界面;個性化、智能的主動服務技術;保證藏品的安全和完整性技術:包括信息過濾系統(tǒng)、隱私權保護技術、實現(xiàn)數(shù)字圖書館群與科學數(shù)據(jù)庫群內(nèi)容的集成性服務、對新型媒體知識產(chǎn)權處理形成合乎法律框架的新的經(jīng)濟和商業(yè)模型、用戶工具軟件、基于互聯(lián)網(wǎng)的協(xié)同工作技術和工具、用戶與可使用性研究。
“去邊界化”的另一個概念是網(wǎng)格化。網(wǎng)格是把整個網(wǎng)絡整合成一臺虛擬的巨大超級計算機,實現(xiàn)計算資源、存儲資源、數(shù)據(jù)資源、信息資源、文獻資源、知識資源、專家資源等的全面共享??傊?,網(wǎng)格可以實現(xiàn)分布在全球的硬件資源、軟件資源和各種信息知識資源全面的連通,達到資源的最大共享。由于網(wǎng)格的不同作用,它被劃分成不同的類型,如:計算網(wǎng)格、設備網(wǎng)格、數(shù)據(jù)網(wǎng)格、信息服務網(wǎng)格等。
與數(shù)字圖書館的建設目標完全一致,網(wǎng)格致力于一次登錄,訪問全球分布式信息資源、全世界有用的信息資源可共享、基于自然語言的語義檢索并進行資源整合、可提供學科的個性化服務、基于知識挖掘提供最小化的知識子集。基于網(wǎng)格的數(shù)字圖書館服務模式是指全球數(shù)字圖書館可以提供基于語義的檢索服務、虛擬參考咨詢服務、主動推送服務、定題信息服務、個性化信息服務、培訓服務等。這些都要建立在多語言庫的基礎之上,需要全球的各個數(shù)字圖書館協(xié)同工作。
1.充分探索利用和發(fā)展數(shù)據(jù)分析技術與工具
在大數(shù)據(jù)時代,如何避免被邊緣化,是當今圖書館建設管理與服務面臨的最大問題。大數(shù)據(jù)分析技術與服務是重中之重,也是難中之難。
首先是圖書館自身建設所必需的大數(shù)據(jù)分析。這類分析基本以圖書館現(xiàn)有資源進行數(shù)據(jù)分析,需要考慮以下幾點:數(shù)據(jù)存放模式、信息組織方式、供讀訪問策略、可持續(xù)發(fā)展策略。
其次是用戶所需的大數(shù)據(jù)分析。這類數(shù)據(jù)分析技術類似于現(xiàn)在的信息技術導航,應該給用戶提供準確即時的信息來源與建議,以更方便用戶充分利用本館的所有數(shù)據(jù),從而提供更加切實高效的服務。目前這一手段在很多網(wǎng)站比如百度、阿里巴巴、愛奇藝等等運用得卓有成效,你訪問一點,網(wǎng)站會根據(jù)你搜索的信息推測你可能更感興趣的很多點,極大開拓了用戶的眼界與思路,也使自身的服務得到比較充分的效能化。
2.要特別重視圖書館基礎建設布局
應該看到,大數(shù)據(jù)時代圖書館建設的中心工作已經(jīng)不再是文獻數(shù)據(jù)信息的收集,而應逐漸成為對海量信息的采集、分析和挖掘。換句話說就是圖書館將不再是“待字閨中”的被動式服務,而是無處不在的“外賣式”的主動服務。這對所有傳統(tǒng)意義上的圖書館都是一場翻天覆地式的變革,也給今后的圖書館基礎建設布局提出了無法回避的課題。
首先,“數(shù)據(jù)即生命”。大數(shù)據(jù)時代對圖書館的信息存儲量要求極高,而數(shù)據(jù)的增長又是處于一種幾何裂變的方式,在此種狀態(tài)下,作為特殊信息服務行業(yè)的圖書館如果僅僅著眼于館藏圖書的冊數(shù),一定會面臨被淘汰的境地。大數(shù)據(jù)統(tǒng)計表明,近兩年來人類社會所獲得的數(shù)據(jù),已經(jīng)達到了有史以來的90%以上,加上知識更新的加速度,所有的所謂館藏已經(jīng)變得意義不大。因此,今后圖書館工作的性質(zhì)會發(fā)生質(zhì)的變化,幾乎所有的工作努力方向都會指向一個目標——數(shù)據(jù)。
其次,由整體變局部。大數(shù)據(jù)帶來的最大的一個變化就是整合,數(shù)據(jù)越大,世界越小,圖書館建設也不例外。傳統(tǒng)圖書館都是相對獨立的、封閉的,因此相對資源也是浪費的、效率低下的。大數(shù)據(jù)時代,圖書館的服務將更加開放和專業(yè),存儲資源會越來越避免浪費。如果全世界的圖書館能整合成一個大的服務器的話,那么作為個體的圖書館也必將走向?qū)I(yè)化、異他化,用戶將進入移動硬盤式的“插拔人生”。它們和用戶之間只有量的不同,并無質(zhì)的區(qū)別。
3.進一步提高圖書館服務的智能化程度
解決大數(shù)據(jù)時代帶來的空前壓力的途徑,最重要的一個就是智能化。圖書館建設與服務也必須認清這個方向。
應用智能化技術,可以在相當大的程度上節(jié)省人力物力,更為重要的是可以較高效率地解決人工無法實現(xiàn)的工作需求,如對海量信息的智能分析、采集和抓取,關鍵詞語的抽取和關聯(lián),從而提高數(shù)據(jù)庫存儲和管理使用效率。
從用戶角度來看,服務內(nèi)容和手段的智能化程度提高,可以使非結構化數(shù)據(jù)或者半結構化數(shù)據(jù),比如聲音、圖片、視頻等等變得相當容易檢索和抓取。另外,從智能化服務的網(wǎng)絡流通來看,這將是改變長期以來用戶和圖書館關系的一個契機,“秀才不出門,便知天下事”將變得觸手可及。
QQ和微信的出現(xiàn),已經(jīng)開始顛覆人類的閱讀和交流習慣,并且勢不可擋。我們不知道智能化服務的平臺和技術終將以什么面目改變世界,但是我們知道這必將改變我們的世界,這是我們奮斗的方向和面臨的巨大課題。
【責任編輯 馮自變】
2016-06-13
郭 敏(1969-),女,山西祁縣人,太原師范學院圖書館館員。
1672-2035(2016)06-0123-03
G250.74
A