楊亮+雷智雁
基金項目:廣東省教育科學“十二五”規(guī)劃項目(項目編號:2012JK290)研究成果之一。
作者簡介:楊亮(1984-),男,館員,碩士,研究方向:數(shù)字圖書館?!ば畔⒆稍兣c服務·
〔摘要〕文章在描述大數(shù)據(jù)研究背景及其特點的基礎上,分析大數(shù)據(jù)對圖書館信息推送、參考咨詢、學科服務,好書推薦等個性化服務的影響,總結大數(shù)據(jù)在圖書館個性化服務及圖書館管理中的應用,針對數(shù)據(jù)分析的平臺、成本問題、用戶隱私等關鍵問題展開討論。
〔關鍵詞〕圖書館;大數(shù)據(jù);用戶服務;個性化服務
DOI:10.3969/j.issn.1008-0821.2014.04.016
〔中圖分類號〕G25076〔文獻標識碼〕A〔文章編號〕1008-0821(2014)04-0074-04
The Research of Personalized Library Services in the Age of Big DataYang LiangLei Zhiyan
(Library,Shenzhen University,Shenzhen 518060,China)
〔Abstract〕On the basis of description of the background and characteristics of big data,this article analyzed the impact on personalized library services,like information push,reference services,discipline services and recommended books.This article summarized the big data applications in the personalized library services and library management,discussed the key issues like data analysis platform,cost and privacy.
〔Keywords〕library;big data;user service;personalized service
現(xiàn)代科技的發(fā)展,尤其是計算機和互聯(lián)網(wǎng)的出現(xiàn),促成了全球信息總量以幾何級數(shù)增長,據(jù)IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)研究報告,2020年全球數(shù)據(jù)量將達到35ZB,為2009年的44倍[1]。毫無疑問,人類正在邁入大數(shù)據(jù)(Big data)時代。大數(shù)據(jù)正逐漸影響著行業(yè)的發(fā)展和個人的思維習慣。圖書館作為實現(xiàn)個人和信息資源交互的主要機構,如何應對大數(shù)據(jù)帶來的沖擊和挑戰(zhàn),并在大數(shù)據(jù)浪潮中提升服務水平和管理能力,是一個值得研究的問題。
1研究背景
11大數(shù)據(jù)研究起源
大數(shù)據(jù)概念的提出最早可以追溯到2008年9月《自然》雜志發(fā)表的文章《Big Data:Science in the Petabyte Era》,而大數(shù)據(jù)引起人們廣泛關注,則是源于全球知名的咨詢公司麥肯錫在2011年5月發(fā)布的《Big data:The next frontier for innovation,competition,and productivity》報告,報告指出,數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,而人們對于海量數(shù)據(jù)的運用將預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來[2]。2012年,聯(lián)合國一個名為Global Pulse的倡議項目發(fā)布了名為《Big Data for Development:challenges & opportunities》的報告,該報告主要闡述了大數(shù)據(jù)時代各國特別是發(fā)展中國家在面臨數(shù)據(jù)洪流的情況下所遇到的機遇與挑戰(zhàn)[3]。同年,美國政府宣布推出了“大數(shù)據(jù)的研究和發(fā)展計劃”,將大數(shù)據(jù)的研究和開發(fā)提升到國家戰(zhàn)略的高度,這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發(fā)展部署[4]。與此同時,IT行業(yè)巨頭,如Microsoft、IBM、Oracle等相繼投入大數(shù)據(jù)信息處理技術的研究,并針對企業(yè)的決策支持、風險分析、自動化流程等方面推出相關服務[5]。
12大數(shù)據(jù)特點
目前,學術界對大數(shù)據(jù)尚未有一個公認的定義,學者們也習慣于按照特征來描述大數(shù)據(jù)。大數(shù)據(jù)的常見特征是3V:(1)大量化(Volume),數(shù)據(jù)集合的規(guī)模不斷擴大,已從GB到TB再到PB級,甚至開始以EB和ZB來計數(shù);(2)多樣化(Variety),在大數(shù)據(jù)時代,個人作為制造數(shù)據(jù)主體的特征越來越明顯,而個體所產(chǎn)生的絕大部分數(shù)據(jù)為非結構化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等;(3)快速化(Velocity),大數(shù)據(jù)的快速化特征一方面指大數(shù)據(jù)的增長速度快,另一方面指大數(shù)據(jù)所包含的眾多非結構化數(shù)據(jù)具有很強的時效性,如新聞、金融及社交等數(shù)據(jù),隨著時間的流逝其利用價值會越來越低。此外,也有組織和個人將大數(shù)據(jù)的特征歸納為4V,但第4個“V”所代表的含義眾說紛紜,IBM認為大數(shù)據(jù)的4V應包含準確性(Veracity),而IDC則認為大數(shù)據(jù)應該具有價值性(value)。雖然大數(shù)據(jù)的概念目前還存在一些爭議,但這并不影響人們對其研究,正是因為這些爭議的存在,證明大數(shù)據(jù)對人們工作和生活的方方面面產(chǎn)生影響,也將逐漸影響到各個學科的發(fā)展。
13大數(shù)據(jù)的應用
大數(shù)據(jù)的應用價值在于從不確定數(shù)據(jù)中提取有價值數(shù)據(jù),借助于Hadoop等處理和分析平臺,大數(shù)據(jù)在諸多方面都體現(xiàn)了其價值。在能源領域,丹麥能源公司Vestas利用IBM大數(shù)據(jù)分析軟件和系統(tǒng)對氣象報告、潮汐相位、地理空間等非結構化數(shù)據(jù)進行分析,改進了風力機組的位置,獲得最佳的能量輸出[6]。在政治領域,奧巴馬在2012年美國大選中獲勝得力于其背后的大數(shù)據(jù)分析團隊,如分析師們根據(jù)每個選民的住址、家庭狀況、家庭背景等數(shù)據(jù)分析得出其性格特征,從而針對他們進行不同的競選游說,用最低的成本,更高的效率獲得了大選的成功[7]。在零售領域,淘寶數(shù)據(jù)魔方是一個基于淘寶海量數(shù)據(jù)分析的商業(yè)數(shù)據(jù)產(chǎn)品,可以分析淘寶全行業(yè)的瀏覽、交易、收藏、搜索等數(shù)據(jù)以及消費者的用戶特征,從而得出消費者的去向以及消費者的消費偏好,方便賣家分析競爭對手,探究消費行為,提高銷售的針對性。
2大數(shù)據(jù)對圖書館用戶個性化服務影響
21大數(shù)據(jù)研究深化了圖書館個性化服務內(nèi)涵
用戶是圖書館資源的利用者,是圖書館服務的對象。有學者認為,圖書館用戶個性化服務是根據(jù)每個用戶的需求而特別定制的服務,有3個方面的含義:①時空服務的個性化,在用戶指定的時間和指定的地點得到服務;②服務的方式的個性化,根據(jù)用戶的個人愛好或特點的要求來開展服務;③服務內(nèi)容的個性化,所提供的服務不再是千篇一律,而是各取所需,各得其所[8]。自數(shù)字圖書館興起以來,圖書館在時空服務的個性化方面已經(jīng)取得了長足進步,用戶使用圖書館不再受時間和地點的約束,可獲取的信息量近乎無限的增加,這是圖書館發(fā)展史上的一次重要的變革。相對于時空服務的個性化,數(shù)字圖書館在服務方式個性化和服務內(nèi)容個性化方面還有較大的提升空間,而這正是大數(shù)據(jù)在圖書館能夠發(fā)揮作用的地方。
endprint
22大數(shù)據(jù)在用戶個性化服務方式中的應用
在服務的方式的個性化方面,傳統(tǒng)的圖書館個性化服務包括圖書借閱、參考咨詢、館際互借、文獻查收查引、館際互借等。大數(shù)據(jù)的平臺能對圖書館用戶的個人信息、借閱歷史、瀏覽記錄等數(shù)據(jù)進行分析,從而得出用戶的偏好和研究興趣,為不同的用戶提供不同的服務。大數(shù)據(jù)可從以下幾個領域為用戶提供個性化服務:
221個性化信息推送服務
數(shù)字圖書館對傳統(tǒng)圖書館的資源進行了數(shù)字化,使其更加易于獲取,并采用個人圖書館(My Library)平臺對圖書館可提供的服務類型進行整合,提供簡單的信息推送服務,不過,這種信息推送服務大程度都是圖書館發(fā)布的統(tǒng)一的通知類信息,并不能針對每一個個體用戶而推送個性化的信息。大數(shù)據(jù)分析平臺可以改善信息推送的針對性,通過分析用戶使用記錄就能夠推測出其信息需求,當用戶登錄個人圖書館時,系統(tǒng)就會自動為其推送其可能感興趣的信息,如采購新書、數(shù)據(jù)庫、甚至期刊論文全文。
222參考咨詢服務
目前的數(shù)字圖書館參考咨詢服務已能做到記錄用戶的咨詢記錄,當用戶再次使用參考咨詢服務時館員能夠瀏覽其以往的咨詢記錄,做到心中有數(shù)。大數(shù)據(jù)分析平臺能夠根據(jù)用戶以往的咨詢記錄以及用戶的個人信息、瀏覽記錄,預判用戶的需求,從用戶啟動咨詢的那一刻,大數(shù)據(jù)分析平臺隨機啟動,并隨著用戶提問的不斷深入,在后臺為咨詢館員提供精確的參考答案。
223學科服務
大數(shù)據(jù)分析平臺能夠利用圖書館擁有的數(shù)字資源及用戶的訪問記錄,分析相關學科領域的科研熱點,形成報告,為不同學科的科研人員服務,使他們及時了解本學科的最新的科研動向,以及本學科其他科研人員的研究進展。
224好書薦讀
好書薦讀是圖書館提供的特色服務之一,深受用戶的喜愛,目前,好書的甄選主要由人工完成,書籍的來源有用戶推薦、借閱排名以及各類暢銷書排行榜等。大數(shù)據(jù)分析平臺能夠采集用戶在使用圖書館服務時提及的各種圖書書名,對這些圖書進行綜合排名,能夠分析出用戶最感興趣的圖書名單。此外,大數(shù)據(jù)分析平臺也能通過分析圖書館數(shù)據(jù)庫中文獻的引用率,為用戶推薦圖書。
23大數(shù)據(jù)在用戶個性化服務內(nèi)容中的應用
在服務內(nèi)容的個性化方面,目前大多數(shù)圖書館憑借本館內(nèi)的資源或圖書館聯(lián)盟的圖書、期刊、數(shù)據(jù)庫等資源提供服務,對網(wǎng)絡上大量的非結構化信息資源較少涉及。隨著大數(shù)據(jù)在日常的生活和科學研究中發(fā)揮的作用越來越明顯,用戶也渴望通過圖書館統(tǒng)一檢索的平臺獲取對他們有用的各類結構化、非結構化信息。為滿足用戶需求,圖書館界有必要對大數(shù)據(jù)展開研究,提供復雜信息資源分析處理的服務。在大數(shù)據(jù)時代,圖書館的傳統(tǒng)業(yè)務將向數(shù)據(jù)分析、數(shù)據(jù)挖掘方向轉移,對大量數(shù)據(jù)的分析與處理,為用戶提供知識信息服務將成為圖書館的主要業(yè)務。圖書館信息資源數(shù)據(jù)量的擴展、服務質量的提升、服務策略的轉變不僅僅是依靠簡單的數(shù)據(jù)共享、豐富資源、創(chuàng)新方式、增加時間等,從大量數(shù)據(jù)中發(fā)現(xiàn)的規(guī)律越多,找出潛在的價值越大,圖書館的服務水平也將提升得越快[9]。事實上,數(shù)據(jù)分析所依賴的大量數(shù)據(jù)資源中,圖書館具有所有權的數(shù)據(jù)資源數(shù)量比較少,從而成為限制這種服務發(fā)展的瓶頸。圖書館如何與數(shù)據(jù)庫供應商以及其他與用戶相關聯(lián)的數(shù)據(jù)擁有者合作,共同開發(fā)和維護數(shù)據(jù)資源,將成為圖書館為用戶提供個性化服務的關鍵。
24大數(shù)據(jù)在圖書館管理中的應用
圖書館作為一個生長著的有機體,用戶的個性化需求會經(jīng)常會發(fā)生變化,這些變化可以通過用戶的建議來獲得,也可以通過分析用戶使用圖書館服務的記錄,預判用戶需求,為圖書館發(fā)展提供決策支持。首先,借助大數(shù)據(jù)分析平臺,圖書館可通過對用戶訪問、瀏覽、使用圖書館服務、來館時間、頻次以及活動范圍、使用圖書館設備等非結構化數(shù)據(jù),生成報告和圖表,圖書館管理人員就能夠直觀地了解圖書館各類服務和設備被使用的情況,從而為優(yōu)化人員和設備配置提供決策支持。其次,借助大數(shù)據(jù)分析平臺,圖書館還可以分析圖書借閱的情況和數(shù)據(jù)庫使用情況,為圖書采訪的副本量和主要采訪對象提供參考依據(jù),通過數(shù)據(jù)量使用數(shù)據(jù)的分析,可以得出哪些數(shù)據(jù)庫需要增加,哪些可以取消,增加與數(shù)據(jù)庫商進行談判的籌碼。再次,借助大數(shù)據(jù)分析平臺,大數(shù)據(jù)能節(jié)省大量的人力物力,在資源有限的情況下提高圖書館的工作效率,為用戶提供比如競爭情報等高水平的知識信息服務。此外,通過大數(shù)據(jù)平臺對用戶群體特征進行分析,建立圖書館業(yè)務建設的模型,可以為調整館藏資源、設備布局,評估風險等提供決策支持。
3大數(shù)據(jù)在圖書館用戶服務應用中的關鍵問題
31數(shù)據(jù)分析的平臺
處理結構化大數(shù)據(jù)的關系數(shù)據(jù)庫管理系統(tǒng)目前已經(jīng)比較成熟,三大主流關系數(shù)據(jù)庫Oracle、DB2和SQL Server在性能上各有千秋,均提供了強大的結構化數(shù)據(jù)管理及處理、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)決策等功能[10]。在處理復雜的結構化及非結構化大數(shù)據(jù)方面,圖書館面臨復雜數(shù)據(jù)處理和迅速增長的海量數(shù)據(jù)的挑戰(zhàn),選擇一個合適的大數(shù)據(jù)分析平臺至關重要。Hadoop是目前最為流行的平臺,具有高可靠性、高擴展性、高效性、高容錯性的特點,在電子商務、基礎設施管理、醫(yī)療保健、在線旅游等領域都有豐富的應用實踐。在Hadoop平臺上,圖書館大數(shù)據(jù)處理可分為4個層面,即客戶端層、中間層、應用服務層和存儲層[11]??蛻舳藢邮怯脩粲脕頌g覽和操作數(shù)字圖書館的各種應用服務的界面,一般是WEB瀏覽器和應用軟件。中間層主要是Web服務器,響應來自客戶端的HTTP請求,調用各種應用服務,并將處理的數(shù)據(jù)通過中間層返回給客戶端。應用服務層主要是一些應用服務器,負責提供各種數(shù)字圖書館的應用服務,主要是用戶管理、索引管理、資源管理、資源搜索、安全管理等。存儲層負責將數(shù)字資源實體虛擬成一個文件系統(tǒng),提供數(shù)據(jù)的分布式存儲。
32成本問題
大數(shù)據(jù)有利于圖書館降低運營的成本,圖書館可以根據(jù)大數(shù)據(jù)分析結果,提高資源的利用率,增加能為用戶帶來更好使用體驗的服務項目,減免不必要的支出。在大數(shù)據(jù)的運行成本方面,儲存持續(xù)增加數(shù)據(jù)量在總成本中占據(jù)相當大的的比例,如淘寶目前每天的活躍數(shù)據(jù)量已經(jīng)超過50TB,然而,就圖書館而言,目前可分析的數(shù)據(jù)量并不算很突出,清華大學圖書館2012年建立的集中存儲系統(tǒng)也僅有500TB,這為經(jīng)費并不充沛的圖書館減輕了壓力。此外,大數(shù)據(jù)時代到來的原因是成本的降低和能力的提高,根據(jù)摩爾定律,當價格不變時,計算機的性能約每隔18個月將提升一倍。隨著技術的進步,圖書館利用大數(shù)據(jù)的成本也將會越來越低。
33用戶隱私
用戶數(shù)據(jù)的妥善保存對圖書館的信譽度有較大的影響。在大數(shù)據(jù)時代,圖書館用戶的個人信息和通過人機交互產(chǎn)生行為信息都屬于用戶隱私的范疇,這些信息如果得到了合理的利用,可為用戶提供更優(yōu)質的個性化服務,反之,如果圖書館用戶數(shù)據(jù)遭到泄露,則極易遭到商業(yè)化或非法利用,給用戶帶來損失,從而使用戶對圖書館的信任度降低,導致用戶流失。
參考文獻
[1]Big Data:What It Is and Why You Should Care[EB/OL].http:∥sites.amd.com/es/Documents/Big-Data-WP-06-2011.pdf,2013-11-12.
[2]Big Data:The Next Frontier for Innovation,Competition,and Productivity[EB/OL].http:∥www.mckinsey.com/insights/businesstechnology/bigdatathenextfrontierforinnovation,2013-11-12.
[3]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,(1):146-169.
[4]Big Data Across the Federal Government[EB/OL].http:∥www.whitehouse.gov/sites/default/files/microsites/ostp/bigdatafactsheet.pdf,2013-11-22.
[5]IBM智慧的分析洞察[EB/OL].http:∥www-31.ibm.com/ibm/cn/bao/bigdata/smarteranalytics/index.shtml,2013-12-18.
[6]IBM大數(shù)據(jù)助Vestas將氣候轉化為資本[EB/OL].http:∥www-03.ibm.com/software/products/zh/category/SWP10,2013-12-18.
[7]姜山,王剛.大數(shù)據(jù)對圖書館的啟示[J].圖書館工作與研究,2013,(4):52-79.
[8]周青.試論圖書館個性化服務與未來展望[J].圖書館,2004,(1):73-75.
[9]楊海燕.大數(shù)據(jù)時代的圖書館服務淺析[J].圖書與情報,2012,(4):120-122.
[10]郭自寬,張興旺,麥范金.大數(shù)據(jù)生態(tài)系統(tǒng)在圖書館中的應用[J].情報資料工作,2013,(2):23-28.
[11]王亞民,劉學勝.基于Hadoop平臺的數(shù)字圖書館研究[J].情報科學,2012,(11):1685-1690.
(本文責任編輯:馬卓)
endprint