宓永迪
(浙江圖書(shū)館,浙江 杭州 310007)
大數(shù)據(jù)(big data)指的是:所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。現(xiàn)在人們用它來(lái)描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。隨著社交網(wǎng)絡(luò)的逐漸成熟,移動(dòng)帶寬迅速提升,云計(jì)算、物聯(lián)網(wǎng)應(yīng)用更加豐富,更多的傳感設(shè)備、移動(dòng)終端接入到網(wǎng)絡(luò),由此產(chǎn)生的數(shù)據(jù)及增長(zhǎng)速度將比歷史上的任何時(shí)期都要多,都要快。例如國(guó)內(nèi)最主要的搜索引擎百度,光是其首頁(yè)導(dǎo)航每天就要從超過(guò)1.5PB的數(shù)據(jù)中進(jìn)行挖掘,這些數(shù)據(jù)如果打印出來(lái)將超過(guò)5千億張A4紙。全部摞起來(lái)超過(guò)4萬(wàn)公里高,接近地球同步衛(wèi)星軌道,平鋪可以鋪滿海南島。如今,只需兩天就能創(chuàng)造出自文明誕生以來(lái)到2003年所產(chǎn)生的數(shù)據(jù)總量。哈佛大學(xué)的社會(huì)學(xué)教授加里·金說(shuō):“這是一場(chǎng)革命,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開(kāi)始了量化進(jìn)程,無(wú)論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開(kāi)始這種進(jìn)程。”我們已經(jīng)迎來(lái)了一個(gè)“大數(shù)據(jù)”時(shí)代[1]。
“大數(shù)據(jù)”的顯著特征表現(xiàn)為:“大量(Volume)、多樣 (Variety)、價(jià)值(Value)和快速 (Velocity)”。從互聯(lián)網(wǎng)的角度看,這可以歸結(jié)為三個(gè)基本原因。第一,網(wǎng)絡(luò)用戶的高速增長(zhǎng)和用戶平均網(wǎng)絡(luò)使用時(shí)間的不斷延長(zhǎng),使得用戶網(wǎng)絡(luò)行為數(shù)據(jù)大增;第二,網(wǎng)絡(luò)服務(wù)從單一的文字形式走向圖像、語(yǔ)音和影像等多媒體形式,導(dǎo)致數(shù)據(jù)量大增;第三,網(wǎng)絡(luò)終端由過(guò)去單一的臺(tái)式機(jī)變?yōu)榕_(tái)式機(jī)、筆記本電腦、平板電腦、電子書(shū)閱讀器、手機(jī)和電視等多終端,極大擴(kuò)充了網(wǎng)絡(luò)服務(wù)的內(nèi)容與范圍,大大提高了用戶對(duì)互聯(lián)網(wǎng)的依賴度,也就大大增加了數(shù)據(jù)量[2]。
目前,隨著圖書(shū)館向數(shù)字化、信息化邁進(jìn),圖書(shū)館擁有、掌握的數(shù)據(jù)也在日益增加。傳統(tǒng)圖書(shū)館的數(shù)據(jù)主要是流通、書(shū)目、采訪數(shù)據(jù),數(shù)據(jù)量不大,一臺(tái)普通服務(wù)器幾十個(gè)GB的硬盤(pán)即可存放?,F(xiàn)在越來(lái)越多的讀者在網(wǎng)上訪問(wèn)圖書(shū)館的文字和多媒體數(shù)字資源,也有越來(lái)越多的讀者攜帶自己的筆記本電腦、平板電腦、智能手機(jī)等移動(dòng)終端來(lái)圖書(shū)館,通過(guò)無(wú)線網(wǎng)絡(luò)訪問(wèn)圖書(shū)館內(nèi)網(wǎng)和互聯(lián)網(wǎng)。這些趨勢(shì)使得圖書(shū)館的數(shù)據(jù)大為增加,除了大量本地多媒體數(shù)字資源外,還包括了相應(yīng)的讀者對(duì)數(shù)字資源的訪問(wèn)日志、網(wǎng)站的瀏覽點(diǎn)擊量、電子閱覽室的上網(wǎng)記錄、無(wú)線網(wǎng)絡(luò)讀者登錄數(shù)據(jù);引入RFID技術(shù)后增加的RFID標(biāo)簽寫(xiě)入數(shù)據(jù),RFID自助設(shè)備流通、盤(pán)點(diǎn)數(shù)據(jù)、書(shū)刊定位信息;門(mén)禁系統(tǒng)的讀者進(jìn)出統(tǒng)計(jì)信息、視頻監(jiān)控?cái)?shù)據(jù),已經(jīng)需要TB級(jí)的存儲(chǔ)陣列才能滿足要求。今后隨著智能書(shū)架的應(yīng)用,智能圖書(shū)館的出現(xiàn),數(shù)據(jù)量還可能暴增,包括讀者實(shí)時(shí)閱覽數(shù)據(jù),書(shū)刊實(shí)時(shí)架位信息、被取閱情況;館內(nèi)電子支付信息,環(huán)境、設(shè)備監(jiān)測(cè)信息等等。
雖然圖書(shū)館掌握的數(shù)據(jù)量在不斷增加,然而對(duì)這些數(shù)據(jù)的分析、挖掘、利用還遠(yuǎn)遠(yuǎn)沒(méi)有充分開(kāi)展。各個(gè)部門(mén)的統(tǒng)計(jì)數(shù)據(jù)仍然是幾個(gè)較為傳統(tǒng)、粗略的項(xiàng)目:新增讀者量,讀者流量,圖書(shū)借閱量,采購(gòu)書(shū)刊數(shù)量、種類,電子閱覽室讀者量等,既缺少總體層面上定量的綜合性分析、判斷、評(píng)估,更少見(jiàn)針對(duì)某個(gè)具體項(xiàng)目或服務(wù)的實(shí)時(shí)動(dòng)態(tài)、精細(xì)化的數(shù)據(jù)表達(dá)和解析。如果能夠?qū)Υ罅康臄?shù)據(jù)進(jìn)行深入發(fā)掘,就可以更精確地了解圖書(shū)館書(shū)刊、資源的利用情況,以及讀者數(shù)量的變化趨勢(shì)、閱讀偏好、行為模式,各項(xiàng)服務(wù)的實(shí)際效果等,為實(shí)際的服務(wù)、管理工作提供及時(shí)、有效的數(shù)據(jù)參考和評(píng)價(jià)指標(biāo)。
大數(shù)據(jù)時(shí)代為網(wǎng)絡(luò)業(yè)帶來(lái)了新的機(jī)遇。數(shù)據(jù)量的增加為網(wǎng)絡(luò)公司提供了精確把握用戶群體和個(gè)體網(wǎng)絡(luò)行為模式的基礎(chǔ),如果能夠充分利用,就可以探索個(gè)性化、精確化和智能化地進(jìn)行廣告推送和服務(wù)推廣等服務(wù),創(chuàng)立比現(xiàn)有廣告和產(chǎn)品推廣形式性價(jià)比高得多的全新商業(yè)模式。同時(shí),通過(guò)對(duì)大數(shù)據(jù)的把握,可以尋找出增加用戶粘性、開(kāi)發(fā)新產(chǎn)品和服務(wù)、降低運(yùn)營(yíng)成本等更多的方法和途徑。淘寶的統(tǒng)計(jì)表明,當(dāng)前商家80%以上的數(shù)據(jù)需求是針對(duì)消費(fèi)者購(gòu)買行為的分析,比如點(diǎn)擊量、跨店鋪點(diǎn)擊、訂單流轉(zhuǎn)量甚至旺旺聊天信息的收集和分析等,都是商家極為關(guān)心的[3]。
雖然圖書(shū)館的目的是為讀者提供公益性的服務(wù),網(wǎng)絡(luò)企業(yè)的目的是贏利,但是都是秉承“以用戶為中心”的服務(wù)理念,在如何滿足用戶需要、節(jié)約用戶成本等方面有著許多共同點(diǎn)。因此,大數(shù)據(jù)時(shí)代同樣為圖書(shū)館更深入、準(zhǔn)確了解讀者行為和館藏資源利用情況,并充分了解我們自己,提高自身服務(wù)、管理水平提供了過(guò)去無(wú)法獲得的寶貴數(shù)據(jù)和手段。
例如,通過(guò)對(duì)各個(gè)門(mén)類圖書(shū)借閱量的統(tǒng)計(jì),而不是只統(tǒng)計(jì)一個(gè)總的流通量,就可以發(fā)現(xiàn)利用率明顯偏高和偏低的圖書(shū)種類,從而有意識(shí)地增加熱門(mén)種類圖書(shū)的采購(gòu)品種和復(fù)本量,降低冷門(mén)種類圖書(shū)的采購(gòu)數(shù)量;進(jìn)一步分析新書(shū)上架后歷年的借閱情況,還能看到有些種類的圖書(shū)其借閱量隨時(shí)間下降很快,另外一些圖書(shū)的借閱量則隨時(shí)間緩慢變化,對(duì)于二者,就應(yīng)該適用不同的剔舊年限,而非現(xiàn)在的一刀切方式。更可以在剔除時(shí)精確到單本書(shū),對(duì)利用率特別高的熱門(mén)書(shū)暫緩下架。而分析OPAC讀者檢索情況,包括關(guān)鍵詞使用的頻率、檢索命中的結(jié)果數(shù)量、在檢索結(jié)果列表中點(diǎn)擊了哪條記錄以及預(yù)約續(xù)借等情況,可以了解讀者感興趣的內(nèi)容和其檢索習(xí)慣、效果等。如有大量的續(xù)借,是否說(shuō)明借期偏短;某本書(shū)預(yù)約排隊(duì)很長(zhǎng),是否意味需要追加采購(gòu)量。
通過(guò)對(duì)讀者數(shù)據(jù)的分析挖掘,則有利于把握讀者的行為方式,并根據(jù)不同讀者的特點(diǎn)開(kāi)展個(gè)性化服務(wù)。如分析本館讀者數(shù)據(jù)時(shí)發(fā)現(xiàn),20到30年齡段的讀者占了讀者量的近60%,而他們的活躍程度則最低。因此,如果能吸引更多的年輕讀者,設(shè)法增加其粘度,就可起到事半功倍的效果。又例如在統(tǒng)計(jì)每年新增讀者基礎(chǔ)上,跟蹤新讀者隨注冊(cè)年限變化的動(dòng)態(tài)借閱數(shù)量,即可估算出讀者的流失情況,如本館2011年新增讀者當(dāng)年的借閱比例是80%,而2007年注冊(cè)讀者2011年的借閱比例只有20%多,這說(shuō)明讀者的粘度不夠,圖書(shū)館在如何留住現(xiàn)有讀者方面還大有潛力可挖。進(jìn)一步對(duì)讀者借閱情況按月份進(jìn)行細(xì)分,發(fā)現(xiàn)讀者借書(shū)高峰期是3月到5月,而低谷出現(xiàn)在9月,暑假則是學(xué)生最集中的時(shí)段,這些數(shù)據(jù)有助于圖書(shū)館細(xì)分讀者群,以便在合適的時(shí)間開(kāi)展針對(duì)不同讀者的活動(dòng)。還可以分析每個(gè)讀者的閱讀喜好及其變化趨勢(shì),有選擇地開(kāi)展精準(zhǔn)化的新書(shū)推薦、活動(dòng)通知等服務(wù)。
圖書(shū)館網(wǎng)上的日志數(shù)據(jù)也為我們定量精確分析圖書(shū)館網(wǎng)絡(luò)服務(wù)提供了手段?,F(xiàn)在許多圖書(shū)館都建立了專門(mén)針對(duì)使用移動(dòng)終端、主要是手機(jī)讀者的移動(dòng)圖書(shū)館,還開(kāi)展了全文數(shù)字資源的移動(dòng)閱讀服務(wù),但是效果究竟如何,特別是目前手機(jī)屏幕越來(lái)越大,分辨率越來(lái)越高,使用手機(jī)等移動(dòng)終端的讀者是否還需要專門(mén)的移動(dòng)圖書(shū)館?如果能對(duì)網(wǎng)站的服務(wù)器日志進(jìn)行分析,統(tǒng)計(jì)出手機(jī)圖書(shū)館網(wǎng)站的訪問(wèn)量與傳統(tǒng)圖書(shū)館網(wǎng)站訪問(wèn)量之比,再更細(xì)化地從傳統(tǒng)網(wǎng)站訪問(wèn)量中抽取出使用移動(dòng)終端訪問(wèn)的數(shù)量,就可以獲得相關(guān)的數(shù)據(jù),得出比較有說(shuō)服力的結(jié)論。又如目前圖書(shū)館電子閱覽室一般都可憑身份證免費(fèi)上網(wǎng),分析本館電子閱覽室的上網(wǎng)日志,可發(fā)現(xiàn)有一批以外地年輕打工者為主的讀者,經(jīng)常用身份證上網(wǎng)卻不愿意花押金辦借書(shū)證。圖書(shū)館如能深入了解其需求,降低辦證門(mén)檻,激發(fā)引導(dǎo)其閱讀興趣,也許就能將這些“準(zhǔn)讀者”中的很多人轉(zhuǎn)化為真正的讀者。
大數(shù)據(jù)對(duì)于圖書(shū)館的挑戰(zhàn)表現(xiàn)在幾個(gè)方面。首先,大數(shù)據(jù)挑戰(zhàn)著圖書(shū)館的戰(zhàn)略決策能力。大量數(shù)據(jù)提供的信息可能紛繁復(fù)雜,互相之間也可能有矛盾,或者和以前的觀念和思路相悖。這就需要能夠透過(guò)現(xiàn)象抓住本質(zhì),找出關(guān)鍵所在,以數(shù)據(jù)為王,同時(shí)綜合考慮其他方面因素,大膽進(jìn)行工作流程和思路的調(diào)整。例如如果發(fā)現(xiàn)移動(dòng)圖書(shū)館效果不佳,就應(yīng)果斷叫停,把精力集中在傳統(tǒng)圖書(shū)館網(wǎng)站的改造上,以使其適合多種終端設(shè)備,在固定和移動(dòng)終端上都能有滿意的讀者體驗(yàn)。
其次,大數(shù)據(jù)挑戰(zhàn)著圖書(shū)館的技術(shù)開(kāi)發(fā)、數(shù)據(jù)處理能力和組織能力。大數(shù)據(jù)的出現(xiàn)以及潛在的價(jià)值不僅要求圖書(shū)館配置使用更多的數(shù)據(jù)存儲(chǔ)設(shè)備和有關(guān)的軟硬件,而且更要求有專門(mén)的數(shù)據(jù)分析方法和體系。對(duì)海量數(shù)據(jù)的分析不能僅僅局限在一般數(shù)據(jù)規(guī)律和模型的把握水平上,而且要有理論思維和全面把握的綜合深入能力。一方面要從過(guò)去基于單個(gè)部門(mén)、服務(wù)、項(xiàng)目的碎片式靜態(tài)統(tǒng)計(jì)分析轉(zhuǎn)向全面、完整、動(dòng)態(tài)、實(shí)時(shí)的分析方法;另一方面要能夠從大量的數(shù)據(jù)中篩選出真正對(duì)提高圖書(shū)館服務(wù)、管理水平有用的數(shù)據(jù),并提煉出合適的算法、模型和表達(dá)方式。因此,圖書(shū)館既需要有數(shù)據(jù)工程師開(kāi)發(fā)數(shù)據(jù)分析挖掘程序,也需要有專門(mén)的數(shù)據(jù)管理和分析專家,制定分析的思路、路徑,對(duì)結(jié)果進(jìn)行比較、判斷,為決策提供可靠參考。
圖書(shū)館的數(shù)據(jù)正在日益快速增加,我們應(yīng)該充分利用這些寶貴的信息資源,以改善圖書(shū)館的服務(wù)和管理,使得圖書(shū)館的服務(wù)和管理向精細(xì)化、定量化發(fā)展。
〔1〕大數(shù)據(jù)時(shí)代:個(gè)人信息安全該如何保障[EB/OL].http://www.cnw.com.cn/cloud-computing/htm2012/20120802_251525.shtml
〔2〕DCCI發(fā)布:大數(shù)據(jù)時(shí)代互聯(lián)網(wǎng)營(yíng)銷的5個(gè)轉(zhuǎn)變[EB/OL].http://media.people.com.cn/n/2012/0727/c40728-18612202.html
〔3〕 迎 接 大 數(shù) 據(jù) 時(shí) 代[EB/OL].http://www.kaixin001.com/repaste/88276192_6865276452.html#rel ation=parent&message=%7B%22loginprobe%22%3A1%7D&_=0.6974899288499503