【摘 要】本文通過梳理大數(shù)據(jù)的內(nèi)涵與理念,分析了大數(shù)據(jù)環(huán)境下圖書館服務(wù)面臨的挑戰(zhàn)、大數(shù)據(jù)環(huán)境下圖書館應(yīng)用大數(shù)據(jù)技術(shù)促進(jìn)服務(wù)的新發(fā)展。
【關(guān)鍵詞】大數(shù)據(jù);圖書館服務(wù);新發(fā)展
【中圖分類號(hào)】G252 【文獻(xiàn)標(biāo)識(shí)碼】A
【文章編號(hào)】2095-3089(2018)22-0005-02
《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》報(bào)告中首次提出了“大數(shù)據(jù)”的概念,還對(duì)大數(shù)據(jù)的分析技術(shù)與工具進(jìn)行了列舉,如目前已為廣大圖書情報(bào)研究者所熟知的聚類分析、數(shù)據(jù)挖掘、網(wǎng)絡(luò)分析、可視化分析、數(shù)據(jù)融合與數(shù)據(jù)集成等。
一、大數(shù)據(jù)內(nèi)涵及理念
1.大數(shù)據(jù)內(nèi)涵。
關(guān)于大數(shù)據(jù),目前學(xué)界尚未形成統(tǒng)一的定義,但是存在一些共識(shí): 大數(shù)據(jù)是一個(gè)動(dòng)態(tài)概念,是一個(gè)用來描述海量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的流行短語(yǔ),大數(shù)據(jù)的容量非常巨大以至于很難用傳統(tǒng)的數(shù)據(jù)庫(kù)和軟件技術(shù)進(jìn)行存儲(chǔ)、管理和處理。但是,人們沒有明確提出數(shù)據(jù)量必須達(dá)到TB級(jí)或PB級(jí)才算是大數(shù)據(jù),數(shù)據(jù)量隨著信息技術(shù)的發(fā)展而改變,過去或目前的大數(shù)據(jù),在未來可能不再是大數(shù)據(jù)。
大數(shù)據(jù)具有 4V 特征,即種類( Variety) 多、速度( Velocity) 快、容量(Volume) 大、價(jià)值(Value) 大,其中價(jià)值大是其首要特征。建立數(shù)據(jù)驅(qū)動(dòng)的關(guān)于大數(shù)據(jù)相關(guān)關(guān)系的分析以及建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的價(jià)值所在。
2.大數(shù)據(jù)理念。
大數(shù)據(jù)基本理念是通過包括互聯(lián)網(wǎng)在內(nèi)的多種渠道收集研究對(duì)象的多維度數(shù)據(jù),通過對(duì)海量數(shù)據(jù)的關(guān)聯(lián)分析和數(shù)據(jù)挖掘,發(fā)現(xiàn)被研究對(duì)象的潛在行為模式或規(guī)律。
(1)大數(shù)據(jù)的價(jià)值提純。
大數(shù)據(jù)時(shí)代,重要的不是數(shù)據(jù),而是如何使用數(shù)據(jù)。企業(yè)要想創(chuàng)新發(fā)展立于不敗之地,必須改變它們的經(jīng)營(yíng)方式,學(xué)會(huì)從數(shù)據(jù)中洞察事實(shí)并做出反應(yīng),否則數(shù)據(jù)整理得再有條理,也沒有什么價(jià)值。美國(guó)麻省理工學(xué)院管理評(píng)論在一個(gè)研究報(bào)告中指出: “頂尖績(jī)效的公司使用正確分析挖掘方法和工具的使用率,與績(jī)效低的公司相比,高出5倍?!笨梢?,挖掘數(shù)據(jù)價(jià)值在企業(yè)中非常重要,是人們利用大數(shù)據(jù)進(jìn)行決策、發(fā)現(xiàn)事物規(guī)律的前提。
(2)大數(shù)據(jù)的分析與未來預(yù)知。
美國(guó)學(xué)者艾伯特拉斯洛·巴拉巴西認(rèn)為,93% 的人類行為均可以通過數(shù)據(jù)分析予以預(yù)測(cè)。因此,圖書館要把用戶訪問圖書館網(wǎng)站、利用資源習(xí)慣、用戶網(wǎng)絡(luò)行為等數(shù)據(jù)搜集起來,進(jìn)行分析挖掘,去發(fā)現(xiàn)用戶利用資源的規(guī)律及信息需求特點(diǎn)。
(3)大數(shù)據(jù)的服務(wù)精準(zhǔn)與個(gè)性化。
大數(shù)據(jù)能夠收集來自電子商務(wù)、企業(yè)網(wǎng)站、博客、微信、移動(dòng)應(yīng)用等不同渠道的用戶訪問、交易和反饋數(shù)據(jù),通過這些數(shù)據(jù)能夠了解用戶的全方面信息,通過分析數(shù)據(jù)可以針對(duì)不同的用戶提供更加精確、更加貼心的服務(wù); 對(duì)信息服務(wù)機(jī)構(gòu)來說,通過收集、分析用戶信息,可以提供個(gè)性化服務(wù)或一對(duì)一服務(wù)。
二、大數(shù)據(jù)環(huán)境下圖書館服務(wù)面臨的挑戰(zhàn)
大數(shù)據(jù)對(duì)圖書館服務(wù)造成的挑戰(zhàn)主要有: 一是數(shù)據(jù)量龐大。過去圖書館沒有關(guān)心或沒有能力關(guān)心的數(shù)據(jù),如: 社交媒體、智能設(shè)備、傳感器計(jì)量、消費(fèi)痕跡等復(fù)雜業(yè)務(wù)數(shù)據(jù),也成為收藏對(duì)象。另外,隨著資源共享、圖書館聯(lián)盟建立,有的數(shù)字館藏量已達(dá)TB級(jí),甚至PB級(jí)。二是隨著圖書館越來越重視服務(wù)層次的提高特別是個(gè)性化服務(wù),圖書館系統(tǒng)與網(wǎng)絡(luò)日志、監(jiān)控與服務(wù)視頻、音頻、圖片、網(wǎng)絡(luò)行為及增值服務(wù)信息等非結(jié)構(gòu)化數(shù)據(jù)將大大超越了以數(shù)字文本為主的結(jié)構(gòu)化信息資源的數(shù)據(jù)量。三是圖書館龐大數(shù)據(jù)量與非結(jié)構(gòu)化數(shù)據(jù)使數(shù)據(jù)的價(jià)值密度極大降低,而圖書館收藏及提供的信息資源是要經(jīng)過篩選的高質(zhì)量知識(shí)信息。因此,圖書館需要利用大數(shù)據(jù)技術(shù)處理海量數(shù)據(jù)來提高數(shù)據(jù)的價(jià)值可用性。
大數(shù)據(jù)環(huán)境下,圖書館除圖書、期刊、報(bào)紙、全文數(shù)據(jù)庫(kù)、媒體數(shù)據(jù)庫(kù)和自建數(shù)據(jù)庫(kù)等資源大數(shù)據(jù)及采訪、編目、借閱、文獻(xiàn)傳遞、參考咨詢等業(yè)務(wù)大數(shù)據(jù)和用戶大數(shù)據(jù)外,還包括行業(yè)數(shù)據(jù)、相關(guān) Web 站點(diǎn)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)及其他外部數(shù)據(jù)來源,這些數(shù)據(jù)每天都在呈爆炸式增長(zhǎng),總量大,類型復(fù)雜多樣,以半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化異構(gòu)數(shù)據(jù)為主。如何收集有價(jià)值的數(shù)據(jù)成為一大難題,云計(jì)算為這些數(shù)據(jù)的有效整合提供了基礎(chǔ)和便利。圖書館可將數(shù)據(jù)資源存儲(chǔ)到云服務(wù)器上,形成多個(gè)地區(qū)多個(gè)類型圖書館資源的聚合中心,圖書館員只需通過網(wǎng)絡(luò)獲取和管理云中資源,在使用過程中不斷豐富和完善,解決圖書館大數(shù)據(jù)帶來的數(shù)據(jù)雜、垃圾數(shù)據(jù)多、資源分散分布及存儲(chǔ)成本高等問題。
大數(shù)據(jù)時(shí)代,圖書館服務(wù)質(zhì)量的提升需要大數(shù)據(jù)的支持,圖書館對(duì)讀者數(shù)據(jù)進(jìn)行分析、處理和預(yù)測(cè),能夠給讀者提供更好的服務(wù)模式。讀者信息需求更加個(gè)性化與多樣化,為滿足其需求圖書館需要分析圖書館與讀者之間、不同服務(wù)數(shù)據(jù)之間、讀者與服務(wù)數(shù)據(jù)之間的關(guān)系數(shù)據(jù),預(yù)測(cè)讀者需求、提供個(gè)性化定制服務(wù)與針對(duì)性服務(wù)。因此,從海量數(shù)據(jù)中提煉價(jià)值、分析讀者行為和需求,并通過個(gè)性化服務(wù)來滿足讀者獲取信息的效率、準(zhǔn)確性和便捷性,成為影響圖書館服務(wù)發(fā)展及質(zhì)量提升的關(guān)鍵。
三、大數(shù)據(jù)在數(shù)字圖書館中的運(yùn)用
隨著數(shù)字圖書館的迅速發(fā)展, 大數(shù)據(jù)工作也有了較大的應(yīng)用價(jià)值。 將圖書館數(shù)據(jù)進(jìn)行挖掘的主要工作包括:
1.在數(shù)據(jù)處理方面的應(yīng)用。
由于圖書館對(duì)于數(shù)據(jù)有自身處理方式, 例如:高借閱類的書籍,今后可以多采購(gòu)一些, 以便應(yīng)付更多的讀者進(jìn)行瀏覽。 但是由于大數(shù)據(jù)工作在這些細(xì)微的方面需要進(jìn)行大量的工作, 因此圖書管理中實(shí)現(xiàn)大數(shù)據(jù)應(yīng)當(dāng)進(jìn)行更多地?cái)?shù)據(jù)處理和分析。
2.在用戶管理挖掘上的應(yīng)用。
用戶資源管理是現(xiàn)代圖書館實(shí)現(xiàn)個(gè)性化服務(wù)的重要基礎(chǔ)。 大數(shù)據(jù)可以從大量的用戶數(shù)據(jù)中挖掘出反映用戶屬性特征和信息行為特征的信息和規(guī)律, 從而為圖書館用戶資源管理提供幫助。從數(shù)字圖書館的大量訪問信息中挖掘用戶的訪問模式,也可從用戶訪問文檔的超鏈接來預(yù)測(cè)用戶的興趣,采用關(guān)聯(lián)性法則和聚類方法發(fā)現(xiàn)不同的用戶群體,然后對(duì)這些不同的群體提供信息定制服務(wù),幫助群體成員搜索、處理知識(shí)。
3.在用戶和圖書推薦上的應(yīng)用。
為了實(shí)現(xiàn)推薦系統(tǒng)的功能, 考慮到讀者、 圖書以及出版社的特點(diǎn), 需要應(yīng)用不同的推薦方法, 大致分為以下幾類:
(1)非個(gè)性化推薦 (Non-Personalized Recommen-dation):所有的讀者得到的推薦都是相同的, 是非個(gè)性化的推薦。 例如在高校數(shù)字圖書館中,可以向所有訪問系統(tǒng)的讀者推薦月度最暢銷的書,借閱的雜志等。
(2)基于圖書的推薦:推薦系統(tǒng)根據(jù)讀者興趣推薦相關(guān)的圖書, 這種方式需要了解讀者當(dāng)前選擇的圖書。 例如某位讀者選擇借閱了有關(guān)復(fù)雜網(wǎng)絡(luò)的書籍,推薦系統(tǒng)就可以向其推薦其它關(guān)于復(fù)雜網(wǎng)絡(luò)的圖書、雜志、論文等。
(3)相關(guān)性讀者推薦:推薦系統(tǒng)根據(jù)目前讀者與閱讀了該圖書的其它讀者之間的相關(guān)性進(jìn)行推薦。例如高校數(shù)字圖書館可以對(duì)某讀者推薦其它與其相類似(相同愛好、 研究方向等) 的讀者共同研究。
(4)基于知識(shí)的推薦:通過推斷讀者的需要進(jìn)行推測(cè),系統(tǒng)要具有 “特定圖書能夠滿足特定讀者需要”的知識(shí),來推導(dǎo)出讀者需要與某一圖書的相互關(guān)系。推薦系統(tǒng)可以根據(jù)某讀者的歷史借閱數(shù)據(jù)和文獻(xiàn)數(shù)據(jù)之間的分析, 獲得讀者的潛在知識(shí)需求, 對(duì)讀者進(jìn)行建議。事實(shí)上,在推薦系統(tǒng)中綜合運(yùn)用以上技術(shù)和方法,以達(dá)到更好的推薦效果。
四、大數(shù)據(jù)環(huán)境下圖書館服務(wù)的新發(fā)展
1.數(shù)據(jù)分析與數(shù)據(jù)挖掘是圖書館服務(wù)基礎(chǔ)。
大數(shù)據(jù)時(shí)代,圖書館間的競(jìng)爭(zhēng)不僅是對(duì)文獻(xiàn)信息的擁有與組織的競(jìng)爭(zhēng),更多的是對(duì)多類型數(shù)據(jù)的擁有、融合、挖掘與利用能力的競(jìng)爭(zhēng),即大數(shù)據(jù)推動(dòng)圖書館服務(wù)體系從以資源為中心向以數(shù)據(jù)為中心的方向發(fā)展,并且數(shù)據(jù)分析與數(shù)據(jù)挖掘成為圖書館提供服務(wù)與開展工作的基礎(chǔ)。圖書館要想提升服務(wù)水平,需要對(duì)用戶數(shù)據(jù)進(jìn)行分析、處理和預(yù)測(cè),以便提供更好的服務(wù)和更多的服務(wù)方式。圖書館通過對(duì)用戶借閱記錄、數(shù)字資源使用下載行為、網(wǎng)站瀏覽等記錄進(jìn)行分析,建立用戶數(shù)據(jù)庫(kù),再進(jìn)行用戶行為模式相似性比對(duì),提供準(zhǔn)確的信息資源推薦及推送服務(wù); 通過對(duì)圖書借閱率、借閱排行、借閱次數(shù)、訪問數(shù)字資源類型及時(shí)間、學(xué)習(xí)行為、利用資源模式等記錄進(jìn)行分析,圖書館能有針對(duì)性地采購(gòu)用戶需要的信息資源; 通過對(duì)讀者閱讀習(xí)慣、學(xué)習(xí)方式、獲取資源方式等數(shù)據(jù)進(jìn)行分析,圖書館能科學(xué)合理地完善圖書館工作流程與服務(wù)模式。
2.大數(shù)據(jù)環(huán)境下圖書館服務(wù)走向個(gè)性化。
大數(shù)據(jù)環(huán)境下,圖書館的服務(wù)策略建立在對(duì)大規(guī)模復(fù)雜數(shù)據(jù)搜集、組織、整理、分析和挖掘的基礎(chǔ)之上,因而大數(shù)據(jù)時(shí)代的圖書館服務(wù)項(xiàng)目更具有針對(duì)性和操作性。所以圖書館在解決用戶問題時(shí),可以完全拋棄傳統(tǒng)的解決流程,而采用大數(shù)據(jù)策略的解決方案,即搜集解決用戶問題的相關(guān)數(shù)據(jù),量化分析,再找出相互關(guān)系,給出最優(yōu)解決方案。圖書館對(duì)數(shù)據(jù)的挖掘、分析,不僅要分析 MARC、電子論文、電子圖書等結(jié)構(gòu)化數(shù)據(jù),還要分析用戶的借閱行為、閱讀習(xí)慣等非結(jié)構(gòu)化數(shù)據(jù)以及用戶的網(wǎng)絡(luò)交流等網(wǎng)絡(luò)行為數(shù)據(jù),這樣圖書館才能實(shí)現(xiàn)“一對(duì)一”的個(gè)性化服務(wù)。如: 美國(guó)國(guó)會(huì)圖書館通過分析館內(nèi)布局與藏書流通率的關(guān)系,來量化并預(yù)測(cè)用戶的借閱行為,進(jìn)而提供針對(duì)性服務(wù)。目前支持圖書館網(wǎng)上個(gè)性化信息服務(wù)所需的web數(shù)據(jù)庫(kù)技術(shù)、網(wǎng)頁(yè)動(dòng)態(tài)生成技術(shù)、數(shù)據(jù)跟蹤技術(shù)、數(shù)據(jù)加密技術(shù)等都在不斷發(fā)展并應(yīng)用,大數(shù)據(jù)的發(fā)展,可以促使服務(wù)時(shí)空的個(gè)性化、服務(wù)對(duì)象的個(gè)性化、服務(wù)內(nèi)容與方式的個(gè)性化,甚至服務(wù)支撐技術(shù)的個(gè)性化。
3.大數(shù)據(jù)環(huán)境下圖書館服務(wù)趨向智慧性。
大數(shù)據(jù)是數(shù)據(jù)世界的智慧基因,分析和應(yīng)用大數(shù)據(jù)是獲得智慧的關(guān)鍵。傳統(tǒng)分析數(shù)據(jù)的思路基本上都是抽取樣本,事先確定收集什么樣的數(shù)據(jù),然后尋找“已知的未知( Known unknows) ”,即證實(shí)某一結(jié)論正確。而大數(shù)據(jù)分析則是以全部數(shù)據(jù)為對(duì)象,發(fā)現(xiàn)未知的未知,即找到一些未曾想到的結(jié)果。大數(shù)據(jù)這種發(fā)現(xiàn)未知的未知功能為圖書館服務(wù)創(chuàng)新、實(shí)現(xiàn)智能化開辟了途徑,圖書館服務(wù)開始趨向智慧化發(fā)展: 第一,大數(shù)據(jù)技術(shù)不僅能夠利用數(shù)據(jù)了解用戶、信息行為、意愿、業(yè)務(wù)需求、知識(shí)應(yīng)用能力及服務(wù)需求等,還能夠利用數(shù)據(jù)分析和預(yù)測(cè)用戶科研創(chuàng)新將要發(fā)生什么,從而提供智慧服務(wù)。第二,對(duì)圖書館已有信息資源進(jìn)行挖掘,抓取有價(jià)值的知識(shí)、關(guān)系、模式等,對(duì)網(wǎng)絡(luò)免費(fèi)信息資源利用蜘蛛爬行器、自動(dòng)跟蹤等技術(shù)完成對(duì)其搜集、處理和保存等,以便構(gòu)建智慧型知識(shí)服務(wù)引擎。第三,大數(shù)據(jù)時(shí)代,智慧服務(wù)的三個(gè)基本要素是智慧館員、數(shù)據(jù)( 知識(shí)) 和用戶,其中智慧館員是核心和主體。智慧館員不僅要具備掌握分析和預(yù)測(cè)大數(shù)據(jù)的范疇、價(jià)值、狀態(tài)和周期的能力,還要具備靈活運(yùn)用信息技術(shù)、人工智能、自然語(yǔ)言理解、數(shù)學(xué)算法等多學(xué)科先進(jìn)成果的能力。
4.大數(shù)據(jù)使圖書館提供更深層次的知識(shí)創(chuàng)新服務(wù)。
大數(shù)據(jù)環(huán)境下,圖書館提供面向創(chuàng)新的知識(shí)服務(wù),該服務(wù)以解決用戶問題為核心,深入解決問題的各個(gè)環(huán)節(jié),擁有解決問題的探索、構(gòu)建和測(cè)試等服務(wù)機(jī)制。此服務(wù)建立用戶數(shù)據(jù)庫(kù),及應(yīng)用前景。為適應(yīng)用戶學(xué)習(xí)研究模式的變化,促進(jìn)知識(shí)的創(chuàng)新發(fā)展,圖書館應(yīng)主動(dòng)參與創(chuàng)客教育,正確認(rèn)識(shí)圖書館在學(xué)習(xí)與創(chuàng)新過程中扮演的服務(wù)和支持角色,根據(jù)用戶實(shí)際需求提供更為深層次的服務(wù)。
參考文獻(xiàn)
[1]閻迪.圖書館大數(shù)據(jù)服務(wù)的發(fā)展對(duì)策.圖書館學(xué)刊,2017,2.
[2]程結(jié)晶.大數(shù)據(jù)時(shí)代圖書館服務(wù)創(chuàng)新的內(nèi)容及其策略研究.情報(bào)理論與實(shí) 踐,2016,3.
[3]楊海燕.大數(shù)據(jù)時(shí)代圖書館服務(wù)淺析.圖書與情報(bào),2012,4.
[4]晉照麗.大數(shù)據(jù)技術(shù)在高校圖書館服務(wù)中的應(yīng)用.農(nóng)業(yè)圖書情報(bào)學(xué)刊,2014,11.
作者簡(jiǎn)介:方梅青(1979-),女,碩士, 館員,研究方向:圖書館學(xué)。