鐘克吟
(肇慶學院 圖書館,廣東 肇慶 526061)
大數(shù)據(jù)環(huán)境下圖書館信息服務(wù)的新模式
鐘克吟
(肇慶學院 圖書館,廣東 肇慶 526061)
大數(shù)據(jù)蘊含著大量結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),建立在數(shù)據(jù)關(guān)系分析基礎(chǔ)上的預測是大數(shù)據(jù)價值的核心所在。圖書館信息數(shù)據(jù)的分析能力已經(jīng)從基礎(chǔ)性分析、推測性分析提高到預測性分析層面,圖書館可充分利用用戶交互數(shù)據(jù),從而分析和預測可能發(fā)生的信息行為。為此,圖書館應(yīng)挖掘信息,實現(xiàn)可視化服務(wù),整合數(shù)據(jù),促進資源建設(shè),完善體系,提高服務(wù)層次。
大數(shù)據(jù);信息服務(wù);圖書館
近年,借助云計算、數(shù)據(jù)倉庫和物聯(lián)網(wǎng)技術(shù),大數(shù)據(jù)在多個領(lǐng)域得到廣泛應(yīng)用并迅速成為社會研究熱點。同時,大數(shù)據(jù)也給圖書館信息服務(wù)工作帶來了極大挑戰(zhàn),數(shù)據(jù)處理、挖掘數(shù)據(jù)的隱性信息和潛在價值,并根據(jù)數(shù)據(jù)關(guān)聯(lián)進行分析和決策預測將成為大數(shù)據(jù)時代圖書館信息服務(wù)的重要方向。
大數(shù)據(jù)之說源于美國McKensey咨詢公司,爾后《華爾街日報》和《紐約時報》同時開展討論[1]。大數(shù)據(jù)呈現(xiàn)多樣化特點,數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)特征均存差異,數(shù)據(jù)結(jié)構(gòu)不再單一。但是,大數(shù)據(jù)尚無統(tǒng)一定義。普遍認為,大數(shù)據(jù)蘊含聲頻、視頻、物聯(lián)網(wǎng)、個人信息、科學研究結(jié)果等結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),是描述海量數(shù)據(jù)的集合,其規(guī)模遠遠超出傳統(tǒng)的信息量。
社會信息將都以電子數(shù)據(jù)的形式顯示和存儲,海量數(shù)據(jù)鑄就了大數(shù)據(jù)技術(shù)的誕生。據(jù)IDC(International Data Corporation國際數(shù)據(jù)公司)檢測,2020年全球數(shù)據(jù)將達35ZB,約為2010年的30倍。百度每天處理近100PB的數(shù)據(jù)并提供超過1.5PB的導航數(shù)據(jù),這與5 000個國家圖書館的信息總量相當。然而,迄今人類印刷材料的數(shù)據(jù)總量僅有200PB[2]。
大數(shù)據(jù)超越了傳統(tǒng)數(shù)據(jù)庫的管理能力,為傳統(tǒng)的數(shù)據(jù)管理方式、數(shù)據(jù)來源、思維方法和處理方式帶來了顛覆性的變革。大數(shù)據(jù)技術(shù)是計算機領(lǐng)域的新一代技術(shù)和架構(gòu),能夠從大海量、高繁雜的數(shù)據(jù)中抓取有價值的信息數(shù)據(jù)。
大數(shù)據(jù)的時效性強,對數(shù)據(jù)進行實時的不間斷的擷取和處理所產(chǎn)生的效果,要比傳統(tǒng)的數(shù)據(jù)查詢和數(shù)據(jù)挖掘更快速有效。不過,由于海量數(shù)據(jù)之中摻雜著各種錯亂無效的信息,數(shù)據(jù)價值密度較低。
(一)大數(shù)據(jù)的核心價值
數(shù)據(jù)挖掘、人工智能等技術(shù)推動著大數(shù)據(jù)時代的進程,信號可以轉(zhuǎn)化為數(shù)據(jù),人們把數(shù)據(jù)分析為信息,將信息提煉為知識,并以知識達成決策和行動,充分體現(xiàn)大數(shù)據(jù)的核心價值。
英國數(shù)據(jù)科學家維克托·邁爾-舍恩伯格(Viktor Mayer-Sch?nberger)指出,預測是大數(shù)據(jù)的核心價值,數(shù)學算法在海量數(shù)據(jù)中的應(yīng)用為事件預測提供了可能[3]。
美國物理學會艾伯特—拉斯洛·巴拉巴西院士認為,人類大部分行為都受制于規(guī)律、模型及原理法則,其中93%的行為可以預測。預測建立于相關(guān)關(guān)系分析的基礎(chǔ)之上,對關(guān)聯(lián)物進行監(jiān)控則可以預測事件發(fā)生的可能性。
網(wǎng)絡(luò)的搜索功能和普及程度足以使網(wǎng)上搜索記錄成為預測事件發(fā)生的有力證據(jù)。2013年3月,美國把數(shù)據(jù)定義為“未來的新石油”,政府投資2億美元拉動大數(shù)據(jù)相關(guān)產(chǎn)業(yè),并積極發(fā)展亞馬遜、谷歌、蘋果等互聯(lián)網(wǎng)企業(yè)[4]。
百度公司著力打造一個開放平臺,為傳統(tǒng)企業(yè)提供大數(shù)據(jù)存儲、關(guān)聯(lián)和分析的能力。百度公司的“大數(shù)據(jù)引擎”包括百度大腦、數(shù)據(jù)工廠和開放云,它主要與政府、教育、醫(yī)療、金融等領(lǐng)域展開合作,更多行業(yè)將被卷入并加速發(fā)展[5]。
(二)大數(shù)據(jù)的發(fā)展應(yīng)用
美國McKinsey Global Institute(麥肯錫全球研究院)的調(diào)查報告《Big Data:The Next Frontier for Innovation,Competition and Productivity》指出,全球?qū)⒔?7.5%的數(shù)據(jù)未得到充分利用。2011年9月,美國啟動“數(shù)字承諾”項目以研究開發(fā)科技和教育的交叉點服務(wù),利用新媒體技術(shù)改變現(xiàn)有的教學方式與教學手段。
2012年3月,美國政府又實施“大數(shù)據(jù)研發(fā)計劃”,大力推動大數(shù)據(jù)技術(shù)并提高國民提取知識和分析數(shù)據(jù)的能力,從而加速美國發(fā)明創(chuàng)造的步伐[6]。同年10月,我國成立大數(shù)據(jù)專家委員會,旨在探討大數(shù)據(jù)核心技術(shù)與應(yīng)用價值,并推動大數(shù)據(jù)學科發(fā)展,為構(gòu)建數(shù)據(jù)共享平臺與大數(shù)據(jù)技術(shù)合作提供戰(zhàn)略性觀點[7]。
大數(shù)據(jù)的特色是從海量數(shù)據(jù)中挖掘用戶最需要的信息,大數(shù)據(jù)分析涉及的主要范圍如下:
1.可視化分析:采用大數(shù)據(jù)核心技術(shù),通過云計算,關(guān)聯(lián)異構(gòu)數(shù)據(jù),多方面多角度直觀地展示搜索結(jié)果,向用戶提供圖文聲像等可視化分析。
2.預測性分析:對海量歷史數(shù)據(jù)進行分析,并建立有效的數(shù)字模型,從而預測數(shù)據(jù)發(fā)展并提供個性化信息推送服務(wù)。
3.數(shù)據(jù)價值挖掘:快速、深入、有效地對海量數(shù)據(jù)包括關(guān)聯(lián)類型和結(jié)構(gòu)各異的數(shù)據(jù)進行過濾、整合,最大程度地挖掘數(shù)據(jù)潛在價值。
4.語義引擎:通過人工智能系統(tǒng),使用自然語言,主動識別和搜集用戶的數(shù)據(jù)語言,或者提取文件的語義信息并自動進行搜索結(jié)果與關(guān)聯(lián)信息的個性化推送。
5.數(shù)據(jù)質(zhì)量管理:對數(shù)據(jù)從計劃、獲取、存儲、共享、維護、應(yīng)用到消亡整個生命周期中可能發(fā)生的質(zhì)量問題進行識別、度量、監(jiān)控、預警等一系列管理活動,并通過改善和提高組織管理水平以提高數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量管理能推動大數(shù)據(jù)通過標準化流程和工具最大化而實現(xiàn)數(shù)據(jù)的價值,是數(shù)據(jù)處理的關(guān)鍵[8]。
大數(shù)據(jù)對圖書館的資源存儲和服務(wù)方式提出了挑戰(zhàn),圖書館的數(shù)據(jù)數(shù)量和種類及未來的發(fā)展趨勢都呈現(xiàn)出大數(shù)據(jù)的特征,大數(shù)據(jù)的相關(guān)技術(shù)與應(yīng)用理念對圖書館發(fā)展產(chǎn)生著深遠的影響。
圖書館資源囊括了以結(jié)構(gòu)化和非結(jié)構(gòu)化方式呈現(xiàn)的大量數(shù)據(jù),如音視頻資源、圖片、微博、移動用戶的行為和服務(wù)信息以及讀者進館時間、所處位置、搜索記錄、搜索時間、瀏覽歷史,還有館員的服務(wù)內(nèi)容、服務(wù)時間等。
隨著數(shù)據(jù)搜集、傳輸、存儲及處理能力的提高,人們不僅可以利用因果關(guān)系而且還能夠根據(jù)海量數(shù)據(jù)并依靠相關(guān)性理論來認識世界,通過分析細微數(shù)據(jù)之間相關(guān)性的方法找出某個現(xiàn)象的良好關(guān)聯(lián)物,利用其間的相關(guān)關(guān)系分析現(xiàn)在和預測未來。
以往,圖書館數(shù)據(jù)分析以定性推測為主,由主觀經(jīng)驗推測事物的發(fā)展趨勢。而在數(shù)據(jù)時代,圖書館數(shù)據(jù)分析能力逐漸從基礎(chǔ)性與推測性分析向預測性分析邁進,分析大型的數(shù)據(jù)集合,建立數(shù)據(jù)模型,發(fā)現(xiàn)數(shù)據(jù)關(guān)聯(lián)關(guān)系,以預測事物的發(fā)展方向并作出合理解決方案。
目前,圖書館信息服務(wù)除了利用基礎(chǔ)數(shù)據(jù)之外,還可以根據(jù)大數(shù)據(jù)的關(guān)聯(lián)與隱性信息,由靜態(tài)收集數(shù)據(jù)向動態(tài)跟蹤數(shù)據(jù)及發(fā)掘隱性信息拓展,以提供更加精準的個性化服務(wù)。
可見,大數(shù)據(jù)的關(guān)聯(lián)與隱性信息必將成為圖書館信息服務(wù)的關(guān)注重點與拓展方向。相關(guān)性理論使人們擺脫了對直覺、經(jīng)驗、常規(guī)邏輯推斷、因果關(guān)系分析等傳統(tǒng)方法的依賴,進而運用海量數(shù)據(jù)表達新的關(guān)聯(lián)模式。
大數(shù)據(jù)的關(guān)聯(lián)與隱性信息的運用能夠發(fā)掘信息反饋的潛在價值,增進數(shù)據(jù)分析的廣度深度,指導信息服務(wù)的模式與方向定位,信息服務(wù)從被動轉(zhuǎn)向主動,原來僅限于單一的專題報告和輿情監(jiān)測,現(xiàn)在則能夠提供數(shù)據(jù)驅(qū)動型信息專題和趨勢性預測報告。
為此,圖書館應(yīng)加強用戶研究,充分利用交互數(shù)據(jù),對用戶隱性信息進行深度挖掘并建立用戶偏好模型,分析和預測未來可能發(fā)生的信息行為。開展個性化與多樣化的服務(wù)、提供預測性的信息服務(wù)產(chǎn)品,提供具有前瞻性且較為精準的信息服務(wù)。
大數(shù)據(jù)環(huán)境下圖書館信息服務(wù)具有交互性、個性化、主動性、多樣化等特征。它從數(shù)據(jù)、信息、知識、智慧四個層面展開服務(wù),形成了信息可視化服務(wù)、一站式資源服務(wù)、學科知識服務(wù)和智慧服務(wù)四種模式。
(一)挖掘信息資源,實現(xiàn)可視化服務(wù)
可視化技術(shù)為用戶獲取信息、整合利用資源和個性化定制等方面提供了便利。通過云計算、hadoop等技術(shù)對大數(shù)據(jù)進行分析,挖掘可資利用的信息,并將抽象分散的數(shù)據(jù)轉(zhuǎn)化為直觀形式,既解決了圖書館的異構(gòu)數(shù)據(jù)問題,又使圖書館的數(shù)據(jù)分析與應(yīng)用提高了層次。
通過可視化技術(shù),挖掘用戶的實際需求和潛在需求,把集中性的數(shù)據(jù)和隱性信息的關(guān)聯(lián)關(guān)系呈現(xiàn)出來并反饋給用戶,使用戶能夠發(fā)現(xiàn)那些有用的而且數(shù)據(jù)集中的潛在信息資源,從而提高圖書館對用戶信息需求的預測能,并為用戶提供定制化的信息服務(wù)。
(二)整合信息數(shù)據(jù),促進資源建設(shè)
大數(shù)據(jù)環(huán)境下的圖書館數(shù)字化資源包括館藏書目數(shù)據(jù)庫、自建特色資源數(shù)據(jù)庫、電子出版物、隨書光盤等現(xiàn)實館藏資源以及網(wǎng)絡(luò)數(shù)據(jù)庫、在線出版物、開放存取資源等虛擬館藏。這些數(shù)據(jù)具有不同的數(shù)據(jù)結(jié)構(gòu),擁有各自的接口,來源于不同的數(shù)據(jù)庫,尤其是社交媒體類的信息資源更為復雜,整合這些資源需要運用大數(shù)據(jù)技術(shù)。
廣泛采集有價值的大數(shù)據(jù)信息并加以整合利用從而完善圖書館信息資源,這是促進圖書館數(shù)據(jù)資源建設(shè)的關(guān)鍵。信息數(shù)據(jù)主要有三類:1.資源性數(shù)據(jù)信息。它是科研人員在科研過程中,通過觀察、實驗、實證調(diào)查、推理等方法而積累的實驗數(shù)據(jù)集、調(diào)研報告、研究過程記錄、工具方法等大量有價值的科研數(shù)據(jù),圖書館應(yīng)加以采集整合,通過建立機構(gòu)庫的形式,實現(xiàn)對科研數(shù)據(jù)的有效保存與共享。如康奈爾大學圖書館的DataStar數(shù)據(jù)庫,用戶可以自主上傳數(shù)據(jù)信息,利于數(shù)據(jù)的存檔和出版,實現(xiàn)數(shù)據(jù)研究過程的合作共享[9]。2.與經(jīng)濟社會發(fā)展息息相關(guān)的數(shù)據(jù)。圖書館應(yīng)與政府相關(guān)部門合作,通過資源共享與合作研究獲取信息數(shù)據(jù)加以研究利用,為社會經(jīng)濟發(fā)展提供有價值的信息服務(wù)。3.用戶數(shù)據(jù)。這包括用戶使用數(shù)字資源的實時情況、社交媒體交互數(shù)據(jù)以及用戶訪問互聯(lián)網(wǎng)的行為數(shù)據(jù)等,這些數(shù)據(jù)的采集分析有利于挖掘用戶的個性化需求,從而為圖書館的個性化服務(wù)提供參考依據(jù)[10]。
通過大數(shù)據(jù)技術(shù),把成熟的信息采集模式與先進的數(shù)學模型結(jié)合起來,從浩瀚紛繁的數(shù)據(jù)中快速采集、分析和挖掘,識別和定位高質(zhì)量信息,整合數(shù)字化信息資源,建立各類型數(shù)據(jù)庫或虛擬存儲空間,再設(shè)計統(tǒng)一接口,利用大數(shù)據(jù)智能化檢索技術(shù),實現(xiàn)多樣性一站式的資源服務(wù)。
(三)完善服務(wù)體系,提高服務(wù)層次
知識服務(wù)是以采集、分析、重組信息為前提,對各種顯性和隱性信息資源進行挖掘、分析、重組,形成有價值的知識產(chǎn)品的服務(wù)。
大數(shù)據(jù)環(huán)境下,圖書館通過信息資源平臺,為廣大用戶提供相應(yīng)的學科知識服務(wù)。通過分析不同用戶檢索某一個學科信息的頻率,找出一定時間段用戶感興趣的學科,再運用數(shù)據(jù)挖掘和聚類分析方法,預測某個時間段學科研究的熱點以及學科之間的關(guān)聯(lián)與交叉。同樣,采集圖書館借閱系統(tǒng)中用戶的借閱情況統(tǒng)計數(shù)據(jù)和圖書流通日志,再通過數(shù)據(jù)挖掘,分析用戶與信息資源之間的知識關(guān)聯(lián),可以發(fā)現(xiàn)一定時間段用戶的喜好與資源關(guān)注熱點,利用這些知識關(guān)聯(lián)可以為用戶提供學科知識服務(wù)。
圖書館服務(wù)的發(fā)展除了依靠信息資源和技術(shù)工具之外,館員智慧也舉足輕重,而基于館員智慧的知識服務(wù)稱為智慧服務(wù)[11]。
目前,圖書館可將大數(shù)據(jù)的信息挖掘技術(shù)應(yīng)用到信息服務(wù)中,主動為用戶提供個性化定制服務(wù)。通過對用戶的信息需求進行分析處理,提供專業(yè)化、智能化、前瞻性的信息服務(wù),提高用戶對信息服務(wù)的滿意度,實現(xiàn)基于數(shù)據(jù)挖掘的智慧化服務(wù)[12]。
大數(shù)據(jù)時代,圖書館應(yīng)根據(jù)用戶需求與實時熱點,強化豐富有效數(shù)據(jù),完善資源,處理分析數(shù)據(jù),通過知識挖掘發(fā)現(xiàn)用戶偏好,為用戶使用資源提供綜合服務(wù)。圖書館通過對用戶借閱情況、資源檢索行為等數(shù)據(jù)的挖掘來分析用戶群體間借閱情況的差異以及用戶的信息資源需求和研究動向等內(nèi)容,再運用關(guān)聯(lián)規(guī)則、協(xié)同過濾與聚類分析等方法,依據(jù)關(guān)聯(lián)資源、讀者喜好變化等情況,建立用戶數(shù)據(jù)資源需求意向分析與推薦模型,主動推送用戶需求的數(shù)據(jù)資源,完善服務(wù),提升圖書館的核心競爭力。
隨著信息技術(shù)的飛速發(fā)展,大數(shù)據(jù)處理技術(shù)及管理模式日新月異,為信息數(shù)據(jù)處理模式帶來了挑戰(zhàn)與機遇。圖書館理應(yīng)順應(yīng)大數(shù)據(jù)發(fā)展潮流,關(guān)注大數(shù)據(jù)的技術(shù)發(fā)展與核心價值,對信息資源快速定位,為用戶提供全面準確的可視化信息資源,并從提供描述事實的專題報告和輿情研究等服務(wù)形式,逐步向能預測事件發(fā)展趨勢并為用戶提供精準、個性化、前瞻性的服務(wù)模式轉(zhuǎn)變。
目前,大數(shù)據(jù)的研究與技術(shù)應(yīng)用將是圖書館服務(wù)創(chuàng)新與發(fā)展的重要領(lǐng)域,圖書館應(yīng)關(guān)注和研究大數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用,增強數(shù)據(jù)技術(shù)敏銳性,建立完善新型的知識服務(wù)模式,注重培養(yǎng)高素質(zhì)館員,提升信息服務(wù)水平,著力解決信息服務(wù)新問題,全面提高圖書館的社會服務(wù)能力。
[1]胡小箐,范并思.云計算給圖書館管理帶來挑戰(zhàn)[J].大學圖書館學報,2009(4):7-12.
[2]李鵬云.大數(shù)據(jù)與圖書館服務(wù)[J].農(nóng)業(yè)圖書情報學刊,2013(9):179-181.
[3]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代[M].盛楊燕,周濤譯.杭州:浙江人民出版社,2013:16.
[4]徐子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命[M].桂林:廣西師范大學出版社,2012:57-58.
[5]陳超.圖書館如何迎接大數(shù)據(jù)時代?[J].圖書館雜志,2014(1):4-7.
[6]李健.美國的大數(shù)據(jù)研發(fā)計劃及對我國的啟發(fā)[J].中國科技資源導刊,2013(1):17-23.
[7]王忠.美國推動大數(shù)據(jù)技術(shù)發(fā)展的戰(zhàn)略價值及啟示[J].中國發(fā)展觀察,2012(6):44-45.
[8]劉明,李娜.大數(shù)據(jù)趨勢與專業(yè)圖書館[J].中華醫(yī)學圖書情報雜志,2013(2):1-6.
[9]洪程.國外科學數(shù)據(jù)服務(wù)現(xiàn)在研究[J].圖書館雜志,2012(10):31-34.
[10]沈志宏.OpenCSDB:關(guān)聯(lián)數(shù)據(jù)在科學數(shù)據(jù)庫中的應(yīng)用研究[J].中國圖書館學報,2012(5):17-26.
[11]梁光德.智慧服務(wù)知識經(jīng)濟時代圖書館服務(wù)新理念[J].圖書館學研究,2011(6):88-92.
[12]楊艷.基于大數(shù)據(jù)的數(shù)字圖書館信息服務(wù)研究[J].數(shù)字技術(shù)與應(yīng)用,2015(7):56-57.
The New Model of Library Information Service in Big Data Environment
ZHONG Keyin
(Library of Zhaoqing University,Zhaoqing,Guangdong 526061,China)
Big data contains large amounts of structured and unstructured data,the core value of which is to predict based on data correlation analysis.The analysis ability of the library information data has increased from fundamental analysis,speculative analysis to predictive analysis.Library user interaction data should be made good use of so that the possibility of information behavior can be analyzed and predicted.Therefore,librarians should mine big data information,realize the visualization service,integrate data,promote the construction of data resources,perfect the system and improve the service level.
big data;information service;library
G252
A
1009-8445(2016)03-0097-04
(責任編輯:禤展圖)
2015-12-18
鐘克吟(1980-),女,廣東汕頭人,肇慶學院圖書館館員,高級程序員。