摘要:大數據的誕生給高校圖書館工作帶來了機遇與挑戰(zhàn)。高校圖書館要勇于面對,提高圖書館的技術水平,組建專業(yè)的館員團隊,建立館藏文獻分類數據庫,運用數據挖掘技術,分析在校讀者層次,預測讀者的信息需求,建立讀者需求數據庫,用數據推送的方式,對讀者進行閱讀推廣,高校圖書館利用大數據的新價值,開展創(chuàng)新性服務。
關鍵詞:大數據;數據分析;數據挖掘;精準推送;讀者需求;高校圖書館 文獻標識碼:A
中圖分類號:G258 文章編號:1009-2374(2016)17-0191-02 DOI:10.13535/j.cnki.11-4406/n.2016.17.093
隨著科技與電子信息技術的日益進步,數據挖掘與分析技術形成,沃爾瑪的“啤酒+尿布”案例,被公認為是商業(yè)領域內數據挖掘的誕生。從大量的非結構化數據中,分析并得到兩種不相干客戶行為之間的內在聯(lián)系,即大數據時代的數據分析與數據挖掘技術。大數據被譽為是未來的石油與黃金,美國政府也于2012年3月29日撥款2億美元推行“大數據的研究和發(fā)展計劃”,這開啟了世界的大數據時代。2013年5月9日,奧巴馬簽署行政命令《政府信息的默認形式就是開放并且機器可讀》,大數據時代沖擊著各行各業(yè),它正在撬動中國的制度創(chuàng)新、科技創(chuàng)新。高校圖書館作為學校的文獻信息中心,搜集、分析并挖掘用戶的行為與信息需求,預測用戶的需求導向,引導讀者向專業(yè)化的深閱讀方向發(fā)展;拓寬圖書館的服務方式,尋求館藏資源建設與用戶信息需求的完美結合,是大數據時代,高校圖書館服務創(chuàng)新亟需解決的問題。
1 大數據時代高校圖書館面臨的機遇與挑戰(zhàn)
1.1 大數據的內涵
2011年5月,麥肯錫在《大數據:創(chuàng)新、競爭和生產力的下一個前沿領域》報告中首次提出了大數據概念,報告指出“數據已經滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為重要的生產因素;而人們對于海量數據的運用將預示著新一波勝利率增長和消費者盈余浪潮的到來”。大數據是結構化數據、半結構化數據與非結構化數據的總和;大數據的“數據”不是數據存儲,而是數據獲取與數據應用。大數據的“大”意義具有多樣性。IBM認為大數據具有“3V”特點,即種類(Variety)多、速度(Velocity)快、容量(Volume)大。綜合大數據的諸多特點,在數據深度分析之后,新數據的價值會翻倍,數據的處理會形成新的產業(yè),大數據將改變目前的IT構架。圖書館作為知識、信息的服務中心,在全球大數據時代將面臨機遇與挑戰(zhàn)。
1.2 高校圖書館面臨的機遇與挑戰(zhàn)
高校圖書館作為學校的知識、信息中心,為師生提供快捷、滿意的信息服務,圖書館如何運用數據挖掘與分析技術,提升圖書館的信息服務水平,是當前亟待解決的問題。高校圖書館擁有豐富的信息資源與人力資源,在大數據時代如何不被市場邊緣化,為用戶開展大數據分析服務是其發(fā)展趨勢。
首先,高校圖書館的數據挖掘與分析技術要與時俱進。大數據時代,將會出現諸多的數據分析公司,印度班加羅爾已有超過100家以數據分析為主要業(yè)務的新型數據公司,如Analytic Edge、Zinnov以及自稱是全球最大的專業(yè)性數據分析公司的Mu Sigma。高校圖書館在館藏資源建設、讀者信息服務和工作方式上將受到大數據的沖擊,要開拓創(chuàng)新、勇于挑戰(zhàn),建立高質量的信息服務技術團隊,達到信息資源即時獲取、精確分析、深度挖掘、精準推送的目標。
其次,圖書館的技術與工具要符合數據挖掘的要求,圖書館要了解自身的數據收集、存貯、分析和挖掘現狀,還必須掌握用戶對圖書館的信息利用與需求度,在知己知彼的前提下,開展數據分析服務。目前,圖書情報界所熟知的聚類分析、數據挖掘、關聯(lián)規(guī)則、網絡分析、可視化分析、數據融合與數據集成等,這只是針對結構化數據和有限數量的關鍵詞進行聚類分析、共現分析等,并不能真正挖掘非結構化數據和半結構化化數據,更不能通過數據預測未來的發(fā)展趨勢。一些學者開始思考去采集和利用網絡社交等信息行為產生的大量非結構化數據、半結構化數據,如蘇玉照等人就認為如果能夠采集到Web日志的數據,就能很好地滿足發(fā)現關聯(lián)規(guī)則、內容分類和用戶聚類的需求,從而能提高個性化推薦的精度,進而對定制Web日志的數據模型、過程及方法進行探索。大數據時代,高校圖書館的信息搜集、存貯、非結構化與半結構化數據的挖掘也是攻克難關。
2 大數據時代高校圖書館的應對措施
大數據時代,圖書館的館藏資源都將以數字化和網絡化形式存在,即館藏資源經過數據挖掘與分析后,將以不同的形式按照用戶的閱讀需求推送,用戶的個性化需求可以通過修改數據包來實現。數據分析與數據挖掘技術會盡可能讓館藏資源與讀者需求達到無縫契合,圖書館讀者服務工作上升到理想境界。
2.1 將數據分析技術運用到圖書館文獻資源建設
大數據時代,數據搜集與存貯是必備條件,在商業(yè)市場中,數據分析被運用得淋漓盡致。如奈飛公司利用客戶的網上點擊記錄,預測其消費需求,進行客戶針對性精準營銷。高校圖書館亦可參考這一做法,根據讀者對館藏資源的點擊率,利用圖書館自動化系統(tǒng),對館藏資源進行分類與排行,預測讀者喜好,在校園局域網平臺上,對讀者進行文獻信息分類,實現信息精準推送。
首先,建立館藏資源大數據,對館藏資源進行精細化分類。利用自動化系統(tǒng),分析、歸類館藏紙質資源,以學科、出版年、文獻借閱率等不同的標準對館藏文獻進行劃分重組,按照不同的知識體系,以專業(yè)性、時效性和讀者喜好度等標準歸類,建立館藏資源的網狀結構系統(tǒng),使每類館藏文獻體系都有相對應的讀者群,反過來,每類讀者群都有相對應的館藏分類體系,二者一一對應。
其次,盡可能使館藏資源體系全面而不失個性化。在文獻采訪過程中,挖掘出館藏數據的價值與隱藏在讀者背后的閱讀需求,預測讀者閱讀趨勢。目前,市場上的圖書采集器只能進行館藏文獻查重,無法實現按讀者需求采購,結合國外讀者主導式采購系統(tǒng)(簡稱PDA),利用書商提供的電子書單,通過圖書館網絡平臺,積極引導讀者參與圖書采購。按讀者的網上瀏覽記錄,對其行為進行跟蹤、分析、預測,對其讀者進行閱讀推送,結合淘寶網顧客瀏覽記錄,向讀者提供館藏或訂單已有的、與讀者需求傾向一致的相關圖書。
2.2 數據挖掘技術應用到圖書館自動化系統(tǒng)
圖書館可以運用網絡數據對讀者進行數據挖掘與分析,這種基于網絡的數據挖掘,不需要制定問卷,也不需要逐一調查,成本低廉。數據挖掘將成為越來越重要的分析預測工具,它將給讀者以導向,根據讀者的文獻借閱史、借閱方式、行為愛好、讀者借閱排行榜、讀者的電子圖書點擊率等行為,網上瀏覽記錄等,分析讀者潛在的信息需求,為讀者制定個性化的文獻推薦系統(tǒng)。2013年5月,加拿大蒙特利爾交通局宣布,將利用SAP(思愛普)公司的大數據處理平臺,對所有顧客的消費歷史和個人信息進行分析,然后按照其偏好、習慣和需要,對每位顧客定制專門的消費計劃和個性化票價。此外,2014年1月,美國的電子零售巨頭亞馬遜宣布了一項新的專利:“預判發(fā)貨”(Anticipatory Shipping),即在網購時,顧客還沒有下單,亞馬遜就將包裹寄出。亞馬遜鎖定固定的群體,他們對某些消費有固定的預算。亞馬遜有1億客戶,他們的消費日積月累,可以說是海量數據,亞馬遜靠數據挖掘來完成預判發(fā)貨工作。圖書館也可以為讀者推薦新書目數據,當讀者在某本書的簡介上停留時間較長時,我們可以通過網絡軟件自動將這本書生成訂單,發(fā)給書商或出版社。同時運用關聯(lián)數據的方法,將與此書相關的圖書推送給讀者,進行數據推送服務。
收集讀者閱讀行為數據,包括讀者的基本信息、文獻借閱史、閱讀習慣、到館時間、閱讀興趣、考試時間、網上瀏覽歷史等,對這些數據進行分析與挖掘,提前預知讀者的信息需求,圖書館利用現有館藏,及時開展針對性服務,分類對讀者進行資源推薦與介紹,急讀者之所急,變被動服務為主動。值得注意的是,這類服務具有時效性與針對性,開學與期末、期中,各類考試、節(jié)日等,讀者的閱讀需求是動態(tài)的,圖書館要隨時關注他們的閱讀心理變化,為讀者制定不同的閱讀方案。
對讀者進行閱讀推廣,在大數據時代,挖掘讀者的借閱數據與習慣,對讀者提供個性化的服務。挖掘整合館藏資源,分類對讀者進行文獻推送服務。利用校園局域網、學校公告、宣傳欄、圖書館網站、圖書館信息咨詢處、圖書館讀者服務平臺等渠道進行新書閱讀推廣,策劃不同的閱讀專題,宣傳、介紹圖書館的館藏資源。舉辦圖書閱讀講座,讓讀者深入了解圖書館館藏與圖書館功能,引導讀者參與到圖書采訪工作中,提高圖書館的信息服務水平。
2.3 建立大數據服務專業(yè)團隊
數據分析作為一種技術,與之匹配的管理制度就需出爐。大數據對技術要求極高,如人工智能、商業(yè)智能、數學算法、電子信息技術、物聯(lián)網等跨學科交互實現的技術。因為社交媒體的出現,全世界的網民都能成為數據的生產者。而數據挖掘,是指通過特定的算法對大量的數據進行自動分析,從而揭示隱藏在數據之后的規(guī)律和趨勢,即在大數據當中發(fā)現新知識,為決策者提供參考。
圖書館要善于抓住市場信息,緊跟圖書館發(fā)展趨勢,建立具備數據挖掘與分析的技術團隊,劃撥相應的經費,搭建信息獲取與推送的網絡平臺,制定基于讀者閱讀需求的數據挖掘方針、計劃,合理、有序地開展讀者需求信息挖掘與分析工作。結合圖書館實際,最大限度地滿足讀者需求,引導館藏建設與讀者需求趨于一致。
2.4 提高圖書館的讀者服務方式
大數據時代,圖書館對讀者行為進行分析,是提高其服務方式的主要手段。
讀者的所有閱讀行為都是有跡可循的,反過來,在讀者的閱讀過程中,我們也可以為讀者推送他們感興趣的文獻信息。如淘寶網的推薦頁面,當你在哪些商品上瀏覽時間過長或已購買該商品時,之后你看其他網頁時它會給你推薦類似商品。圖書館可以借用淘寶的這一功能,運用數據關聯(lián)技術使圖書館的自動化系統(tǒng)與圖書館網頁聯(lián)合,在讀者在進入圖書館網頁或書目查詢界面時推送讀者感興趣的書目。
3 大數據時代圖書館面臨的問題
大數據時代,圖書館有能力且有條件開展數據挖掘分析工作,圖書館的硬件設施、人力資源、技術支持、經費運算和管理體制等均受到大數據時代的挑戰(zhàn)。圖書館的資源優(yōu)勢在大數據時代如何展現,圖書館關聯(lián)數據集成管理研究,即如何將現有的數據資源創(chuàng)建成關聯(lián)數據并在網上發(fā)布,將是當前急需解決的問題之一。
參考文獻
[1] 韓翠峰.大數據帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報,2012,(5).
[2] 韓翠峰.大數據時代圖書館的服務創(chuàng)新與發(fā)展[J].圖書館,2013,(1).
[3] 涂子沛.數據之巔[M].北京:中信出版社,2014.
作者簡介:王黎(1985-),女,甘肅蘭州人,咸陽師范學院圖書館助理館員。
(責任編輯:周 瓊)