李 沛
(中國藥科大學(xué)圖書與信息中心 江蘇南京 211198)
大數(shù)據(jù)是由英文“Big Data”翻譯而來,大數(shù)據(jù)是一種海量資料、多樣化的非結(jié)構(gòu)化數(shù)據(jù)信息,并與數(shù)據(jù)倉儲、數(shù)據(jù)挖掘、數(shù)據(jù)分析、云計算及人工智能等主題密切相關(guān)。2014年,大數(shù)據(jù)首次寫入政府工作報告,這一年也成為實際意義上的“中國大數(shù)據(jù)元年”。自此,中國大數(shù)據(jù)產(chǎn)業(yè)蓬勃發(fā)展。在接下來的3年中,大數(shù)據(jù)都作為重要角色出現(xiàn)在政府工作報告中。在2018年3月5日第十三屆全國人民代表大會第一次會議上,大數(shù)據(jù)第5次進入政府工作報告,足以看出大數(shù)據(jù)對于我國未來新經(jīng)濟發(fā)展的重要作用。
高校圖書館作為高校新信息技術(shù)的研究和實踐重地之一,大數(shù)據(jù)不可避免地將會對高校圖書館產(chǎn)生一定的影響和沖擊。如何利用大數(shù)據(jù)技術(shù)提升服務(wù)能力,是高校圖書館在大數(shù)據(jù)時代面臨的挑戰(zhàn)。2017年9月,中國藥科大學(xué)進入“一流學(xué)科建設(shè)高?!泵麊?,自此中國藥科大學(xué)的學(xué)科建設(shè)進入了新的發(fā)展階段。在此雙重背景下,作為全校學(xué)科服務(wù)、教學(xué)支撐、信息儲存部門的圖書館就必然要與時俱進,提供與之相匹配的大數(shù)據(jù)服務(wù)。中國藥科大學(xué)圖書館與信息化技術(shù)中心于2016年3月7日整合后,成立了圖書與信息中心[1],開啟了信息化與圖書館相結(jié)合的服務(wù)模式,信息化技術(shù)中心帶來了大數(shù)據(jù)獲取、儲存和分析等技術(shù),從而給圖書館利用大數(shù)據(jù)實現(xiàn)服務(wù)能力的提升帶來契機。
傳統(tǒng)數(shù)據(jù)環(huán)境下,高校圖書館的業(yè)務(wù)和服務(wù)重點局限在資源本身,例如信息的獲取、分類、儲存與使用。大數(shù)據(jù)環(huán)境下,大數(shù)據(jù)的應(yīng)用改變了傳統(tǒng)的以計算機應(yīng)用為主的數(shù)據(jù)存儲和利用方式,高校圖書館作為全校的信息儲存以及提供信息的資源中心,勢必將受到大數(shù)據(jù)的沖擊。在這種環(huán)境下,讀者不僅要求圖書館在機構(gòu)知識庫、書目資源庫、語義化信息等方面實現(xiàn)數(shù)字化的應(yīng)用,還希望圖書館能夠依靠大量的非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),如讀者行為數(shù)據(jù),快速、準(zhǔn)確地感知讀者的信息需求,并將這些大數(shù)據(jù)轉(zhuǎn)化為具體服務(wù)[2]。因此,圖書館的業(yè)務(wù)服務(wù)應(yīng)擴展到大數(shù)據(jù)分析、處理領(lǐng)域,通過大數(shù)據(jù)的某些關(guān)鍵技術(shù)對體量巨大的復(fù)雜數(shù)據(jù)進行可視化分析,給讀者提供有利用價值和決策參考價值的信息服務(wù)。同時借助大數(shù)據(jù)技術(shù)來進行戰(zhàn)略性創(chuàng)新服務(wù),緊跟科技發(fā)展的步伐,為圖書館儲存分析數(shù)據(jù)、整合資源、提供個性化服務(wù)、提升服務(wù)能力提供先進的技術(shù)支持和全新的思路方案,以滿足讀者不斷變化的需求,從而更好地為本校師生的教學(xué)和科研服務(wù)。
中國藥科大學(xué)圖書與信息中心(下文簡稱“我中心”)自整合后,一直在不斷地探索與磨合中前進,尋找大數(shù)據(jù)時代圖書館服務(wù)與信息中心技術(shù)更好契合的方法。
大數(shù)據(jù)獲取、存儲、分析和決策是連貫有序的一系列業(yè)務(wù)流程,需要各部門之間的積極配合。然而在傳統(tǒng)數(shù)據(jù)下構(gòu)建的部門,不存在大數(shù)據(jù)服務(wù)的職能,存在一定的服務(wù)盲區(qū)。以我中心為例,大數(shù)據(jù)對服務(wù)的影響是方方面面的:網(wǎng)絡(luò)信息、讀者服務(wù)、資源建設(shè)、教學(xué)科研、行政管理等,進而也滲透到了相關(guān)的服務(wù)部門。但是在前期的部門設(shè)置中存在大數(shù)據(jù)方面職能交叉和職能模糊的現(xiàn)象,影響部門之間大數(shù)據(jù)業(yè)務(wù)緊密對接的工作流程,牽制了大數(shù)據(jù)工作的開展。
我中心合并運行半年之后,中心領(lǐng)導(dǎo)班子前期做了大量的考察、研討等工作,對中心機構(gòu)進行了調(diào)整和重組,依據(jù)工作的性質(zhì)與特點,重新設(shè)置了部門[1]。各重組部門分別應(yīng)負責(zé)的主要領(lǐng)域為:網(wǎng)絡(luò)運營部、信息應(yīng)用部對接網(wǎng)絡(luò)信息服務(wù);資源建設(shè)部對接資源建設(shè)服務(wù);讀者服務(wù)部對接讀者服務(wù);參考咨詢部對接教學(xué)科研服務(wù);辦公室對接行政管理服務(wù)。這樣各職能部門明確相應(yīng)的責(zé)任,樹立全館觀念,打破部門間的“信息孤島”,整體聯(lián)動將各部門工作成果無縫對接,有助于大數(shù)據(jù)獲取、存儲、分析、決策等業(yè)務(wù)順利流暢地進行,達到實時高效的運轉(zhuǎn)。
隨著信息網(wǎng)絡(luò)技術(shù)的發(fā)展,在長期服務(wù)讀者的過程中,圖書館積累了大量珍貴的數(shù)據(jù),如資源數(shù)據(jù)、讀者行為數(shù)據(jù)、業(yè)務(wù)系統(tǒng)數(shù)據(jù)等(如圖1所示),包括傳統(tǒng)的刷卡設(shè)備、自動借還書機等自動化設(shè)備完成的讀者入館情況、借閱信息等數(shù)據(jù),讀者瀏覽下載電子資源產(chǎn)生的數(shù)據(jù)庫使用痕跡、查詢館藏書目產(chǎn)生的檢索日志、網(wǎng)上預(yù)約借閱圖書產(chǎn)生的讀者偏好數(shù)據(jù)等;館員與讀者在網(wǎng)絡(luò)互動留下的社交數(shù)據(jù)痕跡[3]。這些結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)是構(gòu)建大數(shù)據(jù)獲取平臺的數(shù)據(jù)基礎(chǔ)。
圖1 高校圖書館大數(shù)據(jù)處理流程
在傳統(tǒng)數(shù)據(jù)平臺基礎(chǔ)上,我中心于2017年9月成功啟用RFID(Radio Frequency Identification)圖書管理系統(tǒng),是江蘇省首個將RFID技術(shù)全面應(yīng)用于圖書管理的高校圖書館,使圖書數(shù)據(jù)管理更加規(guī)范精準(zhǔn);又于2017年完成全校師生統(tǒng)一身份認證,實現(xiàn)全校師生使用一個賬號、密碼,一次登陸訪問校內(nèi)所有已集成的信息系統(tǒng),如圖書管理系統(tǒng)、人事系統(tǒng)、學(xué)校教務(wù)系統(tǒng)、科研管理系統(tǒng)、財務(wù)系統(tǒng)、醫(yī)療管理系統(tǒng)、郵件系統(tǒng)、校園卡系統(tǒng)等,采集全校師生信息化服務(wù)大數(shù)據(jù);實現(xiàn)校園卡與校內(nèi)所有管理系統(tǒng)對接,并新建多種方式的自助服務(wù)系統(tǒng);上新人臉識別設(shè)備,采集識別大量人臉圖像相關(guān)的數(shù)據(jù);完成大數(shù)據(jù)建設(shè)一期項目學(xué)生畫像系統(tǒng),為優(yōu)化學(xué)生管理工作提供數(shù)據(jù)支持[1]。大數(shù)據(jù)的獲取過程應(yīng)該收集全樣本數(shù)據(jù)而非少量的采樣數(shù)據(jù),容許誤差數(shù)據(jù)。以上舉措都是圖書館大數(shù)據(jù)獲取平臺的進一步拓展,不僅可以收集到館內(nèi)的大數(shù)據(jù),乃至學(xué)校大范圍的數(shù)據(jù)都可以得到,從而優(yōu)化了圖書館的大數(shù)據(jù)獲取環(huán)境,使得圖書館應(yīng)用大數(shù)據(jù)提升服務(wù)能力具有現(xiàn)實可行性。
高校圖書館大數(shù)據(jù)獲取平臺的搭建只是大數(shù)據(jù)應(yīng)用于圖書館服務(wù)的第一步,更重要的是對大數(shù)據(jù)進行挖掘、儲存和分析,進而提煉出有意義的數(shù)據(jù),產(chǎn)生正確決策,才能將數(shù)據(jù)轉(zhuǎn)化為價值。高校圖書館應(yīng)利用基于Hadoop技術(shù)的“大數(shù)據(jù)挖掘存儲平臺”,該平臺通過數(shù)據(jù)采集、數(shù)據(jù)清洗和數(shù)據(jù)整合,在不同業(yè)務(wù)數(shù)據(jù)群之間構(gòu)建數(shù)據(jù)共享池、標(biāo)準(zhǔn)化數(shù)據(jù)接口以及分布式數(shù)據(jù)流式的Hadoop存儲,實現(xiàn)由數(shù)據(jù)獲取平臺中抽取數(shù)據(jù)到Hadoop平臺進行數(shù)據(jù)分析。Hadoop系統(tǒng)中數(shù)據(jù)存儲的技術(shù)組件主要為HDFS、Hive以及Hbase。結(jié)構(gòu)化數(shù)據(jù)可以以表格的格式存儲在Hive中,或者轉(zhuǎn)換為Key-value的方式存儲到Hbase中,還可以以文件的方式存儲到HDFS中。對于非結(jié)構(gòu)化數(shù)據(jù),以目錄和文件的組織方式存儲到HDFS中[4]。從而實現(xiàn)圖書館系統(tǒng)內(nèi)部的結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的存儲、交換和推送,為多維度的大數(shù)據(jù)分析提供基礎(chǔ)保障[5]。“大數(shù)據(jù)分析平臺”利用虛擬化云平臺完成,對完成規(guī)約化處理的標(biāo)準(zhǔn)數(shù)據(jù)通過聚類、分析、建模、抽取、遞歸、優(yōu)化,通過離線批量計算及實時流式計算方式完成數(shù)據(jù)的處理,并結(jié)合具體的圖書館業(yè)務(wù)工作需要,將價值數(shù)據(jù)以動態(tài)、直觀、可視化的形式展現(xiàn)給決策者,為圖書館各項業(yè)務(wù)工作提供決策數(shù)據(jù)支撐和評估建議。
強大的計算平臺需要專業(yè)的數(shù)據(jù)處理技術(shù)人才來進行分析算法設(shè)計。我中心的重組帶來了相關(guān)的專業(yè)數(shù)據(jù)處理人才和技術(shù),應(yīng)用機器學(xué)習(xí)算法、R語言、Lambda架構(gòu)、Kappa架構(gòu)、Kylin、Aluxio、Map Reduce、Parameter Server等專業(yè)知識,將大數(shù)據(jù)資源進行有效的整合和分析,從而制定圖書館大數(shù)據(jù)服務(wù)決策。具備大數(shù)據(jù)處理硬件的基礎(chǔ),以及相關(guān)技術(shù)人才的不斷學(xué)習(xí)和培養(yǎng),才能實現(xiàn)大數(shù)據(jù)處理技術(shù)和服務(wù)的可持續(xù)發(fā)展和良性運作。
大數(shù)據(jù)在驅(qū)動高校圖書館服務(wù)創(chuàng)新中發(fā)揮催化劑的作用,為高校圖書館的創(chuàng)新性服務(wù)帶來前所未有的機遇。利用大數(shù)據(jù)的特點,啟動“大數(shù)據(jù)+”模式,加入人工智能、移動服務(wù)、微服務(wù)、高校聯(lián)盟、學(xué)科服務(wù)等熱元素,開拓大數(shù)據(jù)環(huán)境下高校圖書館服務(wù)新局面。
2017年政府工作報告首次寫入人工智能。人工智能離不開大數(shù)據(jù),基于大數(shù)據(jù)理論的相關(guān)技術(shù)對現(xiàn)代人工智能技術(shù)的演進進程起到了重要的助推作用。中國科學(xué)院院士、大數(shù)據(jù)算法與分析技術(shù)國家工程實驗室主任徐宗本認為“人工智能的核心就是大數(shù)據(jù)技術(shù)”。
大數(shù)據(jù)技術(shù)加速了人工智能的發(fā)展,大數(shù)據(jù)采集完善智能感知、大數(shù)據(jù)處理加速智能認知、大數(shù)據(jù)處理助力智能展示等科學(xué)技術(shù),為多領(lǐng)域技術(shù)的全面進步帶來了很多機遇,也使高校圖書館應(yīng)用大數(shù)據(jù)助力人工智能得到了基礎(chǔ)技術(shù)的支撐[6]。
我中心在建立和完善大數(shù)據(jù)服務(wù)的基礎(chǔ)上,在人工智能以下幾個方面加大研究:(1)探究基于大數(shù)據(jù)的人工智能在圖書館乃至高校綜合管理服務(wù)中的作用。圖書館應(yīng)堅持以數(shù)據(jù)驅(qū)動為基礎(chǔ),借助不斷發(fā)展的人工智能技術(shù),在智能信息素養(yǎng)教育、智能語音搜索服務(wù)、智能資源管理服務(wù)、智能讀者管理服務(wù)、智能圖書館環(huán)境控制等多方面進行探索;此外在獲取全校數(shù)據(jù)的基礎(chǔ)上,開展關(guān)聯(lián)數(shù)據(jù)、數(shù)據(jù)挖掘及分析,將范圍進一步擴大到全校,探究高校人工智能綜合管理服務(wù)的新機遇。(2)探究基于大數(shù)據(jù)的人工智能個性信息推送服務(wù)。圖書館通過數(shù)據(jù)采集技術(shù)獲得讀者信息,利用人工智能分析出不同讀者的喜好,從而有針對性地為讀者進行實時個性推送服務(wù),引發(fā)讀者興趣后,按照由一個知識點發(fā)散為多個相關(guān)知識點的擴展推送方式為讀者帶來全方位的知識內(nèi)容,從而推動高校圖書館的閱讀推廣活動。
高校圖書館在構(gòu)建大數(shù)據(jù)服務(wù)體系過程中,基于“大數(shù)據(jù)+微服務(wù)”的服務(wù)模式也是加快創(chuàng)新服務(wù)的重要方面。微服務(wù)并不僅指微信服務(wù),而是構(gòu)建“微小”的個性化服務(wù)模塊來服務(wù)于讀者的模式。
我中心的信息系統(tǒng)很多,包括出入口門禁、匯文系統(tǒng)、電子閱覽、流量監(jiān)控、自助系統(tǒng)等,所對應(yīng)的各系統(tǒng)的數(shù)據(jù)庫資源也很豐富,可將與讀者行為相關(guān)的匯文、出入口門禁、視頻流量的數(shù)據(jù)資源進行篩選并深入分析,從而提供相應(yīng)的個性化微服務(wù),提供給讀者更加豐富的個性化選擇。例如,對于匯文系統(tǒng)數(shù)據(jù),提取其中與借閱流通相關(guān)的數(shù)據(jù)信息,統(tǒng)計書籍借閱排名和讀者借閱排名,通過館內(nèi)大屏展示或微信公眾號定期發(fā)送,從而為讀者提供借閱參考;通過借閱書籍排名數(shù)據(jù),改進圖書館紙質(zhì)資源采購比重;對于流量監(jiān)控數(shù)據(jù),通過篩選統(tǒng)計各個閱覽室的當(dāng)前滯留人數(shù),再結(jié)合閱覽室的座位數(shù)總量,通過館內(nèi)大屏實時播放,為入館讀者提供各閱覽室的座位占用情況,提高閱覽室座位使用率;對于門禁數(shù)據(jù),可以提取當(dāng)日的入館人次和累計進館人次數(shù)據(jù),統(tǒng)計出讀者不同時間使用圖書館的頻率,便于圖書館制定相應(yīng)的服務(wù)決策[7]。目前,中心還在不斷摸索和改進,將通過“大數(shù)據(jù)+微服務(wù)”模式向讀者提供更加豐富的個性化服務(wù)。
當(dāng)代信息傳播的形式越來越豐富,人們已經(jīng)將獲取信息的工具從電腦、電視等固定電子設(shè)備轉(zhuǎn)移到移動通訊工具。通過移動終端,讀者可以不受時間、地點的限制,更快速、更便捷地提取信息。高校圖書館應(yīng)當(dāng)順應(yīng)潮流,抓住信息移動化的服務(wù)模式,利用新的技術(shù)手段將圖書館的信息服務(wù)轉(zhuǎn)移到手機等各種移動終端上,建立移動端大數(shù)據(jù)平臺,助力精準(zhǔn)推送信息服務(wù)。
我中心創(chuàng)辦了兩個微信公眾號:圖書館、圖書與信息中心。這兩個微信公眾號在中心工作人員的維護下都非常活躍,除去發(fā)布各類通知公告、中心新聞動態(tài)、學(xué)術(shù)動態(tài)外,微信界面下方的微信菜單還根據(jù)中心特色及目前開發(fā)能力,主要提供一些常用的功能與服務(wù),使讀者通過捆綁校園卡號就可以實現(xiàn)館藏查詢、借閱服務(wù)、信息檢索、預(yù)約圖書等服務(wù),方便讀者的同時構(gòu)建了移動端的大數(shù)據(jù)獲取平臺。另外,我中心開展的“一小時講座”也通過以上兩個微信公眾號進行宣傳和推廣,并利用易企秀對每場講座進行在線預(yù)約,通過對預(yù)約人員數(shù)據(jù)的分析得到讀者對于講座的興趣偏向,從而改善講座內(nèi)容場次結(jié)構(gòu),提升講座效果,這是圖書館對于“大數(shù)據(jù)+移動服務(wù)”的一次成功嘗試[8]。挖掘分析移動端平臺大數(shù)據(jù),可以得到讀者對圖書館服務(wù)的認可方面以及改進的意見,為精準(zhǔn)推送信息的個性化服務(wù)打好基礎(chǔ)。
一般情況下,一所高校圖書館的數(shù)據(jù)信息量可能只有TB級,但擴展到高校圖書館聯(lián)盟,則有可能接近PB級,而且隨著云儲存的發(fā)展,這個信息量一直在擴大[9]。所以外部各兄弟高校的整合無疑有助于高校圖書館及圖書館聯(lián)盟提升服務(wù)品質(zhì)。多方合作,全面學(xué)習(xí),才能打破技術(shù)屏蔽,共同進步與前行。當(dāng)然,大數(shù)據(jù)最重要的不是數(shù)據(jù)大,而是在于數(shù)據(jù)共享、交叉復(fù)用以及挖掘數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián)性,這樣才能發(fā)揮數(shù)據(jù)的最大價值,進而推動圖書館聯(lián)盟改進大數(shù)據(jù)服務(wù)模式,拓展圖書館創(chuàng)新性服務(wù)。
地域相鄰的中國藥科大學(xué)與南京醫(yī)科大學(xué)于2017年12月舉行了戰(zhàn)略合作協(xié)議簽約儀式。兩校在教育教學(xué)、科技平臺、隊伍建設(shè)、圖書資料、信息庫等方面建立資源共享機制,開啟了信息數(shù)據(jù)共享聯(lián)盟模式。我中心得以獲得醫(yī)藥結(jié)合為特點、范圍更廣泛、層次更深入的大數(shù)據(jù)獲取平臺,以及挖掘數(shù)據(jù)內(nèi)在關(guān)聯(lián)性的機會,從而為中心大數(shù)據(jù)的技術(shù)發(fā)展再添勁風(fēng)[10]。
中國藥科大學(xué)是一所專業(yè)特色鮮明的大學(xué),于2017年9月入選“一流學(xué)科建設(shè)高?!?,中藥學(xué)為其“雙一流”建設(shè)學(xué)科,為使更多特色學(xué)科爭創(chuàng)一流學(xué)科,要制定提高研究型大學(xué)學(xué)術(shù)水平的相應(yīng)決策。在國際重要學(xué)術(shù)期刊上發(fā)表科研論文的情況是衡量一所研究型大學(xué)學(xué)術(shù)水平的重要指標(biāo)之一。我中心徐春等館員利用Web of Science等工具挖掘中國藥科大學(xué)近10年來發(fā)表高水平論文的數(shù)據(jù),篩選出62篇進行分析發(fā)現(xiàn),中國藥科大學(xué)高水平論文逐年增長,且主要集中在3個學(xué)科(藥理學(xué)與毒理學(xué)、化學(xué)及臨床醫(yī)學(xué)),由此建議學(xué)校針對學(xué)科發(fā)展方面采取一系列措施,如繼續(xù)在科研合作、引進高層次人才、共建實驗室等方面加大力度,促進優(yōu)勢學(xué)科發(fā)展。我中心通過對科研論文大數(shù)據(jù)的分析,從一個側(cè)面為學(xué)校的國家一流學(xué)科建設(shè)提供理論參考[11]。
另外,我中心參考咨詢部實時關(guān)注基本科學(xué)指標(biāo)數(shù)據(jù)庫(Essential Science Indicators,ESI)每期發(fā)布的最新世界學(xué)科排名。ESI是基于Web of Science中的滾動數(shù)據(jù),通過大數(shù)據(jù)分析和科研關(guān)系算法,對千萬級學(xué)術(shù)數(shù)據(jù)進行深度加工處理、深度挖掘,是衡量科學(xué)研究績效、跟蹤科學(xué)發(fā)展趨勢的基本分析評價工具。在2018年1月12日公布的最新學(xué)科排名中,中國藥科大學(xué)“藥理學(xué)與毒理學(xué)”學(xué)科排名為72名,第4次進入千分之一(進入ESI世界排名前千分之一的學(xué)科被認為已經(jīng)達到國際頂尖水平,可稱為世界一流學(xué)科),在國內(nèi)高校排名第二[12]。我中心通過兩個微信公眾號進行了及時報道和宣傳,引發(fā)學(xué)校關(guān)注,為學(xué)校的學(xué)科發(fā)展提供數(shù)據(jù)支持服務(wù)。
大數(shù)據(jù)時代的到來,為高校圖書館帶來了新的機遇和挑戰(zhàn)。我中心對圖書館應(yīng)用大數(shù)據(jù)服務(wù)作了一些探索,雖然是建立在圖書館與信息化技術(shù)中心合并的基礎(chǔ)上,但是在高校內(nèi)部門合作越來越緊密的今天,也提供了一種新的思路。利用現(xiàn)有的條件和技術(shù)構(gòu)建大數(shù)據(jù)時代高校圖書館的應(yīng)對模式和創(chuàng)新舉措,有助于高效利用大數(shù)據(jù)技術(shù)驅(qū)動圖書館提升服務(wù)能力,引領(lǐng)高校圖書館實現(xiàn)由數(shù)據(jù)到知識的轉(zhuǎn)化、由知識到發(fā)展的跨越,為推動學(xué)校一流學(xué)科發(fā)展、建設(shè)高水平研究型大學(xué)保駕護航。