蔡新紅
摘 要:普遍認為,大數(shù)據(jù)具有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)等類型,以其容量大、類型多、高時效、低密度和難分辨等特征。該文通過對大數(shù)據(jù)含義分析,認為大數(shù)據(jù)時代用戶對信息需求具有時效性、精確性、全面性和數(shù)據(jù)內(nèi)容針對性。根據(jù)大數(shù)據(jù)時代信息特點和用戶信息需求,提出通過建立個性化引擎、開展云搜索服務(wù)、進行云推薦與推送服務(wù)和建立個性化用戶分析系統(tǒng)等方法,建立用戶個性化服務(wù)模式。
關(guān)鍵詞:大數(shù)據(jù)時代 信息資源 個性化服務(wù) 服務(wù)模式
中圖分類號:G252 文獻標識碼:A 文章編號:1674-098X(2014)06(b)-0195-02
近年來,云計算、物聯(lián)網(wǎng)等技術(shù)的推動下,特別是2012年3月22日,奧巴馬政府宣布投資2億美元,主要用于研發(fā)采集、組織和分析大數(shù)據(jù)的工具及技術(shù),并拉動大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展,將“大數(shù)據(jù)戰(zhàn)略”上升為國家戰(zhàn)略,這意味著一種全新的致富手段擺在我們面前,它的價值堪比石油和黃金,有人將“大數(shù)據(jù)戰(zhàn)略”比之為克林頓政府1993年推出的“信息高速公路”計劃,從此,全球真正步入了“大數(shù)據(jù)”時代,大數(shù)據(jù)(Big Data)成為當下熱點問題。在大數(shù)據(jù)時代中,數(shù)據(jù)作為一種資源如何加以高效利用并開發(fā)出其中的價值,這已成為政府公共管理部門和企業(yè)界、投資者普遍關(guān)注的問題。
1 大數(shù)據(jù)時代讀者需求
對圖書館而言,其創(chuàng)新變革經(jīng)歷了數(shù)字圖書館(DL)、信息共享空間(IC)、IFRD、機構(gòu)知識庫存(IR)、移動圖書館(ML)、云計算等,數(shù)字資源的積累經(jīng)歷了傳統(tǒng)的數(shù)字化到原生數(shù)字資源的發(fā)展過程??梢哉f,到目前為止,中文紙質(zhì)圖書、期刊、學位論文等文獻類型,已大部完成數(shù)字化轉(zhuǎn)換。英文及其它文種的紙質(zhì)資源正在進行大規(guī)模數(shù)字化。事實上,傳統(tǒng)資源只占數(shù)字資源的很小部分,而原生資源(Born-digital resources)在每臺終端機、每個用戶都不斷地產(chǎn)生信息??梢哉f,未來圖書館大數(shù)據(jù)主要來自數(shù)字圖書館、RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)和移動互聯(lián)數(shù)據(jù)等。而對用戶,其大宗旨就是如何利用相關(guān)數(shù)據(jù)技術(shù)的從海量、多樣性的數(shù)據(jù)中,即省時又省錢,并精確、全面、快速獲得有價值的信息。
1.1 對數(shù)據(jù)時效性要求
互聯(lián)網(wǎng)上每天都產(chǎn)生大量數(shù)據(jù),這些數(shù)據(jù)都是以無序化、多樣化等形式出現(xiàn)的,如果用戶沒有相當?shù)臅r間去歸納、整理是很難組織適合自己的信息,這后知后覺意味著損失先機、價值和效益。因此,圖書館如何通過數(shù)據(jù)挖掘技術(shù),為用戶迅速從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,組織、提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息推送技術(shù)推送到用戶手中。
1.2 對數(shù)據(jù)精確性與全面性要求
云華時代智能科技有限公司董事長郭昕認為,大數(shù)據(jù)不僅改變了我們的思維方式,而且改變了我們的生產(chǎn)方式和生活方式,我們的精神世界和物質(zhì)世界都將構(gòu)建在大數(shù)據(jù)之上,大數(shù)據(jù)不僅僅是一門技術(shù),更是一種全新的商業(yè)模式,它與云計算共同構(gòu)成了下一代經(jīng)濟的生態(tài)系統(tǒng)。而圖書館數(shù)據(jù)從形式上分包含購置的資源、嵌入到圖書館相關(guān)資源、社交網(wǎng)絡(luò)資源、移動互聯(lián)網(wǎng)資源和圖書館一些傳感器所產(chǎn)生的資源等;從數(shù)據(jù)結(jié)構(gòu)上包含結(jié)構(gòu)性數(shù)據(jù)、半結(jié)構(gòu)性數(shù)據(jù)和非結(jié)構(gòu)性數(shù)據(jù)。因此,無論在數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)容量上來看,大數(shù)據(jù)如果缺少必要的技術(shù)手段,人工的搜索或者瀏覽都無法全面了解數(shù)據(jù)全貌。用戶由于對數(shù)據(jù)處理及數(shù)據(jù)挖掘技術(shù)掌握的不夠,影響數(shù)據(jù)的完整性、準確性和全面性,必將影響對事物的正確判斷,使其嗅覺變得遲鈍。在這個意義上,圖書館工作人員無論從事實要求和社會要求,都要求轉(zhuǎn)變職能,以大數(shù)據(jù)的思維出發(fā)提高服務(wù)水平,從聯(lián)機編目、館內(nèi)借閱、館際互借,轉(zhuǎn)而對各種數(shù)據(jù)提供精細分析和信息進行實時分析,提供精確性與全面性的數(shù)據(jù)。
1.3 對數(shù)據(jù)內(nèi)容要求
客觀地說,用戶利用信息資源的動機一般由需要、認知、學習等內(nèi)因和文化、社會、家庭、小群體、參考群體等外因共同決定,一方面每個用戶,其因知識背景、學科專業(yè)、科學研究方向決定其利用信息資源的層次、范疇和內(nèi)容,對數(shù)據(jù)要求不同。另一方面由于不同的數(shù)據(jù)有不同的結(jié)構(gòu)形式,不同的網(wǎng)站界面風格設(shè)計;其數(shù)據(jù)利用和定制途徑也不一樣,如果要使數(shù)據(jù)用戶根據(jù)自己所需,就要在用戶與數(shù)據(jù)之間建立一種關(guān)系,這種關(guān)系是對應(yīng)關(guān)系,是通過開通網(wǎng)絡(luò)全覆蓋進行內(nèi)容定向和行為定向服務(wù)。
2 大數(shù)據(jù)時代讀者個性化服務(wù)模式
大數(shù)據(jù)時代的圖書館用戶數(shù)據(jù)需求,不再局限于簡單層次的信息查詢與反饋,而是轉(zhuǎn)向廣闊的信息源,用戶對信息產(chǎn)品的需求,不是簡單查找相關(guān)文獻來源與出處,而是要求提供綜合度高、附加值大的信息產(chǎn)品。不僅是要信息咨詢?nèi)藛T提供圖書館現(xiàn)有數(shù)據(jù)庫、書目數(shù)據(jù)等結(jié)構(gòu)性數(shù)據(jù),同時還要查詢互聯(lián)網(wǎng)上非結(jié)構(gòu)性和半結(jié)構(gòu)性數(shù)據(jù)。為更好地利用這些數(shù)據(jù),圖書館員就要掌握一些數(shù)據(jù)挖掘工具與技術(shù),根據(jù)用戶利用信息資源的歷史記錄,掌握其學科專業(yè)背景、學術(shù)研究方向和閱讀興趣,對海量數(shù)據(jù)之間的關(guān)聯(lián)進行分析,挖掘出隱藏其中的規(guī)律信息,形成滿足用戶需求的深層次信息產(chǎn)品;主動定制書目數(shù)據(jù)、文獻資料等專題信息,并定期進行推送,真正實現(xiàn)個性化信息服務(wù)。
2.1 建立個性化引擎
眾所周知,在搜索領(lǐng)域Google、百度等已被用戶所熟悉,其強大的搜索功能贏得廣大用戶的青睞。針對圖書館而言,建立個性化的發(fā)現(xiàn)機制,能對各種數(shù)據(jù)進行表述、分類及評價。這樣的個性化推薦系統(tǒng)必須能夠基于用戶信息需求提供相關(guān)的精確的推薦,而且這種信息需求收集是較全面的。推薦的結(jié)果必須能夠?qū)崟r計算、運用,并能及時的對推送結(jié)果作出反饋。當然建立用戶個性化推薦機制的形式各有不同,一般是基于圖書館網(wǎng)站內(nèi)容,利用讀者的信息行為和信息源,為讀者進行個性化信息推薦,其推薦行為是根據(jù)用戶行為數(shù)據(jù)記錄和歷史信息需求進行。
2.2 開展云搜索服務(wù)
一般認為,云搜索是指可定制的、智能化站內(nèi)搜索。其核心價值訴求是保證所有資源利用者都能根據(jù)自己的數(shù)據(jù)需要找到相應(yīng)的信息,提高用戶的滿意度。站內(nèi)搜索支持所有論壇、CMS和手機終端應(yīng)用,其目的是節(jié)省服務(wù)器資源,不需限制搜索;搜索結(jié)果更精準;篩選方式更多樣;更迅速得出結(jié)果,提供搜索效益;通過云搜索可根據(jù)網(wǎng)站不同數(shù)據(jù)類型定義搜索條件,打造各種定制搜索需求,通過精準內(nèi)容推薦,提升網(wǎng)站流量,增加用戶粘性,強化搜索范圍、索引管理、語詞(關(guān)鍵詞)管理等。endprint
在開展云搜索服務(wù)過程中,其主要內(nèi)容包括:擁有站內(nèi)搜索功能、劃詞搜索、帖子頁推薦、彈窗推薦、refer推薦和首頁熱詞分析等,其中站內(nèi)搜索是云搜索服務(wù)的基本搜索功能,可根據(jù)用戶信息需求,定制結(jié)構(gòu)化數(shù)據(jù),并進行定時數(shù)據(jù)更新;首頁熱詞是云搜索服務(wù)的運營助手,可根據(jù)信息流量動態(tài)伸縮信息資源;其他項目是云搜索服務(wù)的基本服務(wù)內(nèi)容推薦。
2.3 進行云推薦與推送服務(wù)
各個商業(yè)網(wǎng)站或信息專業(yè)網(wǎng)站常用Refer進行云推薦服務(wù)。Refer推薦服務(wù)需要與搜索引擎關(guān)鍵字匹配,并從所有的搜索引擎(百度、google、云搜索)到達的頁面(可能是帖子頁、可能是首頁、板塊頁等),當其搜索關(guān)鍵詞被激活時,頁面彈出具有更多相關(guān)內(nèi)容的彈出框;從而使外部搜索引擎到達站點的用戶看到站內(nèi)更多相關(guān)內(nèi)容,對站點產(chǎn)生信任感。云推送服務(wù)的優(yōu)點在于,云推送服務(wù)支持推送給一個人、一群人和所有人,單一終端多個應(yīng)用共享一個服務(wù)進程和一條 TCP 長連接,從而有效降低手機的耗電量和數(shù)據(jù)流量,使用云推送服務(wù)用戶可使用“無賬戶登錄”。這樣,一是增強用戶粘性,通過云端之間的長連接,可以實時的推送消息到達用戶端。保持與用戶的溝通,大大提升用戶活躍度和留存率;二是節(jié)約成本,在省電省流量方面遠超行業(yè)水平,基礎(chǔ)的消息推送服務(wù)永久免費,大大節(jié)省開發(fā)者推送的成本;三是穩(wěn)定安全的推送,強大的分布式集群長期為百度各大產(chǎn)品線提供推送服務(wù),保證消息推送服務(wù)的穩(wěn)定、可靠。
3 大數(shù)據(jù)圖書館個性化服務(wù)系統(tǒng)
以資源為核心的數(shù)字化圖書館建設(shè)到以讀者為核心的大數(shù)據(jù)圖書館,最重要的就是針對不同讀者全面解決用戶個性化信息需求。而大數(shù)據(jù)的應(yīng)用就在于加強用戶研究與交互數(shù)據(jù)的利用,并基于對用戶數(shù)據(jù)的分析,提升個性化服務(wù)的水平,開展定題跟蹤服務(wù)、精準提供服務(wù)、定制知識關(guān)聯(lián)服務(wù)和信息推送服務(wù)。圖書館面對快速增長的大數(shù)據(jù),從中提取有價值信息,建立個性化用戶分析模型,針對不同用戶快速提供全面、準確的信息資源,滿足其個性化服務(wù)需要,提高信息服務(wù)層次與服務(wù)質(zhì)量。為滿足大數(shù)據(jù)對圖書館的要求,需要在以下幾個方面進行突破。
3.1 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是大數(shù)據(jù)應(yīng)用的核心。數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,該過程也被稱為數(shù)據(jù)考古(Data Archaeology)、數(shù)據(jù)模式分析(Data Pattern Analysis)或功能相依分析(Functional Dependency Analysis)。個性化圖書館首先要求文獻資源的個性化,使有限的經(jīng)費、寶貴的空間添置讀者真正需要的文獻,提高文獻資源的利用效率,并根據(jù)學校的專業(yè)設(shè)置及教學科研情況分配文獻購置費,使各種文獻載體形式之間達到平衡。圖書館每天產(chǎn)生大量可以對采購工作產(chǎn)生指導作用的數(shù)據(jù),如自動化系統(tǒng)的流通數(shù)據(jù)、圖書館的歷史采購數(shù)據(jù)、查詢系統(tǒng)的各種查詢數(shù)據(jù)等。利用模糊聚類分析技術(shù),通過對圖書館業(yè)務(wù)系統(tǒng)的借閱、流通狀況、檢索請求及館藏書目庫進行分析挖掘,以此分析出文獻的利用率,及時補充短缺的文獻,剔除過時的文獻或減少部分文獻的采購復本量。運用關(guān)聯(lián)分析技術(shù),對用戶每次借閱的文獻進行關(guān)聯(lián)分析,發(fā)現(xiàn)各類文獻間的關(guān)聯(lián)規(guī)則或比例關(guān)系,可為各學科文獻的采購工作提供分析報告和預測報告,優(yōu)化館藏結(jié)構(gòu)。
3.2 用戶行為分析系統(tǒng)
用戶在借閱過程中,產(chǎn)生大量的借閱數(shù)據(jù),圖書館一方面通過對用戶的學科、專業(yè)背景以及其相關(guān)領(lǐng)域科研動向進行宏觀分析,洞察用戶最新的科研走向,結(jié)合用戶相關(guān)歷史借閱數(shù)據(jù),推斷其借閱習慣與借閱趨勢,利用數(shù)據(jù)挖掘技術(shù),定制與其借閱相關(guān)聯(lián)的文獻資源,并通過推送技術(shù),把相關(guān)聯(lián)的文獻資源推薦給用戶,提升了圖書館在科研領(lǐng)域中的作用,為科研工作者提供了更多有價值的信息,提高服務(wù)的針對性、有效性和質(zhì)量。另一方面根據(jù)用戶借閱數(shù)據(jù)分析,判斷用戶圖書借閱的總體趨勢、各類借閱圖書分布、近期借閱熱門圖書,對圖書館館藏圖書進行有效評估,預測出讀者關(guān)注的熱點,并根據(jù)圖書資源評價意見,有效評估圖書館已有文獻的質(zhì)量以及讀者對未購買文獻的需求,合理采購文獻資源和電子資源,讓購買的資源更好地滿足讀者的需要,提高圖書館信息資源的利用率。
3.3 定題跟蹤服務(wù)系統(tǒng)
大學圖書館的一個重點工作是對重點學科開展定題跟蹤。定題跟蹤服務(wù)是指高校圖書情報部門針對某一特定課題的研究需要由圖書情報人員主動地、及時地、連續(xù)地為科研人員提供文獻資料,搜集情報信息和數(shù)據(jù),最大限度地滿足科研人員文獻信息需求的全程式服務(wù)。定題跟蹤服務(wù)采用Web挖掘技術(shù),對文檔進行分類、自動摘要、頁面過濾、網(wǎng)頁聚類以及趨勢預測等。目前研究者從不同角度已經(jīng)提出了很多行之有效的文本分類方法,這些方法大多是基于機器學習方法的,根據(jù)其分類原理的不同分為線性分類器、統(tǒng)計學習分類器、基于實例的分類器、決策樹方法、神經(jīng)網(wǎng)絡(luò)方法、支持向量機方法等。
3.4 信息推送服務(wù)系統(tǒng)
信息推送服務(wù)是基于推送技術(shù)發(fā)展而出現(xiàn)的一種新型服務(wù),它運用推送技術(shù)來實現(xiàn)個性化的主動信息服務(wù),信息推送服務(wù)不僅能夠做到了針對用戶的需求快速查找信息,而且保證了所提供信息對用戶的有用性,做到了信息服務(wù)的個性化,是近年來圖書館信息服務(wù)重要發(fā)展方向。隨著無線通訊技術(shù)的發(fā)展,手機作為信息終端已經(jīng)成為現(xiàn)實,在信息推送技術(shù)中,除了傳統(tǒng)的WWW、E-mail推送服務(wù),手機信息推送APP已經(jīng)成為目前研究的熱點。
參考文獻
[1] 張文彥.大數(shù)據(jù)時代的圖書館初探[J].圖書與情報,2012(6).
[2] 百度百科:大數(shù)據(jù).http://baike.baidu.com/view/6954399.htm.
[3] 百科名片:大數(shù)據(jù)時代.http://baike.baidu.com/view/9424571.htm.
[4] “大數(shù)據(jù)時代”來臨[N].北京晚報網(wǎng),2012-06-15.
[5] 新華網(wǎng),大數(shù)據(jù)時代的中國機遇——訪IBM中國研究院院長沈曉衛(wèi). http://news.xinhuanet.com/fortune/2013-04/30/c_115597780.htm.
[7] 大數(shù)據(jù)時代的中國機遇.文摘36,2013-05-30].
[8] 舒宗瑛.圖書館信息管理中數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].甘肅科技縱橫,2009,38(2).
[9] 龔軍慧.高校圖書館拓展與深化科研定題跟蹤服務(wù)的最佳實現(xiàn)途徑[J].情報探索,2012(11).
[10] 李沛.個性化信息推送服務(wù)及其在圖書館中的應(yīng)用[J].河南圖書館學刊,2010,30(5).endprint