楊永權(quán)
關(guān)鍵詞:大數(shù)據(jù);讀者決策采購;高校圖書館
摘?要:文章介紹了多種圖書采購模式的特點,分析了大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)在讀者決策采購中的應(yīng)用情況,探討了如何利用大數(shù)據(jù)思維構(gòu)建新的讀者決策采購模型,以期為高校圖書館創(chuàng)新資源采購模式提供理論參考。
中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2019)02-0085-04
隨著互聯(lián)網(wǎng)技術(shù)在各個行業(yè)的深入滲透,大數(shù)據(jù)和云計算技術(shù)改變了人們的生活方式,推動了社會的變革。高校圖書館作為文獻信息中心,面臨著館藏資源利用率低、經(jīng)費逐年下降、讀者參與薦購熱情低等問題。在這種情況下,如何快速轉(zhuǎn)變服務(wù)模式、提升有限經(jīng)費的利用率、優(yōu)化傳統(tǒng)的購書流程,已經(jīng)成為高校圖書館亟須解決的問題。讀者決策采購(PDA)作為一種新型的圖書采購模式,能有效優(yōu)化高校圖書館的購書制度和流程,提高高校圖書館購書經(jīng)費的利用率,滿足讀者的實際需求,在歐美等國家的高校圖書館得到了廣泛運用,并取得了一定成效。
1?圖書采購模式
相關(guān)統(tǒng)計數(shù)據(jù)顯示,2017年我國出版的新版圖書多達255,106種,因此,如何選購合適的圖書已經(jīng)成了高校圖書館亟須解決的難題。筆者根據(jù)大部分高校圖書館的做法,提出了以下幾種圖書采購方式:①依靠采訪編目部工作人員的經(jīng)驗采購圖書。采訪編目部工作人員按照學(xué)校的專業(yè)設(shè)置、館藏情況及長期從事該項工作的經(jīng)驗,進行有計劃的圖書采購。但是,由于該采購方式受個人經(jīng)驗的限制,具有一定的主觀性。②組織現(xiàn)場選購圖書。高校圖書館按照書商提供的書目,組織部分館員、教師和學(xué)生參加大型圖書展會或到購書中心進行現(xiàn)場選購圖書,控制不同學(xué)科圖書的比例。該采購方式能夠優(yōu)化館藏結(jié)構(gòu),滿足師生讀者的閱讀需求,受到了他們的歡迎。但是,現(xiàn)場選書會產(chǎn)生交通等費用開支,進而提高采購成本。③網(wǎng)絡(luò)推薦采購圖書。讀者可通過e-mail、QQ、微信及OPAC自帶的圖書推薦系統(tǒng)等網(wǎng)絡(luò)推薦方式進行圖書推薦,高校圖書館根據(jù)讀者推薦的圖書進行采購,滿足讀者的個性化需求。雖然該采購方式受到讀者的歡迎,但是所推薦的圖書可能在教學(xué)輔助方面的針對性不強。
由于高校圖書館工作人員沒有及時將圖書采購情況反饋給薦購人,上述圖書采購方式不能很好地激發(fā)讀者的參與熱情。此外,由于缺乏科學(xué)的評判標準,是否進行購買推薦的圖書館由采訪人員決定,人為因素起到了決定性作用。
2?PDA采購模式
讀者決策采購(Patron Driven Acquisitions,簡稱PDA),又稱需求驅(qū)動采購(Demand-Driven Acquisitions,簡稱DDA),是指圖書館基于讀者對某一本書的實際閱讀或瀏覽情況(如讀者的點擊次數(shù)、閱讀停留時間等),預(yù)設(shè)一定的參數(shù),當(dāng)達到相應(yīng)條件(如點擊人數(shù)超過10次、圖書單價低于200元等)時,自動觸發(fā)購買某一文獻指令的一種資源采購模式。
2.1?PDA的歷史
PDA起源于20世紀60年代美國的圖書綱目購書計劃,主要指圖書館與書商在選書和加工方面的協(xié)調(diào)互動[1]。我國學(xué)者將國外產(chǎn)生PDA的原因歸結(jié)為兩個方面:一是美國經(jīng)濟不景氣,購書經(jīng)費被大幅度壓縮,藏書與讀者的實際需求相脫節(jié),導(dǎo)致文獻利用率低下。二是隨著信息技術(shù)的發(fā)展,人們的閱讀行為發(fā)生了改變,電子閱讀逐步成為時代潮流,圖書館需要與出版商進行業(yè)務(wù)系統(tǒng)對接。PDA是館際互借的衍生物,美國巴克內(nèi)爾大學(xué)圖書館在1990年開始實施PDA項目。由于館際互借的成本較高及借閱時間所限,該校圖書館嘗試將PDA用于館際互借,只要是達到一定的請求次數(shù)或符合館藏建設(shè)標準的圖書,圖書館將考慮購買這些圖書。因此,PDA從最初只是為滿足館際互借需求的一項拓展服務(wù),到后來逐漸演化為館藏資源建設(shè)的一種模式[2]。
2.2?PDA的工作流程
根據(jù)不同的使用環(huán)境,PDA的工作流程可能會有所不同,但是其基本原理是以讀者的閱讀行為(如點擊瀏覽量、推薦量及試讀次數(shù)等)為觸發(fā)條件的,系統(tǒng)會自動判斷是否達到相應(yīng)的參數(shù)閾值,從而觸發(fā)購買或借閱行為的發(fā)生。其中,觸發(fā)類型可以細分為圖書館聯(lián)機目錄(OPAC)觸發(fā)型、館際互借觸發(fā)型和網(wǎng)絡(luò)書店觸發(fā)型。筆者以O(shè)PAC觸發(fā)型為例,構(gòu)建了紙質(zhì)圖書PDA的工作流程圖。
首先,高校圖書館根據(jù)館藏原則擬訂紙質(zhì)或電子圖書的書目,要求出版商提供符合預(yù)設(shè)文檔圖書的MARC數(shù)據(jù)。其次,圖書館將書商提供的符合標準的MARC數(shù)據(jù)導(dǎo)入書目管理系統(tǒng)中,并與原有館藏MRAC進行匹配[3],篩選冗余數(shù)據(jù)。讀者通過OPAC檢索書目信息,如果圖書館藏有所需的圖書,系統(tǒng)就自動彈出書目信息;如果圖書館沒有收藏所需的圖書,系統(tǒng)就會自動鏈接書商的服務(wù)器,彈出相關(guān)資源的信息。最后,當(dāng)點擊瀏覽量或請求文獻次數(shù)達到設(shè)定的閾值時,系統(tǒng)就會觸發(fā)購買命令或試讀電子圖書[4]。根據(jù)高校圖書館的文獻資源建設(shè)標準及圖書供貨原則,圖書的觸發(fā)機制可能會有所不同,如圖書的價格、種類、出版年限及是否符合學(xué)校的專業(yè)建設(shè)要求等。如果達到一定的條件,讀者就可以獲取所需圖書的電子版,但僅能瀏覽所需圖書紙質(zhì)版的簡介和大綱。
在這種模式下,讀者能發(fā)出采購指令,在不知情的情況下參與薦購,高校圖書館也不需要再向讀者進行人工推薦或宣傳。有些書商還提供先試用后購買的服務(wù),與圖書館的OPAC進行對接,當(dāng)圖書館沒有相關(guān)圖書時,讀者可點擊書商提供的鏈接直接閱讀,當(dāng)點擊的次數(shù)、瀏覽時間達到圖書館預(yù)設(shè)的指標后,系統(tǒng)將自動觸發(fā)向書商租用或購買該書的行為。另外,PDA系統(tǒng)具有相對健全的查詢功能,可以及時提供購買情況和跟蹤信息,激發(fā)讀者參與薦購的熱情,PDA系統(tǒng)還可以不斷優(yōu)化參數(shù)和標準,在很大程度上減少工作人員的主觀預(yù)測,進而滿足讀者的個性化需求。
3?基于大數(shù)據(jù)的讀者決策采購模型研究
3.1?大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)的概念
大數(shù)據(jù)是指無法在一定時間范圍內(nèi)用常規(guī)工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)具有5V特點,即大量(Volume)、高速(Velocity)、多樣(Variety)、低價值密度(Value)和真實性(Veracity)[5]。數(shù)據(jù)挖掘技術(shù)是一種可以將隱藏在大量數(shù)據(jù)信息中的有用信息以規(guī)則、概念、規(guī)律和模式等形式提取出來的技術(shù)。大數(shù)據(jù)時代,高校圖書館經(jīng)過多年的信息化建設(shè),已經(jīng)累積了大量的業(yè)務(wù)數(shù)據(jù)。高校圖書館應(yīng)對累積的大數(shù)據(jù)進行整理,分析文獻的利用情況,挖掘有價值的信息,如學(xué)生的閱讀興趣、圖書的借閱率等,進而為管理人員或圖書采購人員提供科學(xué)依據(jù),避免人為主觀因素的影響,為館藏資源建設(shè)提供更加科學(xué)、準確、全面的分析與預(yù)測。因此,以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ)的圖書館服務(wù)模式正逐步改變?nèi)藗兊墓芾砝砟?,傳統(tǒng)的人工服務(wù)模式受到了嚴峻的挑戰(zhàn)。
3.2?圖書館大數(shù)據(jù)的來源
數(shù)據(jù)表示形式可分為結(jié)構(gòu)化數(shù)據(jù)(用二維表結(jié)構(gòu)表達實現(xiàn)的數(shù)據(jù)形式,通常存儲在關(guān)系型數(shù)據(jù)庫和面向?qū)ο髷?shù)據(jù)庫中)、非結(jié)構(gòu)化數(shù)據(jù)(如視頻、圖片、圖像和聲音等)和半結(jié)構(gòu)化數(shù)據(jù)(介于結(jié)構(gòu)化和非結(jié)構(gòu)化之間,如郵件、報表和HTML等)。高校圖書館經(jīng)過多年的信息化建設(shè),其大數(shù)據(jù)的主要來源有以下兩種。
3.2.1?結(jié)構(gòu)化數(shù)據(jù)的來源。①讀者利用館藏資源的記錄。流通系統(tǒng)能自動記錄讀者的借閱信息,如讀者的個人信息、借閱歷史和借還時間。②讀者利用館藏電子資源的歷史記錄。圖書館一般都會購買或自建學(xué)術(shù)數(shù)據(jù)庫、特色資源數(shù)據(jù)庫、電子期刊、數(shù)字報刊和電子圖書等數(shù)據(jù)庫,這些資源的類型多樣、數(shù)據(jù)量大、增長速度快,它們都是圖書館大數(shù)據(jù)的重要來源。讀者下載或查看這些電子資源的信息能被系統(tǒng)詳細記錄,這些信息大多屬于結(jié)構(gòu)化數(shù)據(jù),它們的結(jié)構(gòu)相對單一。
3.2.2?非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的來源。網(wǎng)絡(luò)時代,讀者在通過智能手機、平板電腦等設(shè)備獲取圖書館資源的過程中,必然會留下相應(yīng)的痕跡,進而產(chǎn)生大量非結(jié)構(gòu)化數(shù)據(jù),如讀者的訪問時間、訪問位置、訪問習(xí)慣、檢索歷史和登錄方式等。高校圖書館在資源建設(shè)過程中不僅要重視結(jié)構(gòu)化數(shù)據(jù),還要特別重視非結(jié)構(gòu)化數(shù)據(jù),可以利用數(shù)據(jù)挖掘技術(shù)對這些數(shù)據(jù)進行整理收集、挖掘和分析,獲取讀者的興趣偏好,滿足讀者的個性化和多樣化需求。
3.3?運用大數(shù)據(jù)提升圖書采購效果
PDA模式雖然已經(jīng)取得了良好的效果,但是也存在一些不足,如經(jīng)PDA推薦購買的圖書是否符合館藏體系,讀者是否存在濫用選書權(quán)利的現(xiàn)象,經(jīng)費使用是否合理等。有學(xué)者指出,通過PDA購買的圖書只有30%是有購買價值的,高校圖書館不能單純購買讀者喜歡的圖書,否則容易造成館藏圖書結(jié)構(gòu)的不平衡。因此,為了避免類似問題的發(fā)生,圖書館需要利用數(shù)據(jù)挖掘技術(shù)對讀者的閱讀偏好、閱讀行為和館藏資源的利用情況等數(shù)據(jù)進行收集與分析,預(yù)測讀者的偏好規(guī)律,進而設(shè)置科學(xué)的PDA參數(shù),使PDA決策與館藏規(guī)劃方向一致,避免讀者的即時性與盲目性選書造成文獻流通量低下,同時還可以完善館藏特色資源建設(shè)。
3.4?系統(tǒng)模型的構(gòu)建
筆者結(jié)合數(shù)據(jù)挖掘的流程,利用數(shù)據(jù)挖掘技術(shù)構(gòu)建知識庫的流程。構(gòu)建知識庫的流程包括數(shù)據(jù)源采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉庫形成、數(shù)據(jù)挖掘算法和形成知識庫等步驟。
3.4.1?數(shù)據(jù)源采集?;緮?shù)據(jù)源采集是形成數(shù)據(jù)倉庫并進行數(shù)據(jù)挖掘的基礎(chǔ),可采集的數(shù)據(jù)包括館藏書目信息、讀者個人信息、流通借閱信息、讀者的檢索日志及其他半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)。
3.4.2?數(shù)據(jù)預(yù)處理。數(shù)據(jù)清洗是檢測和去除數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù),去除空白數(shù)據(jù)域和知識背景下的白噪聲,分為有監(jiān)督清洗和無監(jiān)督清洗兩類。數(shù)據(jù)集成是對不同來源、格式、性質(zhì)的數(shù)據(jù)進行有機集中,刪除冗余數(shù)據(jù)。數(shù)據(jù)變換是在對數(shù)據(jù)進行統(tǒng)計分析時,要求數(shù)據(jù)必須滿足一定的條件,找到數(shù)據(jù)的不變式。數(shù)據(jù)規(guī)約是將圖書館數(shù)據(jù)庫中的大量數(shù)據(jù)進行合并或壓縮,減少數(shù)據(jù)量,但規(guī)約后的數(shù)據(jù)仍保持原始數(shù)據(jù)的完整性,有助于提高數(shù)據(jù)挖掘的性能和效率。
3.4.3?數(shù)據(jù)倉庫形成。圖書館通過對基本數(shù)據(jù)的預(yù)處理,將大量異構(gòu)、無序和冗余的數(shù)據(jù)整合為具有一定主題、相對穩(wěn)定、易于分析挖掘的標準化數(shù)據(jù)。
3.4.4?數(shù)據(jù)挖掘過程。高校圖書館應(yīng)以構(gòu)建的數(shù)據(jù)倉庫為基礎(chǔ),從讀者的基礎(chǔ)信息、閱讀興趣、館藏利用等維度進行挖掘,主要包括以下幾個方面:一是根據(jù)借閱歷史記錄表對每類圖書的借閱頻率和借閱量及讀者的檢索情況等進行分析,獲取用戶對每類圖書的實際需求。二是分析每類圖書的續(xù)借情況及歸還時間。三是根據(jù)讀者信息記錄表對讀者的基本情況進行分析,如讀者的專業(yè)、讀者的文化程度等。四是根據(jù)檢索歷史記錄表分析讀者對每類圖書的檢索情況。五是以年或季度為時間單位統(tǒng)計各類圖書的購買情況及館藏結(jié)構(gòu)變化情況,分析讀者對各類圖書的需求情況。六是運用數(shù)據(jù)挖掘技術(shù)對讀者的閱讀興趣進行挖掘[6]。圖書館可采用多種數(shù)據(jù)挖掘算法進行挖掘,如:基于借閱數(shù)據(jù)運用關(guān)聯(lián)規(guī)則算法,基于讀者興趣運用協(xié)同過濾挖掘法,基于不同的讀者群體運用聚類挖掘法及預(yù)測挖掘法等。
3.4.5?形成知識庫。圖書館應(yīng)將數(shù)據(jù)挖掘得出的規(guī)則置于知識庫中,使它們在改進后的PDA模型中起到智能推薦的作用。
3.5?改進后PDA推薦模型
在原有PDA基礎(chǔ)上,圖書館引入經(jīng)過數(shù)據(jù)挖掘后的知識庫,重新構(gòu)建了PDA工作流程(見圖2):一是圖書館根據(jù)學(xué)校的專業(yè)設(shè)置、經(jīng)費預(yù)算和館藏原則等情況,制定一系列采購標準,如圖書的單價、種類及出版日期等,形成科學(xué)、合理的采購制度。二是書商提供MARC記錄,并與圖書館現(xiàn)有的館藏數(shù)據(jù)進行匹配,刪除冗余數(shù)據(jù),進而與圖書館OPAC進行有效對接。三是讀者登錄圖書館OPAC系統(tǒng)檢索文獻,當(dāng)圖書館沒有需要的文獻時,可選擇書商提供的檢索入口進行檢索。四是PDA系統(tǒng)根據(jù)讀者的借閱歷史和檢索記錄,計算出讀者的閱讀興趣,向他們推薦感興趣的資源,由讀者決定是否薦購;當(dāng)讀者發(fā)出采購請求時,PDA系統(tǒng)能自動檢測推薦資源是否符合要求,在某種程度上盡量減少無意義薦購行為的發(fā)生。五是當(dāng)以上薦購信息滿足預(yù)設(shè)條件時,可觸發(fā)購買命令的執(zhí)行,采編人員下單完成。
由工作流程圖可以看出,新的PDA系統(tǒng)加入了數(shù)據(jù)挖掘的功能,能獲取讀者的興趣偏好,判斷是否符合采購條件,進而減少讀者的無意義薦購。新的PDA系統(tǒng)也能根據(jù)讀者的閱讀興趣向讀者推薦資源,提升讀者的使用體驗。新的PDA系統(tǒng)還可根據(jù)實際反饋情況對設(shè)置的參數(shù)進行調(diào)整,逐步提高讀者薦購系統(tǒng)的推薦效果。
4?結(jié)語
與傳統(tǒng)的圖書采購模式相比,PDA采購模式以讀者需求為驅(qū)動,能有效提升圖書利用率。因此,高校圖書館在看到PDA所帶來的效果的同時,還應(yīng)該綜合考慮館藏特色及館藏多樣性,充分發(fā)揮傳統(tǒng)采購模式和PDA采購模式的優(yōu)勢,從而使館藏資源建設(shè)更加科學(xué)化、合理化和特色化。
參考文獻:
[1] 賈麗君.基于PDA的圖書資源采購云平臺構(gòu)建分析[J].圖書情報工作,2016(4):67-72.
[2] 唐吉深.我國讀者決策采購(PDA)研究述評[J].圖書館學(xué)研究,2015(2):22-28.
[3] 胡小菁.PDA:讀者決策采購[J].中國圖書館學(xué)報,2011(2):50.
[4] 王芙蓉.大數(shù)據(jù)環(huán)境下基于讀者決策的圖書館文獻資源采購模型研究[J].圖書館學(xué)研究,2017(12):54-59.
[5]大數(shù)據(jù)[EB/OL].[2018-12-06].http://www.czs.gov.cn/tjj/tjzs/content_610979.html.
[6] 宋宇.基于數(shù)據(jù)挖掘的圖書采購模型研究[J].圖書館學(xué)研究,2014(17):53-55.
(編校:孫新梅)