從文獻請求傳遞數(shù)據(jù)中科學(xué)挖掘讀者需求
朱克亮,王一兵,湯雪唯,吳攀,陳巧蓮
(安徽理工大學(xué),淮南 232001 )
摘要:文章提出以讀者在區(qū)域資源共享平臺中請求文獻傳遞的日志記錄為基礎(chǔ),輔以頁面信息采集程序,再將數(shù)據(jù)整理及統(tǒng)計分析,科學(xué)地獲得讀者真實需求,為采購數(shù)字資源提供科學(xué)的數(shù)據(jù)支撐。
關(guān)鍵詞:知識發(fā)現(xiàn)平臺;數(shù)字資源采購;需求分析;文獻傳遞日志;數(shù)據(jù)挖掘
中圖分類號:G252.0
基金項目:2013年度安徽省高等學(xué)校圖書情報工作委員會
作者簡介:朱克亮,男,副研究館員。
收稿日期:2015-01-20
Scientifically mining the readers’ needs from the data deliveries requested
ZHU Ke-liang, WANG Yi-bing, TANG Xue-wei, WU Pan, CHEN Qiao-lian
(Anhui University of Science and Technology, Huainan232001, China)
Abstract:Based on the daily records of document transfer requested by readers, the library should also pay attention to the online acquisition program, make a statistical analysis of the data collected, get rid of the coarse and obtain the true needs of readers so as to provide scientific data support for the purchase of digital resources.
Key words: knowledge discovery platform; purchase of digital resources; demand analysis; joural of document transfer; data mining
1問題的提出
各圖書館都希望引進使用頻率高、受讀者歡迎的數(shù)字資源,目前各館的普遍做法有如下幾種:一是圖書館根據(jù)本校學(xué)科建設(shè)情況,對欲引進數(shù)字資源的價格、使用口碑等方面的情況進行綜合分析,自己決定購買意向;二是召開資源需求座談會,對需求意見相對集中的某些數(shù)字資源,由圖書館決定購買意向;三是發(fā)放問卷調(diào)查表,綜合評估需求比較集中的數(shù)字資源,若符合訂購要求,則予以考慮引進[1]。以上三種訂購數(shù)字資源的方法各有其優(yōu)缺點,但都不能全面反映讀者的真實需求,在大數(shù)據(jù)時代,圖書館如何用科學(xué)的方法挖掘出讀者對數(shù)字化資源的真實需求,是當(dāng)前各高校圖書館亟待解決的問題,本文就這個問題展開討論。
2基于文獻請求傳遞數(shù)據(jù)支撐的讀者需求挖掘
區(qū)域共享與文獻傳遞知識發(fā)現(xiàn)平臺已在大多數(shù)圖書館應(yīng)用,該知識發(fā)現(xiàn)平臺以其全面性、方便性、易用性深受廣大讀者歡迎。目前,讀者大都習(xí)慣了在知識發(fā)現(xiàn)平臺中檢索所需的文獻資源,如果本館所購的資源存在,則直接下載閱讀,如果本館所購資源中不存在,則申請文獻傳遞。
從現(xiàn)行讀者獲取數(shù)字資源的思路及方式中可以看出,只有本館沒有購買的數(shù)字資源,讀者才會在知識發(fā)現(xiàn)平臺中申請文獻傳遞,也就是說,讀者申請文獻傳遞的數(shù)字資源,大都是該圖書館缺失的數(shù)字資源,也是讀者真實需求的客觀反映。如果把一個學(xué)校在一個時間周期內(nèi)讀者申請文獻傳遞的信息全部匯集起來,用數(shù)學(xué)方法加以分析,就可以從中挖掘出許多有價值的信息,為圖書館以后訂購數(shù)字化資源提供可靠的數(shù)據(jù)支撐。
由于讀者是在個人電腦上使用知識發(fā)現(xiàn)平臺進行文獻傳遞的,地理上有較大的分散性,時間上也是分散的,要想得到讀者在平臺中申請文獻傳遞的詳細數(shù)據(jù)信息并不容易。目前主要的獲取模式有兩種:一是在校園網(wǎng)核心交換機出口上截取包數(shù)據(jù)流,對指定IP地址的數(shù)據(jù)包進行分析,得出需要的信息。其優(yōu)點是數(shù)據(jù)來源準確,時效性好;缺點是包數(shù)據(jù)流的信息量龐大,分析工作量大,還需要購買第三方的審計軟件,費用較高。二是在知識發(fā)現(xiàn)服務(wù)平臺的數(shù)據(jù)庫中獲取本校讀者申請文獻傳遞的信息。其優(yōu)點是信息處理量相對第一種方法要小得多,數(shù)據(jù)來源也是準確的[3]。其缺點是數(shù)據(jù)來源需要與數(shù)據(jù)商協(xié)調(diào),數(shù)據(jù)中有些字段并不能完全滿足對數(shù)據(jù)分析的需求。
準確獲取本校單位時間內(nèi)在該知識發(fā)現(xiàn)平臺中請求傳遞的詳細信息,挖掘出題名與源數(shù)據(jù)庫名之間的關(guān)聯(lián),整理出單位時間內(nèi)本校讀者向共享平臺請求數(shù)據(jù)資源的分布與頻度,形成以餅圖、折線圖、柱狀圖等多種圖表為主的分析研究報告,為圖書館下年訂購數(shù)字化資源提供決策支持。
經(jīng)過與安徽省區(qū)域共享與文獻傳遞知識發(fā)現(xiàn)平臺管理員協(xié)調(diào),從后臺數(shù)據(jù)庫中得到安徽理工大學(xué)2013年讀者請求文獻傳遞全部數(shù)據(jù),其數(shù)據(jù)的字段見表1所示:
表1 讀者請求數(shù)據(jù)字段
表1的字段中,其“標題”字段告訴我們讀者請求傳遞了什么文獻;“文獻類型”字段告訴我們傳遞的文獻中期刊論文、學(xué)位論文、會議論文、專利、標準等文獻所占的比例,對我們分類型訂購數(shù)字資源有指導(dǎo)意義;“文獻語種”字段告訴我們在傳遞的文獻中,中文文獻、外文文獻所占的比例,對我們在訂購數(shù)字資源時文種的選擇也具有參考價值?!白x者單位名稱”字段都是統(tǒng)一的安徽理工大學(xué),其他字段如:提交時間,回復(fù)時間,IP,用戶評價等,并不是我們所關(guān)心的字段。
從后臺數(shù)據(jù)庫中得到的數(shù)據(jù)中字段雖然很多,但唯獨沒有文獻出處字段,而單位時間內(nèi)被請求的數(shù)字資源頻次及其出處正是我們所重點關(guān)注的。如何由文獻標題得到文獻出處呢?在知識發(fā)現(xiàn)平臺中,如果在標題字段中輸入檢索詞檢索后,其檢索結(jié)果頁面中都會存在文獻出處的信息,只要從該頁面中提取該信息,就可以實現(xiàn)由文獻標題到文獻出處的一一關(guān)聯(lián)。但是由于一個學(xué)校一年內(nèi)讀者請求文獻傳遞的數(shù)據(jù)較為可觀,靠人工完成關(guān)聯(lián)顯然是不現(xiàn)實的,所以只能考慮編寫數(shù)據(jù)采集應(yīng)用程序來實現(xiàn)。
用通用的PHP、Java或C#等編程軟件編寫數(shù)據(jù)采集應(yīng)用程序,進行Web頁面的信息采集。先生成一標題列表文件,這個列表文件僅由 “標題”字段組成,我們把2013年我校讀者請求文獻傳遞全部數(shù)據(jù)中的“標題”字段下所有記錄拷貝到列表文件的“標題”字段中。由數(shù)據(jù)采集程序自動打開區(qū)域共享與文獻傳遞知識發(fā)現(xiàn)平臺,數(shù)據(jù)采集程序用列表文件中的“標題”字段中的記錄逐條做檢索,在返回頁面中,把文獻“標題”與“文獻出處”信息一一對應(yīng)的寫入新的文件中,完成全部由標題到文獻出處的一一關(guān)聯(lián)。
數(shù)據(jù)采集程序的主要代碼如下所示:
Begin
if標題列表文件是否存在 then
rfp <- open(標題列表文件,r)
if rfp是否為真 then
wfp <- open(存放查詢結(jié)果文件,w)
if wfp是否為真 then
do while eof(rfp)
keyword <- get(rfp->row())
textline <- get(seek(keyword))
if textline不為空 then
@fromline <- split(/出處:/, textline)
comefrom <- fromline[1]
write(wfp, keyword+comefrom)
else
write(wfp, keyword+"未找到")
end if
end do
close(wfp)
end if
close(rfp)
end if
end if
end
其程序流程圖見圖1。
圖1 頁面數(shù)據(jù)挖掘程序流程
我們從海量的全省文獻傳遞數(shù)據(jù)中得到了安徽理工大學(xué)全校讀者2013年在共享平臺請求文獻傳遞的基本數(shù)據(jù),通過人工整理,刪去對文獻分析無用的字段及數(shù)據(jù),并使用頁面數(shù)據(jù)挖掘軟件,實現(xiàn)了文獻標題與文獻出處相一一關(guān)聯(lián),再通過常用的數(shù)據(jù)統(tǒng)計分析軟件(如Excel等),得出以下分析數(shù)據(jù)結(jié)果。
2013年全校讀者在省共享平臺中請求文獻總數(shù)量為5408篇,其中中文文獻請求量為4350篇,占文獻請求總量的80.44%,外文文獻請求量為1058篇,占文獻請求總量的19.56%[4]。
由圖2可以看出,該校請求文獻傳遞的資源中,以中文數(shù)字資源為主,外文資源只有不到20%,其原因是近年來該校圖書館引進了一批如SD、SCI、EI、ACS、IEL 、ASCE、ASME等高質(zhì)量的外文資源數(shù)據(jù)庫,基本滿足了本校讀者的需求。
圖2 請求資源中中文文獻與外文文獻所占比例
2013年,該校圖書館Elsevier-SD下載量達54463篇,Springer下載量達10366篇,EBSCO下載量達3520篇,IEL下載量達12022篇,10個主要外文數(shù)據(jù)庫共下載資源量已10多萬篇,有力地支撐了教學(xué)科研活動。
圖3 外文資源各數(shù)據(jù)庫比例
由圖3分析如下:該校圖書館2007年以前的ScienceDirect資源沒有購買,所以有79篇的請求量,數(shù)據(jù)說明SD中07年以前的資源使用量并不大,文獻傳遞的方式完全可以滿足讀者的需求;EBSCO數(shù)據(jù)庫屬于已購資源,有13篇的文獻請求量應(yīng)屬于多余請求,也可能是由于共享平臺檢索元數(shù)據(jù)不準確造成;臺灣期刊論文索引系統(tǒng)、中國光學(xué)期刊網(wǎng)、CEPS臺灣電子期刊和中國精品文化期刊文獻庫是本館沒有購買的電子資源,也有一定的文獻傳遞請求量,請求數(shù)量各占外文資源總量的10%左右,由文獻傳遞服務(wù)補充非常恰當(dāng)[4]。萬方和CNKI中有些純英文的文獻,該校也有10%左右的文獻請求量,共享平臺把這些文獻歸屬于外文文獻,其實它們屬于中文資源數(shù)據(jù)庫,對其有10%文獻請求量的原因見以下分析。
由圖4可知,在中文資源里CNKI、萬方和維普三大中文數(shù)據(jù)庫文獻請求量最大,占整個文獻請求量的90%以上。萬方和CNKI都是該館已購數(shù)據(jù)庫,為什么還有60.62%的文獻傳遞請求呢?通過分析得知,一部分為本館沒有購買的學(xué)位論文、會議論文、專利或標準等特種文獻,一部分文獻為不在本館采購年限內(nèi)的資源,還有一小部分請求為讀者的多余請求。另外分析數(shù)據(jù)中顯示,維普數(shù)據(jù)庫的需求量占29.77%,而該資源本館并未購買,這為本館下一年度采購電子資源時提供了參考依據(jù)。
圖4 中文資源各數(shù)據(jù)庫比例
圖5 各文獻類型所占比例
由圖5可知,在讀者請求傳遞的文獻類型中,期刊論文占文獻傳遞總量的57.36%,成為主體;學(xué)位論文占32.21%,會議論文占5.27%,專利、標準和報紙占5.16%,學(xué)位論文占了約三分之一。由于該校是以理工科為主的大學(xué),從本科生到博士后各個層次的讀者都有,讀者在畢業(yè)環(huán)節(jié)大量地參考期刊論文及學(xué)位論文,這兩種類型的文獻需求量大也在情理之中。以該校鏡像資源為例,2013年度萬方數(shù)據(jù)期刊論文下載量是233445篇次,學(xué)位論文下載量為44948篇次;CNKI期刊論文下載量是254899篇次,學(xué)位論文下載量為39686篇次。這些數(shù)據(jù)告訴我們,要重視期刊及學(xué)位論文數(shù)據(jù)庫的采購[5]。
3結(jié)語
利用區(qū)域共享平臺后臺數(shù)據(jù)庫提供的某單位讀者在全年中請求文獻傳遞的數(shù)據(jù),輔以數(shù)據(jù)采集程序,再加上數(shù)據(jù)統(tǒng)計及分析,即可得到該單位讀者需求的數(shù)據(jù)庫名稱、請求的頻次等數(shù)據(jù);利用統(tǒng)計分析軟件,得出準確的讀者需求,為以后采購新的數(shù)字資源提供科學(xué)的數(shù)據(jù)支持。
參考文獻:
[1] 袁穎.圖書館電子資源讀者需求分析與營銷策略研究[J].商場現(xiàn)代化,2008,(35):118-119.
[2] 黃詠梅.讀者需求分析中的數(shù)據(jù)挖掘技術(shù)[J].大學(xué)圖書情報學(xué)刊,2006,24(04):48-50.
[3][4] 湯雪唯,朱克亮.基于用戶需求文獻傳遞利用現(xiàn)狀及對策分析[J].中國科技信息,2014,(15):179-180.
[5] 邵晶,閻曉弟,周琴,張靜.電子資源流量控制需求分析及其解決方案[J].大學(xué)圖書館學(xué)報,2012,(04):11-13.
(責(zé)任編輯:王靖雯)