蔣 君 王 超 張 玢
(中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所/圖書館 北京 100005)
隨著信息時代的到來,跨領(lǐng)域多學(xué)科交叉研究不斷深化,任何一家圖書館的館藏資源都難以滿足用戶多樣化信息需求,需要通過文獻資源共享和文獻傳遞的方式來解決[1]。用戶畫像技術(shù)能夠較好地描述用戶特征和信息需求,在用戶和圖書館之間搭起交流橋梁,有利于驅(qū)動原文傳遞的創(chuàng)新發(fā)展。
用戶畫像以數(shù)據(jù)分析為工具,通過對用戶屬性、行為等方面的挖掘,了解并跟蹤用戶的需求變化,從而進行精準(zhǔn)營銷[2]。最早提出用戶畫像概念的是交互設(shè)計之父A. Cooper,將其定義為基于用戶真實數(shù)據(jù)的虛擬代表。Rebecca M. Quintana將用戶畫像描述為一個從海量數(shù)據(jù)中獲取、由用戶信息構(gòu)成的形象集合,通過這個集合可以描述用戶偏好興趣等個性化需求[3]。在圖書情報領(lǐng)域,Amato G認為信息提供者的最終目標(biāo)是滿足用戶的信息需求,為用戶定制用戶畫像[4]。Mao Jin探討基于標(biāo)簽的個性化推薦新方法[5]。王慶基于用戶畫像進行圖書館資源推薦模式設(shè)計與分析,為圖書館開展個性化服務(wù)提供新思路[6]。許鵬程在數(shù)據(jù)驅(qū)動下進行數(shù)字圖書館用戶畫像模型構(gòu)建,以促進數(shù)字圖書館的知識服務(wù)升級[7]。陸堯針對區(qū)域圖書館聯(lián)盟文獻傳遞進行用戶行為分析,提出改進意見[8]。本文在國家科技圖書文獻中心(National Science and Technology Library,NSTL)原文傳遞的基礎(chǔ)上對用戶畫像進行分析,以便精準(zhǔn)了解用戶需求,實現(xiàn)資源服務(wù)內(nèi)容精細化。
中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所/圖書館(以下簡稱醫(yī)科院圖書館)為NSTL的醫(yī)學(xué)分中心,面向全國科研單位提供醫(yī)學(xué)類信息服務(wù)工作。醫(yī)科院圖書館目前擁有醫(yī)學(xué)及相關(guān)學(xué)科高質(zhì)量數(shù)據(jù)庫91個,電子期刊16 300余種,紙本期刊4 500余種,涵蓋基礎(chǔ)醫(yī)學(xué)、臨床醫(yī)學(xué)、藥學(xué)、公共衛(wèi)生等醫(yī)學(xué)各學(xué)科及化學(xué)、心理學(xué)等醫(yī)學(xué)交叉學(xué)科。本文選取醫(yī)科院圖書館2018年1月1日-12月31日期間通過NSTL原文傳遞系統(tǒng)向全國醫(yī)學(xué)科研機構(gòu)提供的80 866篇原文傳遞文獻為數(shù)據(jù)源。
對80 866篇原文傳遞文獻進行數(shù)據(jù)清洗和整理,采用文獻計量學(xué)方法分析原文傳遞的語種、出版年等外在特征,聚類分析法計算出文獻的領(lǐng)域特征,時序分析法分析用戶申請的時間規(guī)律,從用戶的行為信息和偏好興趣兩個維度對用戶畫像進行分析,以便優(yōu)化資源建設(shè),改進工作流程,提高工作效率和用戶滿意度。
用戶畫像是一個長期逐步完善的過程,其目標(biāo)是通過對用戶行為、偏好等方面分析,給用戶打上標(biāo)簽,以便精準(zhǔn)快速分析用戶行為習(xí)慣,為其提供個性化服務(wù)。NSTL原文傳遞用戶畫像是在原文傳遞的基礎(chǔ)上通過原文傳遞系統(tǒng)獲得用戶行為數(shù)據(jù)并進行預(yù)處理,形成規(guī)范化用戶信息加以存儲,然后對這些用戶信息進行分類聚類等統(tǒng)計分析,勾勒出精確的用戶畫像,從而指導(dǎo)原文傳遞服務(wù)升級。用戶畫像分析框架,見圖1。
圖1 用戶畫像分析框架
3.1.1 語種 2018年共有458位用戶通過NSTL原文傳遞服務(wù)平臺向醫(yī)科院圖書館申請原文傳遞服務(wù),單個用戶最高申請次數(shù)為20 675次。醫(yī)科院圖書館發(fā)送原文傳遞文獻80 866篇,去重后為50 648篇,其中單篇最高發(fā)送量為81次。將80 866篇原文傳遞文獻按語種進行分類,見表1。可以看出原文文獻主要以外文文獻為主,占99.6%。同時還有33篇中文文獻,全部是北京協(xié)和醫(yī)學(xué)院的學(xué)位論文。分析其原因主要是:(1)醫(yī)科院圖書館以外文文獻為主,國外許多重要期刊是從創(chuàng)刊開始進行收錄,覆蓋范圍廣泛。(2)國際上多數(shù)醫(yī)學(xué)期刊論文使用英文發(fā)表。(3)除使用英語的國家外,日本、法國、德國等國也有較好的醫(yī)學(xué)專業(yè)和醫(yī)學(xué)期刊,并且有些小語種(如匈牙利語、荷蘭語、波蘭語等)在國內(nèi)是獨家館藏。(4)中文文獻一般可以從中國知網(wǎng)或萬方等網(wǎng)絡(luò)數(shù)據(jù)庫上查找全文,但北京協(xié)和醫(yī)學(xué)院的碩博論文只能在圖書館獲得。
表1 原文傳遞文獻語種分析
3.1.2 類型 80 866篇原文傳遞文獻共分為4種類型,見表2。在4種類型中期刊占絕大多數(shù),其他3種類型只有少量,這與其自身特點有關(guān):(1)期刊論文主要報道學(xué)術(shù)研究、學(xué)術(shù)創(chuàng)新點等成果,一般需要通過專家審稿,具有嚴謹性和連續(xù)性的特點,且醫(yī)科院圖書館的外文醫(yī)學(xué)期刊較為豐富,是醫(yī)學(xué)研究人員首選。(2)會議論文是圍繞某個會議主題在特定領(lǐng)域內(nèi)的文章,是同領(lǐng)域內(nèi)最新、最前沿的成果匯總,能及時反映學(xué)科發(fā)展趨向,有一定的參考價值[9]。(3)學(xué)位論文是作者為獲得某種學(xué)位而撰寫的研究報告或科學(xué)論文,具有一定獨創(chuàng)性,參考文獻多、全面,有助于對相關(guān)文獻進行追蹤檢索[10],并且北京協(xié)和醫(yī)學(xué)院的學(xué)位論文是醫(yī)科院圖書館的特色館藏。(4)圖書的內(nèi)容比較系統(tǒng)、全面、成熟、可靠,但時效性不及其他類型文獻,因此這類文獻用戶參考較少。對于這4種類型文獻所包含的語種,期刊論文涉及語種較多,由除中文外的其他多語種文獻組成,而學(xué)位論文僅包含中文文獻,會議論文和叢書僅包含英文文獻。
表2 原文傳遞文獻類型分析
3.1.3 年代 原文傳遞文獻按出版年代分布,見圖2,可以看出:(1)1995-2018年每年都有申請,基本上是年代越新申請量越大(2018年除外),說明用戶非常重視文獻的時效性,希望獲得最前沿的科技成果。(2)2011-2018年的文獻占比為51%,超過半數(shù),2015-2017年這3年的文獻需求量最多,其中2015年的文獻超過6 000篇,說明近3年的文獻是研究人員關(guān)注的重點。(3)2000年之前的文獻約占5.5%,主要集中在《生殖醫(yī)學(xué)雜志》(86篇,影響因子0.452,JCR分區(qū)Q4,婦產(chǎn)科)和《神經(jīng)外科學(xué)雜志》(83篇,影響因子4.319,JCR分區(qū)Q1,臨床神經(jīng)病外科學(xué))等期刊,說明這些醫(yī)學(xué)期刊具有長尾效應(yīng),對現(xiàn)在仍有影響。期刊、會議和學(xué)位論文3種原文傳遞文獻數(shù)量排名前3,將這3種類型分別按年代進行排序,見圖3。期刊從1995-2018年都有使用,與總體趨勢一樣,年代越新使用量越大(2018年除外);會議論文重點關(guān)注前一年(2017年)的文獻,共計21篇;學(xué)位論文涉及2010-2017年10年的文獻,且每年2~3篇,分布比較均勻。
圖2 原文傳遞文獻年代分析
圖3 期刊類型文獻年代分析
3.1.4 來源 原文傳遞文獻共涉及3 883種來源文獻,前360種期刊累計占比達50%。按文獻量倒序排列,選取排名前20位,累積占比9%,見表3??傮w來看:(1)排名前20位的來源文獻申請次數(shù)都在240以上,最高達558次。(2)20種來源文獻的JCR分區(qū),Q1、Q2、Q3、Q4分別占50%、10%、10%和25%,多數(shù)文獻分布在第1個分區(qū),說明申請文獻的質(zhì)量較高。(3)排名前3的是《國際病毒學(xué)雜志》、《肝臟與胃腸病學(xué)》和《白血病和淋巴瘤》,這3種期刊的JCR分區(qū)均位于Q2~Q4,說明用戶相對期刊來說,更看中單篇文獻的質(zhì)量。(4)3大頂級醫(yī)學(xué)期刊《柳葉刀》(Lancet)、《新英格蘭醫(yī)學(xué)雜志》(NEJM)、《美國醫(yī)學(xué)會雜志》(JAMA)分別位列第4、11和16位,影響因子較高,受到研究者的廣泛關(guān)注。(5)還有一種期刊《印度醫(yī)學(xué)會雜志》(第8位)未被收入SCI中,沒有影響因子和JCR分區(qū),但是文獻傳遞量較高,說明用戶關(guān)注印度相關(guān)的醫(yī)學(xué)信息。
表3 前20位原文傳遞文獻來源分析
3.1.5 學(xué)科分類 將文獻按《中國圖書館圖書分類法》(以下簡稱中圖法)進行整理,除去沒有分類的1 934篇(暫歸為其他)外,共涉及中圖法12個大類,超過中圖法大類的50%,見圖4。其中R醫(yī)藥、衛(wèi)生領(lǐng)域最多,約占92%;其次是Q生物科學(xué),占4%;再次是O數(shù)理科學(xué)和化學(xué)、T工業(yè)技術(shù)、N自然科學(xué)總論、D政治法律、S農(nóng)業(yè)科學(xué)等與醫(yī)學(xué)相關(guān)學(xué)科;此外還包括X環(huán)境科學(xué)、G文化科學(xué)、B哲學(xué)宗教、C社會科學(xué)總論和P天文學(xué)等邊緣學(xué)科,表明這些學(xué)科與醫(yī)學(xué)有交叉研究。在2級類目中,R73腫瘤學(xué)、R9藥學(xué)的文獻傳遞量最大,其次是R6外科學(xué)、R75皮膚病學(xué)與性病學(xué)、R74神經(jīng)病學(xué)與精神病學(xué)等,由此得出這些領(lǐng)域是目前醫(yī)學(xué)人員研究的重點。在非醫(yī)藥衛(wèi)生領(lǐng)域,Q5生物化學(xué)、Q2細胞生物學(xué)、O6化學(xué)等領(lǐng)域文獻較多。
3.1.6 標(biāo)題聚類 從文獻標(biāo)題入手,運用Gephi可視化關(guān)系網(wǎng)絡(luò)分析軟件對內(nèi)容進行分析。首先將所有標(biāo)題進行分詞,去除沒有意義的代詞、介詞、副詞、量詞等停用詞,選取詞頻在500以上的詞,對其進行統(tǒng)計和聚類,揭示詞與詞之間的關(guān)聯(lián)關(guān)系,見圖5。通過分析可知這些文獻主要聚為4類:以臨床(clinical)為代表的粉色圖標(biāo)、以肌肉內(nèi)(intramuscular)為代表的綠色圖標(biāo)、以治療(treatment)為代表的橙色圖標(biāo)和以影響(effect)為代表的藍色圖標(biāo)。粉色圖標(biāo)主要與臨床、癥、腺癌、肝臟、肺、腫瘤、分子、基因、血清等有關(guān),代表腺癌、肝癌、肺癌等腫瘤在分子、基因和血清等方向的臨床研究;綠色圖標(biāo)主要與肌肉、治療管理、原發(fā)性、淋巴瘤、案例、外科、劑量、診斷等有關(guān),代表原發(fā)性淋巴瘤、肌肉瘤等案例的診斷和手術(shù);橙色圖標(biāo)主要與治療、注射、藥物、慢性、急性、疾病、風(fēng)險等有關(guān),代表慢性或急性疾病的注射或藥物治療及其風(fēng)險因素。藍色圖標(biāo)主要說明相關(guān)影響。各類內(nèi)關(guān)系密切,各類間也有相互關(guān)聯(lián),連接的粗細代表關(guān)聯(lián)強 度。
圖4 原文傳遞文獻學(xué)科分類
圖5 標(biāo)題聚類分析
提交申請時間不僅可以反映用戶工作習(xí)慣,還便于醫(yī)科院圖書館根據(jù)需求量大小更好地安排工作。以下從工作日、月份、周期和時段4個時間維度對用戶提交時間進行分析。從工作日來看,周一到周五的原文傳遞提交量相對較多,周末較少。周三是用戶提交需求的高峰期,周二和周四其次,兩頭最少,見圖6。從提交月份來看,10月、11月是最高峰,其次是7月和9月,然后是1月、3月和5月,見圖7。這與申報獎項、課題和職稱評定有一定關(guān)系。從提交周期來看,第41周(10月7-13日)提交需求最多,其次是第17周(4月22-28日)、37周(9月9-15日)和48周(11月25日-12月1日),基本上都在提交月份的高峰期內(nèi),見圖8。其中第41周與十一放假后需求積壓反彈有關(guān)聯(lián)。從提交時段來看,在24個時點中有3個高峰期:9-11點是第1個高峰期,也是提交量最大的時間段,12-16點是第2個高峰期,20-22點又迎來一個小高峰,見圖9。從用戶原文傳遞申請的全年時間分布分析,總體來說用戶在10月節(jié)后第1個星期和4月、11月最后1個星期的周二到周四上午9-11點提交的申請最多,可以提前做好準(zhǔn)備,根據(jù)需求量大小對工作人員進行相應(yīng)調(diào)整,以便更好地為用戶服務(wù)。
圖6 提交工作日分析
圖7 提交月份分析
圖8 提交周期分析
圖9 提交時段分析
從原文傳遞的分析結(jié)果可以看出大部分用戶關(guān)注腫瘤學(xué)、藥學(xué)、外科等領(lǐng)域資源及一些重點期刊,適當(dāng)加強相應(yīng)學(xué)科的資源建設(shè)將更好地滿足用戶需求。原文傳遞需求的學(xué)科分布將是加強針對性資源建設(shè)的參考,應(yīng)定期向資源建設(shè)部反映館內(nèi)發(fā)送申請的情況,以便圖書館在購買新增資源時參考。
從用戶需求特征看,期刊文獻的需求量最大,但會議論文、學(xué)位論文和叢書也有需求,可能以后還包括標(biāo)準(zhǔn)、專利、科技報告等其他類型文獻。從用戶對文獻語種的需求看,除英文外小語種文獻也占有一定比例。為滿足用戶需求的多樣化和個性化,建議文獻采集時盡量擴充文獻類型和語種。
原文傳遞的關(guān)鍵是找到用戶需要的文獻資源,這就意味著對文獻要進行全面的揭示和完善的查詢。目前圖書館中有少數(shù)館藏資源只保存紙質(zhì)版,尚沒有進行數(shù)字化加工,難以實現(xiàn)統(tǒng)一揭示,尤其是一些珍貴的特藏文獻,目前只有紙版保存。因此建議盡量實現(xiàn)圖書館的數(shù)字化處理,有利于文獻的長久保存和有效利用。
根據(jù)用戶提交申請時間可以推斷出原文傳遞在每年的10月、11月達到高峰期,在每天的9-11點是一個高峰時段,可以根據(jù)分析結(jié)果預(yù)估工作量,做好工作安排,快捷高效地為用戶服務(wù)。
相對于館藏16 300余種電子期刊和4 500余種紙本期刊,原文傳遞文獻使用量相對較少。為使用戶能夠有效使用圖書館資源,應(yīng)不斷進行原文傳遞服務(wù)的宣傳和推廣工作??梢圆捎冒l(fā)放宣傳手冊、舉辦講座、走進課堂或者以公眾號的方式進行宣傳,重點介紹圖書館館藏資源和原文傳遞的使用方法,為用戶提供參考。此外可以向注冊和潛在用戶發(fā)放調(diào)查問卷,收集相關(guān)需求,以便及時改進,更好地為用戶服務(wù)。
原文傳遞是數(shù)字時代傳統(tǒng)圖書館開展主動服務(wù)的一種表現(xiàn)形式。本文通過分析原文傳遞數(shù)據(jù),描述用戶畫像特征,建立以用戶需求和滿意度為出發(fā)點的原文傳遞服務(wù)形式,根據(jù)用戶畫像中的需求調(diào)整館藏資源,注重文獻種類的多樣性,完善館藏資源揭示,根據(jù)用戶請求時間分布,更加合理地安排工作,加強宣傳推廣,最終提高用戶滿意度。