葉 穎
在經(jīng)歷計(jì)算機(jī)圖書館、網(wǎng)絡(luò)圖書館、數(shù)字圖書館以及移動圖書館等階段的發(fā)展后,圖書館來到了智慧時(shí)代[1]。伴隨新技術(shù)的迅速發(fā)展,智慧圖書館逐漸由理論構(gòu)想走向?qū)嵺`,圖書館數(shù)據(jù)處理的策略也由收集數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)、發(fā)布數(shù)據(jù)演化為數(shù)據(jù)的融合與重構(gòu)。智慧圖書館生態(tài)體系涌現(xiàn)出大量多源、異構(gòu)、動態(tài)的數(shù)據(jù),這些數(shù)據(jù)需要經(jīng)過清洗、加工和融合,對其中的內(nèi)容特性、屬性特征、時(shí)空特征等進(jìn)行關(guān)聯(lián)、挖掘、發(fā)現(xiàn)和表達(dá),才能真正實(shí)現(xiàn)生態(tài)鏈整合,發(fā)揮智慧圖書館框架的優(yōu)勢。信息資源推薦作為圖書館智慧服務(wù)的重要組成部分,是圖書館開展個(gè)性化適應(yīng)性服務(wù)的關(guān)鍵[2],也是用戶體驗(yàn)智慧圖書館的首要內(nèi)容。如何全方位地利用智慧圖書館生態(tài)鏈中各環(huán)節(jié)的數(shù)據(jù),是圖書館智慧服務(wù)的核心環(huán)節(jié),也是智慧圖書館改善用戶體驗(yàn)的驅(qū)動力。基于此,文章從多源數(shù)據(jù)融合的視角出發(fā),以智慧圖書館生態(tài)鏈各環(huán)節(jié)產(chǎn)生的用戶數(shù)據(jù)為切入點(diǎn),匯聚與融合異構(gòu)數(shù)據(jù)中的共同特征,依據(jù)數(shù)據(jù)間的關(guān)聯(lián)關(guān)系進(jìn)行重構(gòu),使用相似度計(jì)算等方法進(jìn)行個(gè)性化推薦。通過多類型用戶數(shù)據(jù),精確把控用戶對于圖書館推薦服務(wù)的需求,同時(shí)利用動態(tài)數(shù)據(jù)實(shí)時(shí)調(diào)整推薦結(jié)果,提供智慧圖書館服務(wù)的新體驗(yàn)。
當(dāng)前有關(guān)圖書館信息資源推薦的工作與研究主要分為兩類:一類是面向范圍群體的閱讀推廣,另一類是面向用戶個(gè)體的個(gè)性化推薦。前者的主要作用是激發(fā)大眾使用圖書館資源的興趣、傳播知識、提升群體信息素養(yǎng),以充分利用圖書館的資源優(yōu)勢;后者主要是為圖書館用戶精確推薦所需資源,滿足其知識需求,發(fā)揮圖書館的資源優(yōu)勢。張微[3]認(rèn)為閱讀推廣應(yīng)遴選經(jīng)典作為推薦的主要內(nèi)容,對群體特征的考量應(yīng)大于個(gè)體特征,以引導(dǎo)讀者閱讀為主要目標(biāo),推薦資源主要由人工綜合各類考量因素進(jìn)行選取。茆意宏[4]探討數(shù)字閱讀推廣的理論基礎(chǔ)及實(shí)踐方法,認(rèn)為數(shù)字閱讀推廣能夠改進(jìn)資源提供者與用戶間的關(guān)系,提升用戶使用圖書館各類服務(wù)的意愿與效率。Elliott[5]指出閱讀推廣是圖書館的基本服務(wù),對讀者來說,參與閱讀推廣活動是對圖書館資源推薦的一種響應(yīng),相比于借閱更能反映出讀者對圖書館資源的需求。針對讀者個(gè)體進(jìn)行個(gè)性化推薦的研究集中在讀者與圖書館交互數(shù)據(jù)的挖掘與分析中,利用各種推薦算法實(shí)現(xiàn)資源的推送。Tewari等[6]利用圖書館資源的內(nèi)容特征,結(jié)合內(nèi)容過濾、協(xié)同過濾和關(guān)聯(lián)規(guī)則挖掘等方法計(jì)算資源相似度,進(jìn)行圖書資源的推薦。Vaz等[7]從讀者屬性角度進(jìn)行分析,將背景相似的讀者進(jìn)行聚類,利用相同聚類中讀者不同的借閱數(shù)據(jù)進(jìn)行資源推薦。Sohail等[8]使用大眾標(biāo)簽法對資源進(jìn)行標(biāo)注,通過標(biāo)簽間的相似度關(guān)聯(lián)相似資源,完成書目資源的推薦。李曉敏等[9]從用戶數(shù)據(jù)出發(fā),利用標(biāo)簽相似度算法對相似讀者和相似圖書進(jìn)行融合計(jì)算,實(shí)現(xiàn)基于用戶畫像的圖書推薦。上述研究表明,圖書館信息資源推薦研究多圍繞著資源使用所產(chǎn)生的日志數(shù)據(jù);然而,閱讀推廣、座位管理、空間預(yù)約等多種新型服務(wù)系統(tǒng)中產(chǎn)生的有關(guān)數(shù)據(jù)同樣能描繪用戶特征,反映用戶行為特征,但由于異構(gòu)、非結(jié)構(gòu)化、采集困難等原因,未能在用戶的個(gè)性化推薦服務(wù)中發(fā)揮相應(yīng)作用。智慧圖書館架構(gòu)中的互聯(lián)互通、全流程智慧化管理[10]為用戶數(shù)據(jù)的融合與重構(gòu)提供了框架基礎(chǔ),應(yīng)用智慧圖書館生態(tài)系統(tǒng)對數(shù)據(jù)流動機(jī)制進(jìn)行分解,能夠挖掘數(shù)據(jù)、用戶、資源、服務(wù)間的關(guān)聯(lián)關(guān)系,解構(gòu)不同的數(shù)據(jù)特征,挖掘用戶屬性及行為特征,獲取資源內(nèi)容與語義特征,引導(dǎo)服務(wù)推進(jìn)[11],實(shí)現(xiàn)圖書館信息資源智慧推薦的目標(biāo)。
智慧圖書館的目標(biāo)是利用智慧化分析方法對資源進(jìn)行解構(gòu),并使用信息網(wǎng)絡(luò)提供全方位的智慧服務(wù)[12]。智慧圖書館的基礎(chǔ)是對人、資源、空間三要素在智能化應(yīng)用的大背景下進(jìn)行融合與重構(gòu),其核心是滿足人即用戶與管理者的需求[13]。三要素是指導(dǎo)圖書館現(xiàn)有系統(tǒng)向智慧圖書館生態(tài)系統(tǒng)演進(jìn)的核心元素,三要素的出現(xiàn)為系統(tǒng)數(shù)據(jù)的融合與重構(gòu)提供了頂層設(shè)計(jì),而智慧圖書館下的用戶需求為個(gè)性化推薦提供了目標(biāo)。文章對三要素分類下的子系統(tǒng)以服務(wù)、資源、空間三大框架進(jìn)行數(shù)據(jù)融合,依據(jù)用戶關(guān)聯(lián)關(guān)系、資源關(guān)聯(lián)關(guān)系、用戶-資源關(guān)聯(lián)關(guān)系三維度,按照智慧化的個(gè)性化推薦方法進(jìn)行重構(gòu),構(gòu)建面向智慧圖書館用戶需求的信息資源個(gè)性化推薦框架,如圖1所示。
圖1 多源融合視角下的智慧圖書館個(gè)性化推薦框架
圖書館擁有眾多信息系統(tǒng),這些系統(tǒng)中的數(shù)據(jù)通常都在獨(dú)立運(yùn)行。由于數(shù)據(jù)格式、存儲方法的差異,以往的信息資源推薦研究往往圍繞單一系統(tǒng)而進(jìn)行,數(shù)據(jù)來源單一,推薦方法難以推廣。根據(jù)智慧圖書館生態(tài)的三類基本要素,文章將現(xiàn)有圖書館系統(tǒng)歸并為三大類,分別是面向“人”要素的服務(wù)管理子系統(tǒng),面向“資源”要素的資源管理子系統(tǒng),面向“空間”要素的空間管理子系統(tǒng)。服務(wù)管理子系統(tǒng)主要提供用戶與圖書館進(jìn)行的交互數(shù)據(jù)與背景信息數(shù)據(jù),如閱讀推廣活動平臺中用戶參與的評論、推薦內(nèi)容等非結(jié)構(gòu)化數(shù)據(jù)和用戶注冊時(shí)提供的專業(yè)、年齡、性別等能對用戶進(jìn)行差異化區(qū)分的個(gè)人信息數(shù)據(jù)。資源管理子系統(tǒng)提供圖書館資源流動情況的總覽,如圖書館管理系統(tǒng)中的讀者借閱數(shù)據(jù)記錄的是資源流通信息,而系統(tǒng)中存儲的書目題名、中圖分類號、關(guān)鍵詞等則是資源內(nèi)容的數(shù)據(jù)??臻g管理子系統(tǒng)反映的是圖書館空間的使用情況,如選座系統(tǒng)中的用戶在館時(shí)長、門禁系統(tǒng)中的用戶入館時(shí)間、頻率等,能夠從時(shí)間維度體現(xiàn)空間使用情況,而用戶對于閱覽室座位的選擇、不同分館的進(jìn)館數(shù)據(jù)等則可以從空間維度反映用戶位置。三類子系統(tǒng)均提供圖書館不同信息系統(tǒng)間數(shù)據(jù)歸類合并的方法,為數(shù)據(jù)的融合提供了參考依據(jù)。而后,需要對同類型系統(tǒng)中的數(shù)據(jù)進(jìn)行匯總,并進(jìn)行不同子系統(tǒng)間數(shù)據(jù)關(guān)聯(lián)關(guān)系的構(gòu)建,實(shí)現(xiàn)系統(tǒng)間的數(shù)據(jù)交換,完成數(shù)據(jù)的融合。
數(shù)據(jù)的重構(gòu)是數(shù)據(jù)間不同形態(tài)的轉(zhuǎn)換,通過提取不同類型數(shù)據(jù)中的共同特征,能夠?qū)崿F(xiàn)多源和異構(gòu)數(shù)據(jù)的聯(lián)接,重構(gòu)后的數(shù)據(jù)能夠進(jìn)行統(tǒng)一的計(jì)算,更全面地描繪相關(guān)工作的特征。文章從3個(gè)維度對融合后的數(shù)據(jù)進(jìn)行特征挖掘,分別是用戶行為特征、資源內(nèi)容特征和用戶信息特征。
用戶行為特征是進(jìn)行用戶相似度計(jì)算的基礎(chǔ),行為相似的用戶可以被認(rèn)為存在一定的關(guān)聯(lián)性,同時(shí)根據(jù)用戶的資源使用行為能夠構(gòu)建其與資源的關(guān)聯(lián)關(guān)系,而使用過同一資源的用戶也能夠通過其在不同資源中的借閱行為構(gòu)建資源間的關(guān)聯(lián)。資源內(nèi)容特征可以直觀反映資源間的相似程度,喜好同一資源的用戶可能存在相似的特征,因此資源內(nèi)容能夠與用戶標(biāo)簽建立起用戶與資源間的關(guān)聯(lián)關(guān)系。用戶信息特征數(shù)據(jù)能夠?yàn)橛脩粝嗨贫取①Y源相似度計(jì)算提供用戶的自然屬性信息,并能從內(nèi)容上將用戶與資源進(jìn)行關(guān)聯(lián),提供信息資源推薦的基礎(chǔ)數(shù)據(jù)。
作為個(gè)性化推薦的重要依據(jù),相似度理所應(yīng)當(dāng)成為數(shù)據(jù)重構(gòu)的目標(biāo)。文章將用戶特征與資源內(nèi)容特征進(jìn)行融合,分別進(jìn)行用戶相似度和資源相似度計(jì)算。資源相似度計(jì)算的主要目的是,根據(jù)用戶使用資源情況進(jìn)行相似資源的推薦,為用戶對資源的深度利用提供幫助。而用戶相似度計(jì)算的主要目的是,建立用戶層面的關(guān)聯(lián)關(guān)系,利用相似用戶使用資源的情況進(jìn)行推薦,從而拓寬用戶接受資源的廣度,在類似用戶群體中挖掘共同的興趣點(diǎn)并推薦給目標(biāo)用戶。
單一系統(tǒng)下僅能針對系統(tǒng)中已有的資源進(jìn)行個(gè)性化推薦,然而,本文所融合與重構(gòu)的數(shù)據(jù)來源于多種信息系統(tǒng),其中,服務(wù)管理子系統(tǒng)數(shù)據(jù)多來自于用戶輸入,擁有著較大的自由度與開放性。因此,在進(jìn)行館藏資源推薦之時(shí),可以將用戶推薦的網(wǎng)絡(luò)信息資源通過相似度計(jì)算推送給其他用戶,拓寬個(gè)性化推薦的資源范圍。這既包含即時(shí)更新的網(wǎng)絡(luò)信息資源,也包含圖書館尚未采購的新出版物,也可以是音頻、視頻等多元化的信息資源,是圖書館封閉體系推薦方法所不具備的特性。同時(shí),結(jié)合時(shí)空數(shù)據(jù)能夠?yàn)橛脩敉扑]可能感興趣的閱覽室,發(fā)揮圖書館資源分類排架聚合的效應(yīng)。推薦用戶前往指定位置,可增加用戶獲取相關(guān)資源的可能性,從而充分利用圖書館在資源管理中的質(zhì)量與模式優(yōu)勢。
為了驗(yàn)證多源融合視角下的智慧圖書館個(gè)性化推薦方法對于圖書館資源個(gè)性化推薦的實(shí)際效果,文章以中南財(cái)經(jīng)政法大學(xué)智慧圖書館系統(tǒng)數(shù)據(jù)為例,將多系統(tǒng)數(shù)據(jù)進(jìn)行融合與重構(gòu),開展個(gè)性化推薦實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)包括服務(wù)管理子系統(tǒng)中“閱跑中南”第一季及第二季的閱讀推廣活動用戶參與數(shù)據(jù)13,285條、資源管理子系統(tǒng)中2018-2019年的圖書借閱數(shù)據(jù)478,982條、空間管理子系統(tǒng)中2018-2019年用戶座位使用時(shí)間記錄18,682條。
本文從各子系統(tǒng)中分解代表用戶行為特征的數(shù)據(jù),利用用戶評論內(nèi)容的相似性、用戶在館時(shí)長與借閱數(shù)的相似性,對用戶背景信息(如專業(yè)、年級等)進(jìn)行聚類,并加入相應(yīng)權(quán)重計(jì)算相似度。用戶評論內(nèi)容的相似性數(shù)據(jù)來源于閱讀推廣活動中參與用戶對書目、視頻、音樂等資源的評論數(shù)據(jù),在內(nèi)容的提取上,文章對文本進(jìn)行分詞后采用LDA主題模型進(jìn)行主題識別。LDA模型是一種三層貝葉斯概率模型[14],用于文檔、詞項(xiàng)、主題的分析:假設(shè)所有的文檔中有一定數(shù)量的隱含主題,通過一定概率抽取主題,然后再從選定主題中抽取特征詞,通過預(yù)設(shè)的迭代次數(shù)得到足夠的特征詞[15]。文檔中包含特征詞的概率為:
由于用戶評論通常為短文本,如果直接利用主題關(guān)鍵詞共現(xiàn)來計(jì)算,評論相似度會由于數(shù)據(jù)的稀疏性導(dǎo)致無意義結(jié)果較多。因此,需要根據(jù)內(nèi)容對用戶評論進(jìn)行分類,利用類別間的相似度作為用戶相似度的代替結(jié)果。文章將所有評論數(shù)據(jù)匯總,進(jìn)行文檔集合的困惑度[16]計(jì)算,決定最優(yōu)主題數(shù),計(jì)算公式為:
其中p(w),代表測試集中每一個(gè)詞的出現(xiàn)概率,N表示測試集。文章取關(guān)鍵詞數(shù)k=20,計(jì)算主題數(shù)為1至20間的困惑度,選擇最低值作為主體分類個(gè)數(shù)的依據(jù)。由圖2的困惑度計(jì)算結(jié)果可知,評論集合可以分為8個(gè)主題集合。
圖2 用戶評論集合困惑度計(jì)算結(jié)果
在分類主題關(guān)鍵詞集合的計(jì)算中,設(shè)置主題個(gè)數(shù)為8,每個(gè)主題下的關(guān)鍵詞個(gè)數(shù)為20,迭代次數(shù)100,進(jìn)行主題關(guān)鍵詞的獲取。最終得到8類主題及其關(guān)鍵詞,結(jié)果如表1所示。
表1 用戶主題-關(guān)鍵詞分類結(jié)果
文章將用戶評論關(guān)鍵詞與不同主題下的關(guān)鍵詞進(jìn)行耦合,將耦合成功的關(guān)鍵詞在當(dāng)前主題中的權(quán)重進(jìn)行加權(quán)計(jì)算,選取其中的最大值作為用戶主題相似度。計(jì)算公式如下:
在館時(shí)長反映了用戶對圖書館空間的使用情況,而借閱數(shù)量反映的是圖書館資源的使用情況,綜合兩類數(shù)據(jù)可以從整體角度分析用戶使用圖書館的特征。文章將用戶借閱圖書的總數(shù)作為X軸,將用戶在館時(shí)長作為Y軸,映射至二維空間中。鑒于二維空間映射的特殊性,如果以部分位于圖像中間位置的用戶為檢索入口進(jìn)行相似度計(jì)算,那么由于X軸和Y軸附近用戶的歐式距離相近,會導(dǎo)致這兩類用戶具有同樣的相似度。但從實(shí)際角度來看,只使用圖書館空間而不借閱圖書的用戶和只借閱圖書而不使用圖書館空間的用戶在特征上具有本質(zhì)的區(qū)別。為避免上述情況的出現(xiàn),文章利用K-means算法對映射至二維空間中的(用戶數(shù)據(jù))節(jié)點(diǎn)進(jìn)行聚類。經(jīng)過對比,最終選擇k=7作為聚類個(gè)數(shù),得到圖3所示的時(shí)空數(shù)據(jù)聚類結(jié)果。其中,X軸代表用戶的圖書借閱總量,單位為本;Y軸代表用戶在館時(shí)長,單位為天。以與各聚類團(tuán)體中心點(diǎn)間的歐式距離作為時(shí)間-資源分類下用戶使用行為相似度的計(jì)算依據(jù),算式為:
圖3 用戶行為數(shù)據(jù)聚類結(jié)果
其中,distmax(A,N)代表檢索入口用戶所在聚類與最不相關(guān)聚類間的歐式距離,dist(A,B)代表檢索入口用戶與其他用戶所在聚類間的歐式距離。
在用戶信息的融合上,文章提取用戶的年級、專業(yè)等數(shù)據(jù),進(jìn)行讀者背景信息相似度計(jì)算。若檢索入口用戶的某一項(xiàng)背景信息與其他用戶相同,則該項(xiàng)為1,否則為0;然后根據(jù)所有背景信息的相關(guān)情況計(jì)算用戶背景相似度,即:
計(jì)算過程如圖4所示。
圖4 融合用戶相似度的計(jì)算過程
在服務(wù)管理子系統(tǒng)中,用戶評論既是用戶發(fā)表的評論也是用戶對于其所推薦資源內(nèi)容的理解,將用戶發(fā)表的評論進(jìn)行匯總可以挖掘用戶間的相似性。同樣,將有關(guān)資源獲得的評論進(jìn)行匯總可以挖掘資源間的相似性。文章依據(jù)上文所述用戶主題相似度計(jì)算方法,將資源關(guān)鍵詞與主題關(guān)鍵詞進(jìn)行耦合,將耦合成功的關(guān)鍵詞在當(dāng)前主題中的權(quán)重進(jìn)行加權(quán)計(jì)算,選取其中的最大值作為資源內(nèi)容相似度。計(jì)算公式如下:
資源相似度的另一來源是《中國圖書館分類法》。它使用字母與數(shù)字的混合號碼從左到右排列,從而形成具有層次性的樹形結(jié)構(gòu)。中圖分類號越接近,資源相似度越高。書目在資源管理子系統(tǒng)中的相似度計(jì)算公式見下:
D(A,B)代表兩種圖書間分類號最接近的父節(jié)點(diǎn)的高度,D代表分類樹的總高度。融合資源相似度公式見下,計(jì)算過程如圖5所示。
圖5 融合資源相似度的計(jì)算過程
構(gòu)建用戶與資源間的關(guān)聯(lián)關(guān)系,是完成多源數(shù)據(jù)融合視角下個(gè)性化推薦的關(guān)鍵。文章將服務(wù)管理子系統(tǒng)中用戶在閱讀推廣活動中推薦的信息資源以及資源管理子系統(tǒng)中用戶借閱圖書的記錄進(jìn)行融合,構(gòu)建用戶與信息資源間的關(guān)聯(lián)關(guān)系。
在關(guān)系的構(gòu)建上,以圖模型G=(V,E)來表示用戶與資源間的關(guān)聯(lián)關(guān)系,V表示用戶與資源,E表示用戶-資源關(guān)聯(lián)關(guān)系。如果用戶多次借閱或推薦信息資源則E的值會隨次數(shù)的增加而增長,也會在后續(xù)的推薦結(jié)果中占據(jù)更大的權(quán)重。構(gòu)建用戶與資源的關(guān)聯(lián)關(guān)系后,面向目標(biāo)用戶從用戶相似度與資源相似度兩方面獲取推薦資源,完成融合視角下的個(gè)性化推薦,推薦過程如圖6所示。
圖6 融合視角下的資源推薦過程
(1)融合用戶相似度。融合用戶相似度計(jì)算,需要將用戶的三類相似度結(jié)果進(jìn)行加權(quán)平均。首先,計(jì)算用戶主題相似度。文章以系統(tǒng)編號“172104012”的用戶為例,進(jìn)行多源數(shù)據(jù)融合的個(gè)性化推薦實(shí)證研究。該用戶在服務(wù)管理子系統(tǒng)中提交了閱讀推廣活動的推薦書目《法律思維與民法實(shí)例》。根據(jù)其評論數(shù)據(jù),使用LDA主題模型抽取到的前20個(gè)主題關(guān)鍵詞分別為:“法律(0.024)、規(guī)范(0.011)、民法(0.007)…教材(0.003)、過程(0.003)”,與本文表1中8類主題中的主題2(法律)相似度最高;經(jīng)過歸一化計(jì)算后,與屬于主題2的用戶主題相似度為1,排名第二的為主題1(政治),相似度為0.71。隨后,計(jì)算用戶背景相似度。經(jīng)過對智慧圖書館各管理系統(tǒng)用戶信息的統(tǒng)籌考慮,文章選擇用戶的教育層次、年級、性別、專業(yè)4個(gè)方面進(jìn)行背景相似度的計(jì)算。教育層次分為三類:本科、碩士、博士,與之分類相同的用戶該項(xiàng)取值為1,否則為0;年級、性別采用同樣的分類計(jì)算方法;專業(yè)相似度計(jì)算則采用類似資源分類相似度的計(jì)算方法,依據(jù)教育部專業(yè)分類目錄按科別、類別、專業(yè)名稱的樹形結(jié)構(gòu)進(jìn)行計(jì)算,用戶處于同一最小分類則相似度最高。本研究中,確定推薦目標(biāo)用戶的教育層次為本科,年級為二年級、性別為女、專業(yè)為人文社會科學(xué)法學(xué)類下的涉外經(jīng)貿(mào)法專業(yè),與其他用戶遍歷進(jìn)行背景相似度的計(jì)算。最后,計(jì)算用戶行為相似度。目標(biāo)用戶在數(shù)據(jù)統(tǒng)計(jì)時(shí)間段內(nèi)借閱圖書7本,在館時(shí)長10.5天,屬于行為數(shù)據(jù)聚類結(jié)果中的黃色分類,因此與同在黃色分類中的用戶的行為相似度為1。
(2)融合資源相似度。計(jì)算融合資源相似度,需要從與用戶具有關(guān)聯(lián)關(guān)系的資源的內(nèi)容和分類兩方面切入。首先,確定用戶推薦的信息資源或借閱書目是否擁有評論數(shù)據(jù),通過評論找出同一分類下的資源;然后,計(jì)算這些候選資源在中圖分類法下的相似度,得到用戶關(guān)聯(lián)資源的相似度指標(biāo)。以《法律思維與民法實(shí)例》為例,其用戶在服務(wù)管理子系統(tǒng)中推薦的書目經(jīng)計(jì)算具有相同分類特征的有《通過法律的社會控制》《尋找法律的印跡》《中國法律與中國社會》《法律職業(yè)的精神》等,相似度均為1;而且,其中圖分類號為DF504,其他4種文獻(xiàn)資源分別為C51、DF091、DF092、DF53。因此,本例中的圖書與其他4種文獻(xiàn)資源的融合資源相似度分別為0.6、0.7、0.7、0.8。
(3)推薦結(jié)果。通過融合用戶相似度與融合資源相似度的計(jì)算,得到基于相似用戶的推薦結(jié)果和關(guān)聯(lián)資源,以及基于相似資源的推薦結(jié)果及其相似度。為了突出本文方法對圖書館未收錄信息資源的推薦能力,特別將計(jì)算結(jié)果中館藏未收錄的資源單獨(dú)列出,排名前五的資源如表2所示。
從表2可發(fā)現(xiàn),依據(jù)關(guān)聯(lián)資源進(jìn)行個(gè)性化推薦的書目內(nèi)容與專業(yè)基本保持一致,與用戶所在的涉外經(jīng)貿(mào)法專業(yè)內(nèi)容較為相符,說明本文方法圍繞用戶關(guān)聯(lián)資源進(jìn)行相似度計(jì)算,能夠準(zhǔn)確推薦與用戶當(dāng)前使用資源相關(guān)的書目資源。在相似用戶的推薦中既有同年級同專業(yè)的用戶也有其他年級其他專業(yè)的用戶,說明該方法圍繞用戶特征進(jìn)行分類,能夠發(fā)現(xiàn)具有共同興趣愛好但處于不同背景下的用戶,從而拓寬個(gè)性化推薦的范圍,挖掘具有關(guān)聯(lián)關(guān)系的對象。此外,資源推薦結(jié)果展現(xiàn)出多樣性的特點(diǎn),為用戶拓展資源、開闊視野提供了幫助。特別需要注意的是,非館藏資源的推薦結(jié)果。由于該類信息資源沒有經(jīng)過編目,無法借閱,因此其融合相似度計(jì)算結(jié)果相對較低,無法在總推薦排名中占據(jù)前列;但將其單獨(dú)統(tǒng)計(jì)后能夠?yàn)橛脩敉扑]更大范圍的信息資源,符合智慧圖書館生態(tài)鏈中信息資源開放性、包容性的特點(diǎn),還可以為圖書館的資源薦購工作提供有意義的參考。
表2 多類型推薦的相似度計(jì)算結(jié)果(部分)
隨著智能技術(shù)的推廣及應(yīng)用,智慧圖書館已經(jīng)從框架概念的構(gòu)建走向?qū)嵺`。物聯(lián)網(wǎng)、云計(jì)算、智慧化技術(shù)與設(shè)備在實(shí)現(xiàn)圖書館智能化和自主化的管理的同時(shí),也產(chǎn)生了大量復(fù)雜且異構(gòu)的運(yùn)行數(shù)據(jù)。作為完善智慧圖書館服務(wù)的必要條件,如何充分利用這些數(shù)據(jù)成為搭建圖書館智慧服務(wù)拼圖的重要組件。文章將智慧圖書館框架下的多源用戶數(shù)據(jù)與資源信息數(shù)據(jù)按照空間、資源、服務(wù)三要素的宏觀系統(tǒng)視角進(jìn)行匯總與融合,隨后重構(gòu)與用戶行為有關(guān)的數(shù)據(jù),分別通過用戶標(biāo)簽進(jìn)行主題相似度計(jì)算、通過用戶個(gè)人的特征信息進(jìn)行背景相似度計(jì)算、通過用戶時(shí)空數(shù)據(jù)與資源使用數(shù)據(jù)進(jìn)行行為相似度計(jì)算,再融合三類相似度計(jì)算結(jié)果,得到多因素融合的用戶相似度;同時(shí),利用重構(gòu)的資源內(nèi)容標(biāo)簽與分類數(shù)據(jù)進(jìn)行資源相似度的計(jì)算。最后,根據(jù)用戶與資源間的關(guān)聯(lián)關(guān)系進(jìn)行相似資源、相似用戶、相似用戶-資源的推薦,滿足多種場景下的智慧圖書館個(gè)性化推薦服務(wù)需求。
實(shí)驗(yàn)結(jié)果表明,文章提出的多源數(shù)據(jù)融合視角下的智慧圖書館個(gè)性化推薦框架具有可行性,能夠充分利用多種用戶數(shù)據(jù),進(jìn)行多類型的個(gè)性化推薦,可滿足用戶對于專業(yè)、社交、資源的多種需求。但是,在各類數(shù)據(jù)的融合過程中,不同相似度在當(dāng)前計(jì)算場景中的權(quán)重仍有待優(yōu)化,可開展更大規(guī)模、更深入的用戶調(diào)研,以更好地獲取符合用戶意愿的信息資源推薦結(jié)果。下一步的研究將選取智慧圖書館生態(tài)鏈中更大范圍的系統(tǒng)數(shù)據(jù),充分利用云計(jì)算、5G、大數(shù)據(jù)技術(shù)等帶來的變革,進(jìn)行各系統(tǒng)數(shù)據(jù)的動態(tài)載入、實(shí)時(shí)處理與即時(shí)推薦,進(jìn)一步完善圖書館智慧推薦服務(wù)。