曾子明,金鵬
基于用戶興趣變化的數(shù)字圖書館知識推薦服務(wù)研究*
曾子明,金鵬
針對用戶的興趣變化具有時間敏感性特點,文章提出基于用戶興趣變化的數(shù)字圖書館知識推薦模型。首先融合標(biāo)簽和時間等因素,通過用戶使用標(biāo)簽的頻率以及對資源的標(biāo)注時間等信息構(gòu)建用戶-資源評分矩陣;然后結(jié)合協(xié)同過濾算法,計算目標(biāo)用戶最近鄰從而完成知識推薦,并在此基礎(chǔ)上設(shè)計個性化知識推薦服務(wù)模型;最后探討系統(tǒng)知識推薦服務(wù)機制及其應(yīng)用。
數(shù)字圖書館 知識推薦 興趣變化 標(biāo)簽 協(xié)同過濾
隨著大數(shù)據(jù)時代到來,數(shù)字圖書館知識推薦服務(wù)面臨新挑戰(zhàn)。面對海量的知識資源,用戶的選擇更多,興趣偏好具有時間性特點,會隨著資源增加和自身需求而變化。因此,數(shù)字圖書館知識推薦服務(wù)需充分考慮用戶興趣的時間遷移特點,以解決用戶興趣的變化對推薦服務(wù)質(zhì)量的影響。國內(nèi)外學(xué)者利用用戶對資源項目的評分時間,從而對資源項目設(shè)置一個時間衰減函數(shù)來反映用戶興趣偏好的潛在變化。邢春曉[1]通過借鑒心理學(xué)的遺忘理論,在協(xié)同過濾算法中考慮用戶對資源項目的具體訪問時間,以捕獲用戶興趣的變化情況。Schanle M a[2]提出一個指數(shù)時間權(quán)重函數(shù),結(jié)合基于內(nèi)容的協(xié)同過濾算法來反映用戶興趣變化和解決冷啟動問題。此外,用戶對知識資源所使用的標(biāo)簽?zāi)茉谝欢ǔ潭壬象w現(xiàn)出用戶對該類知識的興趣程度以及興趣變化情況。因此,一些學(xué)者利用標(biāo)簽技術(shù)來嘗試提高推薦系統(tǒng)的知識服務(wù)質(zhì)量。比如,M ichlm ayr等[3]通過對標(biāo)簽進行數(shù)據(jù)挖掘來構(gòu)建用戶興趣模型;Taso-Stttle等[4]提出融入用戶對資源所貼的標(biāo)簽信息到協(xié)同過濾推薦中進行資源推薦的方法。
這些資源推薦方法在考慮用戶興趣變化時,均為單獨考慮時間因素,引入時間權(quán)重函數(shù)捕捉用戶興趣變化或引入社會化標(biāo)注系統(tǒng)利用標(biāo)簽構(gòu)建用戶興趣模型等類似方法,而這類方法都有一定的不足。本文提出知識資源推薦模型,其推薦方法融合標(biāo)簽信息和標(biāo)注時間等因素,能更有效地反映用戶興趣變化的時間敏感性特點,提高推薦系統(tǒng)的推薦質(zhì)量和數(shù)字圖書館的知識服務(wù)水平。
1.1 用戶的視角
在數(shù)字圖書館領(lǐng)域,用戶的興趣變化是指用戶對某一特定數(shù)字資源的關(guān)注度或興趣度隨著時間的推移而增加或降低的現(xiàn)象[5]。造成用戶之間知識需求差異的原因很多,比如每個用戶在性格、心理、思想、興趣和價值觀等方面的不同都會造成用戶之間和需求的差異化。一方面用戶的行為偏好沒有明確的規(guī)律性可循,雖然在長期內(nèi)具有一定的穩(wěn)定性,但短期內(nèi)用戶的行為偏好大多會有明顯變化,特別是在數(shù)字知識資源迅猛增長的大數(shù)據(jù)環(huán)境下,這是用戶興趣變化和遷移的重要原因;另一方面,用戶的個性受環(huán)境影響很大,導(dǎo)致用戶行為偏好發(fā)生變化,這是用戶興趣變化和遷移的另一個原因[6]。比如,某用戶是科研工作者,長期而言,研究方向不會出現(xiàn)太大變化,知識偏好或需求具有一定的穩(wěn)定性,長期需要獲得某類數(shù)字資源,即經(jīng)常下載某類電子文獻或多媒體資源;但短期來說,該用戶在做不同項目時,其需要的數(shù)字文獻資源不同。又如,用戶所處的情境不同,閱讀偏好可能也不同,在咖啡館,用戶可能更偏好于獲取電子小說、雜志等娛樂性信息資源;而在閱覽室等學(xué)習(xí)場所更偏好于獲得電子文獻、期刊等信息資源。
1.2 推薦系統(tǒng)的視角
用戶的興趣偏好是推薦系統(tǒng)進行資源推薦的主要依據(jù),興趣偏好的變化直接影響數(shù)字圖書館知識推薦服務(wù)的質(zhì)量。如果用戶興趣偏好的變化沒有被推薦系統(tǒng)及時發(fā)現(xiàn)并捕捉到,那么系統(tǒng)無法調(diào)整有效的推薦策略來適應(yīng)用戶的興趣變化,進而影響推薦系統(tǒng)動態(tài)地適應(yīng)用戶的變化。這樣就不能為用戶提供實時且準(zhǔn)確有效的個性化知識推薦服務(wù),知識推薦系統(tǒng)的推薦效果會下降。這就是用戶興趣變化或興趣遷移問題[7]。圖1顯示了推薦系統(tǒng)角度的用戶興趣變化,目標(biāo)用戶對A類數(shù)字資源興趣度較高,之前一段時間對其評分也較高,而現(xiàn)在更偏好B類數(shù)字資源并給出較高評分。因此,推薦系統(tǒng)在進行知識推薦時應(yīng)區(qū)分用戶對A類和B類數(shù)字資源的評分差別及興趣遷移問題的重要性,在推薦策略中充分感知用戶的興趣變化。
圖1 推薦系統(tǒng)角度的用戶興趣變化
在數(shù)字圖書館海量數(shù)字資源的背景下,讀者的知識需求不斷提高,同時信息服務(wù)形態(tài)正在從傳統(tǒng)的被動型知識搜索向主動型知識分析預(yù)測轉(zhuǎn)變。個性化是保障讀者知識服務(wù)水平的重要條件,用戶可根據(jù)個性化信息推薦技術(shù)提供的一系列策略來構(gòu)建自己的數(shù)字資源館藏,獲取需要的知識資源,以滿足個性化的信息需求。根據(jù)數(shù)字圖書館用戶不同的知識服務(wù)需求,推薦系統(tǒng)的推薦策略也有所不同。例如,為改善數(shù)字圖書館OPAC系統(tǒng)功能,在推薦系統(tǒng)中融入分眾分類思想[8];將用戶情境和地理位置等因素考慮到移動圖書館的知識推薦系統(tǒng)中,為讀者提供個性化和實時性的信息服務(wù),可提高數(shù)字圖書館服務(wù)效率[9]。本文推薦算法策略主要是將讀者給資源所標(biāo)注的標(biāo)簽的頻率和時間信息融入?yún)f(xié)同過濾推薦算法,改進推薦系統(tǒng)推薦效率的策略,進而提高用戶知識服務(wù)體驗。
2.1 構(gòu)建“用戶-資源”評分矩陣
協(xié)同過濾是當(dāng)前推薦系統(tǒng)中最主流、應(yīng)用最廣且效果最好的方法,其算法基礎(chǔ)是用戶對推薦對象(數(shù)字圖書館知識資源項目)的評分。因此,收集用戶對知識資源的評分,繼而構(gòu)建“用戶-資源”評分矩陣是首要的步驟。用戶對資源的評分一般有顯性評分和隱性評分兩種,在數(shù)字圖書館海量數(shù)字資源中,很多知識資源并沒有得到用戶的顯性評分(比如很少有人會下載一篇電子文獻用完后對它評分),這就是用戶評分稀缺性問題,通常會通過隱性評分的方法來解決。傳統(tǒng)的用戶對資源評分是用m×n階矩陣來表示m個用戶對n個資源項目的評分,其中m為用戶的個數(shù),n為資源項目的個數(shù),矩陣中的Rij即為用戶i對資源項目j的評分。
本文提出綜合標(biāo)簽時間因素的推薦方法,如何利用標(biāo)簽和時間信息產(chǎn)生用戶對知識資源的評分值是構(gòu)建“用戶-資源”評分矩陣的關(guān)鍵?!坝脩?資源”評分矩陣,主要通過三步策略:①標(biāo)簽評分權(quán)值策略:依據(jù)用戶給知識資源貼的標(biāo)簽和使用標(biāo)簽的頻率來構(gòu)建;②時間評分權(quán)值策略:采用自適應(yīng)性指數(shù)衰減函數(shù)的辦法來自動地估量和追蹤每個讀者的興趣漂移情況,并構(gòu)建時間評分權(quán)值,發(fā)現(xiàn)用戶最近興趣;③融合標(biāo)簽時間因素評分策略:通過結(jié)合標(biāo)簽時間信息即結(jié)合標(biāo)簽和時間評分權(quán)值構(gòu)建“用戶-資源”評分矩陣。
2.1.1 標(biāo)簽評分權(quán)值
一般來說,用戶對某一知識資源使用的標(biāo)簽次數(shù)越多,表明對該資源的興趣程度越大,即用戶可能更偏好于經(jīng)常使用標(biāo)簽標(biāo)注的知識資源。此外,用戶也會傾向于使用相同的標(biāo)簽描繪同種知識資源來表達興趣偏好。標(biāo)簽評分權(quán)值也就是基于這樣的假設(shè)條件下提出來的,可以定義為:
其中,tag(u,r)為用戶u給知識資源r標(biāo)記的所有標(biāo)簽的集合;Wu,ta為標(biāo)簽集tag(u,r)中的每一個標(biāo)簽ta對知識資源的評分值;Wtag(u,r)為標(biāo)簽評分權(quán)值,用來衡量讀者u對已標(biāo)注知識r的興趣偏好程度。
用戶對知識資源使用每個標(biāo)簽的評分值通過用戶使用標(biāo)簽的頻率來反映,采用下面的方式計算出來:
其中,freq(u,ta)代表著用戶u使用標(biāo)簽ta標(biāo)注知識資源的次數(shù);k為用戶用于標(biāo)注知識資源的標(biāo)簽的總數(shù)量,Wtag(u,r)∈[0,1],用戶的興趣程度可以通過計算標(biāo)簽評分的權(quán)值大小來掌握,標(biāo)簽評分權(quán)值越高,用戶對此知識資源越感興趣。
2.1.2 時間評分權(quán)值
考慮用戶對知識的興趣具有隨時間變化的特點,本文借鑒Cheng等[10]提出的自適應(yīng)指數(shù)衰減函數(shù)來處理知識推薦系統(tǒng)中標(biāo)簽的時間信息,其定義為:
其中,Wtime(u,r)為時間評分權(quán)值,表示用戶對知識的興趣衰減程度;tim e(u,r)≥0,且∈N。當(dāng)tim e(u,r)=0時,表示用戶u對知識資源r最后的標(biāo)注時間;tim e(u,r)=1時,表示該用戶對知識資源倒數(shù)第二次的標(biāo)注時間,以此類推。hlu是用戶u的半衰期,其值隨著用戶的知識獲取行為周期而有所不同。用戶的行為周期較短,其對某類知識資源的興趣度會下降得比較快,而對于那些行為周期更長的用戶,他們對知識資源的興趣變化就比較慢。Wtime(u,r)是對tim e(u,r)的單調(diào)遞減函數(shù),所以用戶最近打標(biāo)簽的知識資源能夠被賦予更大的權(quán)重,而早期的給知識資源標(biāo)注的標(biāo)簽則評分權(quán)值較小,用戶最近的興趣通過這種方法就能很好地被發(fā)掘出來。
2.1.3 綜合標(biāo)簽時間權(quán)值用戶評分策略
本文利用用戶對數(shù)字圖書館知識資源的標(biāo)簽和時間信息構(gòu)建知識資源推薦模型,提出整合標(biāo)簽和時間評分權(quán)值的用戶評分為:
其中,參數(shù)λ為調(diào)和因子,用于調(diào)整Wtag(u,r)和Wtime(u,r)兩者的權(quán)重。這樣考慮使用的標(biāo)簽信息可以得到用戶對知識的偏好程度,而把知識資源的標(biāo)注時間信息融合到資源評分中,能反映用戶的興趣漂移,不僅能更加準(zhǔn)確地表示用戶的知識偏好信息,也能很好地反映用戶目前的主要興趣偏好。與傳統(tǒng)用戶-資源評分矩陣的構(gòu)建不同,本文提出的知識推薦綜合利用標(biāo)簽和時間信息構(gòu)建的評分矩陣能夠在一定程度上解決評分稀缺性問題,也能在大數(shù)據(jù)環(huán)境下海量數(shù)字資源中反映用戶的興趣變化。
2.2 用戶相似度計算
計算用戶的相似性是協(xié)同過濾算法的核心,也是最關(guān)鍵的一步。通過用戶對知識資源的評分可以找到與當(dāng)前用戶興趣相似的鄰居用戶,生成目標(biāo)用戶的最近鄰居集,然后根據(jù)鄰居用戶的偏好進行知識推薦。用戶相似度計算常用的相似性度量標(biāo)準(zhǔn)有皮爾遜相關(guān)系數(shù)[11],余弦相似度[12]等。本文采用余弦相似度作為相似度度量標(biāo)準(zhǔn)計算用戶相似度:
2.3 預(yù)測評分,生產(chǎn)Top-N推薦
根據(jù)相似度計算結(jié)果,對相似度降序排列,取前K個為當(dāng)前用戶的最近鄰U,根據(jù)最近鄰集可以預(yù)測用戶a對項i的評分。根據(jù)當(dāng)前讀者的K個最近鄰對目標(biāo)知識項目的評分信息來預(yù)測當(dāng)前讀者的評分,并選擇預(yù)測評分最高的前n個知識項目推薦給該讀者,即產(chǎn)生Top-N推薦[13]。
3.1 知識推薦模型構(gòu)建
根據(jù)數(shù)字圖書館用戶的知識個性化需求,并充分感知用戶興趣變化,融合用戶標(biāo)注資源的標(biāo)簽以及標(biāo)注的時間,本文設(shè)計基于用戶興趣變化的知識推薦模型,采取融合標(biāo)簽和時間因素的協(xié)同過濾推薦方法。該推薦模型旨在為用戶在浩如煙海的數(shù)字圖書館知識資源中,獲取符合即時興趣偏好的個性化知識資源,如圖2所示。
3.2 知識推薦服務(wù)
基于用戶興趣變化的知識推薦流程是:(1)數(shù)字圖書館的用戶在檢索資源或瀏覽圖書館推送的資源時,根據(jù)自身偏好給資源打標(biāo)簽,利用用戶標(biāo)注行為提供的標(biāo)簽信息和時間信息構(gòu)建“用戶-資源”評分矩陣,作為協(xié)同信息推薦的基本組成部分。用戶的個人信息、借閱信息以及數(shù)字圖書館資源信息全部存儲在數(shù)字圖書館的大數(shù)據(jù)資源庫中。(2)對大數(shù)據(jù)資源庫的數(shù)據(jù)資源進行數(shù)據(jù)分析、數(shù)據(jù)挖掘,形成對用戶有價值的知識資源,存儲在知識庫中。(3)用戶通過圖書館知識檢索界面或其他知識界面獲取知識時對知識打的標(biāo)簽反饋到用戶-知識-標(biāo)簽系統(tǒng)中,為系統(tǒng)進行知識推薦做準(zhǔn)備。(4)知識推薦系統(tǒng)部分,根據(jù)用戶的知識需求及其知識行為對用戶進行聚類,然后用知識評分矩陣計算用戶之間的相似度,找出每一個用戶的最近鄰居,即計算目標(biāo)用戶的鄰居(即具有相似偏好的用戶),從而獲得目標(biāo)用戶及其相鄰用戶的信息需求。(5)根據(jù)用戶-資源評分數(shù)據(jù)集中相鄰用戶的資源使用歷史數(shù)據(jù),并結(jié)合目標(biāo)用戶的信息需求,將排名前Top-N的資源推薦給目標(biāo)用戶。(6)推薦系統(tǒng)把推薦資源主動推送給目標(biāo)用戶,在這一過程中,目標(biāo)用戶如果對這些資源標(biāo)注新的標(biāo)簽,可以反饋到知識-標(biāo)簽系統(tǒng),作為對其以后進行知識推薦的基礎(chǔ)數(shù)據(jù)。(7)系統(tǒng)動態(tài)、重復(fù)執(zhí)行以上4個步驟,從而實現(xiàn)數(shù)字圖書館對各用戶的個性化知識推薦及其推送服務(wù)。
圖2 基于用戶興趣變化的知識推薦模型
3.3 數(shù)字圖書館個性化知識推薦服務(wù)的應(yīng)用
大數(shù)據(jù)時代到來,數(shù)字圖書館信息資源膨脹,圖書館知識服務(wù)面臨信息過載、知識迷航等困境。同時讀者的知識需求不斷提高,需要在任何時間和地點便捷、高效獲取數(shù)字資源。大數(shù)據(jù)環(huán)境下數(shù)字圖書館知識推薦應(yīng)能捕捉到用戶興趣偏好的變化,根據(jù)時間標(biāo)簽的推薦機制提高數(shù)字圖書館推薦系統(tǒng)服務(wù)質(zhì)量。因此,本文提出的知識推薦融合了標(biāo)簽和時間信息,能較好地感知用戶的偏好情境,實時地獲取用戶的偏好數(shù)據(jù)。
隨著物聯(lián)網(wǎng)、云計算等技術(shù)的發(fā)展,本文提出的推薦服務(wù)能為用戶提供更高層次的個性化知識服務(wù)。具體來說,可以在兩方面進行服務(wù)模式的應(yīng)用和拓展:(1)目前圖書館普遍采用物聯(lián)網(wǎng)和RFID等技術(shù)。知識推薦系統(tǒng)能夠利用這些技術(shù),根據(jù)采集和掃描的數(shù)據(jù)結(jié)果獲取用戶的身份、用戶知識檢索、知識標(biāo)注頻率和時間等一系列信息,在此基礎(chǔ)上將這些數(shù)據(jù)信息在經(jīng)過后臺數(shù)據(jù)分析后判斷讀者的文獻或者借閱興趣偏好,從而將讀者感興趣的知識資源通過移動設(shè)備等個性化地推送給讀者。(2)用戶利用移動設(shè)備連接無線網(wǎng)絡(luò),圖書館突破時空限制,可隨時隨地訪問圖書館資源。因此知識推薦服務(wù)也可應(yīng)用于移動閱讀領(lǐng)域,實時適應(yīng)用戶興趣、情境、地理位置等變化,并將用戶給數(shù)字資源打的標(biāo)簽信息反饋到用戶-知識-標(biāo)簽系統(tǒng)中,由推薦系統(tǒng)實時個性化地將數(shù)字資源推送到移動設(shè)備上。泛在知識推薦加強了讀者與圖書館的交互。
在大數(shù)據(jù)時代,數(shù)字圖書館對用戶的閱讀興趣、閱讀行為方式、閱讀需求以及閱讀滿意度等有更精準(zhǔn)的預(yù)判和更周到的服務(wù)。圖書館需深入挖掘各類知識資源特別是數(shù)字信息資源所隱含的數(shù)據(jù)價值,樹立以人為本的服務(wù)理念,并以讀者個性需求和大數(shù)據(jù)科學(xué)分析結(jié)果為依據(jù),為讀者提供安全、高效、滿意、低碳的個性化大數(shù)據(jù)閱讀服務(wù)。傳統(tǒng)推薦模型忽略了用戶興趣隨著時間變化而變化,針對用戶興趣的偏好習(xí)慣具有一定的時間轉(zhuǎn)移的特性,本文結(jié)合用戶標(biāo)注行為,重點考慮反映用戶行為的幾個特征,如標(biāo)簽頻率、標(biāo)簽時間。用戶使用的標(biāo)簽頻率與用戶偏好的項目之間有著極大的聯(lián)系,用戶的興趣會隨著時間而有所改變,研究用戶對使用標(biāo)簽項目的標(biāo)注時間,構(gòu)建了基于標(biāo)簽和時間權(quán)值的資源評分矩陣,然后構(gòu)建了基于用戶興趣變化的知識推薦模型,并闡述系統(tǒng)知識推薦服務(wù)機制及其應(yīng)用。
[1]邢春曉,高鳳榮,戰(zhàn)思南,等.適應(yīng)用戶興趣變化的協(xié)同過濾推薦算法[J].計算機研究與發(fā)展,2007,44(2):296-301.
[2]MaS,LiX,Ding Y,etal.A recommendersystem w ith interest-drifting[M].W eb Information Systems Engineering W ISE 2007.Springer Berlin Heidelberg,2007:633-642.
[3]M ICHLMAYR E,GAYZER S.Learning user profiles from tagging data and leveraging them for personal(ized)information access[C]//Proc of the6th InternationalW orld W ideW eb Conference.New York:ACM Press,2007.
[4]TSO-SUTTER K H L,MSR INHO L B,SCHM IDT-THIEME L S.Tag aware recommender systems by fusion of collaborative filtering rithms[C] //Pros of ACM Symposium on Applied Computing. New York:ACM Press,2008:95-99.
[5]于洪,轉(zhuǎn)運.基于遺忘曲線的協(xié)同過濾推薦算法[J].南京大學(xué)學(xué)報(自然科學(xué)版),2010,46(5):520.
[6]Liu Q,Chen E,Xiong H,etal.Enhancing collaborative filtering by user interestexpansion viapersonalized ranking[J].Systems,Man,and Cybernetics,Part B:Cybernetics,IEEE Transactionson,2012,42(1):218-233.
[7]鄭運剛,馬建國.基于分類的用戶興趣漂移模型[J].情報雜志,2008(1):37-39.
[8]蔣若珊.基于SOM聚類的個性化圖書推薦研究[J].現(xiàn)代情報,2011,31(5):146-148.
[9]張興旺,李晨暉,麥范金.變革中的大數(shù)據(jù)知識服務(wù):面向大數(shù)據(jù)的信息移動推薦服務(wù)新模式[J].圖書與情報,2013(4):74-78.
[10]CHENG Yuan,QIU Guang,BU Jia-jun,et al. Model bloggers'interestsbased on forgettingmechanism [C]//Prosofthe17th lnternationalConferenceonW orld W ide W eb.New York:ACM Press,2008:1129-1130.
[11]Shardanand U,Maes P.Social Information Filtering:Algorithmsfor Automating’wordofmouth’[C].In Proc. of the Conf.on Human Factorsin Computing Systems,2009.
[12]Sarwar B,Karypis G,KonstanJ,et al.Item-based Collaborative Filtering Recommendation Algorithms[C]. In Proc.of the 10 the InternationalWWWConference,2013.
[13]Breese JS,Heckerman D,KadieC.EmpiricalAnalysis of Predictive Algorithm for Collaborative Filtering[C] //Proceedingsof the 14th Conference on Uncertainty in Artificial Intelligence(UAI'98).San Francisco:Morgan Kaufmann Publisher,2009:43-52.
Research on Know ledge Recommendation Service of Digital Library Based on Users’Interest Drift
ZENG Zi-ming,JIN Peng
In view of the time sensitivity ofusers’interestdrift,this paper presentsa knowledge recommendation model for digital library based on users’interest drift.Firstly,it colligates tags and time factors,through the usage frequency and marking time of tags to construct a user resource evaluation matrix,then combines with collaborative filtering algorithm,and calculates the target user’s nearest neighbor set and conducts knowledge recommendation.On the basisof the above considerations,itdesigns the personalized knowledge recommendation servicemodel.Finally,knowledge recommendationmechanism and application ofsystem are discussed.
digital library;knowledge recommendation;interestdrift;tag;collaborative filtering
格式曾子明,金鵬.基于用戶興趣變化的數(shù)字圖書館知識推薦服務(wù)研究[J].圖書館論壇,2016(1):94-99.
曾子明,男,博士后,武漢大學(xué)信息管理學(xué)院教授;金鵬,男,武漢大學(xué)信息管理學(xué)院碩士研究生。
2015-05-26
*本文系教育部人文社科重點研究基地重大項目“商品評論源信息獲取方法與技術(shù)研究”(項目編號:14JJD870002)和國家自然科學(xué)基金項目“泛在環(huán)境下基于情境感知的信息多維推薦服務(wù)模型與實現(xiàn)研究”(項目編號:71103136)研究成果之一