楊永權(quán)
關(guān)鍵詞:圖書館;協(xié)同過(guò)濾;推薦系統(tǒng)
摘 要:針對(duì)傳統(tǒng)的大眾化推薦如熱門圖書推薦、新書推薦等無(wú)法為讀者提供個(gè)性化的圖書推薦服務(wù),提出了構(gòu)建在協(xié)同過(guò)濾技術(shù)之上的圖書個(gè)性化推薦系統(tǒng)模型,分析了協(xié)同過(guò)濾技術(shù)在圖書推薦中的運(yùn)用原理及可行性,最后總結(jié)其優(yōu)缺點(diǎn)。
中圖分類號(hào):G250 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-1588(2014)06-0119-04
收稿日期:2014-05-13
*本文系2013年度廣東外語(yǔ)藝術(shù)職業(yè)學(xué)院立項(xiàng)課題《高職院校圖書館數(shù)字資源整合研究》(項(xiàng)目編號(hào):2013G04)的研究成果之一。
1 協(xié)同過(guò)濾技術(shù)
1.1 算法介紹
協(xié)同過(guò)濾算法是在1992 年由 Goldberg 等人首先提出[1],并將其成功應(yīng)用在研究型郵件推薦系統(tǒng) Tap-estry 中。協(xié)同過(guò)濾算法是利用集體智慧的一個(gè)典型方法,簡(jiǎn)單來(lái)說(shuō),就是利用興趣相近、擁有共同經(jīng)驗(yàn)群體的喜好來(lái)推薦使用者感興趣的資訊,個(gè)人透過(guò)合作的機(jī)制給予資訊相當(dāng)程度的回應(yīng)(如評(píng)分、點(diǎn)評(píng)、購(gòu)買等),并記錄下來(lái)以達(dá)到過(guò)濾的目的進(jìn)而幫助別人篩選資訊。該算法能夠?yàn)橛脩舭l(fā)現(xiàn)新興趣或者將用戶之前喜歡的類似物品推薦給用戶,相比基于內(nèi)容的過(guò)濾方法具有如下優(yōu)點(diǎn):一是能夠過(guò)濾難以進(jìn)行機(jī)器自動(dòng)內(nèi)容分析的如藝術(shù)品和音樂(lè)等信息[2];二是可以對(duì)他人的經(jīng)驗(yàn)進(jìn)行共享;三是能夠利用相似用戶的反饋信息如評(píng)分或評(píng)價(jià),增強(qiáng)系統(tǒng)的學(xué)習(xí)能力,從而不斷完善推薦系統(tǒng)的推薦功能。
1.2 算法過(guò)程
1.2.1 收集用戶偏好??煞譃轱@性和隱形收集,顯性如評(píng)分、評(píng)論、投票,隱形如購(gòu)買、借閱、查看等[3]。在通常實(shí)際應(yīng)用中,我們提取的用戶行為一般都不止一種。收集了用戶行為數(shù)據(jù)后,還需要對(duì)數(shù)據(jù)進(jìn)行一定的預(yù)處理,之后,根據(jù)不同應(yīng)用的行為分析方法,得到一個(gè)用戶偏好的二維矩陣,一維是用戶列表,另一維是物品列表,值是用戶對(duì)物品的偏好。
接著是建立用戶模型過(guò)程,協(xié)同過(guò)濾算法的輸入數(shù)據(jù)通常表示為一個(gè)m*n的用戶——評(píng)價(jià)矩陣R(m,n),m行表示m個(gè)用戶數(shù),n列表示n個(gè)項(xiàng)目,其中Rij表示第i個(gè)用戶對(duì)第j個(gè)物品的評(píng)分值。這里的評(píng)分值可以是用戶的瀏覽次數(shù),購(gòu)買次數(shù)等隱式的評(píng)分,還可以采用顯示評(píng)分,如用戶對(duì)商品的直接評(píng)分,如表1所示。
表1 用戶——項(xiàng)目評(píng)價(jià)矩陣R(m,n)
item 1 ...... Item j ...... Item n
user 1 R11 ...... R1j ...... R1n
...... ...... ...... ...... ...... ......
user i Ri1 ...... Rij ...... Rin
....... ...... ...... ...... ...... ......
user m Rm1 ...... Rmi ...... Rmn
1.2.2 找到相似的用戶或者物品,尋找最近鄰居。尋找距離最近的用戶,測(cè)算距離一般采用以下三種算法:基于相關(guān)系數(shù)的相似度、基于余弦相似度和基于調(diào)整余弦相似度計(jì)算。
第一,基于相關(guān)相似性(經(jīng)常使用皮爾森相關(guān)系數(shù))計(jì)算。用于計(jì)算兩個(gè)變量之間的線性關(guān)系。假設(shè)用Iij表示用戶i和用戶j共同評(píng)分過(guò)的項(xiàng)目集合,那么可以利用皮爾森相關(guān)系數(shù)來(lái)度量用戶i和用戶j之間的相似性sim(i,j),其中Ri,c是用戶i對(duì)項(xiàng)目c的評(píng)分,Rj,c是用戶j對(duì)項(xiàng)目c的評(píng)分, 和分別表示用戶i和j在已經(jīng)評(píng)價(jià)過(guò)的項(xiàng)目上的平均分,如公式1所示。
(公式1)
第二,基于余弦相似性計(jì)算。把用戶評(píng)分看做n維空間上的向量,將那些用戶沒(méi)有評(píng)過(guò)分的項(xiàng)目的評(píng)分統(tǒng)一設(shè)置為0,那么就可以用矢量間的余弦夾角來(lái)表示用戶間的相似度。設(shè)用戶i和j在n維項(xiàng)目空間上的評(píng)分分別表示為向量I、J,則可以用公式2表示來(lái)用戶i和j之間的相似度,如公式2所示。
(公式2)
其中Ri,c、Rj,c分別為用戶i和用戶j對(duì)項(xiàng)目c的評(píng)分,分子為兩個(gè)向量的內(nèi)積,即兩個(gè)向量相同位置的數(shù)字相乘。
第三,基于調(diào)整的余弦(Adjusted Cosine)相似度計(jì)算:由于基于余弦的相似度計(jì)算沒(méi)有考慮不同用戶的打分情況,可能有的用戶偏向于給高分,而有的用戶偏向于給低分,基于調(diào)整的余弦方法通過(guò)減去用戶打分的平均值消除不同用戶打分習(xí)慣的影響。設(shè)用戶i和j共同評(píng)分過(guò)的項(xiàng)目集合用Iij表示,Ii和Ij分別表示用戶i和j評(píng)過(guò)分的項(xiàng)目集合,則用戶i和j之間的相似性表示成公式3。
(公式3)
其中Ri和Rj分別表示用戶i和j在已經(jīng)打分項(xiàng)目上的平均分。
1.2.3 產(chǎn)生推薦結(jié)果。主要包含有TOP-N型推薦和預(yù)測(cè)型推薦兩種推薦類型。Top-N型推薦是指產(chǎn)生一個(gè)目標(biāo)用戶a最喜歡的N個(gè)項(xiàng)目的集合,即Top-N推薦集,可以記作TPa={tp1,tp2,...,tpN},該集合中的每一個(gè)項(xiàng)目通常包含的是目標(biāo)用戶a沒(méi)有購(gòu)買的,但是值得給用戶推薦的商品。而預(yù)測(cè)型推薦是指產(chǎn)生一個(gè)預(yù)測(cè)值R(a,j),其中R(a,j)表示目標(biāo)客戶a對(duì)商品j的預(yù)測(cè)評(píng)分值,他的值域范圍由客戶a所決定。
2 推薦系統(tǒng)模型
圖書推薦系統(tǒng)模型如圖1所示,①讀者從流通書庫(kù)進(jìn)行借還圖書操作,經(jīng)過(guò)多年的積累形成了大量借閱歷史,記錄存儲(chǔ)在流通數(shù)據(jù)庫(kù)里。②推薦系統(tǒng)首先需要對(duì)不規(guī)范的數(shù)據(jù)進(jìn)行清洗和預(yù)處理,為數(shù)據(jù)挖掘做好數(shù)據(jù)準(zhǔn)備。③對(duì)處理好的數(shù)據(jù)進(jìn)行協(xié)同過(guò)濾挖掘(也可以同時(shí)綜合多種算法進(jìn)行挖掘),形成離線規(guī)則庫(kù)。④系統(tǒng)能根據(jù)讀者的信息和借閱歷史自動(dòng)推送不同的圖書推薦信息。圖書個(gè)性化推薦系統(tǒng)可以通過(guò)以下兩種方式向讀者提供推薦系統(tǒng)信息。第一種是采取被動(dòng)方式。只有當(dāng)讀者登陸個(gè)人數(shù)字圖書館,推薦系統(tǒng)才會(huì)推送推薦圖書信息,類似于登陸亞馬遜賬號(hào)之后的推薦方式。另一種是主動(dòng)方式。有條件的單位,可將推薦書目信息通過(guò)郵件系統(tǒng)或手機(jī)短信平臺(tái)發(fā)送;不管使用哪種方式,推薦系統(tǒng)和挖掘模型連接必須通過(guò)接口,向算法模型發(fā)送查詢指令,然后圖書推薦信息將作為結(jié)果返回給推薦系統(tǒng)。另外,為了提升推薦信息的準(zhǔn)確度,挖掘模型的原始數(shù)據(jù)應(yīng)該定期更新。
圖書推薦系統(tǒng)主要由離線規(guī)則庫(kù)和在線圖書推薦構(gòu)成。圖書推薦系統(tǒng)的核心環(huán)節(jié)是離線規(guī)則庫(kù)的構(gòu)建,此過(guò)程是分別基于用戶和基于項(xiàng)目的協(xié)同過(guò)濾技術(shù)處理讀者借閱數(shù)據(jù),挖掘出圖書之間相似性以及與鄰居之間的形成,在線圖書推薦是基于以上結(jié)果,通過(guò)推薦界面將推薦信息呈現(xiàn)給讀者,為讀者提供個(gè)性化推薦圖書的服務(wù)。此外,假如該讀者是新用戶,或者借閱量太少,系統(tǒng)一時(shí)無(wú)法做出個(gè)性化推薦,可以向讀者提供諸如“新書推薦”、“熱門圖書”以及“館員推薦”等符合各種大眾化圖書信息。后臺(tái)管理可以實(shí)現(xiàn)對(duì)圖書信息進(jìn)行更新和對(duì)各種推薦進(jìn)行設(shè)置。
3 協(xié)同過(guò)濾個(gè)性化推薦設(shè)計(jì)原理
協(xié)同過(guò)濾可分成基于用戶和基于項(xiàng)目的協(xié)同過(guò)濾兩種算法。如圖2所示,在基于協(xié)同過(guò)濾算法中,首先輸入用戶-項(xiàng)目的二維矩陣,利用相似度公式計(jì)算出用戶之間的相似度,得出用戶偏好的項(xiàng)目集合,最后為每個(gè)用戶產(chǎn)生推薦列表。
3.1 建立讀者-圖書的二維矩陣模型
建立數(shù)據(jù)庫(kù),用于存放推薦系統(tǒng)過(guò)程中所用到的各種數(shù)據(jù)表,將從圖書館流通系統(tǒng)導(dǎo)出來(lái)、經(jīng)過(guò)清理后的讀者借閱記錄導(dǎo)入到相應(yīng)數(shù)據(jù)表中。從讀者借閱歷史記錄表中獲取圖書信息和讀者信息,為建立讀者-圖書模型做好數(shù)據(jù)準(zhǔn)備。
endprint
3.2 尋找最近鄰居用戶集
[JP2]在進(jìn)行基于用戶的協(xié)同過(guò)濾計(jì)算中,主要目標(biāo)是得到與目標(biāo)用戶的相似用戶集。在這里,可以根據(jù)需要設(shè)定最多有n個(gè)鄰居用戶,其中用戶相似性是以借閱相同圖書的冊(cè)數(shù)來(lái)衡量的,借閱過(guò)相同圖書越多說(shuō)明他們的興趣愛(ài)好越相似;而圖書的相似性是一起被借閱過(guò)的次數(shù)來(lái)衡量的,經(jīng)常被一起借閱過(guò)的說(shuō)明圖書之間的相似性越高。我們已經(jīng)將讀者借閱記錄填充到二維借閱矩陣?yán)锪?,有借閱記錄的平分設(shè)置為1,沒(méi)有借閱的評(píng)分設(shè)置為0,如圖4所示。
表2 評(píng)分后的二維矩陣
讀者1 讀者2 …… 讀者n
圖書1 1 0 1 1
圖書2 1 1 1 1
圖書3 1 1 1 0
…… 1 1 1 1
圖書n 0 1 1 1
在這里,用戶i和用戶j的相似度用公式[HZ(][XC6Q30.TIF][HZ)][KG*2]來(lái)計(jì)算。
3.3 產(chǎn)生圖書推薦
到此為止,基于協(xié)同過(guò)濾結(jié)果已經(jīng)被保存在對(duì)應(yīng)表里,用戶登錄系統(tǒng)后,系統(tǒng)會(huì)自動(dòng)辨別該用戶信息,并推薦出相關(guān)圖書。
4 協(xié)同過(guò)濾技術(shù)優(yōu)缺點(diǎn)分析
4.1 優(yōu)點(diǎn)
4.1.1 較好的運(yùn)用到了“人以群分”思想。利用集體的力量,計(jì)算出不同用戶之間對(duì)物品的喜好程度,然后根據(jù)不同特點(diǎn)給這些人群進(jìn)行分類[4],好處在于:由于人類能夠?qū)σ恍┍容^抽象的、傳統(tǒng)的基于內(nèi)容分析算法難以過(guò)濾和理解的東西進(jìn)行歸類,所以挖掘質(zhì)量相對(duì)會(huì)大大提高。
4.1.2 由于采用了評(píng)價(jià)反饋機(jī)制如評(píng)分、劃分等級(jí),其他用戶能從已經(jīng)體驗(yàn)過(guò)的鄰居評(píng)價(jià)中得到反饋信息,用戶的反饋信息量越大,個(gè)性化系統(tǒng)學(xué)習(xí)速度提升也就越快,只要每個(gè)用戶為系統(tǒng)貢獻(xiàn)一份力量,系統(tǒng)的性能就會(huì)越來(lái)越完善。
4.1.3 可以幫助用戶發(fā)現(xiàn)自己潛在的但還沒(méi)有發(fā)現(xiàn)的新興趣。由于用戶與用戶之間接觸新事物時(shí)間不一致,有些用戶比其他的鄰居提早接觸到自己喜歡的新事物,就通過(guò)基于用戶的協(xié)同過(guò)濾推薦,將這些新的信息推薦給后來(lái)的鄰居們[5]。
4.1.4 基于項(xiàng)目協(xié)同過(guò)濾推薦是根據(jù)項(xiàng)目之間的相似性來(lái)完成推薦任務(wù)的,所以很好解釋推薦結(jié)果的理由和依據(jù),從而滿足特定用戶的興趣需求。
4.2 不足
如基于項(xiàng)目協(xié)同過(guò)濾推薦給用戶的物品是與用戶以前所喜歡的物品相似的物品,該算法是通過(guò)分析用戶對(duì)項(xiàng)目的評(píng)分得出項(xiàng)目之間的相似度,因此他給目標(biāo)用戶所推薦的,僅局限于和用戶之前購(gòu)買過(guò)的相似物品。所以缺乏挖掘用戶潛在需求的能力,難以向用戶產(chǎn)生新穎的推薦結(jié)果。
4.2.1 稀疏性問(wèn)題。在類似于亞馬遜和淘寶這些采用了數(shù)據(jù)挖掘推薦技術(shù)的大型電子購(gòu)物網(wǎng)站中,他們所擁有的物品都是難以計(jì)數(shù),用戶可能購(gòu)買的不到1%的物品[6],不同用戶之間購(gòu)買的物品的重疊性較低,或者幾乎為零,而且用戶很少會(huì)對(duì)購(gòu)買的產(chǎn)品給出評(píng)分。據(jù)研究結(jié)果表明,當(dāng)用戶評(píng)價(jià)項(xiàng)目數(shù)少于總項(xiàng)目數(shù)的10%[7],就很容易造成評(píng)價(jià)矩陣數(shù)據(jù)稀疏,導(dǎo)致算法難以找到一個(gè)用戶的偏好相似鄰居。而在圖書館中也會(huì)遇到同樣的問(wèn)題,圖書館的圖書數(shù)目必然是遠(yuǎn)遠(yuǎn)超過(guò)學(xué)生人數(shù),并且隨著時(shí)間的推移這個(gè)問(wèn)題會(huì)越發(fā)突出。
4.2.2 [JP2]冷啟動(dòng)問(wèn)題。基于用戶協(xié)同過(guò)濾是建立在有大量用戶對(duì)某個(gè)產(chǎn)品的評(píng)價(jià)上的,由于在新產(chǎn)品開始階段沒(méi)有人購(gòu)買或者新圖書在開始會(huì)沒(méi)有人借閱,也沒(méi)有對(duì)其進(jìn)行評(píng)價(jià),那么在開始階段也將無(wú)法對(duì)其進(jìn)行推薦,因此推薦質(zhì)量主要是取決于歷史數(shù)據(jù)集。
4.2.3 算法擴(kuò)展性問(wèn)題。隨著物品數(shù)尤其是用戶數(shù)的劇烈增加,最近鄰居算法的計(jì)算量也相應(yīng)增加,不太適合數(shù)據(jù)量大的情況使用,所以推薦系統(tǒng)性能也會(huì)大受影響,而現(xiàn)在的推薦系統(tǒng)幾乎是B/S結(jié)構(gòu),沒(méi)有快速的相應(yīng)速度,對(duì)網(wǎng)絡(luò)用戶來(lái)說(shuō)是無(wú)法忍受的,因此這在某種程度上限制了基于用戶協(xié)同過(guò)濾在推薦系統(tǒng)中的使用。
4.2.4特殊用戶問(wèn)題。在生活中,有一部分人的偏好是比較特殊的,他沒(méi)有相對(duì)固定的興趣愛(ài)好,而這剛好是基于用戶協(xié)同過(guò)濾的前提,那么系統(tǒng)很難為他找出鄰居,也就是很難給出比較精確的推薦信息了。
5 結(jié)語(yǔ)
基于協(xié)同過(guò)濾技術(shù)的圖書推薦系統(tǒng)對(duì)于提高圖書館的服務(wù)具有重大意義和價(jià)值,他能夠根據(jù)用戶的借閱歷史進(jìn)行圖書推薦,當(dāng)讀者閱讀興趣發(fā)生變化時(shí),系統(tǒng)也能自動(dòng)更新規(guī)則庫(kù),主動(dòng)向讀者推送滿足其個(gè)性化需求的推薦內(nèi)容。個(gè)性化圖書推薦是數(shù)字圖書館做好服務(wù)的根本要求,在實(shí)現(xiàn)個(gè)性化的方法上,有一些值得改進(jìn)的地方,如對(duì)現(xiàn)有協(xié)同過(guò)濾算法的改進(jìn),或者同時(shí)采用多種推薦算法,充分發(fā)揮各個(gè)算法的優(yōu)勢(shì),達(dá)到提高推薦的精度。
參考文獻(xiàn):
[1]李瑋平.基于數(shù)據(jù)挖掘的圖書館讀者需求分析[J]. 圖書館論壇, 2004(3):86-88.
[2] 郁 雪.基于協(xié)同過(guò)濾技術(shù)的推薦方法研究[D]. 天津:天津大學(xué),2009.
[3] 張光衛(wèi)等.基于云模型的協(xié)同過(guò)濾推薦算法[J].軟件學(xué)報(bào),2007(10):2403-2411.
[4] 吳 顏等.協(xié)同過(guò)濾推薦系統(tǒng)中數(shù)據(jù)稀疏問(wèn)題的解決[J]. 計(jì)算機(jī)應(yīng)用研究,2007(6): 94-97.
[5] 鄧愛(ài)林.電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究[D]. 上海:復(fù)旦大學(xué),2003.
[6] 孔小華.協(xié)同過(guò)濾系統(tǒng)的稀疏性與冷啟動(dòng)問(wèn)題研究[D]. 杭州:浙江大學(xué),2005.
[7] 張 亮.推薦系統(tǒng)中協(xié)同過(guò)濾算法問(wèn)題的研究[D]. 北京: 北京郵電大學(xué),2009.
(編校:馬懷云)
endprint
3.2 尋找最近鄰居用戶集
[JP2]在進(jìn)行基于用戶的協(xié)同過(guò)濾計(jì)算中,主要目標(biāo)是得到與目標(biāo)用戶的相似用戶集。在這里,可以根據(jù)需要設(shè)定最多有n個(gè)鄰居用戶,其中用戶相似性是以借閱相同圖書的冊(cè)數(shù)來(lái)衡量的,借閱過(guò)相同圖書越多說(shuō)明他們的興趣愛(ài)好越相似;而圖書的相似性是一起被借閱過(guò)的次數(shù)來(lái)衡量的,經(jīng)常被一起借閱過(guò)的說(shuō)明圖書之間的相似性越高。我們已經(jīng)將讀者借閱記錄填充到二維借閱矩陣?yán)锪?,有借閱記錄的平分設(shè)置為1,沒(méi)有借閱的評(píng)分設(shè)置為0,如圖4所示。
表2 評(píng)分后的二維矩陣
讀者1 讀者2 …… 讀者n
圖書1 1 0 1 1
圖書2 1 1 1 1
圖書3 1 1 1 0
…… 1 1 1 1
圖書n 0 1 1 1
在這里,用戶i和用戶j的相似度用公式[HZ(][XC6Q30.TIF][HZ)][KG*2]來(lái)計(jì)算。
3.3 產(chǎn)生圖書推薦
到此為止,基于協(xié)同過(guò)濾結(jié)果已經(jīng)被保存在對(duì)應(yīng)表里,用戶登錄系統(tǒng)后,系統(tǒng)會(huì)自動(dòng)辨別該用戶信息,并推薦出相關(guān)圖書。
4 協(xié)同過(guò)濾技術(shù)優(yōu)缺點(diǎn)分析
4.1 優(yōu)點(diǎn)
4.1.1 較好的運(yùn)用到了“人以群分”思想。利用集體的力量,計(jì)算出不同用戶之間對(duì)物品的喜好程度,然后根據(jù)不同特點(diǎn)給這些人群進(jìn)行分類[4],好處在于:由于人類能夠?qū)σ恍┍容^抽象的、傳統(tǒng)的基于內(nèi)容分析算法難以過(guò)濾和理解的東西進(jìn)行歸類,所以挖掘質(zhì)量相對(duì)會(huì)大大提高。
4.1.2 由于采用了評(píng)價(jià)反饋機(jī)制如評(píng)分、劃分等級(jí),其他用戶能從已經(jīng)體驗(yàn)過(guò)的鄰居評(píng)價(jià)中得到反饋信息,用戶的反饋信息量越大,個(gè)性化系統(tǒng)學(xué)習(xí)速度提升也就越快,只要每個(gè)用戶為系統(tǒng)貢獻(xiàn)一份力量,系統(tǒng)的性能就會(huì)越來(lái)越完善。
4.1.3 可以幫助用戶發(fā)現(xiàn)自己潛在的但還沒(méi)有發(fā)現(xiàn)的新興趣。由于用戶與用戶之間接觸新事物時(shí)間不一致,有些用戶比其他的鄰居提早接觸到自己喜歡的新事物,就通過(guò)基于用戶的協(xié)同過(guò)濾推薦,將這些新的信息推薦給后來(lái)的鄰居們[5]。
4.1.4 基于項(xiàng)目協(xié)同過(guò)濾推薦是根據(jù)項(xiàng)目之間的相似性來(lái)完成推薦任務(wù)的,所以很好解釋推薦結(jié)果的理由和依據(jù),從而滿足特定用戶的興趣需求。
4.2 不足
如基于項(xiàng)目協(xié)同過(guò)濾推薦給用戶的物品是與用戶以前所喜歡的物品相似的物品,該算法是通過(guò)分析用戶對(duì)項(xiàng)目的評(píng)分得出項(xiàng)目之間的相似度,因此他給目標(biāo)用戶所推薦的,僅局限于和用戶之前購(gòu)買過(guò)的相似物品。所以缺乏挖掘用戶潛在需求的能力,難以向用戶產(chǎn)生新穎的推薦結(jié)果。
4.2.1 稀疏性問(wèn)題。在類似于亞馬遜和淘寶這些采用了數(shù)據(jù)挖掘推薦技術(shù)的大型電子購(gòu)物網(wǎng)站中,他們所擁有的物品都是難以計(jì)數(shù),用戶可能購(gòu)買的不到1%的物品[6],不同用戶之間購(gòu)買的物品的重疊性較低,或者幾乎為零,而且用戶很少會(huì)對(duì)購(gòu)買的產(chǎn)品給出評(píng)分。據(jù)研究結(jié)果表明,當(dāng)用戶評(píng)價(jià)項(xiàng)目數(shù)少于總項(xiàng)目數(shù)的10%[7],就很容易造成評(píng)價(jià)矩陣數(shù)據(jù)稀疏,導(dǎo)致算法難以找到一個(gè)用戶的偏好相似鄰居。而在圖書館中也會(huì)遇到同樣的問(wèn)題,圖書館的圖書數(shù)目必然是遠(yuǎn)遠(yuǎn)超過(guò)學(xué)生人數(shù),并且隨著時(shí)間的推移這個(gè)問(wèn)題會(huì)越發(fā)突出。
4.2.2 [JP2]冷啟動(dòng)問(wèn)題?;谟脩魠f(xié)同過(guò)濾是建立在有大量用戶對(duì)某個(gè)產(chǎn)品的評(píng)價(jià)上的,由于在新產(chǎn)品開始階段沒(méi)有人購(gòu)買或者新圖書在開始會(huì)沒(méi)有人借閱,也沒(méi)有對(duì)其進(jìn)行評(píng)價(jià),那么在開始階段也將無(wú)法對(duì)其進(jìn)行推薦,因此推薦質(zhì)量主要是取決于歷史數(shù)據(jù)集。
4.2.3 算法擴(kuò)展性問(wèn)題。隨著物品數(shù)尤其是用戶數(shù)的劇烈增加,最近鄰居算法的計(jì)算量也相應(yīng)增加,不太適合數(shù)據(jù)量大的情況使用,所以推薦系統(tǒng)性能也會(huì)大受影響,而現(xiàn)在的推薦系統(tǒng)幾乎是B/S結(jié)構(gòu),沒(méi)有快速的相應(yīng)速度,對(duì)網(wǎng)絡(luò)用戶來(lái)說(shuō)是無(wú)法忍受的,因此這在某種程度上限制了基于用戶協(xié)同過(guò)濾在推薦系統(tǒng)中的使用。
4.2.4特殊用戶問(wèn)題。在生活中,有一部分人的偏好是比較特殊的,他沒(méi)有相對(duì)固定的興趣愛(ài)好,而這剛好是基于用戶協(xié)同過(guò)濾的前提,那么系統(tǒng)很難為他找出鄰居,也就是很難給出比較精確的推薦信息了。
5 結(jié)語(yǔ)
基于協(xié)同過(guò)濾技術(shù)的圖書推薦系統(tǒng)對(duì)于提高圖書館的服務(wù)具有重大意義和價(jià)值,他能夠根據(jù)用戶的借閱歷史進(jìn)行圖書推薦,當(dāng)讀者閱讀興趣發(fā)生變化時(shí),系統(tǒng)也能自動(dòng)更新規(guī)則庫(kù),主動(dòng)向讀者推送滿足其個(gè)性化需求的推薦內(nèi)容。個(gè)性化圖書推薦是數(shù)字圖書館做好服務(wù)的根本要求,在實(shí)現(xiàn)個(gè)性化的方法上,有一些值得改進(jìn)的地方,如對(duì)現(xiàn)有協(xié)同過(guò)濾算法的改進(jìn),或者同時(shí)采用多種推薦算法,充分發(fā)揮各個(gè)算法的優(yōu)勢(shì),達(dá)到提高推薦的精度。
參考文獻(xiàn):
[1]李瑋平.基于數(shù)據(jù)挖掘的圖書館讀者需求分析[J]. 圖書館論壇, 2004(3):86-88.
[2] 郁 雪.基于協(xié)同過(guò)濾技術(shù)的推薦方法研究[D]. 天津:天津大學(xué),2009.
[3] 張光衛(wèi)等.基于云模型的協(xié)同過(guò)濾推薦算法[J].軟件學(xué)報(bào),2007(10):2403-2411.
[4] 吳 顏等.協(xié)同過(guò)濾推薦系統(tǒng)中數(shù)據(jù)稀疏問(wèn)題的解決[J]. 計(jì)算機(jī)應(yīng)用研究,2007(6): 94-97.
[5] 鄧愛(ài)林.電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究[D]. 上海:復(fù)旦大學(xué),2003.
[6] 孔小華.協(xié)同過(guò)濾系統(tǒng)的稀疏性與冷啟動(dòng)問(wèn)題研究[D]. 杭州:浙江大學(xué),2005.
[7] 張 亮.推薦系統(tǒng)中協(xié)同過(guò)濾算法問(wèn)題的研究[D]. 北京: 北京郵電大學(xué),2009.
(編校:馬懷云)
endprint
3.2 尋找最近鄰居用戶集
[JP2]在進(jìn)行基于用戶的協(xié)同過(guò)濾計(jì)算中,主要目標(biāo)是得到與目標(biāo)用戶的相似用戶集。在這里,可以根據(jù)需要設(shè)定最多有n個(gè)鄰居用戶,其中用戶相似性是以借閱相同圖書的冊(cè)數(shù)來(lái)衡量的,借閱過(guò)相同圖書越多說(shuō)明他們的興趣愛(ài)好越相似;而圖書的相似性是一起被借閱過(guò)的次數(shù)來(lái)衡量的,經(jīng)常被一起借閱過(guò)的說(shuō)明圖書之間的相似性越高。我們已經(jīng)將讀者借閱記錄填充到二維借閱矩陣?yán)锪?,有借閱記錄的平分設(shè)置為1,沒(méi)有借閱的評(píng)分設(shè)置為0,如圖4所示。
表2 評(píng)分后的二維矩陣
讀者1 讀者2 …… 讀者n
圖書1 1 0 1 1
圖書2 1 1 1 1
圖書3 1 1 1 0
…… 1 1 1 1
圖書n 0 1 1 1
在這里,用戶i和用戶j的相似度用公式[HZ(][XC6Q30.TIF][HZ)][KG*2]來(lái)計(jì)算。
3.3 產(chǎn)生圖書推薦
到此為止,基于協(xié)同過(guò)濾結(jié)果已經(jīng)被保存在對(duì)應(yīng)表里,用戶登錄系統(tǒng)后,系統(tǒng)會(huì)自動(dòng)辨別該用戶信息,并推薦出相關(guān)圖書。
4 協(xié)同過(guò)濾技術(shù)優(yōu)缺點(diǎn)分析
4.1 優(yōu)點(diǎn)
4.1.1 較好的運(yùn)用到了“人以群分”思想。利用集體的力量,計(jì)算出不同用戶之間對(duì)物品的喜好程度,然后根據(jù)不同特點(diǎn)給這些人群進(jìn)行分類[4],好處在于:由于人類能夠?qū)σ恍┍容^抽象的、傳統(tǒng)的基于內(nèi)容分析算法難以過(guò)濾和理解的東西進(jìn)行歸類,所以挖掘質(zhì)量相對(duì)會(huì)大大提高。
4.1.2 由于采用了評(píng)價(jià)反饋機(jī)制如評(píng)分、劃分等級(jí),其他用戶能從已經(jīng)體驗(yàn)過(guò)的鄰居評(píng)價(jià)中得到反饋信息,用戶的反饋信息量越大,個(gè)性化系統(tǒng)學(xué)習(xí)速度提升也就越快,只要每個(gè)用戶為系統(tǒng)貢獻(xiàn)一份力量,系統(tǒng)的性能就會(huì)越來(lái)越完善。
4.1.3 可以幫助用戶發(fā)現(xiàn)自己潛在的但還沒(méi)有發(fā)現(xiàn)的新興趣。由于用戶與用戶之間接觸新事物時(shí)間不一致,有些用戶比其他的鄰居提早接觸到自己喜歡的新事物,就通過(guò)基于用戶的協(xié)同過(guò)濾推薦,將這些新的信息推薦給后來(lái)的鄰居們[5]。
4.1.4 基于項(xiàng)目協(xié)同過(guò)濾推薦是根據(jù)項(xiàng)目之間的相似性來(lái)完成推薦任務(wù)的,所以很好解釋推薦結(jié)果的理由和依據(jù),從而滿足特定用戶的興趣需求。
4.2 不足
如基于項(xiàng)目協(xié)同過(guò)濾推薦給用戶的物品是與用戶以前所喜歡的物品相似的物品,該算法是通過(guò)分析用戶對(duì)項(xiàng)目的評(píng)分得出項(xiàng)目之間的相似度,因此他給目標(biāo)用戶所推薦的,僅局限于和用戶之前購(gòu)買過(guò)的相似物品。所以缺乏挖掘用戶潛在需求的能力,難以向用戶產(chǎn)生新穎的推薦結(jié)果。
4.2.1 稀疏性問(wèn)題。在類似于亞馬遜和淘寶這些采用了數(shù)據(jù)挖掘推薦技術(shù)的大型電子購(gòu)物網(wǎng)站中,他們所擁有的物品都是難以計(jì)數(shù),用戶可能購(gòu)買的不到1%的物品[6],不同用戶之間購(gòu)買的物品的重疊性較低,或者幾乎為零,而且用戶很少會(huì)對(duì)購(gòu)買的產(chǎn)品給出評(píng)分。據(jù)研究結(jié)果表明,當(dāng)用戶評(píng)價(jià)項(xiàng)目數(shù)少于總項(xiàng)目數(shù)的10%[7],就很容易造成評(píng)價(jià)矩陣數(shù)據(jù)稀疏,導(dǎo)致算法難以找到一個(gè)用戶的偏好相似鄰居。而在圖書館中也會(huì)遇到同樣的問(wèn)題,圖書館的圖書數(shù)目必然是遠(yuǎn)遠(yuǎn)超過(guò)學(xué)生人數(shù),并且隨著時(shí)間的推移這個(gè)問(wèn)題會(huì)越發(fā)突出。
4.2.2 [JP2]冷啟動(dòng)問(wèn)題?;谟脩魠f(xié)同過(guò)濾是建立在有大量用戶對(duì)某個(gè)產(chǎn)品的評(píng)價(jià)上的,由于在新產(chǎn)品開始階段沒(méi)有人購(gòu)買或者新圖書在開始會(huì)沒(méi)有人借閱,也沒(méi)有對(duì)其進(jìn)行評(píng)價(jià),那么在開始階段也將無(wú)法對(duì)其進(jìn)行推薦,因此推薦質(zhì)量主要是取決于歷史數(shù)據(jù)集。
4.2.3 算法擴(kuò)展性問(wèn)題。隨著物品數(shù)尤其是用戶數(shù)的劇烈增加,最近鄰居算法的計(jì)算量也相應(yīng)增加,不太適合數(shù)據(jù)量大的情況使用,所以推薦系統(tǒng)性能也會(huì)大受影響,而現(xiàn)在的推薦系統(tǒng)幾乎是B/S結(jié)構(gòu),沒(méi)有快速的相應(yīng)速度,對(duì)網(wǎng)絡(luò)用戶來(lái)說(shuō)是無(wú)法忍受的,因此這在某種程度上限制了基于用戶協(xié)同過(guò)濾在推薦系統(tǒng)中的使用。
4.2.4特殊用戶問(wèn)題。在生活中,有一部分人的偏好是比較特殊的,他沒(méi)有相對(duì)固定的興趣愛(ài)好,而這剛好是基于用戶協(xié)同過(guò)濾的前提,那么系統(tǒng)很難為他找出鄰居,也就是很難給出比較精確的推薦信息了。
5 結(jié)語(yǔ)
基于協(xié)同過(guò)濾技術(shù)的圖書推薦系統(tǒng)對(duì)于提高圖書館的服務(wù)具有重大意義和價(jià)值,他能夠根據(jù)用戶的借閱歷史進(jìn)行圖書推薦,當(dāng)讀者閱讀興趣發(fā)生變化時(shí),系統(tǒng)也能自動(dòng)更新規(guī)則庫(kù),主動(dòng)向讀者推送滿足其個(gè)性化需求的推薦內(nèi)容。個(gè)性化圖書推薦是數(shù)字圖書館做好服務(wù)的根本要求,在實(shí)現(xiàn)個(gè)性化的方法上,有一些值得改進(jìn)的地方,如對(duì)現(xiàn)有協(xié)同過(guò)濾算法的改進(jìn),或者同時(shí)采用多種推薦算法,充分發(fā)揮各個(gè)算法的優(yōu)勢(shì),達(dá)到提高推薦的精度。
參考文獻(xiàn):
[1]李瑋平.基于數(shù)據(jù)挖掘的圖書館讀者需求分析[J]. 圖書館論壇, 2004(3):86-88.
[2] 郁 雪.基于協(xié)同過(guò)濾技術(shù)的推薦方法研究[D]. 天津:天津大學(xué),2009.
[3] 張光衛(wèi)等.基于云模型的協(xié)同過(guò)濾推薦算法[J].軟件學(xué)報(bào),2007(10):2403-2411.
[4] 吳 顏等.協(xié)同過(guò)濾推薦系統(tǒng)中數(shù)據(jù)稀疏問(wèn)題的解決[J]. 計(jì)算機(jī)應(yīng)用研究,2007(6): 94-97.
[5] 鄧愛(ài)林.電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究[D]. 上海:復(fù)旦大學(xué),2003.
[6] 孔小華.協(xié)同過(guò)濾系統(tǒng)的稀疏性與冷啟動(dòng)問(wèn)題研究[D]. 杭州:浙江大學(xué),2005.
[7] 張 亮.推薦系統(tǒng)中協(xié)同過(guò)濾算法問(wèn)題的研究[D]. 北京: 北京郵電大學(xué),2009.
(編校:馬懷云)
endprint