• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于協(xié)同過濾算法的個性化圖書推薦系統(tǒng)的研究

      2016-01-19 02:52:53孫彥超韓鳳霞北京信息科技大學(xué)教務(wù)處機(jī)電實習(xí)中心北京100192
      圖書館理論與實踐 2015年4期
      關(guān)鍵詞:協(xié)同過濾推薦系統(tǒng)

      ●孫彥超,韓鳳霞(北京信息科技大學(xué) .教務(wù)處;.機(jī)電實習(xí)中心,北京 100192)

      基于協(xié)同過濾算法的個性化圖書推薦系統(tǒng)的研究

      ●孫彥超a,韓鳳霞b(北京信息科技大學(xué)a.教務(wù)處;b.機(jī)電實習(xí)中心,北京100192)

      [關(guān)鍵詞]協(xié)同過濾;最近鄰居;推薦系統(tǒng)

      [摘要]針對傳統(tǒng)的協(xié)同過濾推薦算法不足之處,文中引入興趣隨時間遷移函數(shù)、用戶和對象相關(guān)函數(shù)及用戶特性集三個方面對協(xié)同過濾算法進(jìn)行優(yōu)化改進(jìn),在改進(jìn)后的算法中使用用戶興趣隨時間的變化函數(shù)來修正用戶評價矩陣,在計算用戶相似度時考慮了用戶和對象興趣度,在生成最近鄰居時充分考慮了用戶特性相似度對推薦結(jié)果的影響。以北京信息科技大學(xué)圖書管理系統(tǒng)中數(shù)據(jù)集進(jìn)行實驗,通過實驗結(jié)果表明,改進(jìn)后的算法在推薦的準(zhǔn)確度上有顯著的提高。

      1 個性化圖書推薦系統(tǒng)及推薦算法

      所謂個性化圖書推薦系統(tǒng),主要是利用讀者歷史借閱數(shù)據(jù)預(yù)測未來讀者潛在的興趣和愛好,進(jìn)而有針對性地向其提供個性化的推薦圖書服務(wù)。

      目前,高校圖書館通常采用的推薦算法可以分三類[1]:(1)基于關(guān)聯(lián)規(guī)則的推薦算法(Association Rule-based Recommendation);(2)基于內(nèi)容的推薦算法(Content-based Recommendation);(3)協(xié)同過濾推薦算法(Collaborative Filtering Recommendation)。三類算法優(yōu)缺點比較如下表所示。

      在圖書管理系統(tǒng)中,知識學(xué)習(xí)的驅(qū)動力、相似的知識結(jié)構(gòu)及海量的高頻借閱記錄數(shù)據(jù),使得圖書管理系統(tǒng)中存在大量相似度較高的讀者借閱信息,在這些借閱信息的基礎(chǔ)上,基于關(guān)聯(lián)規(guī)則推薦算法能夠分析其中隱藏的關(guān)聯(lián)規(guī)則,不足是規(guī)則抽取難度大、耗時長,個性化程度較低。由于圖書管理系統(tǒng)中數(shù)據(jù)量大、數(shù)據(jù)類型復(fù)雜及學(xué)科覆蓋面跨度大,容易造成基于內(nèi)容的推薦算法在數(shù)據(jù)建模時很難全面地表示圖書內(nèi)容特征,從而造成推薦結(jié)果的質(zhì)量較低,不能滿足師生對圖書推薦結(jié)果的準(zhǔn)確性及實施性要求。協(xié)同過濾算法不需要對圖書資源知識內(nèi)涵進(jìn)行深入分析,只需要對讀者的特征及借閱記錄進(jìn)行分析,根據(jù)讀者的特征分析其興趣及個性化圖書需求。該算法的優(yōu)點是能夠處理基于內(nèi)容推薦算法難以分析的信息,如音頻、視頻信息;能夠利用評價矩陣對結(jié)構(gòu)復(fù)雜的對象進(jìn)行高質(zhì)量推薦。因此,協(xié)同過濾算法被主流推薦系統(tǒng)廣泛采用。如亞馬遜及當(dāng)當(dāng)網(wǎng)都采用了協(xié)同過濾的技術(shù)來提高個性化推薦服務(wù)質(zhì)量。該算法的缺點是推薦系統(tǒng)運行初期,采集到用戶的評價信息相對有限,以此產(chǎn)生的稀疏評價矩陣生成的最近鄰居可能不夠準(zhǔn)確。同時,該算法忽略了用戶對被推薦對象的興趣度,只考慮用戶的評價數(shù)據(jù),也就是說算法只關(guān)注用戶及對象二維,忽略了其他緯度,如時間緯度等。[1]

      表 三類推薦算法的比較

      2 改進(jìn)前的協(xié)同過濾算法

      協(xié)同過濾算法的算法思想是采集用戶信息,包括用戶基本信息、借閱信息及評價信息,利用采集到的信息生成用戶評價矩陣,使用評價矩陣計算用戶相似度,生成被推薦用戶的最近鄰居集,根據(jù)最近鄰居評價信息提供推薦服務(wù)。[2]協(xié)同過濾推薦算法主要分兩大類。一是基于內(nèi)存的協(xié)同過濾算法,使用相似統(tǒng)計的方法獲取具有相似興趣的鄰居用戶集,因此也稱基于用戶的協(xié)同過濾算法。二是基于模型的協(xié)同過濾算法,先用歷史數(shù)據(jù)得到一個推薦模型,在對推薦模型評估改進(jìn)優(yōu)化后進(jìn)行預(yù)測推薦。[2]本文所改進(jìn)的協(xié)同過濾算法均為基于用戶的協(xié)同過濾算法。

      2.1對用戶建模

      收集用戶相關(guān)數(shù)據(jù)信息,利用收集到的用戶信息

      生成一個m×n的用戶評價矩陣R,其中m表示用戶數(shù),n表示被評價對象數(shù),rij表示用戶i對項目j的評分,如果評分是非數(shù)值型的信息要轉(zhuǎn)化為數(shù)值,矩陣R可以表示為:

      2.2生成最近鄰居集

      最近鄰居集是指與目標(biāo)用戶相似度較高的用戶集。利用用戶評分矩陣,計算用戶間的相似度,生成目標(biāo)用戶的相似度最高的最近鄰居集合。生成最近矩陣的過程,實際上是用矩陣R計算目標(biāo)用戶U的一個相似性以遞減排序的集合,計算目標(biāo)用戶的相似度主要方法有:(1)余弦相似度計算,其中相似度隨著余弦值的增大而增高;(2)皮爾森相關(guān)系數(shù)法,該計算方法克服了余弦相似度方法忽略了用戶評分尺度不同的問題,在一定程度上提高了算法計算出相似度的準(zhǔn)確率;(3)修正的余弦相似度計算方法,和相關(guān)系數(shù)法一樣對用戶評分進(jìn)行修正,從而提高計算相似度的準(zhǔn)確性。計算出用戶相似度后,生成最近鄰居集合步驟如下。[3]

      (1)根據(jù)前面算法計算出的其他用戶與目標(biāo)用戶的相似度,并篩選出相似度大于制定數(shù)值(0.70)的用戶集。(2)對滿足條件的用戶集根據(jù)和目標(biāo)用戶相似度按降序排列,選出前N個用戶組成目標(biāo)用戶的最近鄰居集。

      2.3生成推薦結(jié)果

      公式(1)中,用戶i與用戶j間的相似性用公式sim(i,j)表示,目標(biāo)用戶的一個最近鄰居j對某一項目d的評分用Ri,d表示,用戶i和用戶j對所有項目的平均評分分別為該公式的思想是利用生成的最近鄰居集合,把鄰居和目標(biāo)對象間的相似度作為權(quán)重,計算鄰居對某一項目的評分和對所有項評分差的加權(quán)平均分,從而推斷出相似用戶對待評價對象的評分,進(jìn)行預(yù)測目標(biāo)用戶對待評分項目的評價,依據(jù)預(yù)測結(jié)果選擇相似度高的若干個結(jié)果進(jìn)行推薦。

      雖然協(xié)同過濾算法得到了業(yè)界廣泛認(rèn)可,但也存在一系列問題。[4](1)評價數(shù)據(jù)稀疏性問題等。用戶評價較少時,對推薦結(jié)果的質(zhì)量會產(chǎn)生較大影響,目前,基于項目的協(xié)同過濾算法可以很好地解決數(shù)據(jù)評價稀疏性問題。(2)傳統(tǒng)協(xié)同過濾算法把用戶不同時期評價按相同權(quán)重看待,忽略了用戶興趣度隨時間遷移對評價結(jié)果的影響。(3)傳統(tǒng)協(xié)同過濾算法只從用戶自身或者項目本身單一緯度的相似性聚類,從而產(chǎn)生推薦,忽略了用戶和對象相關(guān)性對推薦結(jié)果的影響。(4)忽略了用戶自身特性可能對推薦結(jié)果產(chǎn)生一定影響,不同特性用戶可能具有不同的興趣,具有相同特性的用戶可能具有相同的愛好,所以生成用戶最近鄰居時,考慮用戶自身特性能夠在很大程度上提高推薦結(jié)果的質(zhì)量。[5]因此,本文從用戶興趣度隨時間遷移、用戶和對象相關(guān)度及用戶特性三方面對傳統(tǒng)協(xié)同過濾算法進(jìn)行改進(jìn),從而更好地為個性化圖書推薦系統(tǒng)服務(wù)。

      3 改進(jìn)的協(xié)同過濾推薦算法

      3.1從用戶興趣度隨時間遷移方面對算法進(jìn)行改進(jìn)

      傳統(tǒng)的協(xié)同過濾算法生成最近鄰居時,沒有引入時間維度,把各個時期的評價按同一權(quán)重值進(jìn)行計算,忽略了用戶興趣度可能隨著時間增加而衰減的特性。通常來說,由于用戶的興趣是隨時間變化的,在短期內(nèi)用戶的興趣基本穩(wěn)定,因此,用戶早期的評價在推薦算法中應(yīng)具有較小的權(quán)重,近期的評價應(yīng)具有較高的權(quán)重。德國心理學(xué)家艾賓浩斯通過對興趣隨時間變化研究結(jié)果表明:人類的興趣隨時間變化是非線性的。借鑒人類興趣遷移規(guī)律,引入興趣度隨時間遷移函數(shù)。根據(jù)時間t用戶對項目評分權(quán)重值逐漸衰減,興趣度隨時間遷移函數(shù)Interest(u,t)表示用戶興趣隨時間遷移過程。Interest(u,t)是一個非線性遞減函數(shù),反映用戶近期評價的權(quán)重值大,一般權(quán)重值在0到1范圍內(nèi)。當(dāng)前,興趣度隨時間遷移的函數(shù)一般有線性遞減函數(shù)和指數(shù)衰減函數(shù)。

      如圖1所示,根據(jù)興趣度隨時間遷移曲線,改進(jìn)后的算法引入公式(2)考慮用戶興趣隨著時間變化對推薦結(jié)果的影響。

      在公式(2)中,D(u,i)表示用戶訪問項目最近與最晚時間間隔,m和n為常數(shù),通過調(diào)整m及n的值可以控制隨時間變化興趣度對推薦結(jié)果影響的權(quán)重值。

      3.2從用戶和對象相關(guān)度方面對算法改進(jìn)

      傳統(tǒng)協(xié)同過濾算法忽略了用戶和對象的相關(guān)性對

      推薦結(jié)果的影響,僅根據(jù)用戶本身或者項目單一緯度的相似度生成最近鄰居,忽略了用戶和對象之間的內(nèi)在聯(lián)系;改進(jìn)后算法通過采用用戶u和對象i相關(guān)度函數(shù)Relevance(u,i)來考慮用戶對特定對象的興趣度。

      圖1 興趣度隨時間遷移函數(shù)

      假定用戶U評價過的所有項目為集合Iu,假設(shè)某一項目i存在于集合Iu中,同時i和集合Iu中的項目具有高相似度,那么可以推斷項目i和用戶U的興趣具有較高的相似性,在一定時間內(nèi),用戶U興趣度高的項目和i項目具有較高的相似度。也就是說,項目i對產(chǎn)生用戶U的推薦結(jié)果具有重要參考價值。因此,定義Relevance(u,i)函數(shù)來評價項目i對用戶U在某一時段的影響值,如公式(3)。在公式(3)中,sim(i,j)表示項目i和集合Iu中項目的相似性,sim(i,j)表示i和集合Iu的總體相似度,表示集合Iu中的項目數(shù)。改進(jìn)后的算法引入了用戶和對象相關(guān)度函數(shù)Relevance(u,i),根據(jù)特定用戶對某一項目的相關(guān)度推薦,也就是按照用戶對項目的興趣度不同賦予相應(yīng)的權(quán)重值。

      3.3從用戶特性方面對算法進(jìn)行改進(jìn)

      不同特性的用戶可能具有不同的興趣,而具有相同特性的用戶可能有一些相似的興趣。因此,在產(chǎn)生最近鄰居時,用戶的特性是一個極其關(guān)鍵的因素。改進(jìn)后的算法通過構(gòu)建用戶特性集,從而幫助提高推薦最近鄰居的準(zhǔn)確度。一方面,不同專業(yè)的讀者,自身儲備的知識不同,會對其興趣帶來一定影響,比如計算機(jī)專業(yè)的學(xué)生可能對IT類書籍有較高的興趣,會計專業(yè)的學(xué)生可能對金融類書籍的興趣度高;另一方面,相同專業(yè)的讀者更可能對同一類書籍具有相似的興趣度。所以,改進(jìn)后的算法選擇專業(yè)、年齡和性別作為用戶特性對算法進(jìn)行改進(jìn)。

      根據(jù)用戶專業(yè)屬性對協(xié)同過濾算法進(jìn)行改進(jìn),首先根據(jù)用戶專業(yè)將其構(gòu)造成一顆倒立的專業(yè)樹(見圖2)。

      圖2 專業(yè)樹

      假定專業(yè)樹的總層數(shù)被稱為專業(yè)樹的高度(H),專業(yè)m,n在專業(yè)樹中最近的共同父類節(jié)點被稱作二者的最近父類節(jié)點,父類節(jié)點位于該樹上的層次為對應(yīng)的高度H(a,b),如專業(yè)馬克思和認(rèn)識論的高度H(馬克思,認(rèn)識論)為1,若專業(yè)m,n在專業(yè)樹的最近共同父類節(jié)點為根節(jié)點,那么它們的高度是0。假定用戶i的專業(yè)為m,用戶j的專業(yè)為n,那么用戶i,j在專業(yè)特性上的用戶相似度為Major(i,j),如計算公式(4):

      例如,某一用戶i專業(yè)為馬克思,用戶j的專業(yè)為認(rèn)識論,其共同最近父類為哲學(xué),高度為2,專業(yè)樹的高度H為4,那么Major(i,j)的值為0.5,也就是說用戶在專業(yè)特性上的相似度為0.5。

      根據(jù)用戶性別特性對協(xié)同過濾算法改進(jìn),假定用戶i、j的性別分別為m、n,則用戶性別相似度Sex(i, j)可表示為:

      根據(jù)用戶年齡特性對協(xié)同過濾算法改進(jìn),假定用戶i的年齡為m,用戶j的年齡為n,則用戶年齡相似度Age(i,j)可表示為:

      綜合考慮專業(yè)、性別及年齡特性,可以得出用戶特性相似度公式(7):

      公式(7)中,α,β均為小于1的正整數(shù),作用是控制用戶特性在用戶特征相似度中的權(quán)重。其值的大小可以通過實驗數(shù)據(jù)測試結(jié)果不斷優(yōu)化,最終達(dá)到最佳推薦結(jié)果。

      4 改進(jìn)后的算法在個性化圖書推薦系統(tǒng)中的應(yīng)用

      采用改進(jìn)后協(xié)同過濾推薦算法,可以通過對讀者專業(yè)、性別及年齡的分析,根據(jù)用戶特性計算用戶特性相似度,很容易解決傳統(tǒng)算法遇到的新用戶問題。改進(jìn)后的算法在推薦系統(tǒng)中的工作流程見圖3。

      圖3 改進(jìn)后算法的推薦流程

      ss

      (1)收集讀者信息,包括讀者的基本信息(如學(xué)生編號、姓名、出生日期、性別、年齡、專業(yè)、愛好等)讀者的借閱圖書記錄和用戶對借閱過的圖書的評價信息。(2)根據(jù)讀者對借閱圖書的評價信息,生成讀者評價矩陣。同時根據(jù)讀者基本信息生成讀者特性集合。(3)根據(jù)讀者興趣隨時間變化函數(shù)(公式2)對讀者評價矩陣進(jìn)行修正,從而在修正后的評價矩陣中考慮讀者興趣隨時間變化情況。(4)根據(jù)讀者對圖書的相關(guān)函數(shù)(公式3)計算讀者對圖書的興趣度,然后根據(jù)讀者的興趣度和評分矩陣計算用戶的相似度。同時,根據(jù)讀者特性利用公式(7)計算讀者特性相似度。(5)綜合計算讀者的相似度,生成目標(biāo)讀者的最近鄰居集合。(6)根據(jù)生成的讀者最近鄰居集,預(yù)測目標(biāo)讀者對待評價對象的評分,產(chǎn)生推薦結(jié)果。

      5 試驗與分析

      實驗數(shù)據(jù)為北京信息科技大學(xué)個性化圖書推薦系統(tǒng)提供的數(shù)據(jù)集,數(shù)據(jù)包括4000名讀者對10000本圖書的評價,每個讀者至少對10本圖書進(jìn)行評價,評價信息被轉(zhuǎn)化為(0 1]上的值,評價值越高,表明讀者對圖書的興趣度越高,并采用查準(zhǔn)率(Precison)作為推薦算法的評價指標(biāo),其中,查準(zhǔn)率公式(8)如下:

      在公式(8)中,Hits為改進(jìn)前后算法為讀者推薦正確結(jié)果數(shù),N表示讀者的所有評價數(shù),根據(jù)讀者對圖書評價,計算推薦圖書的準(zhǔn)確率,試驗結(jié)果見圖4。

      圖4 算法改進(jìn)前后查準(zhǔn)率對比圖

      試驗分析結(jié)果表明,通過對傳統(tǒng)的協(xié)同過濾算法進(jìn)行改進(jìn),個性化圖書推薦系統(tǒng)推薦結(jié)果查準(zhǔn)率由原來的70%以下提高到了75%以上,極大地提高了推薦效果,在一定層面提高了圖書的借閱率。

      [參考文獻(xiàn)]

      [1]李濤.推薦系統(tǒng)中若干關(guān)鍵問題研究[D].南京:南京航空航天大學(xué),2008.

      [2]董坤.基于協(xié)同過濾算法的高校圖書館圖書推薦系統(tǒng)研究[J].現(xiàn)代圖書情報技術(shù),2011(11):44-47.

      [3]曹正強(qiáng).網(wǎng)絡(luò)教育作業(yè)中基于本體的智能推薦系統(tǒng)模型研究[J].軟件導(dǎo)刊(教育技術(shù)),2010 (4):93-95.

      [4]張富國.基于協(xié)同過濾技術(shù)的電子商務(wù)推薦系統(tǒng)初探[J].科技廣場,2006(8):7-9.

      [5]趙靜.基于ebXML規(guī)范的企業(yè)間電子商務(wù)模式及關(guān)鍵技術(shù)研究[D].河北:石家莊鐵道學(xué)院,2008.

      [收稿日期]2014-08-11 [責(zé)任編輯]徐娜

      [作者簡介]孫彥超(1978-),男,河南南陽人,研究方向:數(shù)據(jù)庫與信息系統(tǒng)、數(shù)據(jù)挖掘等;韓鳳霞(1980-),女,河北滄州人,研究方向:教育技術(shù)。

      [文章編號]1005-8214(2015)04-0099-04

      [文獻(xiàn)標(biāo)志碼]A

      [中圖分類號]G250.73;G252.8

      猜你喜歡
      協(xié)同過濾推薦系統(tǒng)
      數(shù)據(jù)挖掘在選課推薦中的研究
      軟件(2016年4期)2017-01-20 10:09:33
      圖書推薦算法綜述
      基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型
      改進(jìn)的協(xié)同過濾推薦算法
      基于鏈?zhǔn)酱鎯Y(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計與實現(xiàn)
      基于相似傳播和情景聚類的網(wǎng)絡(luò)協(xié)同過濾推薦算法研究
      基于個性化的協(xié)同過濾圖書推薦算法研究
      個性化推薦系統(tǒng)關(guān)鍵算法探討
      基于協(xié)同過濾算法的個性化圖書推薦系統(tǒng)研究
      混合推薦算法在電影推薦中的研究與評述
      福海县| 永仁县| 大丰市| 康保县| 游戏| 天峨县| 赤水市| 紫阳县| 资溪县| 佛坪县| 花莲县| 岑溪市| 四平市| 武功县| 保亭| 和静县| 宁化县| 望都县| 北川| 临夏市| 罗城| 武定县| 昭通市| 贵定县| 商洛市| 潢川县| 孟州市| 重庆市| 龙泉市| 苏尼特右旗| 桂阳县| 安岳县| 上杭县| 高阳县| 岳普湖县| 江陵县| 义乌市| 阳高县| 都匀市| 塘沽区| 灵山县|