• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于雙因子混合加權(quán)相似度的協(xié)同過(guò)濾推薦算法

      2020-12-01 03:19:14王留芳劉鎮(zhèn)鎮(zhèn)魏藍(lán)吳正江
      關(guān)鍵詞:余弦相似性閾值

      王留芳,劉鎮(zhèn)鎮(zhèn),魏藍(lán),吳正江

      (1.河南理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南 焦作 454000;2.鶴壁汽車工程職業(yè)學(xué)院 電子工程系,河南 鶴壁 458030;3.廈門大學(xué) 信息學(xué)院,福建 廈門 361005)

      0 引 言

      近年來(lái),關(guān)于高校圖書館圖書個(gè)性化推薦[1]算法很多,主要有基于用戶的協(xié)同過(guò)濾推薦算法[2]、基于知識(shí)的推薦算法[3],基于內(nèi)容的推薦算法[4]、混合推薦算法[5]等。其中,基于用戶的協(xié)同過(guò)濾推薦算法是應(yīng)用比較成功的一種算法,它的基本思想是尋找與目標(biāo)用戶興趣相似的鄰居用戶[6],然后把鄰居用戶感興趣的項(xiàng)目推薦給目標(biāo)用戶。它的優(yōu)勢(shì)是把用戶分成近鄰和非近鄰,推薦準(zhǔn)確度高,能夠發(fā)現(xiàn)用戶潛在興趣,個(gè)性化程度高。但是存在以下問(wèn)題:一、數(shù)據(jù)稀疏問(wèn)題。當(dāng)圖書資料較多、借閱讀者較少時(shí),出現(xiàn)用戶之間興趣的相似度不準(zhǔn)確問(wèn)題,或者不同讀者之間借閱的圖書資料重復(fù)率較低時(shí),無(wú)法找到相似近鄰用戶;二、冷啟動(dòng)[7問(wèn)題。它是基于用戶對(duì)項(xiàng)目的歷史評(píng)分來(lái)預(yù)測(cè)推薦,當(dāng)新書剛錄入推薦系統(tǒng),沒(méi)有讀者對(duì)該圖書評(píng)分,或者當(dāng)新生讀者剛加入系統(tǒng)時(shí),沒(méi)有對(duì)圖書評(píng)分,所以無(wú)法預(yù)測(cè)評(píng)分,導(dǎo)致推薦結(jié)果不準(zhǔn)確。

      針對(duì)以上問(wèn)題,本文在修正余弦相似度算法的基礎(chǔ)上引入基于用戶屬性的相似度算法,并將兩者加權(quán)混合,該算法充分利用用戶屬性不受數(shù)據(jù)稀疏和冷啟動(dòng)影響的優(yōu)勢(shì),避免了傳統(tǒng)計(jì)算方法的缺點(diǎn),并通過(guò)實(shí)驗(yàn)驗(yàn)證該算法的準(zhǔn)確性。

      1 傳統(tǒng)的相似度算法

      基于用戶的協(xié)同過(guò)濾推薦算法重要步驟就是計(jì)算用戶之間的相似度,相似度公式不同,相似度值也會(huì)不同。目前,用戶之間的相似度計(jì)算方法主要有余弦(cosine)相似性[8]、皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)相似性[[9]、修正余弦相似度等[10],如式(1)~(3)所示。

      (1)

      (2)

      simcc(u,v)=

      (3)

      下面用一個(gè)例子說(shuō)明幾種相似度計(jì)算方法的缺點(diǎn),表1是一個(gè)User-Book評(píng)分矩陣[11],有3個(gè)用戶,分別是user1,uer2,user3,4本書,分別是book1,book2,book3,book4,表2~4給出使用3種相似度計(jì)算方法得到的用戶間的相似度。

      表1 用戶評(píng)分矩陣

      表2 余弦相似度

      表3 皮爾遜相關(guān)系數(shù)相似度

      從表2~4可以看出,采用以上3種相似度計(jì)算公式存在以下問(wèn)題:

      (1)對(duì)相似度較低的用戶得出的相似度較高。例如表1中user1和user3對(duì)book1和book2的評(píng)分為(4,3)和(2,1),兩者對(duì)book1和book2的喜好可能相反,而表2中user1和user3的相似度為0.975,表3中user1和user3的相似度為0.892,說(shuō)明在數(shù)據(jù)稀疏的情況下,用余弦相似度算法和皮爾遜相關(guān)系數(shù)相似度算法,使原本較低相似度的兩個(gè)用戶呈現(xiàn)出較高的相似度。

      表4 修正余弦相似度

      (2)對(duì)相似度較高的用戶得出較低的相似度。例如表1中,user1和user2的評(píng)分向量分別為(4,3,5,4)和(4,3,3,4),兩者相似度極高,而表3用皮爾遜相關(guān)系數(shù)相似度算法得出的相似度為0,表4修正余弦相似度算法得出的相似度為-0.316,使原本較高相似的兩個(gè)用戶,計(jì)算結(jié)果較低。

      以上例子說(shuō)明,在數(shù)據(jù)稀疏的情況下,用傳統(tǒng)相似度算法得到的相似度不準(zhǔn)確,導(dǎo)致推薦結(jié)果精度不高。

      2 本文相似性算法

      為了提高推薦結(jié)果的精度,本文引入閾值、雙因子,基于用戶屬性的相似度算法,提高傳統(tǒng)相似度算法的準(zhǔn)確性。

      2.1 閾值定義

      閾值是判斷目標(biāo)用戶和其他用戶數(shù)據(jù)是否稀疏的一個(gè)臨界值,初始值為平均借閱量,閾值初始值會(huì)隨著平均借閱量的變化而變化,所以閾值要階段性(一周或一個(gè)月)尋優(yōu)。當(dāng)讀者的借閱量小于閾值時(shí),存在數(shù)據(jù)稀疏問(wèn)題,閾值的公式為

      TDn=TDn-1±[TDn-1/5]·J,

      (4)

      2.2 雙因子定義

      引入雙因子,是為了在數(shù)據(jù)稀疏的情況下,自動(dòng)調(diào)整傳統(tǒng)相似性算法與基于用戶屬性相似算法的權(quán)重,雙因子使用sigmoid函數(shù)定義,假設(shè)a,b為雙因子,其公式為

      (5)

      (6)

      式中:a為目標(biāo)讀者u的數(shù)據(jù)稀疏權(quán)重;lend(u)為目標(biāo)讀者u的借閱量;TD為閾值;b是近鄰讀者v的數(shù)據(jù)稀疏權(quán)重;lend(u)為讀者v的借閱量。

      2.3 基于讀者屬性的相似度算法

      基于讀者屬性[12]的相似度算法是以讀者的屬性為參數(shù),讀者屬性越相似讀者的偏好就越接近,不存在數(shù)據(jù)稀疏和冷啟動(dòng)問(wèn)題。

      讀者屬性主要包括讀者卡號(hào)、身份證、姓名、年齡、密碼、專業(yè)、學(xué)院、注冊(cè)日期、性別、年級(jí)等。讀者屬性相似度計(jì)算公式為

      simattr(u,v)=∑i∈attr(i)wi·attr(u,v,i),

      (7)

      式中:wi為讀者u和讀者v的第i個(gè)屬性權(quán)重;attr(u,v,i)為第i個(gè)屬性的相似度。

      2.4 雙因子混合相似性算法

      從文獻(xiàn)[5]實(shí)驗(yàn)可知:皮爾遜相關(guān)系數(shù)相似性算法simp(u,v)和修正余弦相似度算法simcc(u,v)誤差較低,但是,相比之下simcc(u,v)算法誤差曲線比較平滑,最大值與最小值之間的差值較小,所以,選擇simcc(u,v)與基于讀者屬性的相似度算法加權(quán)混合形成一種新的相似度算法simtfcc(u,v),公式為

      simtfcc(u,v)=(1-a)(1-b)simattr(u,v)+

      absimcc(u,v)。

      (8)

      從公式(5)、(6)可以看出,a,b的值隨著閾值與讀者借閱的差值變化而變化。當(dāng)讀者借閱量lend(u),lend(v)與閾值TD相等時(shí),a,b的值均為0.5,當(dāng)lend(u),lend(v)的值大于閾值時(shí),即讀者借閱量不稀疏時(shí),修正余弦相似度算法simcc(u,v)的權(quán)重增加,當(dāng)lend(u),lend(v)的值小于閾值時(shí),即讀者借閱量稀疏時(shí),基于讀者屬性相似性算法simattr(u,v)權(quán)重增加。

      2.5 最終預(yù)測(cè)推薦算法

      為目標(biāo)用戶預(yù)測(cè)推薦,使用文獻(xiàn)[4]中的協(xié)同推薦公式

      2.6 算法描述

      (1)輸入讀者姓名或讀者ID。

      (2)根據(jù)公式(4)計(jì)算閾值TD,閾值尋優(yōu)。

      (3)根據(jù)公式(5)~(6)計(jì)算雙因子a,b的值。

      (4)根據(jù)公式(8)計(jì)算輸入目標(biāo)讀者和其他讀者的相似性。

      (5)根據(jù)讀者之間的相似度大小,選取前top_k近鄰[13]。

      (6)根據(jù)近鄰讀者的偏好,預(yù)測(cè)目標(biāo)讀者的偏好圖書評(píng)分。

      (7)根據(jù)公式(9),選取推薦結(jié)果。

      3 結(jié)果與分析

      3.1 實(shí)驗(yàn)環(huán)境

      以高校圖書館讀者借閱數(shù)據(jù)為數(shù)據(jù)集,共包含11 870個(gè)讀者對(duì)352 597冊(cè)書的107 272借閱信息量。讀者屬性中對(duì)讀者相似性影響的信息包括專業(yè)、性別、年級(jí)、年齡等,根據(jù)參考文獻(xiàn)可知:讀者的屬性權(quán)重影響從大之小依次是專業(yè)(權(quán)重為μ1=0.4)、年級(jí)(權(quán)重為μ2=0.3)、性別(μ3=0.2)、年齡(μ4=0.1),且μ1+μ2+μ3+μ4=1。

      3.2 評(píng)價(jià)標(biāo)準(zhǔn)

      評(píng)分預(yù)測(cè)常用的評(píng)價(jià)指標(biāo)有均方根誤差[14](root mean square error,RMSE)和平均絕對(duì)誤差[15](mean absolute error,MAE),在協(xié)同過(guò)濾中RMSE用來(lái)檢測(cè)預(yù)測(cè)的評(píng)分與真實(shí)測(cè)試集中的評(píng)分偏離程度,相對(duì)于MAE而言,加大了誤差懲罰力度。RMSE的偏離程度越大,推薦的質(zhì)量越差,推薦準(zhǔn)確度越低。公式為

      (10)

      3.3 實(shí) 驗(yàn)

      3.3.1 閾值尋優(yōu)實(shí)驗(yàn)

      由公式(5)~(6)可知,雙因子的值是由閾值的大小和讀者借閱量決定的,由公式(4)可知,閾值的初始值是讀者的平均借閱量。隨著借閱量的變化,初始閾值也會(huì)發(fā)生變化,所以要對(duì)閾值進(jìn)行階段性尋優(yōu)。最優(yōu)閾值是保證推薦結(jié)果正確性的前提條件。

      圖1 雙因子混合相似度simtfcc(u,v)算法的推薦結(jié)果

      從圖1可以看到,使用雙因子混合相似度simtfcc(u,v)推薦算法,在近鄰數(shù)20~25間,閾值TD=8時(shí),RMSE最小,推薦效果最好,所以下面的實(shí)驗(yàn)中取閾值[17]為8。

      3.3.2 與傳統(tǒng)相似度比較

      在雙因子相似性[18]計(jì)算公式(8)中,根據(jù)以上實(shí)驗(yàn)取閾值TD=8,表1中,讀者的借閱量為4本書,當(dāng)讀者的借閱量小于閾值8時(shí),存在數(shù)據(jù)稀疏問(wèn)題,在此情況下,對(duì)表1進(jìn)行相似性計(jì)算,結(jié)果如表5所示。

      從表5可以看出,在數(shù)據(jù)稀疏的情況下,改進(jìn)后的相似性算法已經(jīng)克服了傳統(tǒng)相似性算法的弊端,提高了相似度計(jì)算的準(zhǔn)確性。

      表5 雙因子混合相似度算法(1)

      在冷啟動(dòng)的情況下,TD=8,目標(biāo)讀者的借閱量lend(u)為0,代入公式(5)中,得到a的值大約等于0,這時(shí)修正余弦相似性算法的權(quán)重ab大約為0。

      雙因子混合加權(quán)相似度算法變?yōu)閟imtfcc(u,v)=simattr(u,v),此時(shí)對(duì)表1進(jìn)行相似度計(jì)算,結(jié)果如表6所示。

      表6 雙因子混合相似度算法(2)

      從表6可以看出,在冷啟動(dòng)的情況下,利用改進(jìn)后的相似度算法得到的相似度與實(shí)際的相似度是一致的,克服了傳統(tǒng)相似度不準(zhǔn)確的問(wèn)題。

      3.3.3 與傳統(tǒng)的推薦算法比較

      本實(shí)驗(yàn)選取閾值為8時(shí)雙因子混合相似度推薦算法與3種傳統(tǒng)相似度推薦算法在不同近鄰下的對(duì)比,如圖2所示。根據(jù)圖2,得到各種相似算法的RMSE數(shù)據(jù),如表7所示。

      圖2 協(xié)同過(guò)濾算法和改進(jìn)后的混合推薦算法對(duì)比

      從圖2和表7可以看出,使用雙因子混合相似度simtfcc(u,v)推薦算法,在閾值TD=8時(shí),近鄰在20~25之間,預(yù)測(cè)評(píng)分與真實(shí)評(píng)分的偏離度RMSE的值在0.183 738 389~0.183 561 899間,此值比使用傳統(tǒng)相似度simc(u,v),simp(u,v),simcc(u,v)相似度算法得到的值要小,說(shuō)明使用雙因子混合相似度算法推薦效果較好。

      表7 協(xié)同過(guò)濾算法和改進(jìn)后的混合推薦算法結(jié)果對(duì)比

      4 結(jié) 語(yǔ)

      本文提出一種基于雙因子混合相似度算法,該算法需要引入閾值判斷數(shù)據(jù)是否稀疏,用雙因子來(lái)平衡協(xié)同過(guò)濾相似度算法和基于讀者屬性相似度算法的權(quán)重,該算法一方面在一定程度上解決了數(shù)據(jù)稀疏和冷啟動(dòng)問(wèn)題,提高了推薦精度,但是該算法中的閾值需要階段性尋優(yōu),閾值是否為最優(yōu),對(duì)計(jì)算相似度的結(jié)果影響很大;另一方面,在冷啟動(dòng)時(shí),還需要深入挖掘讀者屬性隱含的信息來(lái)判斷讀者之間的相似度,這需要進(jìn)一步深入研究。

      猜你喜歡
      余弦相似性閾值
      一類上三角算子矩陣的相似性與酉相似性
      淺析當(dāng)代中西方繪畫的相似性
      小波閾值去噪在深小孔鉆削聲發(fā)射信號(hào)處理中的應(yīng)用
      基于自適應(yīng)閾值和連通域的隧道裂縫提取
      比值遙感蝕變信息提取及閾值確定(插圖)
      河北遙感(2017年2期)2017-08-07 14:49:00
      兩個(gè)含余弦函數(shù)的三角母不等式及其推論
      室內(nèi)表面平均氡析出率閾值探討
      低滲透黏土中氯離子彌散作用離心模擬相似性
      分?jǐn)?shù)階余弦變換的卷積定理
      圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
      芜湖市| 阳新县| 磐安县| 南平市| 桐柏县| 长治市| 盘锦市| 东港市| 阿图什市| 新龙县| 石狮市| 南陵县| 石棉县| 新建县| 万载县| 玉田县| 吴川市| 井陉县| 滕州市| 千阳县| 方山县| 南乐县| 沾益县| 侯马市| 崇仁县| 卓尼县| 兴业县| 繁峙县| 皮山县| 临漳县| 抚顺市| 洮南市| 奉新县| 长寿区| 泸西县| 酒泉市| 嘉义县| 个旧市| 巴塘县| 建阳市| 雷波县|