• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      使用正態(tài)分布函數(shù)修正推薦系統(tǒng)相關相似性

      2016-11-14 07:29:03平,邵
      電子科技 2016年10期
      關鍵詞:余弦正態(tài)分布計算方法

      宋 平,邵 清

      (上海理工大學 光電信息與計算機工程學院,上海 200093)

      ?

      使用正態(tài)分布函數(shù)修正推薦系統(tǒng)相關相似性

      宋 平,邵 清

      (上海理工大學 光電信息與計算機工程學院,上海 200093)

      為提高協(xié)同過濾推薦系統(tǒng)尋找最近鄰居集合的準確程度,在傳統(tǒng)的相關相似性基礎上,提出了一種利用正態(tài)分布函數(shù)作為修正函數(shù)的相關相似性計算方法,該方法依據(jù)雙方共同評分的項目進行用戶相似性評價,利用正態(tài)分布函數(shù)來修正用戶之間評分項目數(shù)差距對相關相似性計算產(chǎn)生的負面影響,能夠較好地體現(xiàn)用戶的相似程度。實驗結果表明,在相同條件下,該方法與傳統(tǒng)的相關相似性計算方法,在一定程度上提高了尋找最近鄰居用戶集合的準確度。

      推薦系統(tǒng);相似性;正態(tài)分布;修正函數(shù);鄰居用戶集合

      SONG Ping, SHAO Qing

      (School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology,Shanghai 200093, China)

      為了讓用戶從大量信息中找到自己感興趣的信息,推薦系統(tǒng)[1]已逐漸成為電子商務中一個必不可少的工具,并且得到研究者的關注。協(xié)同過濾推薦系統(tǒng)[2]是目前為止成功、且運用最多的推薦技術,與傳統(tǒng)的直接分析內(nèi)容進行推薦不同,基于用戶的協(xié)同過濾推薦系統(tǒng)通過分析用戶興趣,在用戶群中找到與指定用戶的相似用戶,綜合戶對該項目的喜好程度[3]。為找這些相似用戶對同一項目的評價,預測出該用到目標用戶的最近鄰居進行推薦, 必須度量用戶之間的相似性,然后選擇相似性最高的若干用戶,作為目標用戶的最近鄰居[4]。目標用戶的最近鄰居查詢是否準確, 直接關系到整個推薦系統(tǒng)的推薦質(zhì)量, 而要想準確查詢目標用戶, 需要準確計算不同用戶之間的相似性, 所以如何準確計算用戶之間相似性就成為提高推薦準確率的關鍵。計算用戶之間相似性的方法主要包括余弦相似性,修正的余弦相似性以及相關相似性等[5],本文主要在相關相似性的基礎上,對基于用戶的協(xié)同過濾推薦系統(tǒng)中的相關相似性進行改善,設計了一種基于正態(tài)分布函數(shù)作為修正函數(shù)計算用戶之間相似性的方法,使得生成相似鄰居用戶集合更加準確,從而可以提高評分預測的準確程度。

      1 相關工作

      1.1 推薦算法的基本流程

      圖1 推薦算法基本流程圖

      (1)根據(jù)系統(tǒng)中用戶項的評分建立用戶項目評分矩陣;(2)進行用戶間相似度的計算,常用的相似性計算有3種;(3)根據(jù)計算得到的相似度大小為目標用戶選擇鄰居;(4)預測目標用戶對未知項目評分,為其提供推薦列表。

      1.2 相似性計算方法

      1.2.1 相關參數(shù)

      為方便閱讀和理解,本文中出現(xiàn)的符號和其意義都在表1中呈現(xiàn),具體如下。

      表1 參數(shù)列表

      1.2.2 相似性度量方法

      協(xié)同過濾推薦技術中一個必不可少的步驟是計算目標用戶與其他用戶之間的相似性,從而生成最近鄰居集合,進而產(chǎn)生推薦,傳統(tǒng)的相似性計算方法有以下3種[6-7]:

      (1)余弦相似性。用向量和分別表示用戶i和用戶j的評分向量,而它們的相似性就是通過計算向量之間夾角的余弦來進行度量,則用戶x和用戶y之間的相似性為

      (1)

      (2)修正余弦相似性。 考慮到用戶之間評分尺度的不同,公式中利用用戶的平均評分作出了一定的修正,即用戶i和用戶j之間的相似性

      (2)

      (3)相關相似性。用戶之間的相似性通過計算兩個用戶評分向量之間的線性關系來進行衡量,則用戶x和用戶y之間的相似性

      (3)

      余弦相似性度量方法把用戶評分看作一個向量,用向量的余弦夾角來度量用戶間的相似性,然而沒有包含用戶評分的統(tǒng)計特征;修正的余弦相似性方法在余弦相似性的基礎上,減去了用戶對項目的平均評分,該方法更多地體現(xiàn)了用戶間的相關性而非相似性;相關相似性方法依據(jù)雙方共同評分的項目進行用戶相似性評價,能夠更好地體現(xiàn)用戶的相似程度,但相關相似性在計算用戶之間相似性上還存在著一些問題。

      1.3 相關相似性缺點

      下面通過具體事例說明相關相似性存在的問題[8]。

      表2 測試數(shù)據(jù)

      (1) 未考慮用戶評分項的數(shù)量對相似度的影響。

      表2中,行與列的交叉點表示用戶(1~5)對項目(1~3)的一些評分值。直觀來看,User1和User5用3個共同的評分項,并且給出的評分趨勢相同,User1與User4只有2個相同評分項,雖然他們的趨勢也相似,但由于User4對Item2的評分未知,可能是User4對Item2未發(fā)生行為,或者對Item2很討厭,所以更希望User1和User5更相似,但結果是User1與User4有著更高的結果。 可以看出相關相似性只會對共同評價過的記錄進行計算[9]。

      同樣的場景在現(xiàn)實生活中也經(jīng)常發(fā)生,例如用戶A和用戶B各觀看了200部電影,用戶C只看了2部電影,而用戶A和B共同觀看的200部電影完全相同,雖然不一定給出相同或完全相近的評分,但只要他們之間的趨勢相似也應該比另一位用戶C只觀看了2部相同電影的相似度高。但事實并非如此,如果對這兩部電影,兩個用戶給出的相似度相同或很相近,通過相關相關性計算出的相似度會明顯大于觀看了相同的200部電影的用戶之間的相似度;

      (2)只有一個共同評分項則無法計算相關性。由公式可以看出,若兩用戶之間只有一個共同的評分記錄或無共同評分記錄,那么將導致分母為0,從這一點也可以看出,相關相似性不適用于冷啟動問題。但是,這一特性也有它的好處,當無法計算相關相似性可以認為這兩個用戶之間沒有任何相關性,即他們之間的相似性為零[10]。

      2 相似性計算方法

      2.1 正態(tài)分布函數(shù)

      正態(tài)分布是一個在數(shù)學、物理及工程等領域都非常重要的概率分布函數(shù)

      (4)

      通過式(4)可以看出,當x=μ時f(x)達到最大值,而當|x-μ|的值越大,f(x)的值越小。

      2.2 修正函數(shù)

      本文將在正態(tài)分布函數(shù)的基礎上,設用戶x的評分項目個數(shù)為m,用戶y的評分項目個數(shù)為n,max(m,n)表示用戶x和用戶y評分項目集合中評分項目個數(shù)較大的項目數(shù),令正態(tài)分布函數(shù)中μ=0,x=m-n,σ=max(m,n),經(jīng)過變換得到函數(shù)

      (5)

      易知,當m=n時,f(m-n)取得最大值為1,當|m-n|越大,f(m-n)的值越小,隨著|m-n|不斷增加,f(m-n)逐漸從1趨近于0,且0

      2.3 改進后的相似性計算方法

      正是由于相關相似性沒有考慮用戶評分記錄項的數(shù)量對相似度的影響,而導致了兩用戶A和C觀看了相同2部電影的相似度會明顯大于觀看了相同200部電影的用戶A和B之間的相似度。 故可以在相關相似性的基礎上添加一個修正函數(shù)來修正兩用戶之間由評分項目數(shù)量差距帶來的負面影響[11],即

      sim′(x,y)=sim(x,y)f(m-n)

      (6)

      在前面例子的基礎上,由于用戶A和用戶B有過的評分電影完全相同,則用戶A和用戶B之間的修正函數(shù)為:f(0)=1;而用戶A和用戶C有過的評分電影只有兩部,且二者觀看電影數(shù)量差距較大,則用戶A和用戶C之間的修正函數(shù)為f(198)=0.376。

      假設有5個用戶User1~User5,且他們的評分項目數(shù)為200,100,70,30和10,則他們之間的懲罰函數(shù)值如表3所示。

      表3 用戶之間的懲罰函數(shù)值

      表3中行與列的交叉點為兩用戶的修正函數(shù)數(shù)值,易知:當兩用戶的評分項目數(shù)差距越大時,修正函數(shù)對其相關相似性的修正力度也就越大,這正好符合文中的預期。

      3 仿真實驗分析

      實驗將通過在數(shù)據(jù)集中利用相關相似性和修正的相關相似性分別求出目標用戶與其他用戶之間的相似度,并按相似度大小生成一個最近鄰居用戶集合,然后根據(jù)鄰居集合預測目標用戶對該項目的評分。

      3.1 實驗條件

      為了驗證提出修正的相關相似性計算方法的一般性和有效性,將分別在MovieLens、Flixster和Epinions這3個數(shù)據(jù)集上進行實驗,他們的評分為1~5,具體用戶數(shù)、項目數(shù)、評分記錄如表4所示。

      表4 評分數(shù)據(jù)集

      3.2 推薦集的生成

      選取與目標用戶相似性大小在前N個用戶作為用戶u的最近鄰居集合U按照相似性由大到小排列,根據(jù)目標用戶u的最近鄰居集合U中用戶對u的未評分項i的評分,預測u對i的可能的評分值Pu,i,可通過式(6)計算[12]

      然后按照Pu,i的大小取前N個項目作為推薦項目推薦給目標用戶完成推薦。

      3.3 度量標準

      實驗采用平均絕對誤差(MAE)作為實驗的評價指標進行實驗 ,其公式為

      式中,ri是用戶u對物品i的實際評分,而Pri是推薦算法給出的預測評分;N為測試集合中的所有記錄數(shù)目。

      3.4 實驗結果及分析

      為檢驗本文所提方法的有效性和普遍性,文中基于傳統(tǒng)相關相似性(Correlation)和修正后的相關相似性(Adjust Correlation),在上述3個數(shù)據(jù)集的基礎上,通過實驗生成一個相似度由大到小的最近鄰居用戶集合,并根據(jù)鄰居集合預測目標用戶對該項目的評分,求出評分預測的MAE[13],實驗結果如圖2~圖4所示。

      通過對比可以看出,修正后的相關相似預測評分的MAE比傳統(tǒng)相關相似性求出的略低,在最近鄰居數(shù)逐漸增加到20的過程中,MAE逐漸減小,而最近鄰居數(shù)>20時,MAE又開始逐漸增加,說明此時會有一些相似度較低的用戶“被迫”選入鄰居集合,使得算法的精度有所下降,但總體上修正后的相關相似性的評分預測MAE要優(yōu)于傳統(tǒng)的相關相似性。

      圖2 基于Movielens數(shù)據(jù)集的MAE

      圖3 基于Flixster數(shù)據(jù)集的MAE

      圖4 基于Epinions數(shù)據(jù)集的MAE

      以上實驗結果表明:在數(shù)據(jù)集MovieLens、Flixster、Epinions上,利用改進后的相關相似性計算方法形成的鄰居用戶集合。求出的目標用戶對項目的預測評分的MAE總體上優(yōu)于傳統(tǒng)的相關相似性計算方法。

      4 結束語

      針對協(xié)同過濾推薦系統(tǒng)中相關相似性的計算方法進行改善,在傳統(tǒng)相似性計算方法的基礎上提出了一種使用正態(tài)分布函數(shù)作為懲罰函數(shù)來改進相關相似性的計算方法[14],實驗表明,該方法能夠有效提高了尋找最近鄰居的準確度,從而提高評分預測的準確度。但是當目標用戶評分極度稀疏時[15],該方法的準確度會有所下降,下一階段將在確保最近鄰居集合準確度的基礎上,考慮與其他相似性計算方法相結合,盡可能地提高在用戶評分極度稀疏的情況下,尋找最近鄰居集合的準確程度。

      [1] 王國霞,劉賀平.個性化推薦系統(tǒng)綜述[J]. 計算機工程與應用,2012,48(7):66-74.

      [2] 夏培勇.個性化推薦技術中的協(xié)同過濾算法研究[D].青島:中國海洋大學,2011.

      [3] 李聰,梁昌勇,馬麗.基于領域最近鄰的協(xié)同過濾推薦算法[J].計算機研究與發(fā)展,2008,45(9):1532-1538.

      [4] 冷亞軍,梁昌勇,陸青.基于近鄰評分填補的協(xié)同過濾推薦算法[J].計算機工程,2012,38(21):56-59

      [5] Chedrawy Z,Abidi S S R.An adaptive personalized recommendation strategy featuring context sensitive content adaptation[C]. Sydney:Proceedings of Adaptive Hypermedia and Adaptive Web-based Systems,2006.

      [6] 馬宏偉,張光衛(wèi),李鵬. 協(xié)同過濾推薦算法綜述[J].小型微型計算機,2009(7):1283-1286.

      [7] Sarwar B,Konstan J,Borchers A.Using filtering agents to improve prediction quality in the groupLens research collaborative filtering system[M].New York: ACM Press,1998.

      [8] Xie F,Xu M,Chen Z. RBRA: A simple and efficient rating-based recommender algorithm to cope with sparsity in recommender systems[J]. IEEE Computer Society,2012,10(1109): 306-311.

      [9] Feng Xie, Zhen Chen, Shang Jiaxing. Grey forecast model for accurate recommendation in presence of data sparsity and correlation[J].Knowledge-Based Systems,2014,69(2):179-190.

      [10] Jesus Bobadilla, Fernando Ortega, Antonio Hernando,et al. A collaborative filtering approach to mitigate the new user cold start problem[J].Knowledge-Based Systems,2012(26):225-238.

      [11] Sang Min Choi, Sang Ki Ko, Yo Sub Han. A movie recommendation algorithm based on genre correlations[J]. Expert Systems with Applications,2012(7): 8079-8085.

      [12] 張鋒,常會友.使用BP 神經(jīng)網(wǎng)絡緩解協(xié)同過濾推薦算法的稀疏性問題[J].計算機研究與發(fā)展,2006,43(4): 667-672.

      [13] Bobadilla J, Ortega F,Hernando A, et al. A collaborative filtering approach to mitigate the new user cold-start problem[J]. Knowledge-Based Systems, 2012(3): 225-238.

      [14] 李聰.電子商務推薦系統(tǒng)中協(xié)同過濾瓶頸問題研究[D]. 合肥:合肥工業(yè)大學,2009.

      [15] Guo Guibing,Zhang Jie, Daniel Thalmann. Merging trust in collaborative filtering to alleviate data sparsity and cold start[J]. Knowledge-Based Systems,2014,57(2):57-68.

      Correction of the Correlation Similarity in Recommendation Systems Using the Normal Distribution Function

      A calculation method of correlation similarity with normal distribution function as a correction function is proposed based on the traditional correlation for better accuracy of seeking the nearest neighbor set in the collaborative filtering recommendation system. The normal distribution function is employed to correct the negative effect because of the number of items between users on similarity calculation, which well reflects the degree of similarity of users. The experimental results show that the proposed method offer better accuracy of searching for the nearest neighbor set than the traditional method of correlation similarity under the same conditions.

      recommender system; similarity; normal distribution; correction function; neighbor user set

      2016- 01- 03

      國家自然科學基金資助項目(61170277);上海市教委科研創(chuàng)新基金資助項目(02120557)

      宋平 (1990-),男,碩士研究生。研究方向:網(wǎng)絡智能。邵清 (1970-),女,博士,副教授。研究方向:網(wǎng)絡智能。

      10.16180/j.cnki.issn1007-7820.2016.10.017

      TP301.6

      A

      1007-7820(2016)10-058-04

      猜你喜歡
      余弦正態(tài)分布計算方法
      浮力計算方法匯集
      基于對數(shù)正態(tài)分布的出行時長可靠性計算
      兩個含余弦函數(shù)的三角母不等式及其推論
      正態(tài)分布及其應用
      隨機振動試驗包絡計算方法
      正態(tài)分布題型剖析
      分數(shù)階余弦變換的卷積定理
      圖像壓縮感知在分數(shù)階Fourier域、分數(shù)階余弦域的性能比較
      不同應變率比值計算方法在甲狀腺惡性腫瘤診斷中的應用
      χ2分布、t 分布、F 分布與正態(tài)分布間的關系
      404 Not Found

      404 Not Found


      nginx
      磐石市| 安平县| 阳山县| 高淳县| 濉溪县| 诸城市| 海原县| 沂南县| 衡东县| 吴川市| 永州市| 炎陵县| 漳州市| 扎鲁特旗| 香港| 闵行区| 桦甸市| 石台县| 阳西县| 乐昌市| 固始县| 哈尔滨市| 景泰县| 怀宁县| 台东市| 天峨县| 闸北区| 吉安县| 洛浦县| 南京市| 固安县| 洪湖市| 株洲县| 夏邑县| 卢湾区| 青河县| 黑山县| 宁都县| 越西县| 雅安市| 灵川县|