• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      鄰域線性最小二乘擬合的推薦支持度模型

      2015-12-27 02:15:09孫忱奚宏生高榮
      關(guān)鍵詞:覆蓋率鄰域線性

      孫忱,奚宏生,高榮,2

      (1.中國科學(xué)技術(shù)大學(xué)自動化系,230027,合肥;2.廣西財(cái)經(jīng)學(xué)院信息與統(tǒng)計(jì)學(xué)院,530003,南寧)

      ?

      鄰域線性最小二乘擬合的推薦支持度模型

      孫忱1,奚宏生1,高榮1,2

      (1.中國科學(xué)技術(shù)大學(xué)自動化系,230027,合肥;2.廣西財(cái)經(jīng)學(xué)院信息與統(tǒng)計(jì)學(xué)院,530003,南寧)

      針對協(xié)同過濾推薦系統(tǒng)在稀疏數(shù)據(jù)集條件下推薦準(zhǔn)確度低的問題,提出了推薦支持度模型以及用于該模型計(jì)算的鄰域線性最小二乘擬合的推薦支持度評分算法(linear least squares fitting, LLSF)。該模型描述用戶對被推薦項(xiàng)目更感興趣的可能性,通過用高支持度的評分估計(jì)取代傳統(tǒng)的期望估計(jì)法來找出用戶更喜歡的項(xiàng)目,從而提高推薦的準(zhǔn)確度,并從理論上論述了該算法在稀疏數(shù)據(jù)集條件下相對其他算法具有更強(qiáng)的抗干擾能力。該模型還易于與其他推薦模型融合,具有很好的可拓展性。實(shí)驗(yàn)結(jié)果表明:LLSF算法顯著提升了推薦的準(zhǔn)確性,在MovieLens數(shù)據(jù)集上,F1分?jǐn)?shù)可達(dá)到傳統(tǒng)的kNN算法的3倍多,對于越是稀疏的數(shù)據(jù)集,準(zhǔn)確率提升幅度越大,在Book-Crossing數(shù)據(jù)集上,當(dāng)稀疏度由91%增加到99%時(shí),F1分?jǐn)?shù)的改進(jìn)由22%提高到125%。同時(shí)該方法不會犧牲推薦覆蓋率,可以保證長尾項(xiàng)目的挖掘效果。

      協(xié)同過濾;推薦系統(tǒng);鄰域線性最小二乘擬合;推薦支持度

      隨著互聯(lián)網(wǎng)的迅速發(fā)展,推薦系統(tǒng)已被越來越多地運(yùn)用到各種網(wǎng)站和電子商務(wù)系統(tǒng)中,它不需要用戶提供明確的需求,而是通過分析用戶的歷史行為給用戶的興趣建模,從而主動給用戶推薦能夠滿足他們興趣和需求的個(gè)性化信息[1]。協(xié)同過濾算法是最重要的推薦系統(tǒng)技術(shù)之一,其原理是根據(jù)用戶或項(xiàng)目的相似性來預(yù)測并推薦當(dāng)前用戶沒有進(jìn)行過評分、購買或?yàn)g覽等行為,但是很可能會感興趣的信息[2]。基于鄰域的協(xié)同過濾推薦由于計(jì)算實(shí)時(shí)性好、可擴(kuò)展性高、意義清晰易于解釋等特點(diǎn),應(yīng)用最為廣泛[3]。數(shù)據(jù)稀疏性問題是絕大部分電子商務(wù)推薦系統(tǒng)面臨的最大挑戰(zhàn),這是因?yàn)橄嗨贫鹊挠?jì)算是基于用戶或項(xiàng)目的共同歷史行為的,當(dāng)數(shù)據(jù)非常稀疏時(shí),就會使得相似度計(jì)算不可靠,從而影響基于鄰域的協(xié)同過濾推薦的準(zhǔn)確性[4]。

      研究人員提出了各種方法來提高數(shù)據(jù)稀疏條件下協(xié)同過濾推薦的準(zhǔn)確性。Sarwar等研究了不同相似度計(jì)算方法及不同數(shù)據(jù)稀疏度對準(zhǔn)確性的影響[5]。黃創(chuàng)光等通過自適應(yīng)選擇近鄰數(shù)目的方法來緩解數(shù)據(jù)稀疏帶來的問題[6]。羅辛等把共同評分的數(shù)目轉(zhuǎn)化為相似度支持度的概念來引入計(jì)算[7]。這些方法通過提升預(yù)測的準(zhǔn)確性來提高推薦的準(zhǔn)確性,但是提升效果有限。Adamopoulos另辟蹊徑,通過高百分比的加權(quán)計(jì)算法,改變了通常的平均加權(quán)評分預(yù)測方式,大大提高了推薦準(zhǔn)確性[8]。然而,Adamopoulos所使用的線性插值方法容易受到數(shù)據(jù)擾動的影響,當(dāng)數(shù)據(jù)稀疏時(shí)推薦效果急劇降低。

      注意到雖然推薦以預(yù)測為基礎(chǔ),但側(cè)重點(diǎn)并不相同。本文專注于解決稀疏數(shù)據(jù)條件下提高推薦效果的問題,在現(xiàn)有研究的基礎(chǔ)上,提出推薦支持度的概念,選擇合適的推薦支持度實(shí)現(xiàn)更有效的推薦,同時(shí)設(shè)計(jì)一種新的鄰域線性最小二乘擬合的方法來進(jìn)行計(jì)算。實(shí)驗(yàn)結(jié)果表明,本文提出的方法能大幅度提高推薦的準(zhǔn)確性,同時(shí)還可略微提升或至少不會犧牲推薦的覆蓋率。當(dāng)數(shù)據(jù)越是稀疏時(shí),本文方法所能提供的改進(jìn)就越明顯。

      1 相關(guān)工作

      目前廣泛研究和應(yīng)用的推薦系統(tǒng)技術(shù)絕大多數(shù)都是由基于鄰域的協(xié)同過濾方法拓展或融合而來,而Adamopoulos進(jìn)一步提出了加權(quán)百分比的方法來提高推薦準(zhǔn)確度。

      1.1 基于鄰域的協(xié)同過濾推薦

      基于鄰域的協(xié)同過濾算法[1-5,9-10]分為基于用戶的算法和基于項(xiàng)目的算法,兩者計(jì)算原理相同,只是考察維度相互對換,下面以基于用戶的算法為例進(jìn)行介紹。

      一般地,把用戶u對項(xiàng)目i的評分rui作為該用戶對該項(xiàng)目感興趣的程度,基于用戶的算法通過找出與某用戶u最相似的k個(gè)用戶(稱為用戶u的k-近鄰)來估計(jì)用戶u對其沒有做過評分項(xiàng)目的可能評分。

      不同用戶u與v之間的相似性是一個(gè)測度,一般可以選用皮爾遜相似度

      (1)

      (2)

      這就是通常所說的kNN估計(jì)。以用戶和項(xiàng)目為兩個(gè)維度的評分矩陣也稱為效用矩陣,評分預(yù)測問題可以看作是填充效用矩陣中的空白元素。取得評分預(yù)測后,便可將用戶最可能感興趣的項(xiàng)目推薦給用戶,一般采用Top-N推薦[11-12],即把用戶u評分估計(jì)最高的N個(gè)項(xiàng)目推薦給該用戶。

      上面式子中的累加運(yùn)算表示對用戶全集中的所有用戶u進(jìn)行計(jì)算,Ru表示推薦給用戶u的項(xiàng)目集合,Tu表示測試集中用戶u做出評分的項(xiàng)目集合,|A|表示集合A中元素的個(gè)數(shù)。

      此外,統(tǒng)計(jì)學(xué)中還使用F1分?jǐn)?shù)(記作F1)來兼顧準(zhǔn)確率和召回率,作為綜合準(zhǔn)確性指標(biāo),F1=2pPpR/(pP+pR)。

      覆蓋率指標(biāo)反映推薦系統(tǒng)對長尾項(xiàng)目的挖掘能力,也就是考察推薦物品的分布,這個(gè)分布越平均,則長尾挖掘能力越好,覆蓋率越高;反之,若分布越陡峭,則推薦集中于部分物品,長尾挖掘能力差,覆蓋率低。覆蓋率指標(biāo)可以用比較粗略的覆蓋率來描述,記作cC=|∪Ru|/|I|。

      1.2 基于線性插值法的加權(quán)百分比的推薦方法

      由式(2)可見,通常的基于鄰域的協(xié)同過濾方法在計(jì)算用戶u對項(xiàng)目i評分估計(jì)時(shí),實(shí)際上是把近鄰集合Nk,u中的每一個(gè)用戶v對i的評分,按照該用戶與u的相似度進(jìn)行加權(quán)平均。也就是說,若把每個(gè)近鄰v與u的相似度占所有近鄰相似度總和的比值當(dāng)成u對i的評分可能等于的概率,則u對i的評分估計(jì)取值為所有近鄰對i的評分期望。

      從另一方面看,推薦的基本原理是將用戶最可能感興趣的項(xiàng)目推薦給用戶,基于這種考慮,加權(quán)百分比的推薦方法[8]不采用上述的期望計(jì)算法來評估用戶對項(xiàng)目的興趣,而是提出了一種高概率百分比的推薦,通過評估用戶會以高概率(大于50%)對項(xiàng)目感興趣的程度來實(shí)現(xiàn)推薦。

      算法1 加權(quán)百分比估計(jì)。

      步驟1 將r1,r2,…,rk按從小到大排序,并對應(yīng)變化w1,w2,…,wk的順序,仍然記為w1,w2,…,wk;

      2 鄰域線性擬合的推薦置信度模型

      2.1 推薦支持度模型

      在加權(quán)百分比推薦方法的基礎(chǔ)上,本文完整地提出了推薦支持度模型來推薦更趨向于給出用戶最感興趣的項(xiàng)目。

      (3)

      推薦支持度模型中,一般選取p為大概率數(shù)值,從而描述了用戶可能更趨向于喜歡某項(xiàng)目的程度,大大提高了推薦的準(zhǔn)確性指標(biāo)。

      2.2 鄰域線性擬合算法

      本文提出采用鄰域線性最小二乘擬合的方法實(shí)現(xiàn)數(shù)據(jù)濾波,減小擾動影響。

      算法2 鄰域線性最小二乘擬合估計(jì)。

      輸入 (rvi,wuv),v∈Nk,u,推薦支持度p。

      步驟1 對輸入元組集合排序及歸一化處理后得到序列(r1,w1),(r2,w2)…,(rk,wk);

      下面,通過一個(gè)例子來解釋p-支持度評分估計(jì)的方法。設(shè)用戶u的鄰域大小為5,鄰居們與u的相似度分別為0.05,0.075,0.1,0.2,0.075,且已知他們對項(xiàng)目A的評分為4,4,5,6,10,按評分排序并對相似度歸一化處理后得到元組序列為{(4,0.1),(4,0.15),(5,0.2),(6,0.4),(10,0.15)},把這些元組標(biāo)識的點(diǎn)繪制在坐標(biāo)軸上,如圖1所示,可以得到線性插值法(Interpolation,IP)的折線和鄰域最小二乘線性擬合法(linear least squares fitting,LLSF)的擬合直線。由圖可見,p=0.8時(shí)的p-支持度評分估計(jì)是:線性插值法為5.875,而鄰域最小二乘線性擬合法計(jì)算得到7.339。

      圖1 p-支持度評分估計(jì)示例圖

      由圖2可見,A評分始終高于B評分。分段插值法下,p1和p3為A評分與B評分的交點(diǎn),推薦支持度選在區(qū)間(p1,p3)內(nèi)時(shí),B評分大于A評分,將會推薦B,其他推薦支持度時(shí)則推薦A。鄰域最小二乘法計(jì)算p2為A評分與B評分的交點(diǎn),當(dāng)推薦支持度選擇大于p2的值時(shí),B評分大于A評分,系統(tǒng)應(yīng)推薦B,否則推薦A。

      圖2 推薦支持度模型示例圖

      2.3 針對稀疏數(shù)據(jù)集的分析

      下面,分析鄰域線性擬合算法對于處理稀疏數(shù)據(jù)集的優(yōu)勢。數(shù)據(jù)的稀疏度對推薦準(zhǔn)確率有很大影響的主要原因在于,稀疏的數(shù)據(jù)集使得兩用戶之間的共同評分項(xiàng)目變得很少。由式(1)可知,兩用戶的相似度wuv是通過其共同評分的項(xiàng)目Iu∩Iv計(jì)算的,所以當(dāng)共同評分的項(xiàng)目越少時(shí),相似度計(jì)算受擾動的影響就越大。我們稱共同評分項(xiàng)目很少時(shí)計(jì)算出來的相似度為不可信相似度。例如,若兩個(gè)用戶只有一部共同評分的電影,而他們在這部電影上恰好評分相同(若使用皮爾遜相似度,確切地說,應(yīng)該是相對平均值的評分差相同),則兩個(gè)用戶具有很大的相似度。實(shí)際上,很可能這兩個(gè)用戶興趣根本不同(從他們很少評價(jià)同一部電影就可以看出)。不可信相似度用戶的評分可能會對推薦結(jié)果造成很大的誤導(dǎo),形成錯(cuò)誤的推薦。

      最后,分析鄰域線性擬合法的抗擾動能力。根據(jù)算法2步驟2,可以計(jì)算出

      a=(k∑xjrj-∑xj∑rj)/

      (4)

      (5)

      因此有

      (6)

      其中與rm有關(guān)的因式是

      (7)

      其系數(shù)受到更多因素的制約,故抗干擾能力更強(qiáng)。

      2.4 模型的融合與拓展

      當(dāng)前推薦系統(tǒng)已發(fā)展出大量的模型與算法,除了本文應(yīng)用到的協(xié)同過濾推薦,還有基于內(nèi)容的推薦、基于模型的推薦[2]等,每一大類又有很多的優(yōu)化方法。每種模型各有其優(yōu)缺點(diǎn),在實(shí)際應(yīng)用中,通常是融合多種模型來提高推薦的性能。

      3 實(shí)驗(yàn)評估

      3.1 實(shí)驗(yàn)方案

      分別使用MovieLens數(shù)據(jù)集和Book-Crossing數(shù)據(jù)集對本文提出的鄰域最小二乘線性擬合推薦支持度模型進(jìn)行Top-N推薦離線測試,評估其對推薦準(zhǔn)確度的提升效果,并同時(shí)考查推薦覆蓋率指標(biāo)的滿足情況。

      為防止過擬合,實(shí)驗(yàn)采用以下步驟來進(jìn)行。

      步驟1 將數(shù)據(jù)集隨機(jī)分成M份,第1份作為測試集,另外M-1份作為訓(xùn)練集;

      步驟2 使用訓(xùn)練集來訓(xùn)練模型,使用測試集來檢測得到待評估的指標(biāo);

      步驟3 更換隨機(jī)數(shù)種子,返回步驟1再次開始,共重復(fù)M次;

      步驟4 把M次實(shí)驗(yàn)計(jì)算的指標(biāo)值進(jìn)行平均,得到最后的指標(biāo)評估。

      本文中的實(shí)驗(yàn)選取M=5,并且使用傳統(tǒng)kNN算法及前面介紹的線性插值算法進(jìn)行數(shù)據(jù)對比研究。

      3.2 MovieLens數(shù)據(jù)集實(shí)驗(yàn)

      MovieLens數(shù)據(jù)集[13](簡寫為ML)是由明尼蘇達(dá)大學(xué)GroupLens研究小組提供的電影評分?jǐn)?shù)據(jù)集,本文使用其大小為10萬條記錄的數(shù)據(jù)集進(jìn)行離線測試,數(shù)據(jù)稀疏度為93.7%。

      首先測試了不同算法在不同鄰域大小時(shí)對推薦準(zhǔn)確率的影響,并使用F1分?jǐn)?shù)來評估準(zhǔn)確率。實(shí)驗(yàn)結(jié)果如圖3所示,圖3的4個(gè)子圖分別給出了鄰域k選取5、15、30、50時(shí)的推薦結(jié)果。推薦集大小N作為坐標(biāo)橫軸,實(shí)驗(yàn)計(jì)算了N取3、5、10、30、50、100時(shí)的推薦F1分?jǐn)?shù),F1分?jǐn)?shù)作為坐標(biāo)縱軸,實(shí)驗(yàn)對比了kNN算法、分段線性插值(IP)的加權(quán)百分比算法(選取p=0.8)、鄰域最小二乘線性擬合(LLSF)的推薦支持度算法(分別選取p=0.5,0.8,0.9)。

      由圖3可知,鄰域k為15、30、50時(shí),IP算法與LLSF算法的推薦準(zhǔn)確率都優(yōu)于kNN算法,LLSF算法又顯著優(yōu)于IP算法。對于LLSF算法來說,p=0.9時(shí)效果最佳,特別地,k=15且N=50時(shí),取得最高推薦準(zhǔn)確率。當(dāng)k=5時(shí),IP算法準(zhǔn)確率反而低于kNN算法,當(dāng)N較小時(shí)LLSF算法仍然優(yōu)于kNN算法,只有當(dāng)N較大時(shí)推薦效果才比kNN算法差。

      取k=30、N=50為考察維度,不同算法的準(zhǔn)確率指標(biāo)和覆蓋率指標(biāo)結(jié)果如表1所示。IP算法雖然準(zhǔn)確度(準(zhǔn)確率和召回率)高于kNN算法,但是覆蓋率指標(biāo)(覆蓋率和信息熵)偏低,而LLSF算法不但準(zhǔn)確率明顯優(yōu)于kNN和線性插值算法,覆蓋率也沒有很大損失,可以保證對長尾項(xiàng)目的挖掘能力。

      (a)鄰域大小為5 (b)鄰域大小為15

      (c)鄰域大小為30 (d)鄰域大小為50圖3 ML數(shù)據(jù)集不同鄰域大小時(shí)各算法的F1分?jǐn)?shù)

      算法準(zhǔn)確率召回率F1分?jǐn)?shù)覆蓋率信息熵kNN0.0270.0630.0380.7149.47IP(p=0.8)0.0440.1040.0620.3076.68LLSF(p=0.5)0.0570.1360.0810.6208.80LLSF(p=0.8)0.0800.1890.1130.5398.50LLSF(p=0.9)0.0830.1970.1170.5278.49

      3.3 Book-Crossing數(shù)據(jù)集實(shí)驗(yàn)

      Book-Crossing數(shù)據(jù)集[14](簡寫為BX)是由Ziegler等爬取www.bookcrossing.com社區(qū)獲得的書籍評分?jǐn)?shù)據(jù)集。本文對原始數(shù)據(jù)集進(jìn)行處理,剔除評分?jǐn)?shù)過少的用戶后,形成不同稀疏度的4個(gè)數(shù)據(jù)集,數(shù)據(jù)稀疏度分別是BX1為90.9%,BX2為95.2%,BX3為98.2%,BX4為99.3%。

      圖4給出了對不同稀疏度的BX數(shù)據(jù)集進(jìn)行離線實(shí)驗(yàn),幾種算法在選取鄰域k=30時(shí)所得到的推薦準(zhǔn)確度指標(biāo)F1分?jǐn)?shù)與推薦數(shù)量N的關(guān)系。由圖可見,在不同稀疏度條件下,大支持度(p=0.8,0.9)的LLSF算法推薦準(zhǔn)確度都優(yōu)于kNN和IP算法。IP算法雖然在稀疏度較低時(shí)推薦準(zhǔn)確度較好,但當(dāng)數(shù)據(jù)稀疏度上升時(shí),準(zhǔn)確度迅速下降,甚至低于基本的kNN算法。

      (a)BX1數(shù)據(jù)集 (b)BX2數(shù)據(jù)集

      (c)BX3數(shù)據(jù)集 (d)BX4數(shù)據(jù)集圖4 BX數(shù)據(jù)集不同稀疏度時(shí)各算法的F1分?jǐn)?shù)

      不同稀疏度BX數(shù)據(jù)集實(shí)驗(yàn)中各算法的推薦效果比較見表2。對于準(zhǔn)確率指標(biāo),N0為使得F1分?jǐn)?shù)達(dá)到最大值的推薦數(shù)量,F1(N0)為當(dāng)前算法的最大準(zhǔn)確率,即Top-N0推薦的F1分?jǐn)?shù),F1優(yōu)化率為當(dāng)前算法對比kNN算法的最大準(zhǔn)確率提升的百分比;對于覆蓋率指標(biāo),信息熵為當(dāng)前算法對于N取3、5、10、30、50、100時(shí)的信息熵均值。

      表2 不同稀疏度BX數(shù)據(jù)集各算法推薦指標(biāo)分析

      由表2可見,隨著數(shù)據(jù)集稀疏度的增大,LLSF算法所提供的準(zhǔn)確率改進(jìn)就越大。同時(shí),LLSF算法的覆蓋率指標(biāo)犧牲很小,大大優(yōu)于IP算法的覆蓋率,可以滿足長尾項(xiàng)目的挖掘要求。

      4 結(jié) 論

      盡管推薦系統(tǒng)主要有預(yù)測和推薦兩類應(yīng)用,但Top-N推薦是其實(shí)際中最廣泛的應(yīng)用方式[1]。然而,目前絕大部分的研究還是集中在預(yù)測領(lǐng)域,針對提升推薦準(zhǔn)確率的研究還較少。本文所描述的鄰域最小二乘線性擬合的推薦支持度模型可以大幅度提升推薦準(zhǔn)確率,特別是對于稀疏數(shù)據(jù)集效果更顯著,同時(shí)也沒有犧牲推薦的覆蓋率,保證了對長尾項(xiàng)目的挖掘能力。

      本文所描述的方法還可以與其他模型融合以進(jìn)一步提升推薦效果,具有良好的算法拓展能力。下一步,我們將具體研究本文方法與其他模型融合時(shí)涉及的模型選擇、參數(shù)選擇和實(shí)驗(yàn)效果等問題,特別是融合基于內(nèi)容的推薦,從而更好地處理冷啟動問題,提升算法的實(shí)際應(yīng)用性能。

      [1]項(xiàng)亮.推薦系統(tǒng)實(shí)踐 [M].北京: 人民郵電出版社, 2012: 1-34.

      [2]ADOMAVICIUS G, TUZHILIN A.Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions [J].IEEE Transactions on Knowledge and Data Engineering, 2005, 17(6): 734-749.

      [3]LINDEN G, SMITH B, YORK J.Amazon.com recommendations: item-to-item collaborative filtering [J].IEEE Internet Computing, 2003, 7(1): 76-80.

      [4]SU Xiaoyuan, KHOSHGOFTAAR T M.A survey of collaborative filtering techniques [J].Advances in Artificial Intelligence, 2009, 2009: 421425.

      [5]SARWAR B, KARYPIS G, KONSTAN J, et al.Item-based collaborative filtering recommendation algorithms [C]∥Proceedings of the 10th International Conference on World Wide Web.New York, USA: ACM, 2001: 285-295.

      [6]黃創(chuàng)光, 印鑒, 汪靜, 等.不確定近鄰的協(xié)同過濾推薦算法 [J].計(jì)算機(jī)學(xué)報(bào), 2010, 33(8): 1369-1377.

      HUANG Chuangguang, YIN Jian, WANG Jing, et al.Uncertain neighbors’ collaborative filtering recommendation algorithm [J].Chinese Journal of Computers, 2010, 33(8): 1369-1377.

      [7]羅辛, 歐陽元新, 熊璋, 等.通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法 [J].計(jì)算機(jī)學(xué)報(bào), 2010, 33(8): 1437-1445.

      LUO Xin, OUYANG Yuanxin, XIONG Zhang, et al.The effect of similarity support in K-nearest-neighborhood based collaborative filtering [J].Chinese Journal of Computers, 2010, 33(8): 1437-1445.

      [8]ADAMOPOULOS P, TUZHILIN A.Recommendation opportunities: improving item prediction using weighted percentile methods in collaborative filtering systems [C]∥Proceedings of the 7th ACM Conference on Recommender Systems.New York, USA: ACM, 2013: 351-354.

      [9]呂紅亮, 王勁林, 鄧峰, 等.多指標(biāo)推薦的全局鄰域模型 [J].西安交通大學(xué)學(xué)報(bào), 2012, 46(11): 98-105.

      Lü Hongliang, WANG Jinlin, DENG Feng, et al.A global neighborhood-based model with multi-criteria recommendation [J].Journal of Xi’an Jiaotong University, 2012, 46(11): 98-105.

      [10]KOREN Y.Factor in the neighbors: scalable and accurate collaborative filtering [J].ACM Transactions on Knowledge Discovery from Data, 2010, 4(1): 1-24.

      [11]DESHPANDE M, KARYPIS G.Item-based top-N recommendation algorithms [J].ACM Transactions on Information Systems, 2004, 22(1): 143-177.

      [12]ADAMOPOULOS P.On discovering non-obvious recommendations: using unexpectedness and neighborhood selection methods in collaborative filtering systems [C]∥Proceedings of the 7th ACM International Conference on Web Search and Data Mining.New York, USA: ACM, 2014: 655-660.

      [13]GROUPLENS.MovieLens datasets [DB/OL].(2011-03-01)[2014-06-20].http:∥www.grouplens.org/datasets/movielens/.

      [14]ZIEGLER C N, FREIBURG D.Book-crossing datasets [DB/OL].(2004-06-01)[2014-06-20].http:∥www2.informatik.uni-freiburg.de/~cziegler/BX/.

      (編輯 武紅江)

      A Recommendation-Support Model Using Neighborhood-Based Linear Least Squares Fitting

      SUN Chen1, XI Hongsheng1, GAO Rong1,2

      (1.Department of Automation, University of Science and Technology of China, Hefei 230027, China;2.School of Information and Statistics, Guangxi University of Finance and Economics, Nanning 530003, China)

      A recommendation-support model and a neighborhood-based linear least squares fitting (LLSF) algorithm for the calculation of recommendation-support rating are proposed to solve the low accuracy problem of collaborative filtering based recommender systems on sparse data sets.The model focuses on the probability of users’ more interests on the recommended items, and uses the estimation with high recommendation-support rating to replace the traditional expecta-tion estimation so that users’preferred items are found and the accuracy of recommendation is improved.A theoretical analysis shows that the anti-interference ability of the LLSF algorithm is better than those of other algorithms under the condition of sparse data sets.The model is also expansible by integrating other models.Experimental results show that the LLSF algorithm improves the recommendation accuracy remarkably.TheF1score is 3 times of that of the traditionalkNN algorithm on the MovieLens data set.The more sparse the data set is, the more the improvement on accuracy obtains.When the sparsity grows from 91% to 99% on the Book-crossing data set, the improvement onF1scores increases from 22% to 125%.Moreover, the algorithm can guarantee the ability of long tail mining without loss of recommendation coverage.

      collaborative filtering; recommender system; neighborhood-based linear least squares fitting; recommendation-support model

      2014-08-18。 作者簡介:孫忱(1981—),女,博士生;奚宏生(通信作者),男,教授,博士生導(dǎo)師。 基金項(xiàng)目:國家自然科學(xué)基金重點(diǎn)資助項(xiàng)目(61233003);國家自然科學(xué)基金資助項(xiàng)目(61262002);廣西省自然科學(xué)基金資助項(xiàng)目(2013GXNSFBA019274);廣西省社科規(guī)劃研究資助項(xiàng)目(13BXW007)。

      時(shí)間:2015-03-23

      http:∥www.cnki.net/kcms/detail/61.1069.T.20150323.1713.002.html

      10.7652/xjtuxb201506013

      TP391;TP274

      A

      0253-987X(2015)06-0077-07

      猜你喜歡
      覆蓋率鄰域線性
      民政部等16部門:到2025年村級綜合服務(wù)設(shè)施覆蓋率超80%
      漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
      我國全面實(shí)施種業(yè)振興行動 農(nóng)作物良種覆蓋率超過96%
      線性回歸方程的求解與應(yīng)用
      稀疏圖平方圖的染色數(shù)上界
      二階線性微分方程的解法
      基于鄰域競賽的多目標(biāo)優(yōu)化算法
      關(guān)于-型鄰域空間
      基于噴丸隨機(jī)模型的表面覆蓋率計(jì)算方法
      基于覆蓋率驅(qū)動的高性能DSP指令集驗(yàn)證方法
      宣武区| 九江县| 平安县| 寻乌县| 万安县| 图木舒克市| 菏泽市| 萨迦县| 子洲县| 龙陵县| 泊头市| 福建省| 德阳市| 鄂伦春自治旗| 萍乡市| 临湘市| 永定县| 中山市| 介休市| 临汾市| 德惠市| 舟山市| 淮北市| 周口市| 凤冈县| 西畴县| 潞西市| 镇康县| 三门县| 德惠市| 呈贡县| 平武县| 安阳县| 灵宝市| 灵山县| 米易县| 顺昌县| 伊通| 治多县| 原阳县| 漠河县|