• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Logistic時(shí)間函數(shù)和用戶(hù)特征的協(xié)同過(guò)濾算法

      2017-02-27 11:10:41趙文濤成亞飛王春春
      關(guān)鍵詞:相似性權(quán)重協(xié)同

      趙文濤 成亞飛 王春春

      (河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 河南 焦作 454000)

      基于Logistic時(shí)間函數(shù)和用戶(hù)特征的協(xié)同過(guò)濾算法

      趙文濤 成亞飛 王春春

      (河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 河南 焦作 454000)

      目前推薦系統(tǒng)中協(xié)同過(guò)濾算法是應(yīng)用最成熟的推薦算法之一,然而傳統(tǒng)算法沒(méi)有考慮隨著時(shí)間的遷移,用戶(hù)的興趣也可能發(fā)生相應(yīng)變化以及特征屬性在推薦過(guò)程中對(duì)推薦結(jié)果的影響,致使預(yù)測(cè)結(jié)果不準(zhǔn)確。為此,提出一種新的相似性改進(jìn)算法對(duì)傳統(tǒng)算法進(jìn)行改進(jìn)。改進(jìn)后的協(xié)同過(guò)濾算法對(duì)基于時(shí)間的Logistic權(quán)重函數(shù)與用戶(hù)特征屬性進(jìn)行加權(quán)計(jì)算,形成一種新的相似性度量模型。實(shí)驗(yàn)結(jié)果表明該算法推薦平均絕對(duì)誤差(MAE)比傳統(tǒng)算法降低了12%,較傳統(tǒng)算法推薦質(zhì)量有明顯提高。

      協(xié)同過(guò)濾 興趣變化 時(shí)間權(quán)重 用戶(hù)特征

      0 引 言

      在現(xiàn)實(shí)生活和工作中,網(wǎng)絡(luò)上的信息量越來(lái)越大,為了從大量的信息中搜索到我們所需要的信息,就必須花費(fèi)更多的時(shí)間,這就是所謂的“信息過(guò)載”問(wèn)題。面對(duì)與日俱增的信息量,我們?cè)傧胝业阶约核璧男畔⒆兊迷絹?lái)越難。針對(duì)這個(gè)問(wèn)題,廣大的研究學(xué)者和科研人員為了更大程度地挖掘潛在的有用信息,對(duì)推薦系統(tǒng)[1]的推薦準(zhǔn)確性和效率等方面進(jìn)行了更深層次的研究,提出了多種改進(jìn)推薦算法,其中協(xié)同過(guò)濾算法[2]就是最為典型的推薦算法。

      在推薦系統(tǒng)中推薦算法是關(guān)鍵要素。迄今為止,多種推薦算法被提出,其中,冷亞軍等人[3]介紹了相對(duì)完整的協(xié)同過(guò)濾知識(shí)架構(gòu),對(duì)認(rèn)清協(xié)同過(guò)濾的發(fā)展前景,促進(jìn)個(gè)性化信息服務(wù)的發(fā)展具有參考意義。王道平等人[4]在綜合考慮用戶(hù)興趣和項(xiàng)目特征的基礎(chǔ)上,提出基于內(nèi)容相似度的知識(shí)協(xié)同過(guò)濾推送算法,一定程度上提高了信息推送的精確度。王衛(wèi)平等人[5]提出基于標(biāo)簽(Tag)和協(xié)同過(guò)濾的混合推薦方法TAG-CF,能夠有效降低推薦系統(tǒng)的平均絕對(duì)誤差,提高推薦質(zhì)量。以上文獻(xiàn)中所提到的算法雖然在一定程度上緩解了數(shù)據(jù)稀疏性和冷啟動(dòng)問(wèn)題,但沒(méi)有考慮用戶(hù)興趣變化和用戶(hù)特征屬性對(duì)推薦結(jié)果的影響,這是本文改進(jìn)算法的研究重點(diǎn)。

      研究者更青睞于最常見(jiàn)的基于用戶(hù)的協(xié)同過(guò)濾算法(UBCF)和基于產(chǎn)品的協(xié)同過(guò)濾算法(IBCF)。如果僅采用傳統(tǒng)的協(xié)同過(guò)濾算法進(jìn)行推薦會(huì)存在很多問(wèn)題,主要問(wèn)題有:數(shù)據(jù)的稀疏性問(wèn)題[6],冷啟動(dòng)問(wèn)題,算法的擴(kuò)展性問(wèn)題和同一性問(wèn)題。由于用戶(hù)年齡大小,所處生活環(huán)境,受教育程度,興趣愛(ài)好各不相同,思維方式的差異性和產(chǎn)品個(gè)體的差異性,都是導(dǎo)致推薦結(jié)果不準(zhǔn)確的原因。用戶(hù)相互之間的獨(dú)立性和預(yù)測(cè)環(huán)境的不同以及產(chǎn)品之間相互聯(lián)系的不確定性,是基于用戶(hù)或產(chǎn)品的協(xié)同過(guò)濾算法存在一定局限性的主要原因。在本文中,對(duì)傳統(tǒng)的推薦算法進(jìn)行改進(jìn),提出了基于用戶(hù)訪問(wèn)時(shí)間和相關(guān)特征屬性[7]相似度的數(shù)據(jù)權(quán)重[8],將其引入到協(xié)同過(guò)濾算法的生成推薦過(guò)程當(dāng)中,能夠更好地體現(xiàn)用戶(hù)興趣的變化規(guī)律,從而改善推薦效率。

      1 相關(guān)工作及研究

      隨著網(wǎng)絡(luò)上的信息呈幾何倍數(shù)增長(zhǎng),普通人再想輕松獲取自己所需信息變得越來(lái)越困難,這就為研究人員提出了更高的要求。構(gòu)建一套完整的推薦系統(tǒng)是相當(dāng)復(fù)雜的,分清楚推薦系統(tǒng)與推薦算法、推薦模型的區(qū)別至關(guān)重要。推薦系統(tǒng)的核心在于推薦算法,眾多的科研人員可能會(huì)將大部分精力投入到推薦算法的優(yōu)化上。然而事實(shí)并非如此,數(shù)據(jù)的搜集、整理、篩選等準(zhǔn)備工作在推薦系統(tǒng)中同樣重要,例如當(dāng)淘寶網(wǎng)推薦顧客可能喜歡的商品時(shí),不能只依靠簡(jiǎn)單的推薦算法,顧客的個(gè)人信息,瀏覽記錄,過(guò)去一段時(shí)間的購(gòu)物信息,購(gòu)物車(chē)?yán)锩娴纳唐非鍐蔚榷紩?huì)影響顧客的購(gòu)物選擇。

      推薦系統(tǒng)的原理:首先,收集數(shù)據(jù)庫(kù)中客戶(hù)或產(chǎn)品的數(shù)據(jù)信息。其次,選取合適的推薦模型,查找相似用戶(hù)集。最后,采用KNN算法為目標(biāo)用戶(hù)選擇推薦對(duì)象。

      1.1 基于時(shí)間的數(shù)據(jù)權(quán)重

      作為推薦系統(tǒng)的重要準(zhǔn)備工作,數(shù)據(jù)信息采集主要是收集用戶(hù)對(duì)產(chǎn)品的評(píng)分記錄,構(gòu)建一個(gè)用戶(hù)產(chǎn)品評(píng)分矩陣UIM(User Item Matrix),用R_(m×n)=(R_(a,j))_(m×n)表示。其中,m表示用戶(hù)行數(shù),n表示產(chǎn)品列數(shù),R_(a,j)表示第a個(gè)用戶(hù)對(duì)第j個(gè)產(chǎn)品的評(píng)價(jià)分?jǐn)?shù)。

      1.2 查找相似用戶(hù)集

      推薦系統(tǒng)最為核心一步就是推薦算法的選取,采用合適的推薦算法計(jì)算用戶(hù)(或項(xiàng)目)相互之間的相似度[9],然后刪選出與目標(biāo)用戶(hù)相似度[10]最高的K個(gè)用戶(hù)(或項(xiàng)目)作為備選鄰居集。相似度的計(jì)算方法種類(lèi)繁多,但最常用的主要有下面三種方法:如式(1)-式(3)所示。

      1) 余弦相似性

      (1)

      2)Pearson相關(guān)相似性

      (2)

      3) 修正的余弦相似性

      (3)

      1.3KNN算法推薦

      通過(guò)前面相似度算法得到用戶(hù)相互之間的相似度,采用KNN算法為目標(biāo)用戶(hù)選取與其最相近的前N個(gè)作為鄰居集[11],傳統(tǒng)預(yù)測(cè)評(píng)分方法如下:

      (4)

      選取其中排在前面的而且未出現(xiàn)過(guò)的前N個(gè)選項(xiàng)組成Top-N推薦集。

      2 改進(jìn)算法描述

      從上述對(duì)傳統(tǒng)推薦算法的介紹過(guò)程中可以看出,個(gè)性化推薦系統(tǒng)[12]主要是根據(jù)用戶(hù)對(duì)產(chǎn)品的打分操作,得到用戶(hù)產(chǎn)品評(píng)分矩陣,來(lái)表達(dá)用戶(hù)對(duì)某件產(chǎn)品的喜愛(ài)程度。然而在現(xiàn)實(shí)情況下,用戶(hù)隨著閱歷的增加和年齡的增長(zhǎng),興趣愛(ài)好[13]同過(guò)去一段時(shí)間相比會(huì)有所變化。例如某用戶(hù)A在結(jié)婚之前,可能更喜歡襯衣領(lǐng)帶等都是自己生活所需的物品,在結(jié)婚之后精力更多地投入到家庭,所購(gòu)買(mǎi)的用品大多由自己轉(zhuǎn)向了妻子或孩子,這個(gè)例子很好地說(shuō)明了一個(gè)人在一段時(shí)間內(nèi)的興趣轉(zhuǎn)移,在前一段時(shí)間特別關(guān)注的物品在當(dāng)前可能就沒(méi)有那么重要了。所以傳統(tǒng)的個(gè)性化推薦系統(tǒng)僅僅采用用戶(hù)評(píng)分矩陣對(duì)目標(biāo)用戶(hù)進(jìn)行推薦可能感興趣的產(chǎn)品存在一定的局限性,雖然算法UBCF和IBCF在一定程度上能夠進(jìn)行推薦,但考慮現(xiàn)實(shí)情況的復(fù)雜性和多樣性導(dǎo)致推薦結(jié)果差強(qiáng)人意。

      2.1 基于Logistic函數(shù)的數(shù)據(jù)權(quán)重

      推薦系統(tǒng)中一般把時(shí)間標(biāo)簽作為一個(gè)重要的標(biāo)簽信息,能夠體現(xiàn)用戶(hù)的興趣遷移。用戶(hù)在不同時(shí)間區(qū)間內(nèi)的興趣和行為可能會(huì)有很大反差,例如在一天的行為變化中,白天用戶(hù)更傾向于將精力投入到工作中,而晚上就可能放松一下,到公園散散步,看看電影或者電視劇等娛樂(lè)節(jié)目。

      為了解決傳統(tǒng)算法不能充分體現(xiàn)用戶(hù)興趣愛(ài)好隨時(shí)間變化的問(wèn)題,本文在計(jì)算用戶(hù)相似度時(shí)提出基于時(shí)間的logistic權(quán)重函數(shù)[14],運(yùn)用logistic函數(shù)對(duì)產(chǎn)品評(píng)分進(jìn)行時(shí)間加權(quán)計(jì)算,對(duì)不同時(shí)間區(qū)間的評(píng)分?jǐn)?shù)據(jù)加以區(qū)分,增加近期數(shù)據(jù)的信任度[15]權(quán)重,減弱過(guò)去喜好的權(quán)重比例,logistic函數(shù)為:

      (5)

      式中,ta,j表示用戶(hù)a對(duì)項(xiàng)目j產(chǎn)生興趣的時(shí)刻與該用戶(hù)所有評(píng)分項(xiàng)目中最早評(píng)價(jià)時(shí)刻之間的時(shí)間差。函數(shù)f(ta,j)隨ta,j的增加而單調(diào)遞增。

      本文提出的logistic時(shí)間函數(shù)比文獻(xiàn)[16]中用到的線性時(shí)間函數(shù)更能反映人類(lèi)的遺忘規(guī)律,相較于文獻(xiàn)[17]中提出的基于Ebbinghaus遺忘曲線作為時(shí)間函數(shù)推薦結(jié)果更為準(zhǔn)確,故采用logistic函數(shù)。從該函數(shù)中可以看出函數(shù)取值范圍是(0,1),函數(shù)值隨時(shí)間標(biāo)簽的變化呈非線性曲線增長(zhǎng),強(qiáng)調(diào)近期活動(dòng)對(duì)目標(biāo)用戶(hù)行為的影響程度,改善傳統(tǒng)算法僅利用用戶(hù)評(píng)分進(jìn)行推薦的不足,最大化地為目標(biāo)用戶(hù)推薦有相似興趣愛(ài)好的鄰居用戶(hù)。

      2.2 基于非線性遺忘函數(shù)的改進(jìn)CF算法

      改進(jìn)算法采用時(shí)間窗口技術(shù)將用戶(hù)過(guò)去行為的時(shí)間標(biāo)簽運(yùn)用離散化方法進(jìn)行分段,分別將時(shí)間標(biāo)簽映射到這些時(shí)間窗口上,遵循客戶(hù)興趣的變化規(guī)律,提出基于時(shí)間權(quán)重的非線性遺忘函數(shù)的改進(jìn)CF算法,實(shí)現(xiàn)個(gè)性化的推薦,將式(5)引入到Pearson相關(guān)相似性系數(shù)中,得到改進(jìn)相似度計(jì)算方法如式(6):

      simT(i,j)=

      (6)

      上述改進(jìn)算法在計(jì)算過(guò)程中有效地為目標(biāo)用戶(hù)挑選可能興趣度相近的鄰居用戶(hù)。

      2.3 用戶(hù)特征的挖掘

      在平時(shí)的生活中,相同類(lèi)別的人可能在興趣取向上比較類(lèi)似,而不同特征屬性的人興趣取向可能差別比較大,正所謂人上一百,形形色色,難免良莠不一,何況是上千上萬(wàn)。比如教師和農(nóng)民工這兩類(lèi)在生活中最經(jīng)常接觸的兩類(lèi)人群,教師一般都受過(guò)高等教育,文化素質(zhì)較高,工作上教書(shū)育人從事腦力勞動(dòng)且工作環(huán)境干凈整潔,而農(nóng)民工普遍文化素質(zhì)不是很高,工作環(huán)境差大多以體力勞動(dòng)為主。這兩類(lèi)人群由于工作環(huán)境,社會(huì)經(jīng)歷的不同而興趣愛(ài)好千差萬(wàn)別。

      傳統(tǒng)的協(xié)同過(guò)濾算法在對(duì)用戶(hù)相似度的計(jì)算過(guò)程中,沒(méi)有結(jié)合用戶(hù)屬性信息,致使推薦結(jié)果具有一定的局限性。為了使推薦結(jié)果是用戶(hù)想要得到的結(jié)果,達(dá)到用戶(hù)的滿(mǎn)意,在對(duì)用戶(hù)詳細(xì)信息的深入挖掘過(guò)程中,特征數(shù)據(jù)與評(píng)分?jǐn)?shù)據(jù)對(duì)用戶(hù)興趣取向的影響沒(méi)有任何交集,分析不同特征數(shù)據(jù),盡最大可能挖掘與目標(biāo)用戶(hù)具有相似特征信息的用戶(hù)作為推薦鄰居。

      本文對(duì)Movielens電影評(píng)分?jǐn)?shù)據(jù)集中用戶(hù)信息進(jìn)行挖掘,得到用戶(hù)的年齡、性別、職業(yè)、郵編等個(gè)人基本信息,不同屬性標(biāo)簽代表不同的用戶(hù)群體,例如性別特征,在天貓網(wǎng)進(jìn)行網(wǎng)購(gòu)過(guò)程中,男女購(gòu)物類(lèi)別相差就比較大。不同職業(yè)的用戶(hù),由于工作環(huán)境不盡相同,對(duì)事物的感興趣程度也不相同,例如工作在發(fā)達(dá)城市的高薪階層與二三線城市的低薪階層,這兩類(lèi)人群不管在穿著打扮、言行舉止等方面均存在明顯不同。所以本文對(duì)用戶(hù)的特征屬性標(biāo)簽進(jìn)行離散化取值,針對(duì)年齡標(biāo)簽將其大致分類(lèi)為少年、青年、成年人和老年人階段。將郵編信息表示為用戶(hù)地域特征。文中將各類(lèi)特征標(biāo)簽進(jìn)行離散化后得到如下簡(jiǎn)化的用戶(hù)特征信息表如表1所示。

      表1 用戶(hù)特征屬性表

      根據(jù)上述得到的特征屬性表計(jì)算用戶(hù)相似性sim1,具體步驟如下:設(shè)特征矩陣表示形式為Attri={Aa1,Aa2,…,Aai},其中Aai分別對(duì)應(yīng)用戶(hù)a的屬性標(biāo)簽中的性別、年齡、職業(yè)、地域特征。如果Aai=Abi=1,表示a和b的第i個(gè)特征屬性相同或在同一個(gè)特征區(qū)間內(nèi),如果Aai=Abi=0,表示a和b的第i個(gè)特征屬性沒(méi)有交集,不是屬于同一類(lèi)別的人群,所有就不能將其作為鄰居用戶(hù)推薦給目標(biāo)用戶(hù),實(shí)驗(yàn)中計(jì)算特征相似性的計(jì)算公式如下:

      (7)

      得到用戶(hù)的特征相似性后將式(7)引入到修正的余弦相似性系數(shù)中,進(jìn)一步計(jì)算得到基于用戶(hù)特征的改進(jìn)相似性公式,得到等式如下:

      simR(i,j)=

      (8)

      上述改進(jìn)算法利用對(duì)具有相似特征的用戶(hù)進(jìn)行聚類(lèi)分析給目標(biāo)用戶(hù)推薦最相近特征鄰居集。

      2.4 改進(jìn)相似度計(jì)算模型

      前面介紹了兩種數(shù)據(jù)加權(quán)度量,它們各有優(yōu)勢(shì):為了適應(yīng)用戶(hù)興趣頻繁變化的情況,強(qiáng)調(diào)近期數(shù)據(jù)在權(quán)重上的比例,從而能更快地捕捉到用戶(hù)的近期愛(ài)好,而基于用戶(hù)特征相似度中,具有相似特征的人的興趣愛(ài)好會(huì)很相近,并且不同類(lèi)別的人的偏好特征是非常不同的。于是考慮到雙權(quán)函數(shù)與一定比例因子組合,基于時(shí)間的權(quán)重函數(shù),同時(shí)對(duì)用戶(hù)特征進(jìn)行定義:

      sim(u,v)=(1-W)simT(u,v)+WsimR(u,v)

      (9)

      式中比例因子W∈[0,1],W和(1-W)分別代表兩種權(quán)重值所占的比例。通過(guò)選擇適當(dāng)?shù)臋?quán)值,將兩者的優(yōu)點(diǎn)結(jié)合起來(lái),從而進(jìn)一步提高推薦算法的精度。

      2.5 組合KNN推薦算法

      本文提出的改進(jìn)協(xié)同過(guò)濾算法模型引入非線性logistic時(shí)間函數(shù)和用戶(hù)特征屬性,有效克服了傳統(tǒng)算法實(shí)時(shí)性差的缺點(diǎn),利用KNN算法得到目標(biāo)用戶(hù)的最近鄰居集后,采用式(10)計(jì)算得出每一個(gè)項(xiàng)目的預(yù)測(cè)值。

      (10)

      選取其中排在前面的而且未出現(xiàn)過(guò)的前N個(gè)選項(xiàng)組成Top-N推薦集。

      2.6 算法描述

      改進(jìn)的算法在加入時(shí)間因子后能較好地捕獲用戶(hù)的興趣取向,對(duì)推薦的精度進(jìn)行優(yōu)化,更能反映在現(xiàn)實(shí)生活的推薦實(shí)例中,算法1給出了詳細(xì)的算法描述。

      算法1:

      輸入:用戶(hù)i,所有被用戶(hù)i訪問(wèn)過(guò)的項(xiàng)目Ii,用戶(hù)近鄰模型M。

      輸出:用戶(hù)i所對(duì)應(yīng)的Top-N推薦集。

      Step1 運(yùn)用本文中改進(jìn)協(xié)同過(guò)濾算法對(duì)所有用戶(hù)計(jì)算其近鄰模型M,使用KNN算法得到它的k個(gè)最近鄰居集NEIi={I1,I2,…,Ik},將所有NEIi進(jìn)行合并得到集合Y;

      Step2 將Y中每個(gè)用戶(hù)評(píng)價(jià)的所有項(xiàng)目合并得到集合X;

      Step3 將X中與Ii相同的項(xiàng)目剔除,剩下的項(xiàng)目即是候選集Cand;

      Step4 對(duì)所有項(xiàng)目計(jì)算得到預(yù)估分值,選擇Cand中分值高的N個(gè)項(xiàng)目作為推薦集。

      3 實(shí)驗(yàn)結(jié)果及分析

      3.1 數(shù)據(jù)集及評(píng)判標(biāo)準(zhǔn)

      文中的實(shí)驗(yàn)部分用到的數(shù)據(jù)取自于MovieLens數(shù)據(jù)集,其中的實(shí)驗(yàn)數(shù)據(jù)主要源于設(shè)計(jì)者們調(diào)查不同的用戶(hù)群體對(duì)電影的看法評(píng)分,在子文件u.data中包含了100 000條評(píng)分?jǐn)?shù)據(jù),這些數(shù)據(jù)是選自943個(gè)用戶(hù)對(duì)1 682部電影項(xiàng)目的打分?jǐn)?shù)據(jù)。而文件u.user中包含用戶(hù)的gender、age、occupation、zipcode等個(gè)人基本信息。為了有效緩解數(shù)據(jù)稀疏性,這些用戶(hù)都至少評(píng)價(jià)過(guò)二十部以上的電影,評(píng)分分值從1到5不等,分值越高代表用戶(hù)對(duì)電影印象度越深。

      在推薦系統(tǒng)中用來(lái)衡量算法推薦質(zhì)量好壞的評(píng)判標(biāo)準(zhǔn)有很多,在業(yè)界用到最多的衡量準(zhǔn)則是平均絕對(duì)誤差MAE(MeanAbsoluteError),其原理是將實(shí)驗(yàn)得到的結(jié)論與實(shí)際的結(jié)論兩者偏差的比較作為衡量標(biāo)準(zhǔn),推薦準(zhǔn)確度的好壞與MAE值的大小成反比關(guān)系,計(jì)算得到MAE值越小的算法表示更高質(zhì)量的推薦算法。在實(shí)驗(yàn)中假設(shè)用戶(hù)u對(duì)所有項(xiàng)目的預(yù)測(cè)分值為Pu,1,Pu,2,…,Pu,n。與其相對(duì)應(yīng)真實(shí)分值為Qu,1,Qu,2,…,Qu,n。則MAE的定義為:

      (11)

      3.2 仿真分析

      實(shí)驗(yàn)中首先對(duì)改進(jìn)相似性計(jì)算模型中權(quán)值W進(jìn)行計(jì)算,在式(9)中W的值為可變的實(shí)驗(yàn)權(quán)重,由前文可知比例因子W的大小范圍是[0,1]。當(dāng)W=0時(shí),表示改進(jìn)算法模型只考慮用戶(hù)興趣對(duì)推薦結(jié)果的影響;當(dāng)W=1時(shí),表示用戶(hù)特征屬性對(duì)推薦結(jié)果的影響。

      實(shí)驗(yàn)如圖1所示,取W值從0到1每隔0.1逐漸遞增,從中可以看出權(quán)重系數(shù)W在取值不同時(shí)對(duì)推薦效果的影響程度。由圖1所得,在W=0.1時(shí)MAE值最小,表示推薦效果更好。

      圖1 權(quán)值W對(duì)推薦精度的影響

      實(shí)驗(yàn)過(guò)程中將非線性logistic遺忘函數(shù)的改進(jìn)CF算法同文獻(xiàn)[17]中基于Ebbinghaus遺忘曲線的CF算法的推薦結(jié)果進(jìn)行比較,比較結(jié)果如圖2所示。在鄰居數(shù)很小的情況下,得到的MAE值都比較高,推薦準(zhǔn)確度不高;在鄰居數(shù)大于10的情況下,本文提出的logistic權(quán)重函數(shù)在推薦過(guò)程中比基于Ebbinghaus權(quán)重函數(shù)所得到的MAE值都小,MAE值越小表示推薦準(zhǔn)確度越高。故本文采用基于時(shí)間的非線性logistic權(quán)重函數(shù)來(lái)表示用戶(hù)興趣的變化趨勢(shì)。

      圖2 兩種函數(shù)推薦結(jié)果的平均絕對(duì)誤差MAE比較

      下面將以傳統(tǒng)算法UCF和文獻(xiàn)[8]中算法作為對(duì)照來(lái)驗(yàn)證本文中所提出的改進(jìn)算法推薦效果。實(shí)驗(yàn)過(guò)程中分別計(jì)算在不同鄰居數(shù)目下,各種推薦算法所得MAE值大小的不同,結(jié)果見(jiàn)表2所示,然后與本文提出的改進(jìn)算法做對(duì)比,對(duì)比情況如圖3所示。

      表2 改進(jìn)協(xié)同過(guò)濾算法與傳統(tǒng)算法的MAE

      續(xù)表2

      圖3 推薦算法的平均絕對(duì)誤差MAE比較

      在表2和圖3中可知,文中提出的融合用戶(hù)興趣變化和特征屬性的新的度量方法在不同情況下得到的MAE值在很大程度上都低于傳統(tǒng)方法??梢?jiàn)本文提出的改進(jìn)算法在推薦過(guò)程中更加高效實(shí)用。

      4 結(jié) 語(yǔ)

      本文在計(jì)算用戶(hù)相似度的過(guò)程中仍存在很多缺點(diǎn)和不足需要研究并改進(jìn)。例如,因?yàn)槊總€(gè)人的遺忘規(guī)律會(huì)隨著年齡、經(jīng)歷的不同而有所不同,你也需要為每個(gè)用戶(hù)提出適合自己的遺忘函數(shù),這樣就能提高預(yù)測(cè)評(píng)分從而提高推薦的質(zhì)量。其次實(shí)驗(yàn)部分只選取了常用的相似度計(jì)算方法進(jìn)行了簡(jiǎn)單的對(duì)比試驗(yàn),需要進(jìn)一步改進(jìn),這也是本算法的遺憾之處。在未來(lái)的推薦系統(tǒng)的研究領(lǐng)域中,希望能夠?qū)⒏嗟母鱾€(gè)方面的知識(shí)應(yīng)用到推薦系統(tǒng)中來(lái),從而使推薦準(zhǔn)確性有進(jìn)一步提高。

      [1] 孟祥武,胡勛,王立才,等.移動(dòng)推薦系統(tǒng)及其應(yīng)用[J].軟件學(xué)報(bào),2013,24(1):91-108.

      [2] 劉青文.基于協(xié)同過(guò)濾的推薦算法研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2013.

      [3] 冷亞軍,陸青,梁昌勇.協(xié)同過(guò)濾推薦技術(shù)綜述[J].模式識(shí)別與人工智能,2014(8):720-734.

      [4] 王道平,李秀雅,楊岑.基于內(nèi)容相似度的知識(shí)協(xié)同過(guò)濾推送算法研究[J].情報(bào)理論與實(shí)踐,2013,36(10):86-90.

      [5] 王衛(wèi)平,王金輝.基于Tag和協(xié)同過(guò)濾的混合推薦方法[J].計(jì)算機(jī)工程,2011,37(14):34-35.

      [6]XuJ,ZhengX,DingW.Personalizedrecommendationbasedonreviewsandratingsalleviatingthesparsityproblemofcollaborativefiltering[C]//e-BusinessEngineering(ICEBE),2012IEEENinthInternationalConferenceon,2012:9-16.

      [7]YangXG.Collaborativefilteringalgorithmbasedonpreferenceofitemproperties[M].FoundationsofIntelligentSystems.SpringerBerlinHeidelberg,2014:1143-1149.

      [8] 邢春曉,高鳳榮,戰(zhàn)思南,等.適應(yīng)用戶(hù)興趣變化的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)研究與發(fā)展,2007,44(2):296-301.

      [9] 邱璐.協(xié)同過(guò)濾算法中的相似度計(jì)算與用戶(hù)興趣變化問(wèn)題研究及應(yīng)用[D].北京:北京郵電大學(xué),2015.

      [10] 榮輝桂,火生旭,胡春華,等.基于用戶(hù)相似度的協(xié)同過(guò)濾推薦算法[J].通信學(xué)報(bào),2014,35(2):16-24.

      [11] 賈冬艷,張付志.基于雙重鄰居選取策略的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)研究與發(fā)展,2013,50(5):1076-1084.

      [12] 鄧曉懿.移動(dòng)電子商務(wù)個(gè)性化服務(wù)推薦方法研究[D].大連:大連理工大學(xué),2012.

      [13] 韋素云,業(yè)寧,吉根林,等.基于項(xiàng)目類(lèi)別和興趣度的協(xié)同過(guò)濾推薦算法[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,49(2):142-149.

      [14]SuH,LinX,YanB,etal.ThecollaborativefilteringalgorithmwithtimeweightbasedonmapReduce[M].BigDataComputingandCommunications.SpringerInternationalPublishing,2015.

      [15]YangL,HuY.Animprovedcollaborativefilteringalgorithmbasedontheconstraintmodelofconfidence[J].JournalofComputationalInformationSystems,2015,11(8):3001-3009.

      [16] 嵇曉聲,劉宴兵,羅來(lái)明.協(xié)同過(guò)濾中基于用戶(hù)興趣度的相似性度量方法[J].計(jì)算機(jī)應(yīng)用,2010,30(10):2618-2620.

      [17] 于洪,李轉(zhuǎn)運(yùn).基于遺忘曲線的協(xié)同過(guò)濾推薦算法[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,46(5):520-527.

      COLLABORATIVE FILTERING ALGORITHM BASED ON LOGISTIC TIME FUNCTION AND USER FEATURES

      Zhao Wentao Cheng Yafei Wang Chunchun

      (CollegeofComputerScienceandTechnology,HenanPolytechnicUniversity,Jiaozuo454000,Henan,China)

      At present, collaborative filtering algorithm is one of the most mature recommendation algorithms applied in recommendation systems. However, traditional collaborative filtering algorithms do not take into account the problem of users’ interests drifting over time as well as the effects of feature attributes, which may decrease the accuracy of recommendation results. Hence, in order to enhance the traditional algorithms, a novel similarity measurement algorithm is put forward. In this paper, an innovative similarity measurement model is constructed by combining time-based Logistic weight function and user feature similarity-based data weight. Experimental results show that compared with traditional algorithms, the mean absolute error (MAE) of recommendation using the proposed algorithm is reduced by an average of 12% and the quality of recommendation is improved significantly.

      Collaborative filtering Interest change Time weight User feature

      2016-04-02。河南省科技攻關(guān)項(xiàng)目(142402210435)。趙文濤,教授,主研領(lǐng)域:計(jì)算機(jī)專(zhuān)業(yè)教學(xué)和數(shù)據(jù)庫(kù)技術(shù),信息系統(tǒng),大數(shù)據(jù)。成亞飛,碩士生。王春春,碩士生。

      TP393

      A

      10.3969/j.issn.1000-386x.2017.02.051

      猜你喜歡
      相似性權(quán)重協(xié)同
      一類(lèi)上三角算子矩陣的相似性與酉相似性
      蜀道難:車(chē)與路的協(xié)同進(jìn)化
      權(quán)重常思“浮名輕”
      淺析當(dāng)代中西方繪畫(huà)的相似性
      “四化”協(xié)同才有出路
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
      三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
      低滲透黏土中氯離子彌散作用離心模擬相似性
      協(xié)同進(jìn)化
      临桂县| 离岛区| 象山县| 西乌珠穆沁旗| 建始县| 方山县| 延安市| 凌云县| 交口县| 黑河市| 梁河县| 平阳县| 阜宁县| 思南县| 同江市| 金溪县| 左云县| 额敏县| 扬州市| 黔西县| 奉新县| 江川县| 四平市| 兰西县| 聊城市| 黄陵县| 濮阳市| 加查县| 哈巴河县| 增城市| 泰和县| 七台河市| 洛隆县| 太康县| 湄潭县| 临江市| 曲水县| 金阳县| 名山县| 旬邑县| 沧源|