• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      QPR-NN:一種結(jié)合二次多項(xiàng)式回歸與神經(jīng)網(wǎng)絡(luò)的推薦算法

      2019-09-10 10:08:12廖彬張?zhí)?/span>于炯國(guó)冰磊李敏劉炎
      關(guān)鍵詞:物品神經(jīng)網(wǎng)絡(luò)深度

      廖彬,張?zhí)?于炯,國(guó)冰磊,李敏,劉炎

      (1.新疆財(cái)經(jīng)大學(xué)絲路經(jīng)濟(jì)與管理研究院,830012,烏魯木齊;2.新疆財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院,830012,烏魯木齊;3.新疆大學(xué)信息科學(xué)與工程學(xué)院,830012,烏魯木齊;4.新疆醫(yī)科大學(xué)醫(yī)學(xué)工程技術(shù)學(xué)院,830012,烏魯木齊;5.清華大學(xué)軟件學(xué)院,100084,北京)

      據(jù)文獻(xiàn)[1]統(tǒng)計(jì),2017年全球數(shù)據(jù)總量為21.6 ZB,按照每年40%左右的增長(zhǎng)率計(jì)算,預(yù)計(jì)到2020年全球的數(shù)據(jù)總量將達(dá)到40 ZB,如何更好地管理并利用這些海量數(shù)據(jù),是大數(shù)據(jù)研究的核心內(nèi)容。特別是在互聯(lián)網(wǎng)領(lǐng)域,面對(duì)規(guī)模龐大的數(shù)據(jù),如何進(jìn)行精準(zhǔn)地選擇成為困擾用戶的一大難題。推薦系統(tǒng)為了解決這個(gè)問題,一方面從用戶的角度出發(fā),高效地從海量數(shù)據(jù)中選擇出用戶可能感興趣的物品(如:電影、書籍、音樂、商品、新聞、微博等);另一方面從商家的角度出發(fā),向用戶提供更為個(gè)性化的服務(wù),提高用戶的黏性及信任度,從而提高經(jīng)濟(jì)收益。

      根據(jù)數(shù)據(jù)源的不同,當(dāng)前主流的推薦系統(tǒng)所采用的核心算法主要分為基于人口統(tǒng)計(jì)學(xué)的推薦[2]、基于內(nèi)容的推薦[3]以及基于協(xié)同過濾的推薦[4-5]這3種。協(xié)同過濾算法在早期取得了不錯(cuò)的應(yīng)用效果,但是隨著數(shù)據(jù)量以指數(shù)級(jí)增加,數(shù)據(jù)稀疏性、冷啟動(dòng)以及算法的可擴(kuò)展性等問題不斷出現(xiàn)。因此,研究能同時(shí)適應(yīng)數(shù)據(jù)高規(guī)模及高稀疏性特點(diǎn)的推薦算法成為了當(dāng)前的研究熱點(diǎn)。

      近年來,深度學(xué)習(xí)研究得益于海量數(shù)據(jù)的積累、硬件計(jì)算能力的提升以及算法研究者的努力而不斷發(fā)展,特別是深度神經(jīng)網(wǎng)絡(luò)[6]及其變種形式的卷積神經(jīng)網(wǎng)絡(luò)[7]、循環(huán)神經(jīng)網(wǎng)絡(luò)[8]等,在機(jī)器視覺、自然語(yǔ)言處理等領(lǐng)域大放異彩。深度學(xué)習(xí)的本質(zhì)是對(duì)數(shù)據(jù)特征進(jìn)行深層次地抽象挖掘,通過大規(guī)模數(shù)據(jù)來學(xué)習(xí)有效的特征表示以及復(fù)雜的映射機(jī)制,從而建立起數(shù)據(jù)模型。深度學(xué)習(xí)作為一種適應(yīng)度較高的數(shù)據(jù)建模方法,理論上可以廣泛地應(yīng)用到不同的領(lǐng)域,其中就包括推薦系統(tǒng)。但是,目前深度學(xué)習(xí)應(yīng)用到推薦系統(tǒng)的工作相對(duì)較少。

      為了解決現(xiàn)有推薦算法不能很好適應(yīng)數(shù)據(jù)高規(guī)模及高稀疏性的現(xiàn)狀,本文結(jié)合深度學(xué)習(xí)建模方法通用性的特點(diǎn),提出一種結(jié)合二次多項(xiàng)式回歸與神經(jīng)網(wǎng)絡(luò)(QPR-NN)的推薦算法。QPR-NN首先利用QPR模型來對(duì)用戶對(duì)物品的評(píng)分?jǐn)?shù)據(jù)進(jìn)行特征提取及降維,經(jīng)過QPR模型處理后的數(shù)據(jù)作為深度學(xué)習(xí)訓(xùn)練模型的輸入,訓(xùn)練后的模型用于預(yù)測(cè)用戶對(duì)物品的評(píng)分。與主流推薦算法進(jìn)行的平分絕對(duì)誤差EMA以及均方根誤差ERMS這2個(gè)評(píng)價(jià)指標(biāo)的對(duì)比實(shí)驗(yàn)表明,QPR-NN算法能夠有效地提高推薦質(zhì)量。

      1 相關(guān)工作

      由于本文的關(guān)注點(diǎn)是利用二次多項(xiàng)式回歸及深度學(xué)習(xí)算法來解決現(xiàn)有推薦算法不能很好地適應(yīng)數(shù)據(jù)高規(guī)模及高稀疏性的問題,所以本節(jié)首先對(duì)該問題的已有相關(guān)研究進(jìn)行闡述,其次對(duì)深度學(xué)習(xí)在推薦系統(tǒng)上的應(yīng)用研究進(jìn)行介紹。

      1.1 解決數(shù)據(jù)高規(guī)模及高稀疏性問題的研究

      隨著分布式計(jì)算模型MapReduce的普及,推薦算法逐漸從單機(jī)向分布式模式發(fā)展,進(jìn)而很好地解決了數(shù)據(jù)的高規(guī)模問題。Guo等和Zhao等將協(xié)同過濾算法移植到Hadoop平臺(tái),提高了算法的并行計(jì)算能力[9-10]。Schelter等面對(duì)用戶數(shù)據(jù)量快速增長(zhǎng)的問題,提出了基于MapReduce的近鄰協(xié)同過濾算法,并通過Yahoo的7億條音樂數(shù)據(jù)證明了算法在效率上的明顯提升[11]。廖彬等對(duì)MapReduce架構(gòu)下的協(xié)同過濾算法存在的性能問題進(jìn)行了分析,并提出利用Spark內(nèi)存計(jì)算[12]、相似度計(jì)算效率優(yōu)化[13]、Spark DAG調(diào)度[14]等方法來進(jìn)一步提高分布式推薦算法的執(zhí)行效率。

      針對(duì)高稀疏性問題,一般采用數(shù)據(jù)填充、聚類、矩陣分解等方法解決。數(shù)據(jù)填充是在進(jìn)行相似性計(jì)算之前,對(duì)用戶及評(píng)分矩陣數(shù)據(jù)進(jìn)行填充,從而降低其稀疏性。聚類是一種有效的數(shù)據(jù)降維方法,能夠在有效地降低算法計(jì)算量的同時(shí)提高推薦質(zhì)量。矩陣分解中最具有代表性的工作是奇異值分解(SVD)[15-16],文獻(xiàn)[17]提出了帶正則化的基于迭代最小二乘法的矩陣分解方法,文獻(xiàn)[18]通過矩陣分解實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的降維及數(shù)據(jù)填充,并引入了時(shí)間衰減函數(shù)預(yù)處理用戶評(píng)分,提升了推薦算法的準(zhǔn)確度。

      1.2 深度學(xué)習(xí)在推薦算法上的應(yīng)用研究

      Salakhutdinov等最早在NIPS 2007上提出了使用限制玻爾茲曼機(jī)進(jìn)行評(píng)分預(yù)測(cè),該模型是2層的類二部圖結(jié)構(gòu),通過非線性關(guān)系關(guān)聯(lián)隱含層與可見層的數(shù)據(jù)信息,但該模型最大的問題是鏈接隱含層與評(píng)分層的權(quán)重參數(shù)(矩陣)規(guī)模太大[19]。在后期工作中,部分工作利用深度神經(jīng)網(wǎng)絡(luò)模型來作為信息變換模型,例如:文獻(xiàn)[20]使用多層降噪自動(dòng)編碼機(jī)將文本特征與評(píng)分預(yù)測(cè)特征相融合;文獻(xiàn)[21]利用卷積神經(jīng)網(wǎng)絡(luò)解決音樂推薦系統(tǒng)中的冷啟動(dòng)問題。除此之外:文獻(xiàn)[22]將卷積神經(jīng)網(wǎng)絡(luò)與協(xié)同過濾算法進(jìn)行結(jié)合,提高了音樂推薦的質(zhì)量;微軟公司提出了深度結(jié)構(gòu)化語(yǔ)義模型(DSSM),該模型是基于多層神經(jīng)網(wǎng)絡(luò)模型搭建的廣義語(yǔ)義匹配模型,通過級(jí)聯(lián)的深度神經(jīng)網(wǎng)絡(luò)模型的映射與變換,最終在同一個(gè)隱含空間內(nèi)表示了推薦系統(tǒng)中的用戶和物品,并可以使用余弦相似度進(jìn)行計(jì)算[23];文獻(xiàn)[24]使用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行基于session的推薦,充分考慮了物品的時(shí)序關(guān)系;Brebisson等使用神經(jīng)網(wǎng)絡(luò)模型解決ECML/PKDD會(huì)議的數(shù)據(jù)挑戰(zhàn)題目“出租車下一地點(diǎn)預(yù)測(cè)”,取得了比賽第一名的成績(jī),并且對(duì)多種多層感知器模型以及循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了對(duì)比,發(fā)現(xiàn)基于改進(jìn)后的多層感知器模型會(huì)取得最好的效果[25]。

      已有工作大部分是利用深度學(xué)習(xí)算法作為訓(xùn)練模型去處理推薦系統(tǒng)的數(shù)據(jù),而在輸入數(shù)據(jù)的特征提取方面,往往采用傳統(tǒng)的幾種處理方法(如RaF[26]、SVD[15-16]及PMF[27-28]等),并沒有更多地考慮到用戶和物品之間的適配度。本文與已有工作的最大不同之處在于:在分析已有特征提取方法缺陷的基礎(chǔ)上,為了更好地挖掘用戶與物品之間的相關(guān)性,提出QPR模型對(duì)數(shù)據(jù)進(jìn)行特征提取及降維,然后將處理后的數(shù)據(jù)作為深度學(xué)習(xí)訓(xùn)練模型的輸入,最后將訓(xùn)練后得到的模型用于推薦系統(tǒng)的評(píng)分預(yù)測(cè),提高了算法的推薦質(zhì)量。

      2 基于QPR模型的特征表示模型

      2.1 已有特征表示模型的優(yōu)缺點(diǎn)分析

      若用m表示用戶數(shù)量、n表示物品數(shù)量,協(xié)同過濾推薦算法的輸入可以表示為m×n的用戶項(xiàng)目評(píng)分矩陣R,具體如圖1所示,其中Rij表示第i個(gè)用戶對(duì)第j個(gè)物品的評(píng)分,Rij∈Rm×n,i∈[1,m],j∈[1,n]。Rij的取值范圍可以根據(jù)實(shí)際應(yīng)用系統(tǒng)的特點(diǎn)進(jìn)行設(shè)定,連續(xù)或離散的情況都有,大多數(shù)應(yīng)用系統(tǒng)采用數(shù)值為1~5的離散值來表示評(píng)分,而Rij=0則表示用戶尚未對(duì)該項(xiàng)目進(jìn)行評(píng)分。

      物品1物品2…物品n用戶1R11R12…R1n用戶2R21R22…R2n????用戶mRm1Rm2…Rmn

      圖1 用戶項(xiàng)目評(píng)分矩陣R

      本文需要使用用戶項(xiàng)目評(píng)分矩陣R獲得用戶及項(xiàng)目的特征表示,目前主流的特征表示方法有RaF、SVD及PMF,這3種方法的原理及優(yōu)缺點(diǎn)分析如表1所示。

      表1 幾種特征表示方法的對(duì)比分析

      2.2 利用QPR模型提取用戶和物品的特征

      (1)

      (2)

      為了簡(jiǎn)化式(2),設(shè)

      (3)

      (4)

      將式(3)與式(4)代入式(2),可以得到

      (5)

      可以看出,式(5)中的eu與ft分別與其對(duì)應(yīng)的用戶u與物品t相關(guān)。使用最小二乘損失函數(shù),可以得到模型的擬合誤差Q為

      (6)

      展開式(6),得到

      (7)

      當(dāng)式(7)達(dá)到最優(yōu)最小值解時(shí),即計(jì)算出了所需的用戶特征矩陣U與物品特征矩陣T。

      3 QPR-NN算法

      3.1 QPR與NN模型的連接

      在2.2節(jié)得到用戶特征矩陣U與物品特征矩陣T的基礎(chǔ)上,本節(jié)探討怎樣利用神經(jīng)網(wǎng)絡(luò)模型,對(duì)這些輸入數(shù)據(jù)進(jìn)行訓(xùn)練,并利用訓(xùn)練后的模型擬合評(píng)分?jǐn)?shù)據(jù),從而實(shí)現(xiàn)推薦功能。

      (1)神經(jīng)網(wǎng)絡(luò)輸入層。設(shè)輸入向量為v0,v0由用戶特征Ui與物品特征Tj通過鏈接函數(shù)fc(神經(jīng)網(wǎng)絡(luò)中采用concatenate函數(shù))鏈接而成,公式為

      v0=fc(Ui,Tj)

      (8)

      (2)隱藏層。輸入向量v0經(jīng)過第1層隱藏層后,需要引入一些非線性特性,此時(shí)需要使用激活函數(shù)fc(神經(jīng)網(wǎng)絡(luò)中采用activation函數(shù))進(jìn)行激活,公式為

      v1=fa(w1v0+b1)

      (9)

      式中:v1為輸出向量;w1為輸入層與隱藏層之間的權(quán)值矩陣;b1為偏移向量。本文采用線性整流(ReLU)函數(shù)作為激活函數(shù),這是因?yàn)橄啾萻ignmoid函數(shù),ReLU函數(shù)能夠在節(jié)省計(jì)算量的同時(shí)減少參數(shù)之間的相互依賴關(guān)系,緩解過擬合問題的發(fā)生。

      基于式(9),可以計(jì)算出在第i層隱藏層的輸出vi為

      vi=fa(wivi-1+bi)

      (10)

      (3)輸出層。輸出層的目標(biāo)是擬合評(píng)分?jǐn)?shù)據(jù)Rij,采用獨(dú)熱編碼函數(shù)fe(神經(jīng)網(wǎng)絡(luò)中采用One HotEncode函數(shù))將連續(xù)值轉(zhuǎn)化為離散值,公式為

      y=fe(Rij)

      (11)

      (12)

      式中:fs為softmax變換函數(shù),神經(jīng)網(wǎng)絡(luò)中采用softmax函數(shù);wo表示輸出層的權(quán)值矩陣;xl表示最后一層隱藏層的輸出,其中變量l表示隱藏層的層數(shù);bo表示輸出層的偏移量。

      (13)

      (14)

      (15)

      3.2 計(jì)算用戶與物品特征矩陣

      神經(jīng)網(wǎng)絡(luò)的訓(xùn)練主要在于權(quán)值矩陣和偏移向量的學(xué)習(xí),即對(duì)3.1節(jié)中wi(第i層神經(jīng)網(wǎng)絡(luò)的連接權(quán)值)與bi(第i層神經(jīng)網(wǎng)絡(luò)的偏移向量)進(jìn)行學(xué)習(xí)。在模型訓(xùn)練前,需要計(jì)算用戶物特征矩陣U與物品特征矩陣T,利用梯度下降法來計(jì)算各特征,算法步驟如下。

      ①K=random() ∥隨機(jī)初始化二次項(xiàng)系數(shù)K

      ②U=randomMatrix() ∥隨機(jī)初始化矩陣U

      ③T=randomMatrix() ∥隨機(jī)初始化矩陣T

      ⑦ foru=1 tomdo

      ∥更新Uui

      ⑩ end for

      算法的輸入?yún)?shù)為:用戶項(xiàng)目評(píng)分矩陣R,用戶數(shù)量m,物品數(shù)量n,用戶特征維度a,物品特征維度b,收斂閾值φ,學(xué)習(xí)率θ。輸出參數(shù)是用戶特征矩陣U與物品特征矩陣T。第①~③行分別對(duì)二次項(xiàng)系數(shù)值K、用戶特征矩陣U及物品特征矩陣T進(jìn)行初始化;第④行判斷是否達(dá)到收斂條件;第⑥行對(duì)常數(shù)項(xiàng)參數(shù)h進(jìn)行更新;第⑦~⑩行循環(huán)m次,首先對(duì)eu進(jìn)行更新,第⑨行更新Uui;第~行循環(huán)n次,第行對(duì)ft進(jìn)行更新,第行更新Ttj;第行對(duì)二次項(xiàng)系數(shù)進(jìn)行更新;第行輸出用戶特征矩陣U與物品特征矩陣T。

      算法中需要設(shè)置一個(gè)較為合適的θ,θ太小會(huì)導(dǎo)致收斂的速度很慢,θ太大則會(huì)妨礙收斂,導(dǎo)致?lián)p失函數(shù)在最小值附近波動(dòng)甚至偏離最小值。優(yōu)化學(xué)習(xí)率θ最根本的思想為:在方向?qū)?shù)較大的地方設(shè)置較小的θ;在方向?qū)?shù)較小的地方設(shè)置較大的θ。在實(shí)踐中,學(xué)習(xí)率θ的優(yōu)化通常有二分線性搜索、回溯線性搜索和Armijo準(zhǔn)則共3種,本文采用最簡(jiǎn)單的二分線性搜索,通過設(shè)置參數(shù)區(qū)間[θ1,θ2],不斷地將區(qū)間切分成兩半,參數(shù)選擇方法如下。

      設(shè)梯度下降優(yōu)化函數(shù)h為

      h(θ)=h(x+θd),θ>0

      (16)

      式中:x表示當(dāng)前點(diǎn)輸入值;d表示搜索斜率。

      通過以上算法完成對(duì)特征矩陣的計(jì)算和神經(jīng)網(wǎng)絡(luò)的權(quán)值訓(xùn)練后,可以利用訓(xùn)練后的模型去預(yù)測(cè)用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分。對(duì)預(yù)測(cè)結(jié)果進(jìn)行排序后,利用topN算法得出預(yù)測(cè)得分最高的前N個(gè)物品進(jìn)行推薦。

      4 實(shí)驗(yàn)及結(jié)果分析

      4.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集配置

      實(shí)驗(yàn)的操作系統(tǒng)版本是Ubuntu 16.04,CPU版本是Intel Corel i7 6700K,內(nèi)存16 GB,SSD大小為250 GB,顯卡是NVIDIA GeForce GTX 1080,CUDA版本是8.0 for Ubuntu 16.04,深度學(xué)習(xí)框架是Caffe(convolutional architecture for fast feature embedding),具體版本是Caffe for Ubuntu 16.04。實(shí)驗(yàn)的測(cè)試數(shù)據(jù)集采用2組數(shù)據(jù),具體情況如表2所示。

      表2 實(shí)驗(yàn)數(shù)據(jù)集說明

      4.2 評(píng)價(jià)指標(biāo)及參數(shù)配置

      平分絕對(duì)誤差EMA與均方根誤差ERMS適用于推薦系統(tǒng)中的評(píng)分預(yù)測(cè)場(chǎng)景,本文采用EMA與ERMS來進(jìn)行算法準(zhǔn)確度的評(píng)價(jià)。EMA評(píng)價(jià)指標(biāo)表達(dá)式為

      (17)

      式中:Ωtest表示測(cè)試數(shù)據(jù)集;|Ωtest|表示測(cè)試數(shù)據(jù)集的數(shù)據(jù)量。

      ERMS評(píng)價(jià)指標(biāo)表達(dá)式為

      (18)

      EMA與ERMS越小,表明算法預(yù)測(cè)結(jié)果與用戶真實(shí)評(píng)分結(jié)果越相近,算法預(yù)測(cè)準(zhǔn)確率越高。

      在參數(shù)設(shè)置方面:MovieLens數(shù)據(jù)集設(shè)置參數(shù)a=18、b=20、θ=0.01;Epinions數(shù)據(jù)集設(shè)置參數(shù)a=22、b=20、θ=0.01;在神經(jīng)網(wǎng)絡(luò)的輸入層,神經(jīng)元的個(gè)數(shù)為用戶維度與物品維度之和,輸出層的神經(jīng)元個(gè)數(shù)為5,分別對(duì)應(yīng)1~5的評(píng)分概率。

      4.3 特征分析方法對(duì)比

      本節(jié)將本文提出的利用QPR的特征提取方法與RaF、SVD及PMF這3種方法進(jìn)行對(duì)比。實(shí)驗(yàn)過程中,將MovieLens及Epinions數(shù)據(jù)集隨機(jī)分成80%及20%兩份,其中80%部分是訓(xùn)練集,20%部分是驗(yàn)證數(shù)據(jù)集。2組數(shù)據(jù)集下不同特征提取方法的EMA對(duì)比結(jié)果如表3所示。

      從表3可以看出:在MovieLens數(shù)據(jù)集下,QPR效果最好,PMF與SVD效果次之,RaF效果最差,QPR的EMA比PMF、SVD及RaF分別降低了1.2%、2.81%及6.54%;在Epinions數(shù)據(jù)集下,同樣是QPR效果最好,PMF與SVD效果次之,RaF效果最差,QPR的EMA比PMF、SVD及RaF分別降低了1.3%、5.46%及6.27%。

      分析表3可知:RaF在2組數(shù)據(jù)集上的效果最不理想,這是因?yàn)镽aF直接將用戶對(duì)全部物品的打分直接作為用戶的特征表示,當(dāng)評(píng)分矩陣高度稀疏時(shí),造成了較為嚴(yán)重的特征值失真現(xiàn)象;SVD由于需要使用平均值填充缺失值(缺失值的預(yù)處理),使得計(jì)算出的特征值與實(shí)際值存在一定的誤差;PMF與QPR都取得了不錯(cuò)的效果,二者的共同點(diǎn)是都規(guī)避了缺失值的影響,但是QPR相比PMF效果更好,這是因?yàn)镼PR能夠通過二次項(xiàng)計(jì)算更好地將用戶與物品之間的相關(guān)性體現(xiàn)出來。

      表3 2組數(shù)據(jù)集下不同特征提取方法的EMA

      4.4 預(yù)測(cè)準(zhǔn)確度對(duì)比

      將本文QPR-NN算法與較新的主流推薦算法進(jìn)行對(duì)比,評(píng)價(jià)指標(biāo)使用EMA與ERMS,具體地,EMA與ERMS是在MovieLens與Epinions這2組數(shù)據(jù)集下分別執(zhí)行算法5次后取的平均值。與本文算法進(jìn)行對(duì)比的7個(gè)算法如表4所示,8種算法在2組數(shù)據(jù)集上的EA和ERMS如表5所示。

      表4 QPR-NN對(duì)比算法的信息

      對(duì)比8種算法在MovieLens數(shù)據(jù)集上的EMA可以發(fā)現(xiàn):SVD[16]、PMF[27]、ItemBased[29]與Cluster[35]這4種算法比BPMF[32]、DsRec[34]、PMMMF[38]及QPR-NN的指標(biāo)差;QPR-NN取得了最好的結(jié)果,相比SVD、PMF、ItemBased、BPMF、DsRec、Cluster、PMMMF,EMA指標(biāo)分別降低了4.34%、3.36%、4.66%、1.54%、1.77%、3.62%及1.36%。對(duì)比8種算法在Epinions數(shù)據(jù)集上的EMA可以發(fā)現(xiàn):QPR-NN相比其他7種算法在EMA指標(biāo)值上取得了最優(yōu)成績(jī);相比SVD、PMF、ItemBased、BPMF、DsRec、Cluster、PMMMF分別降低了7.09%、6.79%、5.4%、5.62%、1.98%、4.54%及3.29%??傮w上對(duì)比EMA可以發(fā)現(xiàn),QPR-NN在Epinions數(shù)據(jù)集上的性能提高比MovieLens多,可能原因是Epinions數(shù)據(jù)量相比MovieLens多,算法能夠?qū)W習(xí)到的特征比較準(zhǔn)確,從而預(yù)測(cè)的精度較高。

      表5 8種算法在2組數(shù)據(jù)集上的EMA與ERMS

      對(duì)比8種算法在MovieLens數(shù)據(jù)集上的ERMS可以發(fā)現(xiàn):ERMS指標(biāo)性能最好的是BPMF,次之是QPR-NN,SVD、ItemBased及Cluster效果較差;QPR-NN相比SVD、PMF、ItemBased、BPMF、DsRec、Cluster、PMMMF分別降低了1.53%、1.38%、2.65%、-0.32%、0.35%、0.57%及1.35%。對(duì)比8種算法在Epinions數(shù)據(jù)集上的ERMS可以發(fā)現(xiàn):QPR-NN實(shí)驗(yàn)結(jié)果最好,Itembased效果最差;QPR-NN相比SVD、PMF、ItemBased、BPMF、DsRec、Cluster、PMMMF分別降低了7.61%、4.46%、13.21%、1.73%、0.79%、0.33%及1.07%。總體上對(duì)比ERMS可以發(fā)現(xiàn),在MovieLens數(shù)據(jù)集下,相同指標(biāo)體系下的BPMF算法指標(biāo)比QPR-NN好,但在Epinions中,QPR-NN比BPMF好,說明隨著數(shù)據(jù)量的增大,QPR-NN算法性能更為優(yōu)異。特別地,在數(shù)據(jù)集與算法相同的條件下,ERMS都要大于EMA,反映出ERMS對(duì)算法的評(píng)價(jià)比EMA嚴(yán)格一些,這是因?yàn)镋RMS對(duì)預(yù)測(cè)誤差較大的情況加大了懲罰因子的值。

      4.5 隱藏層參數(shù)優(yōu)化

      對(duì)于用戶特征維度參數(shù)a、物品特征維度b、數(shù)據(jù)量參數(shù)m與n,已知的是模型準(zhǔn)確率會(huì)隨著特征維度與數(shù)據(jù)量參數(shù)值的增大而提高。但是,神經(jīng)網(wǎng)絡(luò)中隱藏層的數(shù)量l將對(duì)算法性能產(chǎn)生巨大影響:過小的l將影響算法達(dá)不到最優(yōu)性能,過大的l將影響算法的計(jì)算效率。表6為參數(shù)l對(duì)EMA的影響。

      表6 參數(shù)l對(duì)EMA的影響

      從表6可以發(fā)現(xiàn):當(dāng)l=3時(shí),算法的EMA指標(biāo)達(dá)到最優(yōu)狀態(tài);當(dāng)l逐漸增大時(shí),EMA也逐漸增大,計(jì)算效率也會(huì)隨之下降。

      5 結(jié) 論

      大數(shù)據(jù)時(shí)代數(shù)據(jù)的爆炸式增長(zhǎng)使得傳統(tǒng)的推薦算法已不能適應(yīng)數(shù)據(jù)高規(guī)模及高稀疏性的特點(diǎn),已有工作從移植現(xiàn)有推薦算法到分布式平臺(tái),或與深度學(xué)習(xí)算法進(jìn)行結(jié)合這2種思路去解決這個(gè)問題。在與深度學(xué)習(xí)算法進(jìn)行結(jié)合的研究中,大部分工作是利用深度學(xué)習(xí)算法作為訓(xùn)練模型去處理推薦系統(tǒng)的數(shù)據(jù),而在輸入數(shù)據(jù)的特征提取方面,往往采用傳統(tǒng)的處理方法(如RaF、SVD及PMF等),并沒有更多考慮到兩者之間的適配度問題。所以,本文利用深度學(xué)習(xí)數(shù)據(jù)建模方法通用性的特點(diǎn),提出一種結(jié)合二次多項(xiàng)式回歸與神經(jīng)網(wǎng)絡(luò)的推薦算法QPR-NN。首先,在對(duì)RaF、SVD及PMF等特征提取方法缺陷分析的基礎(chǔ)上,為充分挖掘用戶與物品之間的相關(guān)性,提出利用二次多項(xiàng)式回歸模型對(duì)用戶對(duì)物品的評(píng)分?jǐn)?shù)據(jù)進(jìn)行特征提取及降維;其次,將特征提取后的數(shù)據(jù)作為深度學(xué)習(xí)訓(xùn)練模型的輸入,增加輸入數(shù)據(jù)與訓(xùn)練模型之間的匹配度,并將訓(xùn)練得到的模型用于推薦評(píng)分預(yù)測(cè);最后,通過與SVD、PMF、ItemBased、BPMF、DsRec、Cluster及PMMMF這7種主流推薦算法對(duì)比實(shí)驗(yàn),證明了QPR-NN算法的有效性。下一步工作將主要集中在將本文推薦模型應(yīng)用到更為廣泛的推薦場(chǎng)景,從而提高模型的應(yīng)用適應(yīng)度。

      猜你喜歡
      物品神經(jīng)網(wǎng)絡(luò)深度
      稱物品
      “雙十一”,你搶到了想要的物品嗎?
      深度理解一元一次方程
      神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      誰(shuí)動(dòng)了凡·高的物品
      深度觀察
      深度觀察
      深度觀察
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      双峰县| 通化市| 微山县| 邵阳县| 洪洞县| 涟源市| 上栗县| 达州市| 东港市| 牟定县| 南投市| 林西县| 巴马| 张家港市| 图木舒克市| 鹤峰县| 南涧| 郴州市| 涪陵区| 万州区| 海盐县| 宜兰县| 乌拉特后旗| 龙州县| 当阳市| 分宜县| 五河县| 永昌县| 渑池县| 象山县| 涞水县| 芦山县| 文昌市| 垦利县| 会理县| 吕梁市| 多伦县| 云和县| 祁门县| 万山特区| 金昌市|