• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于AP-XDeepFM模型的廣告點(diǎn)擊率預(yù)測(cè)

      2023-01-31 09:42:42邵新慧
      關(guān)鍵詞:失活預(yù)估向量

      侯 娜 邵新慧

      (東北大學(xué)理學(xué)院 遼寧 沈陽 110819)

      0 引 言

      互聯(lián)網(wǎng)的出現(xiàn)和迅速發(fā)展使得廣告有別于傳統(tǒng)的媒體工具,借助互聯(lián)網(wǎng)這個(gè)平臺(tái),在線廣告應(yīng)運(yùn)而生[1]。目前,很多互聯(lián)網(wǎng)公司的收益主要來源于廣告,比如微博、谷歌等。廣告的收入來源于用戶點(diǎn)擊廣告,廣告拍賣的效益取決于點(diǎn)擊率(Click-Through Rate,CTR)預(yù)測(cè)的準(zhǔn)確性。由于其廣泛的價(jià)值和巨大的市場(chǎng)回報(bào)率,廣告點(diǎn)擊率問題成為學(xué)術(shù)研究的熱點(diǎn)。

      點(diǎn)擊率是指某條廣告點(diǎn)擊次數(shù)與展示次數(shù)之比,反映了其內(nèi)容的關(guān)注程度。高點(diǎn)擊率意味著廣告得到了精準(zhǔn)的推送,有利于廣告主產(chǎn)品的推廣,增加平臺(tái)方投放網(wǎng)站的訪問量,給用戶帶來符合自己需求的信息,產(chǎn)生良好的搜索體驗(yàn)。精準(zhǔn)的廣告點(diǎn)擊率可以實(shí)現(xiàn)廣告主、平臺(tái)方和用戶的三方利益的最大化[2]。

      廣告點(diǎn)擊率預(yù)測(cè)的發(fā)展初期,常用的研究方法是概率統(tǒng)計(jì)[3],但因數(shù)據(jù)稀疏,預(yù)測(cè)效果不理想。Richardson等[4]分別采用邏輯回歸(Logistic Regression)和多元可加回歸樹(Multiple Additive Regression Trees,MART)方法進(jìn)行預(yù)測(cè),并采用擬牛頓法訓(xùn)練,結(jié)果表明Logistic模型的預(yù)測(cè)效果優(yōu)于MART模型。Logistic模型簡(jiǎn)單但學(xué)習(xí)能力有限,不能捕獲到非線性信息[5]。為挖掘非線性信息,Trofimov等[6]采用梯度決策樹(Gradient Boosting Regression Tree,GBDT)方法進(jìn)行廣告點(diǎn)擊率預(yù)測(cè),GBDT能實(shí)現(xiàn)對(duì)特征的自動(dòng)挖掘和組合,大量節(jié)省了人工成本。Facebook公司[7]提出將GBDT與LR模型相結(jié)合,將GBDT模型的結(jié)果作為L(zhǎng)R模型的輸入,重新進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)對(duì)廣告點(diǎn)擊率的預(yù)測(cè)。谷歌[8]提出FTRL(Follow The Regularized Leader Proximal)模型,針對(duì)LR模型設(shè)計(jì)獨(dú)特的梯度下降方法,為防止過擬合加入正則化,同時(shí)提高了廣告點(diǎn)擊率預(yù)測(cè)的準(zhǔn)確性。

      為提高模型的預(yù)測(cè)性能,Rendle[9]提出了因子分解機(jī)(Factorization Machine,FM)模型,F(xiàn)M模型自動(dòng)地捕獲二階交叉特征,解決了高維稀疏數(shù)據(jù)情況特征組合的困難。為解決當(dāng)不同的域進(jìn)行組合時(shí),隱向量可能會(huì)表現(xiàn)服從不同分布的問題,研究人員基于FM模型提出了FFM[10]、AFM[11]、FwFM[12]等模型。

      近年來,隨著深度學(xué)習(xí)在自然語言處理、圖像處理等領(lǐng)域取得不錯(cuò)的成果,引起了CTR預(yù)測(cè)研究領(lǐng)域的關(guān)注。Google研究人員提出Wide & Deep模型[13],該模型將淺層模型LR模型和非線性模型DNN(Deep Neural Networks)巧妙地融合,開創(chuàng)了嵌入的方法在CTR研究領(lǐng)域的先河。進(jìn)一步地,Guo等[14]提出DeepFM模型,將Wide & Deep模型中的淺層模型替換為FM,并且使FM與DNN共享嵌入層的輸出值,節(jié)省了人工提取特征的時(shí)間。Lian等[15]針對(duì)DCN[16]的不足,并結(jié)合DeepFM提出XDeepFM,該模型同時(shí)以顯式和隱式的方式學(xué)習(xí)高階的特征交互,并且特征交互發(fā)生在向量級(jí)。

      XDeepFM模型中采用LR模型提取一階特征,并且忽略了不同特征對(duì)于目標(biāo)向量的重要性。本文對(duì)XDeepFM模型進(jìn)行改進(jìn),提出基于AP-XDeepFM模型的廣告點(diǎn)擊率預(yù)測(cè)研究模型。在DNN的基礎(chǔ)上加入Product層,并引入注意力機(jī)制,使得模型能夠側(cè)重于影響力大的特征且能進(jìn)行更加細(xì)致的特征交互;另外,采用FM模型,提取一階特征和由一階特征兩兩組合而成的二階特征。

      1 相關(guān)工作

      在CTR預(yù)測(cè)中,數(shù)據(jù)類型主要是分類特征,分類特征通常進(jìn)行One-hot編碼,會(huì)得到一個(gè)高維稀疏矩陣,帶來維數(shù)災(zāi)難問題。傳統(tǒng)的機(jī)器學(xué)習(xí)算法(如LR、SVM[17]等)不能很好地處理稀疏數(shù)據(jù)且忽略了特征之間的交互關(guān)系,F(xiàn)M模型是針對(duì)以上問題提出的一種高效的解決方案。

      FM模型在進(jìn)行特征組合時(shí),默認(rèn)每個(gè)交互特征發(fā)揮著同樣的作用,實(shí)際上,每個(gè)交互特征的影響是不同的,AFM模型能夠區(qū)分不同交互特征的重要性,提高模型的學(xué)習(xí)能力[11]。

      借鑒圖像識(shí)別中CNN擴(kuò)大感受野的做法,在FM的基礎(chǔ)上連接若干個(gè)全連接層,從而產(chǎn)生高階的特征組合,加強(qiáng)模型對(duì)數(shù)據(jù)的學(xué)習(xí)能力,即FNN模型[5]。Qu等[18]認(rèn)為在FNN模型中,特征經(jīng)過嵌入層直接輸入到DNN進(jìn)行特征組合,也就是將特征進(jìn)行加權(quán)求和這種方法不能充分捕獲特征之間的相關(guān)性。因此,設(shè)計(jì)了Product層對(duì)特征進(jìn)行更加細(xì)致的交叉運(yùn)算。

      考慮到FM模型不能捕獲高階特征之間的關(guān)系,F(xiàn)NN模型和PNN模型忽略低階特征之間的作用,華為研究人員結(jié)合兩個(gè)模型的優(yōu)點(diǎn),將FM模型和DNN結(jié)合起來聯(lián)合訓(xùn)練,提出DeepFM模型,該結(jié)構(gòu)比單一的學(xué)習(xí)模型預(yù)測(cè)性能表現(xiàn)得好。近年來,微軟公司提出了一種能夠顯式和隱式地學(xué)習(xí)特征交互的融合模型xDeepFM模型,該模型將線性模型、CIN(Compressed Interaction Network)模型和DNN結(jié)合并行訓(xùn)練,CIN和DNN共享相同的輸入向量,節(jié)省運(yùn)行時(shí)間并提升模型的泛化能力。

      表1介紹幾種常見的CTR預(yù)測(cè)模型特性對(duì)比,分析發(fā)現(xiàn),在模型結(jié)構(gòu)上包括:單一淺層結(jié)構(gòu),如FM和AFM;單一深層結(jié)構(gòu),如FNN和PNN;淺層模型和(一個(gè)或多個(gè))深層模型的融合結(jié)構(gòu),如DeepFM和XDeepFM。只有AFM模型賦予交叉特征不同的重要性。FM、AFM只能學(xué)習(xí)一階特征和二階組合特征,F(xiàn)NN、PNN只能學(xué)習(xí)高階的交互特征,對(duì)于融合結(jié)構(gòu)的模型,不僅能學(xué)習(xí)低階特征也能學(xué)習(xí)高階特征,但未考慮特征的重要性。XDeepFM模型采用LR的方式學(xué)習(xí)低階特征,不能學(xué)習(xí)二階交叉特征?;谏鲜龇治觯疚慕梃bXDeepFM的主要框架進(jìn)行改進(jìn),提出AP-XDeepFM模型,其特點(diǎn)是保留顯式學(xué)習(xí)高階特征的優(yōu)點(diǎn),并賦予交叉特征不同的重要性,通過引入Product層,對(duì)高階特征進(jìn)行更加細(xì)致的交互,通過采用FM模型,充分學(xué)習(xí)低階特征,提高模型的預(yù)測(cè)性能。

      表1 CTR預(yù)估模型特性對(duì)比

      2 模型設(shè)計(jì)

      2.1 基本思想

      AP-XDeepFM模型主要受到XDeepFM模型的啟發(fā),采用融合結(jié)構(gòu),其框架與XDeepFM類似,AP-XDeepFM模型主要分為三層。第一層是嵌入層,原始特征經(jīng)過獨(dú)熱編碼產(chǎn)生的高維稀疏特征經(jīng)過嵌入層,將特征壓縮映射為D維的稠密向量。第二層是由三個(gè)模塊組合:FM模型、CIN模型和APNN模型。FM模型用于學(xué)習(xí)低階的交互特征,CIN模型可以顯式地學(xué)習(xí)高階交互特征,APNN模型不僅考慮到特征重要性,而且能更加細(xì)致地進(jìn)行隱式的特征提取。第三層是輸出層,將FM、CIN和APNN的輸出經(jīng)過Sigmoid函數(shù),采用Adam方法優(yōu)化模型的參數(shù),并進(jìn)行分類得到最終的預(yù)測(cè)值。

      2.2 FM模型

      FM模型是在線性模型的基礎(chǔ)上加入了二階交叉項(xiàng),彌補(bǔ)了線性模型忽略特征之間關(guān)系的缺憾。其模型為:

      (1)

      式中:n表示特征數(shù)量;xi表示第i個(gè)特征的值;vi表示第i個(gè)特征的隱向量;<·,·>表示向量?jī)?nèi)積;w0∈R。

      在線性模型的基礎(chǔ)上,加入二階交叉項(xiàng),不僅可以挖掘特征之間的關(guān)系,而且采用矩陣分解的思想來解決高維稀疏的問題,提高了模型的學(xué)習(xí)效率和預(yù)估能力。

      2.3 APNN模型

      目前為止,CTR預(yù)估研究問題的重心大多在于自動(dòng)挖掘特征的交互信息,忽略了不同的交叉特征有著不同的重要性。比如對(duì)于用戶關(guān)于NBA這則廣告,性別為男且喜歡籃球的人群比性別男且家住上海的人群,更有可能點(diǎn)擊,也就是說對(duì)于目標(biāo)變量,前者比后者發(fā)揮的作用大。故將注意力機(jī)制引入模型中,使得不同的特征發(fā)揮著不同的重要性。

      注意力機(jī)制[11]實(shí)質(zhì)上是包含一個(gè)隱藏層的多層感知機(jī),嵌入向量作為輸入向量,使用ReLU函數(shù)對(duì)交互特征打分,最后使用Softmax函數(shù)對(duì)分?jǐn)?shù)進(jìn)行規(guī)范化處理。計(jì)算式如下:

      (2)

      (3)

      式中:W∈Rt×D、b∈Rt和h∈Rt是模型參數(shù),t是隱藏層節(jié)點(diǎn)數(shù),D是嵌入向量的維度;aij代表交互特征的重要性。

      CTR預(yù)測(cè)研究的重點(diǎn)在于如何挖掘特征之間的相關(guān)性,DNN模型通過全連接的方法學(xué)習(xí)高階特征,未充分捕捉特征之間的關(guān)系。本文借鑒PNN模型的思想,在DNN第一個(gè)隱藏層前加入Product層。該層是由線性部分lz和非線性部分lp構(gòu)成,具體計(jì)算式為:

      (4)

      (5)

      如圖1所示,APNN模型是一個(gè)包含多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò),不同于DNN,它采用單個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)搭建Attention層,并引入Product層增加模型的可解釋性。每層采用ReLU函數(shù)作為激活函數(shù),在第一層采用全連接的方式,如下:

      (6)

      圖1 APNN模塊的結(jié)構(gòu)

      2.4 CIN模型

      (7)

      進(jìn)一步地,通過sum-pooling操作將輸出矩陣Xk壓縮為向量,作為最終的輸出,如:

      (8)

      2.5 AP-XDeepFM模型

      如圖2所示,F(xiàn)M模塊和APNN模塊的結(jié)合使用可以提高模型的泛化能力,CIN模塊和APNN模塊的結(jié)合能夠充分學(xué)習(xí)交互特征,并引入注意力機(jī)制,加大重要交互特征的重要性,交互特征不僅能在元素級(jí)別上,也能在向量級(jí)別上進(jìn)行顯式和隱式的特征交互,提高模型的預(yù)測(cè)性能。

      圖2 AP-XDeepFM模型的結(jié)構(gòu)

      針對(duì)上述的AP-XDeepFM模型,我們?cè)O(shè)計(jì)了模型的具體訓(xùn)練步驟。

      算法1基于AP-XDeepFM模型的CTR預(yù)估研究算法

      輸入:原始數(shù)據(jù)集。

      輸出:訓(xùn)練完的參數(shù)確定模型。

      初始化參數(shù):嵌入向量的維度D,CIN模型的層數(shù),隱藏層節(jié)點(diǎn),APNN模型的層數(shù),隱藏層節(jié)點(diǎn),迭代次數(shù)T。

      1.fort=1 toTdo

      //遍歷每次迭代

      2.獲取特征xi,I={i|xi≠0};

      3.通過嵌入層,每個(gè)特征映射到D維的嵌入向量;

      4.if enter in FM then:

      //嵌入向量輸入到FM模型

      if enter in APNN then:

      //嵌入向量輸入到APNN模型

      lk=ReLU(Wklk-1+bk-1);

      if enter in CIN then:

      //嵌入向量輸入到CIN模型

      p+=[p1,p2,…,pk];

      //輸出預(yù)測(cè)結(jié)果

      //使用Adam優(yōu)化方法對(duì)參數(shù)進(jìn)行優(yōu)化

      3 實(shí) 驗(yàn)

      3.1 數(shù)據(jù)集

      本文的數(shù)據(jù)集是2014年Kaggle競(jìng)賽中avazu公司提供的公開數(shù)據(jù)集。該數(shù)據(jù)集共有四千多萬條,數(shù)據(jù)有23個(gè)特征和1個(gè)標(biāo)簽特征,其中正負(fù)樣本比約是1 ∶4。在原始數(shù)據(jù)中按照分層抽樣和隨機(jī)抽樣的方法抽取了100萬條數(shù)據(jù)進(jìn)行實(shí)驗(yàn),并每天按不同的采樣率進(jìn)行采樣,因此整體的正負(fù)樣本比例與原始數(shù)據(jù)基本一致,不會(huì)對(duì)實(shí)驗(yàn)結(jié)果造成影響。

      3.2 評(píng)價(jià)指標(biāo)

      為了檢驗(yàn)?zāi)P偷男Ч疚牟捎昧薃UC和均方根誤差這兩種評(píng)價(jià)指標(biāo)。

      AUC(Area Under Curve)是刻畫ROC曲線的分類能力[19]。AUC的取值在0到1之間,AUC的值越大,分類器效果越好,那么輸出概率越合理,排序的結(jié)果越合理。所以,AUC直觀地反映了廣告的相對(duì)排序。

      均方根誤差(Root Mean Square Error,RMSE)用來衡量預(yù)測(cè)值與真實(shí)值之間的偏差,由于正負(fù)樣本不平衡,精確度、準(zhǔn)確率等評(píng)價(jià)方式不能準(zhǔn)確地反映分類器的性能。由式(9)可以看出,RMSE能夠很好地觀察兩個(gè)數(shù)據(jù)分布的差異性,RMSE越大,數(shù)據(jù)分布之間的差異越大,分類模型的預(yù)測(cè)效果越差,反之,RMSE越小代表模型的精確度越高。

      (9)

      3.3 實(shí)驗(yàn)結(jié)果及分析

      本文算法代碼是由Python 3.6軟件編寫,操作系統(tǒng)為Windows 7,內(nèi)存4 GB,CPU頻率為2.30 GHz。

      本文選取前8天的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),第9天的數(shù)據(jù)作為測(cè)試數(shù)據(jù)。在相同的實(shí)驗(yàn)環(huán)境下,將通過6組實(shí)驗(yàn)對(duì)AP-XDeepFM模型的性能進(jìn)行對(duì)比,CIN中參數(shù)與xDeepFM模型中保持一致,對(duì)APNN中的重要超參數(shù)進(jìn)行實(shí)驗(yàn),討論不同的超參數(shù)對(duì)結(jié)果的影響,獲取最優(yōu)的超參數(shù)組合。在實(shí)驗(yàn)中,使用AUC和RMSE對(duì)模型結(jié)果進(jìn)行評(píng)估,實(shí)驗(yàn)分為5組。第1組實(shí)驗(yàn)討論學(xué)習(xí)率對(duì)預(yù)估結(jié)果的影響;第2組實(shí)驗(yàn)討論APNN隱藏層層數(shù)對(duì)預(yù)估結(jié)果的影響;第3組實(shí)驗(yàn)討論隱藏層節(jié)點(diǎn)數(shù)對(duì)預(yù)估結(jié)果的影響;第4組討論激活函數(shù)對(duì)預(yù)估結(jié)果的影響;第5組討論隨機(jī)失活率對(duì)預(yù)估結(jié)果的影響。第6組與典型模型進(jìn)行對(duì)比。

      3.3.1學(xué)習(xí)率實(shí)驗(yàn)

      本節(jié)分析不同的學(xué)習(xí)率對(duì)預(yù)估結(jié)果的影響。學(xué)習(xí)率是一個(gè)重要的超參數(shù),決定權(quán)重迭代的步長(zhǎng)。在此實(shí)驗(yàn)中,采用搜索法,依次改變學(xué)習(xí)率為{0.1,0.01,0.001,0.000 1},記錄不同學(xué)習(xí)率下模型的效果。根據(jù)表2中AUC和RMSE的結(jié)果可知,當(dāng)學(xué)習(xí)率為0.001時(shí),模型的預(yù)測(cè)性能最佳。

      表2 不同學(xué)習(xí)率對(duì)性能的影響

      3.3.2隱藏層數(shù)目實(shí)驗(yàn)

      本節(jié)分析APNN網(wǎng)絡(luò)隱藏層層數(shù)對(duì)預(yù)估結(jié)果的影響。在此實(shí)驗(yàn)中,根據(jù)3.3.1節(jié)的結(jié)果設(shè)置模型的學(xué)習(xí)率為0.001,假設(shè)各隱藏層節(jié)點(diǎn)數(shù)為100,隱藏層從1層逐漸加到4層,實(shí)驗(yàn)結(jié)果如表3所示。

      表3 隱藏層數(shù)目對(duì)性能的影響

      隨著隱藏層數(shù)目的增多,模型的學(xué)習(xí)性能越高,CTR預(yù)估的準(zhǔn)確性明顯升高,說明模型對(duì)數(shù)據(jù)進(jìn)行充分的學(xué)習(xí),能夠提取深層次的特征。當(dāng)隱藏層數(shù)目大于3時(shí),模型的性能迅速下降,說明過多地增加隱藏層的數(shù)目會(huì)導(dǎo)致模型出現(xiàn)過擬合現(xiàn)象。根據(jù)表3中AUC和RMSE兩種評(píng)價(jià)指標(biāo)的結(jié)果,選擇隱藏層的數(shù)目為3。

      3.3.3隱藏層節(jié)點(diǎn)數(shù)實(shí)驗(yàn)

      本節(jié)分析APNN網(wǎng)絡(luò)隱藏層節(jié)點(diǎn)數(shù)對(duì)預(yù)估結(jié)果的影響??紤]到每個(gè)隱藏層設(shè)置不同的節(jié)點(diǎn)數(shù),會(huì)使實(shí)驗(yàn)變得很復(fù)雜,為簡(jiǎn)化實(shí)驗(yàn),設(shè)置每層的節(jié)點(diǎn)數(shù)相同,依次改變節(jié)點(diǎn)數(shù)為{50,100,150,200},結(jié)果如表4所示。

      表4 隱藏層節(jié)點(diǎn)數(shù)對(duì)性能的影響

      可以看出,隨著隱藏層節(jié)點(diǎn)數(shù)從50增至100時(shí),模型的學(xué)習(xí)性能不斷提升,CTR預(yù)估的準(zhǔn)確性明顯升高,模型得到很好的訓(xùn)練。當(dāng)節(jié)點(diǎn)數(shù)目大于100時(shí),模型的性能迅速下降,說明模型在訓(xùn)練集上學(xué)習(xí)過于充分,出現(xiàn)過擬合現(xiàn)象。根據(jù)表4中AUC和RMSE兩種評(píng)價(jià)指標(biāo)的結(jié)果,選擇隱藏層節(jié)點(diǎn)數(shù)為100。

      3.3.4激活函數(shù)實(shí)驗(yàn)

      本節(jié)分析APNN網(wǎng)絡(luò)激活函數(shù)對(duì)預(yù)估結(jié)果的影響。根據(jù)前幾節(jié)實(shí)驗(yàn)的結(jié)果,設(shè)置學(xué)習(xí)率為0.001,隱藏層數(shù)目為3,節(jié)點(diǎn)數(shù)為100,采用ReLU和Tanh函數(shù)進(jìn)行對(duì)比,根據(jù)表5中AUC和RMSE評(píng)價(jià)指標(biāo),ReLU函數(shù)比Tanh函數(shù)的表現(xiàn)略好。

      表5 激活函數(shù)對(duì)性能的影響

      3.3.5隨機(jī)失活率的實(shí)驗(yàn)

      本節(jié)分析不同的隨機(jī)失活率對(duì)預(yù)估結(jié)果的影響。為防止模型過擬合,本文采用L2正則化和隨機(jī)失活的方法。隨機(jī)失活率為0.5表示在遍歷網(wǎng)絡(luò)中每一層時(shí),會(huì)隨機(jī)丟棄50%的節(jié)點(diǎn)。隨機(jī)失活依次設(shè)置為{0.1,0.2,0.3,0.4,0.5},結(jié)果見表6。

      表6 隨機(jī)失活率對(duì)性能的影響

      觀察表6,使用隨機(jī)失活的方法可以提高模型的表現(xiàn),當(dāng)p小于0.2時(shí),模型的性能不斷提升,可知若不使用隨機(jī)失活,會(huì)導(dǎo)致模型過擬合,當(dāng)p大于0.2時(shí),模型的預(yù)估性能逐步下降,可能的原因是本文同時(shí)采用L2正則化和隨機(jī)失活率的方法,影響模型的學(xué)習(xí)的能力。結(jié)合AUC和RMSE的表現(xiàn),選擇隨機(jī)失活率為0.2。

      通過使用網(wǎng)格搜索法,對(duì)學(xué)習(xí)率、隱藏層數(shù)目、隱藏層節(jié)點(diǎn)數(shù)、激活函數(shù)和隨機(jī)失活率重要的超參數(shù)進(jìn)行實(shí)驗(yàn),討論不同情況下模型的預(yù)估效果。通過分析AUC和RMSE兩種評(píng)價(jià)指標(biāo),確定最優(yōu)的超參數(shù)組合,即設(shè)置學(xué)習(xí)率為0.001,隱藏層數(shù)目為3,隱藏層節(jié)點(diǎn)數(shù)為100,激活函數(shù)為ReLU,隨機(jī)失活率為0.2。

      3.3.6與典型的模型進(jìn)行對(duì)比實(shí)驗(yàn)

      在相同的實(shí)驗(yàn)環(huán)境下,分別采用FM模型、基準(zhǔn)模型(嵌入層+MLR)、PNN、DeepFM、XDeepFM模型和AP-XDeepFM模型進(jìn)行對(duì)比實(shí)驗(yàn),其中深度學(xué)習(xí)模型在層數(shù)以及每層節(jié)點(diǎn)數(shù)保持一致,優(yōu)化方法采用Adam算法,學(xué)習(xí)率為0.001,嵌入向量的維度為10。結(jié)果如表7所示。

      表7 不同模型的性能對(duì)比

      實(shí)驗(yàn)結(jié)果分析:基準(zhǔn)模型的預(yù)測(cè)效果優(yōu)于FM模型,深度學(xué)習(xí)模型的預(yù)測(cè)性能優(yōu)于基準(zhǔn)模型。從AUC和RMSE指標(biāo)分析,本文提出的模型AP-XDeepFM效果優(yōu)于其他模型。相比于基準(zhǔn)模型,其AUC值提高了0.006 6,RMSE值降低了0.001 3。實(shí)驗(yàn)結(jié)果表明了AP-XDeepFM模型能通過顯式和隱式的方式,充分挖掘反映目標(biāo)變量的高階特征,還能自動(dòng)學(xué)習(xí)二階交叉項(xiàng),豐富模型的特征,使用注意力機(jī)制,加大重要特征的權(quán)重,從而有效地提高了模型的學(xué)習(xí)能力和泛化能力。綜上,本文改進(jìn)的模型能夠提高CTR預(yù)測(cè)性能。

      4 結(jié) 語

      為提高CTR預(yù)測(cè)效果,本文在XDeepFM模型的基礎(chǔ)上進(jìn)行改進(jìn),提出一種新的融合結(jié)構(gòu)——AP-XDeepFM模型。從兩個(gè)角度作為出發(fā)點(diǎn),(1) 加大重要交互特征的權(quán)重,引入注意力機(jī)制;(2) 挖掘特征之間的關(guān)系,引入FM自動(dòng)捕獲一階以及由一階生成的二階特征,在DNN的基礎(chǔ)上加入一個(gè)Product層,以便進(jìn)行更加細(xì)致的學(xué)習(xí)高階特征。通過實(shí)驗(yàn)討論模型學(xué)習(xí)率、隱藏層層數(shù)、節(jié)點(diǎn)數(shù)、激活函數(shù)和隨機(jī)失活率對(duì)模型性能的影響,并與幾種典型的CTR預(yù)估模型進(jìn)行對(duì)比。實(shí)驗(yàn)表明:該融合模型比現(xiàn)有的模型在AUC和RMSE上略有提升,可在元素級(jí)別和向量級(jí)別上顯式和隱式地學(xué)習(xí)特征交互,也能捕捉到低階交互特征,并使得重要交互特征發(fā)揮作用,有效地挖掘了高階和低階交互特征,提高了模型的預(yù)測(cè)性能。

      猜你喜歡
      失活預(yù)估向量
      美國(guó)銀行下調(diào)今明兩年基本金屬價(jià)格預(yù)估
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      向量垂直在解析幾何中的應(yīng)用
      史密斯預(yù)估控制在排焦控制中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      草酸二甲酯加氫制乙二醇催化劑失活的研究
      河南科技(2015年2期)2015-02-27 14:20:35
      冷凍脅迫下金黃色葡萄球菌的亞致死及失活規(guī)律
      Depulpin、三聚甲醛和砷牙髓失活劑的臨床療效比較
      年齡和組織類型對(duì)X連鎖Alport綜合征女性患者X染色體失活方式的影響
      湛江市| 林甸县| 龙江县| 若羌县| 辽阳县| 崇文区| 洛浦县| 冀州市| 营口市| 汪清县| 沁阳市| 松阳县| 蒲江县| 朝阳市| 清远市| 雅安市| 开江县| 米易县| 融水| 林西县| 边坝县| 马山县| 尚义县| 陵川县| 临桂县| 常熟市| 临高县| 东阿县| 揭东县| 科技| 新邵县| 古浪县| 双辽市| 泸定县| 景洪市| 扶余县| 临海市| 巫溪县| 堆龙德庆县| 石泉县| 连江县|