• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      廣告點擊率預(yù)估技術(shù)綜述

      2015-10-31 08:55:08陳巧紅余仕敏賈宇波
      關(guān)鍵詞:點擊率預(yù)估特征

      陳巧紅,余仕敏,賈宇波

      (浙江理工大學(xué)信息學(xué)院,杭州310018)

      廣告點擊率預(yù)估技術(shù)綜述

      陳巧紅,余仕敏,賈宇波

      (浙江理工大學(xué)信息學(xué)院,杭州310018)

      廣告點擊率的預(yù)估是計算廣告學(xué)領(lǐng)域的重要研究內(nèi)容,準(zhǔn)確的廣告點擊率預(yù)估可以提高真實的廣告點擊率,增加收益。邏輯回歸模型、支持向量機(jī)模型、貝葉斯模型、神經(jīng)網(wǎng)絡(luò)模型等模型適用于歷史廣告點擊數(shù)據(jù)豐富的情況,適用無歷史廣告點擊數(shù)據(jù)和廣告點擊數(shù)據(jù)稀疏的模型包括層次聚類模型、相似項預(yù)估模型、因子分解機(jī)等模型,而時間空間模型、層次模型則適用上述所有廣告點擊數(shù)據(jù)的情況。根據(jù)不同的廣告數(shù)據(jù)特征,采用不同的模型,可以獲得很好的預(yù)估效果。

      廣告點擊率;預(yù)估模型;神經(jīng)網(wǎng)絡(luò);因子分解機(jī)

      0 引 言

      廣告點擊率(click-through rate,CTR)是指在廣告顯示中廣告被用戶點擊的概率,廣告點擊率的預(yù)估就是根據(jù)廣告數(shù)據(jù)和用戶數(shù)據(jù)來預(yù)估廣告點擊率?,F(xiàn)在很多搜索公司例如百度聯(lián)盟和Google AdSense都是采用點擊付費(cost per click,CPC)[1],點擊付費是現(xiàn)在主流的付費方式,這類付費機(jī)制最適合交易型廣告,此類廣告的收益就是點擊次數(shù)和每次點擊的付費金額的乘積。研究顯示,用戶點擊廣告的概率性與廣告的投放位置有很大的相關(guān)性[2],要獲得最大的收益就是要把點擊率大的廣告投放在靠前的位置。根據(jù)精確的CTR預(yù)測來確定投放的順序,在線地在返回頁面中投放廣告[3]。

      為了預(yù)測廣告的點擊率,要充分考慮影響廣告點擊率的因素,例如廣告自身的影響和廣告瀏覽者的影響相關(guān)性,上下文內(nèi)容的相關(guān)性等因素,從而進(jìn)一步提高廣告的點擊率,使點擊次數(shù)和每次點擊的付費金額的乘積變大,以此擴(kuò)大搜索引擎的收益。

      1 在線廣告點擊率預(yù)估流程

      圖1所示廣告點擊率預(yù)估流程,數(shù)據(jù)包括廣告日志數(shù)據(jù)以及用戶數(shù)據(jù),根據(jù)不同模型的要求提取相應(yīng)的特征數(shù)據(jù),這些特征數(shù)據(jù)通過歸一化或是規(guī)范化后,輸入到點擊率預(yù)估模型訓(xùn)練,通過預(yù)估出的點擊率再進(jìn)行排序,確定廣告的投放位置,提高真實的點擊率,從而擴(kuò)大收益。

      圖1 點擊率預(yù)估系統(tǒng)流程

      廣告點擊率預(yù)估模型就是利用機(jī)器學(xué)習(xí)算法模型以及概率統(tǒng)計模型去預(yù)估廣告的點擊率,如圖2所示。其中基于歷史廣告數(shù)據(jù)豐富的預(yù)估模型,本文分別介紹邏輯回歸模型[4]、貝葉斯模型[5-8]、基于決策樹模型[9-10]、遞歸神經(jīng)網(wǎng)絡(luò)模型[11]、支持向量機(jī)模型[12-13]、混合模型[14]和COEC模型[15]?;谙∈鑿V告數(shù)據(jù)和新廣告數(shù)據(jù)的預(yù)估模型,本文介紹基于層次的預(yù)估模型[16-18]、相似項點擊率預(yù)估模型[19]、基于先驗概率的實時點擊預(yù)估模型[20]、時間空間模型[21]]和因子分解機(jī)模型[22]。

      圖2 廣告點擊率的預(yù)估模型

      圖3所示的是廣告點擊率預(yù)估常用的評估方法,常用的有KL距離(KL-Divergence)[20]和ROC曲線下面積(area under curve,AUC)方法[21]。

      圖3 廣告點擊率模型的評估方法

      2 廣告點擊率預(yù)測的模型

      2.1基于歷史數(shù)據(jù)豐富的預(yù)估模型

      在廣告本身的歷史數(shù)據(jù)點擊數(shù)據(jù)豐富的情況下,預(yù)測該類型的廣告要充分利用廣告的歷史點擊數(shù)據(jù),基于邏輯回歸的預(yù)估模型、基于貝葉斯網(wǎng)絡(luò)的預(yù)估模型、基于支持向量機(jī)的預(yù)估模型、基于神經(jīng)網(wǎng)絡(luò)的預(yù)估模型和基于決策樹的預(yù)估模型等模型在歷史數(shù)據(jù)豐富的情況下可以得到很好的訓(xùn)練,最終獲得很好的預(yù)估效果。

      2.1.1基于邏輯回歸預(yù)估模型

      Richardson等[4]采用邏輯回歸模型(logistic regression model)去預(yù)估廣告點擊率,目前很多公司的廣告點擊率預(yù)估都是基于邏輯回歸的預(yù)估模型。該模型的特點就是簡單且非常適合解決概率預(yù)估問題,其核心計算公式為:

      式(1)中的i是廣告的第個特征的數(shù)值,是廣告的第i個特征的學(xué)習(xí)權(quán)值。

      該文使用L-BFGS(limited-memory broydenfletcher-goldfarb-shanno)方法(該方法是擬牛頓方法的一個優(yōu)化算法)來訓(xùn)練邏輯回歸模型,損失函數(shù)使用零均值和標(biāo)準(zhǔn)差的正態(tài)分布的交叉熵函數(shù),每一個廣告特征都?xì)w一化為期望值為0、單元標(biāo)準(zhǔn)差的數(shù),該歸一化也應(yīng)用于之后的訓(xùn)練和測試廣告特征數(shù)據(jù)集。模型效果評估采用的是KL距離,文中的KL距離是模型預(yù)測的CTR和真實的CTR的距離。KL距離簡化了log似然模型,忽略測試數(shù)集的熵。作者還增加一個均方差(mean squared error,MSE)作為一個評估指標(biāo)。由于邏輯回歸模型采用最大似然估計,需要大量數(shù)據(jù)以保證性能,所以不適合對稀疏廣告數(shù)據(jù)的預(yù)估。

      2.1.2基于支持向量機(jī)算法的預(yù)估模型

      Joachims[5]提出了從web搜索引擎日志中挖掘點擊數(shù)據(jù),利用支持向量機(jī)實現(xiàn)對廣告點擊率的預(yù)估。支持向量機(jī)(support vector machine,SVM)利用核函數(shù)將一個向量映射到比其自身更高維的空間,在高維空間建立一個最大間隔的超平面。在分隔超平面兩邊各有一個與之平行的超平面,最大化平行超平面之間的間隔,平行超平面距離越大,分類效果越好?;诤撕瘮?shù),支持向量機(jī)可以處理多維非線性數(shù)據(jù)。該文利用點擊數(shù)據(jù)通過支持向量機(jī)來預(yù)估點擊率,從而提高搜索引擎的檢索能力,在沒有明確的反饋信息和沒有人工參數(shù)優(yōu)化的情況下,該模型可以自動適應(yīng)一些特殊的參數(shù)選擇。

      2.1.3基于貝葉斯網(wǎng)絡(luò)的預(yù)估模型

      Chapelle等[6]提出動態(tài)貝葉斯網(wǎng)絡(luò)模型,作者介紹了滿意度的概念,利用這個概念去分別模擬登陸頁面的相關(guān)性和搜索結(jié)果頁面可感知的相關(guān)性。動態(tài)貝葉斯網(wǎng)絡(luò)模型是用來模擬用戶瀏覽行為,并且認(rèn)為只有用戶看到鏈接并且認(rèn)為該鏈接與用戶所要獲得的信息有關(guān)的情況下才去點擊這個鏈接,用戶基于文檔觀察相關(guān)性決定是否要點擊和通過結(jié)果做出一個線性橫向選擇。如果用戶不滿意點擊的鏈接他們會選擇點擊下一個鏈接(基于真實的相關(guān)性)。

      Guo等[7]提出基于貝葉斯結(jié)構(gòu)的點擊鏈模型(click chain model in web search),類似鏈表結(jié)構(gòu),所以該模型具有很好的擴(kuò)展性。將文檔內(nèi)容的相關(guān)性和用戶點擊下一個鏈接的概率作為相關(guān)性后驗參數(shù)來建立模型的。

      Graepel等[8]提出在線貝葉斯概率回歸模型(online bayesian probability regression),該模型基于特定廣告特征,所以很難準(zhǔn)確做到個性化推薦。

      Dupret等[9]提出了一種用戶瀏覽模型的點擊率估算方法,利用點擊日志預(yù)測文檔的點擊率,假設(shè)每次用戶點擊行為都是互相獨立,將日志內(nèi)容的相關(guān)性和位置距離作為參數(shù),利用EM(expectation maximization)算法迭代計算出所有參數(shù)的最大似然估計,再利用交叉檢驗的方法進(jìn)行性能評估。

      基于貝葉斯網(wǎng)絡(luò)的模型,當(dāng)數(shù)據(jù)發(fā)生變化時模型必須重新訓(xùn)練,耗時過長,且對新廣告數(shù)據(jù)無法預(yù)估。2.1.4 基于神經(jīng)網(wǎng)絡(luò)的預(yù)估模型

      Zhang等[10]提出了利用遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)來預(yù)測搜索廣告的點擊率問題。遞歸神經(jīng)網(wǎng)絡(luò)是在多層神經(jīng)網(wǎng)絡(luò)的中間層建立一種組合的遞歸網(wǎng)絡(luò),用于取代一般的多層網(wǎng)絡(luò),并依次對被控對象的動態(tài)特性進(jìn)行直接的學(xué)習(xí),通過調(diào)整其中有關(guān)參數(shù),以獲得所需的最優(yōu)控制輸入,過去的一些工作只是將單獨的廣告曝光作為輸入去預(yù)測點擊概率,并沒有考慮到不同廣告曝光的依賴性,而且過去在時間序列的分析常常也只是關(guān)注于構(gòu)建數(shù)據(jù)序列趨勢或是周期性模式。近些年來的一些研究利用RNN來解決數(shù)據(jù)的時間依賴的問題。例如RNN語言模型[11]成功的利用大量語言庫中的大跨度連續(xù)的信息,獲得了比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)語言模型更好的效果。RNN由于它的特殊的遞歸神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)使其有很大的能力去利用數(shù)據(jù)間連續(xù)的依賴關(guān)系。Michael Auli等認(rèn)為每個用戶的廣告瀏覽歷史可以作為一個序列,從而產(chǎn)生了固有的內(nèi)部依賴關(guān)系。神經(jīng)網(wǎng)絡(luò)的輸入量必須是二元值,基于BPTT(back propagation through time)算法的RNN框架如圖4所示,實驗結(jié)果表明,比起神經(jīng)網(wǎng)絡(luò)和邏輯回歸模型該模型的預(yù)測廣告點擊率更加準(zhǔn)確。模型的評測標(biāo)準(zhǔn)采用的是AUC(area under roc curve)和RIG(relative information gain)。

      圖4 RNN結(jié)構(gòu)框架

      2.1.5基于決策樹的點擊率預(yù)估模型

      Dave等[12]在文中從廣告數(shù)據(jù)中提取相似性特征,再利用梯度增強(qiáng)決策樹(gradient boosting decision tree,GBDT)作為一個回歸模型訓(xùn)練相似特征來預(yù)估廣告點擊率。GBDT不像傳統(tǒng)的決策樹模型只有一棵決策樹,而是由多棵決策樹組成的。Boosting的基本思想是將一系列弱分類器組合起來,構(gòu)成一個強(qiáng)分類器,也就是讓每棵樹不需要學(xué)太多的東西而是學(xué)一點點,再將每棵樹學(xué)到的知識累加起來組合成一個強(qiáng)大的模型。它的思想起源于Valiant提出的PAC(probably approximately correct)學(xué)習(xí)模型。

      Rofimov等[13]提出了基于強(qiáng)分類決策樹(boosting tree)的一種機(jī)器學(xué)習(xí)的算法Matrix Net,它是梯度提升機(jī)器模型(gradient boosting machine,GBM)算法中采用隨機(jī)上升(stochastic boosting)的修改版算法。Matrix Net算法繼承了GBM的優(yōu)點,而且在GBM中采用隨機(jī)上升可以進(jìn)一步提高準(zhǔn)確性和功能性。Matrix Net從GBM算法繼承以下3個主要的超參數(shù),分別是上升步長M,正則化率v和最大樹高度H。作者采用均方誤差(MSE)作為效果評測標(biāo)準(zhǔn)。

      增強(qiáng)分類決策樹的優(yōu)點:a)防止過度擬合;b)高階交互處理;c)接近不連續(xù)函數(shù);d)在大多數(shù)情況下不需要功能轉(zhuǎn)換。

      2.1.6COEC預(yù)估模型

      Zhang等[14]提出了COEC(clicks over expected clicks)模型,COEC定義為預(yù)先設(shè)置一個期望的點擊率值,再利用實際點擊率與之前設(shè)置的期望點擊率的比值作為目標(biāo)函數(shù),它具有排序標(biāo)準(zhǔn)化的好處。

      2.1.7混合模型

      Wang等[15]提出了將4種模型(在線貝葉斯概率回歸(online bayesian probit regression)、支持向量機(jī)(support vector machine)和因子模型(latent factor model)和基于最大似然估計的模型(maximum likelihood estimation)組合起來使用的一種混合模型,該模型可以更好地模擬用戶點擊行為,進(jìn)而預(yù)估廣告的點擊率。首先使用基于一種綜合特征的方法去抽取和產(chǎn)生描述特征數(shù),然后使用上述的描述特征數(shù),將四種模型應(yīng)用于訓(xùn)練數(shù)集中,使用基于MLE的一些模型方法去模擬經(jīng)常在訓(xùn)練集中出現(xiàn)的實例,是為了充分利用訓(xùn)練數(shù)集,最后提出了一種基于排序的集成學(xué)習(xí)方法,該方法可以規(guī)范化4種模型方法的結(jié)果并產(chǎn)生最后的結(jié)果。圖5就是作者所使用的多種模型結(jié)構(gòu)圖。特別需要指出的是針對多種模型使用了兩組特征數(shù),一組是原始特征數(shù)(包括離散特征和連續(xù)特征),一組是合成特征數(shù)(將任意兩組原始離線特征數(shù)結(jié)合起來作為一個合成特征數(shù))。最后的評估標(biāo)準(zhǔn)采用的是ROC曲線下面積。

      圖5 多模型結(jié)構(gòu)

      2.2基于稀疏數(shù)據(jù)廣告和新廣告數(shù)據(jù)的預(yù)估模型

      具有豐富歷史點擊數(shù)據(jù)的廣告畢竟是少數(shù),大多數(shù)的點擊數(shù)和曝光數(shù)都是很稀疏的,特別是新投放到平臺的廣告更是沒有歷史點擊數(shù)據(jù)的參考,所有需要在線地評估。2.1節(jié)所介紹的預(yù)估模型對歷史數(shù)據(jù)豐富的情況下,能獲得很好的預(yù)估效果,但是對上述問題不奏效,針對上述問題,下面介紹了基于層次的預(yù)估模型、基于相似項的預(yù)估模型、基于時間空間的預(yù)估模型和基于先驗概率的實時點擊的預(yù)估模型來解決廣告數(shù)據(jù)稀疏和新廣告的預(yù)估問題。

      2.2.1基于層次結(jié)構(gòu)的模型

      Regelson等[16]提出了一種層次聚類(hierarchical clustering)方法,在歷史數(shù)據(jù)不足缺少或者沒有歷史數(shù)據(jù)情況下,用廣告的文檔相似度來預(yù)估點擊率,這種使用歷史數(shù)據(jù)分層聚合的方法可以獲得更準(zhǔn)確的估計。

      Agarwal等[17]提出使用稀疏數(shù)據(jù)預(yù)先存在的層次結(jié)構(gòu),解決稀疏事件及其稀疏數(shù)據(jù)的出現(xiàn)率估算問題,主要解決針對web網(wǎng)頁、廣告的點擊率的預(yù)估,這些網(wǎng)頁和廣告都可以在不同粒度中獲取廣泛的上下文信息來按層次分類。典型的情況是點擊率非常低的和層次覆蓋面比較稀疏的問題,為了解決這些問題,該文作者采用的抽樣方法是分析那些從訓(xùn)練集中選取的特別樣本。該模型的預(yù)估點擊率模型可以分為兩個階段,第一個階段就是調(diào)整樣本偏差,第二個階段就是采用樹形結(jié)構(gòu)的馬爾可夫模型(tree-structured markov model),通過同一級節(jié)點的相關(guān)性來達(dá)到對該層次點擊率的預(yù)估。

      Agarwal等[18]提出了一種針對稀疏事件廣告數(shù)據(jù)具有高維多元可分層特征的預(yù)估方法模型,該模型叫做多層次Log線性模型(log-linear model for multiple hierarchies),這種模型可以處理在Map-Reduce框架的大規(guī)模數(shù)據(jù)(十億級別的訓(xùn)練集合,數(shù)百萬潛在的預(yù)測因子)??紤]到準(zhǔn)確性和擴(kuò)展性,采用了一個基于尖峰和平板回歸(spike and slab prior)的內(nèi)置篩選過程,刪除那些影響預(yù)測準(zhǔn)確性的因子,保證準(zhǔn)確性。

      2.2.2基于相似項的預(yù)估模型

      Richardson等[19]提出了一種方法利用新廣告和已知點擊率廣告的相同或者相似項(Term)去預(yù)測新廣告的點擊率。根據(jù)新廣告與舊廣告的相似項在線地根據(jù)新廣告數(shù)據(jù)評估新廣告的點擊率,采用聚類的方法,通過廣告內(nèi)容的相似度來預(yù)估點擊率。

      2.2.3基于時間空間的預(yù)估模型

      Agrawal等[20]在2009年提出了時空模型(spatio-temporal predicting models)預(yù)估點擊率,通過動態(tài)伽馬泊松模型(dynamic gamma-poisson model)計算一段時間內(nèi)固定位置的文檔點擊率;通過動態(tài)線性回歸模型(dynamic linear regressions)結(jié)合相關(guān)位置的文檔信息,有效地提高每一位置的點擊數(shù),文中的各個模型通過基于特殊用戶和重復(fù)曝光性特征的首次點擊概率(probability of click on first article exposure)的指數(shù)級數(shù)來調(diào)整用戶的疲勞度,并且該模型支持個性化的推薦。

      2.2.4基于先驗的實時點擊預(yù)估模型

      Fang等[21]提出了一種針對具有極其稀疏和瞬時性特征的廣告數(shù)據(jù)實時點擊的預(yù)估模型。鑒于好的ID特征數(shù)據(jù)具有極其稀疏和瞬時性特征,這使傳統(tǒng)的機(jī)器學(xué)習(xí)處理起來很困難。提出了基于先驗的實時點擊預(yù)估模型(prior-based real-time estimator model,PRE),該模型可以直接使用上述的特征數(shù)據(jù),首先從之前學(xué)習(xí)的先驗?zāi)P陀嬎悴煌S的經(jīng)驗點擊率數(shù)據(jù),然后構(gòu)造最小方差無偏估計量(minimum variance unbiased estimator)來作為點擊率數(shù)據(jù)的加權(quán)和,最后使用權(quán)值參數(shù)的另一個數(shù)集來放寬獨立性假設(shè)這個條件,獨立性假設(shè)這個條件影響每一維的數(shù)據(jù)。PRE模型最大的好處就是它自身具有實時性,只需要一些參數(shù)進(jìn)行離線學(xué)習(xí),PRE模型經(jīng)過一段時間訓(xùn)練就可以得出相對穩(wěn)定的結(jié)果,并且簡單。與此同時,所有的在線計算都在封閉中進(jìn)行的,而且證明很有效果。為了進(jìn)一步提高估計效果,還使用了若干模型的融合技術(shù)去更好的結(jié)合LR模型和PRE模型。最后通過實驗得出,PRE模型可以提高點擊率預(yù)估模型的準(zhǔn)確性和排名能力,特別是結(jié)合最新的數(shù)據(jù),該模型的時效性超過一般的機(jī)器學(xué)習(xí)模型。

      2.2.5因子分解機(jī)模型

      Rendle等[22]提出因子分解機(jī)模型(factorization machine models),過去因子分解模型雖然是預(yù)測效果很好的模型,但是只針對特定的數(shù)據(jù)集,并且需要用不同的方法去處理不同的數(shù)據(jù)集,例如有平行因子分析法(parallel factor analysis)、因子分解個性化馬爾可夫鏈(factorizing personalized markov chains)等因子分解的方法。因子分解機(jī)模型是結(jié)合支持向量機(jī)和因子分解模型的優(yōu)點,支持向量機(jī)無法對稀疏數(shù)據(jù)進(jìn)行預(yù)估,因子分解機(jī)不斷的事實化參數(shù)對參數(shù)變量進(jìn)行建模,所以因子分解機(jī)仍然適用于稀疏數(shù)據(jù)的預(yù)估,這也是與支持向量機(jī)相比最大的優(yōu)點。

      2.3各種模型的對比和總結(jié)

      前面介紹了各種廣告點擊率預(yù)估模型,針對不同廣告數(shù)據(jù)來源采用不同的預(yù)估模型,不同的預(yù)估模型有它的優(yōu)缺點,適用的場合也不盡相同,各模型具體的比較如表1所示。

      表1 廣告點擊率預(yù)估模型的優(yōu)點和缺點

      由于每個模型都有優(yōu)缺點,為了克服一些缺點,新的算法不斷地被提出,例如平衡采樣邏輯回歸算法[23]采用平衡采樣,由于刪除了大量的負(fù)樣本集,能縮短了訓(xùn)練時間,能在不犧牲點擊率預(yù)估效果提升系統(tǒng)的性能,解決了訓(xùn)練時間的問題;基于聯(lián)合概率矩陣分解的上下文廣告推薦算法[24],該算法適用于廣告數(shù)據(jù)稀疏和大規(guī)模數(shù)據(jù)的情況,解決了過去了一些模型無法預(yù)估稀疏廣告數(shù)據(jù)和大規(guī)模廣告數(shù)據(jù)的缺點。

      3 廣告點擊率模型的評估方法

      3.1KL距離

      KL距離[25](KL-divergence)又叫相對熵,它是兩個概率分布的距離,這里的距離不是真實的距離,相對熵衡量的是相同事件空間里的兩個概率分布的差異情況,其意義就是概率分布P(x)事件空間,如果使用Q(x)概率(也可以叫做真實的概率情況)去編碼,其基本事件的平均編碼長度增加了多少比特。其計算公式如下:

      式(2)中D(P||Q)就是KL距離。P(x)信息熵的含義是平均每個基本事件至少需要多少比特編碼。根據(jù)信息熵的知識可知,不存在其他比按照自身概率分布更好的編碼方式。所以相對熵是大于等于0的。預(yù)估的點擊率概率分布是Q(x),真實的點擊率概率分布是P(x),由此可以得出KL距離越小,越接近真實的概率分布,所以模型預(yù)估的點擊率越準(zhǔn)確,效果越好。

      3.2ROC曲線下面積法[26]

      ROC(receiver operating characteristic)曲線分析,它是醫(yī)療分析領(lǐng)域的一種新的分類模型性能的評估方法,其中ROC的混淆矩陣主要用于比較分類結(jié)果和實例的真實信息,矩陣的每一行代表實例的預(yù)測類型,每一列代表實例的真實類別,在ROC坐標(biāo)中,橫坐標(biāo)表示假正率,縱坐標(biāo)表示真正率,真正率表示正例分到正的概率,假正率表示負(fù)例錯誤的分到正的概率。

      圖6 ROC曲線

      圖6所示,曲線下面積AUC就是處于ROC曲線下方的那部分面積的大小。AUC的值在[0.5,1]區(qū)間內(nèi),值較大表示性能較優(yōu)。首先根據(jù)模型預(yù)測的每個廣告的點擊率的不同,按高低依次確定投放廣告的位置,預(yù)測值大的放在前面,然后根據(jù)真實的點擊所反饋的信息,假正率等于1減去真正率,預(yù)設(shè)一個閾值,根據(jù)閾值將實例分成正類和負(fù)類,根據(jù)分類結(jié)果來繪制ROC曲線,其中Y軸方向代表被點擊率,X軸代表未被點擊率,由此可以得知ROC曲線下面積就越大,AUC就越大,預(yù)估的廣告點擊率就越準(zhǔn)確。

      4 結(jié) 語

      廣告點擊率是計算廣告的重要內(nèi)容,也是提高廣告收益的主要手段之一,本文首先介紹了一些相關(guān)知識,然后重點介紹了多種廣告點擊率的預(yù)估模型,基于歷史廣告數(shù)據(jù)的預(yù)估模型,例如邏輯回歸模型、貝葉斯模型、決策樹模型等,還有針對歷史廣告數(shù)據(jù)不足的預(yù)估模型,例如分層聚類模型,對未投放的新廣告的預(yù)估模型,例如Term CTR模型,還有適用于所有廣告數(shù)據(jù)的模型,例如時間空間模型和層次模型,最后介紹了點擊率預(yù)估模型的常用的評估方法。

      互聯(lián)網(wǎng)的快速發(fā)展,廣告點擊率的預(yù)估模型也在不斷的改變,傳統(tǒng)上Google、百度等搜索公司是以邏輯回歸模型作為預(yù)估模型,百度意識到LR嚴(yán)重限制了模型學(xué)習(xí)與抽象特征的能力[27],百度嘗試將DNN(deep neural network)深度學(xué)習(xí)應(yīng)用到搜索廣告,并于2013年服務(wù)于百度搜索廣告系統(tǒng)。但DNN在搜索廣告的應(yīng)用遠(yuǎn)遠(yuǎn)不夠,結(jié)合海量的廣告點擊數(shù)據(jù),如何充分發(fā)揮分布式分析計算的最大能力去實現(xiàn)廣告點擊率預(yù)估,如何提高廣告點擊率預(yù)估的準(zhǔn)確性以及更好地實現(xiàn)個性化廣告精準(zhǔn)推薦,是未來的發(fā)展方向。

      [1]李 敏.計算廣告學(xué)將成為數(shù)字商業(yè)的奠基學(xué)科[J].程序員,2014(5):109-109.

      [2]周傲英,周敏奇,宮學(xué)慶.計算廣告:以數(shù)據(jù)為核心的Web綜合利用[J].計算機(jī)學(xué)報,2011,34(10):1805-1891.

      [3]紀(jì)文迪,王曉玲,周傲英.廣告點擊率估算技術(shù)綜述[J].華東師范大學(xué)學(xué)報:自然科學(xué)版,2013(3):2-14.

      [4]Richardson M,Dominowska E,Ragno R.Predicting clicks:estimating the click-through rate for new ads[C]//Proceedings of the 16th International Conference on World Wide Web.ACM,2007:521-530.

      [5]Joachims T.Optimizing search engines using clickthrough data[C]//Proceedings of the 8th ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining.ACM,2002:133-142.

      [6]Chapelle O,Zhang Y.A dynamic bayesian network click model for web search ranking[C]//Proceedings of the 18th International Conference on World Wide Web. ACM,2009:1-10.

      [7]Guo F,Liu C,Kannan A,et al.Click chain model in web search[C]//Proceedings of the 18th International Conference on World Wide Web.ACM,2009:11-20.

      [8]Graepel T,Candela J Q,Borchert T,et al.Web-scale bayesian click-through rate prediction for sponsored search advertising in microsoft's bing search engine[C]// Proceedings of the 27th International Conference on Machine Learning(ICML-10).2010:13-20.

      [9]Dupret G E,Piwowarski B.A user browsing model to predict search engine click data from past observations[C]//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2008:331-338.

      [10]Zhang Y,Dai H,Xu C,et al.Sequential click prediction for sponsored search with recurrent neural networks[J].AAAI,2014:1369-1375.

      [11]Auli M,Galley M,Quirk C,et al.Joint language and translation modeling with recurrent neural networks[C]//EMNLP.2013:1044-1054.

      [12]Dave K,Varma V.Predicting the click-through rate for rare/new ads[R].Centre for Search and Information Extraction Lab International Institute of Information Technology Hyderabad-500 032,India,2010.

      [13]Rofimov I,Kornetova A,Topinskiy V.Using boosted trees for click-through rate prediction for sponsored search[C]//Proceedings of the 6th International Workshop on Data Mining for Online Advertising and Internet Economy.ACM,2012:2.

      [14]Zhang W V,Jones R.Comparing click logs and editorial labels for training query rewriting[C]//WWW 2007 Workshop on Query Log Analysis:Social and Technological Challenges.2007.

      [15]Wang X,Lin S,Kong D,et al.Click-through prediction for sponsored search advertising with hybrid models[C]//KDD Workshop.2012.

      [16]Regelson M,F(xiàn)ain D.Predicting click-through rate using keyword clusters[C]//Proceedings of the Second Workshop on Sponsored Search Auctions.2006,9623.

      [17]Agarwal D,Broder A Z,Chakrabarti D,et al. Estimating rates of rare events at multiple resolutions[C]//Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2007:16-25.

      [18]Agarwal D,Agrawal R,Khanna R,et al.Estimating rates of rare events with multiple hierarchies through scalable log-linear models[C]//Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2010:213-222.

      [19]Richardson M,Dominowska E,Ragno R.Predicting clicks:estimating the click-through rate for new ads[C]//Proceedings of the 16th International Conference on World Wide Web.ACM,2007:521-530.

      [20]Agarwal D,Chen B C,Elango P.Spatio-temporal models for estimating click-through rate[C]// Proceedings of the 18th International Conference on World Wide Web.ACM,2009:21-30.

      [21]Fang Y,Liu J.A novel prior-based real-time click through rate prediction model[J].International Journal of Machine Learning and Cybernetics,2014,5(6):887-895.

      [22]Rendle S.Factorization machines[C]//Data Mining(ICDM),2010 IEEE 10th International Conference on. IEEE,2010:995-1000.

      [23]施夢圜,顧津吉.基于平衡采樣的輕量級廣告點擊率預(yù)估方法[J].計算機(jī)應(yīng)用研究,2014,31(1):33-36.

      [24]涂丹丹,舒承椿,余海燕.基于聯(lián)合概率矩陣分解的上下文廣告推薦算法[J].軟件學(xué)報,2013,24(3):454-464.

      [25]Kullback S,Leibler R A.On information and sufficiency[J].The Annals of Mathematical Statistics,1951,22(1):79-86.

      [26]劉 唐.基于多類別特征的在線廣告點擊率預(yù)測研究:以騰訊搜搜為例[D].北京:北京郵電大學(xué),2012.

      [27]余 凱,賈 磊,陳雨強(qiáng).深度學(xué)習(xí):推進(jìn)人工智能的夢想[J].程序員,2013(6):22-27.Overview of Advertisement Click-through Rate Estimating Techniques

      CHEN Qiao-hong,YU Shi-min,JIA Yu-bo
      (School of Information Science and Technology,Zhejiang Sci-Tech University,Hangzhou 310018,China)

      The prediction of advertisement click-through rate is an important research content in the field of computational advertising.Accurate prediction of advertisement click-through rate can improve real advertisement click-through rate and increase income.Logistic regression model,support vector machine(SVM)model,the Bayesian model and neural network model are applicable to enriching historical advertisement click-through data,the models without historical advertisement click-through data and sparse advertisement click-through data,similar term prediction model and factorization machine etc.Time-space model and hierarchical model apply to all the above situations.According to the characteristics of different advertising data,different models can get good prediction effect.

      cadvertisement click-through rate;prediction model;neural network;factorization machine

      TP181

      A

      1673-3851(2015)06-0851-07

      (責(zé)任編輯:陳和榜)

      2014-11-13

      浙江省自然科學(xué)基金項目(LQ13F020015)

      陳巧紅(1978-),女,浙江臨海人,副教授,主要從事計算機(jī)輔助設(shè)計及機(jī)器學(xué)習(xí)技術(shù)方面的研究。

      余仕敏,E-mail:ywy2130635@163.com

      猜你喜歡
      點擊率預(yù)估特征
      美國銀行下調(diào)今明兩年基本金屬價格預(yù)估
      如何表達(dá)“特征”
      不忠誠的四個特征
      基于特征工程的視頻點擊率預(yù)測算法
      抓住特征巧觀察
      史密斯預(yù)估控制在排焦控制中的應(yīng)用
      喜報!萌寶大賽參賽者660名,投票321657人次,點擊率超60萬!
      海峽姐妹(2015年8期)2015-02-27 15:12:30
      線性代數(shù)的應(yīng)用特征
      河南科技(2014年23期)2014-02-27 14:19:15
      徹底消失
      興趣英語(2013年8期)2013-11-13 06:54:02
      《江南STYLE》為何這么火
      海外英語(2013年3期)2013-08-27 09:37:01
      威远县| 独山县| 商河县| 庐江县| 纳雍县| 九寨沟县| 睢宁县| 长丰县| 金湖县| 锡林郭勒盟| 成安县| 龙口市| 正阳县| 色达县| 古蔺县| 新建县| 宁南县| 富平县| 襄城县| 宁晋县| 宜章县| 东方市| 和平区| 青龙| 天峻县| 罗城| 蓝田县| 安平县| 稷山县| 黔西| 晋城| 轮台县| 天全县| 正宁县| 南投县| 台北县| 九龙城区| 乐陵市| 眉山市| 钟祥市| 阳谷县|