肖垚,畢軍芳,韓易,董啟文
(1.華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院,上海200062; 2.長(zhǎng)江口水文水資源勘測(cè)局,上海200136)
在線廣告中點(diǎn)擊率預(yù)測(cè)研究
(1.華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院,上海200062; 2.長(zhǎng)江口水文水資源勘測(cè)局,上海200136)
隨著互聯(lián)網(wǎng)的發(fā)展和用戶的增長(zhǎng),廣告行業(yè)從傳統(tǒng)的線下廣告模式,逐步轉(zhuǎn)變?yōu)榫€上廣告模式.同時(shí),由于大數(shù)據(jù)分析技術(shù)的運(yùn)用,線上廣告模式相比于傳統(tǒng)廣告也體現(xiàn)了巨大的優(yōu)越性.廣告主之間相互競(jìng)爭(zhēng),通過競(jìng)價(jià)的方式,將自己的廣告投放在運(yùn)營(yíng)媒體的廣告位上.所以,在投放前預(yù)測(cè)該廣告可能被用戶點(diǎn)擊的概率(CTR),對(duì)于廣告主減少成本和增加可能收入來說非常重要.本文在調(diào)研了目前常用的廣告點(diǎn)擊率預(yù)測(cè)模型的基礎(chǔ)上,選取廣告主、廣告和投放媒體平臺(tái)信息作為預(yù)測(cè)模型的特征,采用真實(shí)數(shù)據(jù)集驗(yàn)證說明各種模型的優(yōu)劣性,以及不同特征對(duì)廣告點(diǎn)擊率預(yù)測(cè)結(jié)果的影響.
計(jì)算廣告;CTR;機(jī)器學(xué)習(xí)
在線廣告起源于20世紀(jì)末,當(dāng)時(shí)的媒體網(wǎng)站剛剛起步,隨著這些網(wǎng)站的用戶數(shù)逐漸增多,網(wǎng)站取得了不少的流量規(guī)模.投資人希望能將這些流量變現(xiàn),最初的做法就是把html網(wǎng)站的頁面當(dāng)成傳統(tǒng)的雜志版面,將廣告插入其中.原來的廣告主,也就將這些網(wǎng)站當(dāng)成一本本雜志,按傳統(tǒng)線下廣告的方式進(jìn)行廣告位的采買.
幾十年間的發(fā)展,目前在線廣告的市場(chǎng)規(guī)模達(dá)到2 093.7億元,預(yù)計(jì)到2018年整體規(guī)模有望突破4 000億元.因此,準(zhǔn)確預(yù)測(cè)廣告的點(diǎn)擊率,可以提高市場(chǎng)的效率,對(duì)于廣告主、用戶和媒體平臺(tái)是一件“三贏”的事情.廣告主希望更多的人能點(diǎn)擊自己的廣告,了解自己的產(chǎn)品.媒體平臺(tái)希望獲取更多的利潤(rùn).用戶希望更多合適的廣告推送給自己,提升自己的用戶體驗(yàn)[1-2].
對(duì)于廣告主來說,最大的目標(biāo)是盡可能用有限的成本,投放最有可能被點(diǎn)擊的廣告,這樣才能獲得最大的利益.因此,這就需要提高廣告的點(diǎn)擊率(CTR).廣告點(diǎn)擊率的預(yù)測(cè)需要依賴于廣告的歷史投放記錄(包括點(diǎn)擊和未點(diǎn)擊的記錄).分析廣告日志是一個(gè)預(yù)測(cè)和優(yōu)化的雙向過程.通過對(duì)點(diǎn)擊日志的分析,不但可以預(yù)測(cè)和優(yōu)化廣告的點(diǎn)擊率,還可以優(yōu)化廣告投放頁面中廣告的排序結(jié)果以及估計(jì)用戶的滿意度.因此,點(diǎn)擊率預(yù)測(cè)是一個(gè)互聯(lián)網(wǎng)許多領(lǐng)域都需要解決的問題,包括搜索引擎的排序結(jié)果以及推薦系統(tǒng).廣告點(diǎn)擊率只是點(diǎn)擊率預(yù)測(cè)的一個(gè)應(yīng)用,但這一應(yīng)用是全球網(wǎng)絡(luò)公司的一個(gè)重要收入來源,因此有著重要的商業(yè)價(jià)值和學(xué)術(shù)研究?jī)r(jià)值,已經(jīng)成為了近幾年學(xué)術(shù)界和產(chǎn)業(yè)界的一個(gè)重要研究領(lǐng)域[3].
本文從正負(fù)樣本比例、特征選擇和機(jī)器學(xué)習(xí)模型三個(gè)方面著手,研究這三點(diǎn)對(duì)預(yù)測(cè)效果的影響,經(jīng)過一系列的對(duì)比實(shí)驗(yàn),選出最合適的預(yù)測(cè)模型.
點(diǎn)擊率估計(jì)是指在給定網(wǎng)頁和用戶的情況下估計(jì)所投放的廣告被點(diǎn)擊次數(shù)占總展示次數(shù)的比例.互聯(lián)網(wǎng)廣告的點(diǎn)擊率從20世紀(jì)90年代起一直呈下降趨勢(shì),目前平均點(diǎn)擊率在0.2%~0.3%,0.2%的廣告點(diǎn)擊率即被視為非常成功的廣告投放.隨著廣告計(jì)費(fèi)方式的改變,廣告點(diǎn)擊率估計(jì)在廣告投放過程中占有越來越重要的地位,估計(jì)的結(jié)果直接影響到廣告檢索結(jié)果的排序,進(jìn)而影響到用戶、網(wǎng)絡(luò)媒體和廣告主的效用.據(jù)統(tǒng)計(jì)所有廣告的展示頻率和點(diǎn)擊率均呈冪率分布[4].
在廣告點(diǎn)擊率預(yù)測(cè)方面,已經(jīng)有不少成熟的研究.文獻(xiàn)[5]運(yùn)用邏輯回歸進(jìn)行廣告點(diǎn)擊率的預(yù)測(cè),因?yàn)檫壿嫽貧w的結(jié)果在(0-1)區(qū)間中和點(diǎn)擊概率分布的區(qū)間一致.同時(shí)這篇文章強(qiáng)調(diào),廣告在頁面中的位置對(duì)于該廣告最終點(diǎn)擊率的重要性.文獻(xiàn)[6]運(yùn)用增強(qiáng)決策樹加邏輯回歸進(jìn)行廣告點(diǎn)擊率預(yù)測(cè).將輸入的特征通過增強(qiáng)決策樹進(jìn)行轉(zhuǎn)換,然后將結(jié)果作為邏輯回歸的輸入.基于歷史廣告數(shù)據(jù)豐富的預(yù)估模型還有貝葉斯模型[7],決策樹模型[8],支持向量機(jī)模型[9]等.
文獻(xiàn)[10]采用聚類的方法對(duì)點(diǎn)擊率進(jìn)行預(yù)測(cè),根據(jù)廣告的內(nèi)容進(jìn)行聚類.除了聚類模型,還有基于因子分解機(jī)模型[11]用了對(duì)新廣告進(jìn)行預(yù)測(cè).還有一類采用新的模型對(duì)點(diǎn)擊數(shù)據(jù)進(jìn)行建模,例如層次結(jié)構(gòu)[12-13]和時(shí)間空間模型[14].
為了保證實(shí)驗(yàn)結(jié)果的嚴(yán)謹(jǐn)性和準(zhǔn)確性,我們使用的實(shí)驗(yàn)數(shù)據(jù)來自真實(shí)的企業(yè)環(huán)境.廣告日志文件分為兩種類型:點(diǎn)擊日志和未點(diǎn)擊日志,兩種類型日志文件中字段相同.我們從所有的日志文件中抽取部分?jǐn)?shù)據(jù),共60萬條記錄進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)代碼用python實(shí)現(xiàn),實(shí)驗(yàn)環(huán)境為八核,64Bit CPU內(nèi)存64G的Linux服務(wù)器.實(shí)驗(yàn)采用交叉驗(yàn)證的方式,將數(shù)據(jù)分成十份,每次將其中的九份作為訓(xùn)練數(shù)據(jù),一份作為測(cè)試數(shù)據(jù),循環(huán)十次.表1代表日志中作為模型預(yù)測(cè)特征的字段的實(shí)際含義.
表1 日志字段對(duì)應(yīng)的特征Tab.1 The log f i eld corresponding to the feature
工業(yè)界使用最多的廣告點(diǎn)擊率預(yù)測(cè)模型是邏輯回歸模型.在廣告點(diǎn)擊率預(yù)測(cè)這一過程中,我們將點(diǎn)擊事件h看成一個(gè)二元取值的隨機(jī)變量,那么其取值為真(h=1)的概率就是點(diǎn)擊率,因此,點(diǎn)擊事件的分布可以寫成以點(diǎn)擊率μ為參數(shù)的二項(xiàng)分布(binomial distribution):
而點(diǎn)擊率預(yù)測(cè)模型的作用是在(a,u,c)組合與點(diǎn)擊率μ之間建立函數(shù)關(guān)系,a,u,c三個(gè)變量分別代表廣告、用戶與環(huán)境.這可以表示成對(duì)μ(a,u,c)=P(h=1|a,u,c)的概率建模問題,可以很自然地想到邏輯回歸:
其中χ表示(a,u,c)組合上的特征矢量,ω為各個(gè)特征的加權(quán)系數(shù),也就是次模型需要優(yōu)化參數(shù); (2h-1)ωTχ這一線性函數(shù)的輸出經(jīng)過sigmoid函數(shù)映射到(0,1)區(qū)間內(nèi),其中(2h-1)是為了將{0,1}的點(diǎn)擊變量變換到集合{-1,1}上.顯然,廣告的點(diǎn)擊率與廣告內(nèi)容、用戶和上下文環(huán)境三個(gè)因素都有關(guān)系[5].
決策樹也是一類常見的點(diǎn)擊率預(yù)測(cè)模型,對(duì)于二分類問題來說,我們希望從給定訓(xùn)練數(shù)據(jù)集學(xué)得一個(gè)模型用來對(duì)新樣本進(jìn)行分類.比如,對(duì)于廣告點(diǎn)擊率預(yù)測(cè)來說,我們可以將其看成對(duì)“當(dāng)前廣告是否會(huì)被點(diǎn)擊”這個(gè)問題的決策過程.通常,一顆決策樹包含一個(gè)根結(jié)點(diǎn),還有若干個(gè)內(nèi)部節(jié)點(diǎn)和葉子節(jié)點(diǎn).根結(jié)點(diǎn)包含的是樣本的全集,葉子節(jié)點(diǎn)對(duì)應(yīng)最終的決策結(jié)果.因此,該模型訓(xùn)練中,就是通過計(jì)算每個(gè)節(jié)點(diǎn)劃分后樣本的純度,來形成一個(gè)完整決策樹.計(jì)算樣本的純度,通常有三種評(píng)價(jià)標(biāo)準(zhǔn):信息熵、增益率和基尼系數(shù).通過三種評(píng)價(jià)標(biāo)準(zhǔn)構(gòu)造的決策樹依次稱為ID3決策樹、C4.5決策樹和CART決策樹.本實(shí)驗(yàn)中使用的是CART決策樹,因?yàn)镃ART決策樹能夠處理數(shù)據(jù)型和類別型的屬性.
隨機(jī)森林(Random Forest)屬于一種集成學(xué)習(xí)方法,它是對(duì)決策樹的一種擴(kuò)展,通過隨機(jī)構(gòu)造多棵決策樹,最終通過投票方式?jīng)Q定預(yù)測(cè)結(jié)果.當(dāng)測(cè)試數(shù)據(jù)進(jìn)入隨機(jī)森林時(shí),其實(shí)就是讓每一棵決策樹進(jìn)行分類,所有數(shù)據(jù)的分類結(jié)果按照決策樹投票多少的分?jǐn)?shù)而定.因此隨機(jī)森林是一個(gè)包含多個(gè)決策樹的分類器,并且其輸出的類別是由個(gè)別樹輸出的類別的眾數(shù)而定.
梯度提升決策樹(Gradient Booting Descent Tree)[15],是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的分類結(jié)果累加起來作為最終答案.它在被提出之初就和支持向量機(jī)(SVM)一起被認(rèn)為是泛化能力較強(qiáng)的算法.近年來更因?yàn)楸挥糜谒阉髋判蝾I(lǐng)域而引起廣泛關(guān)注[16].
為了檢查模型的訓(xùn)練效果,我們采用三個(gè)評(píng)價(jià)指標(biāo):準(zhǔn)確率(Precision)、ROC曲線下面積AUC[17]、對(duì)數(shù)損失(Logloss).
準(zhǔn)確率:也就是對(duì)于訓(xùn)練數(shù)據(jù)中的N條數(shù)據(jù),統(tǒng)計(jì)系統(tǒng)能夠判斷準(zhǔn)確的數(shù)據(jù)條數(shù)M,最后進(jìn)行簡(jiǎn)單相除得到M/N作為評(píng)判標(biāo)準(zhǔn).
準(zhǔn)確率確實(shí)是一個(gè)很好很直觀的評(píng)價(jià)指標(biāo),但是有時(shí)候準(zhǔn)確率高并不能代表一個(gè)模型就好.比如某個(gè)地區(qū)某天地震的預(yù)測(cè),假設(shè)我們有一組特征作為地震分類的屬性,預(yù)測(cè)結(jié)果只有兩種:不發(fā)生地震和發(fā)生地震(記為0和1).由于在日常生活中,地震的發(fā)生是一個(gè)小概率事件,在一個(gè)分類模型中,如果將每一個(gè)測(cè)試用例類別都劃分為0,那么它就可能達(dá)到99%的正確率,但是這個(gè)模型毫無意義.所以,準(zhǔn)確率并不能單獨(dú)作為判斷模型性能好壞的指標(biāo).
因此我們引用AUC和Logloss這兩個(gè)指標(biāo)來評(píng)判模型的好壞.ROC是受試者工作特征曲線(receiver operating characteristic curve),又稱為感受性曲線(sensitivity curve).對(duì)于上面的準(zhǔn)確率指標(biāo)來說,評(píng)價(jià)分類結(jié)果為正類或負(fù)類的閾值為0.5(模型訓(xùn)練的結(jié)果大于0.5時(shí)判別為正類,模型訓(xùn)練的結(jié)果小于0.5時(shí)判別為負(fù)類).而ROC曲線是利用一系列的閾值作為評(píng)判正負(fù)類的依據(jù).AUC就是ROC曲線與x軸圍成的面積.當(dāng)AUC的值越大,模型的效果意味著也越好.對(duì)數(shù)損失函數(shù):
yt為真實(shí)值,yp為預(yù)測(cè)值.由上述公式可以看出,當(dāng)預(yù)測(cè)值與真實(shí)值相等時(shí)結(jié)果為0,此時(shí)預(yù)測(cè)百分百正確,因此結(jié)果越小則表明模型的預(yù)測(cè)能力越好.
在廣告點(diǎn)擊率預(yù)測(cè)場(chǎng)景下,正負(fù)樣本比例不均衡是普遍存在的問題.本組實(shí)驗(yàn)?zāi)康氖茄芯空?fù)樣本比例對(duì)模型預(yù)測(cè)性能的影響.從日志文件中,依次按比例隨機(jī)抽取正負(fù)樣本數(shù)據(jù),作為訓(xùn)練數(shù)據(jù).通過這組對(duì)比實(shí)驗(yàn),我們可以得出最佳的正負(fù)樣本比例,應(yīng)用于廣告點(diǎn)擊率預(yù)測(cè)中.
實(shí)驗(yàn)的結(jié)果如圖1所示,從圖中我們可以看出,正負(fù)樣本的比例相差過大的時(shí)候,模型的效果并不是理想的,最理想的效果應(yīng)該是正負(fù)樣本的比例接近.可以認(rèn)為,當(dāng)正負(fù)樣本比例相差過大時(shí),模型會(huì)把比例少的樣本數(shù)據(jù)誤當(dāng)成噪音數(shù)據(jù),從而影響了模型預(yù)測(cè)的效果.
圖1 不同正負(fù)樣本比例對(duì)模型的影響Fig.1 In fl uence of Di ff erent Positive and Negative Sample Proportions on Model
我們選取的正負(fù)樣本比例依次從10:1到1:10,從結(jié)果可以看出,對(duì)于Precision,和Logloss來說,當(dāng)正負(fù)樣本比例為1:1時(shí),效果最好,Precision將近0.77,Logloss低至0.47.當(dāng)采取不同的正負(fù)樣本比例時(shí),Precision和Logloss值關(guān)于1:1的結(jié)果對(duì)稱,例如10:1和1:10的結(jié)果很相似.
對(duì)于AUC來說,不同的比例,變化不大,主要是AUC利用不同的閾值來作為判斷正負(fù)類的依據(jù).計(jì)算AUC值時(shí),會(huì)依次將預(yù)測(cè)樣本為正樣本的概率作為判斷為是否點(diǎn)擊的閾值.當(dāng)測(cè)試樣本屬于正樣本的概率大于或等于這個(gè)閾值時(shí),我們認(rèn)為它為正樣本,否則為負(fù)樣本.因此選取不同的樣本比例時(shí),可能會(huì)得到相似的預(yù)測(cè)樣本為正樣本的概率,最終得到的AUC值也會(huì)相近.
在廣告的點(diǎn)擊和未點(diǎn)擊的歷史日志中,包含有很多的字段比如,廣告的編號(hào),廣告在網(wǎng)頁的位置,用戶的瀏覽時(shí)間等,這些字段都能作為預(yù)測(cè)CTR的特征,但是并不是特征越多效果越理想.特征的選取關(guān)鍵在于正確而非數(shù)量多,文獻(xiàn)[6]指出模型效果的關(guān)鍵在于找到最大價(jià)值的特征,一旦選擇的特征和模型是正確的,那么其余因素對(duì)模型的效果影響是甚微的.同時(shí),如果使用的特征維數(shù)過多,也會(huì)影響模型訓(xùn)練的速度,增加了內(nèi)存和CPU的消耗,也抑制了模型的性能.本文中,先選取廣告信息的特征作為基礎(chǔ)實(shí)驗(yàn),然后逐漸增加用戶的信息和媒體平臺(tái)的信息作為特征,對(duì)比模型性能的變化.本節(jié)中的機(jī)器學(xué)習(xí)模型使用的仍然是邏輯回歸.
文獻(xiàn)[18]指出,廣告的點(diǎn)擊率與廣告的質(zhì)量有關(guān).不同廣告的質(zhì)量是不同的,如表2所示,我們可以通過訓(xùn)練數(shù)據(jù)中的adslot id(廣告位ID)字段來唯一標(biāo)識(shí)一個(gè)廣告.文獻(xiàn)[19]指出,廣告的點(diǎn)擊率會(huì)隨著廣告在一個(gè)網(wǎng)站中的位置排名變化而變化,這是因?yàn)槲恢门琶偷膹V告不會(huì)被人們注意到.文獻(xiàn)[20]也證實(shí)了,廣告出現(xiàn)在網(wǎng)頁中的位置會(huì)對(duì)用戶造成信任偏差,影響人們的點(diǎn)擊情況.廣告的位置,在實(shí)驗(yàn)數(shù)據(jù)中有adslot pos(廣告位位置)這個(gè)字段來表示,我們以adslot id(廣告位ID)和adslot pos(廣告位位置)和creative id(素材ID)等作為廣告的特征.然后再逐漸增加用戶的特征如用戶點(diǎn)擊時(shí)間tis,用戶點(diǎn)擊的設(shè)備device type,用戶地址ip等和上下文環(huán)境的特征,比如廣告顯示的媒體平臺(tái)adx.
表2 不同特征對(duì)模型預(yù)測(cè)結(jié)果的影響Tab.2 Impact of Dif f erent Features on Model Prediction
從實(shí)驗(yàn)結(jié)果看出,僅用廣告信息作為特征,能取得一定好的效果,準(zhǔn)確率達(dá)到了0.70.當(dāng)加上用戶的信息后,預(yù)測(cè)的效果能得到比較大的提升.Precision方面提高了0.06個(gè)百分點(diǎn),這對(duì)于廣告點(diǎn)擊率預(yù)測(cè)來說已經(jīng)是很大的提升.Logloss進(jìn)一步降低了0.11,Auc提高了0.13,由此看出,當(dāng)增加用戶信息后,模型的性能提升很明顯.
但是,最后加入媒體平臺(tái)信息特征后,模型的性能提升效果不明顯,三個(gè)評(píng)價(jià)指標(biāo)來看,模型性能僅有很微小的提升.原因是,我們所擁有的關(guān)于媒體平臺(tái)的信息太少,不能完全涵蓋媒體平臺(tái)的相關(guān)信息.只有表明平臺(tái)名稱(adx)的這一個(gè)字段.如果日記中這部分信息能完善,那么模型的預(yù)測(cè)效果能得到更多的提升.
總之,對(duì)于廣告點(diǎn)擊率預(yù)測(cè),廣告本身的信息對(duì)于模型預(yù)測(cè)最有幫助,除了本身信息部分,用戶的信息和平臺(tái)的信息也能有效地增加預(yù)測(cè)的準(zhǔn)確性.
從圖2可以看出邏輯回歸、決策樹、隨機(jī)森林、梯度提升決策樹這四個(gè)模型的性能逐漸提升.其中梯度提升決策樹性能最好,準(zhǔn)確率能達(dá)到0.880,對(duì)數(shù)損失低至0.4,AUC接近0.85.與原始的邏輯回歸相比,性能提高了很多.決策樹與邏輯回歸相比,僅有微弱的提升,但是通過構(gòu)造多顆決策樹形成一個(gè)隨機(jī)森林時(shí),性能提高很明顯.但隨機(jī)森林與梯度提升決策樹相比,還是有微弱的劣勢(shì).
圖2 不同模型預(yù)測(cè)性能的對(duì)比Fig.2 Comparison of Predictive Performance of Di ff erent Models
雖然這四種模型的性能依次提升,但是訓(xùn)練消耗的時(shí)間也在依次增長(zhǎng),相同的數(shù)據(jù)量,梯度提升決策樹訓(xùn)練的時(shí)間大概是邏輯回歸訓(xùn)練時(shí)間的兩倍左右.訓(xùn)練使用的60萬條數(shù)據(jù),使用梯度提升決策樹訓(xùn)練所需時(shí)間超過20 min,而使用隨機(jī)森林,大約在15 min,邏輯回歸和決策樹使用的時(shí)間比較少,大概10 min左右.
邏輯回歸雖然效果一般,卻勝在模型的可解釋性強(qiáng),它擬合出來的參數(shù)就代表了每一個(gè)特征對(duì)結(jié)果的影響.也是一個(gè)理解數(shù)據(jù)的好工具.決策樹能夠生成清晰的基于特征選擇不同預(yù)測(cè)結(jié)果的樹狀結(jié)構(gòu),隨機(jī)森林在現(xiàn)實(shí)分析中被大量使用,它相對(duì)于決策樹,在準(zhǔn)確性上有了很大的提升.梯度提升決策樹同隨機(jī)森林一樣,不容易陷入過擬合,而且能夠得到很高的精度.
本文通過一系列實(shí)驗(yàn)研究了廣告點(diǎn)擊率的預(yù)測(cè)問題.對(duì)于訓(xùn)練數(shù)據(jù)來說,要選擇合適的正負(fù)樣本比例.訓(xùn)練數(shù)據(jù)中點(diǎn)擊和未點(diǎn)擊廣告數(shù)據(jù)的比例會(huì)影響模型預(yù)測(cè)的準(zhǔn)確率.實(shí)驗(yàn)結(jié)果表明,當(dāng)正負(fù)樣本比例接近的時(shí)候,模型能取得好的預(yù)測(cè)效果.當(dāng)正負(fù)樣本比例不均衡的時(shí)候,會(huì)在預(yù)測(cè)中產(chǎn)生很大的錯(cuò)誤率.
特征的選擇對(duì)于模型的預(yù)測(cè)性能也有至關(guān)重要的影響.廣告點(diǎn)擊率預(yù)測(cè)中,能運(yùn)用的特征有很多.特征包含廣告本身、用戶和媒體平臺(tái)三者的信息.模型要達(dá)到一個(gè)好的準(zhǔn)確率,那么就要充分挖掘這三者的信息作為特征.當(dāng)使用的三種類型的特征組合得越好,模型性能就能夠越好.實(shí)驗(yàn)中,依次增加廣告特征、用戶特征和媒體平臺(tái)特征,從結(jié)果中可以看出,所含的廣告、用戶和網(wǎng)站上下文信息越充分的時(shí)候,模型的預(yù)測(cè)效果越佳.
邏輯回歸、決策樹、隨機(jī)森林和梯度提升決策樹這四個(gè)廣告點(diǎn)擊率預(yù)測(cè)常用的模型中.梯度提升決策樹和隨機(jī)森林的預(yù)測(cè)效果較好,不過,模型訓(xùn)練需要的時(shí)間較長(zhǎng).邏輯回歸和決策樹的性能雖然劣于梯度提升決策樹和隨機(jī)森林,但是其訓(xùn)練時(shí)間較短.
[1]GABRILOVICH E.An Overview of Computational Advertising[R/OL].[2013-03-21].http://research.yahoo. com/pub/2915.
[2]AGARWAL D,CHAKRABARTI D.Statistical Challenge in Online Advertising[R/OL].[2013-03-21].http:// research.yahoo.com/pub/2430.
[3]紀(jì)文迪,王曉玲,周傲英.廣告點(diǎn)擊率估算技術(shù)綜述[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2013(3):2-14.
[4]AGARWAL D,AGRAWAL R,KHANNA R,et al.Estimating rates of rare events with multiple hierarchies through scalable log-linear models[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2010:213-222.
[5]RICHARDSON M,DOMINOWSKA E,RAGNO R.Predicting clicks:estimating the click-through rate for new ads[C]//International Conference on World Wide Web.ACM,2007:521-530.
[6]HE X,PAN J,JIN O,et al.Practical Lessons from Predicting Clicks on Ads at Facebook[C]//Eighth International Workshop on Data Mining for Online Advertising.ACM,2014:1-9.
[7]CHAPELLE O,ZHANG Y.A dynamic bayesian network click model for web search ranking[C]//International Conference on World Wide Web.ACM,2009:1-10.
[8]DUPRET G E,PIWOWARSKI B.A user browsing model to predict search engine click data from past observations[C]//International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM, 2008:331-338.
[9]DAVE K,VARMA V.Predicting the click-through rate for rare/new ads[R].Center for Search and Information Extraction Lab International Institute of Information Technology Hyderabad,INDIA,2010.
[10]REGELSON M,FAIN D.Predicting click-through rate using keyword clusters[C]//Proceedings of the Second Workshop on Sponsored Search Auctions,2006:9623.
[11]RENDLE S.Factorization machines[C]//IEEE International Conference on Data Mining.IEEE Computer Society,2010:995-1000.
[12]WANG X,LI W,CUI Y,et al.Click-through rate estimation for rare events in online advertising[G]//HUA X S,MEI T,HANJALIC A.Online Multimedia Advertising:Techniques and Technologies.Hershey:IGI Global, 2010.doi:10.4018/978-1-60960-189-8.ch001.
[13]AGARWAL D,BRODER A Z,CHAKRABARTI D,et al.Estimating rates of rare events at multiple resolutions[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining-Kdd.ACM, 2007:16-25.
[14]AGARWAL D,CHEN B C,ELANGO P.Spatio-temporal models for estimating click-through rate[C]//International Conference on World Wide Web.ACM,2009:21-30.
[15]SCHONLAU M.Boosted regression(boosting):An introductory tutorial and a stata plugin[J].Stata Journal, 2005,5(3):330-354.
[16]BURGES C J C.From ranknet to lambdarank to lambdamart:An overview[R].Microsoft Research Technical Report,2010.
[17]FANG Y,LIU J.A novel prior-based real-time click through rate prediction model[J].International Journal of Machine Learning&Cybernetics,2014,5(6):887-895.
[18]FAIN D C,PEDERSEN J O.Sponsored search:A brief history[J].Bulletin of the American Society for Information Science&Technology,2010,32(2):12-13.
[19]RICHARDSON M,DOMINOWSKA E,RAGNO R.Predicting clicks:estimating the click-through rate for new ads[C]//International Conference on World Wide Web.ACM,2007:521-530.
[20]JOACHIMS T,GRANKA L,PAN B,et al.Accurately interpreting clickthrough data as implicit feedback[C]// Proceedings of the 28th Annual International ACM SIGIR,2005:154-161.
(責(zé)任編輯:李萬會(huì))
Study of click through rate prediction in online advertisement
XIAO YAO1,BI Jun-fang2,HAN YI1,DONG Qi-wen1
(1.School of Data Science and Engineering,East China Normal University, Shanghai 200062,China; 2.Yangtze River Estuary Survey Bureau of Hydrology and Water Resource,CWRC, Ministry of Water Resources,Shanghai 200136,China)
With the development of the Internet and the growth of users,the advertising industry originated from the traditional offl ine advertising model,is gradually transforming into online advertising model.At the same time,due to the use of large data analysis technology,online advertising shows great advantages when compared with traditional advertising.The advertisers deliver their advertisements to the platform’s specif i c positions by competition auction of counterparts.Therefore,it is important to predict the click through rate(CTR)of a given advertisement before auction,which is important for advertisers to reduce costs and expand their likely revenue.This paper introduces the commonly used ad click rate prediction model,uses the information from dif f erentadvertisers,advertisements and media platforms as the features of machine learning,and uses real data sets to illustrate the advantages of various models,and the impact of dif f erent features on the ad click rate.
computational advertising;CTR;machine learning
TP391
A
10.3969/j.issn.1000-5641.2017.05.008
1000-5641(2017)05-0080-07
2017-05-01
國家重點(diǎn)研發(fā)計(jì)劃(2016YFB1000905);國家自然科學(xué)基金廣東省聯(lián)合重點(diǎn)項(xiàng)目(U1401256);國家自然科學(xué)基金(61672234,61402177);華東師范大學(xué)信息化軟課題
肖垚,男,碩士研究生,研究方向?yàn)閺V告點(diǎn)擊率預(yù)測(cè).
董啟文,男,碩士生導(dǎo)師,副教授,研究方向?yàn)榫W(wǎng)絡(luò)信息學(xué)、生物信息學(xué). E-mail:qwdong@dase.ecnu.edu.cn.