• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于特征優(yōu)化的廣告點擊率預(yù)測模型研究

      2020-08-04 11:30:32賀小娟郭新順
      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

      賀小娟 郭新順

      摘要: 針對互聯(lián)網(wǎng)廣告數(shù)據(jù)具有高維稀疏性的特點, 在現(xiàn)有的點擊率(Click-Through Rate, CTR) 預(yù)測問題的相關(guān)理論和技術(shù)基礎(chǔ)上, 給出了一種基于梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN) 在線廣告特征提取模型(CNN Based on GBDT,CNN+). CNN+模型不僅能從原始數(shù)據(jù)中提取出深度高階特征, 還能解決卷積神經(jīng)網(wǎng)絡(luò)在稀疏、高維特征中提取特征困難的問題. 在真實數(shù)據(jù)集上的實驗結(jié)果表明, 與主成分分析(Principal Component Analysis,PCA) 和梯度提升決策樹這兩種特征提取方法相比, CNN+模型提取的特征更加有效.

      關(guān)鍵詞: 廣告點擊率預(yù)測; 梯度提升決策樹; 卷積神經(jīng)網(wǎng)絡(luò); 特征學(xué)習(xí)

      中圖分類號: TP391 文獻(xiàn)標(biāo)志碼: A DOI: 10.3969/j.issn.1000-5641.201921007

      0 引言

      在線廣告(Online Advertisement) 是隨著互聯(lián)網(wǎng)的誕生與發(fā)展而衍生出的一種廣告形式, 即有廣告發(fā)布需求的廣告主通過具備廣告發(fā)布能力的在線廣告發(fā)布商, 將具有宣傳其產(chǎn)品或服務(wù)的廣告向互聯(lián)網(wǎng)用戶發(fā)布, 這些廣告以圖片、視頻或文本鏈接等多種方式呈現(xiàn)在互聯(lián)網(wǎng)用戶面前[1]. 在線廣告點擊率(CTR) 預(yù)測[2] 是根據(jù)給定的用戶點擊廣告的歷史數(shù)據(jù)以及其他相關(guān)數(shù)據(jù), 預(yù)測出用戶點擊廣告的概率. 但是互聯(lián)網(wǎng)中積累的大多數(shù)廣告日志具有數(shù)據(jù)稀疏、特征維度大等特點, 這給如何使用模型高效地從數(shù)據(jù)中提取出有效信息以提高點擊率預(yù)測的準(zhǔn)確度帶來了巨大的挑戰(zhàn).

      隨著數(shù)據(jù)挖掘、自然語言處理等技術(shù)的發(fā)展, 在廣告點擊率預(yù)測方面已經(jīng)有了不少成熟的研究.邏輯回歸(Logistic Regression, LR) 模型直接對用戶是否點擊廣告的概率進(jìn)行建模, 不但實現(xiàn)效率高,并且通過正則化的使用, 使模型對數(shù)據(jù)中的小噪聲具有很好的魯棒性, 是工業(yè)界最常使用的在線廣告點擊率預(yù)測模型. Matthew 等[3] 分別利用邏輯回歸和MART 模型(Multiple Additive Regression Tress,多元可加回歸樹) 進(jìn)行訓(xùn)練, 得到的實驗結(jié)果表明邏輯回歸的預(yù)測效果優(yōu)于MART. 沈芳瑤等[4] 提出了一種基于在線最優(yōu)化算法—FTRL (Follow the Regularized Leader) 求解的邏輯回歸模型, 該方法采用L21 混合正則化, 在縮短參數(shù)計算時間的同時也有效降低了模型的對數(shù)損失. 但是邏輯回歸模型的性能非常依賴參與訓(xùn)練的特征, 并且在稀疏數(shù)據(jù)中的表現(xiàn)能力也有限. 一個合適的自動特征提取模型是提高邏輯回歸模型預(yù)測性能的有效工具.

      為此, 李春紅等[5] 提出了一種基于LASSO (Least Absolute Shrinkage and Selection Operator) 變量選擇方法的廣告點擊率預(yù)測模型, 該模型通過剔除與預(yù)測無關(guān)的部分特征, 有效克服了廣告數(shù)據(jù)高維性的問題, 并在一定程度上緩和了預(yù)測結(jié)果過擬合的問題. Ling 等[6] 介紹了阿里所使用的CGL(Coupled Group LASSO) 模型, 該模型使用Group LASSO 在用戶特征和廣告特征中進(jìn)行正則化處理,避免了模型引入過于龐大的矩陣, 并減少了模型的參數(shù). 然而, LASSO 變量選擇方法只是簡單地從原始特征中提取出那些對預(yù)測比較重要的特征, 選擇出來的特征用于點擊率的預(yù)測效果不佳. 為了實現(xiàn)特征之間的自動組合, He 等[7] 提出了使用梯度提升決策樹(GBDT) 模型在原始特征中自動地進(jìn)行特征組合和轉(zhuǎn)換, 通過使用邏輯回歸模型在轉(zhuǎn)換后的特征上進(jìn)行實驗, 結(jié)果表明原始特征經(jīng)過梯度提升樹進(jìn)行轉(zhuǎn)換后能極大地提高預(yù)測模型的預(yù)測性能. 田嫦麗等[8] 在Spark 大數(shù)據(jù)分布式平臺使用GBDT提取廣告中的特征, 實驗結(jié)果證明了GBDT 模型在分布式環(huán)境下同樣有助于提高預(yù)測模型的準(zhǔn)確率與性能. GBDT 在特征處理的過程中, 對每個特征進(jìn)行單獨(dú)處理, 不能學(xué)習(xí)到特征中的交互關(guān)系. LASSO變量選擇方法和GBDT 這兩種特征提取的方法雖然很容易實現(xiàn), 但是由于它們都忽視了特征之間的相互關(guān)系, 往往不能取得良好的預(yù)測效果.

      深度學(xué)習(xí)能夠自動探索數(shù)據(jù)間的局部依賴關(guān)系并且可建立特征之間的密集表示, 使神經(jīng)網(wǎng)絡(luò)能夠在原始數(shù)據(jù)中提取出高階特征, 這種有效學(xué)習(xí)高階隱含信息的能力也被應(yīng)用到了CTR 預(yù)測中. 張志強(qiáng)等[9] 提出了基于張量分解的特征降維方法, 利用棧式自編碼網(wǎng)絡(luò)算法挖掘出特征之間存在的高度非線性關(guān)聯(lián)關(guān)系. 楊長春等[10] 結(jié)合K-means 聚類算法以及張量分解對高維廣告特征進(jìn)行了降維處理,將降維后的數(shù)據(jù)利用深度置信網(wǎng)絡(luò)(Deep Belief Network, DBN) 進(jìn)行在線廣告的點擊率預(yù)測, 驗證了模型的有效性. Cheng 等[11] 提出了Wide & Deep 模型: Wide 模型泛指傳統(tǒng)的需要人工挑選特征的模型, 如邏輯回歸模型; Deep 模型是指可自動進(jìn)行特征轉(zhuǎn)化的模型, 例如因子分解機(jī)模型; 將Wide 模型與Deep 模型進(jìn)行組合, 就得到了Wide & Deep 模型.

      傳統(tǒng)的邏輯回歸模型簡單易實現(xiàn), 但是需要配合使用有效的自動化特征方法. 互聯(lián)網(wǎng)中存在的廣告日志存在數(shù)據(jù)稀疏、特征維度大等問題, 使得特征之間的相互信息很難被挖掘, 提高廣告點擊率預(yù)測效果也存在很大的挑戰(zhàn). 但是大部分淺層的特征工程方法, 例如GBDT、LASSO 等, 由于沒有考慮特征之間的內(nèi)在聯(lián)系, 導(dǎo)致提取出來的特征不能很好地表達(dá)出原始數(shù)據(jù)的內(nèi)部關(guān)系, 并且模型的可擴(kuò)展能力很弱. 針對這些問題, 本文在廣告點擊率預(yù)測問題的特征工程方面進(jìn)行了深度特征學(xué)習(xí)的探索,提出了基于GBDT 模型的卷積神經(jīng)網(wǎng)絡(luò)(CNN) 特征提取模型CNN+, 該模型不但能有效學(xué)習(xí)廣告特征之間的內(nèi)在關(guān)系, 實現(xiàn)高階特征的提取, 還能有效降低原始稀疏數(shù)據(jù)對卷積神經(jīng)網(wǎng)絡(luò)特征提取的影響, 減少內(nèi)存占用的壓力.

      1 相關(guān)理論基礎(chǔ)

      1.1 主成分分析方法

      主成分分析(PCA) 是一種常見的特征降維手段, 基于變量的協(xié)方差矩陣從原始數(shù)據(jù)中提取出一組各個維度上線性無關(guān)的綜合變量[12]. PCA 的基本原理是原始特征基于協(xié)方差矩陣變換成新的特征,新特征的總方差保持不變, 并且按照方差的順序大小進(jìn)行依次排列, 再根據(jù)主成分的方差總貢獻(xiàn)率或主成分的特征值選擇出最終的主成分個數(shù). 使用PCA 進(jìn)行特征提取能降低特征之間的冗余, 但是將數(shù)據(jù)從高維空間映射到低維空間會容易造成原始信息的丟失, 最終模型的預(yù)測性能可能會變差.

      1.2 梯度提升決策樹

      用來預(yù)測點擊率的數(shù)據(jù)往往存在高維性特點, 但是實際上并不是把所有的特征都用上得到的預(yù)測效果就會越好, 需要平衡好效果和效率的關(guān)系. 因此, 在點擊率預(yù)測的過程中, 需要盡可能地獲取與點擊率精度高相關(guān)的特征, 以減少預(yù)測過程中時間和物力的代價. 常見的特征轉(zhuǎn)換的方法有兩種: 一種非線性轉(zhuǎn)換方法,該方法是將特征合并, 將合并生成的新的索引視為新的分類特征; 第二種方法是構(gòu)建元組輸入特征, 對于分類變量, 通過使用笛卡爾積得到原始特征所有可能的取值, 然后刪除對預(yù)測結(jié)果沒有影響的組合. 而梯度提升決策樹(GBDT) 就是實現(xiàn)以上兩種特征轉(zhuǎn)換方式的強(qiáng)有力的方法[7].

      使用GBDT 進(jìn)行特征轉(zhuǎn)換的思想是, 將每個單獨(dú)的樹視為一個分類特征, 將每個變量最終落入的葉子的索引值作為值, 然后使用獨(dú)熱編碼生成最終的新特征. GBDT 模型采用集成學(xué)習(xí)的思想, 具有非常好的非線性擬合能力, 能很好地挖掘出數(shù)據(jù)中的低階信息; 但是對訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)特征的學(xué)習(xí)能力差, 并且沒有利用特征之間的相互信息.

      1.3 邏輯回歸模型

      邏輯回歸(LR) 模型通過Sigmoid 函數(shù)引入非線性因素, 將線性回歸模型產(chǎn)生的預(yù)測值轉(zhuǎn)換成位于(0,1) 之間的概率值, 正好對應(yīng)用戶點擊廣告的概率; 而且LR 模型求解簡單,可解釋性強(qiáng),對數(shù)據(jù)中小噪聲的魯棒性很好, 是工業(yè)界使用最多的廣告點擊率預(yù)測模型[13]. 對于給定的輸入變量, 二項LR 模型使用Sigmoid 替代函數(shù)將線性回歸產(chǎn)生的預(yù)測值轉(zhuǎn)換成事件的概率分布為

      1.4 卷積神經(jīng)網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)(CNN) 是近年來深度學(xué)習(xí)領(lǐng)域研究應(yīng)用最廣泛的模型之一, 一般由數(shù)據(jù)輸入層、卷積層、激勵層、池化層和全連接層組成, 其中數(shù)據(jù)輸入層與機(jī)器學(xué)習(xí)模型中的數(shù)據(jù)預(yù)處理方法相同[14]. 使用CNN 提取高階特征的原理是: 首先, 卷積層采用局部感知和參數(shù)共享機(jī)制, 通過卷積運(yùn)算可以學(xué)習(xí)到特征域中大小不同的模式; 然后, 通過池化層的池化運(yùn)算可以對特征域進(jìn)行縮放, 因此可以從數(shù)據(jù)中自動地提取出有效的特征, 并且構(gòu)造出數(shù)據(jù)的深度高階特征[15]. 使用CNN 進(jìn)行特征提取的優(yōu)勢有兩點: 一是可以從數(shù)據(jù)中自動地提取出有效的特征, 挖掘出特征之間的相關(guān)關(guān)系, 這主要依賴于CNN 的局部感知和權(quán)值共享機(jī)制, 使提取的新特征在很好地表達(dá)出原始數(shù)據(jù)特性的同時還能挖掘出數(shù)據(jù)中的隱含關(guān)系; 二是通過池化層隨機(jī)丟棄一些不重要的特征, 使最終的特征提取模型對那些沒有在訓(xùn)練數(shù)據(jù)中出現(xiàn)過的數(shù)據(jù), 模型也能很好地學(xué)習(xí).

      目前CNN 提取特征多應(yīng)用于圖像領(lǐng)域, 使用CNN 進(jìn)行廣告高階特征提取的研究相對較少. 主要是因為廣告數(shù)據(jù)存在大量的分類特征, 如果直接對這些特征進(jìn)行標(biāo)簽編碼處理,會使處理后的數(shù)據(jù)喪失表達(dá)原始數(shù)據(jù)的能力; 如果直接使用獨(dú)熱編碼對特征進(jìn)行處理,會使數(shù)據(jù)特征維度爆炸、模型參數(shù)過多而影響預(yù)測的效率, 并給設(shè)備造成壓力.

      2 基于GBDT 的CNN 模型CNN+

      本文利用GBDT 與CNN 模型相融合的思想, 一方面來源于He 等[7] 使用梯度提升樹解決了LR的人工提取特征的問題, 并且他們也從各個角度驗證了GBDT 在稀疏數(shù)據(jù)和多值分類特征中提取的有效性; 另一方面來源于已被驗證的CNN 在提取高階特征方面的強(qiáng)大能力, 但是面對多值類別特征時CNN 的特征提取能力有限, 在訓(xùn)練網(wǎng)絡(luò)的過程中要求很大的內(nèi)存資源以及計算機(jī)強(qiáng)大的運(yùn)算力.

      使用CNN+-LR 模型進(jìn)行廣告特征提取和廣告點擊率預(yù)測的大致過程: 首先使用GBDT 挖掘出廣告日志中低階的特征以及特征組合, 將原始的稀疏數(shù)據(jù)和多值分類特征進(jìn)行有效的預(yù)處理; 然后利用CNN 強(qiáng)大的特征提取能力在低階特征中進(jìn)一步提取高階特征; 最后使用原始的LR 模型對在線廣告的點擊率進(jìn)行預(yù)測. CNN+的特征提取過程如圖1 所示.

      3 算法測試與實驗結(jié)果分析

      3.1 數(shù)據(jù)說明

      本文實驗數(shù)據(jù)來源于DataCastle 競賽中“2018 科大訊飛AI 營銷算法大賽”的數(shù)據(jù)集, 即來自真實的公司環(huán)境. 廣告數(shù)據(jù)主要分為4 大類: 基本數(shù)據(jù)、廣告信息、媒體信息、上下文信息. 數(shù)據(jù)的類別分布和字段標(biāo)簽如表1 所示. 對于所給定的數(shù)據(jù), 通過統(tǒng)計得到的樣本總數(shù)為1 001 650 條, 其中用戶點擊廣告的樣本數(shù)占總樣本數(shù)的19.8%.

      實驗結(jié)果分析如下.

      (1) 3 種方法提取的特征較原始特征在點擊率預(yù)測問題中都表現(xiàn)出了一定的相對優(yōu)勢. 和原始LR 模型相比, PCA-LR 雖然在AAUC 和LLog_loss 的取值上沒有明顯優(yōu)勢, 但是最終選擇的主成分個數(shù)比原始特征要少, 從而降低了預(yù)測模型的復(fù)雜度, 提高了預(yù)測效率; GBDT-LR 和CNN+-LR 兩種模型與原始LR 模型相比得到的AAUC 至少提高了3%, LLog_loss 降低了2%, 這充分說明了使用GBDT 和CNN+模型提取特征的有效性.

      (2) CNN+-LR 模型的AAUC 和LLog_loss 均優(yōu)于GBDT-LR 模型, 其AAUC 提高了2.0%, LLog_loss降低了0.94%. 分析原因: 兩種方法都是用GBDT 在預(yù)處理后的原始數(shù)據(jù)中提取特征; 使用LR 模型預(yù)測用戶是否點擊廣告, 二者的區(qū)別在于,CNN+-LR 模型在初步提取的數(shù)據(jù)中再次使用了CNN 進(jìn)行深度特征學(xué)習(xí), CNN 能夠挖掘出特征之間更深層的規(guī)律, 并且得益于池化層的池化運(yùn)算, 提取的特征經(jīng)過CNN+后可擴(kuò)展性更強(qiáng).

      4 結(jié)論

      本文針對互聯(lián)網(wǎng)廣告數(shù)據(jù)具有高維稀疏性、人工提取深度高階特征費(fèi)時費(fèi)力等特點, 研究實現(xiàn)了基于GBDT 的CNN 在線廣告特征提取模型CNN+. 通過與主成分分析、梯度提升樹兩種不同的特征方法進(jìn)行的對比實驗, 證明了CNN+在廣告特征提取上的效果更佳. CNN+模型不但能從原始數(shù)據(jù)中自動提取出深度高階特征, 減少人工特征工程的人力和物力, 同時還通過梯度提升樹模型在多值分類特征中提取組合特征的優(yōu)勢, 解決了CNN 在稀疏、高維特征中提取特征困難的問題.

      [ 參 考 文 獻(xiàn)]

      [ 1 ] 高馳, 盧志茂. 在線廣告發(fā)展態(tài)勢與特性分析 [J]. 哈爾濱工業(yè)大學(xué)學(xué)報(社會科學(xué)版), 2003, 5(2): 122-125.

      [ 2 ] 周傲英, 周敏奇, 宮學(xué)慶. 計算廣告: 以數(shù)據(jù)為核心的Web綜合應(yīng)用 [J]. 計算機(jī)學(xué)報, 2011, 34(10): 1805-1819.

      [ 3 ]RICHARDSON M, DOMINOWSKA E, RAGNO R. Predicting clicks: Estimating the click-through rate for new ads [C]// Proceedingsof the 16th International Conference on World Wide Web. ACM, 2007: 521-530.

      [ 4 ] 沈方瑤, 戴國駿, 代成雷, 等. 基于特征關(guān)聯(lián)模型的廣告點擊率預(yù)測 [J]. 清華大學(xué)學(xué)報(自然科學(xué)版), 2018, 58(4): 374-379.

      [ 5 ] 李春紅, 吳英, 覃朝勇. 基于LASSO變量選擇方法的網(wǎng)絡(luò)廣告點擊率預(yù)測模型研究 [J]. 數(shù)理統(tǒng)計與管理, 2016, 35(5): 803-809.

      [ 6 ]YAN L, LI W J, XUE G R, et al. Coupled group lasso for Web-scale CTR prediction in display advertising [J]. Proceedings ofMachine Learning Research, 2014, 32(2): 802-810.

      [ 7 ]HE X R, PAN J F, JIN O, et al. Practical lessons from predicting clicks on ads at Facebook [C]// Proceedings of the 8th InternationalWorkshop on Data Mining for Online Advertising, ADKDD 2014. ACM, 2014: 5:1-5:9.

      [ 8 ] 魏曉航, 于重重, 田嫦麗, 等. 大數(shù)據(jù)平臺下的互聯(lián)網(wǎng)廣告點擊率預(yù)估模型 [J]. 計算機(jī)工程與設(shè)計, 2017, 38(9): 2504-2508.

      [ 9 ]張志強(qiáng), 周永, 謝曉芹, 等. 基于特征學(xué)習(xí)的廣告點擊率預(yù)估技術(shù)研究 [J]. 計算機(jī)學(xué)報, 2016, 39(4): 780-794. DOI: 10.11897/SP.J.1016.2016.00780.

      [10] 楊長春, 梅佳俊, 吳云, 等. 基于特征降維和DBN的廣告點擊率預(yù)測 [J]. 計算機(jī)工程與設(shè)計, 2018, 39(12): 3700-3704.

      [11]CHENG H T, KOC L, HARMSEN J, et al. Wide & deep learning for recommender systems [C]// DLRS 2016: Proceedings of the 1stWorkshop on Deep Learning for Recommender Systems. ACM, 2016: 7-10. DOI: 10.1145/2988450.2988454.

      [12]ABDI H, WILLIAMS L. Principal component analysis [J]. Wiley Interdisciplinary Reviews: Computational Statistics, 2010, 2(4): 433-459. DOI: 10.1002/wics.101.

      [13]肖垚, 畢軍芳, 韓易, 等. 在線廣告中點擊率預(yù)測研究 [J]. 華東師范大學(xué)學(xué)報(自然科學(xué)版), 2017(5): 80-86. DOI: 10.3969/j.issn.1000-5641.2017.05.008.

      [14]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]//NIPS12:Proceedings of the 25th International Conference on Neural Information Processing Systems- Volume 1. New York:Curran Associates Inc., 2012: 1097-1105.

      [15]MA L, LU Z D, SHANG L F, et al. Multimodal convolutional neural networks for matching image and sentence [C]// 2015 IEEEInternational Conference on Computer Vision (ICCV). IEEE, 2015: 2623-2631. DOI: 10.1109/ICCV.2015.301.

      [16]LOBO J M, JIM?NEZ-VALVERDE A, REAL R. AUC: A misleading measure of the performance of predictive distribution models[J]. Global Ecology and Biogeography, 2008, 17(2): 145-151. DOI: 10.1111/j.1466-8238.2007.00358.x.

      (責(zé)任編輯: 李 藝)

      猜你喜歡
      卷積神經(jīng)網(wǎng)絡(luò)
      基于深度神經(jīng)網(wǎng)絡(luò)的微表情識別
      卷積神經(jīng)網(wǎng)絡(luò)中減少訓(xùn)練樣本時間方法研究
      卷積神經(jīng)網(wǎng)絡(luò)語言模型研究
      基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢索方法研究
      基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      深度學(xué)習(xí)技術(shù)下的中文微博情感的分析與研究
      軟件(2016年5期)2016-08-30 06:27:49
      基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識別的算法的研究
      象州县| 巴彦县| 济阳县| 雅江县| 东乌珠穆沁旗| 南涧| 平邑县| 林西县| 临夏市| 洮南市| 陇南市| 中方县| 萍乡市| 永修县| 涞水县| 固阳县| 周口市| 澄江县| 平凉市| 和龙市| 石城县| 通城县| 尼木县| 当涂县| 威宁| 西城区| 新竹市| 沧源| 无锡市| 鄂托克旗| 陈巴尔虎旗| 岑溪市| 宁乡县| 大悟县| 青田县| 丰县| 于田县| 贞丰县| 新乡市| 沽源县| 和田县|