• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于集成模型的移動應(yīng)用廣告轉(zhuǎn)化率預(yù)測①

      2019-11-15 07:08:08何鴻業(yè)
      關(guān)鍵詞:轉(zhuǎn)化率樣本預(yù)測

      彭 贊,鄭 瑾,何鴻業(yè)

      (中南大學(xué) 信息科學(xué)與工程學(xué)院,長沙 410083)

      廣告的歷史源遠(yuǎn)流長,生活中存在許多不同形式的廣告.近十年來,互聯(lián)網(wǎng)產(chǎn)業(yè)的高速發(fā)展為廣告業(yè)提供了嶄新的發(fā)展平臺,從根本上改變了廣告業(yè)的布局,從而形成了擁有巨大市場價(jià)值的互聯(lián)網(wǎng)廣告業(yè).美國互聯(lián)廣告局指出,在2016年,移動互聯(lián)網(wǎng)廣告收入首次在互聯(lián)網(wǎng)廣告收入中占比超過50%,達(dá)到了50.52%,移動互聯(lián)網(wǎng)廣告5年內(nèi)的復(fù)合年均增長率CAGR(Compound Annual Growth Rate)高達(dá)87%,與之對比的非移動互聯(lián)廣告的CAGR 僅為6%[1].由此可以得到,移動互聯(lián)網(wǎng)廣告已經(jīng)成為了一個(gè)擁有巨大價(jià)值的產(chǎn)業(yè),如何使廣告主、廣告商以及用戶獲取他們最大的收益是一件十分重要的事.

      移動App 廣告預(yù)測中一個(gè)重要參數(shù)為轉(zhuǎn)化率CVR (ConVersion Rate),它是一個(gè)衡量每次行動成本CPA (Cost Per Action/Pay perAction)廣告效果的指標(biāo),簡言之就是用戶點(diǎn)擊廣告到成為一個(gè)有效激活或者注冊甚至付費(fèi)用戶的轉(zhuǎn)化率.目前,中國互聯(lián)網(wǎng)尤其是移動互聯(lián)網(wǎng)的迅猛發(fā)展直接帶動中國互聯(lián)網(wǎng)廣告行業(yè)的迅速崛起.CVR (Conversion Rate)作為甲方的一個(gè)考核標(biāo)準(zhǔn),一般是限于推廣廣告主和推廣渠道之間的專用名詞,是考核乙方渠道點(diǎn)擊用戶是否真實(shí)、是否優(yōu)質(zhì)的重要標(biāo)準(zhǔn),相關(guān)的廣告公司越來越重視廣告轉(zhuǎn)化率或者點(diǎn)擊率的預(yù)測[2-4].歸根結(jié)底CVR 預(yù)測也就是從海量的歷史數(shù)據(jù)中選取有效的特征數(shù)據(jù),特征組合以及機(jī)器學(xué)習(xí)模型來預(yù)測CVR,從而提高其準(zhǔn)確率.

      在此基礎(chǔ)上,本文主要做了以下兩點(diǎn)工作:第一,在特征工程階段,我們使用了統(tǒng)計(jì)學(xué)和特征工程的方法,獲得了大量有效的特征數(shù)據(jù),為我們的研究提供了可靠的基礎(chǔ);第二,在邏輯回歸(Logistic Regression,LR)、XGBoost、LightGBM 這3 種模型的基礎(chǔ)上,提出了預(yù)測App 廣告轉(zhuǎn)化率的集成模型——SXL 和BLLX.在App 廣告的賽題數(shù)據(jù)上,驗(yàn)證SXL 和BLLX模型的有效性,提高App 廣告轉(zhuǎn)化率的預(yù)測能力.

      1 相關(guān)工作

      1.1 機(jī)器學(xué)習(xí)模型

      機(jī)器學(xué)習(xí)是一種計(jì)算機(jī)程序,可以在給定任務(wù)T 和性能評估P 下學(xué)習(xí)一種確定類別的經(jīng)驗(yàn)E,如果它在任務(wù)T 中的性能可以用P 來衡量,那么它將能夠有效地學(xué)習(xí)經(jīng)驗(yàn)E[5].一般,研究人員把廣告轉(zhuǎn)化率預(yù)測當(dāng)成一個(gè)二分類問題進(jìn)行研究,機(jī)器學(xué)習(xí)模型中的線性模型可以用來處理該類問題.線性模型劇本簡單易實(shí)現(xiàn)的特點(diǎn),可以處理超大規(guī)模的數(shù)據(jù)[6].文獻(xiàn)[7]首次把廣告點(diǎn)擊率預(yù)測問題當(dāng)作一個(gè)回歸問題來處理,并使用傳統(tǒng)機(jī)器學(xué)習(xí)模型邏輯回歸模型(LR),用來預(yù)測廣告點(diǎn)擊率.文獻(xiàn)[8]使用L-BFGS(該方法是擬牛頓法的優(yōu)化算法) 方法來訓(xùn)練LR 模型,在模型中選擇L1 正則化,避免模型的過擬合,以此來提高預(yù)測的準(zhǔn)確率.文獻(xiàn)[9]從Web 搜索引擎日志中挖掘點(diǎn)擊數(shù)據(jù),利用支持向量機(jī)(SVM)實(shí)現(xiàn)對廣告點(diǎn)擊率的預(yù)測.文獻(xiàn)[10]使用GBDT 模型來處理Facebook 廣告點(diǎn)擊率的非線性特征數(shù)據(jù),將Facebook 中的實(shí)際數(shù)據(jù)向量經(jīng)過獨(dú)熱編碼,來進(jìn)行訓(xùn)練.在本文研究中,我們結(jié)合機(jī)器學(xué)習(xí)的方法,以LR 模型作為對比模型,使用GBDT 的改進(jìn)模型XGBoost 和LightGBM 進(jìn)行訓(xùn)練.

      1.2 特征工程

      特征工程在機(jī)器學(xué)習(xí)中占有相當(dāng)重要的地位,特征工程是利用數(shù)據(jù)領(lǐng)域的相關(guān)知識來創(chuàng)建特征并且能夠使機(jī)器學(xué)習(xí)算法達(dá)到最佳性能,包括三個(gè)子問題:特征選擇、特征提取和特征構(gòu)造[11].特征選擇的目的是從特征集合中挑選出來一組最具有統(tǒng)計(jì)意義的特征子集,達(dá)到降低維度的效果,而特征提取是將原始數(shù)據(jù)轉(zhuǎn)換成一組具有明顯物理意義或者統(tǒng)計(jì)意義的特征.特征構(gòu)造是從原始數(shù)據(jù)中人工構(gòu)建新的特征,它需要人們花大量的時(shí)間去研究實(shí)際數(shù)據(jù),思考數(shù)據(jù)之間的潛在聯(lián)系.特征構(gòu)造也能夠通過FM (因子分解機(jī))和深度學(xué)習(xí)(提取訓(xùn)練模型中隱藏層作為特征)等機(jī)器學(xué)習(xí)方法構(gòu)造特征.文獻(xiàn)[7]將具體廣告、環(huán)境抽象成特征,用特征來達(dá)到泛化的目的,從而對廣告點(diǎn)擊率進(jìn)行預(yù)測.文獻(xiàn)[12]假設(shè)歷史數(shù)據(jù)中不同種類的數(shù)據(jù)之間存在隱含的可能性,使用關(guān)鍵詞聚類的方法,將同一層次的數(shù)據(jù)聚類到一起,形成一個(gè)聚類簇,并用該聚類簇預(yù)測廣告點(diǎn)擊率.本文研究過程中,使用特征工程處理實(shí)際數(shù)據(jù),發(fā)掘數(shù)據(jù)中的潛在聯(lián)系.

      1.3 集成技術(shù)

      集成模型是一個(gè)非常強(qiáng)大的技術(shù),可以提高各種機(jī)器學(xué)習(xí)中任務(wù)的準(zhǔn)確性.其思想就是充分利用不同分類算法各種的優(yōu)勢,取長補(bǔ)短,組合形成一個(gè)強(qiáng)大的集成框架.文獻(xiàn)[13]中介紹了兩種不同的集成思想來集成模型:1)平均法(Blending):它使用訓(xùn)練數(shù)據(jù)訓(xùn)練多個(gè)不同的單一模型,然后將模型的預(yù)測結(jié)果進(jìn)行加權(quán)平均,借此來提高集成模型的準(zhǔn)確率;2) 學(xué)習(xí)法(Stacking):它一般是將原始數(shù)據(jù)劃成幾等分,分別訓(xùn)練第一層的模型,將得到的所有的預(yù)測結(jié)果組合上原始數(shù)據(jù),當(dāng)作是第二層模型的輸入,然后進(jìn)行最終的預(yù)測.

      集成模型存在許多問題,在集成模型過程中應(yīng)該考慮集成哪些基礎(chǔ)模型、使用什么集成方法和哪種集成模型能夠取得更好的預(yù)測能力.文獻(xiàn)[14]融合了GBDT和LR 模型,利用GBDT 模型提取數(shù)據(jù)中的特征,然后輸入到LR 模型中進(jìn)行訓(xùn)練,形成了GBDT+LR 模型,在Bing搜索上取得了不錯(cuò)的結(jié)果.文獻(xiàn)[15]融合了LightGBM、XGBoost、FFM、VW 4 種算法,形成RF+LXFV 集成模型.在本文的實(shí)驗(yàn)中,將這2 種融合模型作為參照進(jìn)行了對比分析.

      在本文中,我們使用了3 種單一模型:LR、XGBoost和LightGBM.在集成思想上,首先我們使用Blending方法,按照一定的權(quán)重集成LR、XGBoost、LightGBM,形成BLLX 模型.然后使用Stacking 思想,分別集成XGBoost 和LightGBM,形成SXL 模型.

      2 集成模型

      本節(jié)分析研究所使用的集成模型以及基礎(chǔ)模型,第一部分介紹基礎(chǔ)模型,第二部分介紹集成模型,第三部分分析模型的優(yōu)缺點(diǎn).

      2.1 基礎(chǔ)模型

      2.1.1 LR

      LR 模型是優(yōu)秀的二分類預(yù)測模型之一,常常被眾多研究學(xué)者使用在點(diǎn)擊率的預(yù)測問題中.對于二分類任務(wù)來說,它的輸出一般只有兩種情況:0 或者1.LR模型將線性函數(shù)的結(jié)果通過Sigmoid 函數(shù)計(jì)算,輸出最終的預(yù)測結(jié)果.其基本模型如式(1)所示.其中Y為預(yù)測結(jié)果,x為樣本,w為樣本特征的權(quán)重向量,b為模型的偏置.LR 模型一般分為3 部分解決點(diǎn)擊率預(yù)測問題:第一,尋找模型的預(yù)測函數(shù)f(x),通常我們使用sigmoid 函數(shù)作為預(yù)測函數(shù)f(x);第二,建立損失函數(shù)loss(w),一般使用極大似然估計(jì)法建立loss(w);第三,求解使損失函數(shù)loss(w)最小的參數(shù)w,一般使用梯度下降的方法求解w.

      2.1.2 XGBoost

      XGBoost[16]是大規(guī)模并行boosted tree 的工具,它是目前最快最好的開源boosted tree 工具包,比常見的工具包快10 倍以上.XGBoost 是以分類回歸樹CART為基礎(chǔ),對多個(gè)CART 進(jìn)行組合.對于單個(gè)的CART,需要找到損失函數(shù)最小的一個(gè)分類回歸樹,而XGBoost通過加法模型來組合多個(gè)CART,將模型上次預(yù)測(由t-1 顆樹組合成的模型) 產(chǎn)生的誤差作為參考下一棵樹(第t顆樹)的建立.因此,每加入一棵樹,將其損失函數(shù)不斷降低.其算法的流程如下所示:

      1)在每次迭代過程中加入一顆新樹f(xi);

      2)在每次迭代計(jì)算f(xi)的已一階導(dǎo)數(shù)和二階導(dǎo)數(shù);

      3)計(jì)算f(xi)的目標(biāo)函數(shù)的最小損失值Obj,并根據(jù)值Obj來生成樹f(xi).

      2.1.3 LightGBM

      盡管很多學(xué)者使用不同的優(yōu)化算法來提高GBDT的效率,但當(dāng)數(shù)據(jù)特征維度過高、數(shù)據(jù)量過大時(shí),這些算法總是那么不盡人意.他們共同不足的地方是,在計(jì)算信息增益時(shí)都需要掃描所有的樣本,來找到最佳的劃分點(diǎn),從而消耗了大量的計(jì)算時(shí)間.因此,微軟為了解決這方面的問題,提出了Gradient-based One-Side Sampling 梯度單邊采樣(GOSS)和Exclusive Feature Bundling 互斥特征綁定(EFB)兩個(gè)算法優(yōu)化GDBT,將優(yōu)化后的GDBT 稱為LightGBM[17].

      GOSS[17]提出是為了證明梯度較大的樣本在計(jì)算信息增益的時(shí)起重要作用,從而能夠從數(shù)量較小的樣本中獲得相當(dāng)準(zhǔn)確的信息增益估計(jì)值.其算法的核心思想是:在總樣本中選取梯度較大的部分樣本,并在剩下樣本中隨機(jī)選取出部分樣本,兩者組合成新的樣本來學(xué)習(xí)新的分類器.這樣的做法是為了采樣的樣本與總樣本的分布一致和訓(xùn)練小梯度樣本數(shù)據(jù),從而在不改變樣本的分布前提下不損失分類器學(xué)習(xí)的精確并且大大的減少了分類器學(xué)習(xí)的速率.

      EFB[17]是一種能夠減少高維數(shù)據(jù)的特征數(shù)并使損失最小的一種算法,將稀疏特征空間中的非0 值的特征綁定到一起形成一個(gè)特征,然后從特征綁定中建立相同的特征直方圖作為單一特征,通過這種方式能夠在無損精度的情況加速GBDT 的訓(xùn)練.

      2.2 基于學(xué)習(xí)法和平均法的集成模型

      本文基于LR、XGBoost 和LightGBM3 種單一模型,使用Stacking 和Blending 集成思想,提出2 種集成模型:SXL 和SSL.

      2.2.1 SXL 模型

      SXL 模型通過Stacking 技術(shù),集成LightGBM 和XGBoost 兩種單一模型,其整體結(jié)構(gòu)如圖1所示.SXL中S 代表集成模型的技術(shù)Stacking,X 和L 分別代表集成模型的基礎(chǔ)模型XGBoost 和LightGBM.Stacking 初等模型層使用XGBoost 模型進(jìn)行5 折交叉驗(yàn)證,最終模型從使用LightGBM 作預(yù)測.5 折交叉驗(yàn)證是將原始數(shù)據(jù)分成5 等分,每次訓(xùn)練選四折作為訓(xùn)練數(shù)據(jù),另外一折作為測試數(shù)據(jù),每一折訓(xùn)練得到一個(gè)預(yù)測結(jié)果,循環(huán)五次,最后將五次預(yù)測結(jié)果和原始數(shù)據(jù)拼接,得到最終模型從的訓(xùn)練數(shù)據(jù).最終模型使用LightGBM 訓(xùn)練初等模型層得到的數(shù)據(jù),輸出最終的預(yù)測結(jié)果.

      SXL 模型一共分為兩層,第一層為初等模型層,其中選用XGBoost 為基礎(chǔ)訓(xùn)練模型;第二層為最終模型層,選用LightGBM 為基礎(chǔ)訓(xùn)練模型.SXL 模型的實(shí)現(xiàn)主要分為以下幾個(gè)步驟:1)首先讀取原始特征數(shù)據(jù)集I;2)按原始特征數(shù)據(jù)集I,平均分成5 等份Ii(i∈1,2,3,4,5);3)對每一個(gè)訓(xùn)練XGBoost 模型,得到Resulti;4)組合原始特征數(shù)據(jù)集I和初等模型層訓(xùn)練后得到的Resulti組合成新特征集D;5) 用訓(xùn)練最終模型層LightGBM,得到最終預(yù)測結(jié)果Result.

      圖1 SXL 集成模型圖

      2.2.2 BLLX 模型

      BLLX 模型使用Blending 技術(shù),集成LR、Light GBM、XGBoost 3 種基礎(chǔ)單一模型.整體結(jié)構(gòu)如圖2所示.BLLX 模型是集成3 種單一模型的分別訓(xùn)練后的結(jié)果,通過一定的權(quán)重分配,來獲得最后的結(jié)果.經(jīng)過實(shí)驗(yàn)結(jié)果的對比,我們最終選擇的模型權(quán)重如式(2).

      圖2 BLLX 集成模型圖

      2.3 性能分析

      對于分析數(shù)據(jù)集,不同的方法處理數(shù)據(jù)集獲得的結(jié)論不同,不同的機(jī)器學(xué)習(xí)模型學(xué)習(xí)數(shù)據(jù)集的方法不同,其訓(xùn)練結(jié)果也不一樣.集成技術(shù)能夠訓(xùn)練單一模型,結(jié)合它們的優(yōu)點(diǎn),提高預(yù)測的能力.XGBoost 改進(jìn)了GBDT 的殘差函數(shù),利用CPU 的多線程,引入正則化項(xiàng),控制模型的復(fù)雜度,使用預(yù)排序的方法實(shí)現(xiàn)特征并行.LightGBM 使用直方圖算法,使訓(xùn)練過程加速,擁有更高的訓(xùn)練效率,相比于XGBoost,它占用更低的內(nèi)存,具備處理大數(shù)據(jù)的能力.SXL 模型使用Stacking 集成思想,集成了XGBoost 和LightGBM 的優(yōu)點(diǎn),既能夠并行進(jìn)行訓(xùn)練,又能夠得到更準(zhǔn)確的預(yù)測結(jié)果.但是模型訓(xùn)練中多次訓(xùn)練單一模型,重復(fù)讀取大量的數(shù)據(jù),會導(dǎo)致模型的訓(xùn)練時(shí)間加倍增長,影響模型的效率,而且Stacking 技術(shù)增加了整個(gè)模型的復(fù)雜度,容易訓(xùn)練過擬合.BLLX 模型是在LR、XGBoost 和LightGBM 的各自訓(xùn)練后的結(jié)論上進(jìn)行加權(quán)平均,不會導(dǎo)致過擬合的發(fā)生,其模型復(fù)雜度也沒有SXL 模型高,更容易得到不錯(cuò)的預(yù)測結(jié)果.但是如何處理各個(gè)模型的權(quán)重的問題上,需要經(jīng)過大量的時(shí)間計(jì)算,分配每個(gè)單一模型的權(quán)重值.

      3 實(shí)驗(yàn)結(jié)果及分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)與預(yù)處理

      本文采用的數(shù)據(jù)集來自騰訊社交廣告高校算法大賽,該項(xiàng)比賽是以移動App 廣告為研究對象,要求比賽參與者利用騰訊社交廣告平臺中的真實(shí)數(shù)據(jù)預(yù)測App 廣告轉(zhuǎn)化率,從而能夠提高廣告的投放效果,并且擴(kuò)大廣告帶來的相關(guān)收入.原始數(shù)據(jù)中包含了以下數(shù)據(jù)特征:1)廣告相關(guān)特征(廣告主信息、廣告的相關(guān)信息等);2) 用戶特征(用戶相關(guān)信息年齡、性別、學(xué)歷、教育情況、婚姻情況等等);3)上下文特征(用戶使用的手機(jī)類型、運(yùn)營商、聯(lián)網(wǎng)方式和廣告位置的相關(guān)信息等).

      由于數(shù)據(jù)來源于真實(shí)的廣告平臺中,每天都能產(chǎn)生大量的歷史數(shù)據(jù),每位用戶都可能產(chǎn)生大量的廣告日志記錄,會造成數(shù)據(jù)中用戶與轉(zhuǎn)化成功的廣告數(shù)量比嚴(yán)重不足.且在數(shù)據(jù)采集過程中,由于一些不可控的原因,會導(dǎo)致數(shù)據(jù)集中的數(shù)據(jù)缺失問題.針對此問題,我們根據(jù)缺失數(shù)據(jù)所屬的特征進(jìn)行分析,若它為連續(xù)型特征,我們會根據(jù)它的均值進(jìn)行補(bǔ)充缺失值,若它為離散型特征,則我們會刪除該條數(shù)據(jù),雖然刪除缺失值會影響后續(xù)模型預(yù)測的準(zhǔn)確性,但是在本次的App 廣告數(shù)據(jù)集中,缺失的樣本幾乎只占了樣本總量的0.1%,刪除它并不會影響樣本的總體的分布.在經(jīng)過處理后,我們的數(shù)據(jù)樣本中包含9386 404 條數(shù)據(jù),其中轉(zhuǎn)化的App 廣告條數(shù)為234 382 條,未轉(zhuǎn)化的App 廣告條數(shù)為9152 022 條.

      3.2 評估標(biāo)準(zhǔn)

      本文研究的問題是針對數(shù)據(jù)集中的每條數(shù)據(jù)樣本,預(yù)測用戶點(diǎn)擊并激活A(yù)pp 廣告的轉(zhuǎn)化率.其本質(zhì)上屬于一個(gè)二分類問題,因?yàn)橛脩羰欠窦せ钤揂pp 廣告,只有兩個(gè)取值:0 或者1.對數(shù)損失(Log-likelihood Loss,LogLoss)是在概率論上定義的一個(gè)評估分類器的概率輸出的標(biāo)準(zhǔn).它能夠通過懲罰錯(cuò)誤的分類,完成對評估分類器的準(zhǔn)確度的量化,為了計(jì)算LogLoss值,每個(gè)分類器必須提供樣本的所屬類別的概率值.對于一個(gè)二分類問題,LogLoss的計(jì)算公式如式(3)所示:

      式中,yi代表第i個(gè)樣本xi的類別,取值為0 或1,pi代表分類器輸出的樣本xi的預(yù)測概率值,取值區(qū)間在0 到1,N為樣本總量.

      3.3 特征提取

      3.3.1 基礎(chǔ)特征

      基礎(chǔ)特征為數(shù)據(jù)初始的特征,訓(xùn)練集中的每一個(gè)原始字段都可以作為基礎(chǔ)特征,從而統(tǒng)計(jì)相關(guān)統(tǒng)計(jì)量(例如過去幾天內(nèi)的用戶點(diǎn)擊總量、用戶是否轉(zhuǎn)化過當(dāng)前App 等).以訓(xùn)練集中的素材creative_id 為例,它是用戶最直接看到的內(nèi)容,對某個(gè)特定的 creative_id,我們統(tǒng)計(jì)過去若干天內(nèi)該 creative_id 的總點(diǎn)擊量、轉(zhuǎn)化次數(shù)和轉(zhuǎn)化率,作為該 creative_id 取值的3 個(gè)特征.它的物理意義是量化地描述了該素材是否更能吸引用戶(點(diǎn)擊量)和發(fā)生轉(zhuǎn)化(轉(zhuǎn)化率).

      3.3.2 用戶信息特征

      基礎(chǔ)特征以外,用戶信息特征是非常重要的特征.因?yàn)橐粋€(gè)App 廣告是否得到激活轉(zhuǎn)化,都是由用戶主觀上決定的,所以針對用戶的相關(guān)行為進(jìn)行分析對本次實(shí)驗(yàn)是十分重要的.我們通過對用戶行為的分析,提取了一些相關(guān)的特征,包括:用戶安裝App 的總量、用戶在轉(zhuǎn)化該廣告之間的一些行為(點(diǎn)擊之前用戶點(diǎn)擊App 的數(shù)量等)、用戶點(diǎn)擊相同素材的廣告總量等等一些與用戶相關(guān)的行為特征.

      3.3.3 貝葉斯平滑特征

      貝葉斯平滑假設(shè)所有的廣告都有一個(gè)自身的轉(zhuǎn)化率,這些轉(zhuǎn)化率服從于一個(gè)Beta 分布,其次對于某一個(gè)廣告,給定轉(zhuǎn)化次數(shù)和它自身的轉(zhuǎn)化率,它的點(diǎn)擊次數(shù)服從一個(gè)伯努利分布,最后用梯度下降來學(xué)習(xí)這個(gè)分布.當(dāng)我們預(yù)測App 廣告CVR 時(shí),機(jī)器學(xué)習(xí)模型非常依賴于統(tǒng)計(jì)特征,每個(gè)廣告的反饋CVR 都能夠極大的提升預(yù)測的準(zhǔn)確性.我們使用歷史數(shù)據(jù)來獲得App 廣告的CVR 時(shí)存在一個(gè)問題,即在特種提取中我們統(tǒng)計(jì)了同一廣告位App 的歷史轉(zhuǎn)化率,由于廣告位上線有前后區(qū)別,而且上線慢的廣告位統(tǒng)計(jì)不充分,大多數(shù)用戶只點(diǎn)擊過App 廣告一次,那么它的歷史轉(zhuǎn)化率就是100%.如果拿這個(gè)特征訓(xùn)練模型,可能導(dǎo)致數(shù)據(jù)偏差.在貝葉斯平滑中,我們一共平滑了兩種數(shù)據(jù),一種是App 廣告位置信息的貝葉斯平滑率(CF_pos),一種是App 廣告素材信息的貝葉斯平滑率(CF_cre).

      3.4 實(shí)驗(yàn)結(jié)果

      3.4.1 模型參數(shù)設(shè)置

      在設(shè)置XGBoost 和LightGBM 模型參數(shù)時(shí),我們選擇使用Python 學(xué)習(xí)庫中的GridSearchCV 方法,對模型進(jìn)行參數(shù)進(jìn)行交叉驗(yàn)證選擇出模型的合適參數(shù),其參數(shù)設(shè)置如表1和表2所示.

      3.4.2 特征提取的影響

      我們使用GBDT 模型中對特征評估的方法,對我們在特征提取階段得到的特征進(jìn)行評估,得到如圖3所示的重要性得分圖.圖中以SF 開始的特征為用戶信息特征,CF 開始的特征為貝葉斯特征,小寫字母開始和BF 開始的特征為基礎(chǔ)特征.從圖中我們可以得到,在經(jīng)過貝葉斯平滑后得到的兩個(gè)特征CF_pos 和CF_cre 的重要性得分最高,我們可以判斷出App 廣告的位置和廣告使用的素材對App 廣告成功轉(zhuǎn)化有較大的影響.在基礎(chǔ)特征中,年齡age 對App 廣告成功轉(zhuǎn)化的影響最大,appplatform 得分最低,我們可以得到年齡是決定App 廣告轉(zhuǎn)化的重要因素之一,而App 的平臺(安卓和蘋果)對App 廣告成功轉(zhuǎn)化有微弱的影響.因此我們篩選出得分少于100 的特征,得到最終的特征集.

      表1 XGBoost 參數(shù)表

      表2 LightGBM 參數(shù)表

      接著,我們使用XGBoost 和lightGBM 兩種單一模型對特征進(jìn)行訓(xùn)練.V1 階段我們使用原始數(shù)據(jù)集,V1-V2 和V2-V3 我們加入基礎(chǔ)特征,V3-V4、V4-V5 和V5-V6 階段我們加入用戶信息特征,V6-V7 階段我們加入貝葉斯平滑特征.從圖4中我們可以看出,隨著訓(xùn)練集中數(shù)據(jù)特征的增多,兩個(gè)模型的LogLoss值趨向于下降,這證明我們提取的特征能夠大幅度的提升模型的預(yù)測效果.

      圖3 特征重要性得分圖

      3.4.3 預(yù)測結(jié)果分析

      在本文實(shí)驗(yàn)中,一共訓(xùn)練了7 種模型:LR、XGBoost、LightGBM3 種單一模型,GBDT+LR、RF+LXFV 兩種用于廣告轉(zhuǎn)化率預(yù)測的集成模型,以及本文提出了兩種集成模型SXL 和BLLX,7 種模型的訓(xùn)練結(jié)果如表3所示.從表中可以看出,LR 模型的效果最差,其LogLoss為0.1033;BLLX 模型的效果最好其LogLoss為0.0922;在單一模型中,XGBoost 和LightGBM 的預(yù)測能力均比LR 模型優(yōu)秀;而集成模型與單一模型對比中,GBDT+LR 稍微比單一模型差,而其它3 種集成模型均比單一模型好;在4 種集成模型對比中,BLLX 模型和SXL 模型的效果比另外2 種好;在時(shí)間成本上,RF+LXFV 的時(shí)間成本最高,其原因在于集成了4 種單一模型,導(dǎo)致模型的復(fù)雜度提升,從而導(dǎo)致訓(xùn)練時(shí)間過長;SXL 模型在集成模型中,訓(xùn)練時(shí)間最短,為59.8 分鐘.

      圖4 不同特征在模型上的效果圖

      表3 各模型App 廣告轉(zhuǎn)化預(yù)測的LogLoss 和時(shí)間成本

      實(shí)驗(yàn)結(jié)果充分證明了我們提出的SXL 模型和BLLX模型的有效性與預(yù)測轉(zhuǎn)化率的精準(zhǔn)度,在實(shí)際使用中,BLLX 模型的時(shí)間成本比SXL 模型高,但LogLoss比BLLX 模型低,如果公司使用模型用在廣告系統(tǒng)中,考慮到預(yù)測轉(zhuǎn)化率的精度微弱提高都會帶來巨大的收益情況下,建議使用BLLX 模型;而如果因?yàn)闀r(shí)間成本問題,在損失預(yù)測精度的情況下,可以考慮SXL 模型.

      4 結(jié)論

      本文通過對App 廣告點(diǎn)擊后激活的轉(zhuǎn)化率預(yù)測問題的研究,使用特征工程,處理數(shù)據(jù)集,并提出了兩種集成模型SXL 和BLLX.論文以騰訊社交廣告算法大賽中的實(shí)際數(shù)據(jù)為基礎(chǔ),通過特征工程挖掘出大量的用戶數(shù)據(jù)特征,提供了模型訓(xùn)練的訓(xùn)練集,為模型訓(xùn)練打下了堅(jiān)實(shí)的基礎(chǔ).集成模型SXL 和BLLX 在LogLoss方法評估中都要明顯高于傳統(tǒng)機(jī)器學(xué)習(xí)模型和其它集成模型,本文模型的有效性得到了充分的驗(yàn)證.當(dāng)然本文也存在很多不足的地方,例如在特征提取中,沒有考慮到時(shí)間信息對App 廣告轉(zhuǎn)化率的影響.在今后的研究中,考慮挖掘時(shí)間信息,進(jìn)一步提高模型的預(yù)測能力.

      猜你喜歡
      轉(zhuǎn)化率樣本預(yù)測
      無可預(yù)測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      我國全產(chǎn)業(yè)領(lǐng)域平均國際標(biāo)準(zhǔn)轉(zhuǎn)化率已達(dá)75%
      選修2-2期中考試預(yù)測卷(A卷)
      選修2-2期中考試預(yù)測卷(B卷)
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      推動醫(yī)改的“直銷樣本”
      不必預(yù)測未來,只需把握現(xiàn)在
      曲料配比與米渣生醬油蛋白質(zhì)轉(zhuǎn)化率的相關(guān)性
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      村企共贏的樣本
      迁西县| 庆安县| 区。| 红原县| 电白县| 紫云| 德令哈市| 石阡县| 德保县| 舒城县| 宜章县| 金乡县| 黔江区| 高雄市| 九龙坡区| 吐鲁番市| 合肥市| 桦甸市| 澄城县| 云梦县| 黔东| 信宜市| 西吉县| 太康县| 通山县| 固安县| 新蔡县| 鹤庆县| 临西县| 侯马市| 九江市| 达孜县| 泰来县| 云浮市| 京山县| 灌阳县| 建水县| 海原县| 贵阳市| 墨竹工卡县| 虹口区|