• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于LightGBM的廣告商品平臺(tái)推薦系統(tǒng)設(shè)計(jì)與應(yīng)用

      2022-10-27 08:14:32楊正成劉浩
      科技創(chuàng)新與應(yīng)用 2022年30期
      關(guān)鍵詞:點(diǎn)擊率廣告主樣本

      楊正成,劉浩

      (東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院,上海 201620)

      基于市場(chǎng)對(duì)短視頻廣告創(chuàng)意的需求增長(zhǎng)[1],字節(jié)跳動(dòng)旗下廣告創(chuàng)意定制平臺(tái)應(yīng)運(yùn)而生。該平臺(tái)是一個(gè)廣告創(chuàng)意定制化服務(wù)的雙邊交易平臺(tái),致力于將廣告主的需求與創(chuàng)作者的能力進(jìn)行撮合匹配。截至2021年底,平臺(tái)提供超16 000個(gè)廣告商品服務(wù),導(dǎo)致廣告主的商品挑選難度較大、效率較低。拆解廣告主下單路徑并構(gòu)建轉(zhuǎn)化漏斗,發(fā)現(xiàn)商品平臺(tái)總體下單轉(zhuǎn)化率較低,其中從商品廣場(chǎng)到商品詳情頁(yè)的轉(zhuǎn)化率為21.7%(無(wú)購(gòu)買記錄的新廣告主的下單點(diǎn)擊率更低,為12%左右),商品卡片的點(diǎn)擊率(CTR)僅為2.0%。究其原因,是平臺(tái)尚無(wú)以提升廣告主的下單轉(zhuǎn)化率與廣告創(chuàng)作者的商品CTR為目標(biāo)而設(shè)計(jì)的推薦排序策略。

      本文針對(duì)上述問(wèn)題,在整體架構(gòu)、軟件體系架構(gòu)和算法層面做了優(yōu)化設(shè)計(jì)。

      (1)從整體架構(gòu)層面,設(shè)計(jì)重構(gòu)廣告服務(wù)推薦策略,新增點(diǎn)擊率預(yù)測(cè)模型。一方面將商品服務(wù)點(diǎn)擊率作為評(píng)價(jià)指標(biāo),另一方面又作為預(yù)測(cè)結(jié)果[2]。

      (2)從軟件體系架構(gòu)層面,采用責(zé)任鏈的設(shè)計(jì)模式,這種模式會(huì)根據(jù)給予請(qǐng)求的數(shù)據(jù)模型類型,對(duì)請(qǐng)求的數(shù)據(jù)發(fā)送方和接收方進(jìn)行解耦,使得整個(gè)系統(tǒng)可以在不影響客戶端的情況下動(dòng)態(tài)地重新組織責(zé)任鏈和分配責(zé)任[3],達(dá)到可拔插和方便擴(kuò)展的目的,方便了算法的接入與擴(kuò)展。

      (3)從算法層面,對(duì)平臺(tái)商品售前能力進(jìn)行優(yōu)化,提出基于GBDT模型和LightGBM框架優(yōu)化推薦策略[4],來(lái)提升商品的CTR。其中的原理可以概括成:利用我們所需要的全部特征來(lái)預(yù)測(cè)廣告主是否點(diǎn)擊推薦內(nèi)容或者廣告主是否會(huì)選擇這個(gè)商品的概率[5-6],對(duì)廣告主進(jìn)行個(gè)性化推薦。

      1 總體架構(gòu)設(shè)計(jì)

      本文以字節(jié)跳動(dòng)旗下廣告創(chuàng)意定制平臺(tái)為研究系統(tǒng),廣告主從進(jìn)入平臺(tái)到下單的全流程如圖1所示。

      圖1 廣告主下單流程拆解圖

      圖1展示了廣告主從進(jìn)入平臺(tái)到下單,需要經(jīng)過(guò)的幾個(gè)階段。首先,廣告主進(jìn)入廣告商品平臺(tái),商品平臺(tái)會(huì)展示不同的商品供客戶挑選,客戶選中商品點(diǎn)擊進(jìn)入詳情頁(yè),最終完成下單的轉(zhuǎn)化。

      本文對(duì)該廣告商品平臺(tái)模塊的商品推薦、排序、搜索能力進(jìn)行重新架構(gòu)設(shè)計(jì)[7]。該架構(gòu)整體分為3個(gè)階段:召回階段,算法精排階段和封裝階段,如圖2所示。

      圖2 商品平臺(tái)搜索推薦整體架構(gòu)圖

      圖2架構(gòu)圖解釋了用戶進(jìn)入站點(diǎn),從行為采集到反饋的全流程。其中,為了貫通召回及排序的整體邏輯,本文通過(guò)定義一個(gè)搜索執(zhí)行流水線SearchPipeline來(lái)進(jìn)行整體流程的控制。采用責(zé)任鏈模式,通過(guò)自定義搜索執(zhí)行流水線上下文SearchContext,存放原始搜索參數(shù)及各階段的參數(shù)和結(jié)果,而后搜索執(zhí)行流水線SearchPipeline會(huì)按順序執(zhí)行單個(gè)搜索階段的處理邏輯SearchHandler。

      針對(duì)商品平臺(tái)搜排推整體軟件體系架構(gòu),共設(shè)計(jì)了4個(gè)搜索執(zhí)行器,分別是商品召回執(zhí)行器SpuRecal lHandler、商品算法精排執(zhí)行器SpuSortHandler、商品封裝處理器SearchPackHandler(SpuPacker),以及記錄搜索關(guān)鍵詞SearchRecordHandler。

      2 整體流程

      2.1 數(shù)據(jù)采集和清洗

      通過(guò)前期埋點(diǎn)采集得到用戶行為特征數(shù)據(jù),由于數(shù)據(jù)量級(jí)巨大,需要借助HDFS(Hadoop分布式文件系統(tǒng),由Apache開發(fā)的分布式系統(tǒng)框架[8])批量計(jì)算得到廣告商品對(duì)用戶的點(diǎn)擊/曝光行為樣本數(shù)據(jù),以及廣告主側(cè)特征、廣告商品側(cè)特征、廣告主與廣告商品側(cè)交叉特征4個(gè)特征數(shù)據(jù),最終分別存儲(chǔ)并生成5張Hive表。

      2.2 商品召回階段

      起初商品平臺(tái)使用的檢索邏輯僅包含商品初步召回邏輯,查詢分布式搜索引擎ElasticSearch[9]召回商品數(shù)據(jù)。ElasticSearch支持文檔的全文搜索,為數(shù)據(jù)的每個(gè)字段建立倒排索引,倒排索引是ElasticSearch針對(duì)全文檢索使用的索引數(shù)據(jù)結(jié)構(gòu)。

      利用ElasticSearch初篩召回規(guī)則如下:通過(guò)ElasticSearch索引召回、通過(guò)商品服務(wù)名字、創(chuàng)作者名字進(jìn)行模糊匹配和通過(guò)查詢銷量等綜合評(píng)分等數(shù)據(jù)進(jìn)行召回等。

      平臺(tái)歷史邏輯的召回階段雖然能夠通過(guò)廣告主指定的篩選條件執(zhí)行快速篩選,或者簡(jiǎn)單地通過(guò)訂單評(píng)分召回的方式實(shí)現(xiàn)篩選,但是缺乏針對(duì)廣告主行為,如對(duì)商品點(diǎn)擊、曝光等交互場(chǎng)景更進(jìn)一步地建模,導(dǎo)致召回排序排名靠前的CTR和下單轉(zhuǎn)化率都不高?;诖耍疚脑黾恿司拍P偷奶幚砥?,對(duì)召回的數(shù)據(jù)進(jìn)行精排。

      2.3 算法精排階段

      2.3.1 樣本獲取

      本文主要使用廣告創(chuàng)意定制平臺(tái)的商品平臺(tái)中的商品曝光和商品點(diǎn)擊2張Hive表,見(jiàn)表1。

      表1 廣告商品曝光、點(diǎn)擊表

      market_spu_card_expose和market_spu_card_click 2張表分別記錄廣告主進(jìn)入廣告商品平臺(tái)的廣告商品服務(wù)的曝光和點(diǎn)擊行為數(shù)據(jù),每一條數(shù)據(jù)記錄一次曝光或者點(diǎn)擊行為。

      利用Dorado平臺(tái)(Dorado是字節(jié)跳動(dòng)旗下集數(shù)據(jù)集成、數(shù)據(jù)開發(fā)、任務(wù)調(diào)度、運(yùn)維管理和數(shù)據(jù)分析等功能為一體的大數(shù)據(jù)研發(fā)平臺(tái),提供一站式大數(shù)據(jù)研發(fā)解決方案,幫助業(yè)務(wù)部門進(jìn)行數(shù)倉(cāng)建設(shè),包括ETL開發(fā),數(shù)據(jù)分析及探索,簡(jiǎn)單高效構(gòu)建自己的數(shù)據(jù)中臺(tái),專注于數(shù)據(jù)價(jià)值的挖掘和探索),通過(guò)HiveSQL語(yǔ)句,對(duì)Hive數(shù)據(jù)進(jìn)行加工處理[10],對(duì)于數(shù)據(jù)樣本量大且對(duì)數(shù)據(jù)處理時(shí)效性要求并不高的情況,使用Dorado處理離線數(shù)據(jù),其步驟如圖3所示。

      圖3 離線數(shù)據(jù)處理步驟圖

      樣本構(gòu)造后最終生成的ctr模型樣本存放于名為market_spu_card_ctr_samples的表中,該表的每一條樣本數(shù)據(jù)記錄了某一廣告主對(duì)某個(gè)廣告創(chuàng)作者旗下的一個(gè)廣告商品的曝光點(diǎn)擊數(shù)據(jù),如果廣告主對(duì)廣告商品發(fā)生曝光并點(diǎn)擊則為正樣本,如果商品曝光但未點(diǎn)擊則為負(fù)樣本。本實(shí)驗(yàn)數(shù)據(jù)選取時(shí)間2021年8月—2021年11月底,一共產(chǎn)生樣本數(shù)1 273 186個(gè)樣本數(shù)據(jù),見(jiàn)表2。

      表2 樣本數(shù)據(jù)分布

      2.3.2 特征工程

      在廣告主的商品點(diǎn)擊率預(yù)估模型的建模中,最重要的就是特征工程。在信息透明化的互聯(lián)網(wǎng)時(shí)代,用戶特征行為對(duì)于互聯(lián)網(wǎng)產(chǎn)品的更新迭代尤為關(guān)鍵[11]。模型綜合考慮3個(gè)方面的特征,分別為廣告主側(cè)特征、商品服務(wù)側(cè)特征和廣告主與商品服務(wù)交叉特征?,F(xiàn)存3張?zhí)卣鲾?shù)據(jù)Hive表,見(jiàn)表3。

      表3 特征數(shù)據(jù)Hive表

      與處理樣本類似,通過(guò)HSQL任務(wù)對(duì)特征大數(shù)據(jù)進(jìn)行離線處理,加工上述3張Hive表特征數(shù)據(jù)到最終的點(diǎn)擊率Hive表中ctr_market_label_and_features,總共166個(gè)初始特征。

      3 實(shí)驗(yàn)?zāi)P团c驗(yàn)證

      3.1 模型構(gòu)建

      LightGBM(Light Gradient Boosting Machine)是一個(gè)實(shí)現(xiàn)GBDT算法的工業(yè)級(jí)框架,具有訓(xùn)練速度更快、內(nèi)存消耗更低、準(zhǔn)確率更好及支持分布式等優(yōu)點(diǎn),在點(diǎn)擊率預(yù)測(cè)方面有很好的應(yīng)用[12]。在機(jī)器學(xué)習(xí)領(lǐng)域,GBDT是一個(gè)很好的算法模型,其利用弱分類器(決策樹)的思想迭代訓(xùn)練,從而得到最優(yōu)模型,該模型具有性能良好、不易過(guò)擬合等優(yōu)點(diǎn)。在互聯(lián)網(wǎng)界GBDT應(yīng)用非常普遍,被用于多分類、點(diǎn)擊率預(yù)測(cè)和搜索排序等任務(wù),在Kaggle上的比賽一大半的優(yōu)秀方案都是基于GBDT[13]。

      LightGBM主要融合了2種算法:?jiǎn)芜叢蓸铀惴ǎ℅radient-based One-Side Sampling,GOSS)和特征捆綁算法(Exclusive Feature Bunding,EFB)。

      GOSS在采樣時(shí)對(duì)樣本的梯度絕對(duì)值進(jìn)行排序,按照選取前a×100%個(gè)大梯度樣本保留,對(duì)剩下的(1-a)×100%個(gè)小梯度樣本進(jìn)行隨機(jī)采樣,隨機(jī)選取b×(1-a)×100%個(gè)數(shù)據(jù),并且乘以(1-n)/m作為信息增益。使用這種方法學(xué)習(xí)一個(gè)新的弱學(xué)習(xí)器,重復(fù)直至收斂。這樣的優(yōu)化帶來(lái)的好處是大梯度樣本會(huì)有更多的信息增益,不用給予小樣本過(guò)多的關(guān)注,能夠?qū)φ麄€(gè)訓(xùn)練起正向作用。

      GOSS算法降低時(shí)間復(fù)雜度的方式是減少樣本數(shù)量,而EFB算法則考慮減少特征數(shù)量來(lái)降低復(fù)雜度。一般來(lái)說(shuō),使用的數(shù)據(jù)不會(huì)同時(shí)取0值,即存在互斥特征。EFB算法實(shí)現(xiàn)降維是通過(guò)綁定互斥特征來(lái)減少互斥特征的數(shù)量達(dá)成的。選擇互斥的特征作為捆綁對(duì)象能夠避免損失信息,如果2個(gè)特征并不是完全的互斥,可以通過(guò)引進(jìn)沖突比率來(lái)對(duì)特征之間的不互斥程度進(jìn)行衡量。如果當(dāng)沖突比率值較小時(shí),即使捆綁不完全互斥的2個(gè)特征,也不會(huì)影響最終精度。

      利用LightGBM進(jìn)行模型構(gòu)建主要涉及以下2個(gè)步驟。

      (1)導(dǎo)入上述的訓(xùn)練集和測(cè)試集數(shù)據(jù)。

      (2)對(duì)模型參數(shù)進(jìn)行調(diào)優(yōu)。本次實(shí)驗(yàn)采用的是python中l(wèi)ightgbm包中的LGBMClassifier函數(shù),其中主要的參數(shù)設(shè)定見(jiàn)表4。

      表4 LightGBM參數(shù)設(shè)置

      3.2 模型評(píng)估

      將上述166個(gè)特征放入LightGBM訓(xùn)練處feat_importance特征樹,通過(guò)特征樹的重要性排序并導(dǎo)出得到3個(gè)特征的具體特征舉例(按照特征重要性排序),見(jiàn)表5。

      表5 特征重要性表

      可以發(fā)現(xiàn),原始推薦的粗排評(píng)分并不能作為點(diǎn)擊率預(yù)估的主導(dǎo)因素,在商品維度下最重要的特征是商品在平臺(tái)的CTR。因?yàn)镃TR作為用戶行為指標(biāo),主導(dǎo)因素是用戶,其次才是商品維度的信息。

      3.3 混淆矩陣評(píng)估

      混淆矩陣是數(shù)據(jù)科學(xué)、數(shù)據(jù)分析和機(jī)器學(xué)習(xí)中總結(jié)分類模型預(yù)測(cè)結(jié)果的情形分析表,以矩陣形式將數(shù)據(jù)集中的記錄按照真實(shí)的類別與分類模型作出的分類判斷2個(gè)標(biāo)準(zhǔn)進(jìn)行匯總。利用LightGBM建模后測(cè)試樣例的混淆矩陣見(jiàn)表6。

      表6 測(cè)試集-LightGBM混淆矩陣

      由表6可見(jiàn),在246 282個(gè)測(cè)試樣例中,真正點(diǎn)擊的有6 845個(gè),真陽(yáng)性(TP)有4 702個(gè),假陰性(FN)數(shù)據(jù)為2 143個(gè);真正未點(diǎn)擊的數(shù)據(jù)是239 437個(gè),假陽(yáng)性(FP)有58 231個(gè),真陰性(TN)有181 206個(gè)??梢杂纱擞?jì)算真陽(yáng)性率(TPR)來(lái)評(píng)估模型的敏感度,以及利用真陰性率(TNR)來(lái)評(píng)估模型的特異度

      3.4 AUC值分析

      為評(píng)估模型的性能效果,選取曲線下方的面積大?。ˋUC)作為衡量指標(biāo),曲線下方的面積大?。ˋUC)是衡量學(xué)習(xí)器優(yōu)劣的一種性能指標(biāo),二值場(chǎng)景即正例高于負(fù)例的概率。AUC值越大,說(shuō)明分類模型的性能越好。

      實(shí)驗(yàn)選取2021年8月12日—2021年11月7日的樣本作為訓(xùn)練樣本,利用2021年11月8日—2021年11月30日的樣本作為測(cè)試樣本。利用all-feature特征,采用LightGBM模型進(jìn)行擬合,模型實(shí)驗(yàn)的結(jié)論基本符合預(yù)期,最終實(shí)驗(yàn)樣本和測(cè)試樣本的結(jié)果見(jiàn)表7。

      表7 訓(xùn)練樣本和測(cè)試樣本AUC評(píng)分

      3.5 實(shí)驗(yàn)驗(yàn)證

      為驗(yàn)證模型的實(shí)際應(yīng)用效果,進(jìn)行推薦系統(tǒng)優(yōu)化前后的線上A/B實(shí)驗(yàn)。展示了在接入本文推薦系統(tǒng)前后不同廣告主進(jìn)入服務(wù)廣場(chǎng)的展示效果,達(dá)到了個(gè)性化的展示效果(由于涉及線上肖像數(shù)據(jù),圖片相應(yīng)做了模糊處理,不影響結(jié)果的觀察),如圖4所示。

      圖4 廣告主視角下推薦系統(tǒng)接入前后的對(duì)比圖

      圖4模擬了接入本文推薦系統(tǒng)前后,不同廣告主視角下進(jìn)入平臺(tái)服務(wù)廣場(chǎng)頁(yè)面進(jìn)行選品的商品展示效果對(duì)比。其中,在接入文本推薦系統(tǒng)之前,服務(wù)廣場(chǎng)對(duì)于不同廣告主所展示的商品服務(wù)及其排列順序是一致的。而在接入本文推薦系統(tǒng)之后,服務(wù)廣場(chǎng)后所見(jiàn)的商品及其排序因不同廣告主而異,因?yàn)橄到y(tǒng)會(huì)根據(jù)不同廣告主的特征屬性差異,以及不同商品的特征進(jìn)行個(gè)性化的召回。

      為了得到可靠的CTR數(shù)據(jù)支撐,將上述2個(gè)實(shí)驗(yàn)分為2組,將未接入該推薦模型的版本作為v1基準(zhǔn)組,以及本次實(shí)驗(yàn)新增點(diǎn)擊率模型推薦版本v2為對(duì)照組,分別記錄CTR參數(shù)指標(biāo)。實(shí)驗(yàn)選取選取2022年1月4日—2022年1月17日共14 d作為本次A/B實(shí)驗(yàn)的時(shí)間窗口,在此周期內(nèi)檢測(cè)基準(zhǔn)組和對(duì)照組數(shù)據(jù)。實(shí)驗(yàn)點(diǎn)擊率結(jié)果如圖5和圖6所示。

      圖5 單個(gè)用戶對(duì)商品點(diǎn)擊率對(duì)比圖

      圖6 商品整體點(diǎn)擊率對(duì)比圖

      記錄基準(zhǔn)組與對(duì)照組的下單轉(zhuǎn)化率數(shù)據(jù)見(jiàn)表8。

      表8 下單轉(zhuǎn)化率對(duì)比

      實(shí)驗(yàn)結(jié)果表明,新推薦系統(tǒng)下,單個(gè)用戶的廣告商品點(diǎn)擊率平均上漲27.67%,廣告平臺(tái)商品點(diǎn)擊率總體上漲10.52%;下單轉(zhuǎn)化率從優(yōu)化前的1.89%提升至3.39%,增長(zhǎng)79.3%??梢?jiàn),該商品推薦系統(tǒng)有助于改善從商品點(diǎn)擊到下單轉(zhuǎn)化的營(yíng)銷鏈路,為平臺(tái)帶來(lái)收益。

      4 結(jié)束語(yǔ)

      為了提高字節(jié)跳動(dòng)廣告定制平臺(tái)商品服務(wù)的點(diǎn)擊率和轉(zhuǎn)化率,本文在原有平臺(tái)能力的基礎(chǔ)上,對(duì)平臺(tái)商品推薦系統(tǒng)進(jìn)行設(shè)計(jì)和應(yīng)用。本研究涉及從數(shù)據(jù)采集、召回,以及精排的全流程,核心亮點(diǎn)體現(xiàn)于算法精排階段。精排模型增加了基于LightGBM模型的點(diǎn)擊率預(yù)估功能,以AUC為評(píng)分指標(biāo)評(píng)估模型效果,并通過(guò)線上A/B實(shí)驗(yàn)對(duì)商品點(diǎn)擊率的提升效果進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果證實(shí)了本文提出的新增算法能夠根據(jù)廣告主特征進(jìn)行個(gè)性化點(diǎn)擊率預(yù)估并進(jìn)行合理的推薦,該算法已應(yīng)用至字節(jié)跳動(dòng)的線上服務(wù)中,可為廣告定制平臺(tái)的商品點(diǎn)擊與轉(zhuǎn)化的提升帶來(lái)實(shí)際收益。

      猜你喜歡
      點(diǎn)擊率廣告主樣本
      創(chuàng)新?tīng)I(yíng)銷新模式愛(ài)創(chuàng)榮獲第十四屆廣告主金遠(yuǎn)獎(jiǎng)金獎(jiǎng)
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      考慮廣告主投資競(jìng)爭(zhēng)的關(guān)鍵詞拍賣研究
      推動(dòng)醫(yī)改的“直銷樣本”
      基于特征工程的視頻點(diǎn)擊率預(yù)測(cè)算法
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      村企共贏的樣本
      喜報(bào)!萌寶大賽參賽者660名,投票321657人次,點(diǎn)擊率超60萬(wàn)!
      海峽姐妹(2015年8期)2015-02-27 15:12:30
      廣告主與搜索引擎的雙向博弈分析
      徹底消失
      观塘区| 稷山县| 昭平县| 马关县| 顺义区| 石屏县| 九龙坡区| 虞城县| 永春县| 九龙坡区| 栾城县| 纳雍县| 长乐市| 马公市| 吉安县| 二连浩特市| 延津县| 桃江县| 鸡东县| 香港 | 桓仁| 乐都县| 葫芦岛市| 洛浦县| 光泽县| 宾阳县| 平潭县| 丽水市| 连城县| 榆社县| 尚义县| 大同县| 天台县| 曲周县| 营山县| 鹿泉市| 比如县| 平阴县| 乐平市| 双江| 桂平市|