周親 吳運(yùn)辰 吳俊坤
摘 要:本文使用某電商公司提供的廣告點(diǎn)擊日志流,構(gòu)建基于用戶畫像的互聯(lián)網(wǎng)廣告點(diǎn)擊率預(yù)測(cè)xDeepFM模型。研究發(fā)現(xiàn):xDeepFM模型對(duì)預(yù)估準(zhǔn)確率提升明顯;用戶畫像系統(tǒng)可以很好的解決深度模型對(duì)高維稀疏特征的學(xué)習(xí)問題,有效提高預(yù)估準(zhǔn)確率。
關(guān)鍵詞:互聯(lián)網(wǎng)廣告;用戶畫像;xDeepFM模型;點(diǎn)擊率預(yù)測(cè)
中圖分類號(hào):TP274 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.1003-6970.2021.02.052
本文著錄格式:周親,吳運(yùn)辰,吳俊坤.基于用戶畫像的互聯(lián)網(wǎng)廣告點(diǎn)擊率預(yù)測(cè)模型研究[J].軟件,2021,42(02):171-174
Research on Prediction Model of Internet Advertising Click through Rate Based on User Portrait
ZHOU Qin, WU Yunchen, WU Junkun
(School of economics, Nanjing University of Posts and telecommunications, Nanjing? Jiangsu? 210023)
【Absrtact】:This paper uses the click log stream provided by an e-commerce company to build the xDeepFM model of Internet advertising click rate prediction based on user portrait. The results show that: xDeepFM model can significantly improve the prediction accuracy; user portrait system can solve the problem of learning high-dimensional sparse features from depth model, and effectively improve the prediction accuracy.
【Key words】:internet advertising;user portrait;xDeepFM model;click through rate prediction
0引言
21世紀(jì)以來(lái),隨著智能手機(jī)與互聯(lián)網(wǎng)技術(shù)的逐漸成熟,互聯(lián)網(wǎng)廣告成為日常生活中最常見的廣告形式。同時(shí),互聯(lián)網(wǎng)廣告以其精準(zhǔn)度高、互動(dòng)性強(qiáng)以及營(yíng)銷成本相對(duì)較低等顯著特性,成為互聯(lián)網(wǎng)公司最為穩(wěn)定的一種營(yíng)收模式。
廣告點(diǎn)擊率是衡量互聯(lián)網(wǎng)廣告投放效果的重要指標(biāo)?;ヂ?lián)網(wǎng)公司想要用戶愿意點(diǎn)擊彈跳出來(lái)的廣告,就要投放符合其“胃口”的廣告。因此需要使用更精確科學(xué)的模型對(duì)廣告點(diǎn)擊率進(jìn)行預(yù)估,準(zhǔn)確的估算廣告被前端用戶點(diǎn)擊的可能性,幫助廣告供應(yīng)方在有限的預(yù)算下獲得更多的點(diǎn)擊機(jī)會(huì),從而帶來(lái)更大的收益。在此背景下本文使用某電商公司提供的廣告點(diǎn)擊日志流,構(gòu)建基于用戶畫像的互聯(lián)網(wǎng)廣告點(diǎn)擊率預(yù)測(cè)xDeepFM模型,進(jìn)行深入研究。
1研究現(xiàn)狀
1.1關(guān)于用戶畫像的研究現(xiàn)狀
目前普遍接受的用戶畫像(Persona)的定義是由交互設(shè)計(jì)之父Alan Cooper提出的,他認(rèn)為用戶畫像是真實(shí)用戶的虛擬代表,是根據(jù)一系列用戶的真實(shí)數(shù)據(jù)而挖掘出的目標(biāo)用戶模型[1]。
用戶畫像被應(yīng)用于各個(gè)行業(yè)。在營(yíng)銷方面,王冬羽[2]將用戶畫像系統(tǒng)的分為用戶靜態(tài)信息畫像和用戶動(dòng)態(tài)信息畫像,設(shè)計(jì)了用戶畫像系統(tǒng),有效提高了用戶流量、增加了新用戶數(shù);在圖書館應(yīng)用方面,都藍(lán)[3]通過精確的構(gòu)建用戶畫像,幫助圖書館更加直觀地了解到讀者閱讀傾向,便于館員開展精準(zhǔn)化閱讀推廣服務(wù)。
1.2關(guān)于廣告點(diǎn)擊率的研究現(xiàn)狀
點(diǎn)擊率(CTR)是指某一內(nèi)容被點(diǎn)擊次數(shù)與被展示次數(shù)的比,一般用于描述內(nèi)容被用戶點(diǎn)擊的概率[4]。目前CTR預(yù)估研究方向主要分為兩個(gè)類別,即模型選擇層面和特征提取層面。從模型選擇層面來(lái)說(shuō):吳文偉[5]基于分布式邏輯回歸模型進(jìn)行分析,最終使廣告點(diǎn)擊率系統(tǒng)的訓(xùn)練速度得以明顯提升;Rendl等[6]提出一種能夠自動(dòng)進(jìn)行特征組合的模型——因子分解機(jī)。從特征提取層面來(lái)說(shuō):華盛頓大學(xué)教授Domingos[7]曾說(shuō),使用什么特征是很多機(jī)器學(xué)習(xí)項(xiàng)目成敗的關(guān)鍵因素。周永[8]基于真實(shí)廣告點(diǎn)擊數(shù)據(jù)發(fā)現(xiàn),基于GBDT特征優(yōu)化技術(shù)的LR模型能有效提高傳統(tǒng)LR模型的預(yù)測(cè)準(zhǔn)確率;宋益多[9]通過LDA模型輸出用戶査詢的主題詞向量,最后基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型進(jìn)行分析。
2數(shù)據(jù)說(shuō)明及預(yù)處理
2.1數(shù)據(jù)說(shuō)明
本文所述的廣告點(diǎn)擊率預(yù)估方法來(lái)源于實(shí)驗(yàn)室合作項(xiàng)目,數(shù)據(jù)來(lái)源自某電商公司提供的廣告點(diǎn)擊日志流,可以基于該組數(shù)據(jù)來(lái)衡量網(wǎng)站上廣告的吸引程度。本文數(shù)據(jù)具體時(shí)間范圍2020年3月1日至2020年3月8日共計(jì)八天。為保證用戶的相關(guān)隱私,所有數(shù)據(jù)均做脫敏處理。本文選取了日志流中的三個(gè)數(shù)據(jù)集進(jìn)行后續(xù)廣告點(diǎn)擊率預(yù)測(cè)模型擬合,如表1所示。
首先,在該電商網(wǎng)站上隨機(jī)抽樣114萬(wàn)用戶近8天(2020.3.1-2020.3.8)內(nèi)的點(diǎn)擊日志,并選取合適的維度,共計(jì)2600萬(wàn)記錄,構(gòu)成樣本骨架數(shù)據(jù)集,數(shù)據(jù)集內(nèi)的字段說(shuō)明如表2。
其次在該電商網(wǎng)站上提取樣本骨架數(shù)據(jù)表中包含的廣告基本信息,數(shù)據(jù)集內(nèi)的字段說(shuō)明如表3。
再提取樣本骨架數(shù)據(jù)表中114萬(wàn)用戶的基本信息,構(gòu)成用戶信息表,字段信息如表4。
2.2數(shù)據(jù)預(yù)處理
通過對(duì)數(shù)據(jù)隨機(jī)抽取查看發(fā)現(xiàn),可能由于電商平臺(tái)數(shù)據(jù)存儲(chǔ)的失敗、存儲(chǔ)器破壞或者歷史局限問題,數(shù)據(jù)中存在缺失值和異常值。為進(jìn)一步分析數(shù)據(jù)并保證數(shù)據(jù)的完整性和可靠性,使用多重插補(bǔ)方法對(duì)數(shù)據(jù)預(yù)處理。
3 xDeepFM模型求解
3.1特征編碼
數(shù)據(jù)集通過數(shù)據(jù)預(yù)處理后依舊是比較臟亂,因?yàn)閿?shù)據(jù)中存在各種非數(shù)字特殊符號(hào),比如中文等,而實(shí)際上機(jī)器學(xué)習(xí)模型需要的數(shù)據(jù)是數(shù)字型的,只有數(shù)字類型才能進(jìn)行計(jì)算。因此,對(duì)于各種特殊的特征值,需要通過one-hot編碼對(duì)其進(jìn)行量化。
3.2 xDeepFM模型參數(shù)優(yōu)化
xDeepFM要學(xué)習(xí)的參數(shù)主要包括線性FM部分的系數(shù)、Embedding層的系數(shù)、CIN中各層的系數(shù)和DNN中各層的系數(shù),通過反向傳播算法即可求解各個(gè)系數(shù)。但是傳統(tǒng)的求解使用梯度下降進(jìn)行參數(shù)權(quán)重更新,每一輪迭代都需要使用全部的數(shù)據(jù)來(lái)計(jì)算平均損失函數(shù),對(duì)于本文大數(shù)據(jù)集的情況,計(jì)算效率較差,考慮相關(guān)優(yōu)化方法進(jìn)行求解,隨機(jī)梯度下降使用單個(gè)數(shù)據(jù)點(diǎn)的損失來(lái)代替整個(gè)數(shù)據(jù)記得平均損失,可以很好地解決梯度下降帶來(lái)的計(jì)算問題,但是容易帶來(lái)模型不收斂問題,同時(shí)使用單個(gè)數(shù)據(jù)點(diǎn)的損失來(lái)衡量平均損失也存在一定的誤差;小批量梯度下降使用一批數(shù)據(jù)來(lái)計(jì)算平均損失,代替整個(gè)數(shù)據(jù)集的平均損失,是計(jì)算速度和計(jì)算準(zhǔn)確性之間的折中方法,因此,本文使用小批量梯度下降進(jìn)行參數(shù)求解。
最終模型的預(yù)測(cè)結(jié)果還與模型各預(yù)設(shè)參數(shù)相關(guān),如學(xué)習(xí)率、batch_size、batch_norm、layer_size、layer_shape等,不同參數(shù)的調(diào)優(yōu)過程是一個(gè)NP問題,一般使用網(wǎng)格搜索來(lái)進(jìn)行最優(yōu)化,根據(jù)各參數(shù)的不同設(shè)定,可以求得模型的AUC值,最終選取擬合效果最好的參數(shù)組合來(lái)構(gòu)建模型如表5。
3.3預(yù)測(cè)結(jié)果檢驗(yàn)與分析
使用網(wǎng)格搜索求得的超參數(shù)組合進(jìn)行模型訓(xùn)練,損失函數(shù)變化圖像如圖1所示。可以看出,在訓(xùn)練的初始階段,損失函數(shù)跳躍嚴(yán)重,無(wú)法收斂,而在經(jīng)過7000多輪迭代后,損失函數(shù)趨于平緩,最終穩(wěn)定在一個(gè)固定的值附近,代表模型收斂。
訓(xùn)練完畢,使用tensorboard對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行可視化導(dǎo)出,可以看到最終的網(wǎng)絡(luò)構(gòu)架如圖2所示。這表明使用訓(xùn)練好的xDeepFM模型,在測(cè)試集上進(jìn)行預(yù)測(cè),通過ROC曲線計(jì)算AUC值以及召回率來(lái)衡量模型的擬合優(yōu)度,最終計(jì)算得到AUC為0.8532,召回率為0.9217,模型擬合較好,針對(duì)廣告點(diǎn)擊率預(yù)測(cè)具有實(shí)質(zhì)性作用。
3.4模型優(yōu)化:用戶畫像系統(tǒng)
已經(jīng)構(gòu)建的xDeepFM模型能夠很好的擬合互聯(lián)網(wǎng)廣告點(diǎn)擊問題的特征,同時(shí)可以預(yù)測(cè)用戶對(duì)于不同類型廣告的喜好程度、點(diǎn)擊概率,但是依然存在可優(yōu)化點(diǎn),例如原始特征中“User_id”這一字段為高維稀疏特征(兩千七百萬(wàn)維),xDeepFM無(wú)法處理這一特征,如果直接對(duì)該特征進(jìn)行熱獨(dú)編碼處理、使用,經(jīng)過DNN模塊的特征交互,會(huì)使得最終學(xué)習(xí)的模型過于關(guān)注重復(fù)出現(xiàn)的User_id,弱化一般User_id的權(quán)重,在實(shí)際場(chǎng)景中,某個(gè)User_id反復(fù)出現(xiàn)并點(diǎn)擊互聯(lián)網(wǎng)廣告,很可能是刷流量等作弊行為,因此將其視為無(wú)效特征,不予使用。但是,不使用用戶唯一標(biāo)識(shí)特征會(huì)帶來(lái)新的問題,這就意味著放棄用戶歷史數(shù)據(jù),也就是放棄xDeepFM模型對(duì)用戶的記憶能力,這在實(shí)際生產(chǎn)環(huán)境中是難以取舍的問題,另一方面,不使用用戶標(biāo)識(shí)特征會(huì)帶來(lái)嚴(yán)重的冷啟動(dòng)問題。
為解決上述問題,考慮使用歷史數(shù)據(jù)構(gòu)建用戶畫像系統(tǒng),用戶畫像系統(tǒng)使用用戶歷史行為數(shù)據(jù),如用戶歷史點(diǎn)擊廣告類型、用戶IP位置、點(diǎn)擊終端等特征,可以構(gòu)建性別、年齡、興趣標(biāo)簽,基于用戶畫像系統(tǒng)的結(jié)果,可以將每一個(gè)User_id映射到對(duì)應(yīng)的用戶類別中,最終作為新的特征添加到模型的輸入變量中,用戶畫像系統(tǒng)的輸出經(jīng)過熱獨(dú)編碼處理會(huì)變成低維變量,滿足xDeepFM模型學(xué)習(xí)的基礎(chǔ),不會(huì)帶來(lái)維度災(zāi)難、聚焦問題,同時(shí)可以充分使用已有數(shù)據(jù),保留模型對(duì)用戶行為的記憶能力。
用戶畫像系統(tǒng)可以作用于互聯(lián)網(wǎng)廣告點(diǎn)擊的召回階段,也可以作用于特征生成階段,本文將用戶畫像應(yīng)用于特征生成階段,衍生出新的特征進(jìn)行后續(xù)學(xué)習(xí),使用用戶畫像系統(tǒng)后的ROC曲線如圖3所示。根據(jù)模型訓(xùn)練、預(yù)估結(jié)果發(fā)現(xiàn),在相同的訓(xùn)練集、測(cè)試集上,用戶畫像系統(tǒng)可以使模型性能得到進(jìn)一步提升,主要體現(xiàn)在AUC和Recall上,其中AUC提高5-6個(gè)百分點(diǎn),Recall提高1個(gè)百分點(diǎn)。因此,可以得出結(jié)論:用戶畫像系統(tǒng)能夠優(yōu)化xDeepFM模型,提高模型的擬合優(yōu)度,從而提升廣告點(diǎn)擊預(yù)測(cè)的準(zhǔn)確率。
4結(jié)論
通過對(duì)本文所選的互聯(lián)網(wǎng)廣告數(shù)據(jù)的建模分析發(fā)現(xiàn):(1)相對(duì)于其他模型(如邏輯回歸、神經(jīng)網(wǎng)絡(luò)等),xDeepFM模型有其特有的優(yōu)勢(shì);(2)xDeepFM模型中的CIN架構(gòu)可以學(xué)習(xí)數(shù)據(jù)集中的歷史關(guān)系,其中的DNN架構(gòu)可以自動(dòng)化學(xué)習(xí)特征高階(二階及以上)交互關(guān)系,均對(duì)預(yù)估準(zhǔn)確率提升明顯;(3)基于海量用戶數(shù)據(jù)所構(gòu)成的用戶畫像系統(tǒng),可以完美解決深度模型對(duì)高維稀疏特征的學(xué)習(xí)問題,有效緩解過擬合,提高模型的擬合優(yōu)度,同時(shí)可以提供模型的記憶能力,緩解冷啟動(dòng)問題、提高預(yù)估準(zhǔn)確率。
參考文獻(xiàn)
[1] 徐芳,應(yīng)潔茹.國(guó)內(nèi)外用戶畫像研究綜述[J].圖書館學(xué)研究,2020(12):7-16.
[2] 王冬羽.基于移動(dòng)互聯(lián)網(wǎng)行為分析的用戶畫像系統(tǒng)設(shè)計(jì)[D].成都:成都理工大學(xué),2017.
[3] 都藍(lán).基于用戶畫像的高校圖書館年度閱讀報(bào)告研究[J].圖書館雜志,2019,38(4):27-33+40.
[4] 劉冶,劉荻,王硯文,等.基于多源融合特征提取的在線廣告預(yù)測(cè)模型[J].計(jì)算機(jī)工程,2019,45(1):178-185+191.
[5] 吳文偉.基于分布式邏輯回歸模型的廣告點(diǎn)擊率預(yù)估系統(tǒng)[D].北京:北京交通大學(xué),2018.
[6] Rendle S.Factorization Machines[C].Proceedings of the 2010 IEEE International Conference on Data Mining. Washington DC:IEEE Computer Society,2010:995-1000.
[7] Pedro Domingos.A few useful things to know about machine learning[J].Communications of the ACM,2012,
55(10):78-87.
[8] 周永.基于特征學(xué)習(xí)的廣告點(diǎn)擊率預(yù)估技術(shù)研究[D].哈爾濱:哈爾濱工程大學(xué),2014.
[9] 宋益多.基于用戶特征的搜索廣告點(diǎn)擊率預(yù)測(cè)研究[D].哈爾濱:哈爾濱工程大學(xué),2016.