• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于特征工程的網(wǎng)絡(luò)廣告收益轉(zhuǎn)化精準(zhǔn)度研究

      2019-01-09 01:39:04趙又霖張慧敏
      關(guān)鍵詞:網(wǎng)絡(luò)廣告轉(zhuǎn)化率收益

      趙又霖,張慧敏

      (河海大學(xué) 商學(xué)院,江蘇 南京 211100)

      網(wǎng)絡(luò)廣告收益是互聯(lián)網(wǎng)企業(yè)最主要的變現(xiàn)手段。互聯(lián)網(wǎng)廣告根據(jù)收費(fèi)方式主要可以分為按展示量收費(fèi)(cost per mille,CPM)、按展示時(shí)長收費(fèi)(cost per time,CPT)、按點(diǎn)擊次數(shù)收費(fèi)(cost per click,CPC)、按展示效果收費(fèi)(cost per action,CPA)4種。其中,CPA最接近廣告主的利益訴求,在最大程度上避免了廣告主的投資風(fēng)險(xiǎn),因此CPA成為廣告主的最佳選擇。在CPA收費(fèi)模式下,最受廣告主青睞的效果評估指標(biāo)是收益轉(zhuǎn)化率,此情況下的廣告平臺只有提高廣告收益轉(zhuǎn)化率才能有效提高平臺廣告收入。由于精準(zhǔn)投放是廣告提高收益轉(zhuǎn)化率的關(guān)鍵手段,而精準(zhǔn)的收益轉(zhuǎn)化率預(yù)估是精準(zhǔn)投放中的關(guān)鍵環(huán)節(jié),因此收益轉(zhuǎn)化率預(yù)估成為了網(wǎng)絡(luò)廣告變現(xiàn)過程中的核心問題。當(dāng)廣告收益轉(zhuǎn)化率預(yù)測值遠(yuǎn)高于真實(shí)值時(shí),廣告平臺由于向某些用戶展示了不合適的廣告信息而導(dǎo)致實(shí)際收益轉(zhuǎn)化率偏低,廣告平臺無法取得預(yù)期的廣告收入。當(dāng)預(yù)測值遠(yuǎn)低于真實(shí)值時(shí),由于廣告平臺減少了某條廣告的展示量,使得轉(zhuǎn)化率低于預(yù)期值,廣告主的利益受到損害。無論預(yù)測值是遠(yuǎn)高于或遠(yuǎn)低于真實(shí)值都會(huì)使用戶無法獲得其最佳匹配的廣告信息,因此精準(zhǔn)的廣告收益轉(zhuǎn)化率預(yù)測方案對于廣告投放過程中的所有相關(guān)利益者皆十分重要。

      但在廣告收益轉(zhuǎn)化率預(yù)測研究中主要存在以下兩個(gè)難點(diǎn):①真實(shí)數(shù)據(jù)正負(fù)樣本極端不平衡。若不對數(shù)據(jù)集進(jìn)行處理,算法訓(xùn)練的結(jié)果會(huì)向多數(shù)類樣本偏移。目前多使用抽樣的方法來解決數(shù)據(jù)偏移問題,但是抽樣會(huì)改變數(shù)據(jù)分布,使樣本分布與真實(shí)情況產(chǎn)生偏差,對偏差的糾正主要依賴于經(jīng)驗(yàn)參數(shù),而經(jīng)驗(yàn)參數(shù)卻較難獲得。因此如何在保持訓(xùn)練樣本分布與真實(shí)數(shù)據(jù)分布一致的情況下,減少數(shù)據(jù)不平衡帶來的影響是收益轉(zhuǎn)化率研究的難點(diǎn)之一。②網(wǎng)絡(luò)廣告的數(shù)據(jù)過于全面以致冗余,并包含錯(cuò)誤或無關(guān)的信息,這些信息會(huì)對算法產(chǎn)生干擾。

      特征工程(feature engineering)是一項(xiàng)將原始數(shù)據(jù)轉(zhuǎn)換成能被計(jì)算機(jī)算法所理解的特征體系的工程活動(dòng),其目的是從原始數(shù)據(jù)中提取盡可能多的有用信息供算法使用,從而提高模型準(zhǔn)確度。針對廣告收益轉(zhuǎn)化率預(yù)測中存在的兩個(gè)難點(diǎn),筆者將特征工程融入網(wǎng)絡(luò)廣告收益轉(zhuǎn)化率的目的為:①探索數(shù)據(jù)不平衡情況下使用特征工程方法的有效性。②通過特征構(gòu)造將數(shù)據(jù)中的隱藏信息變換為算法可理解的工程特征,從而提高信息的利用率。

      總體上來說,精準(zhǔn)的廣告收益轉(zhuǎn)化率預(yù)估有助于廣告精準(zhǔn)投放的實(shí)施,從而提高真實(shí)的廣告收益轉(zhuǎn)化率。精準(zhǔn)的收益轉(zhuǎn)化率預(yù)估在提高廣告主效用、增加廣告平臺收入的同時(shí),還可以提高用戶的滿意度和廣告平臺的美譽(yù)度。為了使廣告投放過程中所有利益相關(guān)者的總體效用達(dá)到最大,精準(zhǔn)的廣告收益轉(zhuǎn)化率預(yù)測值得人們進(jìn)行深入的研究。

      1 研究現(xiàn)狀

      近年來互聯(lián)網(wǎng)行業(yè)的快速興起帶來了網(wǎng)絡(luò)廣告市場的飛速發(fā)展,精準(zhǔn)投放在網(wǎng)絡(luò)廣告?zhèn)鞑ブ行枰珳?zhǔn)的數(shù)據(jù)計(jì)算。精準(zhǔn)投放又稱為定向投放,其概念最早于20世紀(jì)90年代由美國網(wǎng)絡(luò)廣告服務(wù)商DoubleClick公司提出。DoubleClick提出的“動(dòng)態(tài)廣告報(bào)告與目標(biāo)定位(dynamic advertising reporting targeting,DART)”這一技術(shù)標(biāo)志著互聯(lián)網(wǎng)早期精準(zhǔn)計(jì)算與精準(zhǔn)投放需求的出現(xiàn)。精準(zhǔn)投放領(lǐng)域的計(jì)算應(yīng)用是對廣告學(xué)知識的一種量化應(yīng)用。在這個(gè)過程中,廣告學(xué)逐漸成為一門科學(xué),并且衍生出了一門新的交叉學(xué)科即計(jì)算廣告學(xué),其核心問題在于尋找給定情境下與特定用戶匹配程度最高的廣告信息。自計(jì)算廣告學(xué)概念誕生以來,許多專家學(xué)者對廣告收益轉(zhuǎn)化率預(yù)測相關(guān)的一系列問題做了探索性研究,并提出了相應(yīng)的解決方案。

      在算法模型選擇方面,邏輯回歸(logistic regression,LR)是最常用的算法模型,該模型基于邏輯回歸的機(jī)器學(xué)習(xí)框架來處理TB級的廣告數(shù)據(jù),適合用于點(diǎn)擊率和收益轉(zhuǎn)化率預(yù)測研究。如LI等[1]融入用戶歷史數(shù)據(jù)和廣告投放過程中各個(gè)利益相關(guān)者的屬性,通過實(shí)驗(yàn)證明了LR模型在面對極度稀疏的數(shù)據(jù)時(shí)也有良好的性能表現(xiàn)。除了LR模型外,貝葉斯模型也常用于廣告收益轉(zhuǎn)化率預(yù)測。如紀(jì)文迪[2]結(jié)合廣告歸因分析構(gòu)建了基于排序和貝葉斯框架的時(shí)間敏感收益轉(zhuǎn)化率預(yù)測算法模型,并提出廣告收益轉(zhuǎn)化率與用戶收益相關(guān),模型預(yù)測效果良好,但是該模型部署復(fù)雜且訓(xùn)練所需數(shù)據(jù)量極大。吳英[3]使用貝葉斯方法對廣告的圖模型進(jìn)行描述,但是此方法主要針對搜索廣告,與筆者所研究的展示廣告相關(guān)度較低。在算法選擇上,邏輯回歸和貝葉斯模型存在以下兩點(diǎn)不同:①兩者的應(yīng)用領(lǐng)域有一定的差異。貝葉斯模型主要用于搜索廣告領(lǐng)域,而邏輯回歸主要用于展示廣告領(lǐng)域。②與邏輯回歸相比,貝葉斯模型的構(gòu)建需要大量的歷史數(shù)據(jù)來提供足夠準(zhǔn)確的先驗(yàn)概率,并且貝葉斯模型的部署更為復(fù)雜。

      關(guān)于如何通過特征工程提高收益轉(zhuǎn)化率預(yù)測效果,也有學(xué)者進(jìn)行了相應(yīng)的研究。如CHAPELLE等[4]通過ID類特征來進(jìn)行特征選擇,通過哈希技巧(hashing trick)來進(jìn)行特征壓縮,從而實(shí)現(xiàn)了簡單輕量級的算法。GHOSE等[5]提到數(shù)據(jù)層次(data hierarchies)有助于避免過擬合情況的發(fā)生。CHE等[6]采用層次貝葉斯模型來探索與收益轉(zhuǎn)化率高度相關(guān)的影響因素,并提出廣告內(nèi)容標(biāo)簽是最關(guān)鍵的影響因素。RUTZ等[7]通過以用戶為中心的算法模型來進(jìn)行收益轉(zhuǎn)化率預(yù)測,提出用戶特性是最關(guān)鍵的影響因素。ZHAO等[8-12]將時(shí)間信息加入特征體系中,從而有效地提高了用戶偏好分析的準(zhǔn)確性。FAY等[13]通過實(shí)驗(yàn)證明了用戶特性、廣告創(chuàng)意與廣告展示位置等特征有助于提高收益轉(zhuǎn)化率的預(yù)測效果。廣告收益轉(zhuǎn)化率預(yù)測常常因?yàn)檗D(zhuǎn)化延遲的問題而使得監(jiān)測到的值較低,如ZHU等[14]利用基于梯度下降的對數(shù)似然算法降低因轉(zhuǎn)化延遲而帶來的轉(zhuǎn)化預(yù)測偏差等問題。

      雖然較多學(xué)者針對網(wǎng)絡(luò)廣告收益轉(zhuǎn)化率的預(yù)測問題進(jìn)行了研究,但是已有研究還存在以下幾點(diǎn)缺陷:①目前參與此項(xiàng)探索的學(xué)者大多屬于計(jì)算機(jī)科學(xué)領(lǐng)域,缺少從商業(yè)、心理學(xué)和新聞傳播學(xué)視角開展的研究,且研究重心大多為機(jī)器學(xué)習(xí)算法的組合優(yōu)化方面,而對于特征的構(gòu)建與選擇,缺乏系統(tǒng)性的研究。②計(jì)算廣告學(xué)是網(wǎng)絡(luò)廣告收益轉(zhuǎn)化率預(yù)測的理論基礎(chǔ),目前計(jì)算廣告學(xué)的兩大應(yīng)用是廣告點(diǎn)擊率預(yù)估與收益轉(zhuǎn)化率預(yù)估。計(jì)算廣告學(xué)興起至今不到30年,尚未形成一個(gè)成熟完整的學(xué)科。計(jì)算廣告學(xué)起源于西方,國外的研究成果相對較多,但我國關(guān)于計(jì)算廣告學(xué)的研究尚處于起步階段,并且國內(nèi)多數(shù)學(xué)者的研究內(nèi)容主要集中在點(diǎn)擊率預(yù)估方面,鮮有學(xué)者涉及收益轉(zhuǎn)化率預(yù)估領(lǐng)域。③無論是國內(nèi)還是國外,關(guān)于廣告收益轉(zhuǎn)化率預(yù)估問題的研究內(nèi)容皆缺乏針對特征工程方面的系統(tǒng)研究。

      因此,筆者基于以上問題,從特征工程的角度進(jìn)行網(wǎng)絡(luò)廣告收益轉(zhuǎn)化率預(yù)估研究:針對特征構(gòu)造所形成的特征集,提出綜合使用過濾式和嵌入式特征選擇法進(jìn)行多層特征選擇;針對網(wǎng)絡(luò)廣告數(shù)據(jù)存在的正負(fù)樣本不平衡、特征矩陣稀疏等問題,提出改良方差選擇法來解決數(shù)據(jù)不平衡狀態(tài)下無關(guān)特征的過濾問題。

      2 數(shù)據(jù)源及數(shù)據(jù)預(yù)處理

      2.1 數(shù)據(jù)源

      互聯(lián)網(wǎng)行業(yè)的騰訊在網(wǎng)絡(luò)社交領(lǐng)域積累了大量的優(yōu)質(zhì)用戶身份數(shù)據(jù)和廣告點(diǎn)擊數(shù)據(jù),這些數(shù)據(jù)為廣告收益轉(zhuǎn)化率預(yù)測提供了數(shù)據(jù)保障。筆者使用的訓(xùn)練集來自于騰訊社交廣告系統(tǒng)中某個(gè)月17日至30日共計(jì)兩周的移動(dòng)設(shè)備廣告點(diǎn)擊數(shù)據(jù)以及其對應(yīng)用戶的屬性數(shù)據(jù)。訓(xùn)練樣本中共有3 749 528條點(diǎn)擊記錄,交互的用戶(userID)數(shù)量為2 595 627個(gè),涉及的廣告素材(creativeID)數(shù)量為6 315個(gè),廣告位置(positionID)數(shù)量為7 219個(gè)。每條記錄的字段及描述如表1所示。

      表1 訓(xùn)練集樣本字段

      訓(xùn)練集中每一條樣本對應(yīng)用戶的一次廣告點(diǎn)擊行為,其中creativeID、userID、positionID所包含的具體信息由廣告特征文件、app類型文件、廣告位特征文件和用戶身份信息文件提供,該4種數(shù)據(jù)文件名稱與大小如表2所示。

      表2 數(shù)據(jù)文件描述

      廣告收益轉(zhuǎn)化率預(yù)測問題是在給定用戶、廣告和上下文(即情境)的狀況下預(yù)測廣告點(diǎn)擊之后產(chǎn)生進(jìn)一步轉(zhuǎn)化行為的概率,如式(1)所示。

      PCVR=P(label=1|user,ad,context)

      (1)

      式中:PCVR為轉(zhuǎn)化概率;label=1表示轉(zhuǎn)化成功;user表示用戶類特征;ad表示廣告類特征;context表示上下文類特征。

      將數(shù)據(jù)集給定的屬性按照式(1)劃分為用戶特征、廣告特征和上下文特征3類,分別如表3~表5所示。

      表3 用戶特征

      表4 廣告特征

      表5 上下文特征

      2.2 數(shù)據(jù)預(yù)處理

      2.2.1 數(shù)據(jù)清洗

      該數(shù)據(jù)集在公布之前預(yù)先進(jìn)行了脫敏處理,并已將數(shù)據(jù)全部數(shù)值化,因此非空值類型均為整型。針對在數(shù)據(jù)探查過程中發(fā)現(xiàn)的數(shù)據(jù)問題,對數(shù)據(jù)進(jìn)行以下清洗操作:

      (1)去除冗余數(shù)據(jù)。對原始數(shù)據(jù)集的63 081條完全重復(fù)的點(diǎn)擊記錄數(shù)據(jù)進(jìn)行了去重。

      (2)去除錯(cuò)誤數(shù)據(jù)。原始數(shù)據(jù)集包括5 658條數(shù)據(jù),除樣本正負(fù)屬性不同外,其余字段值包括點(diǎn)擊時(shí)間(clicktime)均相同,因?yàn)榇瞬糠謽颖揪哂性敿?xì)的轉(zhuǎn)化回流時(shí)間值,所以筆者認(rèn)為其屬于正樣本。采取的操作是刪除錯(cuò)誤的負(fù)樣本數(shù)據(jù)。

      (3)缺失值處理。為避免人為地添加干擾,基于“不處理”的思想對缺失值進(jìn)行填充??紤]到取值“0”對于所使用的邏輯回歸算法不會(huì)產(chǎn)生有偏影響,因此采用零值來填充缺失值。

      原始數(shù)據(jù)集經(jīng)過清洗后,剩余樣本數(shù)為3 686 447條,約占原始數(shù)據(jù)量的98.32%,其中正樣本數(shù)為92 187條,數(shù)據(jù)清洗后正樣本數(shù)在總樣本數(shù)中所占比例為2.5%,正負(fù)樣本較清洗前基本未發(fā)生變化。清洗后的數(shù)據(jù)中所涉及的用戶數(shù)、廣告數(shù)較原數(shù)據(jù)集均未減少,基本保留了全部信息。

      2.2.2 樣本選取

      根據(jù)數(shù)據(jù)集正負(fù)樣本的設(shè)立規(guī)則:如果用戶在發(fā)生廣告點(diǎn)擊行為后的5天內(nèi)產(chǎn)生轉(zhuǎn)化行為,那么此條點(diǎn)擊樣本為正樣本(即label=1),否則為負(fù)樣本(即label=0)。統(tǒng)計(jì)所有正樣本的轉(zhuǎn)化回流時(shí)間間隔,具體結(jié)果如表6所示。從表6可以看出,90.0%的回流發(fā)生在一天之內(nèi),99.0%的回流發(fā)生在兩天之內(nèi),99.9%的回流發(fā)生在三天之內(nèi)。

      表6 正樣本轉(zhuǎn)化回流時(shí)間間隔

      由于29日和30日的數(shù)據(jù)尚且存在部分的點(diǎn)擊行為未轉(zhuǎn)化回流完畢,因此這兩日的數(shù)據(jù)并不適合用作訓(xùn)練。而19日數(shù)據(jù)又存在異常狀況,因此17日—19日的數(shù)據(jù)亦不適合加入訓(xùn)練集。為使模型效果得到更充分的驗(yàn)證,筆者對20—28日的數(shù)據(jù)采用基于滑動(dòng)窗口的思想構(gòu)造了3組樣本,并且對所有樣本組的數(shù)據(jù)按日期與app類別進(jìn)行分組,每組隨機(jī)抽取80%的數(shù)據(jù),取樣示意如圖1所示。然后,分別選取第26日、27日、28日的數(shù)據(jù)作為測試集,并把測試日期前6天的數(shù)據(jù)作為訓(xùn)練集。關(guān)于驗(yàn)證集選取,采用交叉驗(yàn)證的方式來選取驗(yàn)證集,即隨機(jī)抽取訓(xùn)練集中的90%數(shù)據(jù)用作訓(xùn)練,余下的10%作為驗(yàn)證。

      圖1 取樣示意圖

      3 特征工程

      筆者采用特征工程的目的在于利用改良的方法解決數(shù)據(jù)不平衡問題,同時(shí)探索網(wǎng)絡(luò)廣告業(yè)務(wù)中不同性質(zhì)數(shù)據(jù)的適用方法。在對已清洗的數(shù)據(jù)進(jìn)行特征工程構(gòu)造的過程中,主要包括特征構(gòu)造、區(qū)間縮放與特征選擇兩個(gè)階段。

      3.1 特征構(gòu)造

      筆者根據(jù)特征的不同性質(zhì)采取不同的特征構(gòu)造方法,目的在于充分發(fā)掘數(shù)據(jù)的隱藏信息,使算法能夠更好地解釋數(shù)據(jù)。具體的構(gòu)造方法如下:①對于多級編碼的字段,進(jìn)行按級拆分,構(gòu)建細(xì)粒度特征。②對于取值粒度過細(xì)特征,進(jìn)行基于肘部法則與K-means聚類的分箱處理。③對于用戶歷史行為數(shù)據(jù),進(jìn)行基于用戶標(biāo)識(userID)的特征統(tǒng)計(jì),以計(jì)數(shù)值、均值作為新特征。④對于具有廣告業(yè)務(wù)內(nèi)在聯(lián)系的特征,進(jìn)行特征交叉(笛卡爾積)處理。⑤對于線性特征,使用GBDT將線性特征分類別向樹形特征映射,通過設(shè)置最小葉子節(jié)點(diǎn)權(quán)重來控制葉子節(jié)點(diǎn)的最少樣本數(shù),避免生成區(qū)分度過小的類別。

      3.2 特征選擇

      筆者主要采用過濾式和嵌入式選擇法進(jìn)行特征選擇,主要分為以下兩個(gè)階段:

      (1)使用過濾式選擇法初步過濾特征階段。首先,對特征進(jìn)行標(biāo)準(zhǔn)化處理以避免極端數(shù)值的負(fù)面影響,數(shù)據(jù)標(biāo)準(zhǔn)化可以增強(qiáng)方差較小特征的穩(wěn)定性。選擇使用區(qū)間縮放法將數(shù)據(jù)標(biāo)準(zhǔn)化至[0,1]區(qū)間,這樣設(shè)定是由于原始數(shù)據(jù)矩陣中的數(shù)據(jù)均為非負(fù)實(shí)數(shù)且使用零值來表示未知項(xiàng),將標(biāo)準(zhǔn)化的區(qū)間最小值設(shè)置為0可以維持?jǐn)?shù)據(jù)中的零值,使得未知項(xiàng)可以繼續(xù)保持不影響算法學(xué)習(xí)的狀態(tài)。在傳統(tǒng)的方差選擇法上進(jìn)一步考慮了特征與目標(biāo)字段的相關(guān)性,選用特征在不同取值下目標(biāo)字段均值(label字段均值)的方差作為評價(jià)函數(shù),這種方法對樣本的正負(fù)比例并不敏感,適用于廣告收益轉(zhuǎn)化率預(yù)測研究。

      (2)使用嵌入式選擇法選取高評分特征階段。使用GBDT對特征進(jìn)行特征貢獻(xiàn)度計(jì)算。GBDT算法能夠自動(dòng)地進(jìn)行多組特征之間的非線性交互,并且能直接輸出特征的貢獻(xiàn)度得分,是一種非常理想的特征選擇算法。

      4 實(shí)驗(yàn)設(shè)計(jì)

      一共設(shè)計(jì)了6組實(shí)驗(yàn),通過使用不同的算法組合來檢驗(yàn)筆者所提出的特征工程流程對網(wǎng)絡(luò)廣告收益轉(zhuǎn)化率預(yù)測準(zhǔn)確度的提升效果。關(guān)于評價(jià)指標(biāo)最終值的確定,對每組實(shí)驗(yàn)都使用圖1中的3組樣本來進(jìn)行3次反復(fù)試驗(yàn),最后取3次試驗(yàn)評價(jià)指標(biāo)的均值作為算法效果評價(jià)指標(biāo)的最終值。實(shí)驗(yàn)設(shè)計(jì)與實(shí)驗(yàn)效果如表7所示。

      表7 實(shí)驗(yàn)設(shè)計(jì)與實(shí)驗(yàn)效果

      經(jīng)過特征工程構(gòu)造形成的特征體系如表8所示,特征體系共有ID類特征、線性類別特征、統(tǒng)計(jì)類特征、非線性類別特征和時(shí)間類特征5種特征。

      表8 特征類別

      在第3組和第6組實(shí)驗(yàn)中,GBDT模型參數(shù)設(shè)置如表9所示。通過設(shè)置樹的最大深度、葉子節(jié)點(diǎn)再分裂所需最少樣本數(shù)這兩個(gè)參數(shù)來控制樹的復(fù)雜度,從而控制特征維數(shù),避免不可控維度情況的出現(xiàn)。

      表9 GBDT模型參數(shù)設(shè)置

      在第4、第5、第6組實(shí)驗(yàn)中,XGBoost模型參數(shù)設(shè)置如表10所示,將logistic回歸作為基函數(shù)內(nèi)嵌于XGBoost算法框架中,并設(shè)定迭代器類型為樹型。設(shè)置訓(xùn)練所用線程數(shù)為4,使用多線程來訓(xùn)練模型以縮短模型訓(xùn)練時(shí)長,并通過設(shè)定合適的葉子節(jié)點(diǎn)最少樣本數(shù)和樹的最大深度來避免模型過度擬合。

      表10 XGBoost模型參數(shù)設(shè)置

      5 實(shí)驗(yàn)結(jié)果及分析

      各組實(shí)驗(yàn)的結(jié)果如表11所示,對數(shù)損失(Logloss)和曲線下面積(the area under the roc curve,AUC)的值均為3次實(shí)驗(yàn)效果的均值,使用均值可在一定程度上避免偶然性錯(cuò)誤。

      表11 實(shí)驗(yàn)結(jié)果

      筆者共設(shè)計(jì)了3組對比實(shí)驗(yàn),通過兩組對比實(shí)驗(yàn)來驗(yàn)證特征工程方法能否有效提升廣告收益轉(zhuǎn)化率預(yù)測的準(zhǔn)確率,其中實(shí)驗(yàn)1與實(shí)驗(yàn)2、實(shí)驗(yàn)4與實(shí)驗(yàn)5分別為兩組對比實(shí)驗(yàn),實(shí)驗(yàn)2與實(shí)驗(yàn)3所組成的對比實(shí)驗(yàn)組用來檢驗(yàn)非線性特征對于預(yù)測算法的提升效果。對比實(shí)驗(yàn)組結(jié)果如表12所示。

      由表12可知,在實(shí)驗(yàn)組1和實(shí)驗(yàn)組2中,控制模型算法組合和其他特性均不變,實(shí)驗(yàn)組中兩次實(shí)驗(yàn)唯一的不同在于其中一次實(shí)驗(yàn)使用的是原始的特征集,另一次實(shí)驗(yàn)使用的是經(jīng)過特征工程處理之后的特征集。對比實(shí)驗(yàn)1與實(shí)驗(yàn)2的預(yù)測效果,實(shí)驗(yàn)2的Logloss較實(shí)驗(yàn)1的Logloss下降了0.041 089,AUC提升了0.265 171,這說明經(jīng)過特征工程后預(yù)測效果大大提升。與此同時(shí),實(shí)驗(yàn)4與實(shí)驗(yàn)5的效果對比也體現(xiàn)出特征工程的有效性。實(shí)驗(yàn)組1和實(shí)驗(yàn)組2的對比結(jié)果表明,筆者所描述的特征工程方法能有效提高網(wǎng)絡(luò)廣告收益轉(zhuǎn)化率的預(yù)測效果。

      表12 對比實(shí)驗(yàn)組結(jié)果

      而關(guān)于非線性特征對于廣告收益轉(zhuǎn)化率預(yù)測準(zhǔn)確度的貢獻(xiàn),可以通過對比實(shí)驗(yàn)2和實(shí)驗(yàn)3的算法效果看出,使用了非線性特征的實(shí)驗(yàn)3預(yù)測效果明顯優(yōu)于僅使用簡單線性特征的實(shí)驗(yàn)2。這說明在特征工程中使用樹模型構(gòu)建非線性特征能有效提高網(wǎng)絡(luò)廣告收益轉(zhuǎn)化率的準(zhǔn)確度。

      通過對比全部6組實(shí)驗(yàn)還可以發(fā)現(xiàn),真正實(shí)現(xiàn)預(yù)測準(zhǔn)確率飛躍的關(guān)鍵點(diǎn)在于模型是否使用了特征工程所構(gòu)造的特征集。數(shù)據(jù)在經(jīng)過特征工程處理之后,無論怎樣對算法的組合和參數(shù)進(jìn)行調(diào)優(yōu),Logloss也只能下降2%左右。這說明好的特征工程比好的算法組合能更大幅度地提升模型的預(yù)測效果。

      實(shí)驗(yàn)結(jié)果表明,特征工程方法可以有效提高網(wǎng)絡(luò)廣告收益轉(zhuǎn)化率預(yù)測的精準(zhǔn)度,并且加強(qiáng)了算法的魯棒性。特征工程方法的優(yōu)越性來源于:①特征工程方法通過改良傳統(tǒng)的方差選擇法,設(shè)定了對數(shù)據(jù)平衡狀態(tài)完全不敏感的指標(biāo)計(jì)算方法,使得改良后的方差選擇法能在數(shù)據(jù)不平衡的狀態(tài)下,也能有效地去除無關(guān)信息,達(dá)到有效減少算法干擾的目的。②重視各參與者的屬性信息,這些信息能有效地應(yīng)對冷啟動(dòng)狀況,以往的研究中往往過于重視歷史特征而忽視原有的參與者屬性信息,歷史特征對于老用戶、老廣告來說確實(shí)是算法預(yù)測的關(guān)鍵,但是對于冷啟動(dòng)狀況明顯的網(wǎng)絡(luò)廣告領(lǐng)域,參與者的屬性信息是不可忽視的。③非線性特征的引入填補(bǔ)了簡單特征體系中非線性信息的空白,在實(shí)際問題中,大部分問題的決策邊界都是非線性的,因此大量使用非線性特征能夠獲得更好的算法表達(dá)效果。④優(yōu)質(zhì)的研究數(shù)據(jù)是效果的保證,數(shù)據(jù)對應(yīng)的產(chǎn)品為移動(dòng)端app,該產(chǎn)品為線上產(chǎn)品且轉(zhuǎn)化路徑透明,轉(zhuǎn)化數(shù)據(jù)真實(shí)可靠。

      6 結(jié)論

      自互聯(lián)網(wǎng)行業(yè)誕生以來,網(wǎng)絡(luò)廣告尤其是針對非有形互聯(lián)網(wǎng)產(chǎn)品的網(wǎng)絡(luò)廣告,因具有變現(xiàn)速度快、實(shí)現(xiàn)方式靈活的特點(diǎn),成為了互聯(lián)網(wǎng)企業(yè)最青睞的變現(xiàn)模式。近年來隨著大數(shù)據(jù)技術(shù)的興起,使得網(wǎng)絡(luò)廣告收益轉(zhuǎn)化率的精準(zhǔn)預(yù)測成為了可能。筆者針對網(wǎng)絡(luò)廣告中較為普遍的以展示效果計(jì)費(fèi)的廣告收益轉(zhuǎn)化率預(yù)測問題,給出了一種進(jìn)行特征工程的系統(tǒng)方法,并得到以下幾方面的研究成果。

      (1)詳細(xì)介紹了網(wǎng)絡(luò)廣告點(diǎn)擊數(shù)據(jù)的數(shù)據(jù)分布特點(diǎn)、字段特征,并在此基礎(chǔ)上描述了全面系統(tǒng)的特征構(gòu)造方法。

      (2)針對特征構(gòu)造所形成的特征集,筆者提出了結(jié)合使用過濾式特征選擇法和嵌入式特征選擇法來進(jìn)行多層特征選擇的特征選擇流程。

      (3)針對網(wǎng)絡(luò)廣告數(shù)據(jù)由于業(yè)務(wù)特性而存在的正負(fù)樣本不平衡、特征矩陣稀疏等問題,對一般性的特征構(gòu)造和特征選擇方法進(jìn)行了細(xì)節(jié)改進(jìn),提出了改進(jìn)版本的特征構(gòu)造和特征選擇方法,其中改良的方差選擇法可針對性地解決數(shù)據(jù)不平衡狀態(tài)下無關(guān)特征的過濾問題。

      筆者所提出的特征工程流程在提高廣告轉(zhuǎn)化率預(yù)測精準(zhǔn)度的同時(shí),降低了算法復(fù)雜度,減少了用于算法調(diào)參及算法預(yù)測所需時(shí)間,從而大幅縮短了預(yù)測項(xiàng)目所需周期。精準(zhǔn)的轉(zhuǎn)化率預(yù)測有助于企業(yè)業(yè)務(wù)部門制定廣告推薦策略,有助于算法部門制定推薦算法約束條件。盡管筆者對網(wǎng)絡(luò)廣告收益轉(zhuǎn)化率預(yù)測問題的特征工程過程進(jìn)行了系統(tǒng)的研究,但是,研究仍存在一些不足,還需要進(jìn)行進(jìn)一步的研究和探索。

      (1)時(shí)序特征是廣告收益轉(zhuǎn)化率預(yù)測中的一個(gè)重要影響因素,由于數(shù)據(jù)集的選擇限制,筆者并未重點(diǎn)探究時(shí)序特征的構(gòu)建與選擇。

      (2)筆者研究僅使用百萬級數(shù)據(jù)對特征工程方法的有效性進(jìn)行了驗(yàn)證,如果要進(jìn)一步驗(yàn)證特征工程方法對大數(shù)據(jù)時(shí)代工業(yè)界應(yīng)用的可擴(kuò)展性,還需要千萬級甚至億級的數(shù)據(jù)來進(jìn)行進(jìn)一步的探究。

      猜你喜歡
      網(wǎng)絡(luò)廣告轉(zhuǎn)化率收益
      我國全產(chǎn)業(yè)領(lǐng)域平均國際標(biāo)準(zhǔn)轉(zhuǎn)化率已達(dá)75%
      螃蟹爬上“網(wǎng)” 收益落進(jìn)兜
      曲料配比與米渣生醬油蛋白質(zhì)轉(zhuǎn)化率的相關(guān)性
      基于手機(jī)用戶認(rèn)知視角的“雙十一”期間網(wǎng)絡(luò)廣告效果研究
      新聞傳播(2016年1期)2016-07-12 09:25:08
      2015年理財(cái)“6宗最”誰能給你穩(wěn)穩(wěn)的收益
      金色年華(2016年1期)2016-02-28 01:38:19
      東芝驚爆會(huì)計(jì)丑聞 憑空捏造1518億日元收益
      網(wǎng)絡(luò)廣告的價(jià)值分析
      新聞傳播(2015年10期)2015-07-18 11:05:39
      網(wǎng)絡(luò)廣告的特點(diǎn)及發(fā)展對策研究
      新聞傳播(2015年3期)2015-07-12 12:22:28
      透視化學(xué)平衡中的轉(zhuǎn)化率
      微量改性單體與四(偏)氟乙烯等共聚的組成及轉(zhuǎn)化率模擬
      凭祥市| 新民市| 黑龙江省| 外汇| 辽中县| 拜泉县| 洛扎县| 临海市| 双城市| 伊春市| 太仆寺旗| 枣阳市| 镇原县| 喀喇| 买车| 青冈县| 昌江| 邯郸县| 厦门市| 桃源县| 合作市| 石狮市| 连城县| 商河县| 砀山县| 连江县| 收藏| 汉沽区| 阿瓦提县| 靖州| 隆子县| 师宗县| 白水县| 岱山县| 长武县| 蓝山县| 渑池县| 海城市| 靖远县| 梅州市| 固阳县|