王建國(guó)
摘要:隨著數(shù)據(jù)科學(xué)的快速發(fā)展,基于大數(shù)據(jù)分析對(duì)用戶(hù)進(jìn)行精準(zhǔn)營(yíng)銷(xiāo),通過(guò)已知用戶(hù)的數(shù)據(jù)分析建模對(duì)未來(lái)用戶(hù)的選擇行為進(jìn)行預(yù)測(cè),已經(jīng)成為提升互聯(lián)網(wǎng)營(yíng)銷(xiāo)效果、實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo)的重要方法。本文基于某短視頻運(yùn)營(yíng)公司的新增關(guān)注用戶(hù)數(shù)據(jù),對(duì)該公司視頻直播號(hào)的用戶(hù)關(guān)注選擇行為進(jìn)行了建模分析,結(jié)果表明多項(xiàng)Logit模型通過(guò)了預(yù)測(cè)驗(yàn)證,體現(xiàn)出了良好的預(yù)測(cè)能力。
關(guān)鍵詞:大數(shù)據(jù)分析;用戶(hù)選擇行為預(yù)測(cè);Logit模型
1、論文的背景與意義
在商務(wù)活動(dòng)中,通過(guò)理論方法的研究改進(jìn)營(yíng)銷(xiāo)效果,是企業(yè)營(yíng)銷(xiāo)管理者普遍關(guān)注的內(nèi)容。其中利用已知用戶(hù)的數(shù)據(jù)分析歸納出目標(biāo)用戶(hù)群的特征,進(jìn)而由該特征高效地找到潛在用戶(hù),由已知推導(dǎo)未來(lái)。這種解決現(xiàn)實(shí)營(yíng)銷(xiāo)問(wèn)題的方法本質(zhì)上就體現(xiàn)了邏輯回歸分析的思想。
在數(shù)據(jù)科學(xué)快速發(fā)展的今天,隨著商務(wù)和營(yíng)銷(xiāo)活動(dòng)可獲取的數(shù)據(jù)越來(lái)越豐富,更好的利用大數(shù)據(jù)的分析預(yù)測(cè)在營(yíng)銷(xiāo)研究領(lǐng)域產(chǎn)生了越來(lái)越多的探索機(jī)會(huì)。大數(shù)據(jù)以更低的成本解決了大樣本量的問(wèn)題,并能方便地獲得更豐富的數(shù)據(jù)維度。與問(wèn)卷調(diào)查相比,更大的數(shù)據(jù)樣本和豐富的數(shù)據(jù)維度對(duì)于揭示事物或現(xiàn)象的發(fā)展與各個(gè)變量之間變化的規(guī)律,并把這種規(guī)律的作用延伸到未來(lái),從而對(duì)其未來(lái)的數(shù)據(jù)與發(fā)展做出更精準(zhǔn)地預(yù)測(cè)。
本文關(guān)注互聯(lián)網(wǎng)視頻直播領(lǐng)域的營(yíng)銷(xiāo)活動(dòng)。隨著視頻直播的快速發(fā)展,對(duì)用戶(hù)進(jìn)行更精準(zhǔn)的營(yíng)銷(xiāo),通過(guò)已知的用戶(hù)數(shù)據(jù)分析建模已經(jīng)成為提升線上營(yíng)銷(xiāo)效果的重要方法。本文基于某短視頻運(yùn)營(yíng)公司的新增關(guān)注用戶(hù)數(shù)據(jù),對(duì)該團(tuán)隊(duì)視頻直播號(hào)的用戶(hù)關(guān)注選擇行為進(jìn)行分析。運(yùn)用了多項(xiàng)Logit模型理論及方法,將4個(gè)視頻直播號(hào)新增關(guān)注用戶(hù)的年齡、性別、收入水平的變量引入模型,并建立了可以解釋用戶(hù)選擇行為的多項(xiàng)Logit模型。
Logit模型,又稱(chēng)Logistic回歸模型或邏輯回歸模型,是20世紀(jì)五十年代末由Luce通過(guò)研究IIA特性首次導(dǎo)出。作為目前應(yīng)用最廣泛的離散選擇模型,Logit模型在心理學(xué)、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、市場(chǎng)營(yíng)銷(xiāo)以及及交通領(lǐng)域得到了廣泛的應(yīng)用,并衍生發(fā)展出了其他模型,形成了完整的離散選擇模型體系,如Probit模型、NL模型(Nest Logit model)、Mixed Logit模型等。美國(guó)芝加哥大學(xué)的James J.Heckman和Daniel L.McFadden由于他們?cè)陔x散選擇模型等微觀計(jì)量經(jīng)濟(jì)學(xué)領(lǐng)域的重大貢獻(xiàn),獲得了2000年的諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)。Logit模型被廣泛應(yīng)用于市場(chǎng)營(yíng)銷(xiāo)研究起始于1977年,Green、Carmone和Wachspresss首次系統(tǒng)的介紹了運(yùn)用Logit模型分析市場(chǎng)營(yíng)銷(xiāo)研究中的定性數(shù)據(jù),以模擬用戶(hù)的商品選擇決策過(guò)程和最終結(jié)果。此后越來(lái)越多的市場(chǎng)營(yíng)銷(xiāo)研究者使用Logit模型來(lái)模擬市場(chǎng)營(yíng)銷(xiāo)研究中的問(wèn)題:Peter M、Guadanni和John(1983)用多項(xiàng)Logit模型擬合零售掃描數(shù)據(jù)研究用戶(hù)對(duì)咖啡品牌的選擇;Gary、Russell和Petersen(2000)運(yùn)用多項(xiàng)Logit模型分析用戶(hù)在互補(bǔ)、替代和獨(dú)立的商品種類(lèi)之間的選擇問(wèn)題;Zsolt S’ndor和Michel(2005)運(yùn)用蒙特卡羅(Monte Carlo)方法和貝葉斯(Bayesian Model)模型對(duì)Logit模型中用戶(hù)反應(yīng)的異質(zhì)性(Heterogeneity)問(wèn)題的解決。
國(guó)內(nèi)對(duì)Logit模型的研究更多的是應(yīng)用于交通規(guī)劃、財(cái)務(wù)金融信用風(fēng)險(xiǎn)及醫(yī)療衛(wèi)生領(lǐng)域,對(duì)線上營(yíng)銷(xiāo)領(lǐng)域的研究相對(duì)較少,尤其是大數(shù)據(jù)營(yíng)銷(xiāo)領(lǐng)域進(jìn)行離散選擇模型應(yīng)用研究的文獻(xiàn)寥寥無(wú)幾。在2020年6月6日對(duì)百度學(xué)術(shù)的文獻(xiàn)檢索中[1],只有3篇和大數(shù)據(jù)營(yíng)銷(xiāo)相關(guān)的Logit模型論文,只有11篇和精準(zhǔn)營(yíng)銷(xiāo)相關(guān)的Logit模型論文。這些文獻(xiàn)多偏重于介紹模型方法、大數(shù)據(jù)推薦算法及采用公開(kāi)及實(shí)驗(yàn)數(shù)據(jù)進(jìn)行模擬計(jì)算。本文采用實(shí)地收集數(shù)據(jù)、建立模型、通過(guò)多項(xiàng)Logit模型對(duì)視頻直播號(hào)的線上營(yíng)銷(xiāo)活動(dòng)進(jìn)行實(shí)證分析研究,不僅對(duì)于指導(dǎo)企業(yè)營(yíng)銷(xiāo)決策具有現(xiàn)實(shí)意義,對(duì)于理論界擴(kuò)展該模型的研究領(lǐng)域也有拋磚引玉的作用。
2、數(shù)據(jù)的來(lái)源與介紹
本文數(shù)據(jù)來(lái)源于某視頻直播公司2019年12月、2020年3月、2020年5月每個(gè)月連續(xù)3天(共9天)的4個(gè)直播號(hào)新增用戶(hù)數(shù)據(jù),跨年跨月選取數(shù)據(jù)是為了保證樣本的隨機(jī)性。其中將2019年12月份和2020年3月份的6天數(shù)據(jù)隨機(jī)抽取50%合并后的數(shù)據(jù)用于多項(xiàng)Logit模型的構(gòu)建和參數(shù)估計(jì),將2020年5月份的3天數(shù)據(jù)作為模型的實(shí)驗(yàn)數(shù)據(jù),用于評(píng)價(jià)模型的預(yù)測(cè)質(zhì)量。在實(shí)際建模中,潛在用戶(hù)通過(guò)推薦頁(yè)面進(jìn)入視頻直播號(hào)觀看直播,并最終完成對(duì)直播號(hào)的關(guān)注為一次有效觀測(cè)。由于本文只研究通過(guò)用戶(hù)數(shù)據(jù)分析和建模提升精準(zhǔn)營(yíng)銷(xiāo)的效果,不探討內(nèi)容或服務(wù)的運(yùn)營(yíng)優(yōu)化,所以不記錄觀看直播后未關(guān)注直播號(hào)的流失用戶(hù)。建模和參數(shù)估計(jì)共使用了108672個(gè)有效觀測(cè),驗(yàn)證數(shù)據(jù)使用了125117次有效觀測(cè)。由于疫情之后直播用戶(hù)比疫情之前的增速提升了近20%,所以前6天的50%數(shù)據(jù)比后3天的數(shù)據(jù)少。雖然9天的數(shù)據(jù)量不大,但該樣本跨年跨月采集,所以足夠保證模型的建立和驗(yàn)證。
3、數(shù)據(jù)處理和描述統(tǒng)計(jì)
運(yùn)營(yíng)公司的4個(gè)視頻直播號(hào)都在快手直播平臺(tái),但帶貨商品存在差異化,用戶(hù)群體為快手平臺(tái)的同質(zhì)用戶(hù),但用戶(hù)特征值存在差異,所以可以根據(jù)每個(gè)直播號(hào)的用戶(hù)特征數(shù)據(jù)構(gòu)建用戶(hù)的選擇模型,以實(shí)現(xiàn)對(duì)未來(lái)潛在用戶(hù)的數(shù)據(jù)化精準(zhǔn)營(yíng)銷(xiāo)。4個(gè)視頻直播號(hào)的編號(hào)和類(lèi)型為:1、特價(jià)掃貨類(lèi),2、進(jìn)口商品類(lèi),3、好貨拼購(gòu)類(lèi),4、精品優(yōu)選類(lèi)。由于課程論文的時(shí)間倉(cāng)促,本論文選取的用戶(hù)變量包括性別、年齡、收入水平3個(gè)變量。本文及圖表中product代表包含編號(hào)為1、2、3、4的4個(gè)直播號(hào),gender代表對(duì)應(yīng)直播號(hào)關(guān)注用戶(hù)的性別(1代表男性、0代表女性),age代表關(guān)注用戶(hù)的年齡,income代表關(guān)注用戶(hù)的收入水平。本文使用的數(shù)據(jù)分析軟件為SPSS。
首先,由表1和圖1可以看出4個(gè)直播號(hào)的用戶(hù)性別分布存在差異。比如編號(hào)為1的直播號(hào)為特價(jià)掃貨類(lèi)的,女性用戶(hù)明顯多于男性用戶(hù);編號(hào)為2的直播號(hào)為進(jìn)口商品類(lèi)的,男性用戶(hù)多于女性用戶(hù)。
其次,由圖二可以看出四個(gè)直播號(hào)的年齡分布各有特點(diǎn),編號(hào)為1的特價(jià)掃貨類(lèi)直播號(hào)用戶(hù)群體相對(duì)年輕,編號(hào)為3的好貨拼購(gòu)類(lèi)直播號(hào)用戶(hù)群體相對(duì)年長(zhǎng)。
再次,由圖三可以看出特價(jià)帶貨的直播號(hào)1的用戶(hù)群平均收入相對(duì)最低,該直播號(hào)的用戶(hù)群體也最年輕。平均收入最高是的進(jìn)口商品類(lèi)的直播號(hào)2的用戶(hù)群,該用戶(hù)群體男性用戶(hù)更多。
最后,這三個(gè)解釋變量之間不存在高度的相關(guān)關(guān)系,也就是說(shuō)它們之間不存在多重共線性問(wèn)題。[2]
4、多項(xiàng)Logit模型
Logit模型是被廣泛用于研究行為主體選擇過(guò)程的計(jì)量經(jīng)濟(jì)模型。目前也是主流的大數(shù)據(jù)精準(zhǔn)營(yíng)銷(xiāo)建模方法。Logit模型基于因果關(guān)系推導(dǎo)用戶(hù)對(duì)產(chǎn)品的選擇過(guò)程和結(jié)果,即用戶(hù)的一個(gè)行為或者選擇結(jié)果出現(xiàn)一定是由許多共同作用造成的。那么如果我們能夠洞悉更多的主要因素及其產(chǎn)生作用的機(jī)制,我們就能在一定條件下有更高概率準(zhǔn)確地預(yù)測(cè)這種行為或選擇結(jié)果再次發(fā)生。多項(xiàng)Logit模型來(lái)源于隨機(jī)效用的概念,[3]以效用函數(shù)為出發(fā)點(diǎn),認(rèn)為用戶(hù)(i)在理性的經(jīng)濟(jì)選擇行為下,對(duì)于可供選擇集合C會(huì)選擇能使其效用最大化的視頻直播號(hào)(j)。因此,用戶(hù)的效用函數(shù)可表示為:
其中Vij為用戶(hù)i選擇直播號(hào)j的可觀測(cè)效用。既可以包括直播號(hào)j本身的屬性,也包括用戶(hù)的個(gè)人特征;隨機(jī)擾動(dòng)項(xiàng)εij是無(wú)法觀測(cè)到的那部分效用,通常我們假設(shè)εij為獨(dú)立同分布的隨機(jī)變量。對(duì)于系統(tǒng)效用,通常假設(shè)Vij是直播號(hào)j和用戶(hù)i相關(guān)屬性變量的線性函數(shù):
其中,xij為用戶(hù)選擇方案的解釋變量向量,βk為待估計(jì)的解釋變量的系數(shù)向量。按照效用最大理論,用戶(hù)i選擇直播號(hào)j的概率可以表示為下式,βk由極大似然估計(jì)法估計(jì):
在實(shí)際運(yùn)用中,我們一般把用戶(hù)對(duì)直播號(hào)替代物(比如直播號(hào)k)的選擇作為參照系,然后把用戶(hù)對(duì)其他直播號(hào)的選擇概率與之相比,通過(guò)公式變換得到以下Logit模型公式:
從上面對(duì)Logit模型原理的介紹可以看出,該模型對(duì)于本文的視頻直播號(hào)用戶(hù)選擇研究,可以建立以下精準(zhǔn)營(yíng)銷(xiāo)模型。本文假設(shè)效用函數(shù)的估計(jì)與直播號(hào)的4個(gè)分類(lèi)有關(guān),因此可以產(chǎn)生3組效用方程和相應(yīng)的3組系數(shù)值。本文假定編號(hào)為“4的精品優(yōu)選類(lèi)”視頻直播號(hào)為基準(zhǔn)組可得如下方程組。
其中P1/P4為相對(duì)于基準(zhǔn)組(4、精品優(yōu)選類(lèi)直播號(hào))用戶(hù)選擇關(guān)注編號(hào)為1的特價(jià)掃貨類(lèi)直播號(hào)的概率;P2/P4為相對(duì)于基準(zhǔn)組用戶(hù)選擇關(guān)注編號(hào)為2的進(jìn)口商品類(lèi)直播號(hào)的概率;P3/P4為相對(duì)于基準(zhǔn)組用戶(hù)選擇關(guān)注編號(hào)為3的好貨拼購(gòu)類(lèi)直播號(hào)的概率。
5、視頻直播號(hào)選擇行為的模型分析
依據(jù)前述的數(shù)據(jù)資料,對(duì)多項(xiàng)Logit模型進(jìn)行模型擬合檢驗(yàn)、似然比檢驗(yàn)、參數(shù)估計(jì)和參數(shù)檢驗(yàn)。
由表2可以看出,最后一列的顯著性小于0.05,說(shuō)明模型具有統(tǒng)計(jì)意義,通過(guò)檢驗(yàn)。此外,依次列出的3個(gè)偽R方值最高0.859,說(shuō)明4個(gè)直播號(hào)種類(lèi)不可衡量效用彼此獨(dú)立,不會(huì)相互影響,模型對(duì)原始變量變異的解釋程度較好,只有一小部分信息無(wú)法解釋?zhuān)瑪M合度比較優(yōu)秀。
由表3可以得出模型中的效應(yīng)變量包括用戶(hù)的年齡、性別、收入水平對(duì)應(yīng)的顯著性值都小于0.05,這說(shuō)明以上各效應(yīng)變量對(duì)模型構(gòu)成都有顯著貢獻(xiàn)。
由表4可以看出,以編號(hào)為4的精品優(yōu)選類(lèi)直播號(hào)作為基準(zhǔn)組產(chǎn)生的3組效用方程系數(shù)值顯著性都小于0.05通過(guò)檢驗(yàn),模型的效應(yīng)方程組擬合度比較好。
方程組中x1為用戶(hù)的年齡(age)、x2為收入水平(income)、x3為性別(gender)。本文涉及數(shù)據(jù)中用戶(hù)的年齡集中在19-43歲的區(qū)間,所以預(yù)測(cè)方程中x1年齡的取值范圍也應(yīng)該在19-43之間。x2收入水平為月薪,其的取值范圍在2500-30000元之間,水平差異梯度為500元。x3性別的取值范圍為1或者0,1代表男性、0代表女性。
6、模型預(yù)測(cè)
對(duì)于以上建立的模型,最重要的一個(gè)用途就是用于對(duì)潛在用戶(hù)選擇行為的預(yù)測(cè),從而實(shí)現(xiàn)基于大數(shù)據(jù)分析的精準(zhǔn)營(yíng)銷(xiāo)。接下來(lái)我們通過(guò)準(zhǔn)備好的125117條驗(yàn)證數(shù)據(jù)進(jìn)行預(yù)測(cè)檢驗(yàn),預(yù)測(cè)檢驗(yàn)可以驗(yàn)證最終得到的對(duì)數(shù)多項(xiàng)logit模型能否很好地預(yù)測(cè)用戶(hù)在快手平臺(tái)對(duì)4個(gè)直播賬號(hào)的選擇行為,即對(duì)于任何一個(gè)視頻直播號(hào)來(lái)說(shuō),模型能否較準(zhǔn)確的預(yù)測(cè)潛在用戶(hù)選擇哪個(gè)直播號(hào)的概率最大。以滿(mǎn)足大數(shù)據(jù)精準(zhǔn)營(yíng)銷(xiāo)對(duì)目標(biāo)用戶(hù)的精準(zhǔn)選取。預(yù)測(cè)檢驗(yàn)的結(jié)果如下表:
由表5可以看出模型在預(yù)測(cè)編號(hào)為2的直播號(hào)用戶(hù)選擇傾向上準(zhǔn)確率最高,達(dá)到了87.1%,編號(hào)為1的直播號(hào)預(yù)測(cè)準(zhǔn)確率也達(dá)到了84.0%,其他兩項(xiàng)預(yù)測(cè)略低,總體預(yù)測(cè)準(zhǔn)確率79.1%,接近80%,整體表現(xiàn)良好。由于時(shí)間倉(cāng)促,后續(xù)可以獲取更多變量和更豐富的數(shù)據(jù)來(lái)改進(jìn)模型,總體來(lái)看本文所用數(shù)據(jù)較為適合Logit模型進(jìn)行建模分析以及進(jìn)行用戶(hù)行為選擇預(yù)測(cè)。
7、結(jié)論
本文根據(jù)某短視頻運(yùn)營(yíng)公司直播號(hào)的新增關(guān)注用戶(hù)數(shù)據(jù),引入有關(guān)用戶(hù)年齡、收入水平和性別的效應(yīng)變量,建立了可以解釋直播號(hào)關(guān)注用戶(hù)在選擇4個(gè)直播號(hào)行為的對(duì)數(shù)多項(xiàng)Logit模型。模型顯示:較年輕的、收入水平不高的女性用戶(hù)關(guān)注1號(hào)直播號(hào)的概率最大;收入水平較高的男性用戶(hù)關(guān)注2號(hào)直播號(hào)的概率最大。每個(gè)直播號(hào)對(duì)于特定的用戶(hù)有相對(duì)最高效應(yīng),模型效應(yīng)方程選取的3個(gè)變量對(duì)模型都有顯著的貢獻(xiàn)率,變量選取合理。該模型通過(guò)驗(yàn)證數(shù)據(jù)的預(yù)測(cè)驗(yàn)證體現(xiàn)出了良好的預(yù)測(cè)能力。本文采用的研究方法可以推廣到大數(shù)據(jù)背景下其他領(lǐng)域的線上行為選擇研究。不足是采用數(shù)據(jù)變量較少,數(shù)據(jù)來(lái)源有局限性,模型也僅是最基本的多項(xiàng)logit模型。選取更豐富和寬泛的數(shù)據(jù)源,引入更多的效應(yīng)變量,應(yīng)用合理的嵌套選擇模型并提升預(yù)測(cè)精度是進(jìn)行該選擇行為研究未來(lái)努力的方向。
參考文獻(xiàn)
[1]互聯(lián)網(wǎng)文檔資源.東莞高校外語(yǔ)專(zhuān)業(yè)社會(huì)服務(wù)與本地跨境電商行業(yè)對(duì)接研究.http://www.xzlunwen.com/20180219/907473.html.2017
[2]符雯.效用理論在國(guó)內(nèi)交通運(yùn)輸領(lǐng)域的應(yīng)用綜述[J].數(shù)學(xué)理論與應(yīng)用.2017-11-18
[3]互聯(lián)網(wǎng)文檔資源.TMT特征及其異質(zhì)性與企業(yè)績(jī)效關(guān)系究.http://www.xzlunwen.com/20171123/841676.html.2017