黃峻泓 夏征宇
摘? 要? 文章介紹了傳統(tǒng)用戶分類方法,在傳統(tǒng)RFM模型基礎(chǔ)上提出了一種基于用戶收視和消費(fèi)數(shù)據(jù)的RFM-CT的用戶分類模型,應(yīng)用K-means聚類算法進(jìn)行用戶分類工作,為廣告商、媒體運(yùn)營(yíng)商提供了一種決策思路。
關(guān)鍵詞? 用戶分類;RFM模型;收視行為;K-means
隨著互聯(lián)網(wǎng)的不斷發(fā)展,單一媒體正逐步向融媒體轉(zhuǎn)變,媒體形式的豐富使用戶的媒體行為趨于多樣化,跨屏傳播帶來(lái)全新的受眾收視模式。隨著視頻內(nèi)容通過(guò)數(shù)字有線網(wǎng)、寬帶、移動(dòng)互聯(lián)網(wǎng)等多種形式在大、中、小屏等各種屏端播出,用戶可以通過(guò)各種終端收看喜愛(ài)的節(jié)目等媒體內(nèi)容的同時(shí)進(jìn)行購(gòu)物消費(fèi)[1]。自廣告出現(xiàn)以來(lái),廣告的效果問(wèn)題就一直受到人們廣泛的研究,廣告的評(píng)估與其目標(biāo)有著密切關(guān)系[2]。廣告商通過(guò)定位有價(jià)值的目標(biāo)人群來(lái)實(shí)現(xiàn)廣告的精準(zhǔn)投放,媒體運(yùn)營(yíng)商則根據(jù)目標(biāo)人群的消費(fèi)情況來(lái)分析內(nèi)容受眾的消費(fèi)偏好等進(jìn)而對(duì)合適的產(chǎn)品進(jìn)行招商,幫助商家、品牌商等提升產(chǎn)品銷量。
1? 傳統(tǒng)的用戶分類方法
1.1? 基于用戶的靜態(tài)屬性劃分
用戶的靜態(tài)屬性是最早應(yīng)用于用戶分類的屬性,用戶的靜態(tài)屬主要包括一些與用戶相關(guān)并且不經(jīng)常變化的數(shù)據(jù),例如用戶的性別、年齡、教育程度和收入等自然人口學(xué)屬性。靜態(tài)屬性容易理解和獲得,但隨著技術(shù)的不斷發(fā)展,僅通過(guò)簡(jiǎn)單的靜態(tài)屬性來(lái)分析已經(jīng)不能很好地滿足市場(chǎng)的需要。
1.2? 基于生活形態(tài)屬性的劃分
在傳統(tǒng)的收視率調(diào)查中,曾使用過(guò)日記卡的調(diào)查方式。所謂日記卡,簡(jiǎn)單說(shuō)就是在樣本戶中留置日記,請(qǐng)樣本家庭中的每一位成員及時(shí)填寫一周內(nèi)自己收看的電視的情況[3]?;谏钚螒B(tài)的消費(fèi)者群劃分的研究者通常會(huì)設(shè)計(jì)一些能體現(xiàn)用戶的生活心態(tài)屬性的問(wèn)卷來(lái)讓用戶填寫,回收問(wèn)卷數(shù)據(jù)后再對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,問(wèn)卷中的問(wèn)題由問(wèn)卷設(shè)計(jì)者主觀確定,而且大量的問(wèn)題很可能導(dǎo)致用戶答題缺乏耐心,用戶不一定按照自身的真實(shí)情況填寫的同時(shí)樣本容量也十分有限?!吧钚螒B(tài)”最早于1927年由心理學(xué)家Alfred Adler提出,1963年William kazer首次將“生活形態(tài)”的概念運(yùn)用到營(yíng)銷理論中,成為制定營(yíng)銷策略的依據(jù)之一[4]。它與基于用戶靜態(tài)屬性的方法不同,它認(rèn)為僅通過(guò)一些人口統(tǒng)計(jì)學(xué)變量來(lái)劃分用戶無(wú)法體現(xiàn)用戶的生活習(xí)慣、價(jià)值觀、消費(fèi)觀等一些非表面的心理屬性。1998年Kolter在研究中提出,生活形態(tài)是指?jìng)€(gè)人的生活方式,具體表現(xiàn)在活動(dòng)(Activities)、興趣愛(ài)好(Interest)、個(gè)人觀點(diǎn)(Opinion)等三個(gè)方面上[5]。
1.3? 基于用戶行為等動(dòng)態(tài)屬性的劃分
動(dòng)態(tài)屬性隨著時(shí)間會(huì)產(chǎn)生變化,通常為用戶產(chǎn)生的一些行為數(shù)據(jù),如消費(fèi)行為數(shù)據(jù)、收視數(shù)據(jù)等。莊一嶸等通過(guò)對(duì)時(shí)間維度樣本矩陣及點(diǎn)播記錄特征參數(shù)進(jìn)行關(guān)聯(lián)計(jì)算,對(duì)海量的IPTV用戶群進(jìn)行分類,分析出各個(gè)用戶群的喜好、觀影時(shí)段、增值業(yè)務(wù)的偏好等信息,為IPTV數(shù)據(jù)運(yùn)營(yíng)提供了基于用戶群分類的數(shù)據(jù)支撐,指導(dǎo)IPTV具體的運(yùn)營(yíng)工作[6]。
2? 建立收視行為與消費(fèi)數(shù)據(jù)的模型
2.1? RFM模型
美國(guó)數(shù)據(jù)庫(kù)營(yíng)銷研究所的Arthur Hughes在研究中提出了RFM模型,RFM模型常用于分析用戶的消費(fèi)行為,從而有效的衡量用戶對(duì)企業(yè)的價(jià)值。其中R、F、M分別代表了該模型的三個(gè)測(cè)量因子,R(Recency)代表最近一次消費(fèi)距離分析點(diǎn)的時(shí)間,F(xiàn)(Frequency)表示固定時(shí)間段內(nèi)消費(fèi)的總次數(shù),M(Monetary)表示固定時(shí)間段內(nèi)消費(fèi)的金額。
用戶的R值越小代表該用戶最近消費(fèi)的時(shí)間距離分析點(diǎn)的時(shí)間越接近,對(duì)企業(yè)的價(jià)值也就越高。用戶的F值是在一個(gè)固定的時(shí)間段內(nèi)用戶消費(fèi)的累計(jì)次數(shù),如1個(gè)月、3個(gè)月、1年等,時(shí)間段內(nèi)消費(fèi)次數(shù)越多的用戶價(jià)值越高。用戶的M值是一個(gè)固定時(shí)間段內(nèi)用戶消費(fèi)的總金額,消費(fèi)金額越高的用戶價(jià)值自然越高,但由于M值和F值的相關(guān)度較高,所以M值常采用平均值來(lái)計(jì)算。
2.2? 消費(fèi)與收視的關(guān)聯(lián)性
傳統(tǒng)人們習(xí)慣把媒體研究和市場(chǎng)研究分為兩個(gè)不同的研究領(lǐng)域。但是,如果把媒體也作為一種商品,把網(wǎng)絡(luò)用戶的媒體行為作為一種消費(fèi)行為來(lái)看待,那么兩者在本質(zhì)上應(yīng)該是統(tǒng)一的。美國(guó)的Peter Steiner認(rèn)為,人們對(duì)于節(jié)目的選擇與他們對(duì)消費(fèi)品的選擇的標(biāo)準(zhǔn)是相類似的。消費(fèi)者對(duì)某一商品的喜好,會(huì)反映到他們對(duì)某一類型的節(jié)目或欄目的喜好當(dāng)中;反過(guò)來(lái)說(shuō),受眾對(duì)某一類型節(jié)目的喜好,也會(huì)在他們對(duì)某些商品的偏好程度中體現(xiàn)出來(lái)。怎么使廣告的投放更加精準(zhǔn),也一直是廣告商和媒體運(yùn)營(yíng)機(jī)構(gòu)致力于解決的問(wèn)題。在融媒體的大環(huán)境下,網(wǎng)絡(luò)用戶隨時(shí)隨地都能通過(guò)各種終端進(jìn)行收視、消費(fèi)等,本文嘗試將網(wǎng)絡(luò)用戶收視數(shù)據(jù)與消費(fèi)數(shù)據(jù)結(jié)合分析劃分用戶群體,為商家、媒體運(yùn)營(yíng)商、廣告商等提供決策上的幫助。
本文通過(guò)某電子商務(wù)平臺(tái)的大數(shù)據(jù)競(jìng)賽比賽獲取到部分脫敏的用戶消費(fèi)數(shù)據(jù),將用戶的消費(fèi)數(shù)據(jù)屬性整理為:用戶編號(hào)、商品編號(hào)、商品類別、下單時(shí)間。其中用戶編號(hào)、商品編號(hào)、商品類別都經(jīng)過(guò)了脫敏處理。本文通過(guò)整理目前市場(chǎng)上主流電子商務(wù)平臺(tái)的商品一級(jí)分類得到商品分類。
2.3? 建立基于網(wǎng)絡(luò)用戶的收視行為和消費(fèi)數(shù)據(jù)來(lái)劃分用戶群體的RFM-CT模型
按照中華人民共和國(guó)廣播電影電視行業(yè)暫行技術(shù)文件,網(wǎng)絡(luò)用戶的收視行為可以發(fā)生在有線電視、IPTV、互聯(lián)網(wǎng)電視等不同設(shè)備上。文件規(guī)定每條收視數(shù)據(jù)記錄都必須包含一些基本參數(shù)數(shù)據(jù),包括終端設(shè)備編碼、終端區(qū)域編碼、操作時(shí)間等。其中直播收視數(shù)據(jù)包括頻道編號(hào)、頻道名稱等,點(diǎn)播收視數(shù)據(jù)包括節(jié)目編號(hào)、節(jié)目名稱、播放類型等。本文將收視基本數(shù)據(jù)整理為:收視內(nèi)容編號(hào)、開始時(shí)間、結(jié)束時(shí)間,并將傳統(tǒng)RFM模型應(yīng)用到網(wǎng)絡(luò)用戶的收視數(shù)據(jù)上,將收視行為屬性整理為用戶編號(hào)、最近觀看時(shí)間距(R)、觀看頻度(F)、觀看總長(zhǎng)度(M)、內(nèi)容編號(hào)。
RFM-CT模型如表1所示。其中R值代表用戶最近觀看時(shí)間距離分析點(diǎn)的時(shí)間長(zhǎng)度,R值越小代表該用戶對(duì)其興趣度較高,F(xiàn)值代表在一段固定的時(shí)間段內(nèi)收視某內(nèi)容的總次數(shù),M值指在一段固定的時(shí)間段內(nèi)觀看某內(nèi)容的平均時(shí)長(zhǎng),可由總時(shí)長(zhǎng)/F值得到,C值代表在一段固定的時(shí)間段內(nèi)消費(fèi)的商品類別,T值指下單的時(shí)間段,本文將每天劃分為24個(gè)時(shí)間段,如00:00—00:59定義為“1”時(shí)間段,以此類推后面23個(gè)時(shí)間段。
3? 基于RFM-CT模型的K-means聚類
3.1? 數(shù)據(jù)清洗
首先將上述得到的基本收視數(shù)據(jù)和消費(fèi)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗后導(dǎo)入數(shù)據(jù)庫(kù)中,校驗(yàn)數(shù)據(jù)的完整性并確保數(shù)據(jù)包含必選字段,去除或修改邏輯錯(cuò)誤的數(shù)據(jù)。
3.2? 計(jì)算RFM-CT指標(biāo)
本文數(shù)據(jù)規(guī)模為1 000個(gè)用戶的收視與消費(fèi)數(shù)據(jù)。以用戶編號(hào)為主,計(jì)算每個(gè)用戶在給定時(shí)間段內(nèi)的發(fā)生收看行為的媒體內(nèi)容RFM值。如給定時(shí)間段為2018年2月5日0點(diǎn)、2018年2月6日0點(diǎn),計(jì)算得到的部分RFM值如表2所示,其中R值單位為分鐘數(shù),F(xiàn)值為收看次數(shù)、M值為平均收看分鐘。為后續(xù)聚類需要,需要將計(jì)算結(jié)果進(jìn)行歸一化。
3.3? 基于K-means聚類算法的聚類
K-means是一種無(wú)監(jiān)督的聚類算法。設(shè)給定n個(gè)d維數(shù)據(jù)向量的數(shù)據(jù)集,要將該數(shù)據(jù)集劃分為K類,記為:,其中。K-means即求解下式的最小值:最后將RFM-CT指標(biāo)歸一化后作為聚類變量進(jìn)行計(jì)算得到聚類結(jié)果,分析得到相應(yīng)的用戶群體。
4? 結(jié)語(yǔ)
本文基于傳統(tǒng)的RFM模型,提出了一種基于網(wǎng)絡(luò)用戶收視和消費(fèi)行為數(shù)據(jù)的RFM-CT模型,并應(yīng)用K-means進(jìn)行用戶分類。希望本文的研究工作能為媒體運(yùn)營(yíng)商、廣告商定位目標(biāo)用戶群有所幫助。
5? 鳴謝
感謝我的導(dǎo)師中國(guó)傳媒大學(xué)傳媒科學(xué)研究所所長(zhǎng)夏征宇老師的悉心教導(dǎo)。感謝我的實(shí)習(xí)公司北京北廣準(zhǔn)星科技有限公司提供的實(shí)習(xí)機(jī)會(huì)和資源,感謝實(shí)習(xí)期為我提供幫助的司偉老師和畢艷紅老師。感謝實(shí)驗(yàn)室的各個(gè)同學(xué)三年來(lái)的支持和幫助。
參考文獻(xiàn)
[1]劉燕南.跨屏?xí)r代的受眾測(cè)量與大數(shù)據(jù)應(yīng)用[M].北京:中國(guó)傳媒大學(xué)出版社,2016.
[2]Xia,Zhengyu.[IEEE 2009 International Conference on Management and Service Science (MASS)-Beijing, China (2009.09.20-2009.09.22)]2009 International Conference on Management and Service Science - Measurement, Modeling and Systemic Implementation of Cross-Media Communication Effect[J].2009:1-5.
[3]劉燕南.電視收視率解析:調(diào)查、分析與應(yīng)用[M].2版.北京:中國(guó)傳媒大學(xué)出版社,2010.
[4]王欣.基于生活形態(tài)的IPTV用戶使用行為研究[D].上海:華東師范大學(xué),2011.
[5]方雪琴.IPTV受眾消費(fèi)行為研究[D].武漢:華中科技大學(xué),2008.
[6]莊一嶸,李江崴,劉東宇,等.IPTV用戶群分類模型設(shè)計(jì)與實(shí)現(xiàn)[J].廣東通信技術(shù),2014(6):5-6,44.