張小可 沈文明 杜翠鳳
摘要:為了解決用戶興趣變化動態(tài)推薦的問題,通過利用用戶的實時上網(wǎng)數(shù)據(jù)動態(tài)更新貝葉斯網(wǎng)絡(luò)各種興趣的概率,結(jié)合興趣閾值刻畫用戶畫像并實現(xiàn)移動應(yīng)用的實時推薦。經(jīng)過實驗表明,該算法能夠有效挖掘用戶的興趣,并具有較好的擴(kuò)展性。
關(guān)鍵詞:用戶畫像 貝葉斯網(wǎng)絡(luò) 興趣閾值 動態(tài)推薦
1 引言
用戶畫像(Persona)最早是由交互設(shè)計之父Alan Cooper提出的,他認(rèn)為用戶畫像是真實用戶的虛擬代表,是根據(jù)一系列用戶的真實數(shù)據(jù)而挖掘出的目標(biāo)用戶模型[1]。通常用戶畫像是根據(jù)用戶的目標(biāo)、行為、觀點的差異抽取用戶的典型特征,把用戶的基本屬性(年齡、性別、地域)、購買能力、行為特征、興趣愛好、心理特征、社交網(wǎng)絡(luò)大致地標(biāo)簽化。
用戶畫像研究是當(dāng)前的一個熱門話題,不少學(xué)者對移動互聯(lián)網(wǎng)、互聯(lián)網(wǎng)的數(shù)據(jù)構(gòu)建用戶畫像,描述用戶的群體特征,從而為精準(zhǔn)營銷提供數(shù)據(jù)支撐。曾鴻等通過對新浪微博數(shù)據(jù)進(jìn)行采集分析,構(gòu)建用戶畫像模型,描述企業(yè)用戶群體的行為特征,支撐精準(zhǔn)營銷[1];張慷通過提取用戶的上網(wǎng)行為特征,同時結(jié)合相關(guān)數(shù)據(jù)進(jìn)行數(shù)據(jù)融合以及交叉分析,構(gòu)建通信用戶的畫像模型[2];黃文彬等在分析移動用戶的基站軌跡基礎(chǔ)上,采用頻繁模式挖掘、構(gòu)建概率矩陣等方法,構(gòu)建包含地理位置信息的用戶畫像模型[3];王慶福采用貝葉斯網(wǎng)絡(luò)構(gòu)建用戶興趣模型,以用戶興趣模型來刻畫用戶畫像[4]。在借鑒已有研究成果的基礎(chǔ)上,本文通過對移動互聯(lián)網(wǎng)用戶的歷史數(shù)據(jù)進(jìn)行多元回歸分析,得到貝葉斯網(wǎng)絡(luò)的初始參數(shù),再利用Netica軟件構(gòu)造一個BN(Bayesian Networks,貝葉斯網(wǎng)絡(luò))模型,并根據(jù)用戶實時發(fā)生的業(yè)務(wù)行為更新網(wǎng)絡(luò)的參數(shù),以此刻畫每個用戶的畫像。
2 用戶畫像構(gòu)建的相關(guān)研究
2.1 用戶畫像的定義
用戶畫像的本質(zhì)就是消費(fèi)者特征“可視化”。用戶畫像首先通過用戶一系列的行為信息進(jìn)行用戶行為的初步“刻畫”;然后關(guān)聯(lián)用戶的動態(tài)行為數(shù)據(jù)進(jìn)行畫像的完善,以此提高用戶需求偏好的準(zhǔn)確度。本文先通過回歸分析歸納用戶的行為信息,再通過貝葉斯網(wǎng)絡(luò)關(guān)聯(lián)動態(tài)數(shù)據(jù),更新用戶對需求的偏好概率。
2.2 用戶畫像構(gòu)建思路
基于用戶畫像的定義,本文刻畫用戶畫像的步驟如圖1所示。
2.3 多元線性回歸模型
多元線性回歸模型是反映自變量與因變量之間“緊密性”的關(guān)系。因此,本文在分析用戶的生活習(xí)慣和消費(fèi)行為的基礎(chǔ)上,采用多元線性回歸的方法來衡量用戶對某種移動應(yīng)用的初始興趣度。
多元線性回歸模型:假設(shè)影響因變量Y的自變量個數(shù)為N,自變量記為x1, x2, …, xn,則自變量與因變量是線性關(guān)系:
Y=β0+β1x1+β2x2+…+βnxn+ε (1)
其中,β1, β2, …, βn是回歸系數(shù);ε是與x1, x2, …, xn無關(guān)的未知參數(shù),取值范圍為(0, σ2)。
2.4 貝葉斯網(wǎng)絡(luò)
眾所周知,用戶的興趣可能會受到身邊的朋友、同事或者家人的影響而發(fā)生改變。基于此,本文將通過貝葉斯網(wǎng)絡(luò)構(gòu)建一種適應(yīng)用戶興趣變化的動態(tài)推薦方法。
(1)貝葉斯定理
貝葉斯定理源于一個“逆向概率”的問題。如果袋子里有N個白球、M個黑球,則摸到黑球的“正向概率”容易得出;那么如果事前并不知道白球和黑球的比例,經(jīng)過隨機(jī)摸出幾個球后,如何推測黑白球的比例呢?因此,貝葉斯的推斷不需要客觀的依據(jù),它實際上需要一個估計值,然后根據(jù)實際的結(jié)果對估計值不斷修正。后來,Pierre Simona將貝葉斯的理論進(jìn)一步發(fā)展為條件概率,幫助人們在概率相關(guān)的決策過程中,通過新獲得的觀察結(jié)果來更正對概率的判斷。在事件B出現(xiàn)的前提下,事件A出現(xiàn)的概率等于A和B都出現(xiàn)的概率除以B出現(xiàn)的概率,具體如下:
(2)
其中,P(A|B)是后驗概率;P(A)是先驗概率;P(B|A)/P(B)是一個調(diào)整因子,是在已知某些觀測所得到的結(jié)果。在預(yù)估先驗概率的前提下,再加入觀測結(jié)果,通過觀測結(jié)果來增強(qiáng)或者削弱先驗概率,由此得到更接近事實的后驗概率[5]。
(2)貝葉斯網(wǎng)絡(luò)
貝葉斯網(wǎng)絡(luò)是基于概率推理的圖形化概率網(wǎng)絡(luò),是不確定知識表達(dá)與推理領(lǐng)域最有效的理論模型之一。它將經(jīng)典的概率論與圖論結(jié)合起來,用于發(fā)現(xiàn)隨機(jī)變量之間的潛在關(guān)系,適用于表述和分析不確定的事件,可以從分散的、粗糙的信息中作出推理[6-7]。
假定有隨機(jī)變量組合X={X1, X2, …, Xn},xi表示Xi的取值。表達(dá)式p(X1=x1, X2=x2, …, Xn=xn)表示一個聯(lián)合概率,即變量X1, X2, …, Xn的值分別是x1, x2, …, xn的概率。因此,給定一個隨機(jī)變量集合的完全聯(lián)合概率函數(shù)就能計算所有的邊緣概率和更低階的聯(lián)合概率[6]。為了更直觀表達(dá)聯(lián)合概率,用一個條件概率鏈表示聯(lián)合概率:
(3)
為了更直觀表達(dá)變量之間的聯(lián)合概率分布和條件的獨(dú)立性,后人用貝葉斯網(wǎng)絡(luò)來展現(xiàn)節(jié)點間相互依賴的關(guān)系,這種網(wǎng)絡(luò)表示的方法能夠大量地節(jié)約概率推理的計算。
如圖2所示,一個貝葉斯網(wǎng)絡(luò)是一個DAG(Directed Acyclic Graph,有向無環(huán)圖),由代表變量節(jié)點及連接這些節(jié)點的有向邊構(gòu)成[7]。
貝葉斯網(wǎng)絡(luò)用B(G, P)表示,圖2中的節(jié)點代表隨機(jī)變量,節(jié)點之間的有向邊反映節(jié)點之間的依賴關(guān)系。指向節(jié)點X的所有節(jié)點是X的父節(jié)點,T和L是節(jié)點X的父節(jié)點,表示T和L引起了X,T和L與X都存在因果關(guān)系,因此貝葉斯網(wǎng)絡(luò)有時叫做因果網(wǎng)[7]。貝葉斯網(wǎng)絡(luò)還蘊(yùn)含獨(dú)立性假設(shè),貝葉斯網(wǎng)絡(luò)規(guī)定圖中的任一節(jié)點Xi條件獨(dú)立于由Xi的父節(jié)點給定的非Xi后代節(jié)點構(gòu)成的任何節(jié)點子集,即如果用A(Xi)表示非Xi后代節(jié)點構(gòu)成的任何節(jié)點子集,用Πi表示變量Xi的父節(jié)點集,πi表示Πi的配置情況,πi表示某一具體的配置[8]。對于每個Xi將有一個子集Πi{X1, X2, …, Xi-1},使得Xi與A(Xi)={X1, X2, …, Xi-1}\Πi給定Πi的前提下是條件獨(dú)立的[7]。正如圖2所示,網(wǎng)絡(luò)中的節(jié)點T、L和X之間是一種收斂連接,在X光結(jié)果未知的條件下,T和L是相互獨(dú)立的;在警報X已知的情況下,T和L是相互依賴的,即不滿足:P(T, L|X)=P(T|X)P(L|X)。網(wǎng)絡(luò)中的節(jié)點S、L和B之間是一種發(fā)散連接,在節(jié)點S已知的條件下,L和B條件獨(dú)立,即滿足:P(L, B|S)=P(L|S)P(B|S)。節(jié)點L既是S和X順序連接路徑上的頭對頭型節(jié)點,則在已知節(jié)點L取值的條件下,X獨(dú)立于網(wǎng)絡(luò)中的節(jié)點S,即網(wǎng)絡(luò)模型得到的聯(lián)合概率為:
P(A, S, T, L, B, X, D)=P(A)P(S)P(T|A)P(L|S)
P(B|S)P(X|T, L)P(D|T, L, B) (4)
3 實驗過程
3.1 采用多元線性回歸計算用戶的初始興趣度
通過運(yùn)營商的流量詳單記錄,選擇某地市100萬用戶的上網(wǎng)數(shù)據(jù)記錄,首先抽取用戶上網(wǎng)記錄的核心特征,然后根據(jù)公式(1)計算每個用戶的實時興趣度。通過對用戶上網(wǎng)應(yīng)用的特征提取,歸納出9種代表性的應(yīng)用:移動社交、手機(jī)游戲、手機(jī)電視、移動電子閱讀、移動定位服務(wù)、收集搜索、手機(jī)內(nèi)容共享、移動支付、移動電子商務(wù)。
根據(jù)上面介紹的多元線性回歸方程,則某種應(yīng)用的初始興趣度為:
Yi=β1Mi+β2Ti (5)
其中,Yi表示第i種商品的初始興趣度;Mi表示瀏覽網(wǎng)頁的次數(shù);Ti表示瀏覽網(wǎng)頁的時間。通過公式(5)可以計算每個用戶對每種應(yīng)用的初始興趣度,該興趣度可作為貝葉斯網(wǎng)絡(luò)中每種應(yīng)用的初始興趣度。
3.2 構(gòu)造用戶畫像的貝葉斯模型
把上述9種應(yīng)用構(gòu)造貝葉斯網(wǎng)絡(luò),9個節(jié)點代表9種不同移動應(yīng)用,節(jié)點間的有向弧代表用戶的初始興趣度,本文利用Netica軟件構(gòu)造一個BN模型,某個用戶初始興趣的貝葉斯網(wǎng)絡(luò)如圖3所示。
3.3 利用實時興趣調(diào)整BN網(wǎng)絡(luò)中的概率
當(dāng)獲得用戶的上網(wǎng)信息時,BN網(wǎng)絡(luò)中的概率就會自動更新。貝葉斯網(wǎng)絡(luò)最強(qiáng)大之處在于從每個階段結(jié)果所獲得的概率都是數(shù)學(xué)與科學(xué)的反映[9]。也就是說,假設(shè)了解用戶上網(wǎng)的足夠信息,根據(jù)這些信息獲得統(tǒng)計知識,網(wǎng)絡(luò)就會推斷合理的用戶興趣。當(dāng)發(fā)現(xiàn)用戶使用移動支付時,則BN網(wǎng)絡(luò)的概率調(diào)整如圖4所示。
由圖4可知,當(dāng)發(fā)現(xiàn)用戶使用移動支付后,用戶的可能使用定位服務(wù)的概率明顯提升。同時,還發(fā)現(xiàn)用戶使用了移動社交的服務(wù),那么用戶的BN網(wǎng)絡(luò)的概率調(diào)整如圖5所示。
由圖5可知,當(dāng)用戶使用移動社交后,用戶的收集內(nèi)容共享、定位服務(wù)的概率得到提升。運(yùn)營商可以根據(jù)實時的用戶興趣不斷更新BN網(wǎng)絡(luò)的概率,當(dāng)發(fā)現(xiàn)用戶對某種應(yīng)用的概率大于δ時(δ為用戶對某種應(yīng)用的興趣閾值),運(yùn)營商可以對該用戶進(jìn)行應(yīng)用推薦。根據(jù)應(yīng)用推薦后,再跟蹤用戶的使用程度,以此來動態(tài)調(diào)整用戶對某種應(yīng)用的興趣閾值。
3.4 基于貝葉斯網(wǎng)絡(luò)挖掘的用戶畫像結(jié)果
表1為用戶A、用戶B和用戶C一周登錄手機(jī)APP后所使用的應(yīng)用,根據(jù)用戶的登錄次數(shù)、逗留時間計算出他們的興趣度,得到不同的應(yīng)用興趣集。
從實驗數(shù)據(jù)得到用戶的興趣閾值δ為0.638。在表1中,可以預(yù)測用戶A感興趣的應(yīng)用為{移動社交,移動定位服務(wù),手機(jī)內(nèi)容共享,移動支付,移動電子商務(wù)};用戶B感興趣的應(yīng)用為{手機(jī)游戲,收集搜索,移動支付,移動電子商務(wù)};用戶C感興趣的應(yīng)用為{移動社交,手機(jī)游戲,移動電子閱讀,移動支付,移動電子商務(wù)}。根據(jù)這些數(shù)據(jù)挖掘的信息,運(yùn)營商或者移動應(yīng)用供應(yīng)商就可以為不同的用戶提供網(wǎng)上的個性化信息服務(wù)和推薦用戶喜愛的移動應(yīng)用,提高運(yùn)營商和移動應(yīng)用供應(yīng)商的服務(wù)效率及利潤。
4 結(jié)束語
本文采用貝葉斯網(wǎng)絡(luò)對用戶上網(wǎng)數(shù)據(jù)進(jìn)行實時更新,以便實現(xiàn)用戶應(yīng)用的個性化推薦服務(wù)。它能夠使先驗知識和實時數(shù)據(jù)有機(jī)地結(jié)合,實時更新網(wǎng)絡(luò)中的概率,并通過較為直觀的概率關(guān)聯(lián)關(guān)系來挖掘用戶的興趣,為構(gòu)建用戶畫像提供了有力的數(shù)據(jù)支撐。實驗表明,采用貝葉斯網(wǎng)絡(luò)刻畫實時的用戶畫像,能夠動態(tài)跟蹤用戶預(yù)測用戶的興趣愛好,為運(yùn)營商和移動應(yīng)用供應(yīng)商提供個性化的應(yīng)用推薦切實可行的方法。
參考文獻(xiàn):
[1] 曾鴻,吳蘇倪. 基于微博的大數(shù)據(jù)用戶畫像與精準(zhǔn)營銷[J]. 現(xiàn)代經(jīng)濟(jì)信息, 2016(16): 306-308.
[2] 張慷. 手機(jī)用戶畫像在大數(shù)據(jù)平臺的實現(xiàn)方案[J]. 信息通信, 2014(2): 266-267.
[3] 黃文彬,徐山川,吳家輝,等. 移動用戶畫像構(gòu)建研究[J]. 現(xiàn)代情報, 2016,36(10): 54-61.
[4] 王慶福. 貝葉斯網(wǎng)絡(luò)在用戶興趣模型構(gòu)建中的研究[J]. 無線互聯(lián)科技, 2016(12): 101-102.
[5] 湯偉. Android應(yīng)用程序框架安全機(jī)制研究及改進(jìn)[D]. 寧波: 寧波大學(xué), 2011.
[6] 葉加加,趙逢禹. 基于興趣預(yù)測和熱點分析的聯(lián)合推薦算法研究[J]. 軟件導(dǎo)刊, 2016,15(9): 25-28.
[7] 李儉川,胡蔦慶,秦國軍,等. 貝葉斯網(wǎng)絡(luò)理論及其在設(shè)備故障診斷中的應(yīng)用[J]. 中國機(jī)械工程, 2003,14(10): 896-900.
[8] 李伯宇. 通用決策模型生成及推理系統(tǒng)的實現(xiàn)及研究[D]. 西安: 西安理工大學(xué), 2004.
[9] 郭振興. 分布式網(wǎng)絡(luò)故障管理的監(jiān)測站點部署技術(shù)研究[D]. 長沙: 湖南大學(xué), 2011.
[10] 魏芳. 基于貝葉斯網(wǎng)絡(luò)的用戶興趣發(fā)現(xiàn)[D]. 西安: 西安建筑科技大學(xué), 2007.
[11] Neil M, Fenton N, Forey S, et al. Using Bayesian belief networks to predict the Reliability of military vehicles[J]. Computing and Control Engineering Journal, 2001,12(1): 11-20.
[12] 陳麗花. 基于貝葉斯網(wǎng)絡(luò)的網(wǎng)上用戶興趣預(yù)測分析[J]. 煤炭技術(shù), 2010,9(6): 163-165.
[13] 胡春玲,吳信東,胡學(xué)鋼,等. 基于貝葉斯網(wǎng)絡(luò)的頻繁模式興趣度計算及剪枝[J]. 軟件學(xué)報, 2011,22(12): 2934-2950.★