陳麗
【摘? 要】線上產(chǎn)品廣告如同“信息爆炸”般涌向電商用戶,降低了用戶購物體驗。因此,設(shè)計出一個高效、精準的推薦算法一直都是智能電商的研究重點。論文旨在設(shè)計一個基于用戶效用的隱式反饋推薦系統(tǒng),在不干擾客戶購物的情況下,為客戶提供合適的商品。論文首先采用隱式數(shù)據(jù),設(shè)計出商品效用值,然后根據(jù)用戶的付出成本,計算出用戶的收益值,最后把收益值最大的商品作為推薦品。經(jīng)過測試集的計算,模型準確率為90.2%。
【Abstract】Online product advertisements flood e-commerce users like an "information explosion", which reduces users' shopping experience. Therefore, designing an efficient and accurate recommendation algorithm has always been the research focus of intelligent e-commerce. This paper aims to design an implicit feedback recommendation system based on user utility to provide customers with appropriate products without interfering with their shopping. The paper firstly uses implicit data to design the commodity utility value, then calculates the user's profit value according to the user's cost, and finally takes the commodity with the highest profit value as the recommendation product. Through the calculation of the test set, the accuracy of the model is 90.2%.
【關(guān)鍵詞】隱式反饋;推薦系統(tǒng);效用
【Keywords】implicit feedback; recommendation system; utility
【中圖分類號】TP391.3? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻標志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號】1673-1069(2021)11-0106-03
1 引言
隨著信息爆炸時代的來臨,用戶面對著海量的商品信息。當海量的商品涌入消費者的腦海中,不僅不會增加消費者滿意度,反而會降低消費者的購物體驗。因為面臨大量的商品數(shù)據(jù),消費者會認為絕大部分的信息都是無用的。甚至部分消費者認為,繁多的商品信息嚴重降低了購物效率。
為解決數(shù)據(jù)過載帶來的問題,電商平臺采用了推薦技術(shù)。采用針對性推薦技術(shù),能夠提高電商平臺的轉(zhuǎn)化率。同時,因為推薦技術(shù)能夠為用戶過濾繁多的信息,提供精準的商品推薦。因此,一個能夠提供精準推薦的算法,對于推薦系統(tǒng)至關(guān)重要。
推薦算法通過對消費者進行分析以后,為其推薦感興趣的商品項目。目前推薦算法主要是協(xié)同過濾算法。利用客戶的歷史購物數(shù)據(jù),根據(jù)其與商品屬性的關(guān)系來做出推薦。協(xié)同過濾要用到的是顧客的顯式反饋。一般有2種類型的協(xié)同過濾:基于用戶評分的和基于商品相關(guān)性、用戶相似性得出推薦的商品。協(xié)同過濾最大的優(yōu)勢在于可以處理復(fù)雜的對象,如書籍、音樂、電影等。Vincent W. Zheng等人設(shè)計出基于移動設(shè)備GPS的利用協(xié)同過濾推薦算法,為用戶提供路線推薦??墒牵瑐鹘y(tǒng)的協(xié)同過濾算法計算效率不高,難以對付目前海量用戶的信息對比。所以,Altingovde等人先采用了聚類算法來處理用戶群,縮小對比范圍,再進行協(xié)同過濾推薦。Maleszka在協(xié)同過濾傳統(tǒng)算法的基礎(chǔ)上,建立基于用戶的檔案的信息檢索系統(tǒng),為新用戶解決冷啟動問題。Gérard Biau用k-nearest neighbor算法,從統(tǒng)計學(xué)的角度去改進協(xié)同過濾。協(xié)同過濾算法主要依靠的都是歷史的數(shù)據(jù)。例如,通過某消費者歷史購物信息來推薦給具有相似興趣的消費者。因此,商家為了提高自己產(chǎn)品被推薦的可能性,就會采用虛假評論、刷單、虛假評分的方式。這些虛假分數(shù)會產(chǎn)生“劣幣驅(qū)逐良幣”的效應(yīng),導(dǎo)致真正優(yōu)質(zhì)的產(chǎn)品不被消費者看到。這樣長久以后,最終也是降低了消費者的購物體驗。因此不采用歷史數(shù)據(jù)、消費者評分這種顯式反饋數(shù)據(jù),而是采用更加精確、隱秘性強的隱式反饋數(shù)據(jù)。
隱式反饋推薦主要是指利用效用函數(shù)進行計算推薦商品。效用函數(shù)最初來源于經(jīng)濟學(xué)領(lǐng)域,用于測量消費者在購物中所獲得的滿足程度。目前基于效用函數(shù)的推薦算法不算多,主要是利用商品對用戶的效用值匹配的評估上來進行推薦,最終目的是幫助用戶獲得利益最大化。研究的重點主要集中在為每一位客戶建立效用評估函數(shù)。有一些網(wǎng)站,并不需要用戶事先為商品輸入效用值,而是利用指定因素與用戶的交互作用和權(quán)重賦值,為用戶提供推薦信息。并且,效用函數(shù)根據(jù)用戶興趣而建立,作用于商品,決定商品在用戶心中的等級。而隱式反饋數(shù)據(jù)主要是通過收集消費者在購物瀏覽的過程中留下來的痕跡數(shù)據(jù),如點擊、收藏、加購物車等行為數(shù)據(jù)。這些行為數(shù)據(jù)能夠更加客觀地顯示出消費者的購物傾向。這些數(shù)據(jù)都具有隱匿性,不會影響消費者購物體驗。
本研究主要采用隱式反饋方法,設(shè)計基于用戶效用的推薦算法。首先采用隱式反饋數(shù)據(jù),制定效用評分機制,構(gòu)建商品效用函數(shù)模型。然后考慮用戶的投入成本,構(gòu)建商品收益函數(shù)。通過構(gòu)建基于隱式反饋的用戶效用函數(shù),能夠避免因為虛假信息而導(dǎo)致的推薦不準的問題,同時,能提高推薦精準度。
2 相關(guān)理論
2.1 顯式反饋算法
信息數(shù)據(jù)的爆炸式增長,使得客戶每時每刻都面臨著海量的信息。為有效處理客戶的選擇與海量信息之間的矛盾,促使平臺更好地達成交易,推薦算法應(yīng)運而生。推薦算法本質(zhì)上就是根據(jù)客戶的興趣愛好,推薦其相關(guān)的商品和服務(wù),如書本推薦、社交好友推薦等。較早的推薦算法是協(xié)同過濾,這是一種顯式反饋推薦,主要是采用客戶對商品“打分”的方式,然后系統(tǒng)會根據(jù)分數(shù),尋找與之打分相近的客戶,推薦相似的商品。Zhang采用遞歸推進的預(yù)測方法,解決了系統(tǒng)過濾的稀疏性問題,把那些鄰近的尚未對商品進行評分的客戶也納入預(yù)測當中,由此提高協(xié)同過濾的預(yù)測精準度。Leng認為評分數(shù)據(jù)的稀疏性問題會嚴重影響系統(tǒng)推薦的結(jié)果,因此提出了一種基于鄰域評級插補的混合協(xié)同過濾算法。通過PCA主成分分析,減少原始評級矩陣的維數(shù)。同時采用奇異值分解SVD來估算鄰近的確實評分。但是這種“打分”會對客戶造成一定的不良購物體驗。同時,也比較難以收集這些數(shù)據(jù)。
基于內(nèi)容的推薦算法,雖然也是屬于顯式反饋算法,但是其不需要用戶進行評分,而是通過為商品貼上標簽,做成商品屬性,然后分析用戶的商品偏好,推薦具有類似屬性的商品。
基于內(nèi)容的算法作出推薦,主要有3個步驟:①內(nèi)容分析。很多時候,系統(tǒng)所推薦的內(nèi)容是具有非結(jié)構(gòu)化的,如新聞、書本、文檔信息等。所以,要做出推薦的話,必須先對這些內(nèi)容進行整理,主要整理方法就是作內(nèi)容結(jié)構(gòu)化處理,如提取特定的屬性特征向量,再把屬性特征存入系統(tǒng),形成對應(yīng)的特征向量數(shù)據(jù)庫。②分析用戶偏好。根據(jù)用戶歷史購物信息,構(gòu)建用戶偏好數(shù)據(jù)庫。③匹配。將生成商品特征向量數(shù)據(jù)庫與用戶偏好數(shù)據(jù)庫進行匹配排序,采用COS等相似度計算法,算出匹配度最高的商品。
相似度的計算方法主要是皮爾遜相關(guān)系數(shù)和余弦相似度。皮爾遜相關(guān)系數(shù)主要用于統(tǒng)計學(xué)中:
Ru,i,Ru,j表示對于商品i和商品j的評分。結(jié)果越小,表示2個商品相似度越高。顯式反饋需要收集客戶的評分信息,這往往會令用戶感覺隱私被侵犯,而且認為這種評分行為煩瑣。所以,即便評分是為了更好地為用戶服務(wù),但是也會造成用戶不良的瀏覽體驗。那么,收集而來的數(shù)據(jù)就會體現(xiàn)稀疏性。
2.2 隱式反饋算法
跟顯式反饋的“打分”不一樣,隱式反饋主要是計算機主動學(xué)習(xí)客戶的消費習(xí)慣,通過分析相關(guān)數(shù)據(jù)來獲得客戶的偏好。例如,客戶喜愛某個商品,就會對這個商品的詳情頁進行瀏覽、把該商品加入購物車、分享該商品頁面等。隨著電子商務(wù)平臺的競爭日益劇烈,商家們都在想盡辦法引流,刺激客戶的購物欲望。所以,隱式反饋在目前更多地被商家運用。早在1994年,Morita等人就已經(jīng)將用戶瀏覽新聞所用時長作為隱式評分標準進行研究,除此以外,還有用戶瀏覽的次數(shù)。謝文玲通過相關(guān)性分析發(fā)現(xiàn),用戶的瀏覽次數(shù)和瀏覽時長與用戶的興趣具有高度相關(guān)性。隱式反饋的推薦方法主要是通過引入輔助信息來實施。因為隱式反饋缺乏用戶直接的評分,所以可以通過采用引入外部信息的方式來進行。例如,引入相似內(nèi)容的屬性特征,形成用戶偏好,然后將推薦的項目與之比較,也可以基于排序進行推薦。例如,Amatriain提出的逐對排序,將對比的電影進行配對,然后根據(jù)用戶對電影的偏好程度,逐一進行比較,最后將對比結(jié)果進行排序。Li等人采用用戶的搜索歷史記錄、購買記錄等來提高協(xié)同過濾的準確性,也就是將用戶的信息嵌入隱式反饋中。吳遠琴等采用卷積神經(jīng)網(wǎng)絡(luò)將用戶與項目的隱層特征進行學(xué)習(xí)并且建模,然后把特征融入預(yù)測推薦列表。
效用來源于經(jīng)濟學(xué),主要表示某個項目滿足人的程度,也就是人對于某個項目的認可程度。因此,效用是一種主觀感受,反映出人的抽象偏好。Park等人提出采用模糊系統(tǒng)、貝葉斯網(wǎng)絡(luò)和效用理論構(gòu)建CA-MRS音樂推薦系統(tǒng),為用戶提供音樂推薦。Manouselis等突破了傳統(tǒng)推薦算法的單一屬性的特點,采用了多屬性效用理論(MAUT)為顧客提供更高效的推薦。Orad認為,顧客的隱式反饋行為類型可以歸結(jié)為:審查、保留和參考這3種行為類型。Konstan等人基于顧客閱讀文件時長來建立顧客對文件偏好程度的考量體系。JINMOOK等嘗試通過修改瀏覽器來捕捉在某個會話內(nèi)顧客的隱式反饋數(shù)據(jù),從而獲取顧客偏好??梢姡陔[式反饋的行為預(yù)測系統(tǒng),需要系統(tǒng)通過觀察顧客的點擊行為來學(xué)習(xí)顧客對商品的偏好。獲取顧客隱式反饋數(shù)據(jù)的方式包括:訪問頁面、停留頁面時間、拖動滾動條、點擊鼠標、收藏某種產(chǎn)品、購物車數(shù)據(jù)等。然后結(jié)合某種主觀考量方法對商品進行效用評價。評價時,對顧客正常的瀏覽行為不會造成影響,所以更加具有可信度。Moe通過分析10000個家庭用戶的點擊行為,發(fā)現(xiàn)頻繁訪問某個特定商店的用戶最終在這家商店發(fā)生購買行為的概率更高。那么“訪問頻率”這個行為則被視為高價值行為。Park等分析1190個用戶的行為序列,發(fā)現(xiàn)越少的網(wǎng)頁跳轉(zhuǎn)和越長的網(wǎng)頁瀏覽時間的用戶,更有可能發(fā)生購買。這里可見“跳轉(zhuǎn)次數(shù)”和“瀏覽時長”這2個行為亦被視為高價值行為。Alan使用動態(tài)多項式概率模型分析用戶行為序列,從概率上分析用戶行為,發(fā)現(xiàn)高價值動作,從而預(yù)測用戶購買行為。Gerald認為用戶分2步購買商品,第一步大致快速瀏覽多個商品,第二步深入詳細了解某個商品。于是,其開發(fā)了交互式?jīng)Q策助手,分析顧客的行為序列,為顧客快速推薦商品。采用用戶行為情景數(shù)據(jù),計算行為相似度,構(gòu)建行為特征向量,最終形成預(yù)測。這些研究都認為,可以通過客觀的點擊序列數(shù)據(jù),挖掘高價值行為,做出用戶商品購買預(yù)測。
本文將隱式反饋數(shù)據(jù)嵌入效用函數(shù),構(gòu)建基于用戶效用的隱式反饋推薦算法。這樣可以在不打擾用戶的情況下,解決冷啟動、稀疏性問題,為用戶購物做出精準推薦。
3 模型構(gòu)建
用戶網(wǎng)上購物的過程,實際上是一種不斷對比的過程,所以本研究利用隱式數(shù)據(jù),構(gòu)建效用評分制度,從而作出推薦。
所有顧客的集合表示U={u1,u2,…,ui},個體顧客ui∈U。在一個會話期間內(nèi)(sj∈S),顧客瀏覽的全部商品的集合表示為I■={a,b,c,…,n,m}。
其中,vi表示該用戶瀏覽所有商品的效用值。同時,在該對話期內(nèi),所有商品的效用值集合表示為V={v1,v2,…,vi}。表示商品i在目前所有商品中的序列位置。w是用戶的隱式評分機制的權(quán)重值。商品評分值為0~5分。
用戶通過瀏覽以后,每個商品都會獲得一個商品效用值vi。而在這個期間內(nèi),該用戶所獲得的平均效用值為v(I)。假設(shè)用戶在這個期間內(nèi)所付出的成本為c,那么其收益函數(shù)則為:
其中,α和β分別表示用戶的偏好系數(shù)和商品的屬性彈性系數(shù)。根據(jù)柯布道格拉斯函數(shù),α一般取值[0.2,0.4],β取值[0.6,0.8]。
本研究的算法流程是首先提取用戶日志信息,從中提取隱式數(shù)據(jù),如瀏覽時間、瀏覽時長、點擊行為等,然后通過隱式評分機制計算出商品的效用值,再計算收益值,最終作出商品推薦。
4 實驗測試
本次實驗,采用了JD.COM電商平臺用戶購物瀏覽數(shù)據(jù),一共328名用戶作為測試集,134563條記錄。通過數(shù)據(jù)清洗以后,得出以下隱式數(shù)據(jù)類型:
在此,以用戶u55作為例子。用戶u55在本次期間內(nèi),產(chǎn)生了139條記錄。首先計算其瀏覽的產(chǎn)品的效用值。通過計算,可以得出,在這個時期內(nèi),用戶u55所瀏覽的所有商品中,商品d55的效用值明顯高于其他商品。得出商品效用值以后,計算商品收益值。在此,分別采用[α1=0.2,β1=0.6]和[α1=0.4,β1=0.8]這2種情況去計算用戶u55的商品收益值。由此可見,無論α和β取值如何,收益值整體曲線趨勢不變,而且仍然是商品d55的效用值最大。由此可以將其作為推薦商品。
類似的,把測試集328名用戶的數(shù)據(jù)進行測試,計算準確率為90.2%。
5 結(jié)論
電商平臺的流量之爭,導(dǎo)致商家必須竭盡全力提高用戶的體驗感,為用戶提供良好的服務(wù)。而其中,推薦系統(tǒng)所發(fā)揮的作用不可忽視,但是以往的推薦系統(tǒng)的算法依據(jù)的是歷史信息,這樣會因為信息滯后、虛假信息等的因素而導(dǎo)致推薦算法的精準度低。
本研究主要利用了電商平臺中用戶的隱式數(shù)據(jù):點擊瀏覽數(shù)據(jù),構(gòu)建隱式評分機制,將用戶的瀏覽行為作出賦權(quán),計算出商品的效用值,然后根據(jù)用戶的瀏覽成本,構(gòu)建商品收益函數(shù),計算每個商品的收益值。最終,將收益值最大的商品作為推薦產(chǎn)品。研究采用了328名電商用戶的數(shù)據(jù)作為測試集,最終計算出其準確率為90.2%。
本研究所采用的隱式數(shù)據(jù),可以在不干擾用戶瀏覽行為的情況下,進行商品推薦,這樣有效地解決了因為需要用戶提供評分而造成的干擾。同時,因為不需要用戶事先對商品進行評分,所以也解決了冷啟動問題。用戶瀏覽點擊數(shù)據(jù)為客觀數(shù)據(jù),本研究引入了效用評分機制,揣摩用戶的瀏覽行為時所產(chǎn)生的心理活動,這樣能有效地把客觀數(shù)據(jù)轉(zhuǎn)變?yōu)橹饔^心理數(shù)據(jù)。
不過,本研究也有不足之處:并沒有全方位多維度考慮顧客的瀏覽動作類型,如用戶分享商品頁面、用戶評論商品等這種行為并沒有列入模型中。在未來的研究中,必須更進一步衡量用戶的行為,這樣才能提高算法的精準度。
【參考文獻】
【1】Zhang J, Pu P. A recursive prediction algorithm for collaborative filtering recommender systems[C]// Acm Conference on Recommender Systems. ACM, 2007.
【2】 Leng Y J, Liang C Y, Qing L U, et al. Collaborative Filtering
Recommendation Algorithm Based on Neighbor Rating Imputation[J]. Computer Engineering, 2012.
【3】Masahiro Morita and Yoichi Shinoda. Information filtering based on user behavior analysis and best match text retrieval[C]., 1994.
【4】謝文玲,潘建國.基于語義相似度的個性化信息檢索方法[J].計算機應(yīng)用與軟件,2011,28(05):161-164+196.
【5】Amatriain X, Pujol J M, Oliver N. I Like It. I Like It Not: Evaluating User Ratings Noise in Recommender Systems[C]//International Conference on User Modeling. Springer-Verlag, 2009.
【6】Park H S, Yoo J O, Cho S B. A Context-Aware Music Recommendation System Using Fuzzy Bayesian Networks with Utility Theory[C]//International Conference on Fuzzy Systems & Knowledge Discovery. Springer, Berlin, Heidelberg, 2006.
【7】Manouselis N, Costopoulou C. Experimental Analysis of Multiattribute Utility Collaborative Filtering on a Synthetic Data Set[M].2008.
【8】OARD D W, KIM J. Implicit feedback for recommender system[C]. In:proceedings of the massachusetts institute of technology, department of electrical engineering & computer, New York, USA: 1997.