彭玉
摘要:電子商務(wù)推薦系統(tǒng)的發(fā)展與數(shù)據(jù)稀疏性,冷啟動(dòng),可擴(kuò)展性和隱私保護(hù)的研究密切相關(guān),盡管許多研究人員提出了不同的改進(jìn)推薦算法來(lái)解決這些問(wèn)題,但仍有很大的提升空間。在復(fù)雜的社交網(wǎng)絡(luò)中,我們可以充分利用用戶(hù)的動(dòng)態(tài)信息偏好,社會(huì)關(guān)系和歷史記錄信息來(lái)改善推薦系統(tǒng)的性能?;诖?,本文提出了一種基于用戶(hù)動(dòng)態(tài)社交網(wǎng)絡(luò)信息的新型推薦算法,解決了傳統(tǒng)協(xié)同過(guò)濾算法中的冷啟動(dòng)問(wèn)題,同時(shí),由于考慮了用戶(hù)偏好隨時(shí)間的動(dòng)態(tài)變化因素,改進(jìn)的推薦方法準(zhǔn)確度大大提高。
關(guān)鍵詞:協(xié)同過(guò)濾;動(dòng)態(tài)社交網(wǎng)絡(luò);相似度;興趣模式
中圖分類(lèi)號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2019)04-0250-03
Abstract: The development of e-commerce recommendation systems is closely related to the research on data sparsity, cold start, scalability and privacy protection. Although many researchers have proposed different improved recommendation algorithms to solve these problems, there is still much room for improvement. In complex social networks, we can make full use of users' dynamic information hobbies, social relations and historical records to improve the performance of the recommendation system. This paper proposes a new recommendation algorithm based on user dynamic social network information, which solves the problem of cold start in the traditional coordinated filtering algorithm. At the same time, since the dynamic change factor of attenuation of user preference information over time is also added to the recommendation algorithm, the recommendation accuracy of the recommendation system is greatly improved.
Key words:Collaborative filtering; Dynamic social network; Similarity;Interest mode
1 引言
Facebook,Twitter和新浪微博等社交網(wǎng)站已成為互聯(lián)網(wǎng)用戶(hù)不可或缺的在線社交平臺(tái)。同時(shí),社交網(wǎng)絡(luò)也是用戶(hù)共享信息和獲取信息的重要途徑。然而,社交網(wǎng)絡(luò)信息數(shù)量的爆炸性增長(zhǎng)加劇了信息過(guò)載問(wèn)題,用戶(hù)將大大增加獲取有用信息的成本。推薦系統(tǒng)作為一種有效緩解信息過(guò)載問(wèn)題的技術(shù),已大量引入電子商務(wù)社交平臺(tái),可為用戶(hù)提供高質(zhì)量的個(gè)性化推薦服務(wù)[1]。
協(xié)同過(guò)濾推薦算法基于用戶(hù)或項(xiàng)目之間的偏好相似度來(lái)預(yù)測(cè)推薦結(jié)果。傳統(tǒng)協(xié)同過(guò)濾算法的缺陷是它沒(méi)有反映用戶(hù)的偏好的動(dòng)態(tài)變化特征[2,3],它也沒(méi)有把用戶(hù)的情境因素考慮進(jìn)去。因此,傳統(tǒng)的協(xié)同過(guò)濾算法存在一定的缺陷,導(dǎo)致推薦精度下降。在本文中,我們提出了一種基于用戶(hù)動(dòng)態(tài)社交網(wǎng)絡(luò)信息的改進(jìn)推薦算法,通過(guò)考慮復(fù)雜社交網(wǎng)絡(luò)中用戶(hù)響應(yīng)的動(dòng)態(tài)信息和時(shí)間因素來(lái)反映用戶(hù)的動(dòng)態(tài)偏好功能。由于考慮了用戶(hù)偏好信息隨時(shí)間的動(dòng)態(tài)衰減變化,大大提高了推薦系統(tǒng)的推薦精度。
2 傳統(tǒng)協(xié)同過(guò)濾算法
目前,在移動(dòng)電商平臺(tái)智能推薦系統(tǒng)中采用最廣泛的是協(xié)同過(guò)濾推薦技術(shù),根據(jù)鄰居用戶(hù)的喜愛(ài)項(xiàng)目向目標(biāo)用戶(hù)作推薦,在協(xié)同過(guò)濾推薦中提取用戶(hù)偏好數(shù)據(jù)和用戶(hù)間相似度計(jì)算成為推薦算法的關(guān)鍵技術(shù)。協(xié)同過(guò)濾推薦算法的主要步驟分為:(1)建立用戶(hù)數(shù)據(jù)模型;(2)用戶(hù)偏好相似測(cè)度的計(jì)算;(3)近鄰用戶(hù)的選擇;(4)產(chǎn)生預(yù)測(cè),最終選擇預(yù)測(cè)分?jǐn)?shù)最高的[n]個(gè)項(xiàng)目作為推薦項(xiàng)目反饋給目標(biāo)用戶(hù)。
3 基于用戶(hù)動(dòng)態(tài)社交網(wǎng)絡(luò)的協(xié)同過(guò)濾推薦方法
3.1 社交網(wǎng)絡(luò)用戶(hù)的動(dòng)態(tài)興趣模型
傳統(tǒng)的協(xié)同過(guò)濾推薦算法沒(méi)有考慮到社交用戶(hù)的上下文情境和用戶(hù)的動(dòng)態(tài)興趣模式,所以在改進(jìn)的推薦方法中我們假定用戶(hù)的興趣隨時(shí)間變化是一個(gè)單調(diào)遞減函數(shù),可以劃分用戶(hù)的對(duì)不同時(shí)間段的更多細(xì)節(jié)的動(dòng)態(tài)興趣并構(gòu)造相應(yīng)的時(shí)間權(quán)重函數(shù),所以本文定義時(shí)間權(quán)重函數(shù)傳統(tǒng)的協(xié)同過(guò)濾推薦算法沒(méi)有考慮到社交用戶(hù)的上下文情境和用戶(hù)的動(dòng)態(tài)興趣模式,所以在改進(jìn)的推薦方法中我們假定用戶(hù)的興趣隨時(shí)間變化是一個(gè)單調(diào)遞減函數(shù),可以劃分用戶(hù)的對(duì)不同時(shí)間段的更多細(xì)節(jié)的動(dòng)態(tài)興趣并構(gòu)造相應(yīng)的時(shí)間權(quán)重函數(shù),所以本文定義時(shí)間權(quán)重函數(shù)[f(t)]來(lái)代表用戶(hù)的動(dòng)態(tài)興趣隨時(shí)間的變化因子,然后結(jié)合該函數(shù)因子來(lái)改良協(xié)同過(guò)濾算法的相似性度量。
3.2 基于社交網(wǎng)絡(luò)用戶(hù)動(dòng)態(tài)偏好信息的相似性計(jì)算
4 實(shí)驗(yàn)結(jié)果
為了驗(yàn)證新提出的基于用戶(hù)動(dòng)態(tài)復(fù)雜社交網(wǎng)絡(luò)信息的推薦算法比傳統(tǒng)基于用戶(hù)的協(xié)同過(guò)濾推薦算法具有更好的推薦性能,我們收集了國(guó)內(nèi)主流的社交網(wǎng)站新浪微博的相關(guān)信息數(shù)據(jù)來(lái)完成本文的實(shí)驗(yàn)測(cè)試。從新浪微博中抓取出包含6040個(gè)用戶(hù)的大約3682條微博信息以及100000個(gè)響應(yīng)日志信息。由于在新浪微博的場(chǎng)景中,消極的響應(yīng)信息很難被定義,所以我們認(rèn)為用戶(hù)對(duì)于瀏覽了的微博信息不轉(zhuǎn)發(fā),沒(méi)有評(píng)論等等通常表示用戶(hù)對(duì)此信息不感興趣。所以本文將相似度調(diào)節(jié)因子[θ]設(shè)定為1,只考慮社交用戶(hù)積極的響應(yīng)信息。我們認(rèn)為用戶(hù)收集、轉(zhuǎn)發(fā)和評(píng)論微博信息的行為為正面響應(yīng)行為[4]。
對(duì)于現(xiàn)有的數(shù)據(jù)集,數(shù)據(jù)集是平分的,通過(guò)隨機(jī)選擇分成10個(gè)子集,其中9個(gè)被隨機(jī)選為訓(xùn)練集,其余一個(gè)被選作測(cè)試集。參數(shù)[?]為用戶(hù)興趣偏好值隨時(shí)間的動(dòng)態(tài)衰減率調(diào)節(jié)因子,其表征動(dòng)態(tài)的用戶(hù)興趣,得到最優(yōu)化的價(jià)值參數(shù)[?]對(duì)最終的推薦結(jié)果影響很大。所以在本實(shí)驗(yàn)中我們通過(guò)調(diào)節(jié)參數(shù)[?]的取值來(lái)比較推薦算法的推薦性能以期得到最佳的參數(shù)值。我們使用平均值絕對(duì)偏差MAE [5,6]作為評(píng)估指標(biāo)評(píng)估推薦算法的性能,MAE越低,推薦精度越高,推薦結(jié)果就越準(zhǔn)確。參數(shù)[?]我們?nèi)≈祻?.8到2.2,每次增加0.1,實(shí)驗(yàn)結(jié)果如圖1所示。
從圖1中可以看出,衰減率最好參數(shù)[?]的取值為1.7。但是參數(shù)[?]的最優(yōu)值可能是與此值不同,應(yīng)該根據(jù)具體環(huán)境因素進(jìn)行調(diào)整你的參數(shù)[?]的取值。主要影響推薦算法的性能因素是數(shù)據(jù)集的特征。
一旦我們確定了參數(shù)[?]的取值問(wèn)題,我們?cè)賹⒈疚母倪M(jìn)的算法推薦精度和傳統(tǒng)的基于用戶(hù)的協(xié)同過(guò)濾推薦算法在推薦精度方面做對(duì)比?;谟脩?hù)的協(xié)同過(guò)濾算法是經(jīng)典的和最成功的推薦算法之一, 如此比較的基礎(chǔ)上,會(huì)有一定的說(shuō)服力。在下面的實(shí)驗(yàn)中,數(shù)據(jù)集也是一樣的通過(guò)隨機(jī)選擇分成10個(gè)相等的子集,隨機(jī)選取了9個(gè)作為訓(xùn)練集,選擇剩下的一個(gè)作為測(cè)試集。我們可以通過(guò)改變最近鄰居的數(shù)量來(lái)對(duì)比兩種算法在推薦精度方面的表現(xiàn),最近鄰居的數(shù)量取值從6到24,每次增加3 。實(shí)驗(yàn)結(jié)果如圖2所示。
從圖2中可以看出,在相同最近鄰居數(shù)目下,改進(jìn)的算法性能優(yōu)于傳統(tǒng)基于用戶(hù)的協(xié)同過(guò)濾推薦算法,有相對(duì)較低的MAE值。同時(shí)也發(fā)現(xiàn)隨著最近的鄰居數(shù)量的增加,推薦算法能得到更好的推薦精度, 即MAE的值呈下降趨勢(shì),但不是無(wú)限的下降,它會(huì)隨著鄰居數(shù)量的繼續(xù)增加趨于一種穩(wěn)定的狀態(tài)。
5 結(jié)論
本文介紹了社交平臺(tái)協(xié)同過(guò)濾推薦算法的基本原理,協(xié)同過(guò)濾推薦算法是一種廣泛應(yīng)用于電商推薦領(lǐng)域較為成熟的算法,并且有較好的推薦效果。然而,協(xié)同過(guò)濾推薦算法在某些方面有缺陷,例如,傳統(tǒng)的協(xié)同過(guò)濾算法沒(méi)有考慮到用戶(hù)興趣特征的時(shí)效性,所以會(huì)失去一部分的推薦準(zhǔn)確性和多樣性。同時(shí),隨著社會(huì)社交網(wǎng)絡(luò)的興起,社交網(wǎng)絡(luò)用戶(hù)激增,網(wǎng)站用戶(hù)面臨社會(huì)信息超載的問(wèn)題。由于社交用戶(hù)包含豐富的上下文信息,所以本文采用社交用戶(hù)的動(dòng)態(tài)興趣偏好來(lái)改進(jìn)基于用戶(hù)的協(xié)同過(guò)濾算法來(lái)進(jìn)一步提升推薦效果。最后通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證新的改進(jìn)算法提高了推薦精度。但是,社交網(wǎng)絡(luò)用戶(hù)的動(dòng)態(tài)信息不僅僅是響應(yīng)信息和時(shí)間因素,也有地理信息,社會(huì)關(guān)系信息,和其他上下文信息,未來(lái)我們將探索應(yīng)用其他上下文信息來(lái)不斷優(yōu)化提出的改良算法。將來(lái)的研究工作也會(huì)嘗試如何更好地塑造社會(huì)用戶(hù)動(dòng)態(tài)的工作信息,深入挖掘用戶(hù)的行為模式,將其組合成更優(yōu)的推薦算法,并將推薦算法應(yīng)用到更廣泛的電商平臺(tái)。
參考文獻(xiàn):
[1] 鄧愛(ài)林.電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究[D].上海:復(fù)旦大學(xué),2003.
[2] B. Sarwar, G. Karypis, J. Konstan et al., Item-based collaborative filtering recommendation algorithms[C]. in Proceedings of the 10th International World Wide Web Conference, pp. 285–295,New York, NY, USA, 2001.
[3] Herlocker J. Konstan J A, Riedl J. An empirical analysis of design choices in neighborhood-based collaborative filtering algorithms[J].Information Retrieval, 2002, 5(4): 287-310.
[4] S.H.M. Qing Li, Byeong Man Kim, A probabilistic music recommender considering user opinions and audio features[J].Inf. Process, Manage, 2007:134-152.
[5] L.Wang and J. Zhai Z. Collaborative filtering algorithm based on time weight[J]. Journal of Computer Applications, vol. 27(9),2007: 2302–2303.
[6] K. Kwon, J. Cho and Y. Park.Multidimensional credibility model for neighbor selection in collaborative recommendation[J]. Expert System with Applications, 2009,36(3):7114-7122.
【通聯(lián)編輯:梁書(shū)】