摘要:隨著推薦系統(tǒng)的發(fā)展,長尾問題也逐漸凸顯?;趫D結(jié)構(gòu)的推薦算法通過挖掘用戶與物品之間的間接聯(lián)系來解決長尾問題。但是圖的結(jié)構(gòu)決定了推薦的優(yōu)先度,與用戶間接聯(lián)系的長尾物品被推薦的優(yōu)先度相對較低。圖自監(jiān)督學(xué)習(xí)推薦算法(SGL)通過添加圖的隨機(jī)擾動(dòng),提高了推薦系統(tǒng)的準(zhǔn)確性和長尾物品推薦能力。而過多的歷史數(shù)據(jù)會(huì)對推薦的準(zhǔn)確性和長尾物品推薦性能造成負(fù)面影響。文章在SGL算法的基礎(chǔ)上,將用戶的個(gè)性化行為與圖自監(jiān)督學(xué)習(xí)相結(jié)合,解決在面對交互物品數(shù)量較多的用戶時(shí),推薦準(zhǔn)確性和長尾物品推薦性能降低的問題。
關(guān)鍵詞: 計(jì)算機(jī)系統(tǒng)結(jié)構(gòu); 推薦算法; 深度學(xué)習(xí); 圖自監(jiān)督學(xué)習(xí); 長尾問題
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)31-0031-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID) :
1 問題提出
近年來,推薦系統(tǒng)已成功應(yīng)用于許多在線服務(wù),如電子商城、音樂推薦、短視頻推薦和廣告推薦等。通過相關(guān)算法將用戶與物品更好地聯(lián)系起來,這在一定程度上改善了用戶體驗(yàn)。然而,推薦系統(tǒng)中的數(shù)據(jù)存在長尾分布,這一問題被稱為推薦系統(tǒng)的長尾問題[1-2]。雖然基于圖結(jié)構(gòu)的推薦系統(tǒng)嘗試向用戶推薦與其間接聯(lián)系的物品,但圖的結(jié)構(gòu)決定了推薦的優(yōu)先度[3],在不改變圖結(jié)構(gòu)的情況下,與用戶間接聯(lián)系的物品相對于直接聯(lián)系的物品,其被推薦的優(yōu)先度較低。
圖自監(jiān)督學(xué)習(xí)推薦算法(SGL)[4]通過添加圖形擾動(dòng),打破原始圖結(jié)構(gòu),提升與用戶存在間接聯(lián)系的物品被推薦的優(yōu)先度,從而探索用戶對于長尾物品的興趣。然而,該算法仍然遵循基于圖結(jié)構(gòu)推薦的約束條件:“在原始圖中,與用戶直接相連的物品預(yù)測值,應(yīng)大于與用戶間接相連的物品預(yù)測值?!币虼耍诿鎸哂写罅繗v史交互數(shù)據(jù)的用戶時(shí),其推薦準(zhǔn)確性和長尾物品推薦性能會(huì)受到一定程度的影響。
基于此,本文提出了一種用戶自適應(yīng)圖自監(jiān)督學(xué)習(xí)推薦算法(UA-SGL),旨在解決基于圖結(jié)構(gòu)的推薦系統(tǒng)在面對具有較多歷史交互數(shù)據(jù)的用戶時(shí)推薦準(zhǔn)確性和長尾物品推薦性能降低的問題。
2 自適應(yīng)圖自監(jiān)督學(xué)習(xí)推薦算法方法
由于SGL算法屬于基于圖結(jié)構(gòu)的推薦算法,本身并未舍棄基于圖結(jié)構(gòu)推薦的約束條件,且在一定程度上已經(jīng)改善了基于圖結(jié)構(gòu)推薦算法的長尾問題。因此,本文以SGL為例,分析了基于圖結(jié)構(gòu)推薦算法存在的問題及改進(jìn)思路。主要分析用戶歷史行為與長尾物品興趣挖掘之間的關(guān)系,并提出用戶自適應(yīng)圖自監(jiān)督學(xué)習(xí)推薦算法。該算法通過自適應(yīng)學(xué)習(xí)不同用戶和數(shù)據(jù)集的特點(diǎn),以刪除用戶早期的歷史交互物品信息。
在公開數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明在推薦準(zhǔn)確率和長尾物品推薦性能上,UA-SGL算法均優(yōu)于圖自監(jiān)督學(xué)習(xí)推薦系統(tǒng)(SGL) 。
2.1 用戶行為分析
2.1.1 用戶歷史行為分析與長尾興趣挖掘
本文對所有用戶的歷史交互進(jìn)行了統(tǒng)一比例的刪除,驗(yàn)證了隨著用戶交互歷史物品數(shù)據(jù)的減少,推薦系統(tǒng)的長尾推薦性能有所上升。然而,以往的方法是對全體用戶統(tǒng)一減少相同比例的歷史交互數(shù)據(jù)[5],但在真實(shí)推薦場景中,用戶的個(gè)性化差異較大。對全體用戶統(tǒng)一減少相同比例的歷史交互物品數(shù)據(jù),可能會(huì)降低推薦系統(tǒng)的準(zhǔn)確性。
因此,如何衡量用戶的個(gè)性化行為并據(jù)此進(jìn)行歷史數(shù)據(jù)刪除,成為本文探索的方向。在同一數(shù)據(jù)集中,分析不同用戶的長尾偏好率,綜上所述,以上問題可總結(jié)為以下兩點(diǎn):1) 如何衡量用戶個(gè)性化行為;2)用戶個(gè)性化行為與刪除用戶歷史交互數(shù)據(jù)之間的關(guān)系。
2.1.2 用戶整體行為與長尾興趣挖掘
在之前的實(shí)驗(yàn)中,僅通過統(tǒng)一刪除一定比例的用戶歷史交互數(shù)據(jù),即可提升推薦系統(tǒng)的長尾物品推薦率。雖然在Yelp2018 數(shù)據(jù)集上,推薦精確率(precision) 、召回率(recall) 和歸一化折損累計(jì)增益(NDCG) 等指標(biāo)與SGL 存在差距,但在amazon-book數(shù)據(jù)集上表現(xiàn)良好,在各項(xiàng)指標(biāo)上均優(yōu)于SGL模型。因此,本文試分析模型在不同數(shù)據(jù)集上效果存在差距的原因。
通過數(shù)據(jù)分析,筆者認(rèn)為可能存在以下幾個(gè)原因:1) 不同數(shù)據(jù)集中用戶對于長尾物品或小眾物品的偏好有所不同,對所有用戶實(shí)行統(tǒng)一的歷史交互數(shù)據(jù)舍棄,對偏好熱門物品的用戶來說是有一定損害的。2) amazon-book數(shù)據(jù)集的用戶物品交互總數(shù)和平均用戶物品交互數(shù)均遠(yuǎn)遠(yuǎn)大于Yelp2018,致使每個(gè)用戶的物品交互數(shù)據(jù)對用戶/物品節(jié)點(diǎn)向量表征的生成影響較小。而在Yelp中,由于用戶物品交互數(shù)量較少,刪除的用戶物品交互數(shù)據(jù)可能會(huì)顯著影響推薦系統(tǒng)的推薦準(zhǔn)確性。值得注意的是,在這三個(gè)數(shù)據(jù)集上,用戶對于長尾物品的偏好率基本符合正態(tài)分布。
2.2 用戶自適應(yīng)圖自監(jiān)督學(xué)習(xí)推薦方法
根據(jù)以上分析,可以明確本文對基于圖結(jié)構(gòu)的推薦算法的優(yōu)化方向,具體可分為兩個(gè)方面:1) 異常用戶篩選。由于基于圖結(jié)構(gòu)的推薦算法在面對交互數(shù)量較多的用戶時(shí)會(huì)出現(xiàn)性能降低,因此,將這些用戶篩選出來,并削減他們的歷史交互物品數(shù)量,使其保持在一個(gè)合理的范圍,是一個(gè)重要的方法。2) 個(gè)性化行為保留。不同用戶的行為偏好各不相同,有人是“熱門物品愛好者”,而有人則是“小眾物品偏好者”。由分析可知,保留的歷史交互物品數(shù)量與推薦長尾物品率之間呈現(xiàn)反比,因此對于不同偏好的用戶,應(yīng)采用不同的保留比例。
2.2.1 異常用戶篩選與個(gè)性化行為保留方法
1) 異常用戶篩選:參考箱型圖的定義方法,本文將“異常用戶”定義為:其交互數(shù)量超過所有用戶交互數(shù)量統(tǒng)計(jì)值的上四分位數(shù)(Q3) 1.5 倍四分位距離(IQR) 的用戶(即箱型圖中的異常值用戶)。
2) 個(gè)性化行為保留:駱錦濰、劉杜鋼等人[6-7]提出了匹配傾向得分算法,該算法用于推薦系統(tǒng)中的數(shù)據(jù)糾偏,以解決數(shù)據(jù)集偏差的問題。盡管這一方法的思想值得借鑒,本文根據(jù)其理念,提出了用戶個(gè)性化傾向得分算法。
如公式(2) 所示,ratiou 為OUA-SGL根據(jù)“異常”用戶的個(gè)性化行為分析保留的歷史物品交互數(shù)量。其中pou 的計(jì)算方法來源于公式(1) ,Σi ∈ (u,i),i ∈ IpopularityYu,i 為用戶u 歷史交互的物品中,屬于熱門物品的數(shù)量,根據(jù)“長尾”的定義,此處將交互數(shù)量排名前20%的物品定義為熱門物品。Σi ∈ (u,i)Yu,i 為用戶u 與與物品的所有交互數(shù)量,pou 即為用戶的“熱門物品偏好”。為“異?!庇脩糁?,對于“熱門物品”偏好最大的那個(gè)用戶的“熱門物品”偏好率,mean為所有用戶交互物品數(shù)量的均值。Q3為上四分位數(shù),IQR為四分位距離。ratiou即為“異常用戶”的個(gè)性化保留物品數(shù)量。
2.2.2 用戶自適應(yīng)圖自監(jiān)督學(xué)習(xí)推薦算法
通過實(shí)施異常用戶篩選和個(gè)性化行為保留的方法,可以開發(fā)出用戶自適應(yīng)的用戶物品二部圖生成優(yōu)化方法。生成方法的總體流程如圖1所示。
如圖2所示,UA-SGL模型的整體架構(gòu)示意圖展示了其自適應(yīng)架構(gòu)的主要組成部分,具體分為2個(gè)部分:1)“ 異常用戶”篩選;2) 個(gè)性化行為保留。
3 實(shí)驗(yàn)與結(jié)果分析
本文在3個(gè)實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):Yelp2018[3,7],Amazon-book[7],gowalla[8]。結(jié)果如表1所示。
在這3 個(gè)公開數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)中,精確率(precision) 、召回率(recall) 、歸一化折損累計(jì)增益(NDCG) 和平均長尾率均有顯著提升,這驗(yàn)證了本文提出的用戶自適應(yīng)圖自監(jiān)督學(xué)習(xí)推薦算法(UA-SGL)對圖自監(jiān)督學(xué)習(xí)推薦系統(tǒng)(SGL) 性能提升的有效性。
4 結(jié)論
在互聯(lián)網(wǎng)飛速發(fā)展的時(shí)代,數(shù)據(jù)信息呈指數(shù)性增長,各類音樂、影視和點(diǎn)評類網(wǎng)站及應(yīng)用層出不窮。在紛繁冗雜的海量信息中,精準(zhǔn)找到用戶的興趣和愛好,必將成為今后持續(xù)研究的重要課題。長期以來,以圖結(jié)構(gòu)為基礎(chǔ)的推薦算法一方面過于注重對用戶物品交互信息的挖掘,期望通過更多的信息構(gòu)建更為精準(zhǔn)的模型,例如,將用戶屬性、物品屬性特征和物品評分信息等納入圖結(jié)構(gòu)進(jìn)行綜合分析;另一方面,推薦系統(tǒng)往往僅通過用戶與物品之間的連接信息來挖掘用戶可能感興趣的其他物品,以提高推薦的準(zhǔn)確性和效率。為了克服這些問題,本文進(jìn)一步提出了用戶自適應(yīng)圖自監(jiān)督學(xué)習(xí)推薦算法(UA-SGL) ,并通過實(shí)驗(yàn)設(shè)計(jì)對其有效性進(jìn)行了驗(yàn)證與分析。
參考文獻(xiàn):
[1] 梁貽樂.面向長尾和冷啟動(dòng)物品的新穎性推薦方法研究[D].武漢:武漢大學(xué),2021.
[2] 王永貴, 趙曉暄. 結(jié)合自監(jiān)督學(xué)習(xí)的圖神經(jīng)網(wǎng)絡(luò)會(huì)話推薦[J].計(jì)算機(jī)工程與應(yīng)用, 2023, 59(3): 244-252.
[3] WU J C,WANG X,F(xiàn)ENG F L,et al.Self-supervised graph learn?ing for recommendation[C]//Proceedings of the 44th Interna?tional ACM SIGIR Conference on Research and Development in Information Retrieval.Virtual Event Canada.ACM,2021:726-735.
[4] 韓涵, 黃訓(xùn)華, 常慧慧, 等. 心電領(lǐng)域中的自監(jiān)督學(xué)習(xí)方法綜述[J].計(jì)算機(jī)科學(xué)與探索, 2023, 17(8): 124-129.
[5] 駱錦濰, 于艷華. 基于圖神經(jīng)網(wǎng)絡(luò)和自監(jiān)督學(xué)習(xí)的會(huì)話推薦算法研究[J].計(jì)算機(jī)學(xué)報(bào), 2022, 41(7): 1619-1647.
[6] 駱錦濰,劉杜鋼,潘微科,等.基于改進(jìn)的傾向得分估計(jì)的無偏推薦模型[J].計(jì)算機(jī)應(yīng)用,2021,41(12):3508-3514.
[7] KORNBLITH S, NOROUZI M, LEE H, et al. A simple frame?work for contrastive learning of visual representations[C]//Pro?ceedings of the 37th International Conference on Machine Learning. PMLR, 2020: 1597-1607.
[8] WANG X,HE X N,WANG M,et al.Neural graph collaborative filtering[C]//Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Re?trieval.Paris France.ACM,2019:165-174.
【通聯(lián)編輯:唐一東】