李彩霞
關(guān)鍵詞:會話推薦;類別圖增強(qiáng)算法;異構(gòu)數(shù)據(jù);全局表征
0 引言
從會話層面分析,在未掌握全面的用戶身份信息并且不知道會話序列包含的物品個數(shù)條件下,如果只根據(jù)物品參數(shù)來建立ID 標(biāo)簽序列模型時,并無法準(zhǔn)確捕獲用戶實(shí)際意圖,某些情況下還會出現(xiàn)關(guān)于用戶意圖的錯誤理解結(jié)果。首先,當(dāng)會話序列較短的情況下,無法通過有限交互行為準(zhǔn)確反饋出用戶實(shí)際意圖??紤]到大部分時候都無法得到用戶的身份信息,而且只有短時間中的用戶交互記錄才是有效的,這對大量處理方法造成了制約。
對人們?nèi)粘J褂玫母鞔筚徫锲脚_進(jìn)行分析可知,拼多多、淘寶、京東等電子商務(wù)服務(wù)平臺為提升搜索效率,通常都會針對各物品設(shè)置相應(yīng)的類別標(biāo)簽。通過上述方式促使用戶更加快速準(zhǔn)確找尋他們所需的商品,同時平臺還可通過推薦系統(tǒng)中顯示的用戶訪問信息推送同一類產(chǎn)品。綜合考慮物品與類別因素可以判斷出用戶的實(shí)際意圖。根據(jù)文獻(xiàn)[1] 報道可以發(fā)現(xiàn),以圖神經(jīng)網(wǎng)絡(luò)構(gòu)建會話序列模型的時候,如果只針對單一物品結(jié)構(gòu)進(jìn)行建模,即只根據(jù)物品ID 序號構(gòu)建模型時,將會造成部分概念層數(shù)據(jù)丟失的結(jié)果。當(dāng)會話序列處于匿名狀態(tài)下時,無法包含所有用戶行為,如果只根據(jù)單一層面構(gòu)建模型時將會在用戶偏好方面產(chǎn)生較大偏差。本文對于上述分析結(jié)果,設(shè)計(jì)了一種通過類別圖來實(shí)現(xiàn)增強(qiáng)效果的推薦算法??梢岳么怂惴槲锲方㈩悇e序列,再通過圖神經(jīng)網(wǎng)絡(luò)為上述序列構(gòu)建仿真模型,從而實(shí)現(xiàn)2 個層面的物品屬性評價,對2 個層面的測試結(jié)果進(jìn)行融合后確定會話用戶的偏好結(jié)果。
1 類別圖增強(qiáng)算法
在網(wǎng)絡(luò)中輸入各物品ID與類別序列再對其表征后,獲得每種序列下的各節(jié)點(diǎn)表征結(jié)果。由于類別屬于物品的特定屬性,可將其作為物品ID 標(biāo)簽序列的補(bǔ)充數(shù)據(jù)。
CaSe4SR-W 方法是利用加權(quán)融合的過程來判斷全局偏好:物品與類別序列都是按照相互獨(dú)立的方式完成輸入與表征過程,因此進(jìn)行融合的時候先獨(dú)立處理2 個序列,之后測試融合所得的結(jié)果。上述融合模式是計(jì)算物品圖與類別圖的注意力加權(quán)數(shù)據(jù),之后再對其實(shí)施融合,結(jié)果見圖1。
以下給出了具體處理步驟:
最后一步是對以上獲得的物品與類別層面進(jìn)行全局表征,融合物品與類別層面的信息后,可以更加全面描述物品特征,這使得各類ID 標(biāo)簽的物品因?yàn)轭悇e標(biāo)簽一致,也表現(xiàn)出了一定程度的相似性。通過會話表示層拼接局部與全局表征,再利用線性轉(zhuǎn)換方法確定最終會話表征。
2 實(shí)驗(yàn)
2.1 Cosmetics數(shù)據(jù)集及預(yù)處理
從Kaggle 平臺上采集測試參數(shù),選擇中等化妝品在線商店在線用戶行為進(jìn)行分析。為確保數(shù)據(jù)處理過程更好地滿足一般性,將長度不在2~50 范圍的會話內(nèi)容去除,同時不考慮出現(xiàn)次數(shù)在5 次以內(nèi)的物品。表1 是統(tǒng)計(jì)得到的數(shù)據(jù)集參數(shù)。
2.2 對比方法介紹及實(shí)驗(yàn)設(shè)置
為了對算法進(jìn)行可靠性驗(yàn)證,以SR-GNN[36] 模型作為基準(zhǔn)對比條件。
將模型設(shè)定為以下所示的控制參數(shù):采用TensorFlow框架對模型開展訓(xùn)練。將數(shù)據(jù)集中的表征向量維度設(shè)置在100。同時將模型各參數(shù)矩陣均值都設(shè)置為0,標(biāo)準(zhǔn)差等于1,按照高斯分布形態(tài)實(shí)施初始化。通過minibatchAdam優(yōu)化器調(diào)整上述參數(shù),設(shè)定最初學(xué)習(xí)率等于0.001??刂朴?xùn)練批次為100,L2 懲罰保持105 的恒定值。
2.3 實(shí)驗(yàn)結(jié)果及分析
為驗(yàn)證以類別圖增強(qiáng)方法構(gòu)建的模型滿足有效性,本次利用2 個數(shù)據(jù)集分別測試了CaSe4SR、SR-GNN模型與CaSe4SR 變體模型,得到表2 參數(shù)。
根據(jù)表格參數(shù)可知,設(shè)計(jì)得到的CaSe4SR 模型對各類數(shù)據(jù)集都表現(xiàn)出了最優(yōu)推薦性能。同時可以發(fā)現(xiàn),其他3 類包含類別信息數(shù)據(jù)的模型都獲得了比SRGNN模型更優(yōu)的性能,考慮到各模型具有自身獨(dú)特的建模過程,因此實(shí)際提升幅度也存在較大區(qū)別。Concat與CaSe4SR 雖然是以不同形式進(jìn)行建模,但都在建模過程中融合了物品與類別信息,可以將物品類別與表征形成一一對應(yīng)關(guān)系。CaSe4SR-W 則依次通過類別特征和物品實(shí)施建模,最后再對其實(shí)施融合。根據(jù)測試結(jié)果可知,CaSe4SR-W 模型表現(xiàn)出了比Concat 與CaSe4SR兩種模型更差的性能,由此可以推斷類別信息需結(jié)合物品信息共同建模,需根據(jù)物品參數(shù)才可以發(fā)揮信息補(bǔ)充功能。Concat 相對Case4SR 模型推薦性更弱,因此采用有向圖表示類別序列,同時引入門控圖神經(jīng)網(wǎng)絡(luò)建立模型的過程滿足可靠性要求。
3 結(jié)束語
本文開展基于類別圖增強(qiáng)算法的融合異構(gòu)數(shù)據(jù)會話推薦分析,得到如下有益結(jié)果:
1)設(shè)計(jì)了一種包含5 層結(jié)構(gòu)的CaSe4SR 仿真模型,在融合層內(nèi)融合物品與類別表征結(jié)果,確保物品表征中包含類別數(shù)據(jù);根據(jù)注意力機(jī)制建立全局表征,再通過局部表征建立最終表示;通過預(yù)測層計(jì)算各候選對象推薦參數(shù)。
2)設(shè)計(jì)得到的CaSe4SR 模型對各類數(shù)據(jù)集都表現(xiàn)出了最優(yōu)推薦性能,CaSe4SR-W 模型表現(xiàn)出了比Concat 與CaSe4SR 兩種模型更差的性能,推斷類別信息需結(jié)合物品信息共同建模,需根據(jù)物品參數(shù)才可以發(fā)揮信息補(bǔ)充功能。