李玉蒻
【摘 要】在當(dāng)下這個(gè)信息時(shí)代,技術(shù)革新在社會(huì)中起到關(guān)鍵性作用,推薦系統(tǒng)的不斷優(yōu)化推進(jìn)著電子商務(wù)模式的變化和發(fā)展。在近些年來(lái)看,在人民生活水平不斷提高的大環(huán)境下,更希望去外面的世界走一走看一看,也就是旅游,因此,人們對(duì)于旅游時(shí)間和目的地選擇、旅游產(chǎn)業(yè)個(gè)性化推薦的需求成明顯的上升趨勢(shì)。傳統(tǒng)實(shí)體旅行社顯然不能滿(mǎn)足如此大規(guī)模的需求,所以,國(guó)內(nèi)許多電商網(wǎng)站優(yōu)勢(shì)盡顯,如攜程、途牛、飛豬等等,他們依靠著搜集相關(guān)的大數(shù)據(jù)及算法運(yùn)算,為人們進(jìn)行更加個(gè)性化更加精確的旅游項(xiàng)目推薦。
【關(guān)鍵詞】情感分析;個(gè)性化推薦;協(xié)同過(guò)濾
一、問(wèn)題研究背景
在當(dāng)下復(fù)雜的網(wǎng)絡(luò)環(huán)境下,對(duì)于消費(fèi)者或是客戶(hù)來(lái)講,可供選擇的信息量非常龐大,而且信息使用者的數(shù)量也呈現(xiàn)出明顯的上升趨勢(shì)。在許多情況下。用戶(hù)并不知道應(yīng)該以什么標(biāo)準(zhǔn)進(jìn)行比較并做出選擇,舉例來(lái)說(shuō),用戶(hù)只知道自己想出境旅游,卻又不知道自己想去哪個(gè)國(guó)家,哪個(gè)國(guó)家適合現(xiàn)在的自己去。此時(shí),傳統(tǒng)實(shí)體旅行社的推薦顯得千篇一律,而大數(shù)據(jù)時(shí)代下的電商網(wǎng)站,恰恰做到了幫助用戶(hù)以適合自身的標(biāo)準(zhǔn)進(jìn)行篩選,避免了用戶(hù)的盲目查找,而是能為用戶(hù)提供最直接最有效的信息。
二、協(xié)同過(guò)濾推薦算法研究及改進(jìn)
傳統(tǒng)的協(xié)同過(guò)濾算法主要有三種:1、基于用戶(hù)的協(xié)同過(guò)濾算法;2、基于項(xiàng)目的協(xié)同過(guò)濾算法;3、基于模型的協(xié)同過(guò)濾算法。傳統(tǒng)協(xié)同過(guò)濾技術(shù)主要依賴(lài)于用戶(hù)和項(xiàng)目之間的相似性,對(duì)不同用戶(hù)進(jìn)行推薦,因其對(duì)推薦的對(duì)象要求極低,可以處理各種結(jié)構(gòu)化、非結(jié)構(gòu)化的內(nèi)容,而一直在推薦領(lǐng)域被廣泛運(yùn)用。隨著技術(shù)的發(fā)展,面對(duì)海量的數(shù)據(jù)和結(jié)構(gòu)多樣的內(nèi)容,簡(jiǎn)單的協(xié)同過(guò)濾算法已無(wú)法人們的需要。
本文主要對(duì)基于用戶(hù)的協(xié)同過(guò)濾算法進(jìn)行改進(jìn),對(duì)其只考慮項(xiàng)目和用戶(hù)之間簡(jiǎn)單關(guān)系的弊端進(jìn)行改進(jìn),引入用戶(hù)和項(xiàng)目偏置,考慮用戶(hù)和項(xiàng)目之外的因素。例如,標(biāo)準(zhǔn)較高的用戶(hù)給分會(huì)偏低,而標(biāo)準(zhǔn)較低的用戶(hù)則給分較高。另一方面,網(wǎng)絡(luò)的發(fā)展,使得求好評(píng)的商家日益泛濫,而許多用戶(hù)更是習(xí)慣于給滿(mǎn)分,而把真是情感寄托于評(píng)論中。為了更好的解決此類(lèi)現(xiàn)象給結(jié)果帶來(lái)的偏差,引入偏置,重新計(jì)算用戶(hù)評(píng)分。用戶(hù)評(píng)分,用戶(hù)平均評(píng)分,用戶(hù)情感得分,用戶(hù)評(píng)分新得分為:
在用于計(jì)算的用戶(hù)-項(xiàng)目矩陣中,將用新評(píng)分替代原始評(píng)分進(jìn)行預(yù)測(cè),考慮了用戶(hù)個(gè)人屬性以及情感傾向的協(xié)同過(guò)濾算法將更加個(gè)性化,也更符合用戶(hù)需求。
三、基于評(píng)論的情感分析技術(shù)研究
隨著自然語(yǔ)言處理技術(shù)的發(fā)展,情感分析的需求日益旺盛,傳統(tǒng)的情感分析方法主要是基于詞典的分析方法,現(xiàn)代衍生出越來(lái)越多的基于機(jī)器學(xué)習(xí)的分析方法,最主流的即基于RNN的情感分析方法,但是隨著數(shù)據(jù)量級(jí)數(shù)增長(zhǎng),RNN的運(yùn)算速度受到很大影響,而LSTM網(wǎng)絡(luò)模型的誕生解決了這一問(wèn)題,不僅具有更快的效率還具有更高的準(zhǔn)確性。
LSTM網(wǎng)絡(luò)比RNN網(wǎng)絡(luò)多了一層cell state,相當(dāng)于模型中的記憶空間,是隨時(shí)間變化的,LSTM網(wǎng)絡(luò)的關(guān)鍵就在于擁有忘記門(mén),能控制訓(xùn)練時(shí)梯度的收斂性,更好的保持長(zhǎng)期記憶。
LSTM網(wǎng)絡(luò)相比傳統(tǒng)RNN網(wǎng)絡(luò)具有多條線(xiàn)路,上邊紅色橢圓內(nèi)即為cell state (單元狀態(tài)),控制信息的傳遞,它第一步用sigmoid決定什么信息可以通過(guò)cell state,第二步是接收新信息進(jìn)行更新。這個(gè)過(guò)程分為兩部分,首先,用sigmoid函數(shù)來(lái)決定更新哪些值,然后,再用一個(gè)tanh層生成新的候選值,這個(gè)候選值將被當(dāng)成當(dāng)前層的候選值添加到單元狀態(tài)中。我們會(huì)對(duì)這兩部分的值相互整合,并進(jìn)行更新,丟掉不需要的,添加新信息。
為了更好的進(jìn)行模型的輸出。首先,要通過(guò)sigmoid層產(chǎn)生一個(gè)原始的輸出,然后使用tanh函數(shù)對(duì)其值進(jìn)行縮放,使其范圍在-1到1間,再與sigmoid層得到的輸出對(duì)應(yīng)相乘,從而產(chǎn)生模型最終的輸出。
四、數(shù)據(jù)集分析研究
本實(shí)驗(yàn)采用的數(shù)據(jù)集為爬蟲(chóng)爬取的攜程網(wǎng)8萬(wàn)多條數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)如下表所示:
本文先對(duì)數(shù)據(jù)進(jìn)行處理,生成如上圖統(tǒng)一格式,再對(duì)用戶(hù)評(píng)論進(jìn)行提取,進(jìn)行情感分析,所得評(píng)分再與用戶(hù)項(xiàng)目評(píng)分進(jìn)行加權(quán),得到新評(píng)分,最后進(jìn)行基于用戶(hù)的協(xié)同過(guò)濾推薦產(chǎn)生推薦結(jié)果。此種方法相較于傳統(tǒng)協(xié)同過(guò)濾算法更加考慮個(gè)性化因素,推薦結(jié)果也比傳統(tǒng)協(xié)同過(guò)濾算法更優(yōu),達(dá)到了較高的精準(zhǔn)率。
五、結(jié)束語(yǔ)
如今個(gè)性化推薦被廣泛普及和應(yīng)用,本文在協(xié)同過(guò)濾算法的基礎(chǔ)上,考慮了用戶(hù)對(duì)參與過(guò)的旅游項(xiàng)目的情緒,提出了關(guān)于用戶(hù)在評(píng)價(jià)旅游項(xiàng)目時(shí)是處于一個(gè)以情緒為主導(dǎo)的綜合的情境之中的概念,同時(shí)也對(duì)基于情感分析的個(gè)性化旅游項(xiàng)目推薦進(jìn)行了嚴(yán)密深入的探討,通過(guò)建立LSTM模型,分析用戶(hù)情感,進(jìn)而建立新的協(xié)同過(guò)濾方法,并用該模型合理謹(jǐn)慎地對(duì)攜程旅行的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),所得結(jié)果較傳統(tǒng)方法更優(yōu)。由此可以對(duì)用戶(hù)更加負(fù)責(zé)地進(jìn)行更精準(zhǔn)、更加個(gè)性化、更能令人滿(mǎn)意的相關(guān)旅游項(xiàng)目推薦。