喬娟
摘要:用戶在網(wǎng)絡(luò)平臺(tái)瀏覽過(guò)程中可能會(huì)看到一些與自己想要購(gòu)買的息息無(wú)關(guān)的網(wǎng)上商品,影響了用戶在網(wǎng)上的購(gòu)物和體驗(yàn),會(huì)直接導(dǎo)致用戶大量流失,降低了購(gòu)物平臺(tái)的效率和轉(zhuǎn)化。要想增加用戶的消費(fèi)黏度,就需為用戶提供個(gè)性化的產(chǎn)品和服務(wù)。基于?Hadoop平臺(tái)的電影推薦系統(tǒng),是為了解決個(gè)性化推薦的問(wèn)題而設(shè)計(jì)。以網(wǎng)絡(luò)電影作為影片推薦的主要研究數(shù)據(jù)對(duì)象,選擇基于影片內(nèi)容的電影推薦方式算法和基于內(nèi)容協(xié)同數(shù)據(jù)過(guò)濾的電影推薦方式算法相關(guān)性結(jié)合的兩種算法,通過(guò)兩種電影推薦方式算法數(shù)據(jù)進(jìn)行綜合計(jì)算后所得到的兩個(gè)電影相關(guān)性推薦系數(shù)值并進(jìn)行了隨機(jī)組合,得到最終值的電影推薦相關(guān)性矩陣,構(gòu)建了一個(gè)電影推薦關(guān)系網(wǎng)。
關(guān)鍵詞:電子商務(wù)系統(tǒng),個(gè)性化推薦,Hadoop,MapReduce,協(xié)同過(guò)濾
1.緒論
1.1推薦系統(tǒng)介紹
推薦系統(tǒng)是為了防止信息過(guò)載而采用的一種措施,面對(duì)海量數(shù)據(jù)信息,從中迅速地推薦出一些符合用戶需求特點(diǎn)的物品,解決了一些人的"選擇恐懼癥"。
推薦系統(tǒng)通過(guò)分析發(fā)掘這些用戶的消費(fèi)行為,找到這些用戶的各種個(gè)性化消費(fèi)需求,從而將商品準(zhǔn)確及時(shí)地推薦給需要的用戶,幫助用戶發(fā)現(xiàn)他們感興趣但很難及時(shí)發(fā)現(xiàn)的商品。
1.2推薦系統(tǒng)的目的
(1)讓用戶更快更好的獲取到自己需要的內(nèi)容。
(2)讓內(nèi)容更快更好的推送到喜歡它的用戶手中。
(3)讓網(wǎng)站更有效的保留用戶資源。
1.3推薦系統(tǒng)的基本思想
(1)知你所想,精準(zhǔn)推送
利用每個(gè)用戶和推薦物品的不同特征和相關(guān)信息,為用戶推薦那些自己喜歡的物品。
(2)物以類聚
利用用戶喜歡的物品,給用戶推薦與他喜好相似的物品。
(3)人以群分
利用和自己相似的其他用戶,推薦和他們的興趣愛(ài)好相似的其他用戶最感興趣的物品。
1.4推薦系統(tǒng)的數(shù)據(jù)分析
(1)需要向用戶提供推薦有關(guān)物品或服務(wù)內(nèi)容的相關(guān)元數(shù)據(jù),例如關(guān)鍵詞數(shù)字,分類產(chǎn)品標(biāo)簽,基因結(jié)構(gòu)描述等;
(2)系統(tǒng)收集用戶的基本資料,例如性別,年齡,興趣標(biāo)簽等;
(3)用戶的動(dòng)態(tài)和行為資料,可以被轉(zhuǎn)化成用戶對(duì)于物品或信息的喜愛(ài)和偏好,根據(jù)用戶應(yīng)用本身的差異可能還會(huì)包含用戶對(duì)于物品的評(píng)價(jià);用戶在網(wǎng)上查看以及購(gòu)買商品的情況和消費(fèi)記錄,購(gòu)買用戶的偏愛(ài)信息大致可以劃分為兩種類型:
·顯式的用戶反饋:這類是用戶在網(wǎng)站上瀏覽或者使用網(wǎng)站以后提供的反饋信息,例如用戶對(duì)物品的評(píng)分,或者對(duì)物品的評(píng)論。
·隱式的個(gè)人用戶反饋:這類數(shù)據(jù)是用戶在通過(guò)網(wǎng)絡(luò)使用個(gè)人網(wǎng)站時(shí)所產(chǎn)生的信息和數(shù)據(jù),隱式的反應(yīng)了一個(gè)用戶對(duì)于物品的偏愛(ài),例如一個(gè)用戶已經(jīng)購(gòu)買了某件物品,用戶已經(jīng)查看了某件物品的相關(guān)信息等。
2.推薦系統(tǒng)算法
2.1基于人口統(tǒng)計(jì)學(xué)的推薦算法
基于人口統(tǒng)計(jì)學(xué)的推薦機(jī)制是一種容易設(shè)計(jì)和實(shí)現(xiàn)的推薦方法,它能根據(jù)系統(tǒng)用戶的基本信息去發(fā)現(xiàn)相關(guān)程度,然后將相似用戶喜歡的物品推薦給當(dāng)前用戶。
對(duì)于沒(méi)有明確含義的用戶信息(比如登錄時(shí)間、地域等上下文信息),可以通過(guò)聚類等手段,給用戶打上分類標(biāo)簽。
對(duì)于特定標(biāo)簽的用戶,又可以根據(jù)預(yù)設(shè)的規(guī)則(知識(shí))或者模型,推薦出對(duì)應(yīng)的物品
用戶信息標(biāo)簽化的過(guò)程一般又稱為用戶畫像(User?Profiling)
2.2基于人口統(tǒng)計(jì)學(xué)的推薦和用戶畫像
Content-based?Recommendations?(CB)?根據(jù)用戶過(guò)去潛在需要的相關(guān)物品或其他內(nèi)容元素的數(shù)據(jù),發(fā)現(xiàn)相似度與物品的潛在關(guān)聯(lián)度,再基于用戶以前商品的興趣偏好和使用記錄,為需要用戶進(jìn)行推薦相似度的物品。
通過(guò)從物品圖像中直接分析抽取一個(gè)具體物品的內(nèi)在或者外部圖像特征收集數(shù)據(jù)并用來(lái)對(duì)其物品進(jìn)行圖像相似性的分析計(jì)算。
將一個(gè)特定用戶(user)的物品個(gè)人信息(基于自己的興趣喜好進(jìn)行記錄或者可能是自己預(yù)置了感興趣的物品標(biāo)簽),和一個(gè)特定物品(item)的物品特點(diǎn)信息進(jìn)行直接匹配,這樣可以直接得到一個(gè)物品用戶對(duì)自己喜愛(ài)的物品特點(diǎn)有預(yù)置興趣的不同程度
2.3?基于內(nèi)容的推薦與特征工程
對(duì)于物品的特征提取?——?打標(biāo)簽(tag)
對(duì)于文本信息的特征提取?——?關(guān)鍵詞
2.4?基于協(xié)同過(guò)濾的推薦算法基于近鄰的協(xié)同過(guò)濾
基于用戶(User-CF)
基于物品(Item-CF)
基于模型的協(xié)同過(guò)濾
奇異值分解(SVD)
潛在語(yǔ)義分析(LSA)
支撐向量機(jī)(SVM)
3.電影推薦系統(tǒng)設(shè)計(jì)
3.1?系統(tǒng)模塊設(shè)計(jì)
本系統(tǒng)設(shè)計(jì)主要分三大模塊:基于模型的推薦、系統(tǒng)過(guò)濾的推薦和基于內(nèi)容的推薦。提供用戶的服務(wù)又細(xì)化為:實(shí)時(shí)推薦服務(wù)、離線推薦服務(wù)和內(nèi)容檢索服務(wù)。最后通過(guò)用戶的評(píng)價(jià),分析用戶的喜好,周期性的更新電影。
3.2?統(tǒng)計(jì)推薦模塊
(1)歷史熱門電影統(tǒng)計(jì)
根據(jù)所有歷史評(píng)分?jǐn)?shù)據(jù),計(jì)算歷史評(píng)分次數(shù)最多的電影
(2)近期熱門電影統(tǒng)計(jì)
根據(jù)評(píng)分,按月為單位計(jì)算最近月份評(píng)分最多的電影集合
(3)電影平均評(píng)分統(tǒng)計(jì)
根據(jù)所有的在線用戶對(duì)每更新一部在線電影平均進(jìn)行評(píng)分,周期性地自動(dòng)計(jì)算每更新一部在線電影的平均用戶得分。
(4)各類別Top10評(píng)分電影統(tǒng)計(jì)
按照網(wǎng)站提供的全部電影類別,分析出各種類型的影片在綜合評(píng)價(jià)中排名為前10的電影。
3.3?離線推薦模塊
(1)用ALS算法訓(xùn)練隱語(yǔ)義模型
(2)計(jì)算用戶推薦矩陣
(3)計(jì)算電影相似度矩陣
4.?總結(jié)
本文介紹了以電影推薦算法為代表的個(gè)性化推薦系統(tǒng),選擇混合算法對(duì)所有電影的相關(guān)性進(jìn)行了計(jì)算和分析,實(shí)現(xiàn)了本文對(duì)電影推薦算法的綜合算法。
電影推薦系統(tǒng)能夠?yàn)槿藗兞可矶ㄖ聘鞣N不同的個(gè)性化推薦。隨著用戶體驗(yàn)的要求越來(lái)越高,系統(tǒng)的響應(yīng)速度必須被充分納入Web應(yīng)用的用戶體驗(yàn)重要指標(biāo),傳統(tǒng)的電子商務(wù)推薦系統(tǒng)擴(kuò)展性差和計(jì)算耗費(fèi)大量時(shí)間讓人難以接受。雖然不斷有各種高效的推薦算法提出,但是這些算法面對(duì)海量數(shù)據(jù)的表現(xiàn)仍然差強(qiáng)人意。通過(guò)不斷改進(jìn)算法的本身來(lái)提高計(jì)算效率的提升空間越來(lái)越小。所以針對(duì)目前的個(gè)性化推薦系統(tǒng)的改進(jìn),需要考慮到平臺(tái)存儲(chǔ)、高性能和擴(kuò)展性問(wèn)題。Hadoop平臺(tái)的分布式文件系統(tǒng)HDFS和分布式批處理框架MapReduce不僅能夠存儲(chǔ)不斷增長(zhǎng)的海量數(shù)據(jù),也能對(duì)數(shù)據(jù)進(jìn)行并行化處理,提高算法性能的和系統(tǒng)的響應(yīng)速度,使個(gè)性化推薦系統(tǒng)更能適應(yīng)海量數(shù)據(jù)的發(fā)展要求.
參考文獻(xiàn)
[1]崔天明,劉瑋.基于大數(shù)據(jù)技術(shù)的個(gè)性化在線教育系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2021,44(05):175-180.
[2]王世杰,高鑫,許舒翔.一種基于深度學(xué)習(xí)的推薦系統(tǒng)協(xié)同雙向約束算法分析[J].微型電腦應(yīng)用,2021,37(02):163-165.
[3]張偉娜,基于深度學(xué)習(xí)與矩陣分解的推薦算法研究[D].華南理工大學(xué),2020.
[4]王藝航.?基于深度學(xué)習(xí)的推薦算法研究[D].廣東工業(yè)大學(xué),2020.
[5]伍倩瑩.電商個(gè)性化推薦系統(tǒng)在圖書(shū)購(gòu)物網(wǎng)站的應(yīng)用研究[J].現(xiàn)代營(yíng)銷(信息版),2020(03):207-208.
[6]尚立.基于協(xié)同過(guò)濾的改進(jìn)課程推薦算法[J].科技傳播,2020,12(05):132-134.