牟進軍+羅國寬+熊志斌
摘要:旅游電子商務(wù)與網(wǎng)絡(luò)社交媒體發(fā)展導(dǎo)致旅游信息爆炸式增長,用戶面臨信息過載問題。為使用戶快速獲取并甄別信息,將傳統(tǒng)協(xié)同過濾推薦算法應(yīng)用于景點推薦,游客對景點評分構(gòu)成評分矩陣,計算景點之間相似度,根據(jù)相似景點評分預(yù)測游客對目標景點評分。實驗結(jié)果顯示,景點預(yù)測評分平均絕對誤差為0.696,Itembased景點推薦算法能根據(jù)游客偏好推薦景點。
關(guān)鍵詞關(guān)鍵詞:協(xié)同過濾;個性化推薦;景點推薦;Itembased
DOIDOI:10.11907/rjdk.171818
中圖分類號:TP319
文獻標識碼:A文章編號文章編號:16727800(2017)011018603
0引言
隨著國民經(jīng)濟發(fā)展,旅游業(yè)成為朝陽產(chǎn)業(yè),各類旅游電商平臺與旅游社交媒體應(yīng)運而生,如攜程、藝龍、去哪兒、旅人網(wǎng)、螞蜂窩、窮游網(wǎng)等,這些旅游電子商務(wù)平臺與社交媒體為游客提供機票與酒店預(yù)定服務(wù)、景點信息、旅游攻略與游記分享平臺。網(wǎng)絡(luò)查詢已成為游客獲取資訊的主要方式,游客規(guī)劃旅游路線時,通常會在旅游電子商務(wù)平臺與社交媒體上查閱景點信息、游客評分及點評。
游客能夠快速在旅游電商平臺與社交媒體獲取景點信息,同時遭遇“信息過載”問題[1]。游客在網(wǎng)絡(luò)上獲得海量信息,相應(yīng)需要花費額外時間查閱并甄別信息。這不僅增加了游客時間成本,還提高了線路規(guī)劃難度。推薦系統(tǒng)作為解決信息過載、滿足用戶個性化需求的有效工具,已在淘寶、亞馬遜等電商平臺成功應(yīng)用[2]?;谟脩粜枨筇峁┚包c推薦的國內(nèi)旅游電商平臺與社交媒體為數(shù)不多[34]。推薦算法有多種,其中基于協(xié)同過濾的推薦算法在個性化系統(tǒng)中應(yīng)用最廣[5],如高明虎等[6]改進傳統(tǒng)協(xié)同過濾算法解決冷啟動問題,并應(yīng)用于酒店推薦;婁小風(fēng)[7]提出基于酒店多維度屬性打分的協(xié)同過濾推薦算法提高了推薦準確度;王益[8]將協(xié)同推薦算法應(yīng)用于旅游路線推薦。本文研究協(xié)同過濾算法在景點推薦中的應(yīng)用,為游客提供個性化數(shù)據(jù)服務(wù)。
1協(xié)同過濾推薦算法概述
協(xié)同過濾推薦算法誕生最早,基本思路是如果用戶過去物品偏好一致,將來偏好仍將一致[7]。算法通過挖掘用戶歷史行為數(shù)據(jù)發(fā)現(xiàn)用戶偏好,以此為依據(jù)計算得到相似用戶或物品并進行推薦。協(xié)同過濾推薦算法有2個重要分支:一個是基于用戶的協(xié)同過濾算法,另一個是基于物品的協(xié)同過濾算法。Itembased算法得出的結(jié)果具有較好說服力,因此,本文將該算法應(yīng)用于景點推薦[9]。
基于用戶的協(xié)同過濾算法思路是根據(jù)用戶物品偏好找到相似用戶,然后將相似用戶喜歡物品推薦給目標用戶。基于物品的協(xié)同過濾算法思路類似基于用戶協(xié)同過濾算法,通過計算不同物品相似關(guān)系,找到相似物品推薦給當(dāng)前用戶。
數(shù)字化描述用戶物品偏好是協(xié)同過濾算法數(shù)據(jù)基礎(chǔ),用戶物品偏好量化方法一般有2種形式:一種是量化成離散整數(shù)值,不同值代表偏好程度;一種是量化成布爾值0或1,代表喜歡或厭惡二值偏好。電子商務(wù)網(wǎng)站通常為用戶提供對物品評分、投票及評論功能,評分值與票數(shù)代表了用戶物品偏好程度。用自然語言處理方法處理用戶評論,可得到用戶情感取向,量化成布爾值0或1。用戶對物品購買與否,也可量化成布爾值0或1。除電子商務(wù)網(wǎng)站外,社交媒體用戶也用多種行為表達偏好,如自媒體訂閱數(shù)、信息轉(zhuǎn)發(fā)數(shù)、好友關(guān)注數(shù),需要根據(jù)具體應(yīng)用量化用戶偏好。
3.2數(shù)據(jù)來源
實驗數(shù)據(jù)源于“攜程旅行網(wǎng)”,攜程網(wǎng)向會員提供酒店、機票預(yù)訂、旅游資訊、景點評分、攻略分享等線上旅行服務(wù),網(wǎng)站會員超過1億8千萬。選擇攜程網(wǎng)作為數(shù)據(jù)源,可獲取足夠景點評分數(shù)據(jù)。
攜程網(wǎng)旅游目的地攻略欄目中,游客分別從“景色”、“趣味性”、“性價比”3個指標對景點評分,分值區(qū)間為5(最高)至1(最低)。用網(wǎng)絡(luò)爬蟲采集海南省景點點評數(shù)據(jù),原始數(shù)據(jù)按“景點名”+“用戶名”+“景色評分”+“趣味性評分”+“性價比評分”項目保存。由于數(shù)據(jù)量非常大,只選擇點評數(shù)10條以上景點進行編號處理,得到評分數(shù)據(jù)133 864條,含343個景點、32 587名游客。
3.3結(jié)果及分析
原始數(shù)據(jù)含“景色”、“趣味性”、“性價比”3個評分指標,測試選取“景色”評分作為數(shù)據(jù)項。為測試算法可行性,將數(shù)據(jù)分為2組,10萬條數(shù)據(jù)為訓(xùn)練數(shù)據(jù),余下33 864條為測試數(shù)據(jù),相似景點個數(shù)K取10。實驗結(jié)果為平均絕對誤差MAE=0.696,表明Itembased景點推薦算法是可行的。
4結(jié)語
互聯(lián)網(wǎng)“信息過載”現(xiàn)象日益突出,用戶需花費大量時間查閱、篩選信息。本文將Itembased協(xié)同過濾算法應(yīng)用于景點推薦,使游客能快速找到滿足個性化需求的景點與旅游資訊。旅游社交媒體上,游客從多個指標對景點進行評分,并附加文字評論。開發(fā)推薦系統(tǒng)時,需要綜合考慮各指標下評分,利用自然語言處理技術(shù)從文字評論中挖掘游客情感傾向,以提高推薦精度。實驗過程發(fā)現(xiàn),旅游社交媒體游客與景點數(shù)量太大,計算景點相似性非常耗時,很難做到實時推薦,而Itembased協(xié)同過濾算法可利用“游客-景點”評分矩陣,離線計算出景點相似矩陣,然后實時計算,預(yù)測游客對景點評分,向游客推薦景點。
參考文獻參考文獻:
[1]李聰.電子商務(wù)推薦系統(tǒng)中協(xié)同過濾瓶頸問題研究[D].合肥:合肥工業(yè)大學(xué),2009.
[2]洪亮,任秋圜,梁樹賢.國內(nèi)電子商務(wù)網(wǎng)站推薦系統(tǒng)信息服務(wù)質(zhì)量比較研究——以淘寶、京東、亞馬遜為例[J].圖書情報工作,2016(23):97110.
[3]令狐紅英,姜季春.改進的貝葉斯算法在旅游景點推薦中的應(yīng)用[J].貴州師范學(xué)院學(xué)報,2012(3):2226.
[4]皇蘇斌,王忠群.景區(qū)智能空間下的實時景點推薦技術(shù)[J].安徽工程大學(xué)學(xué)報,2011(4):6163.
[5]馬騰騰,朱慶華,曹菡,等.基于Hadoop的旅游景點推薦的算法實現(xiàn)與應(yīng)用[J].計算機技術(shù)與發(fā)展,2016(3):4752.
[6]高虎明,李偉麗.基于協(xié)同過濾和Rankboost算法的酒店推薦系統(tǒng)[J].微計算機信息,2010(36):206208.
[7]婁小豐.基于多屬性打分的酒店推薦算法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2012.
[8]王益.基于用戶興趣特征變化的旅游路線個性化推薦技術(shù)研究[D].武漢:武漢理工大學(xué),2015.
[9]冷亞軍,陸青,梁昌勇.協(xié)同過濾推薦技術(shù)綜述[J].模式識別與人工智能,2014(8):5064.
[10]侯新華,文益民.基于協(xié)同過濾的旅游景點推薦[J].計算技術(shù)與自動化,2012(4):116119.
責(zé)任編輯(責(zé)任編輯:何麗)endprint