• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于嵌入表示的改進協(xié)同過濾旅游線路推薦

      2021-12-04 06:12:18王洪建
      中國民航大學學報 2021年5期
      關鍵詞:相似性閾值向量

      王洪建

      (廈門航空有限公司,福建廈門 361006)

      當前,各種旅游產品的推出使旅游信息數(shù)量變得異常龐大,用戶很難從大量的旅游信息中快速定位其感興趣的產品。而旅游公司為了爭奪客源及增加收入,需要不斷滿足游客的需求,制定符合游客興趣的旅游線路。旅游推薦系統(tǒng)[1-2]是解決旅游信息過載問題的重要手段,能主動推送符合游客興趣的旅游線路,幫助其快速做出決策。

      目前旅游線路推薦算法主要包括:基于內容的推薦、基于協(xié)同過濾的推薦、基于知識的推薦及基于社交媒體的推薦4 類?;趦热莸穆糜尉€路推薦根據游客選擇的旅游產品向其推薦與該線路相似的線路。黃飛龍[3]根據游客的實時數(shù)據,為游客在有限時間內推薦可選的旅游線路。基于協(xié)同過濾的旅游線路推薦根據游客的線路偏好,為其推薦與其興趣相似游客選擇的線路。侯新華等[4]利用游客對旅游線路的線上評價,尋找相似游客,完成旅游景點的推薦。史一帆等[5]利用景點標簽改進協(xié)同過濾線路推薦算法,提高旅游線路推薦的準確度?;谥R的旅游線路推薦則是將旅游領域知識引入線路推薦系統(tǒng),提升線路推薦準確度。王顯飛等[6]以交互方式獲取游客的需求和興趣,并以此為約束進行旅游線路推薦,提高了線路推薦的品質。基于社交媒體的旅游線路推薦則是將社交媒體中的游客關系引入線路推薦過程。文獻[7-9]根據游客位置信息,建立游客位置-興趣關聯(lián),推薦周邊景點。但由于旅游數(shù)據一般是隱式反饋的,很難收集用戶對旅游線路的喜好信息。這限制了以上傳統(tǒng)旅游線路推薦算法的性能。

      詞向量(Doc2vector)模型最初應用于自然語言處理領域,將單詞的豐富信息表示成低維向量,取得了非常好的效果,近幾年其已被廣泛應用于旅游推薦系統(tǒng)中[10-11]。由于旅游數(shù)據一般具有較詳細的線路描述,因此每條線路可以利用詞向量進行低維表示,利用游客參加線路對游客興趣進行建模,提高傳統(tǒng)旅游線路推薦算法對于隱式反饋數(shù)據的處理能力[12]。

      針對上述研究的不足,提出了基于嵌入表示的改進協(xié)同過濾旅游線路推薦算法。首先,根據詞向量模型將每條線路表示成低維嵌入表示,并根據游客的參與線路集合得到游客興趣的嵌入表示;其次,根據線路間的相似性抽取游客共現(xiàn)線路集合并計算游客間的相似度;最后,利用改進的協(xié)同過濾模型完成線路推薦。

      1 基于詞向量的線路和游客興趣嵌入表示

      假設U={u1,u2,…,um},L={l1,l2,…,ln}分別為游客和旅游線路集合,Mm×n= {rul|u∈U,l∈L} 為交互矩陣,rul=1 表示游客u參加了l,否則為0。

      1.1 線路的嵌入表示

      詞向量將一個給定詞語表示為一個向量,每個不同的單詞映射到不同的向量,具有相近意思的詞語,其表示也是相似的。常用的模型為跳字模型(Skipgram)和連續(xù)詞袋模型(CBOW,continuous bag of words)。但這兩種模型忽略了單詞之間的排列順序對句子或文本信息造成的影響,而Doc2vector 模型解決了這個問題,其可處理可變長度文本,在使用向量表示段落或文本時,考慮到了詞序對于語義的影響。在旅游數(shù)據集中,與線路集合L={l1,l2,…,ln}對應的線路描述文檔集合可表示為D={d1,d2,…,dn},對于任意線路li∈L可利用Doc2vector 將其對應的線路介紹文檔di∈D映射成低維向量vli∈Rd。這樣每條線路就被表示成了一個d維向量,如果兩條線路的主題比較相近,其向量也比較相似,向量距離較小;反之,向量距離則較大。

      1.2 游客興趣的嵌入表示

      在旅游推薦系統(tǒng)中,由于缺乏游客對旅游線路的反饋信息,因此認為游客參加的線路就是其喜歡的旅游產品。游客興趣的嵌入表示由其參與過的線路特征描述。假設游客ui參加過的線路集合為則游客ui對線路的興趣可表示為

      2 游客間相似性計算

      在協(xié)同過濾推薦過程中,相似性計算是非常重要的關鍵步驟。假設兩個游客共同參加過很多相同/相似的線路,則認為兩個游客興趣是相似的。但因為旅游數(shù)據的極度稀疏性特點,在實際過程中不同游客參加過相同線路的次數(shù)非常少,因此如何抽取游客的共現(xiàn)線路集合是度量游客間是否具有相同偏好的關鍵。兩條線路間的距離衡量了線路間的特征相似性,距離越小,說明兩條線路具有相似特征,距離越大,說明線路特征差別越大。不同線路間的距離計算公式如下

      由于旅游數(shù)據稀疏性高,游客共現(xiàn)線路更少。如果兩游客參與的線路相似性較高,則認為其是共現(xiàn)線路。為了衡量線路間的相似性,設定一個閾值T,當兩條線路向量表示的距離小于T時,則認為兩條線路是相似線路。因此可以得到游客ui與uj共現(xiàn)線路集合可表示為

      任意兩名游客間的相似性由其共同參與的線路來表示。共同參與的線路越多,線路越相似,其偏好越相似。游客更喜歡給其推薦共現(xiàn)線路集合中未參加的線路,任意兩個游客ui與uj的相似性利用改進余弦公式進行計算如下

      其表示了游客ui和uj對于共現(xiàn)線路的向量累計偏差,也就是游客ui與uj對線路興趣的偏好。累計偏差越大,ui和uj間的相似性越差;偏差越小,說明ui和uj的偏好越相似,其喜歡相同/相似線路的可能性越大。

      因此實際推薦過程中,利用游客間的相似性得到相似游客,目標游客ui的相似游客參與的線路構成候選推薦線路集合如下

      式中N(ui)為ui的相似游客集合。將某個相似游客去過,但目標游客沒有去過的線路向其推薦。

      3 旅游線路推薦

      假設目標游客為游客ui,游客uj為其相似游客集合N(u)i中的游客;為游客uj參加過的,但游客ui沒有參加過的線路,則游客ui喜歡線路的概率表示為

      由此可得到ui對所有相似游客uj參加過,而游客ui未參加過的線路感興趣的概率,之后按照概率的大小降序排列,得到Top@k推薦列表,即按游客興趣度排列的前k條推薦線路。

      4 實驗結果及分析

      4.1 數(shù)據集

      實驗數(shù)據集來源于某旅游公司,共包括4 737 個游客,1 436 條旅游線路,交互記錄為25 717 條。每個游客的信息包括游客姓名、性別、身份證號、參加的旅游團號、線路出發(fā)時間、價格、景點的詳細介紹。對于每條線路都包含一個詳細的線路描述,包括行程、線路中包含的每個景區(qū)特點等。其為隱式反饋數(shù)據集,游客參加了某線路則認為該游客喜歡這條線路。對數(shù)據集以6∶2∶2 的比例拆分成訓練集、測試集和驗證集。

      4.2 評估指標

      實驗中采用召回率(recall)、歸一化折損累計增益(NDCG,normalized discounted cumulative gain)和平均精準度(MAP,mean average precision)作為評估標準。Recall 描述推薦系統(tǒng)推薦給用戶的旅游線路占用戶真正感興趣的線路的比例。NDCG 和MAP 則表示推薦項目在推薦列表中排序位置情況。

      4.3 參數(shù)訓練

      4.3.1 游客和線路向量維度的影響

      向量維度k的大小,直接影響著旅游線路推薦算法的性能。k值太大,會增加計算量,太小不能表示游客和線路特征。圖1 給出了隨著向量維度的變化,推薦算法NDCG 的變化趨勢。從圖1 可知,隨著向量維度的增大,推薦性能快速提升之后變緩,性能變換的折點在200 附近,因此向量維度取能使算法性能達到最高的200。

      圖1 向量維度對算法NDCG 的影響Fig.1 Effect of vector dimension on NDCG

      4.3.2 閾值T的敏感性分析

      線路向量距離閾值T決定著游客的向量表示,影響了游客間相似性計算。如果閾值T太小,不能將相似線路融入相似性計算;閾值太大,則會將不相近的線路選擇進來。圖2 給出了推薦算法NDCG 的性能隨閾值T的變化趨勢。從圖2 可知,隨著閾值T的增大,算法性能先增大,后減小,性能變換的折點在T為1.1 附近,因此閾值T取1.1。

      圖2 閾值對算法NDCG 的影響Fig.2 Effect of threshold on NDCG

      4.3.3 相似游客數(shù)n的影響

      在協(xié)同過濾推薦中,相似游客數(shù)是影響算法性能的關鍵參數(shù)。相似游客數(shù)太大,可選線路會太多,計算量變大;相似游客數(shù)太小可選線路又可能太少,不能得到好的推薦性能。圖3 給出隨著相似游客數(shù)n的變化,算法的性能變化。從圖3 可知,隨著相似游客數(shù)的增加,性能先增大,后減小,性能變換的折點在60 附近,因此相似游客數(shù)取能使算法性能達到最高的60。

      圖3 相似游客數(shù)對算法NDCG 的影響Fig.3 Effect of the number of neighbors on NDCG

      4.4 實驗結果與對比分析

      將提出的基于嵌入表示的協(xié)同過濾線路推薦算法(ECF,embedding collaborative filtering)與基本協(xié)同過濾推薦算法(BCF,basic collaborative filtering)進行對比。ECF 與BCF 的性能對比如表1所示。

      表1 ECF 與BCF 性能對比Tab.1 Comparison of ECF and BCF

      從表1 可知,隨著推薦列表長度的增加,3 種性能指標都有所提升。將k從5 分別增加到10、20 和30,在ECF 情況下,NDCG 分別提升5.60%、12.90%和17.00%,MAP 分別提升3.40%、7.10%和9.97%;在BCF 的情況下NDCG 分別提升2.70%、3.30%和5.97%,MAP 分別提升3.10%、6.80%和9.89%??梢奛DCG 和MAP 兩者提升都較小,說明游客感興趣的線路并沒有在推薦列表的最前面。但ECF 性能提升結果要好于BCF,說明利用詞向量模型得到游客和線路的向量表示對于這種稀疏的、隱式反饋的數(shù)據集能夠提升推薦結果。

      5 結語

      基于嵌入表示的改進協(xié)同過濾的線路推薦算法首先利用詞向量模型(Doc2vector)將每條線路用一個低維向量表示,這樣解決了對于這種隱式反饋數(shù)據特征表示的問題。其次利用游客參加過的線路得到游客的興趣向量表示,解決了某些游客參與線路過少導致游客偏好建模困難的問題。通過計算線路間的相似性得到抽取的共現(xiàn)線路集合,解決旅游數(shù)據高度稀疏,共現(xiàn)線路少的問題。最后利用相似游客參與的線路得到候選線路及參與概率,完成線路推薦列表。通過在實際數(shù)據集上的實驗表明,該算法提升了線路的推薦性能,緩解了旅游數(shù)據稀疏的問題。

      猜你喜歡
      相似性閾值向量
      一類上三角算子矩陣的相似性與酉相似性
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      淺析當代中西方繪畫的相似性
      河北畫報(2020年8期)2020-10-27 02:54:20
      小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應用
      基于自適應閾值和連通域的隧道裂縫提取
      比值遙感蝕變信息提取及閾值確定(插圖)
      河北遙感(2017年2期)2017-08-07 14:49:00
      室內表面平均氡析出率閾值探討
      低滲透黏土中氯離子彌散作用離心模擬相似性
      向量垂直在解析幾何中的應用
      太原市| 阿尔山市| 宣化县| 星子县| 南昌市| 峨眉山市| 托克逊县| 贵南县| 奉贤区| 江川县| 商洛市| 东乡| 耿马| 龙泉市| 梅河口市| 荣成市| 青阳县| 建始县| 潼南县| 天门市| 福鼎市| 龙游县| 哈密市| 百色市| 兴业县| 广河县| 岳池县| 阿拉善盟| 竹山县| 永泰县| 陈巴尔虎旗| 比如县| 镇雄县| 定襄县| 尼勒克县| 都江堰市| 定襄县| 清徐县| 自贡市| 太白县| 调兵山市|