• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于標(biāo)簽的協(xié)同過濾推薦方法研究

      2021-05-21 08:33齊晶劉瀛劉艷霞胡美振樂海豐
      關(guān)鍵詞:個性化推薦協(xié)同過濾

      齊晶 劉瀛 劉艷霞 胡美振 樂海豐

      [摘 要] 摘要傳統(tǒng)基于物品的協(xié)同過濾算法由于物品相似度矩陣稀疏,推薦準(zhǔn)確率不高。針對這一問題,提出一種基于標(biāo)簽和改進(jìn)杰卡德系數(shù)的協(xié)同過濾算法,進(jìn)行電視節(jié)目個性化推薦。首先,爬取相關(guān)信息對原始數(shù)據(jù)進(jìn)行擴(kuò)充,并利用統(tǒng)計學(xué)方法對時間特征進(jìn)行歸一化處理,計算用戶偏好系數(shù);然后,統(tǒng)計出現(xiàn)次數(shù)較高的類別作為推薦類別標(biāo)簽,并利用改進(jìn)的杰卡德系數(shù)構(gòu)造標(biāo)簽相似度矩陣;最后,根據(jù)推薦類別標(biāo)簽的用戶偏好系數(shù)計算節(jié)目的推薦系數(shù)。實驗結(jié)果表明,基于標(biāo)簽的協(xié)同過濾算法可以降低稀疏矩陣對推薦準(zhǔn)確率的影響,相比基于物品的協(xié)同過濾算法,準(zhǔn)確率提高了5%,召回率提高了3.1%。另外,使用改進(jìn)的杰卡德系數(shù)計算相似度,減少了熱門標(biāo)簽對推薦系統(tǒng)的影響,進(jìn)一步將準(zhǔn)確率提高了5%,召回率提高了2.3%。

      [關(guān)鍵詞] 關(guān)鍵詞協(xié)同過濾;標(biāo)簽類別相似度;個性化推薦;懲罰系數(shù);杰卡德系數(shù)

      [中圖分類號] 中圖分類號TP 391.3[文獻(xiàn)標(biāo)志碼] A[文章編號] 1005-0310(2021)02-0047-06

      Research on Collaborative Filtering Recommendation Method Based on

      Labels

      Qi Jing1,Liu Ying2,Liu Yanxia2,Hu Meizhen2,Le Haifeng3

      (1. Tourism College, Beijing Union University, Beijing 100101, China; 2. College of Urban Rail Transit and Logistics, Beijing Union University, Beijing 100101, China; 3. College of Robotics, Beijing Union University, Beijing 100101, China)

      Abstract: 摘要In the era of big data, traditional itembased collaborative filtering algorithms lead to the sparseness of item similarity matrix, and the recommendation accuracy rate is not high. To solve this problem, a labelbased collaborative filtering algorithm is proposed. First, this algorithm expands the original data by crawling the relevant information, and uses statistical methods to normalize the time characteristics to calculate the user preference coefficient. Next, it selects those with higher occurrences from all crawled categories as recommended category labels. The category constructs a label similarity matrix using the improved Jaccard coefficients that incorporate the penalty coefficients. Finally, the program recommendation coefficients are calculated according to the user preference coefficients of the recommended category labels. The experimental results show that the

      labelbased

      collaborativefiltering algorithm can reduce the influence of sparse matrix on the recommendation accuracy. Compared with the

      itembased collaborative filtering algorithm,

      the accuracy rate increases by 5% and the recall rate increases by 3.1%. In addition, using the improved Jaccard coefficient to calculate the similarity can reduce the influence of hot tags on the recommendation system, and further improve the accuracy rate by 5% and the recall rate by 2.3% on the labelbased collaborative filtering algorithm.

      Keywords: 關(guān)鍵詞Collaborative filtering; Label category similarity; Personalized recommendation; Penalty coefficient; Jaccard coefficient

      0 引言

      北京聯(lián)合大學(xué)學(xué)報2021年4月第35卷第2期齊 晶等:基于標(biāo)簽的協(xié)同過濾推薦方法研究

      隨著電視“互聯(lián)網(wǎng)+”和電子商務(wù)的興起,個性化推薦有了突飛猛進(jìn)的發(fā)展,相關(guān)研究主要集中在推薦算法和推薦應(yīng)用,不同類型的物品使用不同的推薦算法來達(dá)到既定的目的[1]。在推薦算法中,最常用的經(jīng)典推薦算法包括協(xié)同過濾推薦算法、基于內(nèi)容的推薦算法和基于數(shù)據(jù)挖掘的推薦算法等[2]。協(xié)同過濾推薦算法是通過利用客戶的以往記錄信息建立數(shù)學(xué)模型,然后對客戶進(jìn)行推薦;基于內(nèi)容的推薦算法是根據(jù)客戶對內(nèi)容的喜好建立客戶興趣模型,進(jìn)一步求解內(nèi)容-客戶相似度進(jìn)行產(chǎn)品推薦[3];基于數(shù)據(jù)挖掘的推薦算法利用從大數(shù)據(jù)中挖掘到的相關(guān)知識對客戶進(jìn)行推薦。隨著客戶和商品的數(shù)目不斷增長,計算的評價矩陣面臨稀疏性問題。為解決這個問題, Sarwar等提出利用奇異值分解評價矩陣,壓縮矩陣維度[4]。Yu等用信息理論的方法衡量客戶和商品相關(guān)度,采用特征加權(quán)求和方法改進(jìn)傳統(tǒng)推薦算法,可以提高推薦的準(zhǔn)確率和速度[5]。于洪等則利用客戶時間信息作為權(quán)重改進(jìn)傳統(tǒng)方法,可以有效解決對新客戶的推薦問題[6]。黃創(chuàng)光等提出了不確定性近鄰用戶的方法,可在不同應(yīng)用場景下自適應(yīng)選擇近鄰用戶[7]。

      在傳統(tǒng)的推薦算法中,客戶對商品信息的記錄(例如評分,很多用戶不會主動對商品進(jìn)行評分)往往很少,這就會導(dǎo)致數(shù)據(jù)非常稀疏,影響系統(tǒng)推薦的準(zhǔn)確率,因此,能否挖掘出有用且充分的信息成為推薦準(zhǔn)確率的關(guān)鍵。徐德智等將推薦算法和云模型相結(jié)合,用云模型計算用戶之間相似度,可以提高推薦系統(tǒng)的準(zhǔn)確率[8]。張光衛(wèi)等融合知識處理機(jī)制來計算用戶相似度,利用云模型在知識之間進(jìn)行定性和定量的轉(zhuǎn)換,進(jìn)一步提高用戶之間相似度的準(zhǔn)確性[9]。蔣翠清等將PLSA模型應(yīng)用在用戶相似度計算上,把用戶信息映射到更加明確的語義上,解決了用戶信息語義模糊問題[10]。Kim等則利用聚類方法改進(jìn)傳統(tǒng)算法,擴(kuò)展了傳統(tǒng)算法的應(yīng)用性[11]。然而,這些算法都沒有討論熱門物品或者活躍用戶對推薦結(jié)果準(zhǔn)確率的影響,并融合相關(guān)信息進(jìn)行推薦。

      本文提出一種基于項目標(biāo)簽的協(xié)同過濾算法,并利用懲罰系數(shù)減少熱門標(biāo)簽對相似度矩陣計算的影響,將推薦項目的類別與用戶偏好系數(shù)相融合計算項目推薦系數(shù),完成節(jié)目推薦。算法分為數(shù)據(jù)處理、特征提取和算法改進(jìn)3個階段。

      1 數(shù)據(jù)處理

      1.1 數(shù)據(jù)集

      數(shù)據(jù)來自機(jī)頂盒用戶實際觀看記錄,統(tǒng)計時間從2017年4月到10月,數(shù)據(jù)項包括用戶ID、觀看開始時間,觀看結(jié)束時間、星期、清晰度、節(jié)目名稱等。部分?jǐn)?shù)據(jù)集如表1所示。

      1.2 數(shù)據(jù)預(yù)處理

      在數(shù)據(jù)挖掘前須對原始數(shù)據(jù)進(jìn)行預(yù)處理,以便后期特征提取和建模。預(yù)處理步驟如下:

      1) 基于物品的協(xié)同過濾算法相似度矩陣非常稀疏,影響推薦準(zhǔn)確度

      。本文嘗試基于標(biāo)簽的協(xié)同過濾算法,根據(jù)數(shù)據(jù)集中的節(jié)目名稱爬取節(jié)目類型標(biāo)簽,補(bǔ)充數(shù)據(jù)集信息。

      2) 將同一用戶在不同時間段觀看的同一節(jié)目時間進(jìn)行累加合并。如表1中,用戶10290在不同時間段觀看《小公主蘇菲亞》,將其觀看時間相加得到此用戶觀看該節(jié)目的總時間。

      3) 將爬取到的類別標(biāo)簽與數(shù)據(jù)集中相應(yīng)的節(jié)目進(jìn)行匹配,建立標(biāo)簽字典,記錄所有標(biāo)簽出現(xiàn)的頻率,排除出現(xiàn)次數(shù)過低的標(biāo)簽。

      4) 利用融合以后的總時間計算用戶偏好系數(shù)(計算過程在2.1節(jié)中說明)。

      5) 在用戶偏好系數(shù)中,設(shè)置閾值為0.12,即觀看時間為5分鐘,排除小于閾值的觀看記錄。

      6) 在清洗過的數(shù)據(jù)集中隨機(jī)抽取80%作為訓(xùn)練集,20%作為測試集,分別用來訓(xùn)練和評估模型。數(shù)據(jù)預(yù)處理結(jié)果如表2所示。

      2 特征提取

      2.1 用戶偏好系數(shù)計算

      用戶對節(jié)目的評分是其偏好程度最直觀的反映,遺憾的是多數(shù)用戶的評分項是缺失的,巨大的稀疏性導(dǎo)致評分項并不能反映每個用戶的

      偏好系數(shù)。本文根據(jù)用戶對每個節(jié)目的觀看時長計算其偏好系數(shù),如式(1)所示。

      Pi=Tei-Tsi。(1)

      其中,Tei是用戶觀看第i(i[1,n])個節(jié)目的結(jié)束時間,Tsi為用戶觀看第i個節(jié)目的開始時間。為使用戶觀看時長具有可比性,便于計算推薦系數(shù),須進(jìn)行標(biāo)準(zhǔn)化和歸一化處理,如式(2)和(3)所示。

      Qi=Pi-μσ。(2)

      Ni=Qi-QminQmax-Qmin。(3)

      其中,μ為全部用戶觀看節(jié)目時長的均值,μ=ni=1pin;σ為標(biāo)準(zhǔn)差,σ=1nni=1(pi-μ)2;Ni為歸一化后的偏好系數(shù)。

      2.2 標(biāo)簽相似度矩陣

      將所有用戶觀看的電視節(jié)目預(yù)先劃分到不同的類別標(biāo)簽中,構(gòu)造一棵類別-節(jié)目樹,如圖1所示。屬于同一類別的節(jié)目相似度顯然高于屬于不同類別之間的節(jié)目。

      1) 構(gòu)建用戶-標(biāo)簽矩陣。統(tǒng)計每個用戶觀看過的類別標(biāo)簽,看過的標(biāo)記為1,沒看過的標(biāo)記為0。部分用戶-標(biāo)簽矩陣如表3所示。

      2) 構(gòu)建標(biāo)簽-標(biāo)簽矩陣。利用杰卡德系數(shù)計算兩個不同類別標(biāo)簽之間的相似度方法為

      J(A,B)=A∩BA∪B。(4)

      其中,A、B為不同的標(biāo)簽類別。A∩B表示在用戶-標(biāo)簽矩陣中,這兩個標(biāo)簽類別同時被標(biāo)注為1的用戶總數(shù);A∪B表示在用戶-標(biāo)簽矩陣中,這兩個標(biāo)簽類別的任何一個或兩個被標(biāo)注為1的用戶總數(shù)。例如,對于表3中4個用戶而言,劇情和喜劇之間A∩B=1, A∪B=4,相似度約為0.25。對于相同類別,即將標(biāo)簽-標(biāo)簽矩陣中的對角線數(shù)值設(shè)置為0。針對全部用戶,采用傳統(tǒng)杰卡德系數(shù)計算相似度時,沒有考慮熱門物品對計算結(jié)果的影響,會影響推薦系統(tǒng)的準(zhǔn)確率,計算結(jié)果如表4所示。

      在計算物品相似度時,加入懲罰因子,如式(5)所示,以減少熱門物品對計算結(jié)果的影響,計算結(jié)果如表5所示。

      J(A,B)=A∩BA∪B×1A∪B。(5)

      以用戶2看過的類別標(biāo)簽(喜?。槔?,在標(biāo)簽-標(biāo)簽矩陣中,與喜劇標(biāo)簽相似度最高的兩個標(biāo)簽分別為劇情和動作。對比表4和表5發(fā)現(xiàn),喜劇與劇情類別標(biāo)簽相似度降為原來的6.63%,喜劇與動作類別標(biāo)簽相似度降為原來的8.16%,喜劇與動畫類別標(biāo)簽相似度降為原來的8.18%。明顯可以看出,加入懲罰因子后,與熱門標(biāo)簽相關(guān)的類別相似度降幅最大。據(jù)此進(jìn)行電視節(jié)目推薦,可以避免熱門標(biāo)簽對電視節(jié)目推薦所占權(quán)重過大的問題。實驗表明,改進(jìn)杰卡德相似系數(shù)可以提高推薦系統(tǒng)的準(zhǔn)確率和召回率。

      3 算法改進(jìn)

      利用傳統(tǒng)算法推薦節(jié)目時,先基于用戶觀看過的節(jié)目信息,再根據(jù)節(jié)目-節(jié)目相似度矩陣,直接選擇K個相似度較大的節(jié)目推薦,并忽略已觀看的節(jié)目。基于標(biāo)簽的協(xié)同過濾算法不同于傳統(tǒng)基于物品的協(xié)同過濾算法,除了選擇K個相似度較大的新標(biāo)簽類別進(jìn)行預(yù)推薦外,也不忽略已觀看的標(biāo)簽類別,因為屬于這類標(biāo)簽的新節(jié)目更值得向用戶推薦。

      3.1 新標(biāo)簽類別的節(jié)目推薦

      向用戶推薦新標(biāo)簽類別節(jié)目的主要過程分兩步:

      1) 計算新標(biāo)簽和用戶已觀看標(biāo)簽類別間的相似度。對于測試集D中的某用戶Ui(UiD),根據(jù)其已觀看的類別標(biāo)簽信息,在標(biāo)簽-標(biāo)簽矩陣

      S中選擇與其觀看過的標(biāo)簽Xj相似度排名前k個的標(biāo)簽類別,作為預(yù)推薦標(biāo)簽。這些標(biāo)簽類別和用戶Ui觀看過的標(biāo)簽類別Xj之間的相似度系數(shù)為Sxj,ki。

      2) 計算節(jié)目推薦系數(shù)。對于預(yù)推薦的標(biāo)簽類別ki,統(tǒng)計訓(xùn)練集T中所有用戶Tu對屬于ki標(biāo)簽類別的節(jié)目m的偏好系數(shù)λkim,并從大到小排序。假設(shè)λkim1≥λkim2≥λkim3≥λkim4≥λkim5≥...,選擇前5個節(jié)目m1,m2...,m5進(jìn)行推薦,推薦系數(shù)Rmj為

      Rmj=Sxj,ki×λkimj。

      (6)

      3.2 已觀看標(biāo)簽類別的節(jié)目推薦

      對于用戶已觀看標(biāo)簽類別的節(jié)目推薦過程也分兩步:

      1) 計算已觀看標(biāo)簽類別的影響因子。從測試集D中選擇某用戶Ui(UiD), 統(tǒng)計其所有已觀看的標(biāo)簽類別X,并建立字典dict{Xj:nj},其中,XjX,nj為Xj在X中出現(xiàn)的次數(shù)。已觀看標(biāo)簽類別對于推薦節(jié)目的影響因子j為

      j=nj/n。(7)

      其中,n為用戶Ui觀看所有節(jié)目標(biāo)簽類別的總次數(shù)。

      2) 計算節(jié)目推薦系數(shù)。對于已觀看標(biāo)簽類別的節(jié)目推薦系數(shù)為

      Rmj=j×λxjm。(8)

      其中,λxjm為用戶Tu對已觀看標(biāo)簽Xj中節(jié)目m的推薦系數(shù)。

      3.3 選擇節(jié)目完成推薦

      對上述得到的推薦系數(shù)Rmj從大到小排列,將前N個推薦系數(shù)所對應(yīng)的電視節(jié)目iN={im1,im2,...,imN} 推薦給用戶Ui。

      4 實驗結(jié)果及分析

      4.1 評價指標(biāo)

      推薦系統(tǒng)的評測指標(biāo)很多,常用的有平均誤差(MAE)、準(zhǔn)確率(Precision)和召回率(Recall)。通常在離線環(huán)境下采用預(yù)測準(zhǔn)確率來評測推薦系統(tǒng)預(yù)測用戶行為的能力。本文基于標(biāo)簽的協(xié)同過濾算法采用準(zhǔn)確率與召回率來度量,計算方法分別如式(9)和(10)所示。

      P=u∈UR(u)∩T(u)u∈UR(u)。(9)

      c=u∈UR(u)∩T(u)u∈UT(u)。(10)

      其中,R(u)表示在訓(xùn)練集上為用戶U推薦出的節(jié)目集合,T(u)表示用戶U在測試集上觀看過的節(jié)目集合。

      4.2 實驗參數(shù)選擇

      相似度較高的標(biāo)簽類別數(shù)量(k)的選擇非常重要,直接影響模型推薦準(zhǔn)確率。在基于標(biāo)簽的協(xié)同過濾算法中,分別選擇k=1,2,3,4,5,6進(jìn)行實驗。實驗表明,當(dāng)k=2時推薦系統(tǒng)準(zhǔn)確率和召回率相對較高,分別如圖2和3所示。

      4.3 實驗結(jié)果比較

      為驗證改進(jìn)算法的效果,對傳統(tǒng)基于物品的協(xié)同過濾算法和本文所提出的基于標(biāo)簽類別的協(xié)同過濾算法進(jìn)行了實驗對比,準(zhǔn)確率和召回率結(jié)果如圖4所示。

      從圖4中可以看到,基于標(biāo)簽的協(xié)同過濾算法比傳統(tǒng)基于物品的協(xié)同過濾算法,在準(zhǔn)確率和召回率上都有更好的表現(xiàn),準(zhǔn)確率從10%提高到15%,召回率從13%提高到16.1%。這主要是因為改進(jìn)算法降低了矩陣稀疏程度,更有利于提升推薦系統(tǒng)的準(zhǔn)確率和召回率。

      另外,改進(jìn)杰卡德相似度系數(shù)對推薦系統(tǒng)性能和評價指標(biāo)的影響如圖5所示。

      從圖5可知,利用改進(jìn)杰卡德系數(shù)計算標(biāo)簽-標(biāo)簽相似度矩陣,可使推薦系統(tǒng)的準(zhǔn)確率和召回率進(jìn)一步提升,其中,準(zhǔn)確率提高了5%,召回率提高了2.3%。這主要是因為在改進(jìn)杰卡德系數(shù)中加入了懲罰因子,對熱門標(biāo)簽進(jìn)行懲罰,減少了它對推薦結(jié)果的影響。

      5 結(jié)束語

      電視節(jié)目推薦不同于其他推薦系統(tǒng),其推薦范圍大、用戶偏好廣、數(shù)據(jù)更加分散。這些特點使得電視節(jié)目推薦存在更大的挑戰(zhàn),受到了很多學(xué)者關(guān)注。在協(xié)同過濾算法中,相似度矩陣的計算直接影響推薦系統(tǒng)性能[12]。本文提出的基于標(biāo)簽的協(xié)同過濾算法,對標(biāo)簽進(jìn)行預(yù)推薦,大大減小了物品相似度矩陣的計算維度。另外,為了降低熱門標(biāo)簽對推薦結(jié)果的影響,加入懲罰因子改進(jìn)杰卡德系數(shù)。實驗結(jié)果表明,基于標(biāo)簽的協(xié)同過濾算法和加入懲罰因子的杰卡德系數(shù),相比傳統(tǒng)算法在準(zhǔn)確率和召回率上都有一定程度的提高。

      [參考文獻(xiàn)]

      參考文獻(xiàn)內(nèi)容

      [1] 王強(qiáng).基于協(xié)同過濾的個性化推薦算法研究及系統(tǒng)實現(xiàn)[D].成都:西南交通大學(xué), 2017.

      [2] 嵇曉聲,劉宴兵,羅來明.協(xié)同過濾中基于用戶興趣度的相似性度量方法[J].計算機(jī)應(yīng)用,2010,30(10):2618-2620.

      [3] 劉青文.基于協(xié)同過濾的推薦算法研究[D]. 合肥:中國科學(xué)技術(shù)大學(xué),2013.

      [4] SARWAR B,KARYPIS G,KONSTAN J, et al. Itembased collaborative filtering recommendation algorithms[C]//International Conference on World Wide Web. Hong Kong:ACM,2001:285-295.

      [5] YU K,XU X,ESTER M,et al.Feature weighting and instance selection for collaborative filtering:An informationtheoretic approach [J].Knowledge & Information Systems, 2003, 5(2):201-224.

      [6] 于洪,李俊華.一種解決新項目冷啟動問題的推薦算法[J].軟件學(xué)報,2015, 26(6):1395-1408.

      [7] 黃創(chuàng)光,印鑒,汪靜,等.不確定近鄰的協(xié)同過濾推薦算法[J].計算機(jī)學(xué)報,2010, 33(8):1369-1377.

      [8] 徐德智,李小慧.基于云模型的項目評分預(yù)測推薦算法[J].計算機(jī)工程,2010, 36(17):48-50.

      [9] 張光衛(wèi),李德毅,李鵬,等. 基于云模型的協(xié)同過濾推薦算法[J].軟件學(xué)報,2007,18(10):2403-2411.

      [10] 蔣翠清,張玉,陸文星,等. 基于標(biāo)簽的大眾標(biāo)注系統(tǒng)協(xié)同推薦算法[J].情報學(xué)報,2011,30(11):1152-1157.

      [11] KIM T H, YANG S B. An effective recommendation algorithm for clusteringbased recommender systems[C]// AI 2005: Advances in Artificial Intelligence. Springer Berlin Heidelberg,2005: 1150-1153.

      [12] 趙培.面向家庭用戶的電視節(jié)目動態(tài)推薦方法研究[D].合肥:合肥工業(yè)大學(xué), 2017.

      (責(zé)任編輯 責(zé)任編輯白麗媛)

      猜你喜歡
      個性化推薦協(xié)同過濾
      基于遠(yuǎn)程教育的個性化知識服務(wù)研究
      圖書推薦算法綜述
      改進(jìn)的協(xié)同過濾推薦算法
      基于鏈?zhǔn)酱鎯Y(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計與實現(xiàn)
      基于相似傳播和情景聚類的網(wǎng)絡(luò)協(xié)同過濾推薦算法研究
      個性化推薦系統(tǒng)關(guān)鍵算法探討
      基于協(xié)同過濾算法的個性化圖書推薦系統(tǒng)研究
      混合推薦算法在電影推薦中的研究與評述
      文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個性化推薦中的應(yīng)用
      武隆县| 忻州市| 景德镇市| 克什克腾旗| 馆陶县| 东兴市| 凉城县| 称多县| 黄大仙区| 巴楚县| 蒲城县| 常熟市| 孝感市| 岳阳市| 元朗区| 咸丰县| 新乡市| 永仁县| 大连市| 东丰县| 灵石县| 凤庆县| 汉沽区| 文水县| 涞水县| 伊宁县| 乌拉特前旗| 双牌县| 洮南市| 吉隆县| 泰顺县| 贵南县| 儋州市| 宜城市| 玉树县| 永吉县| 峡江县| 康马县| 稷山县| 凯里市| 乐亭县|