• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于大數據分析的影音推薦系統(tǒng)研究

      2021-11-22 06:40:38
      渭南師范學院學報 2021年11期
      關鍵詞:維和集群聚類

      信 曉 藝

      (德州學院 數學與大數據學院,山東 德州 253000)

      隨著互聯網技術的飛速發(fā)展,網絡中相同類型的信息越來越多,互聯網用戶每天都會面臨各種各樣的選擇。互聯網用戶這種需求的逐漸增多,促使個性化推薦方法查找相關信息逐漸得到推廣。個性化推薦方法不僅有助于根據用戶的興趣特征和歷史行為過濾掉不必要的信息,還可以更深入地挖掘用戶的潛在興趣。以電影為例,當前視頻網站上有大量電影資料,并且每天都會發(fā)布新電影。但是,互聯網用戶無法在視頻頁面上快速找到需要的電影數據,導致用戶花費大量的時間來搜索數據,減少了看電影的時間,而個性化推薦系統(tǒng)可以幫助用戶過濾掉不需要的信息,對于需要的信息,系統(tǒng)可以幫助用戶按興趣或其他形式尋找并分類。在大數據時代,個性化推薦系統(tǒng)已在每個人都最熟悉的電子商務行業(yè)中采用。系統(tǒng)根據用戶之前的購買數據確定用戶的偏好,或者對數據進行分析,然后根據分析結果推薦產品,以滿足用戶的最大需求并進一步提高銷售量。當前,一些大型網站(例如Amazon、T-mall和JD.com)都在使用個性化推薦服務,個性化推薦在實踐中可以說是非常重要的[1-5]。

      國內對推薦算法的研究與西方發(fā)達國家之間存在很大差異。近年來,相關領域專家學者的研究越來越全面深入。盧永祥等人[6]對中文文本過濾技術進行了深入研究,最終提出了一種組合文本過濾模型,該算法主要基于內容過濾和協(xié)同過濾。單曉磊等人[7]提出了一種基于網絡密度的用戶偏好偏差檢測方法,該方法可以快速檢測用戶偏好偏差,消除系統(tǒng)建議用戶的影響,提高系統(tǒng)建議的準確性。趙濤等人[8]提出了一種算法,該算法推薦從二元晶格模型派生的材料的擴散出發(fā),假設每個項目節(jié)點都有自己的初始資源,在第一次擴散之后,它均勻地分布在所有節(jié)點上,然后用戶共享自己的資源,接著以相同的方式將其返回項目的節(jié)點,獲取項目之間的建議資源并編寫建議。高銳[9]提出了一種將社交媒體和協(xié)作過濾算法結合在一起的視頻推薦方法,并根據目標用戶的朋友的實例和他們的評分,通過計算候選電影的得分來生成推薦。本文介紹了K-means聚類算法和SVD算法,并結合視聽推薦系統(tǒng)的當前狀態(tài),優(yōu)化并提出了一種基于過濾器的協(xié)同過濾影視推薦算法。從推薦系統(tǒng)的應用場景出發(fā),結合目前在影視網站上廣泛使用的影視內容推薦系統(tǒng),介紹了當前流行的算法分析及推導過程,基于針對協(xié)同過濾算法的數據稀疏性和冷啟動問題,提出改進算法。

      1 基于降維和聚類的協(xié)同優(yōu)化算法

      本文提出的基于降維和聚類技術的新型協(xié)同過濾推薦算法的目標在于緩解稀疏性、冷啟動以及可伸縮性等問題對推薦內容的影響,提高推薦算法的性能。通過K-means算法(K均值算法)和Singular Value Decomposition算法(SVD算法)分別對相似的用戶或內容進行聚類和降維處理。

      本文的主要貢獻點在于構建了一個有效的兩階段推薦系統(tǒng),無論數據集的大小如何,該系統(tǒng)都可以生成準確的推薦信息。第一個階段為離線模型的創(chuàng)建,在這一階段中,通過以下方式構建推薦模型:根據用戶的偏好對用戶的評分進行聚類,縮小數據的維度,計算相似度。在這一階段中,主要利用K均值算法和SVD算法進行優(yōu)化。第二階段是在線模型的利用,利用創(chuàng)建得到的模型為給定的用戶生成高質量的準確的推薦內容。在聚類過程中,使用K-means算法將用戶分組以形成K個聚類,并且每個聚類由具有相似排名首選項的用戶組成。 這可以幫助提高推薦算法的性能,因為當僅考慮集群中包括的用戶而不是考慮所有人員時,它需要更少的計算和更準確的推薦內容[8]。

      本文在研究過程中進行了部分修改,以在協(xié)作過濾算法中更好地使用原始的K-means算法進行用戶聚類。第一,選擇一個隨機用戶K作為K聚類的初始中心。第二,根據用戶和每個集群中心之間的距離,將其分配給最近的集群。第三,計算用戶集群的新均值,以確定每個集群的新質心。第四,對于每個用戶,重新計算距離以確定應將用戶添加到哪個集群。第五,它重復用戶距離的計算和用戶的重新分配,直到滿足條件的命令完成。具體的分組步驟如下:(1)輸入用戶對影視內容的評分矩陣,以及需要聚類的類別數目K;(2)隨機選擇初始的K個用戶作為聚類中心;(3)計算距離并分配集群;(4)對于每個用戶集群計算平均值作為新的分類中心;(5)使用新的分類中心將用戶重新分配到新的集群中;(6)判斷算法是否收斂到穩(wěn)定的分類,否則重復執(zhí)行(4)和(5);(7)輸出K個聚類。

      通過上面的步驟可以得到對用戶進行集群聚類的結果,具體的聚類效果如表1和表2所示。

      表1 原始的用戶評分矩陣

      表2 聚類后的用戶集群評分矩陣

      表1和表2顯示了初始用戶評分矩陣通過K均值算法得到用戶集群評分矩陣。在用戶評分矩陣中,每一列代表系統(tǒng)中的內容,每一行代表用戶,ri,j表示用戶i對內容j的評分。同樣,在用戶集群評分矩陣中,每一列代表系統(tǒng)中的內容,每一行代表用戶集群,cx,y表示用戶集群y對項目x的平均評分。

      通過上面的聚類雖然可以減少一部分評分內容,減少矩陣的維數,但是得到的用戶集群評分矩陣的維數仍然較高,因此我們利用SVD算法進行進一步降維。SVD算法(奇異值分解算法)是矩陣分解的算法之一,通常用于減少一組數據的特征數量。對于研究中的矩形評分矩陣X[n,m],其中n行代表用戶的聚類中心,m列表示內容,因此可以將矩陣X分解為以下形式:X=U·S·VT,其中U表示大小為m×r的正交矩陣,r列為左奇異矢量,S是大小為r×r的對角矩陣包含奇異值,VT是大小為r×n的正交矩陣,具有右奇異值矢量。進一步來說,矩陣X中包括m個用戶和r個因子的聚類中心,對角陣S中的r表示的是矩陣的秩,V矩陣中則包括n個用戶和r個因子。

      因此,通過上面的說明,在離線階段中算法的步驟可以總結為[9]:

      (1)輸入包含原始用戶評分矩陣的原始用戶資料;(2)使用K均值算法創(chuàng)建用戶集群,得到用戶集群評分矩陣;(3)對于每個集群的評分矩陣,應用SVD算法進行處理獲取分解矩陣;(4)對于得到的每個分解矩陣計算相似度;(5)輸出推薦模型。

      在離線階段創(chuàng)建并訓練了推薦模型后,就可以將模型部署到在線推薦系統(tǒng)中進行預測和推薦任務。在此階段,還需要進行SVD的計算預測新用戶的評分。具體步驟為:

      (1)輸入新加入的用戶u、內容i和推薦模型;(2)使用原始的評分矩陣查找包含對內容i評分的用戶集群;(3)預測新加入的用戶u的評分情況;(4)輸出推薦建議。

      用于預測新加入用戶評分情況的計算方法如式(1)所示。

      (1)

      表3 SVD分解用戶集群評分矩陣效果

      2 算法實驗

      為了評估本文提出的方法的有效性,我們選擇了3個廣泛用于評估的數據集。第一個數據集是伯克利大學提出的MovieLens 1 M,它從大約6 000個用戶中收集了4 000多個在線電影的收視率,其中收集了大約100萬個收視率數據。第二個數據集是MovieLens 10 M,它從大約70 000個用戶中收集了大約10 000個在線電影。這兩個數據集的電影評分范圍均為1~5星。第三個是MovieLens 100 K,它是上面兩個數據集的原始版本,并且包含的數據較少。數據集包括80%的訓練練習和20%的測試集。實驗條件:CPU采用Intel Core i7-8700,內存采用8 GB內存,顯卡為Nvidia GeForce GTX 1080ti,顯存為11 GB,相關信息如表4所示[10-12]。

      表4 實驗數據集信息表

      為了比較本實驗中方法的性能,采用RMSE作為指標。具體來說,RMSE提供了有關用戶選擇的真實內容和預測的可能性內容之間的差異。RMSE值越小表明推薦系統(tǒng)性能越好。其計算公式為

      (2)

      其中:pu,i是用戶u對內容i的預測評分,ru,i表示實際評分,而N表示對此內容的總評分。

      在實驗中我們將本文提出的基于降維和聚類的協(xié)同過濾算法與基于K均值算法的協(xié)同過濾算法和基于K近鄰的協(xié)同過濾算法進行比較,鄰居范圍設定為10~50。實驗結果如表5所示,整體的實驗對比如圖1、圖2和圖3所示。

      表5 3種算法的RMSE結果比較

      圖1 100 K數據集RMSE對比

      圖2 1 M數據集RMSE對比

      圖3 10 M數據集RMSE對比

      從以上實驗結果可以看出,本文提出的降維和聚類的協(xié)同過濾推薦算法在所有比較算法中具有最好的推薦效果。在圖1中,MovieLens 100 K數據集的降維和聚類協(xié)作推薦過濾方法在預測精度方面優(yōu)于其他兩個。還可以看出,基于K均值的推薦優(yōu)于最近的基于K均值的推薦。圖2顯示了MovieLens 1 M數據集的3種比較方法的RMSE結果。圖3顯示了MovieLens 10 M數據集的3種比較方法的RMSE結果。與基于K均值推薦值和最近鄰K推薦值的方法相比,可以看出本文方法在所有相鄰的RMSE曲線中都保持最低值[13]。

      同時為了選取最好的參數,對比不同數據集的K,實驗結果如表6所示,可以看出聚類參數K為50左右時取得的聚類效果最好,因此在本文中推薦系統(tǒng)的聚類個數設置為K=50,實驗對比圖如圖4所示。

      表6 聚類參數K的RMSE結果比較

      圖4 不同K值的推薦效果對比

      為了更全面地驗證本文提出方法的有效性,除了前面提到的RMSE之外,本文還對比了3種方法在指標中的表現,3個指標的具體數值如圖5所示。

      圖5 3種方法推薦質量對比

      針對以上算法,建立了基于降維和聚類的系統(tǒng)過濾影音推薦系統(tǒng),通過設置配置文件web.xml,調用基于降維和聚類的協(xié)同過濾推薦模塊得到推薦的影視內容,如圖6所示。根據用戶喜歡的電影,生成對應的影視推薦內容;其中用戶喜歡的電影列出了當前用戶觀看過的電影和對電影的評分以及相應的推薦電影列表,如圖7所示。

      圖6 設置調用基于降維和聚類的協(xié)同

      圖7 基于降維和聚類協(xié)同過濾推薦的結果頁

      3 結語

      本文分析了協(xié)同過濾推薦算法中存在的數據稀疏性、冷啟動等問題的原因,研究并設計了基于降維和聚類的協(xié)同過濾影視推薦算法,設計實驗對本文提出算法的有效性進行了驗證,對比了其他推薦算法的性能;通過K均值算法和SVD算法的優(yōu)化提升了協(xié)同過濾算法的推薦性能。最后,通過設計的實驗與其他方法進行對比,證明了本文提出的方法達到了預設的研究目標[14]。

      猜你喜歡
      維和集群聚類
      維和親歷記
      海上小型無人機集群的反制裝備需求與應對之策研究
      一種無人機集群發(fā)射回收裝置的控制系統(tǒng)設計
      電子制作(2018年11期)2018-08-04 03:25:40
      維和女兵
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      Python與Spark集群在收費數據分析中的應用
      海外維和
      方圓(2017年9期)2017-06-02 10:14:23
      勤快又呆萌的集群機器人
      基于改進的遺傳算法的模糊聚類算法
      一種層次初始的聚類個數自適應的聚類方法研究
      博野县| 漳平市| 竹北市| 新乐市| 丰镇市| 太白县| 房产| 汤阴县| 阳泉市| 资源县| 桓仁| 晋城| 临武县| 乳源| 唐山市| 额济纳旗| 沛县| 东至县| 衡南县| 惠水县| 通道| 得荣县| 马龙县| 陵川县| 米林县| 丽江市| 陇西县| 绥江县| 灵山县| 湄潭县| 井研县| 十堰市| 永城市| 泰州市| 郓城县| 东至县| 淳化县| 汕尾市| 滕州市| 牙克石市| 三台县|