• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于張量分解的個性化微博推薦算法研究

      2017-10-28 18:10秦曉暉
      軟件工程 2017年9期

      摘 要:隨著社交媒體的發(fā)展,微博為人們提供的服務(wù)正在極大地改變著人們使用互聯(lián)網(wǎng)的習(xí)慣,然而微博上用戶發(fā)表的大量信息,以及高頻率的信息更新,使得用戶面臨信息過載的問題而無法快速獲取他感興趣的信息。推薦系統(tǒng)是解決此問題的一種很好的方法,它是通過研究用戶已有數(shù)據(jù)來發(fā)掘用戶興趣,從而為用戶推薦可能感興趣的對象,如產(chǎn)品、網(wǎng)頁、微博等。本文介紹了一種基于張量分解技術(shù)的微博推薦算法來預(yù)測用戶對微博的興趣度,同時考慮用戶與微博、用戶與微博發(fā)布者影響因素,以及微博與微博發(fā)布者的影響因素,提高了已有算法的準(zhǔn)確度。

      關(guān)鍵詞:微博推薦;矩陣分解;張量分解

      中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A

      Abstract:With the development of social media,the services in micro-blog have significantly changed the way people use the Internet.However,as the large amount of information posted by users and the highly frequent update on micro-blogs,users often face the problem of information overload and miss out the content they are interested in.The recommendation system,which recommends items(such as products,web pages,micro-blogs,etc.)to users based on their interests,is an effective solution to this problem.The paper introduces a micro-blog recommendation algorithm based on the tensor factorization technology to predict the user's interest degree on certain micro-blog.The experimental results on real dataset show that the proposed model achieves desirable performance in characterizing the user's interest and the preprocessing of data on micro-blog.Finally,the paper presents the experimental results which show that the method significantly outperforms the baseline method.

      Keywords:micro-blog recommendation;matrix factorization;tensor factorization

      1 引言(Introduction)

      目前,一些微博推薦算法在發(fā)掘用戶在社交媒體中的興趣和行為中表現(xiàn)出了一定的優(yōu)越性,例如基于內(nèi)容的推薦算法,但是目前大多數(shù)方法都通過內(nèi)容等顯性因素來預(yù)測用戶的興趣度而沒有考慮一些內(nèi)在的隱性因素。然而社交網(wǎng)絡(luò)中的信息是豐富且復(fù)雜的,只通過一些顯性因素來預(yù)測用戶興趣度是不夠的。因子分解模型最初被用于推薦系統(tǒng)中來對用戶感興趣的商品進(jìn)行推薦[1]。為了更好地對用戶行為建模,一些研究使用隱因子模型對用戶的興趣度進(jìn)行預(yù)測,而這些無法直接獲取的隱性因素是影響用戶興趣度的主要因素。這些方法使用矩陣分解算法分別考慮用戶和微博主題,用戶和微博發(fā)布者之間的社會關(guān)系,以及微博發(fā)布者與微博主題之間的隱性因素,通過兩兩之間關(guān)系來預(yù)測用戶對微博的興趣度。然而,同樣內(nèi)容的微博被不同的發(fā)布者發(fā)布的話,用戶的興趣度是不同的,因此我們應(yīng)綜合考慮用戶與微博,以及微博發(fā)布者它們之間的隱性因素共同對微博興趣度的影響。

      張量是對向量和矩陣的擴(kuò)展[2],因此它可以表示多元數(shù)據(jù),已有的矩陣分解方法丟失了用戶與微博,以及微博發(fā)布者三者之間在三維空間上對用戶興趣度的影響而張量分解模型很好地解決推薦系統(tǒng)中存在的多元影響因素[3]。而現(xiàn)實生活中的數(shù)據(jù)一般都具有多元特征,相對復(fù)雜,因此張量模型很好地模擬了推薦系統(tǒng)中數(shù)據(jù)的多元影響關(guān)系。

      2 微博排序優(yōu)化準(zhǔn)則(Optimizing ranking criterion

      for weibo recommendation)

      3 基于張量的分解模型(Tensor factorization model)

      本文需要同時考慮用戶、微博、微博發(fā)布者這三個因素來預(yù)測用戶對微博的興趣度,即將二維矩陣拓展為三維張量來表示影響興趣度的隱性因素,也就是分解用戶—微博—發(fā)布者張量來預(yù)測用戶對微博的喜好度。

      為了和大多數(shù)的基于矩陣分解的推薦系統(tǒng)中的方法對比,我們可以將三維張量理解為在傳統(tǒng)二維矩陣的基礎(chǔ)上增加一個維度,即一種典型的張量分解方法Tucker分解,該分解模型產(chǎn)生的類似于SVD的左右奇異矩陣子結(jié)構(gòu)方便與已有算法SVD進(jìn)行實驗結(jié)果對比[5,6]。Tucker分解把原張量分解為一個核心張量與一系列矩陣的乘積。這里我們以對三維張量的分解為例說明Tucker的具體分解過程,詳見公式(5):

      4 實驗(Experiment)

      4.1 數(shù)據(jù)來源

      本文數(shù)據(jù)來源于新浪微博,使用爬蟲系統(tǒng)根據(jù)本文需求爬取相關(guān)數(shù)據(jù)[7]。網(wǎng)絡(luò)爬蟲作為一種自動提取網(wǎng)頁信息的計算機(jī)程序或者自動化腳本[8],它是搜索引擎的核心技術(shù)。本文先隨機(jī)選取一個微博用戶以發(fā)射狀不斷爬取該用戶的關(guān)注者的數(shù)據(jù),以及關(guān)注者的關(guān)注者的數(shù)據(jù),然后從這些數(shù)據(jù)中選出1024個微博用戶的主頁信息,但這些用戶的關(guān)注者人數(shù)需超過15。endprint

      4.2 評價標(biāo)準(zhǔn)

      本文通過平均準(zhǔn)確率評估預(yù)測結(jié)果的準(zhǔn)確度。本文推薦模型的結(jié)果是微博的排序,同時微博的排序位置還關(guān)聯(lián)了準(zhǔn)確度使得推薦模型能得到更準(zhǔn)確的評估,即微博成功推薦,如果它的排序越靠前那么平均準(zhǔn)確率就越高。如果系成功推薦的微博個數(shù)為0那么準(zhǔn)確率為0。評估公式見式(16):

      4.3 實驗結(jié)果

      為了驗證算法的有效性,本文增加其他幾種方法來對比實驗結(jié)果,包括按照時間排序的方法、按相似度排序的方法、矩陣分解模型算法SVD[9]。張量分解算法(TF)綜合考慮用戶、微博和微博發(fā)布者三者之間的關(guān)系,較SVD更加準(zhǔn)確地評估對用戶興趣度的影響。張量分解算法使用隨機(jī)梯度算法來估計實驗參數(shù),矩陣分解過程中K值取30準(zhǔn)確率最高。

      5 結(jié)論(Conclusion)

      時間排序的推薦方法由于依賴用戶的登錄時間而對登錄時間前后的微博轉(zhuǎn)發(fā)的概率大,因此預(yù)測的準(zhǔn)確度很低。相似度排序的算法只通過關(guān)鍵詞計算微博表面相似度來預(yù)測而忽略了內(nèi)在的語義。SVD只考慮用戶、微博與微博發(fā)布者兩兩之間的關(guān)系,忽略三者之間的共同作用沒有反映數(shù)據(jù)的真實信息而準(zhǔn)確度低于TF方法。

      參考文獻(xiàn)(References)

      [1] Lu J,et al.Recommender system application developments:a survey[J].Decision Support Systems,2015,74:12-32.

      [2]Jain P,Oh S.Provable tensor factorization with missing data[C].Advances in Neural Information Processing Systems,2014:1431-1439.

      [3] Ding G,Guo Y,Zhou J.Collective matrix factorization hashing for multimodal data[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:2075-2082.

      [4] 冷亞軍,陸青,梁昌勇.協(xié)同過濾推薦技術(shù)綜述[J].模式識別與人工智能,2014,27(8):720-734.

      [5] Rendle S.Factorization machines[A].The IEEE International Conference on Data Mining.Sydney:2010:995-1000.

      [6] Cao Y.,et al.Adapting ranking SVM to document retrieval[C].The 29th Annual International SIGIR Conference.Seattle,WA:2006:186-193.

      [7] 孫立偉,何國輝,吳禮發(fā).網(wǎng)絡(luò)爬蟲技術(shù)的研究[J].電腦知識與技術(shù),2010,6(15):4112-4115.

      [8] 高建煌.個性化推薦系統(tǒng)技術(shù)與成用[D].中國科學(xué)技術(shù)大學(xué),

      2010.

      [9] 秦曉暉.基于協(xié)同過濾的個性化微博推薦算法研究[J].軟件工程,2017,20(3):14-17.

      作者簡介:

      秦曉暉(1987-),女,碩士,助教.研究領(lǐng)域:中文信息處理,人工智能.endprint

      镶黄旗| 京山县| 进贤县| 楚雄市| 安乡县| 乌兰浩特市| 乌拉特中旗| 邛崃市| 车险| 额敏县| 武川县| 淳安县| 长乐市| 策勒县| 神农架林区| 贵州省| 屏山县| 大理市| 平远县| 乳山市| 安阳县| 霸州市| 台东市| 元谋县| 鸡泽县| 峨眉山市| 来凤县| 扬州市| 米脂县| 安义县| 讷河市| 高唐县| 儋州市| 遂宁市| 富蕴县| 西吉县| 霍邱县| 大足县| 和政县| 大宁县| 青田县|