• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      混合推薦算法在電影推薦中的研究與評(píng)述

      2016-11-24 18:12黃瑋琦
      電腦知識(shí)與技術(shù) 2016年26期

      黃瑋琦

      摘要:現(xiàn)代互聯(lián)網(wǎng)已經(jīng)成為了大量信息傳播和擴(kuò)散的主要途徑,電影作為娛樂的重要一環(huán)也在互聯(lián)網(wǎng)中充斥著自己的身影,網(wǎng)上觀影已經(jīng)成為了一種或不可缺的休閑方式,優(yōu)秀方便的電影推薦系統(tǒng)也就成為了炙手可熱的互聯(lián)網(wǎng)新寵。但是,現(xiàn)在很多網(wǎng)站的電影推薦系統(tǒng)并沒有我們所期望的那么智能,往往給我們推薦的并不是我們真正想要看的電影,那么,研究它們的推薦算法就變得極其有意義。

      關(guān)鍵詞:電影;推薦算法;基于內(nèi)容;協(xié)同過濾;混合推薦

      中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)26-0190-03

      由于現(xiàn)代科技的快速更新與進(jìn)步,互聯(lián)網(wǎng)技術(shù)也在日新月異地提升。人類的日常生活也越來(lái)越離不開網(wǎng)絡(luò),無(wú)論是獲取知識(shí),了解新聞還是放松娛樂都可以在網(wǎng)絡(luò)上找到相應(yīng)的資源。然而互聯(lián)網(wǎng)上的存儲(chǔ)信息在以指數(shù)爆炸的模式進(jìn)行快速增長(zhǎng),人們?cè)诮佑|到大量的互聯(lián)網(wǎng)信息的同時(shí),從中獲取并利用真正有效的信息也變得越來(lái)越困難。這種情況被稱之為“信息過載”和“信息迷航”。

      電影資源的大量產(chǎn)生是互聯(lián)網(wǎng)信息爆炸現(xiàn)象的一個(gè)具體方面。那么,我們?nèi)绾螐幕ヂ?lián)網(wǎng)海量電影數(shù)據(jù)中挑選我們想看的呢?這個(gè)問題引入了現(xiàn)代個(gè)性化推薦系統(tǒng)的產(chǎn)生。

      1個(gè)性化推薦

      1.1個(gè)性化推薦的現(xiàn)狀

      個(gè)性化推薦技術(shù)是一種通過用戶的歷史記錄來(lái)確定用戶的偏好特征,從而為用戶提供符合其偏好以及潛在偏好的個(gè)性化服務(wù)的技術(shù)。該技術(shù)可應(yīng)用于生活中的各種方面渠道,例如電影視頻方面,各大門戶網(wǎng)站可根據(jù)用戶的歷史瀏覽記錄分析并推送符合用戶愛好的個(gè)性化信息。這一過程將網(wǎng)絡(luò)從被動(dòng)地接受使用者請(qǐng)求的行為轉(zhuǎn)變成了主動(dòng)感知到使用者的需求。

      個(gè)性化推薦這一概念是在上世紀(jì)末才被獨(dú)立提出的,它以數(shù)據(jù)挖掘?yàn)榛A(chǔ),根據(jù)符合條件的相應(yīng)推薦算法來(lái)分析得出用戶的愛好和傾向,并從大量的互聯(lián)網(wǎng)信息存儲(chǔ)中鎖定用戶的興趣資源或潛在興趣資源主動(dòng)推薦給用戶。[1]

      個(gè)性化推薦系統(tǒng)的發(fā)展十分快速。在1995年3月,卡耐基。梅隆大學(xué)的Robert Armstrong等人提出了個(gè)性化導(dǎo)航系統(tǒng)Web Watcher。隨后各大著名企業(yè)均開始制定并推出了各自的個(gè)性化廣告方案,例如谷歌開創(chuàng)的AdWards盈利模式,雅虎隨之推出了SmartAds廣告方案, Overstock(美國(guó)著名的網(wǎng)上零售商)根據(jù)ChoiceStream公司制作的個(gè)性化橫幅廣告方案,等等。我國(guó)首個(gè)個(gè)性化推薦系統(tǒng)研究團(tuán)隊(duì)北京百分點(diǎn)信息科技有限公司成立于2009年,旨在研究和開發(fā)個(gè)性化搜索引擎技術(shù)和解決方案。[2]

      1.2電影推薦的現(xiàn)狀

      電影和視頻門戶網(wǎng)站在當(dāng)下互聯(lián)網(wǎng)中占據(jù)了不小的比例,在個(gè)性化推薦系統(tǒng)中也是一塊非常重要的研究領(lǐng)域。各大電影網(wǎng)站根據(jù)自身的電影檢索和推薦機(jī)制,通過用戶的個(gè)人信息從互聯(lián)網(wǎng)大量的視頻中抽取用戶可能感興趣的視頻內(nèi)容。其中最為出名的應(yīng)為Netflix公司。其于2006年設(shè)立的百萬(wàn)獎(jiǎng)金比賽,規(guī)則是實(shí)現(xiàn)一個(gè)電影推薦系統(tǒng)來(lái)預(yù)測(cè)其用戶感興趣的電影,并使預(yù)測(cè)準(zhǔn)確率達(dá)到10%。[3]另有主流視頻門戶網(wǎng)站如Youtobe和Hulu,也都在個(gè)性化推薦方面進(jìn)行了大量研究,以提高視頻網(wǎng)站的訪問量,增加用戶的觀影愉悅度。

      國(guó)內(nèi)的電影及視頻網(wǎng)站近年來(lái)發(fā)展逐漸迅速。優(yōu)酷,愛奇藝,樂視等網(wǎng)站都推出了各自的電影推薦系統(tǒng),雖然推薦結(jié)果的預(yù)測(cè)準(zhǔn)確性還有待進(jìn)一步提高。豆瓣電影相對(duì)口碑較佳,其網(wǎng)站根據(jù)用戶瀏覽的電影頁(yè)面和用戶進(jìn)行的評(píng)分從海量電影資源里尋找符合用戶興趣的電影,通過猜你喜歡等模塊推送給用戶,提高了用戶的滿意度。

      2相關(guān)推薦算法

      2.1 基于內(nèi)容的推薦算法

      2.1.1算法簡(jiǎn)介

      這是一種較為簡(jiǎn)單的推薦算法,其根源為信息檢索及信息過濾技術(shù),在大量信息里面挖掘出與用戶興趣相似的電影從而推薦給用戶。該算法根據(jù)對(duì)用戶的歷史瀏覽記錄進(jìn)行分析,通過用戶過去感興趣的產(chǎn)品, 來(lái)向用戶推薦尚未產(chǎn)生接觸的推薦項(xiàng)(本論文專指電影)。例如電影網(wǎng)站可以根據(jù)某個(gè)用戶過去觀看了許多恐怖類電影進(jìn)而為用戶推薦其他恐怖類電影。

      基于內(nèi)容的推薦算法的基本思想是如果使用者的歷史記錄顯示了他對(duì)某種特征的電影感興趣,那么他可能對(duì)相似特征的也感興趣。出于這個(gè)思想,基于內(nèi)容的推薦算法主要需要結(jié)構(gòu)化兩種描述文件,用戶特征的描述和電影特征的描述。[4]用戶特征的描述來(lái)源于用戶對(duì)電影的評(píng)分集合和用戶建立時(shí)選擇的標(biāo)簽類型。通過這些來(lái)建立一個(gè)用戶的興趣模型。電影特征的描述來(lái)源于用戶的評(píng)分以及上線時(shí)的標(biāo)簽,一般包括電影的特征,屬性信息。推薦系統(tǒng)會(huì)經(jīng)常定時(shí)的更新并且維護(hù)用戶和電影的特征文件,推薦過程就是當(dāng)需要獲取某個(gè)用戶的推薦列表時(shí),就去比較用戶和電影的特征文件的相似性,選取相似性高的推薦出去。

      該算法主要可從以下三個(gè)步驟進(jìn)行描述:

      1)movie Representation:從每個(gè)movie中抽取出部分特征(也就是movie的標(biāo)簽特征)來(lái)代表此movie;

      2) Profile Learning:根據(jù)某個(gè)用戶過去感興趣(或不感興趣)的movie的特征數(shù)據(jù)進(jìn)行研究,來(lái)得出此用戶的興趣特征(profile);

      3)Recommendation Generation:根據(jù)對(duì)上一步驟中得到的用戶profile與候選movie的特征進(jìn)行對(duì)比,以此為依據(jù),為用戶推薦一組關(guān)聯(lián)性最大的movie。[5]

      常見的方法是利用添加標(biāo)簽來(lái)代表這部電影的屬性,而每個(gè)屬性對(duì)應(yīng)的權(quán)重往往是根據(jù)一定的算法。根據(jù)用戶過去的電影瀏覽記錄來(lái)推算出此用戶感興趣的 profile,最為基礎(chǔ)的方法是把用戶所有感興趣的電影對(duì)應(yīng)的向量平均值來(lái)用作此用戶的profile。在獲得了一個(gè)用戶的profile后,本算法就可根據(jù)所有movie與此用戶profile的關(guān)聯(lián)度來(lái)為該用戶推薦可能符合其愛好的電影了。

      3電影混合推薦系統(tǒng)的研究與實(shí)現(xiàn)

      本文上述介紹了目前兩種最為常用的推薦算法原理和他們的優(yōu)缺點(diǎn),在目前已經(jīng)使用的各大電影推薦網(wǎng)站中,這兩種算法并不會(huì)是單獨(dú)出現(xiàn)的,而是經(jīng)常被混合起來(lái)使用的,例如國(guó)外知名電影推薦網(wǎng)站jinni,它所采用的檢索工具叫Movie Genome,同樣也是Google TV所采用的個(gè)性化搜索工具。Jinni 把用戶分為12類型,戰(zhàn)略家、現(xiàn)實(shí)主義者、理想主義者情景劇愛好者和懸疑愛好者等等。在對(duì)用戶進(jìn)行分類后,Jinni通過獲取這類的用戶偏向和歷史行為來(lái)總結(jié)出這類用戶的特征偏向,以此進(jìn)一步確認(rèn)用戶的偏好類型。而用戶對(duì)電影的評(píng)級(jí)分為10級(jí),由低到高為not at all到strong learning。最后,通過觀察與其他用戶的聯(lián)系,用戶可以了解自己與其他用戶的關(guān)聯(lián)程度,并且能夠選擇自己是否要跟從類似用戶的選擇。如果用戶選擇跟從,那么用戶的推薦列表會(huì)被類似用戶最近觀賞的電影目錄所影響。Jinni 在用戶文件夾中會(huì)顯示聯(lián)系緊密的其他用戶最近觀賞過的電影以及大多數(shù)人對(duì)該電影的評(píng)分。當(dāng)用戶進(jìn)入 Jinni推薦頁(yè)面,根據(jù)用戶偏好,產(chǎn)生用戶的推薦列表; 另外根據(jù)相似用戶群的最近活動(dòng)信息,將評(píng)分較高的電影選出以產(chǎn)生另一個(gè)推薦列表。

      那么,下文將會(huì)簡(jiǎn)單介紹一種混合推薦系統(tǒng)的實(shí)現(xiàn),也將采用基于內(nèi)容的推薦算法加上協(xié)同過濾算法。

      首先明確的是,不管使用哪種推薦算法,都需要先計(jì)算用戶的相似度,因?yàn)橛脩舻南嗨贫却蟪潭壬象w現(xiàn)了這個(gè)用戶的特征偏向以及他是否是一個(gè)新用戶。如果這個(gè)用戶是一個(gè)新用戶或者活躍度非常低,那么他就不太適合采用協(xié)同過濾的算法來(lái)進(jìn)行推薦,而應(yīng)該直接采用基于內(nèi)容的推薦算法,根據(jù)他之前選擇的標(biāo)簽來(lái)進(jìn)行電影推薦,避開冷啟動(dòng);相反,如果他是一個(gè)活躍用戶,那么就可以挖掘出此用戶的歷史行為信息,來(lái)跟其他用戶的相似度進(jìn)行比較,采用協(xié)同過濾算法來(lái)進(jìn)行推薦,并且挖掘出此用戶的興趣偏向。如上所說(shuō),那么就需要為相似度設(shè)置一個(gè)閾值,可以選擇此用戶的相鄰矩陣種相鄰用戶的個(gè)數(shù)N,如果大于N,說(shuō)明矩陣不稀疏,是個(gè)活躍用戶;相反說(shuō)明矩陣稀疏,只是個(gè)新用戶。[8]

      在本電影推薦系統(tǒng)初始化的時(shí)候,會(huì)根據(jù)一些已定的標(biāo)簽將電影數(shù)據(jù)庫(kù)分類成多種特征,然后等到用戶登錄時(shí),系統(tǒng)會(huì)統(tǒng)計(jì)用戶的瀏覽歷史,然后找到用戶觀看較多的電影類別,然后組成推薦列表。具體算法的內(nèi)容可見前幾節(jié)的算法介紹。

      4小結(jié)

      本文提出的混合推薦算法主要使用協(xié)調(diào)過濾推薦,基于內(nèi)容的推薦算法則作為輔助算法。如果是新用戶或者沒有被用戶打分或者瀏覽的新產(chǎn)品則釆用基于內(nèi)容的推薦算法,一般的電影推薦任務(wù)則采用協(xié)同過濾算法?;陧?xiàng)目的協(xié)作過濾更為重視用戶的過去已經(jīng)產(chǎn)生的興趣特征,一般推薦的是符合用戶歷史瀏覽中感興趣的電影。而基于用戶的協(xié)作過濾的本質(zhì)是信息獲取和信息過濾,可以根據(jù)海量用戶群中的相似用戶的興趣特征來(lái)幫助用戶挖掘潛在興趣,推薦全新的關(guān)注電影類型。

      本算法還進(jìn)一步優(yōu)化了協(xié)同過濾推薦算法。在本算法中,通過對(duì)相似用戶的歷史瀏覽記錄進(jìn)行分析得到相關(guān)的推薦電影集合,并不直接對(duì)用戶相似度來(lái)推薦電影,而是先進(jìn)行進(jìn)一步的過濾。本算法先根據(jù)當(dāng)前用戶的點(diǎn)播記錄,挖掘其偏好特征,建立該用戶的興趣模型。然后匹配相關(guān)推薦電影集合中的相似電影與當(dāng)前用戶的興趣模型,匹配度髙的排在推薦列表的前面。該算法可以更好的保證在網(wǎng)站系統(tǒng)進(jìn)行電影推薦的時(shí)候,先展現(xiàn)在用戶眼前的是能更好滿足其偏好特征的電影類型。

      參考文獻(xiàn):

      [1] 趙亮,胡乃靜,張守志.個(gè)性化推薦算法設(shè)計(jì)[J].計(jì)算機(jī)研究與發(fā)展,2002,39(8):986-991.

      [2] 陳天昊.互聯(lián)網(wǎng)電影推薦方法的研究與實(shí)現(xiàn)[D].北京:中國(guó)科學(xué)技術(shù)大學(xué),2014.

      [3] 余力,劉魯,李雪峰.用戶多興趣下的個(gè)性化推薦算法研究[J].計(jì)算機(jī)集成系統(tǒng),2004,10(12):1610-1615.

      [4] 高斐. 面向海量數(shù)據(jù)環(huán)境的個(gè)性化推薦機(jī)制應(yīng)用研究[D].南京:南京郵電大學(xué),2014.

      [6] Paul B. Kantor , Francesco Ricci , Lior Rokach , Bracha Shapira. Recommender Systems Handbook [M]. Germany: Springer, 2010: 73-80 .

      [6] 項(xiàng)亮. 推薦系統(tǒng)實(shí)踐 [M]. 北京: 人民郵電出版社, 2012: 44-51 .

      [7] B Sarwar,G Karypis,J Konstan,J Riedl. Item-based collaborative filtering recommendation algorithms [J]. International Conference on World Wide Web, 2001,4(1):285-295.

      [8] 曹毅.基于內(nèi)容和協(xié)同過濾的混合模式推薦技術(shù)研究[D].長(zhǎng)沙:中南大學(xué),2007.

      桃园县| 宿松县| 内乡县| 亚东县| 温宿县| 安远县| 汉中市| 和平区| 重庆市| 青冈县| 连江县| 理塘县| 华蓥市| 梓潼县| 双柏县| 榆中县| 吴旗县| 商河县| 临朐县| 双峰县| 措美县| 达尔| 新昌县| 门源| 怀安县| 抚顺县| 建宁县| 漳平市| 南陵县| 启东市| 长乐市| 诏安县| 阿尔山市| 鹿泉市| 吉木乃县| 天水市| 海原县| 榆中县| 南涧| 金沙县| 五寨县|