• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于協(xié)同過濾算法的個(gè)性化圖書推薦系統(tǒng)研究

      2016-12-15 19:41:16肖斌徐佳慶張宇洋
      電腦知識(shí)與技術(shù) 2016年27期
      關(guān)鍵詞:個(gè)性化推薦協(xié)同過濾

      肖斌+徐佳慶+張宇洋

      摘要:針對(duì)高校數(shù)字圖書館對(duì)讀者需求信息挖掘不足,無法主動(dòng)為讀者提供個(gè)性化圖書推薦服務(wù)的問題。該文引入所羅門學(xué)習(xí)風(fēng)格量表,多維度、全方位的構(gòu)建讀者特征模型,并提出基于隨機(jī)算法與協(xié)同過濾推薦算法的混合推薦算法。首先,讀者通過數(shù)據(jù)量表測(cè)試得到其學(xué)習(xí)風(fēng)格,然后根據(jù)讀者的瀏覽矩陣,在同種學(xué)習(xí)風(fēng)格的用戶群體中進(jìn)行用戶之間的相似度計(jì)算,最后采用Top-N的策略向用戶進(jìn)行圖書推薦,為讀者提供符合其個(gè)性特征的圖書。實(shí)驗(yàn)結(jié)果表明,應(yīng)用該算法能有效提高系統(tǒng)的推薦質(zhì)量,達(dá)到良好的推薦效果。

      關(guān)鍵詞:協(xié)同過濾;圖書推薦系統(tǒng);個(gè)性化推薦;混合算法;學(xué)習(xí)風(fēng)格量表

      中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)27-0155-04

      Abstract:Aiming at the problem of digital library in Colleges and universities lack of reader demand information mining, unable to provide personalized book recommendation service for readers. In this paper, we introduce the Solomon learning style scale, multiform dimension, construction of a full range of readers feature model, and puts forward a hybrid recommen-dation algorithm based on the random algorithm and user based collaborative filtering . Firstly, the reader by amount of data scale test get their learning style, then according to the readers browsing matrix, in the same learning style of the user groups of users between similarity calcu-lation, finally adapt the top-N strategies to recommend books to users, provide the reader with the book that satisfies their personalized need.Experimental results show that the proposed algo-rithm can effectively improve the quality of the recommend system and perform significantly better.

      Key words:collaborative filtering; book recommendation system; personalized recommendation; hybrid algorithm; learning style scale

      1 概述

      如今,高校圖書館的圖書儲(chǔ)量非常豐富,但是,讀者想要準(zhǔn)確快速找到符合自己個(gè)性化需要的圖書資源卻比較困難。一方面,信息資源過于龐大,檢索信息需要花費(fèi)很大的時(shí)間和精力,另一方面,用戶的個(gè)性化需求也不盡相同,難以滿足所有用戶的實(shí)際需求。如何利用現(xiàn)代信息技術(shù)滿足讀者在學(xué)習(xí)生活中的個(gè)性化需求是當(dāng)前高校圖書館一個(gè)亟待解決的問題。通過對(duì)海量的信息進(jìn)行數(shù)據(jù)挖掘,同時(shí)基于挖掘出的知識(shí)開展個(gè)性化的圖書推薦是當(dāng)前高校轉(zhuǎn)變服務(wù)方式,提高服務(wù)質(zhì)量的有效手段之一。

      目前,主流的非結(jié)構(gòu)化文本數(shù)據(jù)推薦服務(wù)分為基于內(nèi)容的推薦,基于關(guān)聯(lián)規(guī)則的推薦和基于協(xié)同過濾的推薦等三類。其中,基于內(nèi)容的推薦,是在沒有足夠的數(shù)據(jù)下,可以向具有不同興趣偏好的用戶推薦非流行的項(xiàng)目。LIBRA是很早的基于內(nèi)容的圖書推薦系統(tǒng),由每位用戶提供的訓(xùn)練例子,使用貝葉斯學(xué)習(xí)算法,從Web提取圖書的標(biāo)題等信息,推薦圖書[1]。其特點(diǎn)是,算法簡單,查準(zhǔn)率和查全率較高。但是內(nèi)容提取的能力有限,面對(duì)高校的數(shù)量龐大,內(nèi)容復(fù)雜的信息資源難以準(zhǔn)確全面進(jìn)行內(nèi)容挖掘。而基于關(guān)聯(lián)規(guī)則的推薦是根據(jù)用戶瀏覽或者購買的日志生成規(guī)則,通過生成的規(guī)則來推算用戶可能還會(huì)對(duì)哪些商品感興趣[2],最早的基于關(guān)聯(lián)規(guī)則的推薦系統(tǒng)有IBM的Websphere,ILOG和BroadVision等等。在圖書推薦領(lǐng)域,引用關(guān)聯(lián)規(guī)則是為了發(fā)現(xiàn)借閱記錄中不同圖書之間的關(guān)聯(lián)規(guī)則,當(dāng)多本書存在一定的置信度,支持度,則存在一定的關(guān)聯(lián)[3]。其特點(diǎn)是,算法復(fù)雜,查準(zhǔn)率較高,但同時(shí)它無法發(fā)現(xiàn)讀者的新的或者隱含的閱讀興趣,容易生成無效的規(guī)則?;趨f(xié)同過濾的推薦思想是認(rèn)為用戶的興趣偏好是可以通過具有類似行為或偏好的用戶群進(jìn)行分析和預(yù)測(cè)得出的,利用最近鄰預(yù)測(cè)技術(shù),預(yù)測(cè)當(dāng)前用戶可能感興趣的項(xiàng)目[4]。它適用于在有足夠的用戶數(shù)據(jù)的時(shí)候,可以向具有相同興趣偏好的用戶推送受歡迎的推薦,但是數(shù)據(jù)往往是稀疏的[5]。

      在高校的特定的信息環(huán)境中,館藏資源數(shù)量龐大,類型各異且學(xué)科覆蓋廣泛,大量的跨學(xué)科,跨專業(yè)乃至新型學(xué)科和邊緣學(xué)科圖書的存在,造成基于內(nèi)容的圖書推薦系統(tǒng)所構(gòu)建的模型很難全面準(zhǔn)確表征圖書資源的內(nèi)容,因此推薦質(zhì)量比較低,難以滿足高校師生對(duì)推薦資源的個(gè)性化的需求。高校圖書館讀者較高的借閱頻次,相似的知識(shí)結(jié)構(gòu)以及共同的知識(shí)背景,使得高校圖書館存在著大量相似度較高的借閱記錄,基于規(guī)則的推薦難以提供產(chǎn)生合適的關(guān)聯(lián)性規(guī)則,最終難以推薦符合讀者個(gè)性化需求的圖書資源。

      基于以上的研究,為了達(dá)到更好的推薦效果,可以將讀者進(jìn)行分類,構(gòu)建出讀者的學(xué)習(xí)風(fēng)格模型,根據(jù)讀者表現(xiàn)出的具體的學(xué)習(xí)風(fēng)格,推薦符合其學(xué)習(xí)特征的圖書,并依據(jù)該模型采用改進(jìn)的協(xié)同過濾算法開展個(gè)性化的圖書推薦,以較低的計(jì)算復(fù)雜度,挖掘包含讀者潛在興趣在內(nèi)的個(gè)性化信息需求,達(dá)到為高校讀者提供高質(zhì)量的個(gè)性化的圖書推薦服務(wù)的目的。

      2 基于協(xié)同過濾的個(gè)性化圖書推薦模型

      傳統(tǒng)的基于項(xiàng)目評(píng)分的協(xié)同過濾算法僅依據(jù)用戶的信息獲取行為及評(píng)分情況進(jìn)行預(yù)測(cè),缺乏對(duì)觸發(fā)用戶信息需求動(dòng)因的深層次的分析,因此無法從本質(zhì)上保證預(yù)測(cè)結(jié)果的準(zhǔn)確性,而且容易造成數(shù)據(jù)稀疏。本文提出一種改進(jìn)的基于協(xié)同過濾的個(gè)性化圖書推薦模型如圖1所示:

      在該模型中,當(dāng)讀者登錄系統(tǒng)時(shí),首先引導(dǎo)用戶進(jìn)行數(shù)據(jù)量表的數(shù)據(jù)測(cè)試,顯式地將用戶進(jìn)行分類,并構(gòu)建出讀者的模型庫。當(dāng)新的讀者登錄系統(tǒng)并已經(jīng)擁有了自己的學(xué)習(xí)特征風(fēng)格時(shí),就在讀者模型庫中找到其候選的最近鄰集,再根據(jù)最近鄰集構(gòu)建User-Item矩陣,并產(chǎn)生目標(biāo)讀者的最近鄰,最后根據(jù)目標(biāo)讀者最近鄰的閱讀行為挖掘出與讀者個(gè)性化需求相匹配的圖書,實(shí)現(xiàn)對(duì)目標(biāo)讀者的個(gè)性化推薦。

      2.1 讀者特征模型的構(gòu)建以及候選最近鄰的生成

      Felder-Silverman量表(也稱所羅門學(xué)習(xí)風(fēng)格量表)是由Felder和Solo-man于1997年開發(fā)。它從信息加工,感知,輸入和理解四個(gè)方面將學(xué)習(xí)風(fēng)格劃分為4組,分為8個(gè)維度,包括:活躍型與沉思型,感悟型和直覺型,視覺型和言語型,序列型和綜合型。用于系統(tǒng)前測(cè)推斷用戶學(xué)習(xí)風(fēng)格,已經(jīng)得到越來越多的研究者的認(rèn)可,其具有良好的實(shí)用性和信效度,能夠比較全面反應(yīng)學(xué)習(xí)者的學(xué)習(xí)風(fēng)格。

      學(xué)習(xí)者的學(xué)習(xí)風(fēng)格是依據(jù) Felder-Silverman 學(xué)習(xí)風(fēng)格問卷(Index of Learning Styles Questionnaire,ILS) 推斷出的,該問卷由 44道題目 (每道題有 a,b 兩個(gè)選項(xiàng)) 組成,學(xué)習(xí)風(fēng)格每種維度都對(duì)應(yīng) 11 道題(如表1所示)。當(dāng)用戶登錄系統(tǒng)時(shí),首先進(jìn)行問卷量表的數(shù)據(jù)測(cè)試,即進(jìn)行自我評(píng)價(jià)的調(diào)查。通過問卷的手段,利用文本挖掘技術(shù),建立用戶的學(xué)習(xí)風(fēng)格模型。

      上表中,當(dāng)用戶登錄系統(tǒng)時(shí),通過問卷調(diào)查,針對(duì)系統(tǒng)給出的44道問題開始自我評(píng)價(jià),針對(duì)每道問題,若符合自己實(shí)際情況,則標(biāo)記對(duì)應(yīng)的a或b為數(shù)字1,最終計(jì)算每個(gè)維度的總計(jì)值,方法為:(較大數(shù)-較小數(shù))+較大數(shù)的字母。若存在某個(gè)用戶User1,在第一維度的評(píng)分如表1所示,它的第一維度的最終得分為7a,再根據(jù)風(fēng)格評(píng)價(jià)指標(biāo)圖2所示,則User1第一維度上的類型為活躍型,類似地在其他維度上,可以測(cè)出其他類型,最終形成了該用戶在四個(gè)維度上的學(xué)習(xí)特征模型。

      由此可見,F(xiàn)elder-Silverman 學(xué)習(xí)風(fēng)格問卷是一種多方位,多維度的分類標(biāo)準(zhǔn),以這種標(biāo)準(zhǔn),用戶的特征可以得到最大限度的確定,方便了系統(tǒng)根據(jù)其學(xué)習(xí)風(fēng)格模型進(jìn)行圖書的推薦,同時(shí)由于基于用戶的協(xié)同過濾算法需要和樣本數(shù)據(jù)中的每一個(gè)學(xué)習(xí)者進(jìn)行興趣相似度的計(jì)算,所以存在計(jì)算量大的弊端。通過這種顯式的分類,計(jì)算用戶間的相似度便集中在了同種學(xué)習(xí)風(fēng)格的用戶之間,在一定程度上降低了算法的時(shí)間復(fù)雜度。因此,通過每位讀者登錄系統(tǒng)前的自測(cè),便給不同的讀者賦予了不同的學(xué)習(xí)風(fēng)格特征,每一種特定的學(xué)習(xí)風(fēng)格特征集合即為一種候選最近鄰集合UserList,對(duì)已登錄讀者的分類結(jié)果如讀者分類結(jié)果表2所示:

      2.2 讀者最近鄰生成

      對(duì)于每個(gè)候選最近鄰集合中的讀者Ui,Ui∈UserList(i),先得到Ui和目標(biāo)讀者在一定的期限內(nèi)借閱圖書的瀏覽矩陣BrowseMatrix,利用修正的余弦相似度計(jì)算公式計(jì)算與讀者最相似的Top-N個(gè)讀者作為目標(biāo)讀者的最近鄰。公式如下:

      其中,sim(u1,u2)表示讀者u1和u2的相似度,book表示讀者u1,u2共同產(chǎn)生評(píng)分的圖書。

      2.3 產(chǎn)生推薦的書目

      采用的混合推薦算法包括隨機(jī)推薦算法和基于用戶的協(xié)同過濾算法。其中,隨機(jī)推薦算法主要可以解決冷啟動(dòng)和稀疏矩陣問題,挖掘用戶的潛在興趣,提高系統(tǒng)的泛化能力?;谟脩舻膮f(xié)同過濾推薦則是根據(jù)用戶之間的相似度,最大限度地挖掘目標(biāo)用戶感興趣的圖書。系統(tǒng)設(shè)定一個(gè)啟用基于用戶協(xié)同過濾算法的閾值TR,當(dāng)達(dá)到此閾值時(shí)啟用基于用戶的協(xié)同過濾算法。

      基于目標(biāo)用戶瀏覽矩陣的不同狀態(tài),在初始階段有三種不同的典型特征:1)圖書瀏覽矩陣為空。2)登錄用戶的瀏覽矩陣為空 3)登錄用戶所瀏覽的圖書的數(shù)目不足以達(dá)到啟用Users—CF算法進(jìn)行推薦。此時(shí)系統(tǒng)滿足這三種狀態(tài)特征即采用隨機(jī)推薦。

      在過渡階段主要兩個(gè)主要的特征:1)圖書瀏覽矩陣不為空。2)登錄用戶所瀏覽的圖書的數(shù)目不為空,但是達(dá)不到要啟用User—CF算法的閾值。過渡階段的推薦仍然需要采用隨機(jī)推薦算法進(jìn)行。

      在平穩(wěn)階段,用戶的瀏覽的圖書的數(shù)目足以達(dá)到啟用Users-CF算法,此時(shí)便可以主要使用Users-CF算法進(jìn)行推薦,同時(shí),可以在推薦的總數(shù)中設(shè)定一定數(shù)目的以隨機(jī)推薦算法推薦得到的圖書,從而提高推薦的多樣性,提高系統(tǒng)的泛化能力。

      基于用戶的協(xié)同過濾的推薦方法的主要思路是,在某讀者user(i)最近鄰集合User-List(i)中,遍歷每一本存儲(chǔ)在數(shù)據(jù)庫中且用戶已經(jīng)評(píng)分過的圖書booki,如果目標(biāo)用戶沒有瀏覽過該圖書booki,并且讀者最近鄰集合中任意一用戶Ui喜歡該圖書,則將該圖書推薦給目標(biāo)用戶。算法1顯示了基于用戶協(xié)同過濾算法的改進(jìn)后的一種混合推薦算法,輸入?yún)?shù)包括用戶的Id,推薦的書目Tn,啟用協(xié)同過濾算法的閾值TR;輸出參數(shù)為通過混和算法最終推薦后的圖書矩陣Tr。

      3 圖書資源特征庫的構(gòu)建

      如果新用戶第一次登錄系統(tǒng),進(jìn)行問卷量表的數(shù)據(jù)測(cè)試,根據(jù)其顯式的學(xué)習(xí)風(fēng)格特征,并結(jié)合候選最近用戶的已有的瀏覽圖書記錄,為新用戶隨機(jī)推薦n本圖書,保證該新的用戶有過瀏覽圖書瀏覽的記錄,在新用戶瀏覽圖書時(shí),新用戶可以對(duì)隨機(jī)推薦的圖書進(jìn)行顯式或者隱式的打分。所謂顯示的打分,意味著新的學(xué)習(xí)者,在瀏覽該圖書后主動(dòng)地給該圖書進(jìn)行評(píng)分,我們?cè)趯?shí)驗(yàn)中假定評(píng)分的最高分值為5分,如果其打分的分值不小于3分,則代表喜歡該圖書,則在其興趣喜好矩陣中對(duì)該圖書標(biāo)記為1,否則標(biāo)記為0;所謂隱式的打分,即根據(jù)新的學(xué)習(xí)者在該圖書瀏覽上停留的時(shí)間,進(jìn)行打分,我們?cè)O(shè)定一個(gè)時(shí)間的閾值,如果學(xué)習(xí)者閱讀的時(shí)間達(dá)到該閾值,則代表其對(duì)這本書感興趣,同樣,在圖書資源特征庫中,對(duì)該圖書的瀏覽喜好矩陣中,標(biāo)記為1,否則,標(biāo)記為0。

      4 實(shí)驗(yàn)結(jié)果及分析

      實(shí)驗(yàn)數(shù)據(jù)來自西南石油大學(xué)數(shù)字圖書館,針對(duì)計(jì)算機(jī)科學(xué)學(xué)院,理學(xué)院,化工院,法學(xué)院四個(gè)學(xué)院,借閱時(shí)間在2015年9月1日至2016年3月1日的共計(jì)101721條借閱記錄進(jìn)行清理和處理,借閱記錄中讀者信息包括(讀者ID、借閱時(shí)間、實(shí)際歸還時(shí)間等),同時(shí),圖書信息包括(書名、作者,出版社、出版年、單價(jià)和索引號(hào)等)。在實(shí)驗(yàn)中基于用戶的協(xié)同過濾算法是基于已有的數(shù)據(jù)集進(jìn)行的,在本實(shí)驗(yàn)中,我們將實(shí)驗(yàn)數(shù)據(jù)分為兩部分來處理,用經(jīng)過我們清洗和整理的前5000條數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),后5000條數(shù)據(jù)作為測(cè)試數(shù)據(jù),用于驗(yàn)證該模型的擬合效果和推薦效果。事實(shí)上,在初始階段,所有的新的用戶的瀏覽矩陣為空,但是隨著推薦的數(shù)目越來越多,新的瀏覽過的圖書又會(huì)被記錄到已有的用戶瀏覽矩陣當(dāng)中,最終,我們則可以基于用戶的瀏覽矩陣和興趣矩陣計(jì)算該推薦模型的召回率和多樣性。

      在實(shí)驗(yàn)中,根據(jù)算法中所需要的不同參數(shù),調(diào)整參數(shù)值的大小,根據(jù)其之間的相互影響,通過反復(fù)實(shí)驗(yàn),達(dá)到最佳的推薦效果。經(jīng)過在相同條件下的反復(fù)多次實(shí)驗(yàn),在實(shí)驗(yàn)1中,我們依次將啟用基于用戶的協(xié)同過濾算法的閾值設(shè)置為1,2,3,4,分別實(shí)驗(yàn)了在推薦書目為10,20,30本情況下的召回率。圖-3不同閾值下的召回率實(shí)驗(yàn)結(jié)果圖顯示了在推薦書目數(shù)量為20本,最相似的鄰居個(gè)數(shù)為40個(gè)時(shí),召回率Recall達(dá)到峰值0.675。

      在實(shí)驗(yàn)2中,設(shè)定了用戶的興趣相似度最近鄰為40人,隨著推薦書目的增多,算法多樣性值呈遞增趨勢(shì),當(dāng)推薦時(shí)的書目為40本時(shí),推薦效果的多樣性Diversity達(dá)到峰值0.85.最后實(shí)驗(yàn)結(jié)果如圖-4不同推薦書目下的多樣性實(shí)驗(yàn)結(jié)果圖所示。

      實(shí)驗(yàn)的推薦查準(zhǔn)率如圖5,推薦差準(zhǔn)率結(jié)果圖顯示,在推薦20本圖書,并且選擇40個(gè)最近鄰時(shí),達(dá)到系統(tǒng)的最佳推薦查準(zhǔn)率73%,已經(jīng)達(dá)到良好的推送質(zhì)量。

      5 結(jié)束語

      本文提出了一種對(duì)讀者學(xué)習(xí)風(fēng)格模型的構(gòu)建的策略,并結(jié)合改進(jìn)后的基于用戶協(xié)同過濾的混合推薦算法,有效地提高了推薦的質(zhì)量,達(dá)到了為讀者提供個(gè)性化圖書資源的目的。通過反復(fù)多次的仿真實(shí)驗(yàn),有效地解決了原有的基于用戶協(xié)同過濾算法的稀疏矩陣和冷啟動(dòng)問題,達(dá)到了良好的推薦。

      參考文獻(xiàn):

      [1]Raymond J.Mooney, Loriene Roy. Content-Based Book Recommending Using Learning for Text Categorization. In Proceedings of the Fifth ACM Conference on Digital Libraries, 2000: 195-204.

      [2]王靜.基于關(guān)聯(lián)規(guī)則的圖書銷售網(wǎng)站個(gè)性化推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 電子科技大學(xué),2012.6.

      [3]陳定權(quán),朱維鳳.關(guān)聯(lián)規(guī)則與圖書館書目推薦. 情報(bào)理論與 實(shí)踐,2009,32(6):81-84.

      [4]安德智,劉光明,章恒.基于協(xié)同過濾的圖書推薦模型 圖書情報(bào)工作,2011,54(1):35-38.

      [5]董坤.基于協(xié)同過濾算法的高校圖書館圖書推薦系統(tǒng)研究. 現(xiàn)代圖書情報(bào)技術(shù), 2011(11).

      猜你喜歡
      個(gè)性化推薦協(xié)同過濾
      基于用戶評(píng)分和項(xiàng)目類偏好的協(xié)同過濾推薦算法
      基于遠(yuǎn)程教育的個(gè)性化知識(shí)服務(wù)研究
      東方教育(2016年8期)2017-01-17 19:47:27
      圖書推薦算法綜述
      改進(jìn)的協(xié)同過濾推薦算法
      基于鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計(jì)與實(shí)現(xiàn)
      基于相似傳播和情景聚類的網(wǎng)絡(luò)協(xié)同過濾推薦算法研究
      個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
      混合推薦算法在電影推薦中的研究與評(píng)述
      文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
      商(2016年34期)2016-11-24 16:28:51
      無線定位個(gè)性化導(dǎo)覽關(guān)鍵技術(shù)在博物館中的運(yùn)用
      昌图县| 普格县| 天峨县| 远安县| 洪雅县| 江阴市| 独山县| 太湖县| 肃北| 文山县| 江川县| 应用必备| 青岛市| 肇东市| 仁化县| 佳木斯市| 麻城市| 安国市| 微山县| 旬邑县| 临汾市| 高密市| 衡阳县| 攀枝花市| 大荔县| 博野县| 闸北区| 开江县| 南溪县| 绍兴市| 菏泽市| 长宁区| 内黄县| 潍坊市| 洛阳市| 庆云县| 宁武县| 太仓市| 大关县| 堆龙德庆县| 寿宁县|