• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      高校圖書(shū)館圖書(shū)推薦系統(tǒng)中的稀疏性問(wèn)題實(shí)證探析

      2014-12-06 02:32:58張閃閃黃鵬
      關(guān)鍵詞:分值個(gè)性化圖書(shū)

      □張閃閃 黃鵬

      1 引言

      在信息爆炸的時(shí)代,移動(dòng)設(shè)備已成為人們獲取信息的重要工具。據(jù)移動(dòng)互聯(lián)網(wǎng)第三方數(shù)據(jù)研究機(jī)構(gòu)Gartner發(fā)布的《2014年全球設(shè)備總銷(xiāo)量預(yù)測(cè)》,截止2013年12月,中國(guó)智能手機(jī)用戶(hù)數(shù)突破10億人[1]。智能移動(dòng)設(shè)備日漸普及的同時(shí),我國(guó)對(duì)電信基礎(chǔ)設(shè)施的投入不斷加大,3G網(wǎng)絡(luò)已經(jīng)普及,以中國(guó)移動(dòng)領(lǐng)銜的4G網(wǎng)絡(luò)也開(kāi)始試運(yùn)行,移動(dòng)網(wǎng)絡(luò)帶寬不斷加大,之前必須通過(guò)有線(xiàn)網(wǎng)絡(luò)才能實(shí)現(xiàn)的服務(wù)如今在移動(dòng)網(wǎng)絡(luò)中就可以完成,移動(dòng)信息服務(wù)成為可能。

      面對(duì)圖書(shū)館用戶(hù)閱讀行為的轉(zhuǎn)變,即便圖書(shū)館擁有再豐富、再優(yōu)質(zhì)的資源,若不思索新的服務(wù)模式,也將難以更好地為用戶(hù)服務(wù)。在這樣的條件下,圖書(shū)館如何將正確的信息推送給正確的用戶(hù)是未來(lái)圖書(shū)館的一項(xiàng)重要課題,而個(gè)性化信息服務(wù)則可能是這道命題的答案。個(gè)性化信息服務(wù)是根據(jù)用戶(hù)使用偏好、個(gè)人特征以及其提出的明確要求等,滿(mǎn)足用戶(hù)對(duì)個(gè)體信息需求的一種服務(wù)方式。

      2 圖書(shū)館個(gè)性化推薦系統(tǒng)的需求

      圖書(shū)館雖然有良好的學(xué)習(xí)條件、豐富的印本資源,但是卻沒(méi)有為用戶(hù)提供與圖書(shū)相關(guān)的信息和建議。用戶(hù)在不知道該選擇何種圖書(shū)滿(mǎn)足自我的信息需求時(shí),可能會(huì)根據(jù)自己所需要的類(lèi)別在書(shū)架前尋找,也可能會(huì)在書(shū)目系統(tǒng)中搜索某一主題下的圖書(shū)并根據(jù)書(shū)名和作者進(jìn)行選擇,這樣既浪費(fèi)寶貴的時(shí)間,而且搜集到的圖書(shū)也可能并非是用戶(hù)所需要的。目前,雖然圖書(shū)館的網(wǎng)站上有各種圖書(shū)推薦服務(wù)(如“新書(shū)推薦”、“一周借閱排行榜”、“季度借閱排行榜”等),試圖達(dá)到幫助用戶(hù)尋找合適圖書(shū)的目的,但是在Web2.0環(huán)境下,用戶(hù)的需求越來(lái)越個(gè)性化和多樣化,而傳統(tǒng)的圖書(shū)館推薦系統(tǒng)是“把一類(lèi)圖書(shū)推薦給所有用戶(hù)”,往往不能達(dá)到令用戶(hù)滿(mǎn)意的效果.用戶(hù)希望的是圖書(shū)館系統(tǒng)能夠提供“量身定做”的推薦,而不是“一攬子”推薦,這就要求圖書(shū)館的推薦系統(tǒng)更具有針對(duì)性、主動(dòng)性、甚至是智能化。據(jù)不完全統(tǒng)計(jì),亞馬遜網(wǎng)站上有35%的銷(xiāo)售額是得益于個(gè)性化推薦,有60%的銷(xiāo)售額間接受到推薦的影響[2]。學(xué)者瑪麗亞·索萊達(dá)·佩拉和尼科爾·康蒂等利用社交媒體數(shù)據(jù)構(gòu)建了基于社會(huì)互動(dòng)和個(gè)人興趣的個(gè)性化圖書(shū)推薦系統(tǒng)(Personalized Book Recommendations System),通過(guò)分析相似用戶(hù)從而有針對(duì)性地為用戶(hù)推薦圖書(shū),實(shí)驗(yàn)證明該系統(tǒng)的精確度超過(guò)了亞馬遜[3]。由此可見(jiàn),個(gè)性化推薦可以作為一種重要的方式應(yīng)用到圖書(shū)館信息服務(wù)過(guò)程中,但是,目前它主要是在電子商務(wù)領(lǐng)域取得了巨大進(jìn)展,在圖書(shū)館領(lǐng)域應(yīng)用的還比較少。筆者試圖針對(duì)圖書(shū)館現(xiàn)有個(gè)性化推薦中存在的問(wèn)題,提出一種具有圖書(shū)館特色的推薦方式,以期緩解目前推薦過(guò)程中的一些窘境。

      3 圖書(shū)館個(gè)性化推薦服務(wù)中存在的問(wèn)題

      高校圖書(shū)館作為信息資源的集散地,在不斷滿(mǎn)足科研學(xué)者的信息需求的同時(shí),也存在著信息量龐大和用戶(hù)特定需求難以匹配的矛盾。用戶(hù)如果想要搜索某一專(zhuān)題或領(lǐng)域的圖書(shū),往往需要耗費(fèi)大量的時(shí)間和精力。而現(xiàn)有的圖書(shū)館管理系統(tǒng)中已有一些可提供個(gè)性化信息服務(wù),用戶(hù)可選擇自己關(guān)注的領(lǐng)域,一旦該領(lǐng)域有新到圖書(shū),便會(huì)收到通知。比如美國(guó)康納爾大學(xué)的“我的圖書(shū)館”系統(tǒng),包括個(gè)性化鏈接、個(gè)性化更新、個(gè)性化內(nèi)容、個(gè)性化目錄和文獻(xiàn)傳遞服務(wù),用戶(hù)可以定制圖書(shū)館資源及其他網(wǎng)絡(luò)資源,也可以接受最新資源通告、進(jìn)行目錄查詢(xún)等,這都為用戶(hù)使用信息帶來(lái)了很大便利。

      雖然圖書(shū)館的個(gè)性化推薦系統(tǒng)在圖書(shū)館已經(jīng)得到應(yīng)用且為用戶(hù)帶來(lái)了一定的便利,也在一定程度上提升了圖書(shū)館的服務(wù)質(zhì)量,但是仍然存在一些問(wèn)題:比如有一些系統(tǒng)是以充分挖掘用戶(hù)特征或信息資源特征為基礎(chǔ)的,在使用之前都需要用戶(hù)填寫(xiě)個(gè)人興趣愛(ài)好方面的信息[4][5],不能根據(jù)用戶(hù)的特征主動(dòng)地、動(dòng)態(tài)地提供個(gè)性化推薦服務(wù)。而目前常用的個(gè)性化推薦系統(tǒng)多采用協(xié)同過(guò)濾技術(shù),雖然無(wú)需獲取用戶(hù)的個(gè)人信息,但是可能會(huì)產(chǎn)生自動(dòng)化和稀疏性問(wèn)題。

      3.1 自動(dòng)化問(wèn)題

      百度文庫(kù)、豆瓣等都會(huì)在其頁(yè)面上設(shè)置一個(gè)用戶(hù)評(píng)分區(qū)域,一般包括“力薦、推薦、還行、較差、很差”等幾個(gè)不同級(jí)別。用戶(hù)必須積極主動(dòng)地進(jìn)行評(píng)價(jià),推薦系統(tǒng)才能了解用戶(hù)的特征,從而進(jìn)行相似性推薦。然而用戶(hù)往往屬于利益驅(qū)動(dòng)者,所采取的行動(dòng)一般都是和自己的利益掛鉤,如百度文庫(kù),作者為文章評(píng)分便可獲得一定財(cái)富值,而財(cái)富值可以使其在該網(wǎng)站上下載更多的資料。但是圖書(shū)館屬于非盈利性機(jī)構(gòu),缺乏相應(yīng)的利益驅(qū)動(dòng)機(jī)制,在這種情況下,讀者評(píng)價(jià)圖書(shū)往往會(huì)缺少動(dòng)力,這就造成評(píng)價(jià)信息過(guò)少,不利于圖書(shū)館收集用戶(hù)的信息[6]。如果能夠提高系統(tǒng)評(píng)價(jià)的自動(dòng)化程度,那么可以在一定程度上解決用戶(hù)評(píng)價(jià)不足的問(wèn)題。

      3.2 稀疏性問(wèn)題

      在電商平臺(tái)中我們常常見(jiàn)到商家利用評(píng)價(jià)返現(xiàn)、評(píng)價(jià)返積分的方式鼓勵(lì)用戶(hù)對(duì)所購(gòu)買(mǎi)的產(chǎn)品或服務(wù)進(jìn)行評(píng)價(jià),據(jù)調(diào)查,在缺乏物質(zhì)獎(jiǎng)勵(lì)的情況下,電商銷(xiāo)售出的產(chǎn)品/服務(wù)所收到的評(píng)價(jià)還不足整體銷(xiāo)售總量的1%。用戶(hù)評(píng)價(jià)的主動(dòng)性不高是造成數(shù)據(jù)稀疏性的一個(gè)重要原因。除此之外,暢銷(xiāo)書(shū)的借閱用戶(hù)往往較多,而非暢銷(xiāo)書(shū)的借閱相對(duì)較少,借閱數(shù)據(jù)存在大量的交錯(cuò),這兩個(gè)問(wèn)題導(dǎo)致協(xié)同過(guò)濾系統(tǒng)尋找到的相似用戶(hù)不太可靠,計(jì)算出的待推薦項(xiàng)目評(píng)分也不太準(zhǔn)確。大多數(shù)系統(tǒng)在處理數(shù)據(jù)稀疏性問(wèn)題時(shí),都以0或用戶(hù)平均分填充的方法來(lái)評(píng)價(jià)缺乏評(píng)分的項(xiàng)目,但這些做法在用戶(hù)興趣偏好描述方面有所失真。另外,若以圖書(shū)館的圖書(shū)評(píng)分矩陣作為尋找相似用戶(hù)的依據(jù),運(yùn)算復(fù)雜度將會(huì)很大。

      4 解決高校圖書(shū)館稀疏性問(wèn)題的設(shè)計(jì)思路

      目前,已經(jīng)有很多學(xué)者針對(duì)上述問(wèn)題提出了不同的解決對(duì)策,包括降維的方法[7]、項(xiàng)目聚類(lèi)方法[8]等。如學(xué)者鄒永貴[9]利用項(xiàng)目及項(xiàng)目類(lèi)別包含的評(píng)分次數(shù)來(lái)計(jì)算不同項(xiàng)目之間的興趣度,并結(jié)合傳統(tǒng)的相似度算法有效地減少了評(píng)分?jǐn)?shù)據(jù)稀疏的負(fù)面影響。學(xué)者王桂芬[10]提出一種基于項(xiàng)目層次偏好的協(xié)同過(guò)濾推薦,減輕了數(shù)據(jù)稀疏性問(wèn)題。歐文·金等人[11]通過(guò)結(jié)合用戶(hù)和項(xiàng)目?jī)煞矫娴墓餐畔?lái)對(duì)缺失評(píng)分進(jìn)行預(yù)測(cè),一定程度上解決了稀疏性問(wèn)題。托恩·奎爾·李(Tong Queue Lee)[12]認(rèn)為在預(yù)測(cè)時(shí)可以對(duì)那些沒(méi)有打分的產(chǎn)品賦予一些缺省的分值,這樣就會(huì)使得預(yù)測(cè)分?jǐn)?shù)的準(zhǔn)確性大幅度提升。如黃昝等[13]通過(guò)協(xié)同檢索框架及擴(kuò)散算法來(lái)分析用戶(hù)之間的關(guān)聯(lián)性,解決打分稀疏性問(wèn)題,實(shí)驗(yàn)結(jié)果表明所提出的方法在推薦準(zhǔn)確度、召回率、綜合評(píng)價(jià)指標(biāo)和得分排名等方面都明顯優(yōu)于傳統(tǒng)的協(xié)同過(guò)濾方法;托恩·奎爾·李等[14]借助偽打分信息,安等[15]借助啟發(fā)式算法來(lái)分析用戶(hù)之間的相似性,他們指出,系統(tǒng)中的打分項(xiàng)目往往比較多,而如何根據(jù)現(xiàn)有已打分項(xiàng)目對(duì)未打分的項(xiàng)目做出預(yù)測(cè),則變得非常重要。

      缺乏用戶(hù)的主動(dòng)評(píng)價(jià)是造成圖書(shū)推薦計(jì)算障礙的重要問(wèn)題之一,而用戶(hù)評(píng)分的主動(dòng)性不高及借閱行為的交錯(cuò)性是導(dǎo)致數(shù)據(jù)稀疏性的兩大主要因素。要解決稀疏性問(wèn)題,首先需要解決自動(dòng)化評(píng)分問(wèn)題;此外,正如科恩所提出的,我們還需要解決用戶(hù)主動(dòng)評(píng)價(jià)所造成的打分不一的問(wèn)題。而對(duì)于用戶(hù)借閱行為的交錯(cuò)性所產(chǎn)生的稀疏性問(wèn)題,可以通過(guò)一定的方法對(duì)未評(píng)分項(xiàng)目進(jìn)行分值填充。本文結(jié)合圖書(shū)館的特點(diǎn),提出通過(guò)用戶(hù)的借閱記錄形成自動(dòng)化的評(píng)分標(biāo)準(zhǔn),同時(shí)借助中圖法類(lèi)目形成新的書(shū)目數(shù)據(jù)庫(kù),把通過(guò)每本書(shū)尋找相似用戶(hù)轉(zhuǎn)換為通過(guò)“某一類(lèi)”圖書(shū)尋找相似用戶(hù),從而簡(jiǎn)化計(jì)算流程,降低計(jì)算維度。以下就這些思路給予一一說(shuō)明。

      4.1 建立自動(dòng)化評(píng)分體系

      人工評(píng)分系統(tǒng)是個(gè)性化推薦系統(tǒng)的羈絆。根據(jù)齊普夫省力法則,人們總是會(huì)采取比較省力的方式來(lái)指導(dǎo)自己的行為,除非對(duì)某本書(shū)非常熱愛(ài),用戶(hù)大都不會(huì)對(duì)借閱的圖書(shū)進(jìn)行評(píng)價(jià)。因此,我們可以看到,大多數(shù)電商網(wǎng)站例如京東、易迅及當(dāng)當(dāng)?shù)榷际峭ㄟ^(guò)給用戶(hù)返利的方式鼓勵(lì)用戶(hù)評(píng)價(jià),而公益性的圖書(shū)館沒(méi)有這筆經(jīng)費(fèi)預(yù)算,采用付費(fèi)模式鼓勵(lì)用戶(hù)評(píng)價(jià)是不現(xiàn)實(shí)的,必須針對(duì)圖書(shū)館自身的特點(diǎn),設(shè)計(jì)一種能夠適合圖書(shū)館的自動(dòng)化評(píng)分體系。綜合以上因素,圖書(shū)館可以利用用戶(hù)借閱記錄的特點(diǎn)設(shè)計(jì)一種標(biāo)準(zhǔn)化的評(píng)分體系,根據(jù)借還書(shū)記錄自動(dòng)實(shí)現(xiàn)用戶(hù)對(duì)所借閱圖書(shū)的評(píng)分。

      ××大學(xué)的借閱日志主要包含借閱、續(xù)借、預(yù)約三項(xiàng)操作,以下根據(jù)這三項(xiàng)操作設(shè)定評(píng)分系統(tǒng)。通過(guò)查閱大量文獻(xiàn)以及進(jìn)行專(zhuān)家訪(fǎng)談,最終根據(jù)文獻(xiàn)的對(duì)比分析并結(jié)合專(zhuān)家意見(jiàn),得出三種不同操作的分值如下:

      借閱:用戶(hù)只有對(duì)某本書(shū)感興趣或者因?yàn)榭陀^原因?qū)ζ溆行枨螅艜?huì)去借閱該書(shū),可以分為首次借閱與非首次借閱。首次借閱雖然表明用戶(hù)對(duì)該書(shū)感興趣,但因?yàn)橛脩?hù)并沒(méi)有詳細(xì)閱覽圖書(shū)的內(nèi)容,因此該書(shū)對(duì)用戶(hù)的作用可大可小。綜上所述,用戶(hù)初次借閱某本書(shū)的評(píng)分不能太高,可以將首次借閱的分值設(shè)為1。而非首次借閱,我們認(rèn)為該書(shū)對(duì)用戶(hù)的用途較大,所以才會(huì)被多次借閱,同時(shí)為拉大分差強(qiáng)調(diào)再次借閱的重要性,因此可將分值設(shè)定為4。

      預(yù)約:××大學(xué)圖書(shū)館對(duì)已經(jīng)借出的圖書(shū)提供預(yù)約服務(wù),用戶(hù)可以通過(guò)申請(qǐng)?jiān)摲?wù),對(duì)借出圖書(shū)歸還后享有優(yōu)先借閱權(quán)。同樣根據(jù)省力法則分析,若非用戶(hù)有非常大的意愿去閱讀該本書(shū),是不會(huì)通過(guò)賬號(hào)登陸系統(tǒng)去預(yù)約的,所以用戶(hù)申請(qǐng)預(yù)約服務(wù),我們可以認(rèn)為用戶(hù)已經(jīng)了解該書(shū)的詳細(xì)內(nèi)容并認(rèn)為該書(shū)有用,分值可以比初次借閱該圖書(shū)高,但我們還要考慮到用戶(hù)也可能并沒(méi)有深入閱讀該書(shū),可能會(huì)存在閱讀后感覺(jué)與自己之前的想法有所差距的情況,因此,分值不應(yīng)該比再次借閱高。綜上,我們將預(yù)約行為的分值設(shè)定為2。

      續(xù)借:關(guān)于續(xù)借情況的分析也應(yīng)該分為兩種。一般來(lái)說(shuō),我們認(rèn)為用戶(hù)在覺(jué)得該書(shū)有用同時(shí)又沒(méi)有讀完的情況下才會(huì)續(xù)借。另外,圖書(shū)館的借閱規(guī)則中有懲罰條款,圖書(shū)借閱超期會(huì)產(chǎn)生罰金,若用戶(hù)借閱的書(shū)到期,但湊巧這幾天沒(méi)有時(shí)間去還書(shū),又不想被罰款,這時(shí)就會(huì)產(chǎn)生續(xù)借行為。綜合這兩種情況,續(xù)借的分值應(yīng)該高于初次借閱,但是要低于非初次借閱,因此將分值設(shè)定為2。

      表1 圖書(shū)評(píng)分表

      表1是某本圖書(shū)的評(píng)分表,每一行的2,3,4,5列是對(duì)某位同學(xué)借閱行為的統(tǒng)計(jì),第6列是系統(tǒng)依據(jù)上述評(píng)分體系針對(duì)該同學(xué)的借閱行為所計(jì)算出來(lái)的圖書(shū)得分。例如:A同學(xué)對(duì)該本圖書(shū)的評(píng)分為1×1+2×4+0×2+2×2=13;B同學(xué)對(duì)該本圖書(shū)的評(píng)分為1×1+1×4+1×2+1×2=9;C同學(xué)對(duì)該本圖書(shū)的評(píng)分1×1+0×4+1×2+1×2=5;D同學(xué)對(duì)該本圖書(shū)的評(píng)分0×1+0×4+1×2+0×2=2。

      4.2 借鑒中圖法目錄降低運(yùn)算維度

      對(duì)于借閱行為的交錯(cuò)性問(wèn)題,我們還應(yīng)考慮圖書(shū)館自身特點(diǎn):圖書(shū)館開(kāi)架借閱的圖書(shū)都是專(zhuān)業(yè)人員編目過(guò)的圖書(shū),其分類(lèi)較為準(zhǔn)確。我們可以借助書(shū)目數(shù)據(jù)對(duì)其進(jìn)行合并處理,將通過(guò)對(duì)某本圖書(shū)的興趣度尋找相似用戶(hù)的問(wèn)題轉(zhuǎn)化為通過(guò)對(duì)某一類(lèi)圖書(shū)的興趣度尋找相似用戶(hù)的問(wèn)題。即先根據(jù)借閱記錄計(jì)算用戶(hù)所借各書(shū)的分值,然后根據(jù)書(shū)目信息中該書(shū)所屬的類(lèi)目,計(jì)算各“類(lèi)”的分值,然后通過(guò)各“類(lèi)”的分值尋找相似用戶(hù)。

      下面以××大學(xué)圖書(shū)館文學(xué)庫(kù)圖書(shū)為例具體說(shuō)明處理過(guò)程:

      a)調(diào)研分析××大學(xué)依據(jù)中圖法編制的類(lèi)目,對(duì)已有類(lèi)目進(jìn)行重新歸并。圖1以圖書(shū)最多的中國(guó)文學(xué)I2為例進(jìn)行類(lèi)目的重新劃分,比如“中國(guó)文學(xué)”類(lèi)目下包含9類(lèi),根據(jù)收集文獻(xiàn)數(shù)量及相近性,將戲劇文學(xué)與詩(shī)歌、韻文合并為一類(lèi),以此類(lèi)推將原來(lái)的九類(lèi)重新整合為六類(lèi)。另外,I3中由于日本文學(xué)的館藏?cái)?shù)量占多數(shù),因此將其重新劃分為日本文學(xué)與亞洲其余各國(guó)文學(xué);同理,將I7美洲各國(guó)文學(xué)重新劃分為美國(guó)文學(xué)與美洲其余各國(guó)文學(xué)。在重新劃分后,把原來(lái)的下級(jí)類(lèi)目提前,替換原有上級(jí)類(lèi)目,將文學(xué)庫(kù)重新劃分為18個(gè)類(lèi)目(表2);

      圖1 ××大學(xué)圖書(shū)館文學(xué)庫(kù)分類(lèi)舉例

      表2 文學(xué)庫(kù)重新構(gòu)建的分類(lèi)體系

      b)根據(jù)用戶(hù)的借閱行為,計(jì)算用戶(hù)對(duì)圖書(shū)的評(píng)分;

      c)將圖書(shū)依照條目信息歸類(lèi)到新的類(lèi)目體系中,并將計(jì)算出來(lái)的各種圖書(shū)的分值導(dǎo)入公式1中,得到各類(lèi)目的分值。公式中P代表某用戶(hù)對(duì)某類(lèi)圖書(shū)的打分,n為該類(lèi)目下用戶(hù)借閱了n本書(shū),Ri表示用戶(hù)借閱該類(lèi)圖書(shū)中第i本圖書(shū)的得分。

      d)將計(jì)算出的每一類(lèi)的分值當(dāng)做一“本”書(shū)的分值帶入公式2中,計(jì)算用戶(hù)的相似性,將與每位用戶(hù)最為相似的前10位用戶(hù)挑選出來(lái)。R(u,i)及R(v,i)分別代表用戶(hù)u及用戶(hù)v對(duì)i類(lèi)圖書(shū)的評(píng)分及分別表示用戶(hù)u及用戶(hù)v對(duì)文學(xué)庫(kù)18類(lèi)圖書(shū)評(píng)分的平均值,sim(u,v)表示兩位用戶(hù)的相似性。

      e)根據(jù)d)中計(jì)算出的相似用戶(hù)集合U及其所屬的用戶(hù)評(píng)分集合(每本書(shū)),對(duì)未評(píng)分的圖書(shū)進(jìn)行預(yù)測(cè),將預(yù)測(cè)分值排名前十的圖書(shū)列出,若出現(xiàn)得分相同的情況,則根據(jù)借閱記錄將相同得分的圖書(shū)按照借閱次數(shù)進(jìn)行排列,如若仍出現(xiàn)相同的情況則全部進(jìn)行推薦。P(u,k)表示預(yù)測(cè)用戶(hù)u對(duì)圖書(shū)k的評(píng)分,及代表用戶(hù)u和v對(duì)所有已評(píng)圖書(shū)的平均分,R(v,k)表示用戶(hù)v對(duì)圖書(shū)k的評(píng)分。

      采用這種歸類(lèi)轉(zhuǎn)化模式能夠有效降低借閱交叉造成的數(shù)據(jù)稀疏問(wèn)題,將通過(guò)圖書(shū)組合尋找相似用戶(hù)的問(wèn)題轉(zhuǎn)化為通過(guò)“類(lèi)”的組合尋找相似用戶(hù)的問(wèn)題。尋找相似用戶(hù)的本質(zhì)其實(shí)就是尋找對(duì)某一圖書(shū)組合都感興趣的用戶(hù),而實(shí)際上我們可以將這一類(lèi)圖書(shū)組合看成一類(lèi)圖書(shū),相似用戶(hù)是對(duì)某一類(lèi)圖書(shū)感興趣而找到共同點(diǎn)的。在電商領(lǐng)域中,由于物品項(xiàng)目沒(méi)有經(jīng)過(guò)專(zhuān)業(yè)分類(lèi)或聚類(lèi),需要以物品項(xiàng)目為單位采用傳統(tǒng)的協(xié)同過(guò)濾模式,而高校圖書(shū)館的館藏是經(jīng)過(guò)專(zhuān)業(yè)編目的圖書(shū),直接采用“類(lèi)”尋找相似用戶(hù)在理論上是合理的,而在后續(xù)的實(shí)驗(yàn)中也證明了該種做法是可行的,采用“類(lèi)”尋找相似用戶(hù)所推薦圖書(shū)的準(zhǔn)確率比直接采用單位圖書(shū)尋找相似用戶(hù)進(jìn)行推薦的準(zhǔn)確率有明顯提升。同時(shí)還需注意在該步驟中對(duì)于每本圖書(shū)的預(yù)測(cè)采用的是相似用戶(hù)對(duì)于具體圖書(shū)的評(píng)分集合,而非相似用戶(hù)對(duì)于“某一類(lèi)”圖書(shū)的評(píng)分集合。

      5 個(gè)性化推薦數(shù)據(jù)實(shí)驗(yàn)

      5.1 研究假設(shè)

      為了能夠更快更準(zhǔn)確地給用戶(hù)推薦符合其需求的圖書(shū),本研究假設(shè)系統(tǒng)只能為目標(biāo)用戶(hù)推薦其所在書(shū)庫(kù)的圖書(shū),即用戶(hù)到達(dá)文學(xué)庫(kù)時(shí),系統(tǒng)會(huì)測(cè)算出用戶(hù)目前處于文學(xué)庫(kù),并只為用戶(hù)推薦文學(xué)庫(kù)中的圖書(shū)。實(shí)驗(yàn)將重點(diǎn)考察在推薦同一書(shū)庫(kù)中的圖書(shū)時(shí),傳統(tǒng)的協(xié)同過(guò)濾與結(jié)合中圖法編目數(shù)據(jù)的協(xié)同過(guò)濾的推薦效果。

      5.2 推薦數(shù)據(jù)來(lái)源及實(shí)驗(yàn)設(shè)計(jì)

      為了驗(yàn)證以上所提出的設(shè)計(jì)思路的可用性,本文選取XX大學(xué)圖書(shū)館后臺(tái)借閱數(shù)據(jù)進(jìn)行數(shù)據(jù)試驗(yàn),將數(shù)據(jù)的范圍尺度定位為文學(xué)庫(kù)的借閱記錄,樣本設(shè)定為以文學(xué)院為主的300名研究生的借閱記錄,數(shù)據(jù)的時(shí)間跨度從2011年9月至2013年12月,共37509條記錄,涉及7127本書(shū)。系統(tǒng)的操作流程如下:

      (1)將得到的數(shù)據(jù)進(jìn)行預(yù)處理,使之符合運(yùn)算模式;

      (2)通過(guò)設(shè)計(jì)的推薦體系進(jìn)行數(shù)據(jù)處理;

      (3)將數(shù)據(jù)集分別代入傳統(tǒng)協(xié)同過(guò)濾模式和加入編目體系的推薦模式進(jìn)行對(duì)照實(shí)驗(yàn);

      (4)根據(jù)計(jì)算得出評(píng)分集合A與B;

      (5)將兩種方式得到的推薦集合進(jìn)行合并處理,并編制用戶(hù)推薦書(shū)目,通過(guò)校園郵箱向用戶(hù)進(jìn)行推薦調(diào)研;

      (6)根據(jù)用戶(hù)反饋的信息,結(jié)合推薦集合處理反饋結(jié)果;

      (7)比較推薦集合的準(zhǔn)確性,并作出分析。

      5.3 數(shù)據(jù)實(shí)驗(yàn)

      (1)數(shù)據(jù)預(yù)處理。

      系統(tǒng)的后臺(tái)日志僅是對(duì)借閱行為進(jìn)行記錄,每一條目包括題名、索書(shū)號(hào)、學(xué)號(hào)、操作日期,其中部分后臺(tái)日志如表3所示。

      從表3可以看出,數(shù)據(jù)是以時(shí)間序列進(jìn)行排布的,而本文主要是通過(guò)借閱信息來(lái)分析相似用戶(hù),并對(duì)其進(jìn)行個(gè)性化推薦,因此需要將數(shù)據(jù)進(jìn)行預(yù)處理,形成以用戶(hù)為單位的數(shù)據(jù)集合,包括用戶(hù)的初次借閱、續(xù)借、非初次借閱及預(yù)約行為的統(tǒng)計(jì)處理,形成如表4的數(shù)據(jù)。以圖書(shū)《詩(shī)性正義》為例,通過(guò)查詢(xún)?cè)己笈_(tái)日志,發(fā)現(xiàn)學(xué)號(hào)尾號(hào)為220的用戶(hù)于2012年11月13日首次借閱該圖書(shū),于2013年4月2日和2013年5月2日分別進(jìn)行了兩次續(xù)借,并在2013年3月7日、5月22日和12月21日對(duì)該圖書(shū)又進(jìn)行了三次借閱。

      表3 ××大學(xué)圖書(shū)館文學(xué)庫(kù)借閱日志

      表4 學(xué)號(hào)尾號(hào)為220學(xué)生的借閱記錄

      (2)使用matlab進(jìn)行推薦實(shí)驗(yàn)。

      根據(jù)處理步驟編寫(xiě)matlab代碼(如圖2),將預(yù)處理數(shù)據(jù)矩陣代入進(jìn)行運(yùn)算,得到向用戶(hù)推薦的圖書(shū)集合A。同時(shí),為了進(jìn)行對(duì)照,不進(jìn)行圖書(shū)的歸類(lèi)處理,以每本書(shū)為單位采用傳統(tǒng)協(xié)同過(guò)濾的模式對(duì)數(shù)據(jù)集合進(jìn)行處理,矩陣中的缺失值采用常用的處理方法以0填充,得到向用戶(hù)推薦的圖書(shū)集合B。

      圖2 協(xié)同過(guò)濾matlab代碼片段

      5.4 結(jié)果檢驗(yàn)

      (1)推薦郵件設(shè)計(jì)。

      圖3 發(fā)送給學(xué)號(hào)尾號(hào)為046學(xué)生的推薦郵件

      圖4 為學(xué)號(hào)尾號(hào)為046學(xué)生推薦的書(shū)目表片段

      根據(jù)以上形成的推薦圖書(shū)集合A、B,可以得到每一位用戶(hù)的不同推薦書(shū)目。為方便用戶(hù)填寫(xiě)反饋,將這兩個(gè)集合中相同的書(shū)目記錄進(jìn)行去重合并,形成推薦書(shū)目表,將經(jīng)過(guò)計(jì)算且合并后的圖書(shū)以圖書(shū)館書(shū)目調(diào)研的名義發(fā)送至用戶(hù)的校園郵箱中。當(dāng)然,在進(jìn)行圖書(shū)推薦時(shí),我們除了提供傳統(tǒng)的書(shū)目信息外,還會(huì)將索書(shū)號(hào)、圖書(shū)的基本信息以及本書(shū)的鏈接一并發(fā)送至用戶(hù)的郵箱,用戶(hù)打開(kāi)鏈接后可直接查看到此書(shū),同時(shí)網(wǎng)頁(yè)中還會(huì)呈現(xiàn)出其他用戶(hù)對(duì)該書(shū)的評(píng)價(jià),以提供一定的參考。同時(shí),考慮到數(shù)據(jù)的時(shí)滯性問(wèn)題,需要用戶(hù)反饋的是選擇感興趣或已看過(guò)的書(shū)。因此,調(diào)研的問(wèn)題是:假設(shè)你來(lái)到文學(xué)庫(kù),以下文學(xué)類(lèi)圖書(shū)你是否感興趣或是否看過(guò),選出你感興趣或看過(guò)的圖書(shū)。推薦郵件如圖3所示。

      為了測(cè)試推薦郵件的設(shè)計(jì)是否清晰明確,本研究先選擇5名同學(xué)進(jìn)行小范圍測(cè)試,針對(duì)每位同學(xué)分別推薦兩種算法中排名前10的圖書(shū),如對(duì)于學(xué)號(hào)尾號(hào)為046的學(xué)生,去重后,我們一共為其推薦14本書(shū),具體書(shū)目列表如圖4所示。在其后的反饋郵件中,該同學(xué)選擇了《文學(xué)的邀請(qǐng)》、《鎖孔里的房間》、《徐志摩全集》、《莫言演講新編》、《魯迅雜文全編》和《張愛(ài)玲典藏全集》等書(shū)。

      (2)推薦反饋處理。

      使用上述方法,根據(jù)不同用戶(hù)得到的推薦書(shū)目集合分別編輯推薦郵件,然后向300名學(xué)生發(fā)送,共收到217份回復(fù),回收率為72.3%。我們將用戶(hù)的反饋和兩種推薦集合中的推薦書(shū)目進(jìn)行對(duì)比,分別計(jì)算兩種推薦方法的準(zhǔn)確性,最后匯總計(jì)算各個(gè)集合的平均準(zhǔn)確率(如表5所示):

      表5 兩種推薦方法的實(shí)驗(yàn)結(jié)果對(duì)比

      從表5所列出的兩種不同實(shí)驗(yàn)結(jié)果我們可以看出,集合A中,有1330本是用戶(hù)反饋回來(lái)感興趣或者是已經(jīng)看過(guò)的圖書(shū),推薦符合率為61.3%(1330/2170),集合B共有749本是用戶(hù)反饋回來(lái)感興趣或者是已經(jīng)看過(guò)的圖書(shū),推薦符合率為34.5%(749/2170),該比例幾乎僅為集合A的1/2,這在一定程度上證明了結(jié)合圖書(shū)館編目數(shù)據(jù)的過(guò)濾推薦優(yōu)于傳統(tǒng)的過(guò)濾推薦。

      通過(guò)該實(shí)驗(yàn)可充分看出,相對(duì)于傳統(tǒng)協(xié)同過(guò)濾推薦來(lái)說(shuō),本文基于圖書(shū)館編目數(shù)據(jù)的協(xié)同過(guò)濾方法從推薦合適比例來(lái)說(shuō)更加有效。

      6 總結(jié)

      本文分析了傳統(tǒng)協(xié)同過(guò)濾中存在的自動(dòng)化和稀疏性問(wèn)題,并提出了稀疏性問(wèn)題的解決對(duì)策。通過(guò)借閱日志中的借閱、續(xù)借、預(yù)約三項(xiàng)操作設(shè)計(jì)了一個(gè)標(biāo)準(zhǔn)化的評(píng)分體系,根據(jù)借還書(shū)記錄自動(dòng)實(shí)現(xiàn)用戶(hù)對(duì)所借閱圖書(shū)的評(píng)分,有效地解決了其評(píng)分主動(dòng)性不高的問(wèn)題;借鑒圖書(shū)館特有的編目體系,對(duì)圖書(shū)館現(xiàn)有文學(xué)庫(kù)中的圖書(shū)進(jìn)行了重新歸類(lèi),將通過(guò)圖書(shū)組合尋找相似用戶(hù)的問(wèn)題轉(zhuǎn)化為通過(guò)“類(lèi)”的組合尋找相似用戶(hù)的問(wèn)題。最后,以××大學(xué)圖書(shū)館文學(xué)庫(kù)為例,對(duì)本文中所提出的結(jié)合中圖法編目數(shù)據(jù)的協(xié)同過(guò)濾推薦算法進(jìn)行了驗(yàn)證,結(jié)果表明該方法較傳統(tǒng)的協(xié)同過(guò)濾具有更好的推薦效果。

      1 Gartner.預(yù)計(jì)2014年全球設(shè)備總銷(xiāo)量.[2014-06-28].http://www.199it.com/archives/205633.html

      2 亞馬遜公司(Amazon):世界上銷(xiāo)售量最大的網(wǎng)上書(shū)店.[2014-07-13].http://wiki.mbalib.com/wiki/Amazon

      3 Pera M S,Condie N,et al.Personalized Book Recommendations Created by Using Social Media Data.WEB INFORMATION SYSTEMS ENGINEERING-WISE 2010 WORKSHOPS,2011,6724:390-403

      4 唐秋鴻,曹紅兵.高校圖書(shū)館個(gè)性化專(zhuān)題推薦研究.圖書(shū)館學(xué)研究,2012,(13):53-59

      5 李微娜,馬小琪.基于MADM方法的個(gè)性化推薦研究.現(xiàn)代情報(bào),2011,31(4):20-23

      6 李炎.電子商務(wù)推薦算法的研究與實(shí)現(xiàn),上海:復(fù)旦大學(xué),2002

      7 Leskovec J,Rajaraman A,Ullman J.Mining of Massive Data-sets,Cambridge University Press,2011

      8 鄧愛(ài)林,左子葉,朱揚(yáng)勇.基于項(xiàng)目聚類(lèi)的協(xié)同過(guò)濾推薦算法.小型微型計(jì)算機(jī)系統(tǒng),2004,25(9):1665-1670

      9 鄒永貴,望靖,劉兆宏,等.基于項(xiàng)目之間相似性的興趣點(diǎn)推薦方法.計(jì)算機(jī)應(yīng)用研究,2012,29(1):116-118,126

      10 Wang G F,Ren Y,Duan L Z,et,al.An Optimized Collaborative Filtering Approach with Item Hierarchy-Interestingness.in:International Conference on Business Computing and Global Information(BCGIN),2011:633-636

      11 Ma H,King I,Michael R.Lyu.Effective Missing Data Prediction for Collaborative Filtering.in Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,New York:ACM,2007,39-46

      12 Lee TQ,Park Y,Park YT.A Time-Based Approach to Effective Recommender Systems Using Implicit Feedback.Expert Systems with Applications,2008,34(4):3055-3062

      13 Huang Z,Chen H,Zeng D.Applying Associative Retrieval Techniques to Alleviate the Sparsity Problem in Collaborative Filtering.IEEE Trans Information Systems,2004,22(1):116-142

      14 同12

      15 Ahn HJ.A New Similarity Measure for Collaborative Filtering to Alleviate the New User Cold-Starting Problem.Information Sciences,2008,178(1):37-51

      猜你喜歡
      分值個(gè)性化圖書(shū)
      一起來(lái)看看交通違法記分分值有什么變化
      圖書(shū)推薦
      南風(fēng)(2020年22期)2020-09-15 07:47:08
      堅(jiān)持個(gè)性化的寫(xiě)作
      文苑(2020年4期)2020-05-30 12:35:12
      歡迎來(lái)到圖書(shū)借閱角
      新聞的個(gè)性化寫(xiě)作
      新聞傳播(2018年12期)2018-09-19 06:27:10
      班里有個(gè)圖書(shū)角
      上汽大通:C2B個(gè)性化定制未來(lái)
      滿(mǎn)足群眾的個(gè)性化需求
      宿遷城鎮(zhèn)居民醫(yī)保按病種分值結(jié)算初探
      病種分值結(jié)算模式下的醫(yī)療監(jiān)管之實(shí)踐與啟示
      枞阳县| 玛纳斯县| 霍林郭勒市| 台北县| 工布江达县| 托克托县| 赤峰市| 循化| 南康市| 平谷区| 济宁市| 高青县| 五大连池市| 固始县| 宜兰县| 彭泽县| 东城区| 诏安县| 繁昌县| 田林县| 隆德县| 沙洋县| 芜湖县| 广宗县| 高州市| 隆回县| 平武县| 武陟县| 鄯善县| 曲周县| 耒阳市| 铁岭市| 丰台区| 西乡县| 巩留县| 娄烦县| 吐鲁番市| 儋州市| 土默特右旗| 多伦县| 巩留县|