張安磊
摘 要:紹了在移動(dòng)環(huán)境下數(shù)據(jù)資源個(gè)性化推送系統(tǒng)的構(gòu)建方法。該系統(tǒng)通過(guò)對(duì)用戶的反饋意見、用戶的瀏覽記錄、每篇文章的評(píng)分和下載量統(tǒng)計(jì)以及用戶對(duì)每篇文章打上的標(biāo)簽等綜合考慮并給定一個(gè)評(píng)分值,然后通過(guò)加權(quán)二部圖算法,最終實(shí)現(xiàn)對(duì)特色數(shù)據(jù)資源的個(gè)性化推送。
關(guān)鍵詞:個(gè)性化推送技術(shù);特色數(shù)據(jù)資源;移動(dòng)環(huán)境;加權(quán)二部圖
中圖分類號(hào):TP311.52
特色數(shù)據(jù)庫(kù)是圖書館在充分利用自己的館藏特色基礎(chǔ)上建立起來(lái)的一種具有本館特色的可供共享的文獻(xiàn)信息數(shù)據(jù)庫(kù)[1]。它重點(diǎn)關(guān)注某一領(lǐng)域,并盡可能地將該領(lǐng)域內(nèi)的有價(jià)值的信息收錄進(jìn)來(lái),體現(xiàn)了數(shù)據(jù)庫(kù)的專題性和獨(dú)特性[2]。2009年,學(xué)校針對(duì)貴州省經(jīng)濟(jì)社會(huì)發(fā)展需要開展綜合性學(xué)科科學(xué)研究等方面有所突破,重點(diǎn)開展山地經(jīng)濟(jì)、生態(tài)經(jīng)濟(jì)、反貧困問(wèn)題研究等領(lǐng)域的研究,提升學(xué)校在省內(nèi)外和國(guó)家層面上的科技競(jìng)爭(zhēng)力。
雖然特色數(shù)據(jù)庫(kù)的信息量相對(duì)有限,但是其中有價(jià)值的數(shù)據(jù)仍然相當(dāng)多,因此,我們迫切希望找到一種能夠在信息海洋中自動(dòng)獲取實(shí)用、準(zhǔn)確、精煉和優(yōu)質(zhì)的方法。而利用個(gè)性化信息推送技術(shù)在移動(dòng)網(wǎng)絡(luò)環(huán)境下開展信息推送服務(wù)無(wú)疑是一種最好的選擇。
1 系統(tǒng)概述
本系統(tǒng)首先進(jìn)行數(shù)據(jù)拉取,即用戶注冊(cè)時(shí)收集用戶的身份,專業(yè),研究方向,感興趣的內(nèi)容等個(gè)人信息,然后通過(guò)在學(xué)者查找資源過(guò)程中根據(jù)查看記錄適時(shí)地進(jìn)行數(shù)據(jù)推送,并且以后再定期的將新的符合條件的資源信息進(jìn)行數(shù)據(jù)推送(數(shù)據(jù)推送即主動(dòng)將學(xué)校特色數(shù)據(jù)庫(kù)中學(xué)者可能感興趣的論文,書籍,視頻等信息通過(guò)該系統(tǒng)傳送到用戶的手機(jī)中)根據(jù)用戶的反饋意見、用戶的瀏覽記錄、每篇文章的評(píng)分和下載量統(tǒng)計(jì)以及用戶對(duì)每篇文章打上的標(biāo)簽等信息來(lái)建立用戶的興趣模型,而在這個(gè)推送過(guò)程中,該系統(tǒng)還能根據(jù)學(xué)者對(duì)手機(jī)情景模式的設(shè)置來(lái)決定是立即還是延遲提示學(xué)者對(duì)這些推送信息進(jìn)行查看。
2 技術(shù)要點(diǎn)
2.1 分眾分類法
它是互聯(lián)網(wǎng)時(shí)代的一個(gè)創(chuàng)造詞,表示一種由非專業(yè)信息人員創(chuàng)造的分類法,分眾分類法與傳統(tǒng)結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)慕鹱炙降奈墨I(xiàn)分類法和信息分類法不同,它強(qiáng)調(diào)的是一種自下而上的、社會(huì)性的、用戶共同創(chuàng)造的、自由的分類法。分眾分類法就是由用戶將自己感興趣的信息加以組織整理,自由選擇關(guān)鍵詞為信息貼加標(biāo)簽,具有強(qiáng)烈的個(gè)人背景特色。
2.2 手機(jī)的個(gè)性化推送
(1)Web數(shù)據(jù)挖掘
Web數(shù)據(jù)挖掘從表征Web的超鏈接結(jié)構(gòu)、網(wǎng)頁(yè)內(nèi)容和使用日志中探尋有用的信息。雖然Web挖掘使用了許多數(shù)據(jù)挖掘技術(shù),但是它不僅僅是傳統(tǒng)數(shù)據(jù)挖掘的一個(gè)簡(jiǎn)單應(yīng)用。在過(guò)去20年中,許多新的挖掘人物和算法相繼發(fā)明。依據(jù)在挖掘過(guò)程中使用的數(shù)據(jù)類別,Web挖掘人物可以被劃分為三種主要類型:Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘和Web使用挖掘。
Web結(jié)構(gòu)挖掘:Web結(jié)構(gòu)挖掘從表征Web結(jié)構(gòu)的超鏈接中尋找有用的知識(shí)。
Web內(nèi)容挖掘:Web內(nèi)容挖掘從網(wǎng)頁(yè)內(nèi)容中抽取有用的信息和知識(shí)。
Web使用挖掘:Web使用挖掘從記錄每位用戶點(diǎn)擊情況的使用日志中挖掘用戶的訪問(wèn)模式。這項(xiàng)任務(wù)也使用了許多數(shù)據(jù)挖掘算法。其中一項(xiàng)重要的議題是點(diǎn)擊流數(shù)據(jù)的預(yù)處理,以便生成可以用來(lái)挖掘的合適數(shù)據(jù)。
Web數(shù)據(jù)挖掘過(guò)程和數(shù)據(jù)挖掘過(guò)程十分相似,區(qū)別通常只是數(shù)據(jù)收集。在傳統(tǒng)數(shù)據(jù)挖掘中,這些數(shù)據(jù)經(jīng)常是收集并存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的。而對(duì)于Web挖掘而言,數(shù)據(jù)收集是一項(xiàng)艱巨的任務(wù),尤其是進(jìn)行Web結(jié)構(gòu)挖掘和內(nèi)容挖掘的時(shí)候,需要爬取大量的網(wǎng)頁(yè)。
(2)移動(dòng)環(huán)境下的個(gè)性化推送
它是指服務(wù)器根據(jù)用戶需求定向?qū)⑿畔?shí)時(shí)送達(dá)手機(jī)的服務(wù)。當(dāng)有信息需要發(fā)送到手機(jī)時(shí),它通過(guò)手機(jī)與服務(wù)器的網(wǎng)絡(luò)連接將信息發(fā)送給用戶,而這些信息,則是使用Web數(shù)據(jù)挖掘中的相應(yīng)算法整理出來(lái)的。
在本系統(tǒng)中,為了進(jìn)一步發(fā)揮特色數(shù)據(jù)庫(kù)的科研作用,讓系統(tǒng)中的數(shù)據(jù)挖掘算法能夠針對(duì)不同的用戶及時(shí)推送他們需要的文獻(xiàn)、書籍、視頻,我們可以充分發(fā)揮出移動(dòng)環(huán)境特有的便捷性,及時(shí)性等優(yōu)勢(shì),使用戶通過(guò)手機(jī)能夠及時(shí)收到這些推送信息。
(3)基于加權(quán)二部圖的推薦算法
二部圖是一種特殊的網(wǎng)絡(luò),它包含兩類結(jié)點(diǎn),一類是用戶結(jié)點(diǎn);另一類是項(xiàng)目結(jié)點(diǎn),例如論文、特色數(shù)據(jù)資源等信息資源[3]。而加權(quán)二部圖是在二部圖的基礎(chǔ)上衍伸而來(lái)的,它考慮用戶-項(xiàng)目之間的權(quán)重,首先,項(xiàng)目將資源按照項(xiàng)目用戶之間的邊權(quán)與該項(xiàng)目邊權(quán)之和的比分配給用戶,然后按照同樣的方式按照用戶項(xiàng)目邊權(quán)與該用戶邊權(quán)之和的比例將資源返回給項(xiàng)目。
3 本系統(tǒng)的特點(diǎn)以及解決的關(guān)鍵問(wèn)題
3.1 本系統(tǒng)的特點(diǎn)
(1)將推送技術(shù)和傳統(tǒng)的拉取技術(shù)結(jié)合。采用數(shù)據(jù)挖掘的方法和技術(shù),從拉取到的信息中提取有用的知識(shí),發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的內(nèi)在規(guī)律,從而可以根據(jù)數(shù)據(jù)挖掘的結(jié)果向?qū)W(xué)者有針對(duì)性地、及時(shí)地主動(dòng)的推送信息。
(2)使用分眾分類法和其他與數(shù)據(jù)信息資源相關(guān)的屬性(如:時(shí)效性,研究方向等)對(duì)其進(jìn)行分類,該方法是向用戶提供一種協(xié)同構(gòu)建與共享各自網(wǎng)絡(luò)資源標(biāo)簽的開放式平臺(tái),通過(guò)用戶自己制定分類標(biāo)準(zhǔn)和提交資源標(biāo)簽來(lái)實(shí)現(xiàn),最后,由用戶群體定義的頻率來(lái)確定資源的類別。
(3)現(xiàn)有的基于“山地經(jīng)濟(jì)、生態(tài)經(jīng)濟(jì)、反貧困問(wèn)題研究”領(lǐng)域特色數(shù)據(jù)庫(kù)只將資源分類為下列四種:山地經(jīng)濟(jì),經(jīng)濟(jì)史,反貧困問(wèn)題,生態(tài)經(jīng)濟(jì)。故首先對(duì)資源根據(jù)學(xué)者評(píng)分,專業(yè)方向等進(jìn)行進(jìn)一步細(xì)粒度的劃分。然后研究該特色數(shù)據(jù)庫(kù)的注冊(cè)用戶,并將他們的身份,喜好,研究?jī)?nèi)容,上網(wǎng)習(xí)慣,用戶評(píng)分等重要指標(biāo)一一調(diào)查并列舉,然后進(jìn)行評(píng)分,這樣能將用戶進(jìn)行進(jìn)一步細(xì)分,選擇一個(gè)合適的開發(fā)平臺(tái)并構(gòu)造適合該數(shù)據(jù)庫(kù)的個(gè)性化推送的算法。
3.2 系統(tǒng)所解決的關(guān)鍵的問(wèn)題
(1)確定用戶的關(guān)鍵需求信息,這些需求信息能為學(xué)者的個(gè)性化信息推送提供參考依據(jù)。我們主要采用調(diào)研的方式,對(duì)本系統(tǒng)的潛在用戶進(jìn)行實(shí)地問(wèn)卷調(diào)查,最后根據(jù)對(duì)用戶的調(diào)研結(jié)果來(lái)設(shè)計(jì)本系統(tǒng)的用戶注冊(cè)信息。
(2)需要最大程度的為用戶推送他們想要的,感興趣的資源,并且在保證個(gè)性化推送準(zhǔn)確性的前提下,合理推送一定數(shù)量的資源。本系統(tǒng)通過(guò)對(duì)用戶信息以及用戶對(duì)資源的操作信息的拉取,采用加權(quán)二部圖的個(gè)性化推送算法,構(gòu)建“用戶—特色數(shù)據(jù)資源”二部圖。其中,用戶信息主要是用戶的注冊(cè)信息,用戶對(duì)資源的操作信息主要是用戶的反饋意見、用戶的瀏覽記錄、每篇文章的評(píng)分和下載量統(tǒng)計(jì)以及用戶對(duì)每篇文章打的標(biāo)簽。
(3)建立學(xué)者興趣的動(dòng)態(tài)模型。在學(xué)者定制好一個(gè)自己的描述文件之后,系統(tǒng)必須根據(jù)學(xué)習(xí)的信息源分析當(dāng)前學(xué)者的行為,從而調(diào)整學(xué)者興趣的權(quán)重或者調(diào)整學(xué)者興趣層次結(jié)構(gòu)。根據(jù)學(xué)習(xí)的信息源,學(xué)者跟蹤的方法分為兩種:顯式跟蹤和隱式跟蹤。顯式跟蹤是指系統(tǒng)要求學(xué)者對(duì)推薦的資源進(jìn)行反饋和評(píng)價(jià), 從而達(dá)到學(xué)習(xí)的目的。隱式跟蹤不要求學(xué)者提供什么信息, 所有的跟蹤都由系統(tǒng)自動(dòng)完成。
4 結(jié)束語(yǔ)
本文利用數(shù)據(jù)挖掘中分類的思想和加權(quán)二部圖的推薦算法提出了一種移動(dòng)環(huán)境下特色數(shù)據(jù)資源個(gè)性化推送系統(tǒng)的構(gòu)建方法。目前,貴州省大部分高校都建設(shè)了符合自己圖書館館藏的特色數(shù)據(jù)庫(kù),但是,這些學(xué)校的圖書館都沒有針對(duì)移動(dòng)環(huán)境建立個(gè)性化的資源信息推送系統(tǒng)。手機(jī)使用方便靈活快捷的特性和信息推送的主動(dòng)性和個(gè)性化的特點(diǎn)[4],決定了在移動(dòng)環(huán)境下建立資源的信息推送系統(tǒng)是非常有必要的[5]。
參考文獻(xiàn)
[1]李育嫦.國(guó)內(nèi)學(xué)科信息門戶發(fā)展現(xiàn)狀分析[J].情報(bào)科學(xué),2008(6).
[2]劉竟.面向概念檢索的農(nóng)史信息門戶的設(shè)計(jì)與構(gòu)建[D].南京農(nóng)業(yè)大學(xué),2008.
[3]張新猛,蔣盛益.基于加權(quán)二部圖的個(gè)性化推薦算法[J].計(jì)算機(jī)應(yīng)用,2012,32(3).
[4]徐青云.信息推送在個(gè)性化信息服務(wù)中的發(fā)展趨勢(shì)[J].現(xiàn)代情報(bào),2010(3).
[5]詹勛武.論圖書館的信息推送服務(wù)[J].四川理工學(xué)院學(xué)報(bào):社會(huì)科學(xué)版.2009,24(2):98-101.