• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字圖書(shū)館個(gè)性化信息推薦系統(tǒng)

      2013-09-23 01:27:42
      圖書(shū)館學(xué)刊 2013年4期
      關(guān)鍵詞:項(xiàng)集數(shù)據(jù)挖掘關(guān)聯(lián)

      付 兵

      (湛江師范學(xué)院基礎(chǔ)教育學(xué)院圖書(shū)館,廣東 湛江 524037)

      數(shù)字圖書(shū)館就是數(shù)字化的信息資源庫(kù)[1],其主要功能是為用戶提供信息服務(wù)。隨著Internet技術(shù)及信息技術(shù)的快速發(fā)展,信息資源內(nèi)容豐富、形式多樣,但質(zhì)量卻良莠不齊,信息的“爆炸”式增長(zhǎng)使得信息的利用率反而降低,出現(xiàn)“信息超載”現(xiàn)象。如何從浩如煙海的信息海洋中快速找到自己所需的優(yōu)質(zhì)信息資源,是廣大信息用戶面臨的主要難題。隨著Lib2.0技術(shù)的出現(xiàn)和應(yīng)用,個(gè)性化信息推薦服務(wù)逐漸成為數(shù)字圖書(shū)館新型服務(wù)模式的主流,其改變了傳統(tǒng)圖書(shū)館的被動(dòng)服務(wù)方式,能根據(jù)用戶的興趣愛(ài)好主動(dòng)為其推薦信息,從而提高了數(shù)字圖書(shū)館信息服務(wù)的質(zhì)量。個(gè)性化推薦系統(tǒng)的主要算法有基于內(nèi)容的推薦、基于協(xié)同過(guò)濾的推薦、基于關(guān)聯(lián)規(guī)則的推薦、基于用戶統(tǒng)計(jì)信息的推薦、基于知識(shí)的推薦等[2],個(gè)性化推薦在圖書(shū)館的研究應(yīng)用主要是針對(duì)圖書(shū)的推薦,因此筆者設(shè)計(jì)了一個(gè)基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)的數(shù)字圖書(shū)館個(gè)性化信息推薦系統(tǒng)。

      1 關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

      關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的主要技術(shù)之一[3]。所謂關(guān)聯(lián)規(guī)則,就是尋找描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)(屬性、變量)之間存在或潛在的相關(guān)性。利用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù),可以找出大量數(shù)據(jù)之間未知的相互依賴關(guān)系[4]。由于關(guān)聯(lián)規(guī)則形式簡(jiǎn)潔、易于解釋和理解并能有效捕捉數(shù)據(jù)間的重要關(guān)系,因此從大型數(shù)據(jù)庫(kù)中挖掘關(guān)聯(lián)規(guī)則已成為近年來(lái)數(shù)據(jù)挖掘領(lǐng)域的一個(gè)熱點(diǎn)。目前關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用于電子商務(wù)、人工智能、信息檢索、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)等眾多領(lǐng)域,并取得了一定的研究成果。

      1.1 關(guān)聯(lián)規(guī)則的有關(guān)概念[5]

      設(shè)I={i1,i2,…,im}是事務(wù)數(shù)據(jù)庫(kù)D中數(shù)據(jù)項(xiàng)的集合,則I稱為項(xiàng)集。含有k個(gè)數(shù)據(jù)項(xiàng)的項(xiàng)集稱為k-項(xiàng)集。事務(wù)T是項(xiàng)集I中的一些元素組成的集合,即T?I,在關(guān)系數(shù)據(jù)庫(kù)中相當(dāng)于記錄。事務(wù)數(shù)據(jù)庫(kù)D是所有事務(wù)T的集合。關(guān)聯(lián)規(guī)則是形如 A?B 的蘊(yùn)含式,其中,A?I,B?I,并且 A∩B=?。若規(guī)則A?B在事務(wù)集D中成立,則具有支持度(support)s和置信度(confidence)c,其中s是D中事務(wù)包含A∪B(即A和B二者)的百分比,c是D中包含A的事務(wù)同時(shí)也包含B的百分比。同時(shí)滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則稱作強(qiáng)規(guī)則,這些閾值可以由用戶或者專家設(shè)定。項(xiàng)集的出現(xiàn)頻率是包含項(xiàng)集的事務(wù)數(shù),如果項(xiàng)集的出現(xiàn)頻率大于或等于min_sup與D中事務(wù)總數(shù)的乘積,則稱項(xiàng)集滿足最小支持度min_sup。如果項(xiàng)集滿足最小支持度,則稱它為頻繁項(xiàng)集。頻繁k-項(xiàng)集的集合通常記作Lk。

      關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘可分為兩個(gè)步驟:第一步,找出數(shù)據(jù)庫(kù)中支持度大于最小支持閾值的所有頻繁項(xiàng)集;第二步,由這些頻繁項(xiàng)集中產(chǎn)生滿足最小置信度的強(qiáng)關(guān)聯(lián)規(guī)則。從兩個(gè)步驟中尋找所有頻繁項(xiàng)集是關(guān)鍵問(wèn)題,它決定著關(guān)聯(lián)規(guī)則的整體性能。尋找頻繁項(xiàng)集的算法很多,下面我們介紹由Agrawa和Srikant提出的Apriori算法。

      1.2 Apriori算法

      Apriori算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,它的主要思想是利用逐層搜索的迭代方法,來(lái)尋找數(shù)據(jù)庫(kù)中的頻繁項(xiàng)集。算法描述如下:

      算法 1(Apriori)[5]:使用逐層迭代找出頻繁項(xiàng)集

      輸入:事務(wù)數(shù)據(jù)庫(kù)D;最小支持閾值min_sup。

      輸出:D中的頻繁項(xiàng)集L。

      方法:

      ①L1=find_frequent_1_itemsets(D);//找出頻繁 1-項(xiàng)集的集合L1;

      ②for(k=2;Lk-1≠?;k++){;

      ③Ck=apriori-gen(Lk-1,min_sup);//用 Lk-1產(chǎn)生候選 Ck;

      ④for each transition t∈D{//找出事務(wù)中是候選的所有子集,并對(duì)每個(gè)這樣的候選累加計(jì)數(shù);

      ⑤Ct=Subset(Ck,t);

      ⑥for each candidate c∈Ct;

      ⑦c.count++;

      ⑧};

      ⑨Lk={c∈Ck|c.count>=min_sup};

      ⑩};

      ?return L={所有的 Lk}。

      2 個(gè)性化信息推薦系統(tǒng)設(shè)計(jì)

      2.1 設(shè)計(jì)思路

      數(shù)字圖書(shū)館個(gè)性化信息推薦系統(tǒng)構(gòu)建的最終目的是能夠在實(shí)際中得以應(yīng)用,因此在設(shè)計(jì)時(shí)應(yīng)當(dāng)遵循易操作性、完整性、可更新性、可擴(kuò)展性以及針對(duì)性的原則[6]。

      首先,對(duì)數(shù)字圖書(shū)館中的各種信息資源數(shù)據(jù)庫(kù)進(jìn)行分析,統(tǒng)計(jì)出信息資源的使用情況。同時(shí),不同用戶群具有不同的特點(diǎn)和喜好,因此可以通過(guò)對(duì)信息資源的聚類分析,找到不同用戶群所需的信息資源,為個(gè)性化信息推薦提供參考。

      其次,對(duì)用戶進(jìn)行聚類分析。在數(shù)字圖書(shū)館的用戶中,由于專業(yè)背景、從事行業(yè)、興趣愛(ài)好等的不同,所需信息也不盡相同。因此,可以把具有相似專業(yè)背景、工作行業(yè)、興趣愛(ài)好等特點(diǎn)的用戶聚在一起,為同一類用戶推薦相似的信息。通過(guò)對(duì)用戶的聚類分析,可以了解用戶對(duì)數(shù)字圖書(shū)館信息資源的使用程度,為不同的用戶提供針對(duì)性的服務(wù)。

      最后,分析信息資源之間的關(guān)聯(lián)性。例如,大多數(shù)對(duì)資源A感興趣的用戶對(duì)資源B也感興趣,當(dāng)用戶在使用資源A的時(shí)候,可以將資源B推薦給他。也可以根據(jù)用戶的信息資源使用情況,將相關(guān)的資源推薦給用戶。

      2.2 系統(tǒng)結(jié)構(gòu)

      個(gè)性化信息推薦系統(tǒng)主要包含3個(gè)層次,即數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)挖掘?qū)雍陀脩艚缑鎸?,如圖1。

      圖1 個(gè)性化信息推薦系統(tǒng)結(jié)構(gòu)

      2.2.1 數(shù)據(jù)存儲(chǔ)層

      數(shù)據(jù)庫(kù)是數(shù)據(jù)挖掘的基礎(chǔ),數(shù)據(jù)存儲(chǔ)層就是數(shù)字圖書(shū)館的各種數(shù)據(jù)庫(kù),包括資源數(shù)據(jù)庫(kù)(館藏書(shū)目數(shù)據(jù)庫(kù)、電子資源數(shù)據(jù)庫(kù))、用戶數(shù)據(jù)庫(kù)等。

      2.2.2 數(shù)據(jù)挖掘?qū)?/p>

      數(shù)據(jù)挖掘?qū)邮莻€(gè)性化信息推薦系統(tǒng)的核心,主要是對(duì)數(shù)據(jù)進(jìn)行處理,利用數(shù)據(jù)挖掘技術(shù)對(duì)信息資源和用戶信息進(jìn)行采集和挖掘,對(duì)挖掘結(jié)果歸納分析后,針對(duì)不同用戶推薦其感興趣的信息。該層的主要功能模塊包括數(shù)據(jù)采集模塊、數(shù)據(jù)挖掘模塊以及信息推薦模塊。

      2.2.3 用戶界面層

      用戶界面層主要提供系統(tǒng)和用戶之間交流的平臺(tái)界面,是個(gè)性化信息推薦系統(tǒng)的輸入輸出層。用戶可通過(guò)該界面進(jìn)行注冊(cè)、登錄,輸入各種個(gè)人信息、個(gè)性化信息要求、評(píng)價(jià)反饋信息等;系統(tǒng)可通過(guò)此界面展示數(shù)字圖書(shū)館信息資源,向用戶輸出個(gè)性化信息推薦結(jié)果。

      2.3 系統(tǒng)功能模塊

      2.3.1 數(shù)據(jù)采集模塊

      該模塊包含信息資源采集模塊和用戶信息采集模塊。信息資源采集模塊從數(shù)字圖書(shū)館信息資源數(shù)據(jù)庫(kù)中獲取資源數(shù)據(jù),為用戶提供各種信息資源的詳細(xì)信息(如資源的題名、作者、來(lái)源等)。用戶信息采集模塊收集用戶個(gè)人注冊(cè)以及興趣愛(ài)好等信息,并將用戶的歷史使用行為記錄、評(píng)價(jià)反饋等錄入用戶信息數(shù)據(jù)庫(kù)。

      2.3.2 數(shù)據(jù)挖掘模塊

      此模塊對(duì)信息資源和用戶信息進(jìn)行挖掘,找出強(qiáng)關(guān)聯(lián)規(guī)則,建立規(guī)則庫(kù),并對(duì)用戶進(jìn)行聚類分析(可根據(jù)用戶所學(xué)專業(yè)、從事職業(yè)等聚類),找到各類用戶群。由于需要處理的數(shù)據(jù)量很大,非常耗時(shí),所以該模塊主要是采用離線處理的工作模式。離線處理不會(huì)影響推薦結(jié)果,因?yàn)閺?qiáng)關(guān)聯(lián)規(guī)則結(jié)果是通過(guò)對(duì)大量的用戶歷史記錄進(jìn)行挖掘的結(jié)果,在一定的時(shí)間段內(nèi)新增的數(shù)據(jù)量相對(duì)較少,對(duì)挖掘結(jié)果的影響是很小的,等達(dá)到了一定的時(shí)間,并積累了一定量的新記錄后,再重新加入數(shù)據(jù)進(jìn)行挖掘計(jì)算,定時(shí)更新,所以關(guān)聯(lián)規(guī)則的離線發(fā)現(xiàn)是科學(xué)合理的。離線數(shù)據(jù)挖掘的工作流程是:首先把挖掘所需的所有存儲(chǔ)在數(shù)據(jù)庫(kù)中的用戶歷史使用行為記錄導(dǎo)出;其次把導(dǎo)出的原始數(shù)據(jù)按照挖掘規(guī)則刪除各種噪聲數(shù)據(jù)、空值數(shù)據(jù)以及不需要的數(shù)據(jù),合并同類數(shù)據(jù);最后將清理過(guò)的數(shù)據(jù)進(jìn)行聚類和關(guān)聯(lián)規(guī)則挖掘,將挖掘結(jié)果進(jìn)行結(jié)構(gòu)化存儲(chǔ),寫入規(guī)則數(shù)據(jù)庫(kù),以供推薦使用。

      2.3.3 信息推薦模塊

      通過(guò)用戶登錄獲取其專業(yè)背景、興趣愛(ài)好、歷史使用行為以及正在瀏覽的信息,將這些信息與規(guī)則數(shù)據(jù)庫(kù)中的規(guī)則進(jìn)行匹配,最終得到針對(duì)性很強(qiáng)的推薦結(jié)果,并將結(jié)果推薦給用戶。

      3 個(gè)性化信息推薦過(guò)程

      3.1 獲取信息

      系統(tǒng)通過(guò)顯式和隱式兩種方式獲取用戶信息。對(duì)用戶的基本信息,如性別、年齡、學(xué)歷、專業(yè)、職業(yè)、興趣愛(ài)好等,采用顯式方式獲取,在用戶注冊(cè)時(shí),要求用戶填寫。用戶的歷史瀏覽、借閱、下載、評(píng)價(jià)反饋等信息,系統(tǒng)隱式地記錄下來(lái)。系統(tǒng)將對(duì)獲取的用戶信息進(jìn)行加工處理,提取用戶個(gè)體特征描述詞,動(dòng)態(tài)地更新到用戶信息數(shù)據(jù)庫(kù)中。用戶信息的準(zhǔn)確性和完整性將直接影響到信息推薦結(jié)果的質(zhì)量。

      3.2 匹配信息

      用戶登錄系統(tǒng)后,系統(tǒng)將描述用戶的特征詞與規(guī)則數(shù)據(jù)庫(kù)中的規(guī)則進(jìn)行匹配,將符合用戶個(gè)性化信息需求的信息資源檢索出來(lái),并按照匹配度降序排列,將“TOP-N”個(gè)資源作為推薦結(jié)果。

      3.3 推薦信息

      系統(tǒng)可以通過(guò)網(wǎng)上實(shí)時(shí)推薦、電子郵件或手機(jī)短信等友好的方式,將推薦結(jié)果主動(dòng)推送給用戶。用戶可以對(duì)推薦結(jié)果提出評(píng)價(jià)意見(jiàn),系統(tǒng)根據(jù)用戶反饋的意見(jiàn)調(diào)整推薦結(jié)果,以更好地滿足用戶的個(gè)性化信息需求。

      4 結(jié)語(yǔ)

      個(gè)性化信息推薦系統(tǒng)涉及數(shù)據(jù)獲取、數(shù)據(jù)處理、算法選擇、參數(shù)優(yōu)化、反饋信息收集、效果測(cè)試和改進(jìn)等,不僅僅是一個(gè)或幾個(gè)推薦服務(wù)新的功能開(kāi)發(fā),還需要長(zhǎng)期維護(hù)和改進(jìn),需要專業(yè)的團(tuán)隊(duì)和持續(xù)的投入才能完成[7]。筆者采用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù),對(duì)數(shù)字圖書(shū)館的信息資源和用戶數(shù)據(jù)進(jìn)行挖掘,并以此設(shè)計(jì)了個(gè)性化信息推薦系統(tǒng)。圖書(shū)館利用此系統(tǒng),可以有效獲取用戶的個(gè)性化信息需求,變被動(dòng)服務(wù)為主動(dòng)推送服務(wù),最大限度地提高信息資源的利用率。另外,數(shù)據(jù)挖掘結(jié)果還可為圖書(shū)館建立科學(xué)、合理的館藏資源結(jié)構(gòu)提供重要的參考依據(jù)。

      [1] 徐文伯.關(guān)于數(shù)字圖書(shū)館的幾點(diǎn)認(rèn)識(shí)[J].情報(bào)資料工作,2001(3):16-17.

      [2]劉飛飛.基于多目標(biāo)優(yōu)化雙聚類的數(shù)字圖書(shū)館協(xié)同過(guò)濾推薦系統(tǒng)[J].圖書(shū)情報(bào)工作,2011(7):111-113.

      [3]Mehmed Kantardzic;閃四清,等譯.數(shù)據(jù)挖掘:概念、模型、方法和算法[M].北京:清華大學(xué)出版社,2003.

      [4] 蔡會(huì)霞,朱潔,蔡瑞英.關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘在高校圖書(shū)館系統(tǒng)中的應(yīng)用[J].南京工業(yè)大學(xué)學(xué)報(bào),2005(1):85-88.

      [5]JiaweiHan,Micheline Kamber;范明,等譯.數(shù)據(jù)挖掘——概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.

      [6] 楊靜.電子商務(wù)中個(gè)性化推薦模型的研究[D].天津:天津師范大學(xué),2006.

      [7] gary.推薦系統(tǒng)五大問(wèn)題[EB/OL].[2012-10-26].http://www.resyschina.com/2010/03/five_problems_of_resys.html.

      猜你喜歡
      項(xiàng)集數(shù)據(jù)挖掘關(guān)聯(lián)
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      奇趣搭配
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
      卷宗(2014年5期)2014-07-15 07:47:08
      一種頻繁核心項(xiàng)集的快速挖掘算法
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      語(yǔ)言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
      边坝县| 三台县| 鄢陵县| 娄烦县| 余干县| 汝阳县| 岑巩县| 民勤县| 呼伦贝尔市| 麻栗坡县| 福贡县| 清远市| 阳新县| 紫阳县| 四川省| 湖南省| 五大连池市| 上饶县| 黑龙江省| 谢通门县| 盈江县| 武汉市| 陕西省| 龙胜| 宁海县| 马山县| 井陉县| 琼结县| 元氏县| 商城县| 屏东县| 霍邱县| 来凤县| 达州市| 湖南省| 齐河县| 甘肃省| 武清区| 平山县| 庄浪县| 元谋县|