• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Apriori算法的圖書館讀者借閱信息分析

      2016-08-02 07:55:12喻正紅
      卷宗 2016年6期
      關(guān)鍵詞:Apriori算法行為分析數(shù)據(jù)挖掘

      喻正紅

      摘 要:高校圖書館在每天的讀者借閱服務(wù)中都會(huì)產(chǎn)生大量的用戶數(shù)據(jù),這些數(shù)據(jù)隱藏著一些與用戶相關(guān)的知識(shí),而數(shù)據(jù)挖掘技術(shù)在分析處理數(shù)據(jù)方面有著自己強(qiáng)大的優(yōu)勢(shì)。通過(guò)利用Apriori算法對(duì)這些數(shù)據(jù)進(jìn)行科學(xué)分析,不僅可以得出讀者的借閱規(guī)律、借閱特點(diǎn),而且把它作為選擇購(gòu)買數(shù)字、紙質(zhì)資源,調(diào)整服務(wù)策略,開(kāi)展個(gè)性化推送服務(wù)等工作的參考標(biāo)準(zhǔn),使得讀者的信息需求能夠更加快速、有效、完整地得到滿足。同時(shí)還可以為圖書館提供科學(xué)管理的依據(jù),優(yōu)化圖書館的資源結(jié)構(gòu),提高圖書館紙本圖書和電子資源利用率。

      關(guān)鍵詞:數(shù)據(jù)挖掘;圖書館;行為分析;Apriori算法

      隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的出現(xiàn)和發(fā)展,大量數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)隨之出現(xiàn),面對(duì)數(shù)據(jù)規(guī)模爆炸式的增長(zhǎng)趨勢(shì),傳統(tǒng)的小樣本專家驗(yàn)證式統(tǒng)計(jì)分析已不能適應(yīng)從大數(shù)據(jù)中發(fā)現(xiàn)知識(shí)為人類服務(wù)的要求。運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)圖書館讀者數(shù)據(jù)進(jìn)行挖掘,能有效地解決這個(gè)問(wèn)題。研究針對(duì)湖南工程學(xué)院圖書館管理系統(tǒng)的讀者數(shù)據(jù),旨在分析讀者借閱記錄中找出蘊(yùn)藏的對(duì)于管理有用的規(guī)則、描述,對(duì)讀者借閱行為做出分析,挖掘出潛在的有用信息,為圖書購(gòu)買、用戶服務(wù)、館藏目錄設(shè)置等管理工作提供決策支持,為日常圖書館信息服務(wù)提供決策參考,使圖書館朝著自動(dòng)化、數(shù)字化和信息化的方向發(fā)展。鑒于讀者借閱信息的屬性均是數(shù)值型數(shù)據(jù),挖掘技術(shù)選用能有效處理數(shù)值型數(shù)據(jù)的關(guān)聯(lián)規(guī)則算法。

      關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的一種,它從大量的數(shù)據(jù)中挖掘出有價(jià)值的、描述數(shù)據(jù)項(xiàng)之間相互聯(lián)系的有關(guān)知識(shí)[1]。Apriori算法是關(guān)聯(lián)規(guī)則挖掘算法中最經(jīng)典的算法,此算法使用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí),通過(guò)逐層搜索的迭代方法來(lái)查找頻繁項(xiàng)集[2]。由于關(guān)聯(lián)規(guī)則具有以下特點(diǎn):形式簡(jiǎn)潔、易于解釋和理解、并且可以非常高效捕捉數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系,所以近年來(lái)數(shù)據(jù)挖掘領(lǐng)域的一個(gè)熱點(diǎn)就是從大數(shù)據(jù)庫(kù)中挖掘關(guān)聯(lián)規(guī)則之間的理論。通過(guò)應(yīng)用關(guān)聯(lián)規(guī)則的Apriori 算法在數(shù)據(jù)挖掘中,對(duì)讀者借閱信息進(jìn)行數(shù)據(jù)分析。使用最小支持度和最小置信度對(duì)頻繁項(xiàng)集進(jìn)行挖掘,并且從中尋找存在的關(guān)系和規(guī)則,以用于指導(dǎo)今后的圖書采購(gòu)和推薦。

      1 Apriori算法

      Apriori算法在挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集中是最有影響的一種的算法?;趦呻A段頻集思想的遞推算法是這個(gè)算法的核心。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡(jiǎn)稱頻集。Apriori尋找頻繁項(xiàng)集的過(guò)程是一個(gè)不斷迭代的過(guò)程,每次都是兩個(gè)步驟,產(chǎn)生候選集Ck(可能成為頻繁項(xiàng)集的項(xiàng)目組合);基于候選集Ck計(jì)算支持度、確定Lk。Apriori的尋找策略就是從包含少量的項(xiàng)目開(kāi)始逐漸向多個(gè)項(xiàng)目的項(xiàng)目集搜索[3]。

      算法的基本思想可以歸納為:第一步找出所有頻集,把和預(yù)定義的最小支持度一樣的頻集找出來(lái)。第二步由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小可信度和最小支持度。第三步中利用第一步找到的頻集所產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng)。這些規(guī)則被生成以后,留下來(lái)的只有那些大于用戶給定的最小可信度的規(guī)則。使用遞歸的方法來(lái)生成所有頻集。

      由于以上算法中,存在產(chǎn)生侯選項(xiàng)目集時(shí)循環(huán)產(chǎn)生的組合過(guò)多等問(wèn)題,我們對(duì)Apriori算法中尋找最大項(xiàng)目集做了以下改進(jìn):

      第一步:對(duì)所有含一個(gè)元素的項(xiàng)目出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì),把大于或等于最小支持度的項(xiàng)目集找出來(lái),產(chǎn)生一維頻繁項(xiàng)目集Lt。

      第二步:對(duì)頻繁項(xiàng)目集做循環(huán)處理,直到?jīng)]有再產(chǎn)生維數(shù)更高的情況。

      第三步:按Apriori算法再檢驗(yàn)新的K 維頻繁項(xiàng)目集的所有k-1維項(xiàng)目集是否已經(jīng)包含在已經(jīng)求出的K-1維頻繁項(xiàng)目集。

      第四步:經(jīng)過(guò)運(yùn)算得到候選項(xiàng)目集后,掃描數(shù)據(jù)庫(kù)B的每一個(gè)事務(wù),如果該事務(wù)中包含候選項(xiàng)目集Ck中的元素不少于一項(xiàng),就保留該項(xiàng)事務(wù),否則把該事物記錄與沒(méi)有作刪除標(biāo)記的數(shù)據(jù)庫(kù)末端事務(wù)記錄進(jìn)行對(duì)換,并把移到數(shù)據(jù)庫(kù)末端的事務(wù)記錄作刪除標(biāo)記,對(duì)整個(gè)數(shù)據(jù)庫(kù)進(jìn)行掃描,完成后作為新的事務(wù)數(shù)據(jù)庫(kù)D[4]。

      我們可以看到本算法的思路基本上與Apriori算法保持一致,但是又有不同之處。

      第一,新算法在計(jì)算組合Ck前,將對(duì)參與組合的元素進(jìn)行計(jì)數(shù)處理,根據(jù)計(jì)數(shù)結(jié)果從中剔除一些不符合組合條件的元素,這就降低了組合的可能性,也就是降低了循環(huán)判斷的次數(shù)。

      第二,新算法雖然對(duì)數(shù)據(jù)庫(kù)進(jìn)行了掃描后會(huì)生產(chǎn)新的數(shù)據(jù)庫(kù),這樣在記錄重寫中會(huì)浪費(fèi)時(shí)間和輸入、輸出的開(kāi)銷,但是隨著循環(huán)次數(shù)的增加,本算法對(duì)新生成的數(shù)據(jù)庫(kù)中進(jìn)行掃描時(shí)會(huì)減少很多的掃描次數(shù)。

      2 Apriori算法在讀者借閱信息中的應(yīng)用

      數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)來(lái)源為湖南工程學(xué)院圖書館2015年讀者借閱數(shù)據(jù),在電氣學(xué)院系和管理學(xué)院中隨機(jī)抽取兩個(gè)院系進(jìn)行分析,一方面可以針對(duì)不同時(shí)間的數(shù)據(jù)進(jìn)行分析,另一方面,由于高校圖書館學(xué)生讀者群體所學(xué)專業(yè)不同,學(xué)習(xí)動(dòng)機(jī)、興趣、愛(ài)好的不同,因而形成了個(gè)人意識(shí)傾向和心理素質(zhì)的差異,因此在借閱活動(dòng)中表現(xiàn)出不同的心理需求,構(gòu)成了不同的讀者群體特征。由于文科和理科學(xué)生學(xué)習(xí)的特點(diǎn)有不同的地方,所以分別在文科院系和理科院系中抽出一個(gè)典型作為代表,這樣可以針對(duì)性地對(duì)不同學(xué)生群體進(jìn)行分析,得出相應(yīng)的結(jié)論。數(shù)據(jù)時(shí)間范圍為2014年12月-2015年12月,數(shù)據(jù)源為湖南工程學(xué)院圖書館管理系統(tǒng)數(shù)據(jù)庫(kù),導(dǎo)出數(shù)據(jù)格式為TXT文本格式。

      數(shù)據(jù)處理:利用 Apriori算法來(lái)對(duì)圖書館讀者借閱信息進(jìn)行關(guān)聯(lián)規(guī)則的挖掘,檢查以上數(shù)據(jù),經(jīng)過(guò)篩選加工、統(tǒng)一數(shù)據(jù)格式,去掉冗余數(shù)據(jù)以及不合理數(shù)據(jù),分析所需要的信息后,分別建立讀者信息表、借閱圖書詳情表、圖書信息表,進(jìn)行數(shù)據(jù)分析工作,將各種表導(dǎo)入excel數(shù)據(jù)庫(kù)中,完成一些查詢的工作。

      3 總結(jié)

      基于關(guān)聯(lián)規(guī)則的Apriori 算法應(yīng)用領(lǐng)域非常廣泛,將它對(duì)數(shù)據(jù)的關(guān)聯(lián)性進(jìn)行分析和挖掘后的結(jié)果在制定決策過(guò)程中具有重要的參考價(jià)值[5]。本文將Apriori算法應(yīng)用到圖書館讀者借閱記錄中,并且針對(duì)經(jīng)典Apriori挖掘算法存在的不足進(jìn)行了改進(jìn),先將事務(wù)數(shù)據(jù)庫(kù)映射為一個(gè)布爾矩陣,用一種逐層遞增的思想來(lái)動(dòng)態(tài)的分配內(nèi)存進(jìn)行存儲(chǔ),再利用向量求"與"運(yùn)算,尋找頻繁項(xiàng)集。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的Apriori算法在運(yùn)行效率上有了很大的提升,挖掘出的規(guī)則也可以有效地輔助圖書館部門有針對(duì)性的開(kāi)展圖書購(gòu)買和推薦工作。

      參考文獻(xiàn)

      [1]陳德良,鄧德勝,劉永紅.大學(xué)畢業(yè)生就業(yè)影響因素的關(guān)聯(lián)規(guī)則挖掘[J]. 教育與業(yè),2012

      [2]亓文娟,晏杰.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則Apriori算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2013

      [3]楊光,張學(xué)潮. 數(shù)據(jù)挖掘在高校圖書館用戶行為分析中的應(yīng)用[J]. 晉圖學(xué)刊,2011,3:19-22

      [4]張瑞雪.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法研究及應(yīng)用[D].哈爾濱: 哈爾濱工程大學(xué)碩士學(xué)位論文,2006

      [5]李宏運(yùn).關(guān)聯(lián)規(guī)則挖掘在圖書館管理中的應(yīng)用[D].上海: 華東師范大學(xué)碩士學(xué)位論文,2009

      [6]付開(kāi)遠(yuǎn).數(shù)據(jù)挖掘在高校圖書館個(gè)性化信息服務(wù)中的應(yīng)用研究[D]. 貴州: 貴州大學(xué)碩士學(xué)位論文,2010

      [7]趙艷. Apriori算法在學(xué)生成績(jī)分析中的應(yīng)用[J].河北企業(yè),2015,9:10

      猜你喜歡
      Apriori算法行為分析數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于Hadoop平臺(tái)的并行DHP數(shù)據(jù)分析方法
      基于Apriori算法的高校學(xué)生成績(jī)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
      基于北斗衛(wèi)星導(dǎo)航的罪犯行為分析方法
      基于云平臺(tái)MapReduce的Apriori算法研究
      物理教師課堂教學(xué)板書與媒體呈現(xiàn)行為的分析與策略
      基于行為分析的木馬檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
      金融經(jīng)濟(jì)中的金融套利行為分析及若干研究
      關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
      镇雄县| 高安市| 旅游| 科技| 临清市| 广昌县| 扎鲁特旗| 涪陵区| 商都县| 无极县| 个旧市| 彰化县| 左云县| 柞水县| 鄢陵县| 龙江县| 恭城| 罗江县| 滨州市| 宣化县| 普安县| 绥宁县| 陵川县| 汉川市| 区。| 绍兴县| 南部县| 万荣县| 项城市| 陆川县| 民丰县| 秦皇岛市| 宜州市| 莎车县| 台北市| 额尔古纳市| 汶川县| 武功县| 朔州市| 广宁县| 博客|