• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于FP—Growth算法的高校圖書(shū)館數(shù)據(jù)分析與對(duì)策研究

      2018-10-29 11:09:14林曉霞劉敏楊曉東
      軟件導(dǎo)刊 2018年8期
      關(guān)鍵詞:置信度關(guān)聯(lián)規(guī)則

      林曉霞 劉敏 楊曉東

      摘要:高校圖書(shū)館數(shù)據(jù)日益增加,為了更好地利用海量圖書(shū)館數(shù)據(jù),加強(qiáng)圖書(shū)館自身建設(shè)、滿足讀者需求,基于山東科技大學(xué)圖書(shū)館數(shù)據(jù),利用FP-Growth算法進(jìn)行學(xué)科間關(guān)聯(lián)分析、借閱圖書(shū)分布分析、借閱量分析及圖書(shū)流通量分析,并提出相應(yīng)對(duì)策。結(jié)果表明,基于FP-Growth算法對(duì)圖書(shū)館數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,可以及時(shí)發(fā)現(xiàn)隱藏的規(guī)則和信息,為圖書(shū)館建設(shè)提供決策支持,提高圖書(shū)利用率,更好地滿足讀者需求。

      關(guān)鍵詞:

      關(guān)聯(lián)規(guī)則;FP-Growth算法;高校圖書(shū)館;流通量

      DOIDOI:10.11907/rjdk.181994

      中圖分類(lèi)號(hào):TP391

      文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):1672-7800(2018)008-0198-04

      英文摘要Abstract:With the increasing number of data in university libraries, in order to make better use of the huge data to strengthen the library construction and meet the needs of readers. Based on multi-dimensional data of Shandong University of Science and Technology library, this paper uses the FP-Growth algorithm to conduct the association analysisbetween the disciplines, borrowing book distribution analysis, borrowing volume analysis and book circulation analysis, and proposes corresponding countermeasures. The results show that the correlation analysis of library data can discover existing rules and information in time, provide decision support for library construction, increase the utilization rate of books and better meet readers' needs.

      英文關(guān)鍵詞Key Words:association rules;FP-Growth algorithm;university library;liquidity

      0 引言

      隨著信息化的高速發(fā)展,高校圖書(shū)館資源日益增多,讀者需求不斷提高。目前,國(guó)內(nèi)外高校圖書(shū)館為了加強(qiáng)自身建設(shè),更好地滿足讀者需求、輔助教學(xué)科研,采用關(guān)聯(lián)規(guī)則技術(shù)對(duì)圖書(shū)館數(shù)據(jù)進(jìn)行分析。關(guān)聯(lián)分析技術(shù)能夠反映讀者需求及目前圖書(shū)館存在的問(wèn)題,從海量數(shù)據(jù)中挖掘隱含的規(guī)則和信息[1-4]。

      國(guó)外較早把關(guān)聯(lián)分析技術(shù)應(yīng)用于圖書(shū)館數(shù)據(jù)分析。如庫(kù)伯[5]對(duì)加州大學(xué)數(shù)字圖書(shū)館使用記錄進(jìn)行分析,掌握了讀者行為差異;Kovacevic 等[6]對(duì)讀者搜索歷史進(jìn)行分析,提出高校圖書(shū)館個(gè)性化推薦服務(wù)。Ahmad[7]通過(guò)對(duì)圖書(shū)館事務(wù)日志數(shù)據(jù)分析,挖掘了影響讀者行為的因素。國(guó)內(nèi)2004年以來(lái)開(kāi)始將關(guān)聯(lián)分析應(yīng)用于高校圖書(shū)館如徐淑琴[8]在對(duì)圖書(shū)館數(shù)據(jù)分析的基礎(chǔ)上,明確了讀者閱讀傾向,并提出了相應(yīng)的采購(gòu)策略;侯蕾[9]通過(guò)對(duì)山東大學(xué)醫(yī)學(xué)圖書(shū)館圖書(shū)借閱數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,掌握了讀者閱讀趨向,提高了讀者服務(wù)質(zhì)量;李宏運(yùn)[10]基于FP-Growth算法對(duì)棗莊學(xué)院圖書(shū)館管理系統(tǒng)進(jìn)行分析,提出了優(yōu)化館藏的建議。以上研究雖然一定程度上改善了圖書(shū)館建設(shè),但目前還沒(méi)有較全面的研究。

      本文將關(guān)聯(lián)規(guī)則技術(shù)與高校圖書(shū)館建設(shè)工作結(jié)合,運(yùn)用FP-Growth算法從多維角度分析圖書(shū)館數(shù)據(jù),通過(guò)發(fā)現(xiàn)學(xué)科間的規(guī)則、圖書(shū)分布分析、借閱量分析、流通量分析等,為圖書(shū)館工作人員提供決策建議,更好地發(fā)揮高校圖書(shū)館在高校中的作用,滿足讀者需求。

      1 FP-Growth算法

      FP-Growth算法是一種關(guān)聯(lián)規(guī)則算法[11-14],2000年由Han等學(xué)者提出,與其它關(guān)聯(lián)分析算法相比,該算法具有多種優(yōu)點(diǎn),目前被廣泛地運(yùn)用于多個(gè)領(lǐng)域。

      1.1 相關(guān)概念

      頻繁項(xiàng)集:如果項(xiàng)集的支持度超過(guò)用戶給定的最小支持度閾值,則稱該項(xiàng)集是頻繁項(xiàng)集[16-17]。項(xiàng)目個(gè)數(shù)為k,則該項(xiàng)集為k-項(xiàng)集。

      關(guān)聯(lián)規(guī)則由支持度和置信度共同約束,支持度和置信度越高,關(guān)聯(lián)規(guī)則越強(qiáng)。

      1.2 算法步驟

      FP-Growth算法主要有兩個(gè)步驟:

      (1)構(gòu)造頻繁模式樹(shù)(Frequency Pattern-Tree, FP-Tree),掃描數(shù)據(jù)庫(kù)D,計(jì)算每一項(xiàng)支持度。如果該項(xiàng)支持度大于設(shè)定的最小支持度,則把該項(xiàng)作為頻繁項(xiàng)保留在數(shù)據(jù)庫(kù)中,并且按支持度大小順序排列,再分別讀取每一條事務(wù)并映射到 FP-tree的路徑上,如此重復(fù),直到數(shù)據(jù)庫(kù)中的每條事務(wù)都在FP-Tree上形成完整路徑,F(xiàn)P-Tree即構(gòu)造完成。為了方便遍歷FP-Tree,創(chuàng)建項(xiàng)頭表。

      (2)挖掘FP-Tree中所有頻繁項(xiàng)集。該操作是算法核心。在挖掘FP-tree 時(shí),按照葉子結(jié)點(diǎn)到根結(jié)點(diǎn)的順序搜索FP-tree,并且依次為結(jié)點(diǎn)創(chuàng)建條件模式基,根據(jù)創(chuàng)建的條件模式基構(gòu)建條件模式樹(shù),挖掘頻繁模式,進(jìn)而得到頻繁項(xiàng)集。

      FP-Growth算法步驟如圖1所示。

      1.3 FP-Growth算法優(yōu)點(diǎn)

      (1)與其它關(guān)聯(lián)規(guī)則技術(shù)相比,F(xiàn)P-Growth算法通過(guò)FP-tree 數(shù)據(jù)結(jié)構(gòu)對(duì)原始數(shù)據(jù)進(jìn)行壓縮,只需掃描原始數(shù)據(jù)庫(kù)兩遍,運(yùn)行效率較高。

      (2)不需要產(chǎn)生候選集,減少了產(chǎn)生和測(cè)試候選集需要的時(shí)間。

      (3)FP-Growth算法性能比較穩(wěn)定,即使最小支持度降低,所需時(shí)間也不會(huì)發(fā)生突變性增加,而且該算法對(duì)于不同長(zhǎng)度的規(guī)則有很好的適應(yīng)性。

      (4)與其它關(guān)聯(lián)規(guī)則算法相比,F(xiàn)P-Growth算法在硬件的開(kāi)銷(xiāo)小于其它的算法。

      本文根據(jù)具體情況設(shè)定支持度和置信度,得到滿足最小支持度和最小置信度的規(guī)則,即得到的定性定量信息對(duì)圖書(shū)館建設(shè)工作給予一定的數(shù)據(jù)支持,使高校圖書(shū)館加強(qiáng)自身建設(shè),更好地服務(wù)于高校教學(xué)科研工作和讀者。

      2 基于FP-Growth算法的高校圖書(shū)館數(shù)據(jù)分析及對(duì)策

      本文選取山東科技大學(xué)圖書(shū)館的借閱數(shù)據(jù),將數(shù)據(jù)范圍尺度定位于7 197 名學(xué)生的借閱記錄,數(shù)據(jù)時(shí)間跨度為2012年9月-2017 年7月,共100 986條借閱記錄,涉及283 568本圖書(shū)。校圖書(shū)館數(shù)據(jù)包括讀者信息表、借閱記錄表、圖書(shū)信息表,本文基于讀者維、圖書(shū)維、借閱維3個(gè)維度挖掘隱含的規(guī)則和信息。

      中圖分類(lèi)法是我國(guó)圖書(shū)館普遍采用的分類(lèi)法[18-20],共5個(gè)基本部類(lèi)、22個(gè)大類(lèi),每大類(lèi)分別用一個(gè)大寫(xiě)字母表示,根據(jù)圖書(shū)不同屬性,每大類(lèi)下又分成若干類(lèi)。本文只保留分類(lèi)號(hào)的第一位,進(jìn)行22類(lèi)圖書(shū)中存在的隱含關(guān)系的關(guān)聯(lián)分析。

      將讀者信息表、借閱記錄表、圖書(shū)信息表進(jìn)行處理。讀者信息表的專(zhuān)業(yè)和學(xué)院信息對(duì)關(guān)聯(lián)分析非常重要,因此對(duì)單位進(jìn)行空值檢測(cè),填充空缺值。剔除借閱記錄表中對(duì)分析無(wú)用、冗余的數(shù)據(jù),刪除異常值,簡(jiǎn)化數(shù)據(jù)表以提高運(yùn)算速度。同時(shí)檢測(cè)圖書(shū)信息表中的中圖分類(lèi)號(hào),填充空缺值。根據(jù)需要,將各表進(jìn)行數(shù)據(jù)集成,再?gòu)亩喾矫鎸?duì)山東科技大學(xué)圖書(shū)館數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析。

      2.1 學(xué)科關(guān)聯(lián)分析

      關(guān)聯(lián)分析需要設(shè)置最小支持度和最小置信度,經(jīng)反復(fù)測(cè)試,設(shè)置最小支持度為30%,最小置信度為80%,獲得圖書(shū)間的關(guān)聯(lián)規(guī)則,部分規(guī)則如表1所示。

      從表1可以看出,各圖書(shū)類(lèi)之間有隱含的關(guān)聯(lián)關(guān)系,如在置信度最高的一條規(guī)則中:[A,H]→[G]的支持度為67.8%,借閱A(馬克思主義)與H(語(yǔ)言)的同時(shí)還借閱G(文化)類(lèi)圖書(shū),置信度為95.5%,即A(馬克思主義)與H(語(yǔ)言)、G(文化)三類(lèi)學(xué)科中存在很強(qiáng)的關(guān)聯(lián)關(guān)系。[T]→[G]的支持度為14.1%,即借閱T(工業(yè))的讀者還會(huì)借閱G(文化),說(shuō)明該類(lèi)學(xué)科間也存在關(guān)聯(lián)關(guān)系。

      教研部門(mén)可據(jù)此找到學(xué)科下一步發(fā)展方向。同時(shí),圖書(shū)館管理人員可以把關(guān)聯(lián)性強(qiáng)的圖書(shū)放在同一區(qū)域或同一書(shū)架上,既方便圖書(shū)館工作人員對(duì)圖書(shū)進(jìn)行管理,又可方便讀者借閱。

      2.2 被借閱圖書(shū)分布分析

      對(duì)借閱記錄數(shù)據(jù)表進(jìn)行關(guān)聯(lián)分析,統(tǒng)計(jì)各類(lèi)圖書(shū)被借閱次數(shù),關(guān)聯(lián)分析結(jié)果如圖2所示。

      由圖2可以看出,T類(lèi)書(shū)籍借閱最多,借閱次數(shù)高達(dá)25 367次,其次是I類(lèi)、F類(lèi),此三類(lèi)是讀者頻繁借閱的圖書(shū)種類(lèi)。最少借閱的是V類(lèi)、U類(lèi)、S類(lèi),被借閱次數(shù)非常少。可以發(fā)現(xiàn)目前高校圖書(shū)館存在圖書(shū)借閱嚴(yán)重不勻的問(wèn)題。學(xué)生借書(shū)具有專(zhuān)業(yè)性,基本上以借閱專(zhuān)業(yè)類(lèi)圖書(shū)為主,所以圖書(shū)借閱種類(lèi)與本校區(qū)專(zhuān)業(yè)也有一定關(guān)系,本校區(qū)有信息系、經(jīng)管系、文法系,因此T類(lèi)、I類(lèi)、F類(lèi)圖書(shū)借閱較多。

      在圖書(shū)采購(gòu)時(shí),圖書(shū)館應(yīng)與本校專(zhuān)業(yè)相結(jié)合,綜合各專(zhuān)業(yè)教學(xué)計(jì)劃,精準(zhǔn)定位預(yù)購(gòu)置的圖書(shū),加大T、I、F三類(lèi)圖書(shū)采購(gòu)比重。除了本專(zhuān)業(yè)課程必備書(shū)籍外,學(xué)生還借閱大量和考試相關(guān)的資料,比如計(jì)算機(jī)等級(jí)考試、四六級(jí)英語(yǔ)考試、會(huì)計(jì)考試、司法考試等,因此圖書(shū)館還可適當(dāng)增加此類(lèi)資料的采購(gòu)。

      2.3 借閱量分析

      借閱量能夠反映圖書(shū)館的作用,對(duì)山東科技大學(xué)2013-2016年的圖書(shū)借閱量進(jìn)行統(tǒng)計(jì)分析,分析結(jié)果如圖3所示。

      根據(jù)分析結(jié)果可以看出, 2013年借閱量達(dá)到24 758冊(cè),2014年借閱量為22 754冊(cè),2015年為19 083冊(cè),2016年的借閱量?jī)H14 441冊(cè),2016年紙質(zhì)圖書(shū)的借閱量只有2013年的58%,圖書(shū)借閱量呈逐年下降趨勢(shì)。

      為提高圖書(shū)館紙質(zhì)文獻(xiàn)借閱率和讀者閱讀興趣,高校圖書(shū)館應(yīng)積極采取措施,改善服務(wù)水平,提升讀者滿意度,增強(qiáng)讀者到館借閱文獻(xiàn)的意愿,改善借閱量逐年下降的現(xiàn)狀。

      2.4 圖書(shū)流通量分析

      圖書(shū)館館藏中存在很多未被借閱的圖書(shū),造成嚴(yán)重資源浪費(fèi)。未被借閱圖書(shū)比例如圖4所示。

      由圖4可以發(fā)現(xiàn)很多圖書(shū)未被借閱,其中,T、F、I類(lèi)未被借閱的書(shū)最多,資源浪費(fèi)非常嚴(yán)重。由于技術(shù)更新?lián)Q代較快,入藏圖書(shū)由于陳舊過(guò)時(shí)或利用率低等原因失去了使用價(jià)值。比如,T類(lèi)圖書(shū)技術(shù)更新?lián)Q代很快,圖書(shū)很容易過(guò)時(shí),導(dǎo)致該類(lèi)圖書(shū)利用率極低,所以該類(lèi)圖書(shū)資源浪費(fèi)最嚴(yán)重。

      圖書(shū)館要與時(shí)俱進(jìn),及時(shí)補(bǔ)充新書(shū)、更新圖書(shū)、及時(shí)剔除老、舊、殘及過(guò)時(shí)書(shū)籍。相對(duì)于文科類(lèi)圖書(shū),如I(文學(xué))類(lèi),往往具有很大的收藏價(jià)值,不易過(guò)時(shí),可以在館藏中加以保留。

      3 結(jié)語(yǔ)

      本文以讀者借閱記錄、圖書(shū)信息、讀者信息等多維數(shù)據(jù)為基礎(chǔ),利用FP-Growth算法發(fā)現(xiàn)隱含的關(guān)聯(lián)規(guī)則,找出目前圖書(shū)館存在的隱含問(wèn)題,并提出相應(yīng)對(duì)策,對(duì)加強(qiáng)建設(shè)圖書(shū)館,滿足讀者需求具有重要意義。但在圖書(shū)挖掘時(shí),只精確到一級(jí)類(lèi)目,沒(méi)有細(xì)分圖書(shū)分類(lèi),在后續(xù)的研究工作中將進(jìn)一步提高挖掘精度,更精確地為高校圖書(shū)館分析隱含的的問(wèn)題,提出更切實(shí)可行的建議。

      參考文獻(xiàn):

      [1] 崔妍,包志強(qiáng).關(guān)聯(lián)規(guī)則挖掘綜述[J].計(jì)算機(jī)應(yīng)用研究,2016,33(2):330-334.

      [2] 張璽.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究與改進(jìn)[D].北京:北京郵電大學(xué), 2015.

      [3] 陳淑英,徐劍英,劉玉魏,等.關(guān)聯(lián)規(guī)則應(yīng)用下的高校圖書(shū)館圖書(shū)推薦服務(wù)[J].圖書(shū)館論壇,2018,38(2):97-102.

      [4] SAHOO J, KUMAR DAS A, GOSWAMI A. An efficient approach for mining association rules from high utility itemsets[J]. Expert Systems With Applications, 2015,42(13):5754-5778.

      [5] COOPER M D. Usage patterns of a web-based library catalog[J]. Journal of the American Society for Information Science and Technology, 2001,52(2):137-148.

      [6] KOVACEVIC A. Using data mining to improve digital library services[J]. Electronic Library, 2010,28(6):829-843.

      [7] AHMAD P, BROGAN M.The E-book power user in academic and research libraries: deep log analysis and user customisation[J]. Australian Academic & Research Libraries, 2014,45(1):35-47.

      [8] 徐淑琴.基于讀者閱讀傾向的高校中文圖書(shū)利用統(tǒng)計(jì)與分析——以寧夏師范學(xué)院圖書(shū)館為例[J].圖書(shū)館理論與實(shí)踐,2014(10):26-28.

      [9] 侯蕾.基于借閱數(shù)據(jù)分析的讀者閱讀傾向及服務(wù)對(duì)策[J].圖書(shū)館學(xué)刊,2012,34(12):90-92.

      [10] 李宏運(yùn).關(guān)聯(lián)規(guī)則挖掘在圖書(shū)館管理中的應(yīng)用[D].上海:華東師范大學(xué),2009.

      [11] ZENG Y ,YIN S Q,LIU J Y,Research of improved FP-growth algorithm in association rules mining[J]. Scientific Programming, 2015,3:9-16.

      [12] 婁書(shū)青.并行FP-growth關(guān)聯(lián)規(guī)則算法研究[D].長(zhǎng)沙:電子科技大學(xué),2016.

      [13] 厙向陽(yáng),張玲.基于Hadoop的FP-Growth關(guān)聯(lián)規(guī)則并行改進(jìn)算法[J].計(jì)算機(jī)應(yīng)用研究,2018,35(1):109-112.

      [14] WANG C H,LI Z,YU X. Using fuzzy FP-Growth for mining association rules[C].2017 International Conference on Organizational Innovation, 2017:1-5.

      [15] 雷雪麗.FP-growth數(shù)據(jù)挖掘算法的研究[D].西安:西安理工大學(xué),2016.

      [16] 姜云龍. 基于數(shù)據(jù)挖掘的高校大學(xué)生讀者閱讀趨向研究[D].長(zhǎng)春:東北師范大學(xué),2016.

      [17] 章志剛,吉根林.一種基于FP-Growth的頻繁項(xiàng)目集并行挖掘算法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(2):103-106.

      [18] 孫毅芳.基于數(shù)據(jù)挖掘的圖書(shū)館推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].濟(jì)南:山東大學(xué),2017.

      [19] 石雨晴.基于中圖-專(zhuān)業(yè)分類(lèi)映射的高校圖書(shū)館圖書(shū)推薦方法的研究與實(shí)現(xiàn)[D].沈陽(yáng):遼寧大學(xué),2017.

      [20] 夏興通.我國(guó)圖書(shū)營(yíng)銷(xiāo)分類(lèi)法行業(yè)標(biāo)準(zhǔn)的編制與實(shí)施研究[D].武漢:武漢大學(xué),2010.

      (責(zé)任編輯:江 艷)

      猜你喜歡
      置信度關(guān)聯(lián)規(guī)則
      撐竿跳規(guī)則的制定
      硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
      “苦”的關(guān)聯(lián)
      數(shù)獨(dú)的規(guī)則和演變
      正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
      奇趣搭配
      讓規(guī)則不規(guī)則
      Coco薇(2017年11期)2018-01-03 20:59:57
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      哈巴河县| 蕉岭县| 西贡区| 赤壁市| 南雄市| 横峰县| 黄骅市| 曲沃县| 馆陶县| 锡林郭勒盟| 门源| 玉田县| 台南市| 谢通门县| 富平县| 资阳市| 日照市| 西乌珠穆沁旗| 慈溪市| 伊通| 崇阳县| 寿光市| 贵南县| 涟源市| 永清县| 安化县| 长岛县| 沽源县| 许昌市| 黄浦区| 郸城县| 南皮县| 河津市| 崇义县| 集贤县| 当涂县| 临沭县| 太仆寺旗| 庐江县| 大悟县| 乃东县|