• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)在圖書管理中的應(yīng)用

      2014-06-20 04:18蔣冬生
      科技經(jīng)濟市場 2014年2期
      關(guān)鍵詞:關(guān)聯(lián)規(guī)則圖書管理數(shù)據(jù)挖掘

      摘 要:本文以儀征技師學(xué)院圖書館數(shù)據(jù)為例,通過對借閱信息的數(shù)據(jù)挖掘,生成一些且有指導(dǎo)意義的信息,證明算法的可行性。

      關(guān)鍵詞:關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;圖書管理

      數(shù)據(jù)挖掘技術(shù)在商業(yè)領(lǐng)域中的成功應(yīng)用,給圖書館帶來了很大的啟發(fā),圖書館的特點是巨大的圖書量,不同年齡、不同專業(yè)的讀者,研究領(lǐng)域也不同。這使讀者對圖書館提出了不同特性的個人要求。如何滿足讀者的需求,提高讀者滿意度,優(yōu)化圖書館的館藏,合理對圖書進行布局,從而更好地為讀者服務(wù),是一個值得研究的問題。

      數(shù)據(jù)挖掘技術(shù)的運用可以有效的幫助圖書館逐步規(guī)范管理流程,幫助圖書館擴大業(yè)務(wù)范圍、提高服務(wù)水平、加強內(nèi)部管理。

      1 數(shù)據(jù)挖掘任務(wù)

      采用關(guān)聯(lián)規(guī)則對圖書流通數(shù)據(jù)進行挖掘的任務(wù)主要是通過對讀者借閱歷史信息的分析,發(fā)現(xiàn)兩方面的規(guī)律性。

      (1)發(fā)現(xiàn)讀者的特性與閱讀習(xí)慣的聯(lián)系。檢索讀者不同的特征,如性別、年齡、專業(yè)等方面對借閱圖書的影響,最后發(fā)現(xiàn)有什么特點的讀者往往借什么類型的圖書,這對以后的讀者借閱具有很好的指導(dǎo)意義。

      (2)發(fā)現(xiàn)不同書籍在圖書庫中的聯(lián)系。例如,如果半數(shù)以上的的讀者借閱書籍A,往往也會隨帶借閱書籍B,從這個現(xiàn)象中我們可以統(tǒng)計書A與B間的借閱關(guān)系,當(dāng)出現(xiàn)下一個讀者也借閱A時,管理員可以根據(jù)統(tǒng)計結(jié)果推薦書B。并且在書籍管理時,管理員可以對書A和書B的集中放置,合理安排,從而給予借閱者最直接的指導(dǎo),此舉對提高館藏書的借閱量也大有裨益。

      2 數(shù)據(jù)處理

      根據(jù)數(shù)據(jù)挖掘?qū)?shù)據(jù)的需要,提取 2011年第二季度(4~6月)內(nèi)所有儀征技師學(xué)院讀者借閱的信息。讀者借閱的基本數(shù)據(jù)是通過讀者信息表、圖書信息表、借閱歷史表中數(shù)據(jù)進行匯總得到的,具體格式包括Readers(讀者信息表)、Books(圖書信息表)、Book_Lend(借閱歷史表結(jié)構(gòu))三類,Readers主要參數(shù)有R_Code(讀者編號)、R_Name(讀者姓名)…,Books主要參數(shù)有B_NO(索書號)、B_Name(圖書名稱)…,Book_Lend主要參數(shù)有Lend_Date(借書日期)等。

      (1)數(shù)據(jù)的選取

      這里將讀者信息表、圖書信息表、借閱歷史表三個表格合并成一個讀者借閱事務(wù)表(Reader_T),然后放入SQL Server中進行導(dǎo)入和提取,然后使用JDBC-ODBC橋?qū)?shù)據(jù)導(dǎo)入到圖書館數(shù)據(jù)挖掘系統(tǒng)里。

      (2)數(shù)據(jù)的預(yù)處理

      通過選取就得到了初步的目標(biāo)數(shù)據(jù),但里面還含有一些缺失的、不完整的數(shù)據(jù),而且有些數(shù)據(jù)可能存在著前后不一致的問題,即有噪聲,要進一步進行加工處理。

      (3)數(shù)據(jù)轉(zhuǎn)換

      數(shù)據(jù)轉(zhuǎn)換是對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,首先找到特征的數(shù)據(jù)表示,然后將數(shù)據(jù)轉(zhuǎn)換或合并成一個適合數(shù)據(jù)挖掘的描述形式。數(shù)據(jù)轉(zhuǎn)換包括以下內(nèi)容:平滑處理、聚集處理、抽象處理、標(biāo)準(zhǔn)化處理。

      3 實際挖掘過程

      由于我們學(xué)院的圖書館是根據(jù)《中國圖書館分類法》分類的。因此可以只選取表3-1中借閱圖書的書號屬性,再對讀者借閱信息表進行挖掘,就可挖掘出圖書的22個基本大類之間的隱性關(guān)聯(lián)情況和各類圖書的使用情況。將其他不用的屬性刪除,只保留讀者編號(學(xué)號)及借閱圖書種類屬性,對源數(shù)據(jù)表進行修改,使它由多維的數(shù)據(jù)表變成單維的數(shù)據(jù)表。

      最后,我們將讀者學(xué)號這一參數(shù)進行刪除,就可以得到單維的讀者借閱信息數(shù)據(jù)表,根據(jù)實際情況,我們將最小支持度設(shè)置為30%,最小置信度設(shè)置為80%,用FP-growth算法來對該表進行挖掘。

      4 讀者借閱關(guān)聯(lián)規(guī)則挖掘算法

      由于讀者可以多次借閱,每次借閱的數(shù)量都可能不同,為了分析讀者的借閱關(guān)系,本文以借閱數(shù)據(jù)表里最早的借閱時間為開始時間,最近的一個借閱結(jié)束時間為分析的截止點,在分析時間區(qū)間里以兩個星期為一個時間段,對于一個讀者在一個時間段內(nèi)所借的不同圖書為一個事務(wù),分析時間區(qū)間里所有讀者的借閱信息組成的事務(wù)為挖掘的事務(wù)數(shù)據(jù)庫DBLend,主要參數(shù)如下:R_Code(讀者借書編號)、Period_id(借閱時間段)、B_NO(索書號)。

      通過對DBLend的挖掘就可以得到有關(guān)借閱信息關(guān)聯(lián)規(guī)則。挖掘借閱信息關(guān)聯(lián)規(guī)則的算法:算法:借閱信息關(guān)聯(lián)規(guī)則挖掘,輸入:DBLend 、minsup、minconf,輸出:借閱信息關(guān)聯(lián)規(guī)則。

      Open DBLend alias DBL

      FrequentItemSet fis=FP-Growth(DBL,minsup) //用FP算法得到頻繁項集

      RegualtionRule rr=generate_rule(fis,minconf) //計算置信度,得到關(guān)聯(lián)規(guī)則

      Return rr

      在生成關(guān)聯(lián)規(guī)則后,可以根據(jù)DBLend里的B_No找到對應(yīng)圖書的有關(guān)信息,通過B_No的上卷操作可以得到有關(guān)圖書的類別信息,也可以用于對學(xué)科之間的關(guān)聯(lián)分析。

      5 挖掘結(jié)果及結(jié)論

      對借閱信息表挖掘最大頻繁項集,從挖掘的結(jié)果可以看出,T(工業(yè)技術(shù))、I(文學(xué)地理)、E(軍事)等幾類圖書是借閱較為的種類,支持度都超過 48%。T類圖書借閱量之所以這么高,這與儀征技師學(xué)院的自身特點有關(guān),因為我院主要的兩大專業(yè)就是機電、汽車,而男生比例也比女生要高,所以,E類借閱量也高。因此在圖書館中,這五類圖書間有很強的關(guān)聯(lián)度。所以在對本學(xué)院圖書館的藏書進館時,可以考慮將以上五類圖書集中管理,這樣無論從讀者查找還是從管理人員管理的角度來說都較為合理。同時也可加大這五類圖書的采購量。

      參考文獻:

      [1]蔣冬生.數(shù)據(jù)挖掘技術(shù)在中職院校圖書管理中的應(yīng)用研究.[D].揚州大學(xué),2013

      [2] (美)Jiawei Han 等著,范明等譯.數(shù)據(jù)挖掘:概念與技術(shù)(第3版). 機械工業(yè)出版社2012.

      猜你喜歡
      關(guān)聯(lián)規(guī)則圖書管理數(shù)據(jù)挖掘
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      關(guān)于技工學(xué)校圖書管理的信息建設(shè)研究
      信息化條件下如何創(chuàng)新圖書管理
      談數(shù)據(jù)挖掘為圖書管理提供決策支持
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      遵化市| 八宿县| 揭阳市| 黎川县| 封开县| 综艺| 定州市| 瑞丽市| 永清县| 德格县| 德惠市| 韶山市| 婺源县| 中宁县| 北川| 定兴县| 杭州市| 刚察县| 宜川县| 陕西省| 延安市| 开江县| 遂宁市| 莱芜市| 广饶县| 呼玛县| 赤峰市| 大厂| 尼玛县| 汝州市| 建昌县| 美姑县| 醴陵市| 鄂伦春自治旗| 鄱阳县| 色达县| 石景山区| 隆子县| 泗洪县| 丹寨县| 宝山区|