• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于數(shù)據(jù)挖掘技術(shù)的圖書(shū)館流通數(shù)據(jù)的關(guān)聯(lián)分析

      2009-11-19 09:16:42陸覺(jué)民馬國(guó)棟
      現(xiàn)代情報(bào) 2009年9期
      關(guān)鍵詞:關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘圖書(shū)館

      陸覺(jué)民 馬國(guó)棟 鄭 宇

      〔摘 要〕運(yùn)用改進(jìn)的Apriori算法,對(duì)具有代表性的與分析任務(wù)相關(guān)的數(shù)據(jù)進(jìn)行樣本抽取,利用Weak作為數(shù)據(jù)挖掘算法開(kāi)發(fā)工具,產(chǎn)生了一系列強(qiáng)關(guān)聯(lián)規(guī)則。根據(jù)這些規(guī)則,我們可以解讀出一些現(xiàn)象,它不僅能揭示隱藏在大量數(shù)據(jù)后的重要關(guān)系信息,同時(shí)也為這種關(guān)系提供了量化描述手段。這些定性定量的信息不僅能對(duì)圖書(shū)館的各項(xiàng)工作提供技術(shù)上的支持,還可對(duì)學(xué)校的教學(xué),課程的設(shè)置,學(xué)科的交叉滲透等提供信息。

      〔關(guān)鍵詞〕數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;圖書(shū)館

      〔中圖分類(lèi)號(hào)〕G250.7 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)09-0108-03

      The Association Analysis for Library Circulation

      Data Based on Data Mining TechniqueLu Juemin Ma Guodong Zheng yu

      (Library,Shanghai University,Shanghai 200072,China)

      〔Abstract〕This paper presented an improved algorithm based on the analysis of the Apriori method,collected typical samples related to our task analysis,used WEKA as Development Tools to discover strong association rules.According to these rules,we can reveal important relations between mass data and quantize the relations.Those quantized information not only provided support for routine work in library,but also for education,curriculum and interpenetration.

      〔Key words〕data mining;association rules;library

      隨著圖書(shū)館數(shù)字信息化的進(jìn)展,信息的種類(lèi)越來(lái)越多,且變化頻繁,信息資源呈爆炸性的增長(zhǎng)。與此同時(shí),知識(shí)的不斷更新和科研課題的時(shí)間性和階段性,使高校讀者對(duì)信息的需求具有針對(duì)性、及時(shí)性和新穎性,并呈多元化和個(gè)性化的特征。

      然而,在信息需求多樣化、個(gè)性化的趨勢(shì)下,人們發(fā)現(xiàn)要準(zhǔn)確、快速地查找自己所需的信息并非容易。從需求內(nèi)容上,他們要求提供的信息更具全面性和精確性,不再僅僅滿(mǎn)足獲得信息載體方面的信息,還需要權(quán)威性相關(guān)信息,并希望進(jìn)一步得到經(jīng)過(guò)整合、創(chuàng)新,能解決問(wèn)題的知識(shí)內(nèi)容;從需求時(shí)效上,他們要求個(gè)人的信息需求及時(shí)得到滿(mǎn)足。在這樣的背景下,高校圖書(shū)館傳統(tǒng)的服務(wù)方式受到了嚴(yán)峻的挑戰(zhàn),高校圖書(shū)館不僅需要根據(jù)用戶(hù)明確提出的個(gè)性化要求提供信息服務(wù),而且需要通過(guò)認(rèn)真分析用戶(hù)個(gè)人特征和使用信息的習(xí)慣等來(lái)發(fā)現(xiàn)其潛在需求并主動(dòng)地向他們提供可能需要的服務(wù)。為此,2008年上海市圖書(shū)館學(xué)會(huì)將此作為立項(xiàng)課題。

      1 研究的內(nèi)容

      用戶(hù)需求是圖書(shū)館工作存在和發(fā)展的前提,只有加強(qiáng)用戶(hù)需求信息需求行為特點(diǎn)的研究,才能有針對(duì)性地開(kāi)展工作。就目前數(shù)字圖書(shū)館個(gè)性化信息服務(wù)系統(tǒng)普遍比較單一,個(gè)性化智能程度不高的特點(diǎn),本文提出利用數(shù)字挖掘技術(shù)進(jìn)行圖書(shū)館個(gè)性化技術(shù)的研究,我們以上海大學(xué)圖書(shū)館部分流通數(shù)據(jù)作為研究對(duì)象通過(guò)用戶(hù)的歷史訪(fǎng)問(wèn)記錄,采用關(guān)聯(lián)規(guī)則挖掘技術(shù),發(fā)現(xiàn)用戶(hù)潛在可能的興趣,進(jìn)行針對(duì)性的提煉整合和更高層次的分析。

      1.1 運(yùn)用改進(jìn)的Apriori算法

      通過(guò)對(duì)經(jīng)典的Apriori算法的改進(jìn),采用JAVA作為數(shù)據(jù)挖掘矩陣算法的開(kāi)發(fā)環(huán)境,針對(duì)其算法性能瓶頸,根據(jù)頻繁項(xiàng)集的性質(zhì)和二進(jìn)制邏輯運(yùn)算的基本思想,提出基于矩陣的數(shù)據(jù)挖掘算法。挖掘關(guān)聯(lián)規(guī)則的關(guān)鍵問(wèn)題在于提高算法的效率,對(duì)于類(lèi)似圖書(shū)館這樣的信息量大且數(shù)據(jù)分散的大型數(shù)據(jù)庫(kù)系統(tǒng)矛盾更為突出,采用矩陣的數(shù)據(jù)挖掘技術(shù)較好避免了Apriori系列算法固有的缺陷,算法占用內(nèi)存小,I/O操作少,執(zhí)行速度快,系統(tǒng)效率大大提高。

      1.2 數(shù)據(jù)的預(yù)處理

      數(shù)據(jù)預(yù)處理的質(zhì)量直接影響后續(xù)工作,高質(zhì)量的數(shù)據(jù)預(yù)處理,不僅能節(jié)約系統(tǒng)資源,而且能提高數(shù)據(jù)挖掘過(guò)程的精度和性能,提高系統(tǒng)效率。

      對(duì)具有代表性的與分析任務(wù)相關(guān)的數(shù)據(jù)進(jìn)行樣本抽取,讀者的借閱習(xí)慣與其所從事的專(zhuān)業(yè)有很大的聯(lián)系,因此需要從圖書(shū)館系統(tǒng)的數(shù)據(jù)庫(kù)中根據(jù)讀者專(zhuān)業(yè)屬性提取借閱數(shù)據(jù),將相關(guān)數(shù)據(jù)庫(kù)轉(zhuǎn)換整合,數(shù)據(jù)歸約,把用戶(hù)空間分成若干相似用戶(hù)聚類(lèi)群,實(shí)現(xiàn)與數(shù)據(jù)挖掘矩陣算法的對(duì)接。

      我們著重跟蹤上海大學(xué)機(jī)電工程與自動(dòng)化學(xué)院及知識(shí)產(chǎn)權(quán)學(xué)院2005級(jí)大一及大三學(xué)生借閱O-數(shù)理學(xué)科和化學(xué)類(lèi),H31-英語(yǔ)類(lèi),D-政治法律類(lèi),I-文學(xué)類(lèi),TP-自動(dòng)化及計(jì)算機(jī)技術(shù)類(lèi)書(shū)籍的數(shù)據(jù),總計(jì)12 747條記錄,分類(lèi)統(tǒng)計(jì)見(jiàn)表1。

      1.3 用戶(hù)隱私安全與保護(hù)問(wèn)題

      為了更好地開(kāi)展個(gè)性化服務(wù),用戶(hù)的個(gè)人信息是不可缺少的,這就涉及到了用戶(hù)的隱私問(wèn)題。由于個(gè)性化信息服務(wù)需要對(duì)用戶(hù)的基本信息和查詢(xún)行為進(jìn)行基本的分析,因此有關(guān)用戶(hù)日常行為日志、個(gè)人信息、注冊(cè)信息等都在用戶(hù)個(gè)性化特征分析之中。個(gè)性化信息服務(wù)應(yīng)該使用戶(hù)相信其個(gè)人信息不會(huì)被濫用,而是用于有效滿(mǎn)足用戶(hù)的需求。同時(shí)應(yīng)該在用戶(hù)中樹(shù)立良好的信譽(yù)感,制定出較為完善的隱私保護(hù)政策,保證用戶(hù)個(gè)人信息不被第三方使用。

      2 關(guān)聯(lián)挖掘結(jié)果及評(píng)估

      經(jīng)統(tǒng)計(jì)05級(jí)自動(dòng)化學(xué)院、知識(shí)產(chǎn)權(quán)學(xué)院和文學(xué)院參與關(guān)聯(lián)分析的5類(lèi)書(shū)籍借閱人數(shù)占總借閱人數(shù)的比例都在90%以上,樣本選取合理,可信度高。05級(jí)自動(dòng)化學(xué)院、知識(shí)產(chǎn)權(quán)學(xué)院文學(xué)院大一、大三學(xué)生借閱率變化如圖1。工科類(lèi)的借閱率呈下降,文科類(lèi)的借閱率呈上升。文科大一大三的借閱率都高于工科。

      根據(jù)統(tǒng)計(jì),學(xué)校的文理科都有這個(gè)變化趨勢(shì)。我們分析主要原因是當(dāng)今社會(huì)科技發(fā)展日新月異,工科專(zhuān)業(yè)類(lèi)的圖書(shū)更新相對(duì)落后于需要,上網(wǎng)查資料成了學(xué)生解決問(wèn)題的重要途徑。而文科則不同,隨著學(xué)習(xí)的深入,需要的是更經(jīng)典,更具有積淀的資料,這些專(zhuān)業(yè)信息,圖書(shū)館的藏書(shū)更多于網(wǎng)上能提供的資源??偟膩?lái)說(shuō)網(wǎng)絡(luò)是影響借閱率的主要因素之一。

      課題利用Weka作為數(shù)據(jù)挖掘算法開(kāi)發(fā)工具,Weka的全名是懷卡托智能分析環(huán)境,是一款免費(fèi)的、非商業(yè)化的,基于JAVA環(huán)境下開(kāi)源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件。它和它的源代碼可在其官方網(wǎng)站下載。WEKA能承擔(dān)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類(lèi)、回歸、聚類(lèi)、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。而開(kāi)發(fā)者則可使用Java語(yǔ)言,利用Weka的架構(gòu)上開(kāi)發(fā)出更多的數(shù)據(jù)挖掘算法。頻繁項(xiàng)目集L={O,D,H31,I,TP},取最小置信度minzConfidence為0.66。關(guān)聯(lián)挖掘的結(jié)果如下:

      05級(jí)大一自動(dòng)化,時(shí)間:2005年9月-2006年7月

      讀者數(shù)N=315,最小支持度為0.2,得到頻繁三項(xiàng)集L3={O,I,H31}。自動(dòng)化05級(jí)大一強(qiáng)關(guān)聯(lián)規(guī)則見(jiàn)表3。

      05級(jí)大三自動(dòng)化,時(shí)間:2007年9月-2008年7月

      讀者數(shù)N=293,最小支持度為0.1,得到頻繁三項(xiàng)集L3={TP,I,H31}。自動(dòng)化05級(jí)大三強(qiáng)關(guān)聯(lián)規(guī)則見(jiàn)表4。

      05級(jí)大一知識(shí)產(chǎn)權(quán),時(shí)間:2005年9月-2006年7月

      讀者數(shù)N=156,最小支持度為0.2,得到頻繁三項(xiàng)集L3={D,I,H31}。知識(shí)產(chǎn)權(quán)05級(jí)大一強(qiáng)關(guān)聯(lián)規(guī)則見(jiàn)表5。

      05級(jí)大三知識(shí)產(chǎn)權(quán),時(shí)間:2007年9月-2008年7月

      讀者數(shù)N=172,最小支持度為0.1,得到頻繁三項(xiàng)集L3={D,I,H31}。知識(shí)產(chǎn)權(quán)05級(jí)大三強(qiáng)關(guān)聯(lián)規(guī)則見(jiàn)表6。

      關(guān)聯(lián)挖掘得出的結(jié)果與圖書(shū)館實(shí)際工作及讀者調(diào)查相比較,結(jié)果是很相近的?,F(xiàn)選擇典型的加以說(shuō)明。

      (1)根據(jù)所選取的關(guān)聯(lián)規(guī)則最小支持度,機(jī)電工程與自動(dòng)化學(xué)院1,3年級(jí)得到的頻繁三項(xiàng)集分別為L(zhǎng)3={O,I,H31}和L3={TP,I,H31}。從實(shí)際情況來(lái)看:自動(dòng)化專(zhuān)業(yè)的學(xué)生在整個(gè)大學(xué)的學(xué)習(xí)過(guò)程中一般很少有借閱政治法律類(lèi)書(shū)籍的需要,大一的學(xué)生對(duì)數(shù)學(xué)等基礎(chǔ)課程的圖書(shū)借閱比較集中而對(duì)自動(dòng)化及計(jì)算機(jī)技術(shù)類(lèi)書(shū)籍的借閱量相對(duì)少,到了大三隨著基礎(chǔ)課程的結(jié)束和專(zhuān)業(yè)課的開(kāi)設(shè)學(xué)生對(duì)數(shù)理學(xué)科和化學(xué)類(lèi)書(shū)籍的借閱急劇減少,對(duì)自動(dòng)化及計(jì)算機(jī)技術(shù)類(lèi)書(shū)籍的借閱量卻大大增加了。

      (2)知識(shí)產(chǎn)權(quán)學(xué)院1,3年級(jí)所得到的頻繁三項(xiàng)集沒(méi)有變化L3={D,I,H31},O(數(shù)理學(xué)科和化學(xué)類(lèi))和TP(自動(dòng)化及計(jì)算機(jī)技術(shù)類(lèi))不參與各年級(jí)的關(guān)聯(lián)規(guī)則的運(yùn)算。這個(gè)結(jié)果也是很顯然的。

      (3)表3~表6中,H31英語(yǔ)類(lèi)書(shū)籍出現(xiàn)在較多的強(qiáng)關(guān)聯(lián)規(guī)則里,從宏觀(guān)上來(lái)說(shuō)英語(yǔ)是學(xué)校工科、文科各年級(jí)的主要借閱書(shū)籍。從另個(gè)角度看,整個(gè)大學(xué)期間學(xué)生在外語(yǔ)上花費(fèi)了大量的時(shí)間和精力。

      (4)表4中,H31=>TP,I=>TP的作用度分別是3.32和1.41,表明自動(dòng)化大三年級(jí)期間,相對(duì)于文學(xué)書(shū)籍而言,外語(yǔ)類(lèi)書(shū)籍與專(zhuān)業(yè)書(shū)籍相關(guān)性更高些。在表6中,因?yàn)镮=>D的作用度小于1,所以文學(xué)類(lèi)書(shū)籍與法律類(lèi)書(shū)籍的關(guān)聯(lián)是無(wú)效的。

      (5)用圖表分析后,表5和表6中的D=>I、I=>D作用度的變化,我們可以解釋為由于大三專(zhuān)業(yè)課的增加,知識(shí)產(chǎn)權(quán)學(xué)院的學(xué)生相對(duì)于大一借閱法律書(shū)籍?dāng)?shù)量大大增多,而借閱文學(xué)書(shū)籍的學(xué)生稍有減少。

      3 結(jié)束語(yǔ)

      數(shù)字圖書(shū)館的流通信息為我們提供的是最基礎(chǔ)的原始的數(shù)據(jù),通過(guò)對(duì)流通數(shù)據(jù)的關(guān)聯(lián)挖掘,不僅能揭示隱藏在大量數(shù)據(jù)后的重要關(guān)系信息,同時(shí)也為這種關(guān)系提供了量化描述手段。這些定性定量的信息不僅能對(duì)圖書(shū)館的各項(xiàng)工作提供技術(shù)上的支持,還可對(duì)學(xué)校的教學(xué),課程的設(shè)置,學(xué)科的交叉滲透等提供信息。從表3~表6中我們得到了許多強(qiáng)關(guān)聯(lián)規(guī)則,數(shù)據(jù)挖掘工具能夠發(fā)現(xiàn)滿(mǎn)足條件的關(guān)聯(lián)規(guī)則,但它不能判定關(guān)聯(lián)規(guī)則的實(shí)際意義。對(duì)關(guān)聯(lián)規(guī)則的理解需要熟悉業(yè)務(wù)背景,豐富的業(yè)務(wù)經(jīng)驗(yàn)對(duì)數(shù)據(jù)有足夠的理解,也可以通過(guò)篩選技術(shù)排除虛假規(guī)則,只有這樣才能去其糟粕,取其精華,充分發(fā)揮關(guān)聯(lián)規(guī)則的價(jià)值。

      參考文獻(xiàn)

      [1]陸覺(jué)民,鄭宇.基于矩陣的數(shù)據(jù)挖掘技術(shù)在數(shù)字化圖書(shū)館中的應(yīng)用[J].現(xiàn)代情報(bào) 2007,27(12):92-93,98.

      [2]魏育輝,潘潔.圖書(shū)流通數(shù)據(jù)的關(guān)聯(lián)挖掘量化分析方法[J].現(xiàn)代情報(bào),2005,(11):108-110.

      [3]鮑靜,范生萬(wàn).基于數(shù)據(jù)挖掘的圖書(shū)數(shù)據(jù)預(yù)處理大學(xué)[J].圖書(shū)情報(bào)學(xué)刊,2008,26(2):31-33.

      [4]王偉,張征芳,王明海.基于數(shù)據(jù)挖掘的圖書(shū)館讀者行為分析[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2006,(11):51-54.

      [5]李虹.面向用戶(hù)的數(shù)字圖書(shū)館信息服務(wù)模式研究[J].情報(bào)雜志,2007,(8):134-136.

      猜你喜歡
      關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘圖書(shū)館
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      圖書(shū)館
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
      數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評(píng)價(jià)體系中的應(yīng)用
      飛躍圖書(shū)館
      關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
      基于關(guān)聯(lián)規(guī)則的計(jì)算機(jī)入侵檢測(cè)方法
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      去圖書(shū)館
      凉山| 舞钢市| 永靖县| 湖州市| 武胜县| 崇左市| 武邑县| 加查县| 盐边县| 太仆寺旗| 拉孜县| 库伦旗| 通道| 安吉县| 南雄市| 沁阳市| 太谷县| 南雄市| 林周县| 石台县| 长泰县| 涞源县| 张家川| 五家渠市| 邳州市| 建平县| 封丘县| 南郑县| 建平县| 安阳县| 都昌县| 永平县| 金阳县| 鸡东县| 武汉市| 大埔县| 吴江市| 察雅县| 松江区| 观塘区| 新泰市|