• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘的圖書(shū)館讀者借閱行為分析

      2019-01-10 01:48:14崔金環(huán)解海
      現(xiàn)代電子技術(shù) 2019年1期
      關(guān)鍵詞:數(shù)據(jù)挖掘

      崔金環(huán) 解海

      關(guān)鍵詞: 數(shù)據(jù)挖掘; 圖書(shū)館讀者; 借閱行為; Jaccard相似系數(shù); 對(duì)稱矩陣; 喜好指數(shù)

      中圖分類號(hào): TN911.1?34; G252.0 ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2019)01?0166?05

      Abstract: The traditional hybrid attribute method based on rough set has the problems of low utilization rate of library readers′ borrowing behavior and inaccurate analysis of readers′ book borrowing behavior. Therefore, the data mining based behavior analysis method of library readers is proposed. The clustering algorithm based on similarity coefficient matrix is used to analyze the borrowing behavior of library readers. Jaccard similarity coefficient is used to measure the similarity of high?dimensional borrowing data of library readers to reduce the dimensions of borrowing data of library readers. The new matrix is constructed while building the clustering algorithm. If all the elements in the new matrix are greater than the initial threshold, the data clustering process is completed. The construction of clustering algorithm can realize the effective classification of library readers′ behavior data, and design the recommendation service of personalized exclusive books for readers. The practical application process of the proposed method is analyzed, and the book borrowing information data of library readers is preprocessed to analyze the readers′ borrowing behavior. The experimental results show that the proposed method can improve the utilization rate of library readers′ borrowing behavior data, and has high execution efficiency and CPU utilization rate, and strong ability of book borrowing analysis behavior of readers.

      Keywords: data mining; library reader; borrowing behavior; Jaccard similarity coefficient; symmetric matrix; preference index

      0 ?引 ?言

      隨著科學(xué)技術(shù)的迅猛發(fā)展,讀者對(duì)圖書(shū)借閱信息水平要求也有所提高,這就要求圖書(shū)館為讀者提供個(gè)性化和智能化的圖書(shū)借閱體驗(yàn),人們正處在數(shù)據(jù)爆炸的時(shí)代,讀者借閱圖書(shū)信息呈幾何式增長(zhǎng)[1],數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用,可以從海量錯(cuò)綜復(fù)雜的讀者借閱行為信息數(shù)據(jù)中將有利用價(jià)值的數(shù)據(jù)提取出來(lái),供讀者和圖書(shū)館使用。因此采取合適的數(shù)據(jù)挖掘手段解決海量的讀者借閱行為信息很有必要。

      針對(duì)傳統(tǒng)基于粗糙集的混合屬性方法存在對(duì)圖書(shū)館讀者借閱行為數(shù)據(jù)的利用效率低、圖書(shū)館圖書(shū)分類效果差的問(wèn)題,本文提出基于數(shù)據(jù)挖掘的圖書(shū)館讀者借閱行為分析方法,提高讀者圖書(shū)借閱行為數(shù)據(jù)的利用率,增強(qiáng)讀者的閱讀體驗(yàn)。

      1 ?基于數(shù)據(jù)挖掘的圖書(shū)館讀者借閱行為分析方法

      數(shù)據(jù)挖掘技術(shù)中常用的數(shù)據(jù)分析方法為聚類分析,通過(guò)聚類分析可實(shí)現(xiàn)對(duì)特定目標(biāo)進(jìn)行不同特征類別的劃分。本文基于數(shù)據(jù)挖掘的圖書(shū)館讀者借閱行為分析方法,通過(guò)構(gòu)建一種基于相似系數(shù)矩陣的聚類算法,對(duì)圖書(shū)館讀者借閱行為實(shí)施分析,其基于相似系數(shù)矩陣進(jìn)行數(shù)據(jù)聚類,將讀者按族群劃分更清晰[2],且從中挖掘出的圖書(shū)館讀者借閱行為特點(diǎn)更具有代表性。

      對(duì)收集的高校圖書(shū)館讀者借閱圖書(shū)的原始數(shù)據(jù)實(shí)施數(shù)據(jù)清洗,即數(shù)據(jù)預(yù)處理過(guò)程。本文根據(jù)《中圖法》對(duì)表1中借閱圖書(shū)的圖書(shū)編號(hào)的部分信息進(jìn)行提取[7];根據(jù)讀者就讀專業(yè)獲取專業(yè)信息;從原始數(shù)據(jù)中獲取讀者借閱圖書(shū)的月份,并將其轉(zhuǎn)換為周信息;根據(jù)讀者的入學(xué)信息得到讀者入學(xué)日期及借閱圖書(shū)時(shí)所在年級(jí)信息。表2為對(duì)高校圖書(shū)館讀者借閱圖書(shū)信息的數(shù)據(jù)預(yù)處理結(jié)果[8]。將原始數(shù)據(jù)進(jìn)行離散化操作,轉(zhuǎn)化為normal的數(shù)據(jù)形式,便于挖掘隱含的讀者借閱行為數(shù)據(jù)關(guān)系,數(shù)據(jù)轉(zhuǎn)化為刪除一些不必要的數(shù)據(jù)內(nèi)容,將數(shù)據(jù)聚類所需的讀者學(xué)號(hào)、圖書(shū)編號(hào)和院系信息等提取出來(lái),獲取完備的圖書(shū)借閱行為數(shù)據(jù)。

      1.2.2 ?讀者借閱行為分析

      本文采用上述對(duì)圖書(shū)館讀者借閱圖書(shū)信息數(shù)據(jù)預(yù)處理結(jié)果對(duì)讀者閱讀行為進(jìn)行分析,對(duì)讀者圖書(shū)館圖書(shū)借閱行為實(shí)施定義,其中讀者圖書(shū)借閱行為包括圖書(shū)借閱的頻率、圖書(shū)借閱的喜好等。本文方法將借閱頻率用[Tb]表示,即在單位時(shí)間內(nèi)讀者借閱圖書(shū)的次數(shù),通常以月或季度為單位;讀者閱讀喜好用[Tc]表示,即在單位時(shí)間內(nèi)讀者借閱某一類圖書(shū)的次數(shù),由此得出讀者借閱圖書(shū)的喜好指數(shù)RI:

      [RI=TcTb] (4)

      RI的值越大表明讀者對(duì)該圖書(shū)的借閱率就越高。本文對(duì)圖書(shū)館讀者借閱圖書(shū)的喜好有如下規(guī)定:若該喜好指數(shù)在[0,0.1]之間,認(rèn)為讀者的借閱喜好偏小;若該值在[0.1,0.4]之間,說(shuō)明讀者借閱喜好一般;若該值在[0.4,0.6]之間,說(shuō)明讀者的借閱喜好偏中上等;讀者對(duì)圖書(shū)借閱水平最高是RI在[0.6,1]之間。表3為該校圖書(shū)館整理和計(jì)算后的圖書(shū)借閱數(shù)據(jù)庫(kù)記錄。

      從表3整理后的數(shù)據(jù)庫(kù)中隨機(jī)選取50條記錄用于對(duì)讀者借閱行為實(shí)施分析。依據(jù)相關(guān)的數(shù)據(jù)統(tǒng)計(jì)方法,對(duì)50條數(shù)據(jù)記錄進(jìn)行數(shù)據(jù)分析和挖掘,針對(duì)專業(yè)和讀者借閱頻率、借閱喜好三者關(guān)系進(jìn)行分析,設(shè)置本文方法相似度系數(shù)是0.05。表4為本文方法下讀者就讀專業(yè)與圖書(shū)借閱頻率的相關(guān)性分析結(jié)果,對(duì)其實(shí)施相似度聚類分析得出,就讀專業(yè)與圖書(shū)借閱頻率并無(wú)較大關(guān)聯(lián)[9],學(xué)生經(jīng)??鐚I(yè)借閱圖書(shū),非文學(xué)專業(yè)的學(xué)生也會(huì)到圖書(shū)館借閱文學(xué)類的圖書(shū)。

      從表5專業(yè)和讀者圖書(shū)借閱喜好相關(guān)分析結(jié)果可知,兩者的相關(guān)性較顯著,顯著性(雙側(cè))為0.14與0.05較接近[10],出現(xiàn)這種現(xiàn)象的原因是專業(yè)的跨度導(dǎo)致讀者對(duì)圖書(shū)借閱喜好的差異較大。

      通過(guò)對(duì)上文本文方法的讀者借閱行為分析結(jié)果可以看出,讀者借閱圖書(shū)行為與讀者就讀專業(yè)無(wú)明顯關(guān)系,與讀者對(duì)圖書(shū)的個(gè)人喜好有關(guān)。

      2 ?實(shí)驗(yàn)分析

      實(shí)驗(yàn)采用本文方法對(duì)某校隨機(jī)選取的100位讀者的圖書(shū)借閱行為數(shù)據(jù)進(jìn)行聚類,劃分為12個(gè)類別,這些類別都是基于中圖分類號(hào)進(jìn)行劃分,每位讀者都至少借閱一本書(shū)為數(shù)據(jù)劃分的主要特征,50人以上借閱過(guò)的圖書(shū)為次要特征。平均值為類中借閱圖書(shū)的均值,對(duì)實(shí)驗(yàn)選取的圖書(shū)借閱行為數(shù)據(jù)的聚類結(jié)果如表6所示。

      由表6可以看出,讀者借閱圖書(shū)的類別特征和平均值中一些借閱均值較大,說(shuō)明該圖書(shū)類別應(yīng)用面較廣。從聚類組1中可以看出,有11個(gè)讀者借閱的圖書(shū)借閱均值為135,圖書(shū)類別囊括了D6(中國(guó)政治)、D9(法律)和F0(經(jīng)濟(jì)學(xué)),從讀者借閱圖書(shū)的類別特征能得出讀者閱讀行為的特點(diǎn),在對(duì)這些讀者推薦圖書(shū)時(shí)應(yīng)優(yōu)先推送這些書(shū)籍。從聚類組2中,7個(gè)讀者的平均圖書(shū)借閱量為62本,圖書(shū)類別包括D6(中國(guó)政治)、F8(金融)和I2(世界文學(xué))。聚類組3中7個(gè)讀者以及組4中12個(gè)讀者,借閱圖書(shū)的均值分別是51和49.4,組3中讀者對(duì)世界文學(xué)(I2)更為感興趣,對(duì)常用外國(guó)語(yǔ)(H3)以及中國(guó)史(K2)等圖書(shū)感興趣度一般;組4中讀者對(duì)世界文學(xué)(I2)以及數(shù)學(xué)(O1)更為感興趣,對(duì)外國(guó)語(yǔ)(H3)以及經(jīng)濟(jì)計(jì)劃與管理(F2)等圖書(shū)感興趣度一般。

      綜合分析這些結(jié)果說(shuō)明,采用本文方法可提高讀者借閱行為數(shù)據(jù)的利用率,對(duì)讀者借閱行為分析能力強(qiáng),針對(duì)不同讀者的借閱行為向其推送可能感興趣的圖書(shū),增強(qiáng)讀者的閱讀興趣。

      為驗(yàn)證本文方法的性能,在Inter[?] CoreTM 2 Duo CPU,主頻為2.1 GHz,內(nèi)存容量為2 GB,硬盤擴(kuò)展容量為550 GB的電腦端進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)依據(jù)Visual Studio 2010編程實(shí)現(xiàn),分別采用本文方法和傳統(tǒng)基于粗糙集的混合屬性算法對(duì)上文高校圖書(shū)館讀者借閱行為的原始數(shù)據(jù)實(shí)施分析。實(shí)驗(yàn)設(shè)置本文最小的支持度為Min_sup=10%,選取的圖書(shū)館讀者借閱行為原始數(shù)據(jù)規(guī)模從10~50 KB,實(shí)驗(yàn)對(duì)不同數(shù)據(jù)規(guī)模下兩種方法的執(zhí)行時(shí)間和CPU利用率進(jìn)行比較,結(jié)果分別如圖1,圖2所示。

      從圖1中可以明顯看出,兩種方法執(zhí)行時(shí)間隨著數(shù)據(jù)量的擴(kuò)大而增加,但本文方法的用時(shí)在12~13 ms之間,當(dāng)數(shù)據(jù)增加到一定規(guī)模后,方法用時(shí)趨于穩(wěn)定,展示了方法良好的運(yùn)行能力。而傳統(tǒng)的基于粗糙集的混合屬性方法從運(yùn)算初始用時(shí)就較長(zhǎng),隨著數(shù)據(jù)規(guī)模的擴(kuò)大,方法執(zhí)行用時(shí)也不斷增加,明顯高于本文方法。由此可以得出,當(dāng)圖書(shū)館讀者借閱行為數(shù)據(jù)較大時(shí),采用本文方法對(duì)數(shù)據(jù)處理用時(shí)較短,執(zhí)行效率高,滿足讀者的實(shí)時(shí)使用需求,提高了圖書(shū)館的圖書(shū)借閱效率。

      由圖2可以看出,本文方法的CPU利用率隨著數(shù)據(jù)規(guī)模的擴(kuò)大,CPU利用率也越來(lái)越高在95%以上,傳統(tǒng)方法的CPU利用率隨數(shù)據(jù)規(guī)模的擴(kuò)大而減小,說(shuō)明方法的執(zhí)行速度越來(lái)越慢,因此本文方法能提高CPU的利用率,縮短數(shù)據(jù)任務(wù)執(zhí)行時(shí)間。

      3 ?結(jié) ?語(yǔ)

      本文提出的基于數(shù)據(jù)挖掘的圖書(shū)館讀者借閱行為分析方法,能有效地提高圖書(shū)館讀者借閱行為數(shù)據(jù)的利用率,明確讀者圖書(shū)借閱行為,并針對(duì)讀者的閱讀愛(ài)好向其推薦感興趣的圖書(shū)。

      參考文獻(xiàn)

      [1] 茹文,忻展紅.圖書(shū)館借閱數(shù)據(jù)分類信息的關(guān)聯(lián)性研究[J].北京郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2016,18(1):14?19.

      RU Wen, XIN Zhanhong. Associations between different classifications of library circulation data [J]. Journal of Beijing University of Posts and Telecommunications (social sciences edition), 2016, 18(1): 14?19.

      [2] 朱會(huì)華.基于讀者借閱數(shù)據(jù)的館藏結(jié)構(gòu)合理性分析[J].現(xiàn)代情報(bào),2015,35(2):128?132.

      ZHU Huihua. An analysis of rationality library collection structure based on reader borrowing data [J]. Modern information, 2015, 35(2): 128?132.

      [3] 孟德泉,董穎,沙婭弘,等.基于OPAC統(tǒng)計(jì)數(shù)據(jù)的借閱率提升策略探討[J].大學(xué)圖書(shū)館學(xué)報(bào),2014,32(5):73?78.

      MENG Dequan, DONG Ying, SHA Yahong, et al. The promotion strategy of lending rate based on the statistical data of OPAC [J]. Journal of academic libraries, 2014, 32(5): 73?78.

      [4] 許桂菊.新加坡國(guó)家圖書(shū)館管理局閱讀推廣活動(dòng)可持續(xù)發(fā)展探析[J].國(guó)家圖書(shū)館學(xué)刊,2015,24(2):95?103.

      XU Guiju. Analysis on the sustainable development of library reading promotion activities of the National Library Board Singapore [J]. Journal of the National Library of China, 2015, 24(2): 95?103.

      [5] 韓晗.“互聯(lián)網(wǎng)+”與市民閱讀的形成:以2015年中國(guó)十大公共圖書(shū)館借閱排行榜為例[J].出版科學(xué),2016,24(6):57?59.

      HAN Han. ″Internet Plus″ and citizen reading′s formation [J]. Publishing journal, 2016, 24(6): 57?59.

      [6] 都藍(lán),肖麗萍,李賓.基于數(shù)據(jù)平臺(tái)的圖書(shū)館畢業(yè)季服務(wù)實(shí)踐研究:以暨南大學(xué)圖書(shū)館為例[J].圖書(shū)情報(bào)工作,2015,59(22):79?83.

      DU Lan, XIAO Liping, LI Bin. Research on the graduation season service in the academic library based on data platform: a case study of Jinan University Library [J]. Library and information service, 2015, 59(22): 79?83.

      [7] 周偉,陳立龍,宋建文.基于增強(qiáng)現(xiàn)實(shí)技術(shù)的圖書(shū)館導(dǎo)航系統(tǒng)研究[J].系統(tǒng)仿真學(xué)報(bào),2015,27(4):810?815.

      ZHOU Wei, CHEN Lilong, SONG Jianwen. Research on augmented reality of library′s navigation system [J]. Journal of system simulation, 2015, 27(4): 810?815.

      [8] 李善青,趙輝,宋立榮.基于大數(shù)據(jù)挖掘的科技項(xiàng)目查重模型研究[J].圖書(shū)館論壇,2014,34(2):78?83.

      LI Shanqing, ZHAO Hui, SONG Lirong. Study on detection model of similar scientific project based on big data mining [J]. Library tribune, 2014, 34(2): 78?83.

      [9] 鄭祥云,陳志剛,黃瑞,等.基于主題模型的個(gè)性化圖書(shū)推薦算法[J].計(jì)算機(jī)應(yīng)用,2015,35(9):2569?2573.

      ZHENG Xiangyun, CHEN Zhigang, HUANG Rui, et al. Personalized book recommendation algorithm based on topic model [J]. Journal of computer applications, 2015, 35(9): 2569?2573.

      [10] 夏翠娟,劉煒,陳濤,等.家譜關(guān)聯(lián)數(shù)據(jù)服務(wù)平臺(tái)的開(kāi)發(fā)實(shí)踐[J].中國(guó)圖書(shū)館學(xué)報(bào),2016,42(3):27?38.

      XIA Cuijuan, ?LIU Wei, ?CHEN Tao, et al. A genealogy data service platform implemented with linked data technology [J]. Journal of library science in China, 2016, 42(3): 27?38.

      猜你喜歡
      數(shù)據(jù)挖掘
      基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用
      數(shù)據(jù)挖掘的分析與探索
      河南科技(2014年23期)2014-02-27 14:18:43
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
      平定县| 海宁市| 稻城县| 措勤县| 金秀| 桑日县| 桓仁| 汽车| 宿州市| 阳新县| 交城县| 靖宇县| 昌图县| 化德县| 新疆| 濉溪县| 武平县| 清丰县| 丘北县| 钟山县| 施秉县| 海丰县| 津南区| 武定县| 衡东县| 德庆县| 自贡市| 彰化县| 成都市| 海盐县| 民和| 任丘市| 靖西县| 巨野县| 安达市| 大关县| 洮南市| 靖远县| 新泰市| 古蔺县| 应用必备|