• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      江蘇大學(xué)圖書推薦系統(tǒng)讓學(xué)生借書“不迷路”

      2019-07-19 09:35:32吳云龍
      中國教育網(wǎng)絡(luò) 2019年6期
      關(guān)鍵詞:學(xué)期書籍圖書

      文/吳云龍

      高校圖書館圖書推薦現(xiàn)狀

      隨著社會的發(fā)展,國內(nèi)高校之間百舸爭流,圖書館作為高校的文化載體,也發(fā)生了巨大的變化,主要體現(xiàn)在館藏量和服務(wù)方式上。在如今這個(gè)信息爆炸的時(shí)代,高校圖書館作為學(xué)生獲取知識的主要來源,自然圖書藏量也飛速遞增,甚至出現(xiàn)了信息過載的情況[1]。對于學(xué)生來說,可以在如此多的圖書中獲取多方面的知識,本身是一件令人興奮的事。但如何尋找感興趣或者想要的書籍,對于學(xué)生和圖書館來說,都是一個(gè)亟需解決的問題。

      傳統(tǒng)的高校圖書館系統(tǒng)提供基于圖書信息檢索的方式,學(xué)生根據(jù)想要尋找的圖書名或者作者姓名等信息進(jìn)行檢索,從大量的圖書中找到對應(yīng)的書籍。這種方式,針對明確知道圖書信息的學(xué)生來說,尚能夠解決問題,但更常見的情況是學(xué)生面對如此大量的書籍,不知道哪本書適合自己目前的階段,不知道什么書能提高自己的成績。那如何將圖書館中的書籍推薦給適合它的學(xué)生,或者為學(xué)生找到有助他的書籍成為了圖書館書目推薦的本質(zhì)目的。

      目前在高校圖書館中較流行的圖書推薦大致分為兩種。一種是基于圖書相似度的推薦,根據(jù)圖書的借閱歷史記錄,為學(xué)生推薦其感興趣的相似的圖書;第二種是根據(jù)學(xué)生基本信息和行為,挖掘出具有相同特征信息的學(xué)生,從而推薦互相的感興趣的書目。

      系統(tǒng)需求分析

      目前圖書推薦存在的問題

      當(dāng)前高校常見的圖書推薦,很大程度上與電子商務(wù)領(lǐng)域的推薦系統(tǒng)類似,這種模式的推薦不一定適合高校這樣的特殊環(huán)境,繼而推薦效果上可能大打折扣;其次因?yàn)閿?shù)據(jù)源較多、推薦算法復(fù)雜和數(shù)據(jù)量龐大等問題,在推薦系統(tǒng)的可行性上也存在疑問。比如基于圖書相似度的推薦,由于高校圖書館藏書量大,并且每年會采購新的書籍,在計(jì)算圖書相似度上會建立一個(gè)龐大的矩陣,導(dǎo)致推薦成本變大;另外將相似的圖書推薦給學(xué)生,也不一定是學(xué)生滿意的書目。再比如基于學(xué)生行為的推薦,傳統(tǒng)的基于行為的推薦是分析學(xué)生的日常生活軌跡數(shù)據(jù),得到興趣愛好相同的學(xué)生,從而進(jìn)行圖書的推薦。學(xué)生的行為數(shù)據(jù)源多且數(shù)據(jù)量大,增大了數(shù)據(jù)分析的難度;而且興趣愛好相同的學(xué)生在課程和學(xué)業(yè)上所需要的書籍也不一定是相同的。

      圖1 推薦系統(tǒng)基本流程

      推薦系統(tǒng)架構(gòu)

      本系統(tǒng)結(jié)合高校的特點(diǎn)和學(xué)生的需求,并結(jié)合學(xué)生成績數(shù)據(jù)、學(xué)生基本信息數(shù)據(jù)和圖書館借閱數(shù)據(jù),利用分布式文件系統(tǒng)HDFS和大數(shù)據(jù)計(jì)算引擎Spark進(jìn)行計(jì)算,將專業(yè)綜合成績優(yōu)秀學(xué)生的借閱書目,推薦給相同專業(yè)低年級同時(shí)期的學(xué)生。本推薦系統(tǒng)的基本業(yè)務(wù)流程如圖1所示。

      整個(gè)系統(tǒng)的流程主要由三塊構(gòu)成,第一是從數(shù)據(jù)庫中獲取某學(xué)期的學(xué)生成績信息,清洗后用自定義的算法計(jì)算出每個(gè)學(xué)生當(dāng)前學(xué)期的綜合成績;第二是從數(shù)據(jù)庫中抽取學(xué)生的基本信息,然后聯(lián)合第一步中的成績數(shù)據(jù),計(jì)算出同年級同專業(yè)學(xué)生的綜合成績排名情況;第三從數(shù)據(jù)庫中清洗出在校學(xué)生的圖書借閱歷史數(shù)據(jù),聯(lián)合第二步中的成績排名數(shù)據(jù),將當(dāng)前學(xué)期優(yōu)秀學(xué)生的借閱圖書,推薦給低年級同專業(yè)的學(xué)生。

      推薦方法過程

      計(jì)算工具介紹

      本文提出的圖書推薦方法涉及到多個(gè)數(shù)據(jù)源,特別是學(xué)生成績數(shù)據(jù)和圖書借閱歷史數(shù)據(jù),隨著高校的不斷發(fā)展和圖書館規(guī)模的不斷擴(kuò)大,這兩項(xiàng)數(shù)據(jù)量也越來越大。特別是處理過程中還涉及到多次多種數(shù)據(jù)源之間的聯(lián)接操作,傳統(tǒng)的數(shù)據(jù)計(jì)算框架會遇到一定的挑戰(zhàn)。

      圖2 Spark運(yùn)行流程

      Hadoop的Mapreduce是一種并行處理大數(shù)據(jù)的計(jì)算框架,它的核心思想是采用分而治之的策略,其中Map將要處理的任務(wù)分成很多子任務(wù),交給各個(gè)不同的進(jìn)程進(jìn)行計(jì)算;最后的計(jì)算結(jié)果由Reduce進(jìn)行統(tǒng)計(jì)[2]。但是因?yàn)镸apreduce的計(jì)算過程中采用的是多進(jìn)程模型,這樣會導(dǎo)致在反復(fù)迭代計(jì)算的任務(wù)中花費(fèi)太多時(shí)間在啟動(dòng)進(jìn)程上,同樣在執(zhí)行中需要內(nèi)存和磁盤不斷進(jìn)行數(shù)據(jù)交互,也很大程度上影響計(jì)算性能。

      Spark誕生于伯克利大學(xué)的AMPLab,起初是該大學(xué)的一個(gè)研究項(xiàng)目,后被正式開源并成為Apache的頂級項(xiàng)目[3]。Spark與Mapreduce相同,也是作為近年常用的大數(shù)據(jù)計(jì)算框架;不同的是Spark采用分布式內(nèi)存計(jì)算和彈性分布式數(shù)據(jù)集RDD[4](如圖2所示),將計(jì)算中需要重復(fù)使用的數(shù)據(jù)緩存在內(nèi)存中,使大規(guī)模數(shù)據(jù)的處理速度和容錯(cuò)率相較Mapreduce提升了很多。

      學(xué)生綜合成績計(jì)算

      數(shù)據(jù)庫中存放的學(xué)生成績信息包含有14個(gè)字段,包括XH(學(xué)號),XM(姓名),XN(學(xué)年),XQ(學(xué)期),KCDM(課程代碼),KCMC(課程名稱),KCXZ(課程性質(zhì)),KCGS(課程概述),XF(學(xué)分),CJ(成績),BKCJ(補(bǔ)考成績),CXCJ(重修成績),BZ(備注),CXBJ(重修標(biāo)記)。從成績字段信息可以發(fā)現(xiàn),計(jì)算學(xué)生一學(xué)期的綜合成績,將會面臨以下問題:學(xué)生的成績因?yàn)檎n程性質(zhì)分為必修課和選修課,不同課程性質(zhì)的要求可能不一樣;有些課程的成績是等級制,很難做到量化;不同課程可能對應(yīng)不同的學(xué)分;有些學(xué)生的課程可能存在補(bǔ)考或者重修現(xiàn)象,那同一門課程可能有兩個(gè)分?jǐn)?shù)等等。

      針對以上問題,首先將課程成績和等級成績量化成具體分?jǐn)?shù),具體量化方式為:優(yōu)秀=90,良好=80,中等=70,及格=60,不及格=40;然后根據(jù)不同課程性質(zhì)劃分權(quán)重(必修課權(quán)重為1.0;選修課權(quán)重為0.8),結(jié)合學(xué)分計(jì)算每門課程的最終成績。計(jì)算方法為:

      最終成績 = 課程權(quán)重 ×學(xué)分 × 原始成績

      計(jì)算得到每個(gè)學(xué)生每門課程的最終成績,接下來根據(jù)學(xué)號和課程代碼為鍵,找到有多個(gè)成績的課程即補(bǔ)考或重修的課程,取最大分?jǐn)?shù)為當(dāng)前學(xué)生該課程分?jǐn)?shù)。最后以學(xué)號為鍵,調(diào)用groupByKey后將該學(xué)生所有成績進(jìn)行求和計(jì)算,則得到了該學(xué)生在當(dāng)前學(xué)期的綜合成績。

      同專業(yè)學(xué)生成績排名

      通過對教務(wù)成績數(shù)據(jù)計(jì)算得到學(xué)生一學(xué)期的綜合成績,接下來將結(jié)合學(xué)生基本信息數(shù)據(jù),得到同專業(yè)學(xué)生綜合成績排名。學(xué)生的基本信息存在bzks表中,該表有69個(gè)字段,截取其中以下字段:XM(姓名),XBDM(性別代碼),YXDM(院系代碼),XZNJ(現(xiàn)在年級),XZZYDM(現(xiàn)在專業(yè)代碼)。學(xué)生基本信息數(shù)據(jù)和成績數(shù)據(jù)進(jìn)行join操作,然后以現(xiàn)在年級和現(xiàn)在專業(yè)代碼作為聯(lián)合鍵,將同級同專業(yè)的學(xué)生數(shù)據(jù)聚集后,利用spark對相同鍵的學(xué)生成績進(jìn)行降序排序。

      優(yōu)秀學(xué)生借閱推薦

      圖書借閱信息中包含了全部的借閱信息,數(shù)據(jù)量較大,首先需要過濾掉已經(jīng)畢業(yè)學(xué)生和非學(xué)生的借閱信息。然后結(jié)合上述已經(jīng)計(jì)算得到的同級同專業(yè)學(xué)生一學(xué)期綜合成績排名數(shù)據(jù),選取排名靠前的優(yōu)秀學(xué)生(可配置,本文選取各個(gè)專業(yè)成績排名前15),得到這些優(yōu)秀學(xué)生在當(dāng)前學(xué)期的圖書借閱信息。接下來對這些優(yōu)秀學(xué)生的圖書借閱信息進(jìn)行分析,統(tǒng)計(jì)借閱次數(shù)降序排序和借閱時(shí)長降序排序。最后選取借閱次數(shù)超過兩次的書籍,如果該數(shù)量超過15,則選前15的書目;如果該數(shù)量未超過,則按借閱時(shí)長排名自前往后篩選補(bǔ)充至15本。最后我們將這15本書目做為往屆優(yōu)秀學(xué)生的借閱書目,推薦給對應(yīng)低一級同專業(yè)且對應(yīng)學(xué)期的學(xué)生。

      綜上所述,本文結(jié)合高校學(xué)生的基本數(shù)據(jù)、教務(wù)數(shù)據(jù)和圖書借閱歷史數(shù)據(jù),分析得到每個(gè)專業(yè)綜合成績優(yōu)異學(xué)生借閱的書籍;再將這些書籍經(jīng)過一定的分析統(tǒng)計(jì)后推薦給對應(yīng)借閱學(xué)期和同專業(yè)的低年級學(xué)生。這樣的圖書推薦方式不同于目前主流的應(yīng)用于電子商務(wù)領(lǐng)域的推薦,更加符合高校學(xué)生的需求,推薦的指向性和目的性也更加明確[5]。但是也存在一定的缺點(diǎn),比如可能會因?yàn)閮?yōu)秀學(xué)生借閱的局限性而錯(cuò)過一些優(yōu)秀書籍;也可能因?yàn)閮?yōu)秀學(xué)生借閱的一些興趣類的書籍而因此做了低質(zhì)量的推薦。當(dāng)然基于高校圖書館的圖書推薦因?yàn)槊嫦蛉后w的針對性,將會是一個(gè)長期值得研究和優(yōu)化的課題,希望能通過本文為此提供一定的參考價(jià)值。

      猜你喜歡
      學(xué)期書籍圖書
      魯迅與“書籍代購”
      新的學(xué)期 新的嘗試
      期末沖刺高二上學(xué)期期末模擬卷
      圖書推薦
      南風(fēng)(2020年22期)2020-09-15 07:47:08
      歡迎來到圖書借閱角
      AOS在書籍編寫的應(yīng)用
      書籍
      班里有個(gè)圖書角
      八年級(上學(xué)期)期末測試題(D)
      書籍是如何改變我們的
      大石桥市| 得荣县| 东辽县| 五河县| 宜宾县| 德惠市| 武宣县| 七台河市| 丹寨县| 五河县| 平邑县| 四子王旗| 阿图什市| 凯里市| 成武县| 威远县| 安丘市| 玉龙| 孙吴县| 盐源县| 响水县| 辉县市| 黑山县| 宣汉县| 石景山区| 蚌埠市| 且末县| 清流县| 潜山县| 塔城市| 云梦县| 平泉县| 新昌县| 达拉特旗| 阳春市| 巴中市| 海南省| 中超| 二手房| 金乡县| 康平县|