江蘇大學(xué)圖書推薦系統(tǒng)讓學(xué)生借書“不迷路”

2019-07-19 09:35:32吳云龍

中國教育網(wǎng)絡(luò) 2019年6期

文/吳云龍

高校圖書館圖書推薦現(xiàn)狀

隨著社會的發(fā)展，國內(nèi)高校之間百舸爭流，圖書館作為高校的文化載體，也發(fā)生了巨大的變化，主要體現(xiàn)在館藏量和服務(wù)方式上。在如今這個(gè)信息爆炸的時(shí)代，高校圖書館作為學(xué)生獲取知識的主要來源，自然圖書藏量也飛速遞增，甚至出現(xiàn)了信息過載的情況[1]。對于學(xué)生來說，可以在如此多的圖書中獲取多方面的知識，本身是一件令人興奮的事。但如何尋找感興趣或者想要的書籍，對于學(xué)生和圖書館來說，都是一個(gè)亟需解決的問題。

傳統(tǒng)的高校圖書館系統(tǒng)提供基于圖書信息檢索的方式，學(xué)生根據(jù)想要尋找的圖書名或者作者姓名等信息進(jìn)行檢索，從大量的圖書中找到對應(yīng)的書籍。這種方式，針對明確知道圖書信息的學(xué)生來說，尚能夠解決問題，但更常見的情況是學(xué)生面對如此大量的書籍，不知道哪本書適合自己目前的階段，不知道什么書能提高自己的成績。那如何將圖書館中的書籍推薦給適合它的學(xué)生，或者為學(xué)生找到有助他的書籍成為了圖書館書目推薦的本質(zhì)目的。

目前在高校圖書館中較流行的圖書推薦大致分為兩種。一種是基于圖書相似度的推薦，根據(jù)圖書的借閱歷史記錄，為學(xué)生推薦其感興趣的相似的圖書；第二種是根據(jù)學(xué)生基本信息和行為，挖掘出具有相同特征信息的學(xué)生，從而推薦互相的感興趣的書目。

系統(tǒng)需求分析

目前圖書推薦存在的問題

當(dāng)前高校常見的圖書推薦，很大程度上與電子商務(wù)領(lǐng)域的推薦系統(tǒng)類似，這種模式的推薦不一定適合高校這樣的特殊環(huán)境，繼而推薦效果上可能大打折扣；其次因?yàn)閿?shù)據(jù)源較多、推薦算法復(fù)雜和數(shù)據(jù)量龐大等問題，在推薦系統(tǒng)的可行性上也存在疑問。比如基于圖書相似度的推薦，由于高校圖書館藏書量大，并且每年會采購新的書籍，在計(jì)算圖書相似度上會建立一個(gè)龐大的矩陣，導(dǎo)致推薦成本變大；另外將相似的圖書推薦給學(xué)生，也不一定是學(xué)生滿意的書目。再比如基于學(xué)生行為的推薦，傳統(tǒng)的基于行為的推薦是分析學(xué)生的日常生活軌跡數(shù)據(jù)，得到興趣愛好相同的學(xué)生，從而進(jìn)行圖書的推薦。學(xué)生的行為數(shù)據(jù)源多且數(shù)據(jù)量大，增大了數(shù)據(jù)分析的難度；而且興趣愛好相同的學(xué)生在課程和學(xué)業(yè)上所需要的書籍也不一定是相同的。

圖1 推薦系統(tǒng)基本流程

推薦方法過程

計(jì)算工具介紹

本文提出的圖書推薦方法涉及到多個(gè)數(shù)據(jù)源，特別是學(xué)生成績數(shù)據(jù)和圖書借閱歷史數(shù)據(jù)，隨著高校的不斷發(fā)展和圖書館規(guī)模的不斷擴(kuò)大，這兩項(xiàng)數(shù)據(jù)量也越來越大。特別是處理過程中還涉及到多次多種數(shù)據(jù)源之間的聯(lián)接操作，傳統(tǒng)的數(shù)據(jù)計(jì)算框架會遇到一定的挑戰(zhàn)。

圖2 Spark運(yùn)行流程

Hadoop的Mapreduce是一種并行處理大數(shù)據(jù)的計(jì)算框架，它的核心思想是采用分而治之的策略，其中Map將要處理的任務(wù)分成很多子任務(wù)，交給各個(gè)不同的進(jìn)程進(jìn)行計(jì)算；最后的計(jì)算結(jié)果由Reduce進(jìn)行統(tǒng)計(jì)[2]。但是因?yàn)镸apreduce的計(jì)算過程中采用的是多進(jìn)程模型，這樣會導(dǎo)致在反復(fù)迭代計(jì)算的任務(wù)中花費(fèi)太多時(shí)間在啟動(dòng)進(jìn)程上，同樣在執(zhí)行中需要內(nèi)存和磁盤不斷進(jìn)行數(shù)據(jù)交互，也很大程度上影響計(jì)算性能。

Spark誕生于伯克利大學(xué)的AMPLab，起初是該大學(xué)的一個(gè)研究項(xiàng)目，后被正式開源并成為Apache的頂級項(xiàng)目[3]。Spark與Mapreduce相同，也是作為近年常用的大數(shù)據(jù)計(jì)算框架；不同的是Spark采用分布式內(nèi)存計(jì)算和彈性分布式數(shù)據(jù)集RDD[4]（如圖2所示），將計(jì)算中需要重復(fù)使用的數(shù)據(jù)緩存在內(nèi)存中，使大規(guī)模數(shù)據(jù)的處理速度和容錯(cuò)率相較Mapreduce提升了很多。

學(xué)生綜合成績計(jì)算

數(shù)據(jù)庫中存放的學(xué)生成績信息包含有14個(gè)字段，包括XH（學(xué)號）,XM（姓名）,XN（學(xué)年）,XQ（學(xué)期）,KCDM（課程代碼）,KCMC（課程名稱）,KCXZ（課程性質(zhì)）,KCGS（課程概述）,XF（學(xué)分）,CJ（成績）,BKCJ（補(bǔ)考成績）,CXCJ（重修成績）,BZ（備注）,CXBJ（重修標(biāo)記）。從成績字段信息可以發(fā)現(xiàn)，計(jì)算學(xué)生一學(xué)期的綜合成績，將會面臨以下問題：學(xué)生的成績因?yàn)檎n程性質(zhì)分為必修課和選修課，不同課程性質(zhì)的要求可能不一樣；有些課程的成績是等級制，很難做到量化；不同課程可能對應(yīng)不同的學(xué)分；有些學(xué)生的課程可能存在補(bǔ)考或者重修現(xiàn)象，那同一門課程可能有兩個(gè)分?jǐn)?shù)等等。

針對以上問題，首先將課程成績和等級成績量化成具體分?jǐn)?shù)，具體量化方式為：優(yōu)秀=90，良好=80，中等=70，及格=60，不及格=40；然后根據(jù)不同課程性質(zhì)劃分權(quán)重（必修課權(quán)重為1.0；選修課權(quán)重為0.8），結(jié)合學(xué)分計(jì)算每門課程的最終成績。計(jì)算方法為：

最終成績 = 課程權(quán)重 ×學(xué)分 × 原始成績

計(jì)算得到每個(gè)學(xué)生每門課程的最終成績，接下來根據(jù)學(xué)號和課程代碼為鍵，找到有多個(gè)成績的課程即補(bǔ)考或重修的課程，取最大分?jǐn)?shù)為當(dāng)前學(xué)生該課程分?jǐn)?shù)。最后以學(xué)號為鍵，調(diào)用groupByKey后將該學(xué)生所有成績進(jìn)行求和計(jì)算，則得到了該學(xué)生在當(dāng)前學(xué)期的綜合成績。

同專業(yè)學(xué)生成績排名

通過對教務(wù)成績數(shù)據(jù)計(jì)算得到學(xué)生一學(xué)期的綜合成績，接下來將結(jié)合學(xué)生基本信息數(shù)據(jù)，得到同專業(yè)學(xué)生綜合成績排名。學(xué)生的基本信息存在bzks表中，該表有69個(gè)字段，截取其中以下字段：XM（姓名）,XBDM（性別代碼）,YXDM（院系代碼）,XZNJ（現(xiàn)在年級）,XZZYDM（現(xiàn)在專業(yè)代碼）。學(xué)生基本信息數(shù)據(jù)和成績數(shù)據(jù)進(jìn)行join操作，然后以現(xiàn)在年級和現(xiàn)在專業(yè)代碼作為聯(lián)合鍵，將同級同專業(yè)的學(xué)生數(shù)據(jù)聚集后，利用spark對相同鍵的學(xué)生成績進(jìn)行降序排序。

優(yōu)秀學(xué)生借閱推薦

圖書借閱信息中包含了全部的借閱信息，數(shù)據(jù)量較大，首先需要過濾掉已經(jīng)畢業(yè)學(xué)生和非學(xué)生的借閱信息。然后結(jié)合上述已經(jīng)計(jì)算得到的同級同專業(yè)學(xué)生一學(xué)期綜合成績排名數(shù)據(jù)，選取排名靠前的優(yōu)秀學(xué)生（可配置，本文選取各個(gè)專業(yè)成績排名前15），得到這些優(yōu)秀學(xué)生在當(dāng)前學(xué)期的圖書借閱信息。接下來對這些優(yōu)秀學(xué)生的圖書借閱信息進(jìn)行分析，統(tǒng)計(jì)借閱次數(shù)降序排序和借閱時(shí)長降序排序。最后選取借閱次數(shù)超過兩次的書籍，如果該數(shù)量超過15，則選前15的書目；如果該數(shù)量未超過，則按借閱時(shí)長排名自前往后篩選補(bǔ)充至15本。最后我們將這15本書目做為往屆優(yōu)秀學(xué)生的借閱書目，推薦給對應(yīng)低一級同專業(yè)且對應(yīng)學(xué)期的學(xué)生。

綜上所述，本文結(jié)合高校學(xué)生的基本數(shù)據(jù)、教務(wù)數(shù)據(jù)和圖書借閱歷史數(shù)據(jù)，分析得到每個(gè)專業(yè)綜合成績優(yōu)異學(xué)生借閱的書籍；再將這些書籍經(jīng)過一定的分析統(tǒng)計(jì)后推薦給對應(yīng)借閱學(xué)期和同專業(yè)的低年級學(xué)生。這樣的圖書推薦方式不同于目前主流的應(yīng)用于電子商務(wù)領(lǐng)域的推薦，更加符合高校學(xué)生的需求，推薦的指向性和目的性也更加明確[5]。但是也存在一定的缺點(diǎn)，比如可能會因?yàn)閮?yōu)秀學(xué)生借閱的局限性而錯(cuò)過一些優(yōu)秀書籍；也可能因?yàn)閮?yōu)秀學(xué)生借閱的一些興趣類的書籍而因此做了低質(zhì)量的推薦。當(dāng)然基于高校圖書館的圖書推薦因?yàn)槊嫦蛉后w的針對性，將會是一個(gè)長期值得研究和優(yōu)化的課題，希望能通過本文為此提供一定的參考價(jià)值。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看