劉占波 閆實(shí) 王曉麗
摘? 要: 本文服務(wù)于高校教師管理系統(tǒng),為高校教師的工作量考核提供決策支持,借助樸素貝葉斯分類模型預(yù)測高校教師的教學(xué)負(fù)擔(dān)。本文以某大學(xué)16年某學(xué)院的教師工作量作為數(shù)據(jù)基礎(chǔ),通過實(shí)驗(yàn)證明了樸素貝葉斯分類過程是一種簡單易行且容易被程序?qū)崿F(xiàn)的方法,可以對高校教師工作量考核分類做預(yù)測輔助考核決策。
關(guān)鍵詞: 樸素貝葉斯;分類預(yù)測;高校信息系統(tǒng)
【Abstract】: The article predicts teaching workload of college teachers with help of naive Bayesian classification model, to provide decision support for workload assessment of college teachers, and serve management system of college teachers. Based on workload data college teachers grade 16 of a university, the article proves naive Bayes classification process is a simply and easied programmed method based on practice, which can assist assessment decision-making of workload assessment classification of college teachers.
【Key words】: Naive Bayes; Classified prediction; College information system
0? 引言
當(dāng)前信息化建設(shè)已經(jīng)進(jìn)入到高校的每一個(gè)角落,高校的信息系統(tǒng)也是日趨完善。在高校的教師管理信息化工作中利用信息化手段提高管理工作效率,改善工作流程,實(shí)現(xiàn)現(xiàn)代化信息化的管理方法已經(jīng)成為普遍的共識。但是隨著信息化的深入,信息技術(shù)的發(fā)展尤其是近年來的人工智能技術(shù)的發(fā)展,給高校教師管理系統(tǒng)帶來了巨大的機(jī)遇[1]。從統(tǒng)計(jì)意義上來講,高校教師的工作量是存在統(tǒng)計(jì)規(guī)律的,那么就有可能通過分類預(yù)測工作量。常見的分類預(yù)測方法有:決策樹、貝葉斯、遺傳算法、傳統(tǒng)神經(jīng)網(wǎng)絡(luò)等方法。
本文將借助分類預(yù)測技術(shù),嘗試在高校教師工作量上進(jìn)行分類預(yù)測,起到對工作量考核的輔助決策作用。以某大學(xué)16年某學(xué)院的教師工作量作為數(shù)據(jù)基礎(chǔ),以教師工作量數(shù)據(jù)作為研究對象,采用樸素貝葉斯模型作為分類工具。通過對現(xiàn)存的高校教師管理系統(tǒng)數(shù)據(jù)庫抽取數(shù)據(jù)維度,設(shè)計(jì)一個(gè)數(shù)據(jù)向量來刻畫一個(gè)高校教師的教學(xué)負(fù)擔(dān)。通過這個(gè)教學(xué)負(fù)擔(dān)分類來預(yù)測安排教學(xué)的合理性,從而為課程安排的決策起到支撐作用。
1? 理論分析
分類預(yù)測就是要通過已知的數(shù)據(jù)分類去預(yù)測未知的數(shù)據(jù)屬于那一個(gè)已知的類別。這中間的過程就是對已經(jīng)有標(biāo)簽的數(shù)據(jù),通過數(shù)據(jù)訓(xùn)練產(chǎn)生一個(gè)描述這個(gè)類別的模型,通過這個(gè)模型去預(yù)測沒有分類標(biāo)簽的未知數(shù)據(jù)。貝葉斯分類器,在機(jī)器學(xué)習(xí)里屬于有監(jiān)督學(xué)習(xí)方法,因?yàn)槠錁颖镜姆诸愂且呀?jīng)有標(biāo)簽明確的分類。其假設(shè)所分類的數(shù)據(jù),數(shù)據(jù)中的各個(gè)屬性都是獨(dú)立的,即相互不影響的,因此稱為樸素貝葉斯分類。而實(shí)際應(yīng)用中,往往這種假設(shè)并不成立,但是實(shí)踐過程中即使假設(shè)不成立,樸素貝葉斯分類器依然良好的工作。
那么結(jié)果是89%的幾率發(fā)生,所以此時(shí)系統(tǒng)可以建議降低該教師的工作強(qiáng)度。顯然,上面的例子比較簡單,所考慮的因素僅僅只有教師的工作負(fù)荷,對于所授課程的難度,教師的經(jīng)驗(yàn)等因素均為納入模型。而在樸素貝葉斯分類中,將會以屬性的形式來考慮更多的因素,這里假定屬性是獨(dú)立的,即屬性間不存在相互影響。樸素貝葉斯分類器算法可以簡單的通過下述五步實(shí)現(xiàn):
(1)通過N維向量表示樣本的N個(gè)屬性,對于本文就是要考慮的評價(jià)因素;
(2)事先給定幾個(gè)類別,對樣本分類,而未知樣本是沒有分類的樣本;
(3)由于樣本的屬性有N個(gè),只有假定屬性間是獨(dú)立的,計(jì)算量才能最小;
(4)所求樣本的N個(gè)屬性,均可以通過訓(xùn)練數(shù)據(jù)集求得其先驗(yàn)概率;
(5)根據(jù)貝葉斯公式計(jì)算所求未知樣本屬于每個(gè)類別的概率,其中概率最大的類別作為其類別,即所求分類。
由于樸素貝葉斯分類器,有著實(shí)現(xiàn)簡單性能良好的特點(diǎn),因此適合在大數(shù)據(jù)環(huán)境下實(shí)踐,因此本文采用樸素的貝葉斯分類對高校教師工作量考核進(jìn)行分類做預(yù)測研究。
2? 分類預(yù)測研究
本文以某大學(xué)2006年至2016年共計(jì)十年某學(xué)院的教師工作量作為數(shù)據(jù)基礎(chǔ),以教師工作量數(shù)據(jù)作為研究對象,采用樸素貝葉斯模型作為分類工具,找到針對教師的工作量飽和度和教學(xué)質(zhì)量的平衡。
2.1? 訓(xùn)練樣本準(zhǔn)備
結(jié)合樸素貝葉斯分類器算法,首先要根據(jù)以往信息系統(tǒng)里搜索的教學(xué)基礎(chǔ)數(shù)據(jù),合理選取評價(jià),本文結(jié)合實(shí)際工作與教學(xué)特點(diǎn),選取了七個(gè)維度描述一個(gè)樣本(教齡、授課總量、總體課程難度系數(shù)、總體平均成績、主要課程排課數(shù)、主要課程難度系數(shù)、主要課程平均成績)。對于教師工作的評價(jià)類別可以給定(C1:優(yōu)秀、C2:良、C3:合格)這三個(gè)分類。
根據(jù)某大學(xué)某學(xué)院從2006年至2016年教學(xué)管理信息系統(tǒng)所積累的教師工作量作為基礎(chǔ)數(shù)據(jù)。在實(shí)際工作中,要分析的數(shù)據(jù)維度來自不同業(yè)務(wù)數(shù)據(jù)表的匯總和統(tǒng)計(jì),本研究通過從信息系統(tǒng)里的多張業(yè)務(wù)表里統(tǒng)計(jì)匯總獲取60筆記錄作為訓(xùn)練樣本,樣本數(shù)據(jù)見表1。
2.2? 數(shù)據(jù)分析與預(yù)測
根據(jù)上述訓(xùn)練樣本表格中設(shè)計(jì)的七個(gè)維度所描述的向量,即可表示一個(gè)樣本,針對向量內(nèi)的數(shù)據(jù)可以進(jìn)一步做區(qū)間分類讓數(shù)據(jù)內(nèi)聚,具體操作如下:
(1)教齡可以劃分四個(gè)區(qū)間:[1,8]、[9,16]、[17,24]、[24,30]。
(2)授課總量可以劃分四個(gè)區(qū)間:[300,399]、[400,499]、[500,599]、[600,+∞]。
(3)總體課程難度系數(shù)可以劃分三個(gè)區(qū)間:[0,1]、[1,2]、[2,3]。
(4)總體平均成績可以劃分四個(gè)區(qū)間:[0,59]、[60,80]、[80,90]、[90,100]。
(5)主要課程排課數(shù)可以劃分四個(gè)區(qū)間:[300,399]、[400,499]、[500,599]、[600,+∞]。
(6)主要課程難度系數(shù)可以劃分三個(gè)區(qū)間: [0,1)、[1, 2)、[2,3]。
(7)主要課程平均成績可以劃分四個(gè)區(qū)間: [0,59]、[60,78]、[79,90]、[90,100]。
表格的最后一列,即表示分類,也就是對樣本數(shù)據(jù)人為給定的標(biāo)簽,對應(yīng)真實(shí)的業(yè)務(wù)場景就是給教師的工作量考核,共有優(yōu)秀、良和合格三類考核標(biāo)準(zhǔn),分別對應(yīng)G、O、A三個(gè)字母表示[2-5]。
假設(shè)已經(jīng)完成數(shù)據(jù)訓(xùn)練,那么假設(shè)要分類一個(gè)未做分類標(biāo)記的數(shù)據(jù),有一位9年教齡,2017年度課總量為572節(jié)、總體課程難度系數(shù)在1.5、總體平均成績81分、主要課程排課數(shù)為497節(jié)、主要課程難度系數(shù)為2.0、主要課程平均成績 79分的未知樣本的分類。其向量表示為X={9,572,1.5,81,497,2.0, 80},現(xiàn)在要根據(jù)這個(gè)未分類的樣本自動分類到上述三個(gè)分類中去。
3? 結(jié)論
本文的設(shè)計(jì)主要是針對性決策安排教師的授課量達(dá)到一個(gè)比較均衡的工作量分配方案,既能保障教學(xué)質(zhì)量,又可以最大化的保證工作飽和度[6-8]。本文在樣本的選取上盡量做到了同時(shí)兼顧較大范圍的普遍意義,又盡可能滿足教師工作量均衡安排的特定場景。在這一實(shí)踐基礎(chǔ)上,本文調(diào)整了貝葉斯分類假定數(shù)據(jù)的各個(gè)屬性都是獨(dú)立的這一假設(shè),因?yàn)楸疚牡倪x取維度在單個(gè)屬性間存在一定的關(guān)聯(lián),譬如,主要課程難度系數(shù)和主要課程平均成績。但是,從實(shí)驗(yàn)結(jié)果上分析,樸素貝葉斯依然在實(shí)驗(yàn)中獲得了良好的效果[9-10]。
參考文獻(xiàn)
包小兵. 基于樸素貝葉斯的Web文本分類及其應(yīng)用[J]. 電腦知識與技術(shù), 2016(30): 226-227+236.
詹毅. 樸素貝葉斯算法和SVM算法在Web文本分類中的效率分析[J]. 成都大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, 32(1): 50-53.
陳甜遠(yuǎn). 大數(shù)據(jù)時(shí)代的高校信息管理中心對策[J]. 無線互聯(lián)科技, 2013(5): 8-9.
陳亞靜. 大數(shù)據(jù)時(shí)代下高校教學(xué)的幾點(diǎn)啟示[J]. 信息與電腦(理論版), 2015(22): 192-194.
孫玫, 張森, 聶培堯, 等. 基于樸素貝葉斯的網(wǎng)絡(luò)查詢?nèi)罩緎ession劃分方法研究[J]. 南京大學(xué)學(xué)報(bào)(自然科學(xué)), 2018, 54(06): 1132-1140.
邱寧佳, 李娜, 胡小娟, 等. 基于粒子群優(yōu)化的樸素貝葉斯改進(jìn)算法[J]. 計(jì)算機(jī)工程, 2018, 44(11): 27-32+39.
張俊飛. 基于改進(jìn)樸素貝葉斯算法實(shí)現(xiàn)評教評語情感分析[J]. 現(xiàn)代計(jì)算機(jī)(專業(yè)版), 2018(32): 3-6.
陳婭婷, 魯凌云. 大規(guī)模混合網(wǎng)絡(luò)中基于樸素貝葉斯分類的TCP自適應(yīng)鑒別器[J]. 通信學(xué)報(bào), 2018, 39(S1): 189-194.
于營. 基于樸素貝葉斯的旅游網(wǎng)情感分類研究[J]. 信息與電腦(理論版), 2018(18): 50-51+55.
王占孔, 王學(xué)麗. 基于貝葉斯網(wǎng)絡(luò)的分層網(wǎng)絡(luò)故障診斷[J]. 軟件, 2011, 32(04): 87-90.