黃 婕
(1. 湖南省飛機(jī)維修工程技術(shù)研究中心,湖南 長沙 410124;2. 長沙航空職業(yè)技術(shù)學(xué)院,湖南 長沙 410124)
當(dāng)前,隨著云計(jì)算、大數(shù)據(jù)和人工智能等信息技術(shù)的飛速發(fā)展,在線教育的適應(yīng)性學(xué)習(xí)越來越引起教育信息技術(shù)領(lǐng)域?qū)<业年P(guān)注和研究。2017年,《新媒體聯(lián)盟地平線報(bào)告》也指出,個(gè)性化學(xué)習(xí)是一項(xiàng)“容易理解但卻難以尋求解決方案”的挑戰(zhàn);個(gè)性化學(xué)習(xí)、適應(yīng)性學(xué)習(xí)等技術(shù)是在線學(xué)習(xí)環(huán)境中的重要研究問題。
現(xiàn)階段,教育發(fā)展過程中面臨著優(yōu)質(zhì)資源供給不足、規(guī)?;逃c人才差異化成長需求存在矛盾的問題。近年來,深度學(xué)習(xí)方法正成為各類推薦系統(tǒng)的研究熱點(diǎn),其原因在于深度模型引入了一些有效的訓(xùn)練方法,與傳統(tǒng)推薦方法相比,深度學(xué)習(xí)方法有助于在自適應(yīng)學(xué)習(xí)環(huán)境中更加精準(zhǔn)地實(shí)現(xiàn)個(gè)性化輔助學(xué)習(xí),從而提高信息技術(shù)在教育學(xué)習(xí)領(lǐng)域的適用性[1]。
我們將從挖掘規(guī)律、分析學(xué)習(xí)特征和習(xí)慣、評估學(xué)習(xí)現(xiàn)狀及預(yù)測學(xué)習(xí)效果四個(gè)方面著手,提高學(xué)習(xí)者在線學(xué)習(xí)的效率和成效[2]。
利用大數(shù)據(jù)等先進(jìn)技術(shù)對在線學(xué)習(xí)平臺的數(shù)據(jù)進(jìn)行分析、研究,找到學(xué)習(xí)者的認(rèn)知規(guī)律。重點(diǎn)關(guān)注學(xué)習(xí)者受何種因素干擾影響最多。基于決策樹算法的研究者[3]對學(xué)習(xí)者進(jìn)行分類研究,發(fā)現(xiàn)學(xué)習(xí)方向、學(xué)習(xí)中的表現(xiàn)和平時(shí)成績都會(huì)影響最終學(xué)習(xí)成績。該算法發(fā)現(xiàn)了學(xué)生成績與學(xué)習(xí)管理體系的關(guān)聯(lián)。利用回歸算法的研究者[4]發(fā)現(xiàn)學(xué)習(xí)者合作學(xué)習(xí)解決實(shí)際問題的能力和學(xué)習(xí)者性別的組合也對學(xué)習(xí)產(chǎn)生影響。
不僅學(xué)習(xí)行為會(huì)影響學(xué)習(xí)成效,學(xué)習(xí)行為模式也有影響。利用EM算法的研究者[5]對學(xué)生進(jìn)行聚類研究,發(fā)現(xiàn)了共同合作的行為模式對學(xué)習(xí)的影響。利用關(guān)聯(lián)規(guī)則算法的研究者[6]發(fā)現(xiàn)了學(xué)習(xí)者有知識誤區(qū)后的系列影響。
分析學(xué)習(xí)者的學(xué)習(xí)特征與習(xí)慣有利于提高學(xué)習(xí)成效,使得學(xué)習(xí)成績有所提高。
有研究人員善于研究學(xué)習(xí)者的學(xué)習(xí)風(fēng)格和方法,有利用貝葉斯算法的研究者[7]通過游戲表現(xiàn)研究學(xué)習(xí)風(fēng)格。而在決策樹算法基礎(chǔ)上建立計(jì)算模型的研究者發(fā)現(xiàn)了學(xué)生與在線學(xué)習(xí)系統(tǒng)之間互動(dòng)數(shù)據(jù)的關(guān)系?;贙-means算法的研究者[8]則將學(xué)生分層,發(fā)現(xiàn)學(xué)生認(rèn)知水平與成績優(yōu)劣的關(guān)系。
有研究者發(fā)現(xiàn)學(xué)習(xí)者瀏覽、查閱文獻(xiàn)的習(xí)慣,與瀏覽文件的順序和頻率有關(guān),利用關(guān)聯(lián)規(guī)則和序列挖掘模型算法分析出學(xué)習(xí)者的知識結(jié)構(gòu)及各知識點(diǎn)間的聯(lián)系。
依據(jù)學(xué)習(xí)者現(xiàn)階段知識掌握情況、學(xué)習(xí)習(xí)慣、特征,觀察學(xué)習(xí)者在線學(xué)習(xí)的學(xué)習(xí)現(xiàn)狀。結(jié)合學(xué)習(xí)者的學(xué)習(xí)現(xiàn)狀和知識掌握狀況,及時(shí)發(fā)現(xiàn)學(xué)習(xí)中存在的問題,有利于教師做好學(xué)情分析,調(diào)整在線學(xué)習(xí)教學(xué)方法,有利于學(xué)習(xí)者提升學(xué)習(xí)能力,收獲更好的學(xué)習(xí)成效。
有研究者利用隱藏的機(jī)器自我學(xué)習(xí)功能,及時(shí)發(fā)現(xiàn)學(xué)習(xí)者在學(xué)習(xí)中是否態(tài)度認(rèn)真。有研究者利用序列模型挖掘算法發(fā)現(xiàn)學(xué)習(xí)者的學(xué)習(xí)方式是否得當(dāng)、有效,能及時(shí)進(jìn)行干預(yù)。也有研究者利用網(wǎng)絡(luò)分析手段研究共同學(xué)習(xí)的內(nèi)聚性特征,能將孤立團(tuán)隊(duì)和活躍團(tuán)隊(duì)有效區(qū)分。也有基于教育學(xué)和心理學(xué)的專家[9]發(fā)現(xiàn),以對學(xué)習(xí)的干擾因素構(gòu)建的數(shù)學(xué)模型能預(yù)估出學(xué)生精神狀態(tài),有助于教師及時(shí)進(jìn)行心理輔導(dǎo),能緩解壓力,提高效率。
不少研究者利用大數(shù)據(jù)構(gòu)建計(jì)算模型,通過數(shù)據(jù)關(guān)系和教育理論進(jìn)行學(xué)習(xí)效果的預(yù)測。
有研究者利用線性回歸模型對學(xué)生的學(xué)習(xí)情況進(jìn)行預(yù)測。還有研究者[10]結(jié)合學(xué)習(xí)者的學(xué)習(xí)習(xí)慣再利用Logistics回歸模型建模,預(yù)測學(xué)生的學(xué)習(xí)成績,同時(shí),還能對后期行為進(jìn)行追蹤,發(fā)現(xiàn)利用Logistics回歸模型能預(yù)測學(xué)習(xí)者后期是否能考上大學(xué)。也有研究者能進(jìn)行學(xué)習(xí)動(dòng)力不足的預(yù)測,能及時(shí)補(bǔ)救減少輟學(xué)發(fā)生。
基于結(jié)構(gòu)分析最小原理和統(tǒng)計(jì)學(xué)原理的支持向量機(jī)SVM算法,是將測試數(shù)據(jù)在學(xué)習(xí)者的學(xué)習(xí)能力和模型復(fù)雜度之間權(quán)衡、比對選擇最優(yōu)方案。此支持向量機(jī)SVM算法能有效模仿真實(shí)模型,首先將原始特征利用核函數(shù)變換映射后,在高維空間分解特征矩陣,使得問題可以轉(zhuǎn)化成對凸二次規(guī)劃問題的求解。令樣本數(shù)據(jù)集是(xi,yi),xiRn,yi{-1, 1},i=1,…,n,超平面: ·x+b=0。最優(yōu)超平面能把兩種樣本到超平面的最短距離之和取到最大值,公式是:
上式(1)中松弛變量用 表示,懲罰參數(shù)用C表示,而上式(2)中b表示閾值。訓(xùn)練集利用非線性映射量 (xi)映射到高維空間,核函數(shù)是公式:K(xi,xj)= (xi)· (xj),用二次規(guī)劃問題求得最佳超平面:
利用Lagrange乘子ai求出決策函數(shù):
對上述核函數(shù)的優(yōu)化、決策函數(shù)的性能改善是后續(xù)重要內(nèi)容,可以使SVM算法獲得更優(yōu)性能。
因支持向量機(jī)算法對在線課程平臺的學(xué)習(xí)行為分析有誤差,而利用加權(quán)的支持向量機(jī)算法,是基于大數(shù)據(jù)技術(shù)Random Forest(隨機(jī)森林)模型的Gini(基尼)指標(biāo)計(jì)算特征加權(quán)值,再對隨機(jī)森林分類識別的影響力做計(jì)算,依據(jù)各屬性的重要性設(shè)置對應(yīng)權(quán)重,使得影響力大的特征屬性比影響力小的獲得的權(quán)重更大,再把此權(quán)重值利用支持向量機(jī)進(jìn)行計(jì)算,以得到SVM算法的在線課程學(xué)習(xí)平臺學(xué)習(xí)者的行為分析。本文亟待解決的問題是利用優(yōu)化的核函數(shù)選擇內(nèi)積參數(shù),有助于SVM算法進(jìn)行更優(yōu)分類識別。
利用核函數(shù)添加的特征加權(quán)值向量機(jī)叫作特征加權(quán)支持向量機(jī)。其概念為:核函數(shù)Kp是在X*X(XRn)區(qū)間里,p是輸入集的n階(維度)線性變換矩陣,核函數(shù)Kp計(jì)算公式:
算法步驟為:
步驟1:樣本集S的收集和取樣,S={x(i), x(j)}, (i=1,…,n),其中x(i)是特征變量,y(i)是類別量。
步驟2:Random Forest(隨機(jī)森林)模型的Gini(基尼)指標(biāo)的獲取、指標(biāo)參數(shù)的處理都是標(biāo)準(zhǔn)化操作。在建立加權(quán)特征量時(shí)應(yīng)當(dāng)根據(jù)標(biāo)準(zhǔn)化后的參數(shù)來加權(quán)。利用RFG值優(yōu)化原始特征內(nèi)積RFG(x(i))=(gx(1),…,gx(n)),(i=1,…,n)
步驟3:空間線性矩陣p=diag(RFG(x(i)))的建立,用p來構(gòu)造Kp核函數(shù)。
步驟4:有效性驗(yàn)證。對于Kp的校驗(yàn)采用SVM方法。若存在K和Rn×Rn→R的映射(R是實(shí)數(shù)域,Rn是n維向量),當(dāng)樣本集是{x(1), x(2),…,x(m)}時(shí),有效核函數(shù)K是對此半正定的,即所有非零實(shí)數(shù)向量zr都滿足zrKz>0。任意x(i),x(j)代入K中得到kij=k(x(i),x(j))(i,j1,…,m),最終得到m*n的矩陣:
因此核函數(shù)K在訓(xùn)練集{x(1), x(2),…,x(m)}中有效。
步驟5:把SVM的線性核函數(shù)替代掉,利用特征加權(quán)的Kp核函數(shù)輸出支持向量構(gòu)造分類器。
步驟6:設(shè)計(jì)特征加權(quán)向量機(jī)的RFG-SVM算法流程圖及性能檢測,如圖1所示。
圖1 特征加權(quán)值向量機(jī)RFG-SVM算法流程圖
針對獲得校內(nèi)微知庫平臺數(shù)據(jù)集的3869行數(shù)據(jù)及10項(xiàng)特征屬性進(jìn)行研究,先利用R-Studio對數(shù)據(jù)做預(yù)處理,舍掉錯(cuò)誤數(shù)據(jù)最終獲得3834條數(shù)據(jù)集。采用Random Forest隨機(jī)森林模型和varimpPlot函數(shù)得到最終數(shù)據(jù),得到的Gini指標(biāo)值如圖2所示。
圖2 Random Forest 的Gini指標(biāo)值
為驗(yàn)證Random Forest的Gini的穩(wěn)定性,將它與其他兩種支持向量機(jī)的算法進(jìn)行對比,結(jié)合微知庫線上平臺數(shù)據(jù)研究分析如下:
對比表1數(shù)據(jù),RFG-SVM算法的準(zhǔn)確率(Accuracy)最高,且根均方誤差最優(yōu),所以在識別分類和預(yù)測判斷上RFG-SVM性能較強(qiáng),對在線課程中學(xué)生的學(xué)習(xí)行為的分析、預(yù)測識別的準(zhǔn)確度有明顯提高。
表1 實(shí)驗(yàn)數(shù)據(jù)對比
接下來采用三種算法對學(xué)校微知庫平臺的在線課程學(xué)生學(xué)習(xí)行為的數(shù)據(jù)進(jìn)行分析,研究各類算法最優(yōu)應(yīng)用場景,實(shí)驗(yàn)數(shù)據(jù)如圖3所示。
圖3 在線課程對比試驗(yàn)數(shù)據(jù)分析
對比這三個(gè)算法對各種學(xué)習(xí)行為數(shù)據(jù)的分析,可以看出具有特征加權(quán)的支持向量機(jī)的RFGSVM算法在分類識別上較另外兩種算法準(zhǔn)確性更高,而常見的SVM算法的準(zhǔn)確率較低。因?yàn)镽FG-SVM算法數(shù)據(jù)采集樣本較低,使得“互動(dòng)次數(shù)”的數(shù)量較低,導(dǎo)致性能不佳。但綜合各項(xiàng)性能指標(biāo),RFG-SVM算法較另外兩種算法,在對在線課程的學(xué)習(xí)行為數(shù)據(jù)的分析、對比和預(yù)測上都有較高的準(zhǔn)確性,性能最優(yōu)。
對學(xué)校微知庫平臺的飛機(jī)電子設(shè)備維修專業(yè)群的五門課程的數(shù)據(jù)進(jìn)行分析,C語言程序設(shè)計(jì)(C)、電工技術(shù)(G)、單片機(jī)技術(shù)與應(yīng)用(D)、數(shù)字電子技術(shù)(S)、飛機(jī)儀表技術(shù)與應(yīng)用(F),每門課程基本要求不相同,學(xué)習(xí)規(guī)律各異,學(xué)生的學(xué)習(xí)方法也不同,最終五門課程的成績動(dòng)態(tài)分布圖如圖4。
圖4 在線課程成績動(dòng)態(tài)曲線圖
從表2看出,有良好學(xué)習(xí)習(xí)慣的學(xué)生成績較好,而僅完成基本學(xué)習(xí)內(nèi)容不參加互動(dòng)、討論的成績不理想,但也不是說參與的越多就一定有好的學(xué)習(xí)效果,不過能較好地評估學(xué)生的學(xué)習(xí)現(xiàn)狀并給出該課程的學(xué)習(xí)建議。
表2 不同學(xué)習(xí)活動(dòng)和成績對應(yīng)關(guān)系
在線課程的學(xué)習(xí)平臺要讓教師及時(shí)分析學(xué)生學(xué)習(xí)習(xí)慣和規(guī)律,了解學(xué)生的學(xué)習(xí)特征和學(xué)習(xí)狀態(tài),利用RFG-SVM方法對學(xué)生在線課程的學(xué)習(xí)效果進(jìn)行預(yù)測。下面利用RFG-SVM方法對學(xué)習(xí)者進(jìn)行實(shí)驗(yàn)性預(yù)測。
4.2.1 問題分析和數(shù)據(jù)集
教師需對有不同學(xué)習(xí)規(guī)律、學(xué)習(xí)特征和習(xí)慣的學(xué)生預(yù)測學(xué)習(xí)效果,五門課程學(xué)習(xí)時(shí)長、跨度都不一樣,選擇中間10周的學(xué)習(xí)狀況,表3對學(xué)習(xí)者的多個(gè)特征值進(jìn)行統(tǒng)計(jì),n表示學(xué)習(xí)者個(gè)數(shù),p表示特征值個(gè)數(shù)。
表3 不同學(xué)習(xí)活動(dòng)和成績對應(yīng)關(guān)系
預(yù)測值:
當(dāng)y=0時(shí)不及格,y=1時(shí)及格。
4.2.2 實(shí)驗(yàn)結(jié)果
利用完成作業(yè)次數(shù)、討論互動(dòng)次數(shù)、學(xué)習(xí)次數(shù)、實(shí)驗(yàn)次數(shù)、實(shí)踐活動(dòng)次數(shù)五個(gè)數(shù)據(jù)參數(shù),得到下表4的結(jié)果。
表4 實(shí)驗(yàn)數(shù)據(jù)樣本
上述五門課程利用隨機(jī)森林的支持向量機(jī)RFG-SVM算法進(jìn)行預(yù)測,學(xué)習(xí)效果的準(zhǔn)確率較高。當(dāng)參數(shù)為1時(shí),準(zhǔn)確率和召回的平均值較高,證明該方法有效。
在發(fā)現(xiàn)傳統(tǒng)支持向量機(jī)算法對在線課程平臺的學(xué)習(xí)行為分析有誤差時(shí),提出的基于大數(shù)據(jù)技術(shù)的RFG-SVM支持向量機(jī)算法,是在傳統(tǒng)支持向量機(jī)算法上做完善、修改,經(jīng)特征加權(quán)計(jì)算、數(shù)據(jù)挖掘后在分類、識別方面功能更完善,預(yù)測更精準(zhǔn)。通過對不同學(xué)習(xí)行為的學(xué)生的學(xué)習(xí)效果的預(yù)測,發(fā)現(xiàn)該方法能有效幫助教育者通過在線平臺分析學(xué)習(xí)者的學(xué)習(xí)行為,預(yù)測學(xué)習(xí)效果,具有更高的準(zhǔn)確率和穩(wěn)定性。