金彩 孫新杰 余順家 莫悠
摘 要:網(wǎng)絡(luò)是把雙刃劍,對(duì)學(xué)生來說有利也有弊。為了制定合理的管理措施,督促大學(xué)生及時(shí)規(guī)范自己的網(wǎng)絡(luò)行為。該研究重點(diǎn)研究了數(shù)據(jù)挖掘算法的選擇,最后選擇決策樹、關(guān)聯(lián)規(guī)則、預(yù)測(cè)分析對(duì)學(xué)生上網(wǎng)行為中的重要數(shù)據(jù)進(jìn)行挖掘,實(shí)現(xiàn)大數(shù)據(jù)網(wǎng)絡(luò)行為屬性與學(xué)生學(xué)習(xí)成績(jī)之間相關(guān)屬性分析。結(jié)果顯示,在“流量數(shù)據(jù)”中,“上網(wǎng)時(shí)間長(zhǎng)度長(zhǎng)”無疑是導(dǎo)致在校學(xué)生正常學(xué)習(xí)水平差的罪魁禍?zhǔn)?。研究結(jié)果:相當(dāng)差的算法是邏輯關(guān)聯(lián)回歸,相對(duì)比邏輯回歸好一點(diǎn)的是決策樹挖掘算法,最優(yōu)秀的數(shù)邏輯關(guān)聯(lián)性和規(guī)則數(shù)據(jù)挖掘算法。
關(guān)鍵詞:大數(shù)據(jù);上網(wǎng)行為分析與決策;決策樹;關(guān)聯(lián)規(guī)則;預(yù)測(cè)分析
1 概述
大數(shù)據(jù)時(shí)代的到來,導(dǎo)致了大學(xué)生的網(wǎng)絡(luò)行為分析數(shù)據(jù)中的比重也越來越大現(xiàn)。網(wǎng)絡(luò)管理系統(tǒng)多年運(yùn)行,積累了大量的運(yùn)行數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)和日志數(shù)據(jù)。對(duì)這些網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行采集,利用這些大數(shù)據(jù),研究其規(guī)律。首先,問題是“學(xué)生長(zhǎng)時(shí)間上網(wǎng)會(huì)影響學(xué)習(xí)質(zhì)量”這個(gè)結(jié)論正確嗎??jī)烧咧g是否存在其他的關(guān)聯(lián)?所以我們最主要的是要在這些大數(shù)據(jù)中提取我們需要的利于我們研究的數(shù)據(jù),我們來對(duì)數(shù)據(jù)進(jìn)行挖掘。數(shù)據(jù)挖掘中所包含的數(shù)據(jù)內(nèi)容、算法等都是由多種不同學(xué)科交叉應(yīng)用構(gòu)成的。大數(shù)據(jù)分析與信息挖掘技術(shù)是近年來的技術(shù)發(fā)展研究熱點(diǎn),大數(shù)據(jù)挖掘技術(shù)應(yīng)用涉及到在校大學(xué)生日常上網(wǎng)時(shí)的行為數(shù)據(jù)分析,能夠快速并準(zhǔn)確的發(fā)掘出各種潛藏在學(xué)校數(shù)據(jù)集中的網(wǎng)絡(luò)規(guī)律和異常,并以此為基礎(chǔ)不斷完善學(xué)校網(wǎng)絡(luò)管理環(huán)境。能夠真正做到讓學(xué)校網(wǎng)絡(luò)上的學(xué)習(xí)信息資源為廣大學(xué)生所用。這正是本研究的意義所在。
2 數(shù)據(jù)挖掘的研究流程
流量數(shù)據(jù)是較為常見的數(shù)據(jù)元素,每一個(gè)網(wǎng)站都在關(guān)注它。我們收集到的學(xué)生上網(wǎng)數(shù)據(jù)存在有缺失值、重復(fù)值等,所以要進(jìn)行數(shù)據(jù)預(yù)處理,數(shù)據(jù)預(yù)處理沒有標(biāo)準(zhǔn)的流程,通常針對(duì)不同的任務(wù)和事件。還要對(duì)數(shù)據(jù)挖掘進(jìn)行歸類,才能選擇到合適的方法對(duì)數(shù)據(jù)進(jìn)行建模。在目標(biāo)進(jìn)一步明確的基礎(chǔ)上,我們就可以按照問題的具體要求來重新審視已經(jīng)采集的數(shù)據(jù),所以要求有針對(duì)性,要組合或者新生成一些新的變量,以體現(xiàn)對(duì)狀態(tài)的有效的描述。
3 構(gòu)建數(shù)據(jù)模型
3.1 數(shù)據(jù)采集
本研究以六盤水師范學(xué)院的高校學(xué)生網(wǎng)上行為數(shù)據(jù)與其課程的期末考試成績(jī)作為研究的數(shù)據(jù)對(duì)象。采集學(xué)院在籍學(xué)生數(shù)據(jù)人數(shù)9,025條記錄,從教務(wù)管理系統(tǒng)中在抽取學(xué)生的期末考試成績(jī)數(shù)據(jù)記錄519,898條,從教務(wù)管理系統(tǒng)中提取學(xué)生2,402,311條上網(wǎng)數(shù)據(jù)記錄。
3.2 教育數(shù)據(jù)的預(yù)處理
(1)采集的數(shù)據(jù)范圍較廣,數(shù)據(jù)預(yù)測(cè)的處理主要目的是為了去掉臟的,亂的,多余的,重復(fù)的這些數(shù)據(jù),降低這些樣本數(shù)據(jù)的冗余度?;A(chǔ)數(shù)據(jù)是學(xué)生的上網(wǎng)數(shù)據(jù),需要對(duì)其除臟數(shù)據(jù),將經(jīng)過預(yù)處理后的每個(gè)學(xué)生當(dāng)時(shí)上網(wǎng)行為關(guān)聯(lián)數(shù)據(jù)和每個(gè)學(xué)生的平均績(jī)點(diǎn)行為數(shù)據(jù)一并通過“學(xué)生id”字段進(jìn)行數(shù)據(jù)樣本關(guān)聯(lián),得到當(dāng)時(shí)學(xué)生學(xué)習(xí)信息、上網(wǎng)及學(xué)習(xí)課程平均每個(gè)學(xué)分學(xué)生績(jī)點(diǎn)行為數(shù)據(jù)三種關(guān)聯(lián)數(shù)據(jù)的并集,也可以說是一個(gè)樣本關(guān)聯(lián)數(shù)據(jù)集,以“學(xué)生id號(hào)”作為主鍵,唯一標(biāo)識(shí)每條數(shù)據(jù)元組(此時(shí)學(xué)生上網(wǎng)信息數(shù)據(jù)表的一行記錄)。
(2)我校學(xué)生日常上網(wǎng)互動(dòng)行為數(shù)據(jù)收集。可以利用基礎(chǔ)的SQL語句,應(yīng)用數(shù)據(jù)庫里的數(shù)據(jù)進(jìn)行分組查詢,按年級(jí)話分,以學(xué)號(hào)為主鍵,進(jìn)行匯總即可得到需要用來進(jìn)行數(shù)據(jù)挖掘的學(xué)生學(xué)習(xí)信息數(shù)據(jù)的主要字段,有a、出入流量b、瀏覽時(shí)長(zhǎng)c、總流量d、上網(wǎng)內(nèi)容四個(gè)指標(biāo)字段。這樣的目的是為了得到冗余較小的學(xué)生上網(wǎng)數(shù)據(jù)。
(3)高校都有自己的一套評(píng)定學(xué)生的學(xué)習(xí)質(zhì)量的考察指標(biāo),為了我校能夠準(zhǔn)確衡量學(xué)生的綜合學(xué)習(xí)質(zhì)量,我校學(xué)生的采用的評(píng)判標(biāo)準(zhǔn)是“學(xué)分績(jī)點(diǎn)”,折算成績(jī)點(diǎn)有兩個(gè)重點(diǎn):百分制和等級(jí)成績(jī),績(jī)點(diǎn)是與期末考試成績(jī)掛鉤的,它們之間呈現(xiàn)的關(guān)系。如表1所示。
使用決策樹分析完成平均績(jī)點(diǎn)計(jì)算以后能夠大大減少學(xué)生成績(jī)記錄,每個(gè)年級(jí)學(xué)生的平均成績(jī)績(jī)點(diǎn)數(shù)據(jù)記錄至多1條。成績(jī)點(diǎn)條數(shù)在采樣數(shù)據(jù)之時(shí)是2140,228,經(jīng)過多次計(jì)算平均的成績(jī)點(diǎn)之后數(shù)據(jù)記錄減少為8,025條,和學(xué)生之前采集的數(shù)據(jù)記錄總數(shù)一樣,這樣就大大的縮減了成績(jī)數(shù)據(jù)最大容量。
(4)等級(jí)歸類。從采集的成績(jī)數(shù)據(jù)出發(fā),100分為起點(diǎn),劃分分值的區(qū)域:分?jǐn)?shù)每下降10分就降低一個(gè)等級(jí),最后將其歸類為優(yōu)、良、中和差四個(gè)級(jí)別。
3.3 數(shù)據(jù)轉(zhuǎn)換
對(duì)預(yù)讀處理后的海量數(shù)據(jù),需要根據(jù)要求對(duì)其進(jìn)行各種組合式的變換,這里的要求是挖掘數(shù)據(jù)的變量。對(duì)預(yù)測(cè)分析數(shù)據(jù)來說,轉(zhuǎn)化結(jié)果是一個(gè)數(shù)值變量,進(jìn)而直接參與預(yù)測(cè)數(shù)據(jù)挖掘以及預(yù)測(cè)分析具體的模型建立。
3.4 數(shù)據(jù)挖掘
依據(jù)SQL數(shù)據(jù)庫的預(yù)處理分析結(jié)果,樣本訓(xùn)練數(shù)據(jù)被歸類為“優(yōu)秀”和“普通”兩個(gè)基礎(chǔ)類型。采取合理有效的實(shí)例字段,比如“上網(wǎng)時(shí)長(zhǎng)”等。通過對(duì)六盤水師范學(xué)院教務(wù)管理系統(tǒng)中采集數(shù)據(jù)挖掘分析,研究各個(gè)指標(biāo)實(shí)例字段以及對(duì)用戶樣本上網(wǎng)成績(jī)進(jìn)行分為幾類不同程度的影響。
使用決策樹模型分析如上圖所示,最佳收支曲線分割的上網(wǎng)節(jié)點(diǎn)有:432.765、332.325、291.215。我們這里采取的是兩個(gè)大等級(jí),主要分為“普通”和“優(yōu)秀”兩類評(píng)分類別。我們用“白”及“黑”兩種顏色來分別代替。從以上圖中所有節(jié)點(diǎn)的圖形比例分析可以明顯看出,上網(wǎng)時(shí)長(zhǎng)與學(xué)習(xí)成績(jī)是一種相關(guān)關(guān)系。上網(wǎng)學(xué)習(xí)時(shí)長(zhǎng)比例越短,優(yōu)秀成績(jī)部分學(xué)生的整體比例越長(zhǎng),成績(jī)普通部分學(xué)生的整體比例越小,反之亦然。在這里我們的推斷是①“上網(wǎng)時(shí)間長(zhǎng)度”是直接影響學(xué)生的學(xué)習(xí)生活質(zhì)量的最罪魁禍?zhǔn)?。②限制上網(wǎng)期間時(shí)長(zhǎng)與學(xué)生的學(xué)習(xí)生活質(zhì)量之間呈現(xiàn)負(fù)相關(guān)性的關(guān)系,如果加強(qiáng)限制上網(wǎng)長(zhǎng)的時(shí)長(zhǎng),對(duì)提高學(xué)生的學(xué)習(xí)成績(jī)的非常有效的。③限制上網(wǎng)長(zhǎng)有三個(gè)關(guān)鍵節(jié)點(diǎn),分別是432.765、332.325、291.215,采取的措施就比較多了,建議是:給校園網(wǎng)設(shè)置時(shí)間限制,只要一到時(shí)間點(diǎn),就限制網(wǎng)速,還有根據(jù)上網(wǎng)時(shí)間收取費(fèi)用等等。
3.5 關(guān)聯(lián)規(guī)則
通過對(duì)學(xué)校教育管理數(shù)據(jù)集資源進(jìn)行互相關(guān)聯(lián),然后再綜合分析就可以初步發(fā)現(xiàn)班級(jí)教師的采用哪種課堂授課互動(dòng)方式及哪種課堂上的互動(dòng)教育形式對(duì)班級(jí)學(xué)生的綜合學(xué)習(xí)能力具有良好的互動(dòng)促進(jìn)教育效果,淘汰不好的課堂授課互動(dòng)方式,進(jìn)而使班級(jí)學(xué)生在利用課堂學(xué)習(xí)時(shí)間就能夠快速掌握基礎(chǔ)知識(shí),最終可以實(shí)現(xiàn)整個(gè)學(xué)校管理層次和班級(jí)學(xué)生學(xué)習(xí)能力的不斷提高。
分析上面表2,影響大生學(xué)習(xí)質(zhì)量的影響因素主要有“上網(wǎng)時(shí)間長(zhǎng)度”“出流量”“總流量”“入流量”。學(xué)生的“網(wǎng)上瀏覽內(nèi)容”也是一大影響因素,所以要對(duì)網(wǎng)絡(luò)信息進(jìn)行規(guī)范。如果是規(guī)則1中學(xué)生連續(xù)上網(wǎng)時(shí)間不低于255.84小時(shí),該學(xué)生有84.1%的概率被歸為“普通成績(jī)”類別,但在規(guī)則5中學(xué)生總流量時(shí)長(zhǎng)不高于1.01gb,“優(yōu)秀成績(jī)”的占比為63.21%。規(guī)則6,六盤水高校學(xué)生持續(xù)上網(wǎng)網(wǎng)絡(luò)總流量時(shí)長(zhǎng)不低于66.11gb,在“普通成績(jī)”堆里也要占領(lǐng)了53.1%。再看第7條,這里的總流量就會(huì)大于48.34gb,其學(xué)習(xí)成績(jī)最終在“普通成績(jī)”類別里就到了61.9%的概率。所以“上網(wǎng)時(shí)間長(zhǎng)度”也是高校學(xué)生的一大殺手。所以要特別注意的四個(gè)關(guān)鍵點(diǎn)和分割線節(jié)點(diǎn)是455.84、390.25、250.04、89.95。關(guān)聯(lián)樹乃至關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘的分析結(jié)果與決策樹進(jìn)行分析后的結(jié)果有細(xì)小差別。
3.6 預(yù)測(cè)分析邏輯回歸
利用該方法,可得到學(xué)生綜合成績(jī)的對(duì)應(yīng)關(guān)系。具體做法:首先結(jié)合目標(biāo)數(shù)據(jù)的分析結(jié)果,其次再加上模型的對(duì)應(yīng)等級(jí),最后利用數(shù)據(jù)模型圖作最終的分析比較,得出結(jié)論。
從表3當(dāng)中的數(shù)據(jù)結(jié)構(gòu)出發(fā),結(jié)論是:“學(xué)生上網(wǎng)時(shí)間會(huì)影響學(xué)習(xí)”,該分析結(jié)果還提供了389.132、240.240、110.106數(shù)據(jù)分割判斷點(diǎn),這里的對(duì)比分析結(jié)果表明與前兩者方法的研究結(jié)果差別比較小。此外,值得注意的是與前者不一致的地方就是“出流量”,它就不能作為該研究的一個(gè)側(cè)重點(diǎn)。
4 結(jié)果分析與決策
結(jié)合數(shù)據(jù)挖掘中應(yīng)用到的,選擇圍繞三大算法通過挖掘結(jié)果及其相關(guān)分析,得到了預(yù)期的相一致研究目標(biāo)。綜合三大不同算法的數(shù)據(jù)挖掘分析結(jié)果,六盤水高等師范學(xué)院為大學(xué)生統(tǒng)計(jì)上網(wǎng)使用時(shí)長(zhǎng)的五個(gè)關(guān)鍵數(shù)據(jù)分割線節(jié)點(diǎn)分別為455.84、390.25、250.04、89.95。其中“上網(wǎng)時(shí)間長(zhǎng)度”顯示,學(xué)生的學(xué)習(xí)成績(jī)是和其息息相關(guān)的,我們要側(cè)重兩個(gè)時(shí)間點(diǎn),上網(wǎng)時(shí)長(zhǎng)250.04小時(shí)與390.25小時(shí),應(yīng)據(jù)此研究的時(shí)間斷點(diǎn),制定合理的校園網(wǎng)絡(luò)管理控制措施,還可以在六盤水高校學(xué)生學(xué)習(xí)方面,利用我們的研究結(jié)果決策分析,制定更加完美的教學(xué)方法。當(dāng)然,我們還希望進(jìn)一步深入研究我們的數(shù)據(jù)挖掘方法,這樣就可以針對(duì)高校學(xué)生上網(wǎng)制定富有操作性和生命力的網(wǎng)絡(luò)道德行為規(guī)范,筑堅(jiān)強(qiáng)的護(hù)盾與心靈。
參考文獻(xiàn):
[1]胡祖輝,施佺.高校學(xué)生上網(wǎng)行為分析與數(shù)據(jù)挖掘研究.中國(guó)遠(yuǎn)程教育,2017-02-28.
[2]鄧運(yùn),陳曉軍.基于大數(shù)據(jù)分析高校學(xué)生行為季刊.福建電腦,2018-09-25.
[3]龍虎,李娜大數(shù)據(jù)技術(shù)下的機(jī)器學(xué)習(xí)平臺(tái)構(gòu)建研究.電腦知識(shí)與技術(shù),2019-04-05.