劉訓(xùn)星
?
基于K-means聚類算法的在線學(xué)習(xí)行為分析
劉訓(xùn)星
(宣城職業(yè)技術(shù)學(xué)院,安徽 宣城 242000)
K-means算法是基于距離作用相似性度量的聚類算法,論文介紹K-means聚類算法的3個(gè)基本參數(shù)。通過對(duì)學(xué)員學(xué)習(xí)行為記錄數(shù)據(jù),運(yùn)用K-means聚類分析算法,可以構(gòu)建出電大學(xué)員行為特征,有效的改善在線資源的配置。
用戶行為;K-means聚類算法;初始聚類中心選??;行為特征
在信息快速發(fā)展的今天,網(wǎng)絡(luò)技術(shù)快速發(fā)展和數(shù)字化學(xué)習(xí)資源建立,為我們學(xué)習(xí)方式帶來(lái)了新的機(jī)遇和挑戰(zhàn),如何使用網(wǎng)絡(luò)組織高效學(xué)習(xí),則成為我們關(guān)注焦點(diǎn)。電大學(xué)員的學(xué)習(xí)方式也悄然發(fā)生改變,在線學(xué)習(xí)方式在電大教育模式中,扮演者重要的角色。電大學(xué)員就能根據(jù)自己工作和家庭的情況合理安排學(xué)習(xí)時(shí)間(靈活多變學(xué)習(xí)方式)、選擇自己學(xué)習(xí)的內(nèi)容(個(gè)性化的學(xué)習(xí)資源),同時(shí)有助于教師建立個(gè)性化教學(xué)設(shè)計(jì)、科學(xué)的學(xué)習(xí)行為評(píng)價(jià)模式、高效服務(wù)體系。國(guó)外學(xué)者主要集中在行為的理論[1]發(fā)展研究,國(guó)內(nèi)學(xué)者不少在活動(dòng)評(píng)價(jià)[2]方面研究。
文中首先采集了電大宣城分校服務(wù)器對(duì)有學(xué)籍學(xué)員在線學(xué)習(xí)原始數(shù)據(jù),其次對(duì)獲取進(jìn)行預(yù)處理,選擇有效數(shù)據(jù),最后運(yùn)用k-means聚類算法進(jìn)行數(shù)據(jù)挖掘,獲取在線學(xué)習(xí)行為模式。本課題的最大亮點(diǎn)是k-means聚類算法首次在電大在線學(xué)習(xí)行為模型中使用,通過對(duì)在線學(xué)習(xí)行為模式的數(shù)據(jù)挖掘分析,有效的提高電大在線教育教學(xué)質(zhì)量。
1.1 學(xué)員在線學(xué)習(xí)行為探討
在線學(xué)習(xí)是課堂學(xué)習(xí)一種重要補(bǔ)充,學(xué)員利用在線學(xué)習(xí)平臺(tái),可以學(xué)習(xí)平臺(tái)上豐富學(xué)習(xí)資源。在線學(xué)習(xí)注重媒體教學(xué)[3]和時(shí)空分離。在線學(xué)習(xí)行為主要有課件閱讀、課程視頻點(diǎn)播、論壇發(fā)帖討論、教學(xué)在線直播、論壇答疑解惑、學(xué)習(xí)資料下載、在線完成作業(yè)、在線自我測(cè)試等。
1.2 學(xué)員在線學(xué)習(xí)行為分析
1.2.1.學(xué)員特征分析。學(xué)員在線學(xué)習(xí)受到很多方面影響,最主要的是心理因素和環(huán)境因素兩個(gè)方面。心理因素:學(xué)習(xí)目的、掌握的學(xué)習(xí)方法、學(xué)員意志品質(zhì)。環(huán)境因素:學(xué)習(xí)內(nèi)容展現(xiàn)形式、學(xué)習(xí)輔助工具、學(xué)習(xí)平臺(tái)更新和服務(wù)。
1.2.2.學(xué)習(xí)過程分析。學(xué)員根據(jù)在線學(xué)習(xí)平臺(tái)的學(xué)習(xí)任務(wù),制定各自在線學(xué)習(xí)目標(biāo)(學(xué)習(xí)目標(biāo)),在學(xué)習(xí)目標(biāo)的指引下主動(dòng)的進(jìn)行學(xué)習(xí)(自主學(xué)習(xí)),為了解決在線學(xué)習(xí)過程問題,學(xué)員之間或?qū)W員與老師之間通過平臺(tái)中論壇進(jìn)行交流溝通(交流研討),在學(xué)員進(jìn)行學(xué)習(xí)過程中平臺(tái)會(huì)及時(shí)將進(jìn)度和評(píng)價(jià)并反饋給學(xué)員,學(xué)員依據(jù)平臺(tái)評(píng)價(jià)認(rèn)真反思及時(shí)調(diào)整學(xué)習(xí)方式方法(反思性學(xué)習(xí)),最后在線平臺(tái)依據(jù)學(xué)員狀況給出每個(gè)學(xué)員學(xué)習(xí)結(jié)果(學(xué)習(xí)結(jié)果)。在整個(gè)學(xué)習(xí)過程學(xué)員之間進(jìn)行學(xué)習(xí)經(jīng)驗(yàn)交流溝通和學(xué)習(xí)資源共享相互協(xié)作(團(tuán)隊(duì)協(xié)作)。
學(xué)員在線學(xué)習(xí)以自主學(xué)習(xí)、協(xié)同學(xué)習(xí)為主,還包括情景學(xué)習(xí)[4]。自主學(xué)習(xí)是以學(xué)員自己為主體,使用網(wǎng)絡(luò)資源,進(jìn)行探索、創(chuàng)造、實(shí)踐來(lái)達(dá)到學(xué)習(xí)目標(biāo)方式。協(xié)同學(xué)習(xí)是網(wǎng)絡(luò)發(fā)展以中新趨勢(shì),學(xué)員們可以使用網(wǎng)絡(luò)平臺(tái)就學(xué)習(xí)內(nèi)容進(jìn)行交流溝通、分享學(xué)習(xí)資源,從而達(dá)到共同進(jìn)步。情景學(xué)習(xí)內(nèi)容豐富內(nèi)涵深刻,是一種嶄新的學(xué)習(xí)視角,是一種將從孤立學(xué)習(xí)到維系在具體情景中的過程、是一種學(xué)習(xí)個(gè)體走向?qū)W習(xí)共同體的過程、是一種從共同體邊緣走向中心的過程。
2.1 算法
K-means算法[5]屬于聚類方法中的一種劃分方法,具有好伸縮性和很高的效率,比較適合大量數(shù)據(jù)處理。將對(duì)象分成若干組,以對(duì)象的相似度分組,結(jié)果得到多個(gè)不同聚類,相似度高對(duì)象就劃分在同一聚類中。
(1)隨機(jī)性地從n個(gè)模式{i1,i2,…ik}中選參數(shù)k。
(2)k個(gè)原型{W1,W1,…Wk}
(3)j∈{l,2,…,k},l∈{l,2,…,n}。
K-means算法流程
圖1.K-means算法流程圖
2.2 類別個(gè)數(shù)K
K-means算法中由于缺乏嚴(yán)格數(shù)學(xué)準(zhǔn)則,類別個(gè)數(shù)K的選擇飽受爭(zhēng)議,學(xué)者們提出了許多啟發(fā)式和貪婪準(zhǔn)則。這其中最具有代表性的是,如圖1所示,令K不停增加,J隨著K的增加而減少,隨著K值小到一定程度J增量為0,這時(shí)每個(gè)類數(shù)據(jù)自成一類。拐點(diǎn)A最靠近最優(yōu)值。
然而不是所有情況下都能找到J-K關(guān)系曲線的拐點(diǎn)。對(duì)這些個(gè)別K的選擇改進(jìn)的算法是數(shù)據(jù)分析算法[6],該算法根據(jù)通過模式類分類和合并來(lái)反復(fù)修改改變聚類中心數(shù)量,從而得到理想合理類別數(shù)K。
圖2.J-K關(guān)系曲線
2.3 初始聚類中心的選取
由于K-means聚類算法是貪心算法,往往僅能獲得局部的最佳。所以就有了初始聚類中心方案。經(jīng)典方案是隨機(jī)選取的,王成等人提出使用最大最小原則來(lái)選取初始聚類中心[7]。該方法最大的不同點(diǎn)在于是個(gè)確定性過程。模擬退火、生物遺傳等優(yōu)化也被用于聚類中心選擇。
圖3.多次重新啟動(dòng)K-means聚類算法圖
2.4 相似性度量和距離矩陣
聚類分析就是針對(duì)對(duì)象兩兩之間的差異程度來(lái)劃分的,然而相似度往往使用距離來(lái)衡量的。目前使用較廣泛得是歐氏距離。
聚類結(jié)果的好壞通??梢允褂镁垲悳?zhǔn)則函數(shù)來(lái)判斷,倘若選擇的聚類準(zhǔn)則函數(shù)選得好,聚類結(jié)果的質(zhì)量自然就高,反之亦然。常用的聚類準(zhǔn)則函數(shù)有下面三種:(1)加權(quán)平均距離和準(zhǔn)則。(2)加權(quán)類距離和準(zhǔn)則。(3)誤差平方和準(zhǔn)則。
3.1 實(shí)驗(yàn)數(shù)據(jù)選取
3.1.1數(shù)據(jù)采集。采集電大宣城分校在線學(xué)習(xí)的數(shù)據(jù),存放到excel表格中,為下一步數(shù)據(jù)預(yù)處理做好充分準(zhǔn)備。
3.1.2數(shù)據(jù)預(yù)處理。首先對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,從而得到目標(biāo)數(shù)據(jù)集。通過進(jìn)一步分析找到關(guān)注的閱讀、視頻、論壇,資料,作業(yè),在線測(cè)試等屬性,得到電大學(xué)員網(wǎng)絡(luò)學(xué)習(xí)行為描述相關(guān)性最大的集合。
數(shù)據(jù)重復(fù)記錄[9]合并:在分析宣城電大在線學(xué)員上網(wǎng)行為的原始數(shù)據(jù)時(shí)。會(huì)存在某一用戶大量充分的上網(wǎng)學(xué)習(xí)數(shù)據(jù),為了能夠統(tǒng)計(jì)出更準(zhǔn)確的結(jié)果,我們將合并重復(fù)記錄。將在某一段時(shí)間內(nèi),同一個(gè)IP地址產(chǎn)生的多條數(shù)據(jù)流記錄,將該多條記錄合并,然后對(duì)用戶網(wǎng)絡(luò)行為分析記錄。
3.1.3數(shù)據(jù)選取。為了能夠最佳分析結(jié)果,所以我們從中除掉那些不相干的多余屬性,最終選擇最能表現(xiàn)學(xué)習(xí)行為的數(shù)據(jù)屬性。
3.2 K-means在線學(xué)習(xí)行為聚類分析結(jié)果
采集宣城電大在線學(xué)習(xí)系統(tǒng)中2015年8月1日,至2016年7月31日用戶上網(wǎng)學(xué)習(xí)存在宣城電大在線存放sql server2005數(shù)據(jù)庫(kù)中流量數(shù)據(jù)進(jìn)行預(yù)處理的54729條記錄。用戶網(wǎng)上學(xué)習(xí)資源很多,我們只選擇使用最多前6種。設(shè)置k值為6,設(shè)置3個(gè)數(shù)據(jù)字段,分別是學(xué)習(xí)時(shí)間、學(xué)習(xí)方式和ip地址。挖掘結(jié)果如圖3、4、5所示。
圖3.在線學(xué)習(xí)資源分布餅圖
從圖3看出電大宣城分校學(xué)員在線學(xué)習(xí)最主要的視頻課程學(xué)習(xí),其次完成作業(yè)。所在在教學(xué)資源設(shè)置過程中。(1)增加視頻課程所占比例。(2)學(xué)員把22%時(shí)間用于完成作業(yè),授課教師和班主任要及時(shí)批閱并及時(shí)反饋學(xué)員完成數(shù)量和質(zhì)量。(3)學(xué)員只把9%的時(shí)間用在論壇上,要充分發(fā)揮論壇交流溝通作用,主要是兩個(gè)方面。一方面學(xué)員之間交流學(xué)習(xí)經(jīng)驗(yàn)。另一方面通過論壇答疑版塊解決學(xué)習(xí)過程中疑難問題。
圖4.各時(shí)間使用人數(shù)折線圖
通過對(duì)圖4分析11點(diǎn)至22點(diǎn),最高峰出現(xiàn)在晚上8點(diǎn)到10點(diǎn),低谷在早晨4點(diǎn)到6點(diǎn)。為了提高在線學(xué)習(xí)效果,首先保證晚上8點(diǎn)到10點(diǎn)服務(wù)器能夠正常運(yùn)行,服務(wù)器若要維護(hù)應(yīng)當(dāng)安排在清晨進(jìn)行。同時(shí)晚上7點(diǎn)到9點(diǎn)要安排老師進(jìn)行在線學(xué)習(xí)指導(dǎo)、答疑。
圖5.工作日—雙休日人數(shù)對(duì)比
通過對(duì)圖5分析,(1)在9點(diǎn)-11點(diǎn)和14點(diǎn)-17點(diǎn)這兩個(gè)時(shí)間段,在線學(xué)習(xí)人數(shù)顯著下降,主要原因是在雙休日這兩個(gè)時(shí)間段電大宣城分校在開展面授課程。(2)在18點(diǎn)-20點(diǎn)人數(shù)顯著增加,主要原因是在雙休日這兩個(gè)時(shí)間段安徽電大和電大宣城分校經(jīng)常性安排網(wǎng)絡(luò)直播課和在線答疑。(3)從整體來(lái)看,雙休日與工作日在線人數(shù)有所下降,可能原因是雙休日家庭生活任務(wù)需要處理。
通過使用K-means聚類算法分析出電大學(xué)員在線學(xué)習(xí)行為模式,就能夠有助從宏觀角度掌握電大在線學(xué)習(xí)平臺(tái)使用狀況、有助于微觀了解具體每個(gè)學(xué)員學(xué)習(xí)行為,對(duì)電大在線學(xué)習(xí)平臺(tái)的資源庫(kù)建設(shè)和建立高效學(xué)習(xí)行為評(píng)價(jià)體系具有重要的意義。
隨著數(shù)字化資源不斷豐富、網(wǎng)絡(luò)技術(shù)不斷提高和智能化移動(dòng)終端普及,在線學(xué)習(xí)將來(lái)成為電大教學(xué)中非常重要學(xué)習(xí)模式。將K-means聚類算法用到電大學(xué)員在線學(xué)習(xí)行為分析中是一種有意義的嘗試,K-means聚類算法的聚類結(jié)果有助于電大師生提高在線學(xué)習(xí)效。
K-means聚類算法必須事先指定合理聚類的個(gè)數(shù),否則就會(huì)出現(xiàn)聚類結(jié)果不合理?,F(xiàn)在已有研究人員嘗試?yán)妙愰g和類內(nèi)相異度改進(jìn)K的值[10],從而減少孤立點(diǎn)和噪聲點(diǎn)。
[1]Julia Y.K.Chan,Christopher F.Bauer.Identifying At-Risk Students in General Chemistry via Cluster Analysis of Affective Characteristics[J].Chemical Education Research,2014,(9):1417-1425.
[2]張杰,卓靈,朱韻攸.一種K-means聚類算法的改進(jìn)與應(yīng)用[J].網(wǎng)絡(luò)與信息安全,2015,(1):125-127.
[3]高紅艷,劉飛.基于局部相似性的K-means譜聚類算法[J].小型微型計(jì)算機(jī)系統(tǒng),2014,(5):1133-1134.
[4]王勇,唐靖,饒勤菲,等.高效率的K-means最佳聚類數(shù)確定算法[J].計(jì)算機(jī)應(yīng)用,2014,(5):1331-1335.
[5]王金亮,張?jiān)路?系統(tǒng)聚類法在網(wǎng)絡(luò)學(xué)習(xí)行為中的應(yīng)用研究[J].中國(guó)教育信息化,2016,(8):90-93.
[6]王千,王成,馮振元,葉金鳳.K-means聚類算法研究綜述[J].電子設(shè)計(jì)工程,2012,(7):21-23.
[7]WANG Cheng,LI Jiao-jiao,BAI Jun-qing,et al.Max-Min K-means Clustering Algorithm and Application in Post-processing of Scientific Computing[C].//Napoli:ISEM,2011:7-9.
[8]曹永春,蔡正琦,邵亞斌.基于K-means的改進(jìn)人工蜂群聚類算法[J].計(jì)算機(jī)應(yīng)用,2014,(1):204-207.
[9]薛黎明,欒維新.聚類算法在高校網(wǎng)絡(luò)用戶行為分析中的應(yīng)用[J].現(xiàn)代電子技術(shù),2016,(7):30-32.
[10]吳淑蘋.基于數(shù)據(jù)挖掘的教師網(wǎng)絡(luò)學(xué)習(xí)行為分析與研究[J].教師教育研究,2013,(3):47-55.
(責(zé)任編校:京華,俊華)
2017-03-08
安徽廣播電視大學(xué)青年教師科研基金項(xiàng)目“網(wǎng)絡(luò)遠(yuǎn)程教育學(xué)習(xí)行為及效果的分析研究”(項(xiàng)目編號(hào)qn15-17)。
劉訓(xùn)星(1981-),男,安徽宣城人,碩士,宣城職業(yè)技術(shù)學(xué)院講師,研究方向?yàn)閿?shù)據(jù)挖掘、教育信息化。
G442
A
1673-2219(2017)06-0007-03