方芳
摘要:隨著信息化技術(shù)的不斷推廣,各大學(xué)校紛紛依托在線平臺開展線上教學(xué)活動(dòng),如何有效利用平臺上的學(xué)習(xí)數(shù)據(jù)更好地精準(zhǔn)教學(xué)成為目前重要的研究領(lǐng)域之一。文章提出了構(gòu)建學(xué)生畫像的流程,包括采集“雙平臺”——超星學(xué)習(xí)通平臺和頭歌教學(xué)實(shí)踐平臺上的學(xué)生學(xué)習(xí)數(shù)據(jù),對數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)建學(xué)生個(gè)體畫像以及基于K-means聚類算法將學(xué)習(xí)數(shù)據(jù)進(jìn)行聚類生成學(xué)生群體畫像。最終,將學(xué)生分為三類不同特征的群體,教師針對不同學(xué)生群體畫像進(jìn)行分析,制定更科學(xué)的分類教學(xué)策略,實(shí)現(xiàn)個(gè)性化教學(xué)。
關(guān)鍵詞:用戶畫像;聚類算法;雙平臺
中圖分類號:TP391文獻(xiàn)標(biāo)志碼:A0引言教育部發(fā)布《教育信息化2.0行動(dòng)計(jì)劃》,正式提出了教育信息化2.0,標(biāo)志著我國教育信息化建設(shè)進(jìn)入新的發(fā)展時(shí)期,開啟智能時(shí)代教育新征程。
在此背景下,各個(gè)高校都積極推進(jìn)利用在線學(xué)習(xí)平臺進(jìn)行線上線下混合式教學(xué),常用的平臺有超星學(xué)習(xí)通平臺、智慧職教平臺等。如何有效利用平臺上積累的學(xué)生學(xué)習(xí)過程數(shù)據(jù),通過數(shù)據(jù)挖掘?yàn)榻處熖峁┚珳?zhǔn)的學(xué)情分析和教學(xué)診斷信息已成為新的研究熱點(diǎn)。本文通過挖掘分析教學(xué)過程中學(xué)生使用“雙平臺”時(shí)產(chǎn)生的學(xué)習(xí)數(shù)據(jù),有效構(gòu)建學(xué)生用戶畫像,為個(gè)性化教育研究提供新的思路。
1用戶畫像研究現(xiàn)狀用戶畫像是給用戶標(biāo)上特征標(biāo)簽,是一種基于用戶真實(shí)數(shù)據(jù)的形式化表示。通過對知網(wǎng)的中國學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)總庫進(jìn)行文獻(xiàn)統(tǒng)計(jì)分析發(fā)現(xiàn),2010—2015年研究用戶畫像的文獻(xiàn)并不多,但2016年至今,研究文獻(xiàn)逐步遞增,已成為研究的熱點(diǎn)之一。用戶畫像技術(shù)目前已被廣泛運(yùn)用到社交媒體、電子商務(wù)、圖書館學(xué)等領(lǐng)域。例如,萬家山等[1]基于智慧學(xué)習(xí)平臺上用戶的偏好和行為動(dòng)態(tài)特征實(shí)現(xiàn)KD樹聚類算法,提出一種社交用戶畫像模型;王曉霞等[2]考慮了用戶基本維度畫像、行為畫像、產(chǎn)品畫像和觸點(diǎn)畫像四級架構(gòu),運(yùn)用大數(shù)據(jù)技術(shù)精準(zhǔn)構(gòu)建運(yùn)營商大數(shù)據(jù)用戶畫像模型;過仕明[3]對圖書館用戶群體進(jìn)行細(xì)分,在基于不同群體行為數(shù)據(jù)的基礎(chǔ)上,結(jié)合場景五力理論重構(gòu)了四類不同群體的用戶畫像。上述用戶畫像研究主要集中于社交媒體、電子商務(wù)和圖書館學(xué)等方面,在教育領(lǐng)域的應(yīng)用研究偏少。
2基于雙平臺構(gòu)建用戶精準(zhǔn)畫像以本校IT類大數(shù)據(jù)技術(shù)專業(yè)學(xué)生的“數(shù)據(jù)分析與可視化”課程在超星學(xué)習(xí)通和頭歌教學(xué)實(shí)踐雙平臺上產(chǎn)生的與學(xué)習(xí)行為相關(guān)的數(shù)據(jù)為研究基礎(chǔ),通過數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、聚類建模構(gòu)建學(xué)生用戶個(gè)體及群體畫像,并應(yīng)用到實(shí)踐教學(xué)中。用戶畫像構(gòu)建應(yīng)用流程,如圖1所示。
2.1數(shù)據(jù)采集構(gòu)建在線學(xué)生用戶畫像的前提是數(shù)據(jù)采集。數(shù)據(jù)采集是科學(xué)進(jìn)行數(shù)據(jù)分析工作的基礎(chǔ),是根據(jù)項(xiàng)目的需求收集、獲取有用數(shù)據(jù)的過程[4]。本文研究用戶畫像主要是針對IT類的學(xué)生。與其他專業(yè)的學(xué)生相比,IT類學(xué)生除了理論知識的學(xué)習(xí),更加注重編碼實(shí)踐能力的培養(yǎng)。運(yùn)用“雙平臺”的方式開展線上線下混合式教學(xué),需確定在兩個(gè)平臺上采集的數(shù)據(jù)字段,以便于后續(xù)數(shù)據(jù)的采集。采集的數(shù)據(jù)主要分為兩類:學(xué)生靜態(tài)基本屬性特征和學(xué)生動(dòng)態(tài)學(xué)習(xí)行為屬性特征。學(xué)生靜態(tài)基本屬性特征主要是針對用戶的學(xué)號、姓名、班級等短時(shí)間內(nèi)不變信息的記錄。學(xué)生動(dòng)態(tài)學(xué)習(xí)行為屬性特征主要包括:出勤情況、視頻觀看情況、作業(yè)及測試完成情況等實(shí)訓(xùn)任務(wù)過程數(shù)據(jù)的動(dòng)態(tài)變化信息。具體采集字段如表1所示。
2.2數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是指對數(shù)據(jù)提前進(jìn)行一些必要的處理,提高數(shù)據(jù)的質(zhì)量,避免模型構(gòu)建結(jié)果不精準(zhǔn)。其包括數(shù)據(jù)合并、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)準(zhǔn)化和數(shù)據(jù)變換等。
2.2.1數(shù)據(jù)合并雙平臺學(xué)生數(shù)據(jù)中有共同的字段屬性,如學(xué)生、學(xué)號等。因此,按照主鍵合并方式將超星學(xué)習(xí)數(shù)據(jù)和頭歌實(shí)踐任務(wù)數(shù)據(jù)進(jìn)行合并。
2.2.2特征構(gòu)建特征構(gòu)建通過研究原始的學(xué)習(xí)數(shù)據(jù)集,將數(shù)據(jù)集的各個(gè)字段通過加工運(yùn)算構(gòu)建出新的統(tǒng)計(jì)字段,從而找出有意義、有價(jià)值的數(shù)據(jù)特征,有利于后續(xù)的建模分析。特征構(gòu)建字段如表2所示。
各特征構(gòu)建字段計(jì)算公式:(1)出勤率=學(xué)生個(gè)人出勤次數(shù)/總出勤次數(shù);(2)視頻觀看時(shí)長比=課程所有視頻觀看時(shí)長/課程視頻實(shí)際總時(shí)長;(3)章節(jié)測試參與率=學(xué)生個(gè)人測驗(yàn)次數(shù)/總測驗(yàn)次數(shù);(4)作業(yè)提交率=學(xué)生個(gè)人作業(yè)次數(shù)/總布置作業(yè)次數(shù);(5)章節(jié)測試平均分=學(xué)生所有測試的平均值;(6)作業(yè)平均分=學(xué)生所有作業(yè)的平均值;(7)實(shí)訓(xùn)任務(wù)平均分=學(xué)生所有實(shí)訓(xùn)任務(wù)的平均值;(8)實(shí)訓(xùn)學(xué)習(xí)效率=log(實(shí)訓(xùn)中得分/實(shí)訓(xùn)總耗時(shí));(9)實(shí)訓(xùn)能力值=實(shí)訓(xùn)獲得經(jīng)驗(yàn)值/實(shí)訓(xùn)測評次數(shù)。
2.2.3數(shù)據(jù)清洗數(shù)據(jù)清洗主要是檢查數(shù)據(jù)是否有空值、重復(fù)值和異常值,保證數(shù)據(jù)的質(zhì)量,避免臟數(shù)據(jù)影響后續(xù)的數(shù)據(jù)處理和建模。
2.2.4數(shù)據(jù)標(biāo)準(zhǔn)化由于數(shù)據(jù)來源的不同通常會(huì)導(dǎo)致數(shù)據(jù)的量綱、量級產(chǎn)生差異,為了讓這些數(shù)據(jù)具備可比性,需要采用數(shù)據(jù)標(biāo)準(zhǔn)化方法。最典型數(shù)據(jù)標(biāo)準(zhǔn)化是數(shù)據(jù)歸一化處理,即將所有的數(shù)據(jù)都統(tǒng)一映射到0~1之間。本文采用離差標(biāo)準(zhǔn)化方法。
2.3用戶畫像構(gòu)建2.3.1數(shù)據(jù)分析學(xué)生個(gè)體用戶畫像基于學(xué)生個(gè)體在課程中整體學(xué)習(xí)表現(xiàn)情況進(jìn)行構(gòu)建,從班級中抽取2個(gè)同學(xué)的學(xué)習(xí)過程數(shù)據(jù)用于數(shù)據(jù)分析和可視化。學(xué)生個(gè)體畫像雷達(dá)圖如圖2所示。
深入分析學(xué)生個(gè)體畫像的雷達(dá)圖,客觀整理出兩位學(xué)生的與學(xué)習(xí)相關(guān)的特征標(biāo)簽,個(gè)體畫像描述如下:
徐某,女,出勤率100%,自主學(xué)習(xí)能力強(qiáng),課前主動(dòng)積極在學(xué)習(xí)通上按照正常倍速觀看視頻提前預(yù)習(xí),章節(jié)測試和作業(yè)按時(shí)完成,正確率較高,通過觀察實(shí)訓(xùn)能力值和效率證實(shí)該同學(xué)動(dòng)手編碼能力強(qiáng)。
劉某,男,基本按時(shí)出勤,學(xué)習(xí)上不主動(dòng),不能自覺地觀看學(xué)習(xí)通上視頻,作業(yè)和測試缺交現(xiàn)象比較嚴(yán)重,老師外力督促效果不佳,實(shí)訓(xùn)學(xué)習(xí)效率低下,編碼能力弱,綜合成績差。
2.3.2聚類建模實(shí)現(xiàn)群體畫像K-means聚類算法是聚類分析中較為常見的一種非監(jiān)督學(xué)習(xí)算法,其原理非常簡單,是一種典型的基于距離的聚類算法。它通過計(jì)算不同樣本間的距離來判斷它們是否相近,相近的就會(huì)放到同一個(gè)類別中去。它能發(fā)現(xiàn)K個(gè)簇,且每個(gè)簇的中心采用簇中所含值的均值計(jì)算而成。
聚類算法對算法影響最大的是聚類數(shù),聚類數(shù)對聚類的影響很大。根據(jù)手肘法確定K-means最佳聚類是3個(gè)。經(jīng)過K-means聚類算法后,得到3個(gè)類別的聚類中心,將聚類中心用雷達(dá)圖顯示,如圖3所示。從圖3可知學(xué)生群體畫像一共分為3個(gè)群體。學(xué)生群體1:這類學(xué)生屬于優(yōu)等生,能積極主動(dòng)地去學(xué)習(xí),課堂參與率高,理論知識扎實(shí),有較強(qiáng)的自學(xué)能力,實(shí)訓(xùn)任務(wù)效率高,編碼動(dòng)手能力強(qiáng)。學(xué)生群體2:這類學(xué)生屬于中等生,有一定的理論知識,但編碼動(dòng)手能力不強(qiáng)。學(xué)生群體3:這類學(xué)生屬于后進(jìn)生,學(xué)習(xí)上比較懶惰,不能積極主動(dòng)地完成學(xué)習(xí)任務(wù),喜歡使用刷課軟件觀看平臺上視頻,導(dǎo)致觀看時(shí)長比較短,基礎(chǔ)知識薄弱,編碼動(dòng)手能力差,不及格率高。
2.4在教學(xué)中應(yīng)用學(xué)生用戶畫像在日常的教學(xué)中,教師能夠利用學(xué)生個(gè)體畫像和群體畫像進(jìn)行分析,針對不同學(xué)生的學(xué)習(xí)能力,制定更科學(xué)的分類教學(xué)策略,實(shí)現(xiàn)個(gè)性化教學(xué)。
2.4.1精準(zhǔn)識別不同群體的學(xué)生,制定學(xué)習(xí)措施在傳統(tǒng)教學(xué)中,有些學(xué)生不太愿意和老師溝通交流,教師很難甄別不同類別的學(xué)生。通過學(xué)生用戶畫像,教師能夠快速識別后進(jìn)生,及時(shí)制定幫助策略。
2.4.2改進(jìn)教學(xué)設(shè)計(jì)從構(gòu)建用戶畫像過程中,能針對產(chǎn)生的問題改進(jìn)教學(xué)設(shè)計(jì)。例如,在完成實(shí)訓(xùn)任務(wù)過程中,如果很多學(xué)生的實(shí)訓(xùn)耗時(shí)比較長或測評次數(shù)較多時(shí),說明學(xué)生不能靈活掌握知識點(diǎn),需要教師把此題進(jìn)行重點(diǎn)講解。
3結(jié)語本文采集IT類學(xué)生在“雙平臺”(超星學(xué)習(xí)通平臺和頭歌教學(xué)實(shí)踐平臺)上積累的學(xué)習(xí)過程數(shù)據(jù),通過數(shù)據(jù)預(yù)處理,構(gòu)建學(xué)生個(gè)體畫像和學(xué)生群體畫像,利用畫像可以精準(zhǔn)識別不同群體的學(xué)生,制定個(gè)性化學(xué)習(xí)措施。后續(xù)將使用不同聚類方法進(jìn)行驗(yàn)證性分析對比,找出最優(yōu)的聚類方法。
參考文獻(xiàn)
[1]萬家山,陳蕾,吳錦華.基于KD-Tree聚類的社交用戶畫像建模[J].計(jì)算機(jī)科學(xué),2019(增刊1):442-445,467.
[2]王曉霞,劉靜沙,許丹丹.運(yùn)營商大數(shù)據(jù)用戶畫像實(shí)踐[J].電信科學(xué),2018(5):127-133.
[3]過仕明.數(shù)字圖書館用戶畫像及場景重構(gòu)研究[J].情報(bào)科學(xué),2019(12):11-18.
[4]黃紅梅,張良均.Python數(shù)據(jù)分析與應(yīng)用[M].北京:人民郵電出版社,2018.
(編輯 姚鑫)
Research on student portrait technology based on dual platform learning dataFang? Fang
(Hunan Vocational College of Science and Technology, Changsha 410000, China)Abstract:? With the continuous promotion of information technology, universities and colleges are increasingly relying on online platforms to launch online teaching. How to effectively use the learning data on the platform for better precision teaching has become one of the important research fields. This paper proposes the process of constructing student portrait, including collecting the student learning data on the “dual platform”-Superstar Learning Communication Platform and Touge Practice Teaching Platform, preprocessing the data, constructing student individual portrait and clustering the learning data based on K-means clustering algorithm to generate student group portrait. Finally, divides students into three groups with different characteristics. Teachers analyze the portraits of different student groups, develop more scientific classified teaching strategies, and achieve personalized teaching.
Key words: user portrait; clustering algorithm; dual platform