摘? 要:為深入探究在線課程評論文本數(shù)據(jù),有效識別出參與在線學(xué)習(xí)過程中學(xué)習(xí)者關(guān)注的話題,改進(jìn)在線學(xué)習(xí)效果,該研究利用LDA主題模型對課程評論文本進(jìn)行主題挖掘。實驗結(jié)果表明,學(xué)習(xí)者在線課程評論話題主要聚焦在授課方式、受眾群體、學(xué)習(xí)平臺、教學(xué)效果、課程質(zhì)量五個方面。因此,可以根據(jù)這五個主題對在線學(xué)習(xí)平臺進(jìn)行建設(shè),進(jìn)而提高學(xué)生在線學(xué)習(xí)效果。
關(guān)鍵詞:LDA;MOOC;課程評論;文本分析
中圖分類號:TP391.1? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)04-0043-04
Analysis of MOOC Course Review Text Based on LDA Topic Model
LAI Xianjing
(School of Education Science, Kaili University, Kaili? 556011, China)
Abstract: In order to deeply explore the online course review text data, effectively identify the topics that learners pay attention to in the online learning process, and improve the online learning effect, this study uses the LDA topic model to mine the topic of the course review text. The experimental results show that learners' online course review topics mainly focus on five aspects: teaching methods, audience groups, learning platforms, teaching effects, and course quality. Therefore, the online learning platform can be built according to these five themes, so as to improve the online learning effect of students.
Keywords: LDA; MOOC; course review; text analysis
0? 引? 言
隨著“互聯(lián)網(wǎng)+教育”的不斷發(fā)展,在線教育受到各方關(guān)注。2021年6月,CNNIC發(fā)布《中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計報告》中顯示,我國在線教育用戶為3.25億,占整體網(wǎng)名的32.1%[1]。越來越多學(xué)習(xí)者傾向于在線學(xué)習(xí),各式各樣的在線學(xué)習(xí)平臺應(yīng)運(yùn)而生,不僅為學(xué)習(xí)者提供豐富的學(xué)習(xí)資源,而且還為學(xué)習(xí)者搭建了交互式學(xué)習(xí)平臺。MOOC(Massive Open Online)作為“互聯(lián)網(wǎng)+教育”的重要產(chǎn)物之一,具有規(guī)模大、開放性、個性化、免費(fèi)等特征[2],滿足眾多學(xué)習(xí)者個性化學(xué)習(xí)需求。并且成為眾多研究者關(guān)注的焦點(diǎn)。
學(xué)生在使用MOOC平臺學(xué)習(xí)的過程中,產(chǎn)生的各種行為數(shù)據(jù)真實反映學(xué)習(xí)者的各種學(xué)習(xí)狀態(tài)[3]。隨著大數(shù)據(jù)與教育的不斷融合,學(xué)習(xí)分析技術(shù)能夠?qū)π袨閿?shù)據(jù)進(jìn)行分析。該技術(shù)不僅能夠基于統(tǒng)計方法對結(jié)構(gòu)化數(shù)據(jù)[4]—考試成績、評論次數(shù)、觀看時長與次數(shù)等進(jìn)行分析以外,還可以對非結(jié)構(gòu)化數(shù)據(jù)的分析—文本數(shù)據(jù),例如評論數(shù)據(jù)、評論回復(fù)、答疑、彈幕數(shù)據(jù)等[5]。隨著MOOC平臺的不斷發(fā)展,學(xué)習(xí)者在使用過程中產(chǎn)生了大量的非結(jié)構(gòu)化互動文本數(shù)據(jù),主要在討論區(qū)、實施答疑、實時彈幕等。評論文本中蘊(yùn)含大量的信息,對其進(jìn)行挖掘和解釋能夠發(fā)現(xiàn)學(xué)習(xí)者關(guān)注的重點(diǎn),為提高在線學(xué)習(xí)體驗感、滿意度等提供參考和借鑒。因此,本研究以MOOC評論區(qū)文本數(shù)據(jù)作為研究對象,基于LDA主題模型挖掘非結(jié)構(gòu)化互動文本,探討學(xué)習(xí)者在使用MOOC平臺學(xué)習(xí)過程中所關(guān)注的重點(diǎn),以期為后續(xù)建設(shè)在MOOC平臺提供參考和借鑒。
1? 相關(guān)研究
評論文本作為在線學(xué)習(xí)過程中重要的互動載體,比較真實的反映了學(xué)習(xí)者的學(xué)習(xí)體驗、興趣話題、情感態(tài)度等特征[6]。通過對評論文本進(jìn)行挖掘,能夠提取學(xué)習(xí)者在在線學(xué)習(xí)過程中關(guān)注的隱藏焦點(diǎn)。目前已有部分研究者對MOOC評論文本內(nèi)容進(jìn)行分析,例如:吳林靜等提出面向大數(shù)據(jù)的慕課評論文本語義分析模型,該模型能夠有效對評論文本進(jìn)行分類[7]。胡榮等人采用極性計算方法對MOOC評論情感極性進(jìn)行探究,發(fā)現(xiàn)該方法能夠有效判斷評論文本的情感極性[8]。因此可以發(fā)現(xiàn),研究者們已經(jīng)開始對MOOC非結(jié)構(gòu)化文本數(shù)據(jù)展開研究。
LDA模型常用于社交媒體、圖像處理、文本分類和聚類、社區(qū)方法等領(lǐng)域[9]。在文本分類和聚類方面,LDA主題模型通過對文檔進(jìn)行主題概率分布計算最終找到主題集合[10],以此來挖掘出文本主題。已有研究證明,基于LDA主題模型-詞分布矩陣主題分布向量能夠有效對短文本進(jìn)行分類[11]。目前已有研究者使用LDA模型對MOOC評論文本進(jìn)行分析,例如,劉三女牙等人利用LDA模型探究學(xué)習(xí)者關(guān)注話題及其演化趨勢,為后續(xù)研究提供了新思路[12]。陳秀明等利用該方法實現(xiàn)主題挖掘及趨勢演化,并結(jié)合共現(xiàn)網(wǎng)絡(luò)圖探究主題分布[13]。王洪鑫等使用LDA模型和CNN算法,構(gòu)造主題挖掘與情感分析模型,該模型挖掘出學(xué)習(xí)者關(guān)注主題并對情感極性展開分析[14]。由此可以發(fā)現(xiàn),研究者們已經(jīng)將LDA模型運(yùn)用在教育領(lǐng)域,通過對不同類型評論文本數(shù)據(jù)進(jìn)行分析,以此來發(fā)現(xiàn)學(xué)習(xí)者所關(guān)注的話題分布情況。
以上研究從不同角度對MOOC評論數(shù)據(jù)進(jìn)行分析,MOOC平臺課程資源豐富,學(xué)習(xí)者在學(xué)習(xí)過程中產(chǎn)生的非結(jié)構(gòu)互動文本數(shù)據(jù),其增長速度較快、數(shù)據(jù)繁雜多樣,因此,對MOOC課程評論文本進(jìn)行分析仍然具有重要意義。所以,本研究利用LDA主題模型研究學(xué)習(xí)者在使用MOOC平臺學(xué)習(xí)過程中留下的評論文本,挖掘?qū)W習(xí)者關(guān)注主題,以此來發(fā)現(xiàn)學(xué)習(xí)者關(guān)注的焦點(diǎn),為后續(xù)更好建設(shè)在線教育平臺提供參考和借鑒。
2? 研究設(shè)計
2.1? 研究框架
本研究利用LDA主題模型挖掘出MOOC課程評論文本主題,發(fā)現(xiàn)學(xué)習(xí)者在在線學(xué)習(xí)過程中關(guān)注的重點(diǎn)。因此,本研究通過爬取MOOC課程評論文本數(shù)據(jù)、預(yù)處理、建模分析、可視化等階段實現(xiàn)MOOC評論數(shù)據(jù)的主題分析,研究框架如圖1所示。
2.2? 研究方法
2.2.1? 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理作為本文挖掘的基本步驟,其目的是為確保數(shù)據(jù)的有效性,刪除評論數(shù)據(jù)中噪聲數(shù)據(jù)和無用信息。本研究首先爬取中國大學(xué)MOOC學(xué)習(xí)者評論數(shù)據(jù),其次對MOOC評論文本數(shù)據(jù)進(jìn)行預(yù)處理,使用停用詞表,去除數(shù)據(jù)中的重復(fù)詞、停用詞、無用詞匯等,得到標(biāo)準(zhǔn)化文本數(shù)據(jù)。最后,利用jiaba分詞工具對數(shù)據(jù)進(jìn)行分詞處理。
2.2.2? 在線評論文本主題建模
首先,建立樸素貝葉斯模型(Naive Bayesian),將MOOC評論文本分為正面和負(fù)面評論,并分別進(jìn)行詞頻分析。因為樸素貝葉斯模型具有分類準(zhǔn)確度高、建模簡單等特點(diǎn),因此,本研究選擇樸素貝葉斯算法對MOOC評論進(jìn)行情感分類。
其次,使用LDA模型挖掘文本主題數(shù)。LDA模型包含文檔、主題、詞三個層次,該方法能夠從文檔中提煉出主題模型,并通過詞匯的概率分布反映文檔的潛在主題[15]。并且采用無監(jiān)督方法進(jìn)行訓(xùn)練,適合處理大規(guī)模文本語料[16]。為了找到最優(yōu)的主題數(shù),本研究使用困惑度(perplexity)和一致性(coherence)評價指標(biāo)確定評論文本中的最優(yōu)主題個數(shù)[17]。其中困惑度數(shù)值一般隨著潛在主題數(shù)量的增加呈現(xiàn)遞減的規(guī)律,困惑度數(shù)值越小,該主題模型的生成能力越強(qiáng)[18]。一致性指標(biāo)則是使用每個主題出現(xiàn)頻率最多的詞語計算他們的語義相似性,一致性得分越高,模型解釋性更好。
最后,使用LDAvis庫對LDA模型結(jié)果進(jìn)行可視化呈現(xiàn)。
3? 實證分析
3.1? 數(shù)據(jù)描述
本研究使用八爪魚工具爬取中國大學(xué)MOOC學(xué)習(xí)者評論數(shù)據(jù),采集課程為“Python語言程序設(shè)計”,該課程在新課排行榜位居第一,課程一共有24 152人參加,采集數(shù)據(jù)時間確定在2019年1月—2022年1月,一共獲取數(shù)據(jù)21 137條。數(shù)據(jù)集字段包括用戶ID、評論內(nèi)容、發(fā)表時間、開課次數(shù)等。本文對刪除重復(fù)評論、過長或過短評論、無效評論數(shù)據(jù)后,最終獲得15 030條有效數(shù)據(jù)。
3.2? 文本情感分類結(jié)果
使用樸素貝葉斯文本分類對MOOC評論數(shù)據(jù)進(jìn)行情感分析,其中正面評論13 477條,占比89.67%;負(fù)面評論1 553條,占比為10.33%。說明大部分學(xué)習(xí)者在在線學(xué)習(xí)過程中的體驗感較好,滿足其基本學(xué)習(xí)需求。有少部分學(xué)習(xí)者的學(xué)習(xí)體驗沒有達(dá)到預(yù)期。其中正面評論高頻詞匯包括:老師、課程、學(xué)習(xí)、講解、內(nèi)容、Python、清晰、基礎(chǔ)、不錯、入門等,負(fù)面評論高頻詞匯包括:老師、課程、編程、學(xué)習(xí)、理解、Python、基礎(chǔ)、沒有、代碼、視頻等。
3.3? LDA模型主題聚類結(jié)果
本研究運(yùn)用Python中的Gensim包中的Lad Model函數(shù)對MOOC評論文本數(shù)據(jù)進(jìn)行主題建模。首先,使用困惑度和一致性指標(biāo)判斷最優(yōu)主題數(shù)量,其中困惑度分析結(jié)果如圖2所示。一致性分析結(jié)果如圖3所示。根據(jù)圖中可知,當(dāng)主題數(shù)為5左右時,困惑度指標(biāo)數(shù)值最低,一致性指標(biāo)數(shù)值最高。因此。本研究確定MOOC評論文本主題數(shù)為5。
根據(jù)困惑和一致性指標(biāo)分析結(jié)果,結(jié)合已有研究將MOOC評論文本的主題分為五大類—“教師授課風(fēng)格”“課程受眾群體”“教學(xué)效果”“課程內(nèi)容”“課程質(zhì)量”。MOOC課程評論文本數(shù)據(jù)LDA主題部分特征詞如表1所示。
接下來對LDA模型進(jìn)行可視化處理,結(jié)果如圖4所示。一個圓圈代表一個主題,當(dāng)主題數(shù)為5時,各圓圈分散互不相交,說明主題數(shù)為5是能夠很好涵蓋評論文本的大部分內(nèi)容,主題建模較好。其中,圓圈1對應(yīng)主題一“教師授課方式”、圓圈2對應(yīng)主題二“課程受眾群體”、圓圈3對應(yīng)主題三“學(xué)習(xí)效果”、圓圈4對應(yīng)主題四“學(xué)習(xí)平臺”、圓圈5對應(yīng)主題五“課程質(zhì)量”。
3.4? 結(jié)果分析
通過樸素貝葉斯文本分類結(jié)果顯示,大部分學(xué)習(xí)者在使用MOOC平臺時的體驗感較好,根據(jù)正面評論的高頻詞匯發(fā)現(xiàn),正面評論主要集中在授課方式、教學(xué)效果、受眾群體等方面。負(fù)面評論主要集中在課程內(nèi)容,例如:編程較難、代碼不好理解、平臺問題等方面。
通過LDA主題模型分析結(jié)果顯示。MOOC評論文本包含5個主題及特征詞。結(jié)果顯示,MOOC評論文本中的主題包括授課方式、受眾群體、學(xué)習(xí)平臺、教學(xué)效果、課程質(zhì)量五個主題。
主題一:“授課方式”包括老師、講解、清晰、通俗易懂等特征詞,占全部評論的26.5%,說明學(xué)習(xí)者在該課程學(xué)習(xí)過程中比較喜歡老師的授課風(fēng)格,并且認(rèn)為老師講課通俗易懂。并且主題一占比較高,這說明老師授課風(fēng)格是學(xué)習(xí)者關(guān)注的關(guān)鍵內(nèi)容,同時也是學(xué)習(xí)者持續(xù)學(xué)習(xí)的影響因素之一。由于編程課程對于部分學(xué)生來說難度較大、枯燥,老師能夠生動有趣的講解課程是學(xué)生能夠持續(xù)學(xué)習(xí)的重要原因。
主題二:“受眾群體”包括課程、入門、小白、基礎(chǔ)等特征詞,占全部評論的24.8%,
說明大部分學(xué)習(xí)者都認(rèn)為該門課程比較適合作為Python入門基礎(chǔ),受眾群體比較適合新手或小白。這一主題的發(fā)現(xiàn)有利于MOOC平臺為后續(xù)學(xué)習(xí)者推薦有關(guān)學(xué)習(xí)資源提供參考和借鑒。
主題三:“課程內(nèi)容”主要包括課程、系統(tǒng)、視頻、平臺等特征詞,占全部評論的19%,說明大部分學(xué)習(xí)者認(rèn)為該平臺比較適合學(xué)習(xí),主要關(guān)注點(diǎn)聚焦在視頻資源、作業(yè)布置、課程設(shè)置等方面。通過特征詞發(fā)現(xiàn),全面且系統(tǒng)的學(xué)習(xí)資源、方便操作的學(xué)習(xí)平臺、合理的作業(yè)布置等能夠吸引學(xué)習(xí)者學(xué)習(xí)。
主題四:“學(xué)習(xí)效果”主要包括知識、使用、推薦、興趣等特征詞,占全部評論的16.7%,說明部分學(xué)習(xí)者比較關(guān)注學(xué)習(xí)效果的問題,主要聚焦在理論和實踐、學(xué)習(xí)興趣、體驗感等方面。通過特征詞發(fā)現(xiàn),該門學(xué)生學(xué)習(xí)該門課程的學(xué)習(xí)效果較好,不僅將理論與實踐相結(jié)合,而且學(xué)生樂于推薦該門課程給其他學(xué)習(xí)者
主題五:“課程質(zhì)量”主要包括質(zhì)量、課程、資源、例題等特征詞,占全部評論的13.9%,說明部分學(xué)習(xí)者關(guān)注到了課程質(zhì)量的問題,主要聚焦在課程建設(shè)、學(xué)習(xí)資源等方面。課程質(zhì)量會影響學(xué)生的學(xué)習(xí)效果,根據(jù)特征詞顯示可以看出大部分學(xué)習(xí)者認(rèn)為該門課的課程質(zhì)量較高,資源豐富、老師講課專業(yè)產(chǎn)生了較好的學(xué)習(xí)效果。
4? 總結(jié)與建議
實驗結(jié)果表明,使用LDA主題模型可以挖掘出學(xué)習(xí)者在在線學(xué)習(xí)過程中所關(guān)注的主要內(nèi)容。研究結(jié)果發(fā)現(xiàn)在線學(xué)習(xí)過程中關(guān)注內(nèi)容聚焦在授課方式、課程內(nèi)容、學(xué)習(xí)效果、課程質(zhì)量等方面,并且通過學(xué)習(xí)課程發(fā)現(xiàn)了該門課程適合學(xué)習(xí)的群體。在這些關(guān)注點(diǎn)上,學(xué)習(xí)者比較側(cè)重于教師授課方式、課程內(nèi)容等方面的表達(dá)?;诖?,本文提出一下建議。
篩選優(yōu)質(zhì)課程資源。根據(jù)研究結(jié)果發(fā)現(xiàn),學(xué)習(xí)者在學(xué)習(xí)過程中比較注重教師授課方式、課程內(nèi)容、課程質(zhì)量等方面。MOOC平臺課程完成率較低,所以平臺在上線課程資源的過程中,應(yīng)該對這幾個維度展開評價。還可以讓學(xué)習(xí)者學(xué)習(xí)前、學(xué)習(xí)中、學(xué)習(xí)后對課程資源進(jìn)行簡單評價,以此來完善課程資源建設(shè)。
推薦個性化學(xué)習(xí)資源。根據(jù)研究結(jié)果發(fā)現(xiàn),部分學(xué)習(xí)者會在評論區(qū)對課程受眾群體展開討論。根據(jù)該主題占比情況,可以向新加入平臺的學(xué)習(xí)者推薦不同類型的課程學(xué)習(xí)資源,以此來滿足學(xué)習(xí)者這的個性化學(xué)習(xí)需要。這一主題發(fā)現(xiàn)對于在線學(xué)習(xí)平臺管理人員完善學(xué)習(xí)平臺推薦功能具有重要意義。
5? 結(jié)? 論
本研究基于MOOC評論區(qū)文本數(shù)據(jù),構(gòu)建一種面向MOOC課程評論文本的主體挖掘模型,并以“Python語言程序設(shè)計”課程為例,挖掘出學(xué)習(xí)者對于在線學(xué)習(xí)的態(tài)度和主題結(jié)構(gòu)分布,結(jié)果表明該方法能夠有效挖掘出評論數(shù)據(jù)中的隱藏信息,準(zhǔn)確找到學(xué)習(xí)者在MOOC平臺上學(xué)習(xí)關(guān)注的重點(diǎn),研究結(jié)果有助于在線教育平臺建設(shè)、在線課程設(shè)計、教學(xué)策略優(yōu)化、課程資源推送等方面提供參考。但是,本研究在MOOC評論文本情感分析方面還有進(jìn)一步探索的空間,只對情感傾向進(jìn)行粗粒度分析。在后續(xù)研究中,應(yīng)該嘗試構(gòu)建在線課程評論情感詞典,以此來提高在線課程評論情感傾向的準(zhǔn)確性,或者可以嘗試采用其他發(fā)放對文本進(jìn)行聚類分析,提高研究結(jié)果的準(zhǔn)確性。
參考文獻(xiàn):
[1] 中國互聯(lián)網(wǎng)信息中心.中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告 [EB/OL].(2021-9-15).http://www.cnnic.cn/NMediaFile/old_attach/P020210915523670981527.pdf.
[2] 王永固,張慶.MOOC:特征與學(xué)習(xí)機(jī)制 [J].教育研究,2014,35(9):112-120+133.
[3] 蔣卓軒,張巖,李曉明.基于MOOC數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測 [J].計算機(jī)研究與發(fā)展,2015,52(3):614-628.
[4] 孔嘯,劉乃嘉,張夢豪,等.COVID-19疫情前后高校在線教學(xué)數(shù)據(jù)分析 [J].清華大學(xué)學(xué)報:自然科學(xué)版,2021,61(2):104-116.
[5] 景永霞,茍和平,劉強(qiáng),等.基于主題模型的在線課程評論情感分析研究 [J].蘭州文理學(xué)院學(xué)報:自然科學(xué)版,2020,34(1):54-56+61.
[6] 劉三女牙,彭晛,劉智,等.面向MOOC課程評論的學(xué)習(xí)者話題挖掘研究 [J].電化教育研究,2017,38(10):30-36.
[7] 吳林靜,劉清堂,毛剛,等.大數(shù)據(jù)視角下的慕課評論語義分析模型及應(yīng)用研究 [J].電化教育研究,2017,38(11):43-48.
[8] 胡榮,崔榮一,趙亞慧.基于情感詞典的課程評論情感分析 [J].延邊大學(xué)學(xué)報:自然科學(xué)版,2019,45(2):153-160.
[9] 韓亞楠,劉建偉,羅雄麟.概率主題模型綜述 [J].計算機(jī)學(xué)報,2021,44(6):1095-1139.
[10] 肖明,商慧語,肖毅,等.基于LDA模型的統(tǒng)計學(xué)熱門主題挖掘及知識圖譜分析 [J].華中師范大學(xué)學(xué)報:自然科學(xué)版,2022,56(5):781-788+802.
[11] 楊萌萌,黃浩,程露紅,等.基于LDA主題模型的短文本分類 [J].計算機(jī)工程與設(shè)計,2016,37(12):3371-3377.
[12] 劉三女牙,彭晛,劉智,等.面向MOOC課程評論的學(xué)習(xí)者話題挖掘研究 [J].電化教育研究,2017,38(10):30-36.
[13] 陳秀明,張晨晨,王峰,等.基于LDA主題模型的MOOC評論回復(fù)特征維度分析 [J].阜陽師范大學(xué)學(xué)報:自然科學(xué)版,2021,38(4):73-81.
[14] 王洪鑫,閆志明,陳效玉,等.面向MOOC課程評論的主題挖掘與情感分析研究 [J].開放學(xué)習(xí)研究,2021,26(4):16-23.
[15] BLEI D M,NG AY,JORDAN M I. Latent dirichlet allocation [J].Journal of Machine Learning Research,2003(3):993-1022.
[16] 阮光冊.基于LDA的網(wǎng)絡(luò)評論主題發(fā)現(xiàn)研究 [J].情報雜志,2014,33(3):161-164.
[17] HANNIGAN T R,HANNS R F J,VAKILI K,et al. Topic Modeling in Management Research:Rendering New Theory from Textual Data [J].Academy of Management Annals,2019,13(2):586-632.
[18] DU Y J,YI Y T,LI X Y,et al. Extracting and tracking hot topics of micro-blogs based on improved latent dirichlet allocation [J].Eng Appl Artif Intell,2020,87(C):103279.
作者簡介:賴顯靜(1998—),女,漢族,貴州甕安人,碩士在讀,研究方向:在線教育。
收稿日期:2022-10-03
基金項目:凱里學(xué)院聯(lián)合培養(yǎng)研究生專項課題(LHYJS2101)