• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于MOOC的課程討論文本話題挖掘研究

      2020-06-22 13:15:56田娜周驛嚴(yán)蓉
      軟件導(dǎo)刊 2020年5期

      田娜 周驛 嚴(yán)蓉

      摘 要:為深入挖掘和分析在線課程討論區(qū)中的文本數(shù)據(jù),有效識別出參與該課程學(xué)習(xí)者關(guān)注的話題,改進在線課程教學(xué)效果,通過對學(xué)習(xí)者討論文本進行高頻詞匯分析,得到詞云圖,形成對學(xué)習(xí)者關(guān)注內(nèi)容的整體認(rèn)識;利用LDA話題模型對學(xué)習(xí)者的討論文本數(shù)據(jù)進行話題挖掘,得到9個熱點話題。實驗結(jié)果表明,學(xué)習(xí)者在線討論關(guān)注話題主要涉及Python語言編程基礎(chǔ)知識、課程證書、作業(yè)測試、開發(fā)環(huán)境配置以及第三方庫的安裝等。利用LDA模型可以從大量課程討論文本數(shù)據(jù)中有效識別出學(xué)習(xí)者關(guān)注話題,進而改進在線課程。

      關(guān)鍵詞:MOOC;課程討論話題;LDA;主題模型;話題挖掘

      DOI:10. 11907/rjdk. 191855 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

      中圖分類號:TP391文獻標(biāo)識碼:A 文章編號:1672-7800(2020)005-0168-05

      0 引言

      MOOC一詞自出現(xiàn)以來,就以其課程資源開放性、不受觀看時間地點限制等特點引起廣泛關(guān)注[1]。這種新型的課程教學(xué)方式打破了傳統(tǒng)教學(xué)局限于教室、學(xué)校的時空界限,使教學(xué)內(nèi)容不再局限于課本,推動了傳統(tǒng)教育教學(xué)模式的轉(zhuǎn)變,給教育教學(xué)注入了新活力[2]。教育部《2019年教育信息化和網(wǎng)絡(luò)安全工作要點》中提出:“要擴大高校優(yōu)質(zhì)教育資源覆蓋面,積極服務(wù)學(xué)習(xí)型社會建設(shè),繼續(xù)推動國家開放大學(xué)網(wǎng)絡(luò)學(xué)習(xí)課程、通識課程、五分鐘課程等,使上線的網(wǎng)絡(luò)課程總量超過350門,啟動100門大規(guī)模在線開放課程建設(shè)[3]?!痹谶@樣的背景下,各高校積極進行MOOC課程建設(shè),涌現(xiàn)了一批優(yōu)秀在線課程學(xué)習(xí)平臺,如中國大學(xué)MOOC、網(wǎng)易云課堂、愛課程網(wǎng)等。

      在線課程討論區(qū)作為在線學(xué)習(xí)平臺學(xué)習(xí)者與學(xué)習(xí)者之間、學(xué)習(xí)者與教師之間最直接的交流空間,是當(dāng)前在線課程教學(xué)常用的輔助手段之一,其中包含學(xué)習(xí)者的重要學(xué)習(xí)內(nèi)容與學(xué)習(xí)行為數(shù)據(jù),對學(xué)習(xí)者的知識建構(gòu)、增強學(xué)習(xí)者之間的互動以及教師進行教學(xué)設(shè)計等具有重要意義[4]。但實踐中發(fā)現(xiàn)也有學(xué)習(xí)者沒有從MOOC平臺的學(xué)習(xí)中獲得足夠的知識,MOOC未體現(xiàn)出應(yīng)有的價值,導(dǎo)致MOOC的高退學(xué)率。在MOOC論壇開展相互討論在一定程度上可以解決該問題[5]。

      Kiemer等[6]研究證明,通過課堂的交互性對話,能夠激發(fā)學(xué)習(xí)者的內(nèi)在學(xué)習(xí)動機和能力,增強課堂活力。雖然在線課程討論區(qū)具有眾多優(yōu)勢,但是許多討論區(qū)存在學(xué)習(xí)者參與互動頻率低、互動話語質(zhì)量差等問題。由于缺乏積極有效的引導(dǎo),在討論區(qū)中進行討論時,學(xué)習(xí)者之間的對話稍有不慎就會偏離主題;而討論區(qū)主題大都強調(diào)以教師為中心,忽視了不同學(xué)習(xí)者的個性化需求,造成學(xué)習(xí)者參與討論不積極?,F(xiàn)在的在線課程討論區(qū)支持學(xué)習(xí)者發(fā)布文本,以此表達對某一問題的看法或提出自己的問題。文本作為學(xué)習(xí)群體之間一種普遍的交流方式,能夠表現(xiàn)出學(xué)習(xí)者自身心理加工過程,是學(xué)習(xí)動機、認(rèn)知發(fā)展、情感態(tài)度、學(xué)習(xí)體驗等的真實表現(xiàn)[7]。通過對在線課程討論區(qū)學(xué)習(xí)者互動文本進行挖掘與分析,可以有效反映學(xué)習(xí)者的學(xué)習(xí)現(xiàn)狀、促進教師教學(xué)方法創(chuàng)新,對學(xué)生整體行為進行監(jiān)控和預(yù)警。當(dāng)前,在線學(xué)習(xí)平臺主要依賴學(xué)習(xí)時長、觀看視頻時長、參與討論次數(shù)、考試成績等結(jié)構(gòu)化數(shù)據(jù)反饋學(xué)習(xí)情況,較少對半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)(文本、圖片、視頻等)進行研究與運用 [8]。如果采用傳統(tǒng)的內(nèi)容分析法會存在費時費力、評價主觀性和反饋滯后性等問題[9]。因此,通過對在線課程論壇中的文本數(shù)據(jù)進行挖掘與分析,對促進在線課程開展具有重要意義。

      1 文獻綜述

      國外對在線學(xué)習(xí)研究起步較早,主要聚焦于學(xué)習(xí)行為研究、學(xué)習(xí)效果影響因素研究及在線學(xué)習(xí)工具、學(xué)習(xí)預(yù)警等。對于在線課程論壇,國外研究者也從聚焦于研究行為數(shù)據(jù)轉(zhuǎn)向分析論壇文本,關(guān)注于發(fā)現(xiàn)與挖掘論壇討論主題。Ezen-Can等[10]使用聚類方法對系統(tǒng)平臺發(fā)表的文本數(shù)據(jù)進行自動識別,以此幫助理解學(xué)習(xí)者之間的學(xué)習(xí)行為和交互內(nèi)容;Ramesh等[11]以學(xué)習(xí)者文本數(shù)據(jù)為研究對象,提出基于種子詞的話題模型方法以預(yù)測學(xué)習(xí)者的課程通過率;Gianluca等[12]設(shè)計了RAMS(Rapid Monitoring of Learners' Satisfaction)系統(tǒng),通過挖掘Moodle討論區(qū)中的文本數(shù)據(jù)以及問卷調(diào)查數(shù)據(jù),分析單個學(xué)習(xí)者的學(xué)習(xí)狀態(tài)并評估學(xué)習(xí)者對于該課程的滿意度。

      目前國內(nèi)對于在線課程論壇文本數(shù)據(jù)的研究逐漸增多。如劉三等[13]以某課程為例,應(yīng)用非監(jiān)督學(xué)習(xí)方法LDA模型對某在線課程中未完成和已完成兩種類型的學(xué)習(xí)者的評論文本信息特征結(jié)構(gòu)及語義內(nèi)容進行挖掘,為改進該課程提供建議;劉智等[4]通過概率話題建模,分析論壇發(fā)帖,提取不同學(xué)習(xí)群體的熱點話題以及不同成效的學(xué)習(xí)者在不同時間段的學(xué)習(xí)情緒,為學(xué)習(xí)者知識建構(gòu)過程提供干預(yù);左明章等[7]以互動話語分析理論為基礎(chǔ),對某大學(xué)云平臺的課程論壇發(fā)帖進行實證研究,構(gòu)建基于在線學(xué)習(xí)平臺的互動話語分析模型,旨在描述在線課程論壇學(xué)習(xí)行為,幫助教師識別特殊學(xué)習(xí)者并進行干預(yù)。

      2 研究設(shè)計

      2.1 研究思路

      本實驗首先通過網(wǎng)絡(luò)爬蟲獲取學(xué)習(xí)者討論文本并對原始數(shù)據(jù)進行預(yù)處理,然后通過編程對預(yù)處理數(shù)據(jù)進行詞云分析,形成對學(xué)習(xí)者關(guān)注內(nèi)容的整體印象;之后利用LDA主題模型方法對學(xué)習(xí)者討論文本進行聚類,找出學(xué)習(xí)者關(guān)注的話題。將獲得結(jié)果反饋給教師以改進教學(xué),也可幫助教學(xué)管理者完善在線平臺功能,實現(xiàn)更好的用戶體驗,還可幫助學(xué)習(xí)者對該課程形成基本的了解。研究框架如圖1所示。

      2.2 研究對象

      本實驗研究對象是中國大學(xué)MOOC平臺上某課程討論區(qū)的發(fā)帖內(nèi)容。該課程作為中國大學(xué)MOOC上的一門國家級精品課程,課程共9周,開課時間為2018年9月18日至2018年11月30日,擁有較多的學(xué)習(xí)參與者和豐富的交互數(shù)據(jù),本實驗主要對課程討論區(qū)文本數(shù)據(jù)進行研究。討論區(qū)包括教師答疑區(qū)、課堂交流區(qū)和綜合討論區(qū)3部分。

      2.3 數(shù)據(jù)收集與預(yù)處理

      網(wǎng)頁包含許多信息,如文本、script腳本、html標(biāo)記等,網(wǎng)絡(luò)數(shù)據(jù)收集指利用一種程序自動收集網(wǎng)絡(luò)中包含的有用信息,一般是文本信息?,F(xiàn)有的網(wǎng)絡(luò)數(shù)據(jù)收集方法主要分為兩種:①采用商業(yè)爬蟲軟件獲取數(shù)據(jù),如八爪魚采集器;②編寫網(wǎng)絡(luò)爬蟲程序獲取網(wǎng)絡(luò)數(shù)據(jù)。本實驗通過編寫Python程序獲取學(xué)習(xí)者討論區(qū)發(fā)帖文本數(shù)據(jù),收集到的數(shù)據(jù)主要包含發(fā)帖者的用戶名或ID、發(fā)帖時間、發(fā)帖內(nèi)容。在去除空值、無效數(shù)據(jù)之后,得到學(xué)習(xí)者論壇發(fā)帖數(shù)據(jù)共8 090條。

      在獲取學(xué)習(xí)者論壇討論文本后,需要對原始論壇數(shù)據(jù)進行預(yù)處理,主要目的是將在線課程論壇討論文本轉(zhuǎn)化為主題挖掘模型能夠識別的文本詞向量形式,有中文分詞、去重及去停用詞、詞頻統(tǒng)計、文本向量化幾個過程[14]。

      2.3.1 分詞處理

      不同于英文文本采用空格區(qū)分詞,中文文本詞與詞之間的間隔不明確,需要對文本進行分詞操作。在眾多的中文分詞軟件中,本文采用中國科學(xué)院計算技術(shù)研究所開發(fā)的ICTCLAS漢語分詞系統(tǒng)作為分詞工具對討論文本進行分詞處理。

      2.3.2 去重與去停用詞

      仔細(xì)觀察會發(fā)現(xiàn)文本中包含著大量的重復(fù)及無效詞匯,比如“啊”、“雖然”、“是的”、“好好好”等,這些詞匯會對LDA建模結(jié)果產(chǎn)生很大影響。對于文本中出現(xiàn)的虛詞、介詞等無實際意義詞匯,通過引用停用詞詞典(將哈工大停用詞表、四川大學(xué)機器智能實驗室停用詞庫和百度停用詞表整理去重得到本實驗所用停用詞表)進行過濾。對于重復(fù)文本,本文在不考慮語義關(guān)系的情況下將其強制壓縮成單個詞語。

      2.4 研究方法

      主題模型主要用于計算機及相關(guān)領(lǐng)域,潛在語義分析(Latent Semantic Analysis,LSA)、概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)以及潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)等都屬于傳統(tǒng)的主題模型方法。數(shù)據(jù)爬取、數(shù)據(jù)獲取、文本預(yù)處理、主題挖掘算法、主題建模與主題生成是主題挖掘的主要工作流程[15]。隨著模型的深入應(yīng)用,研究者發(fā)現(xiàn)LDA模型在文本方面有很好的處理效果,比如Phan等[16]發(fā)現(xiàn)LDA主題模型在表達文本主題時具有很好的聚類效果;Basher[17]運用LDA主題處理交互式文本,為文本主題抽取提供了新思路。

      LDA由Blei[18]等于2003提出,其由文檔、主題和詞3層結(jié)構(gòu)組成,適合挖掘大規(guī)模文檔集中潛藏的主題信息?;凇霸~袋(Bag of words)”假設(shè),LDA把文檔視為多個潛在主題,每個主題又滿足單詞的多項式分布。因此,一篇文檔可以看作由多個主題構(gòu)成,每個主題又由多個單詞構(gòu)成[19]。對于一篇文檔來說,其生成過程如下:首先從代表文檔主題分布向量的θ中抽取一個主題,之后從抽取到的主題對應(yīng)的詞分布中抽取一個單詞,不斷重復(fù)此過程N,直至生成一篇含有N個詞的文檔。

      3 研究結(jié)果分析

      3.1 高頻詞匯分析

      從圖3可以看出,學(xué)習(xí)者參與討論文本中出現(xiàn)頻率較高的詞為“Python”、“老師”、“代碼”、“視頻”、“作業(yè)”、“成績”、“課件”、“證書”等,這些詞匯大致反映出學(xué)習(xí)者學(xué)習(xí)該課程的主要目的以及該課程的基本內(nèi)容,即該課程是一門介紹Python編程的網(wǎng)絡(luò)課程,學(xué)習(xí)者對該課程的視頻資源、作業(yè)測試、課程證書等方面討論較多。此外,還有一些單詞是對該課程內(nèi)容的表述,如“Jieba”、“判斷”、“循環(huán)”、“函數(shù)”、“變量”、“字符”、“版本”等,這些詞在一定程度上是該課程主要知識內(nèi)容的總結(jié),比如“Jieba”作為目前中文文本預(yù)處理的主要工具,在該課程涉及文本處理的代碼中廣泛使用;而“判斷”、“循環(huán)”等屬于該課程第三節(jié)中程序控制結(jié)構(gòu)的重要內(nèi)容。

      3.2 LDA話題聚類

      通過詞云圖對學(xué)習(xí)者參與討論的主要內(nèi)容形成整體印象,利用LDA模型對經(jīng)過預(yù)處理之后的討論文本進行主題建模。首先確定主題個數(shù),研究發(fā)現(xiàn),在LDA話題模型中先驗參數(shù)一般設(shè)定為[20]:[α]=0.1,[β]=0.01,經(jīng)過多次調(diào)參實驗,發(fā)現(xiàn)當(dāng)主題數(shù)目num_topics=9時表1實驗效果最為顯著。表1是學(xué)習(xí)者參與課程討論的話題—詞匯矩陣,在代碼編寫過程中,通過計算學(xué)習(xí)者關(guān)注話題概率值,抽取概率值較高的9個話題,并抽取每個話題中出現(xiàn)概率較大的前10個單詞,這些單詞在一定程度上可以表現(xiàn)出該話題下的主要內(nèi)容。

      由表1可以看出,話題1中學(xué)習(xí)者關(guān)注該課程學(xué)習(xí)之后證書的獲得,說明參與該課程的學(xué)習(xí)者希望獲得課程證書,而這些學(xué)習(xí)者大都能持續(xù)參與學(xué)習(xí),是該課程的主要參與者,是研究學(xué)習(xí)行為的主要對象;話題2主要是關(guān)于課程學(xué)習(xí)平臺以及課后作業(yè)、測驗,以及對該課程視頻資源、課件等內(nèi)容的關(guān)注,說明該平臺功能還有需完善的地方。學(xué)習(xí)者對于作業(yè)、測驗的關(guān)注,在一定程度上說明了學(xué)習(xí)者參與學(xué)習(xí)的積極性,后期作業(yè)設(shè)置時要引起注意;話題3 中“turtle”是Python編程中常用的一種庫,也是課程進行蟒蛇繪制的主要工具,此外還有“溫度轉(zhuǎn)換”實例,也是該課程的主要實例之一,說明學(xué)習(xí)者對蟒蛇繪制和溫度轉(zhuǎn)換兩個例子還存在問題;話題4中出現(xiàn)概率較高的前4個單詞分別是“函數(shù)”、“定義”、“調(diào)用”、“變量”,說明學(xué)習(xí)者主要關(guān)注函數(shù)相關(guān)知識,如何定義一個函數(shù)、如何調(diào)用函數(shù)、函數(shù)的執(zhí)行等都是學(xué)習(xí)者關(guān)注的重點;從話題5 中的單詞分布可以看出該話題主要集中于文本數(shù)據(jù)處理和格式化,其中“Jieba”庫是編程人員進行中文文本分詞的主要工具包,也是繪制詞云,進行詞頻統(tǒng)計以及其它文本操作需要用到的工具,“解答”、“疑問”等詞說明學(xué)習(xí)者在進行文本數(shù)據(jù)處理過程中還存在一定問題,需要教師或同學(xué)幫助;話題6中“元組”、“集合”、“列表”、“字典”等是Python編程中的數(shù)據(jù)類型,說明該話題主要是關(guān)于組合數(shù)據(jù)類型的描述;話題7中“if”、“else”、“for”是Python編程語言中循環(huán)結(jié)構(gòu)的基本構(gòu)成。此外,“分支”一詞說明學(xué)習(xí)者對分支結(jié)構(gòu)也有所關(guān)注,由此可見,該話題主要是對Python編程語言中程序控制結(jié)構(gòu)的描述;在話題8中“字符串”、“字符”、“類型”等詞說明該話題主要表達學(xué)習(xí)者對基本數(shù)據(jù)類型的關(guān)注;話題9主要是Python學(xué)習(xí)所需開發(fā)環(huán)境的配置以及第三方庫安裝。

      [11] RAMESH A,GOLDWASSER D, HUANG B,et al. Understanding MOOC discussion forums using seeded LDA[C]. Proceedings of the 9th ACL Workshop on Innovative Use of NLP for Building Educational Applications. New York:ACM Press,2014:28-33.

      [12] GIANLUCA ELIA,GIANLUCA SOLAZZO,GIANLUCA LORENZO,et al. Assessing learners' satisfaction in collaborative online courses through a big data approach[J]. Computers in Human Behavior, 2019(92): 589-599.

      [13] 劉三,彭晛,劉智,等. 面向MOOC課程評論的學(xué)習(xí)者話題挖掘研究[J]. 電化教育研究,2017,38(10):30-36.

      [14] 潘怡,葉輝,鄒軍華. E-learning評論文本的情感分類研究[J]. 開放教育研究,2014,20(2):88-94.

      [15] 陳迪,代艷君,王志鋒. 論壇主題挖掘研究綜述[J]. 計算機工程與應(yīng)用,2017,53(16):36-44.

      [16] PHAN X H,NGUYEN L M, HORIGUCHI S. Learning to classify short and sparse text & web with hidden topics from large-scale data collections[C]. Proceedings of the 17th Inter?national Conference on World Wide Web. ACM, 2008:91-100.

      [17] BASHER A R M A, FUNG B C M. Analyzing topics and authors in chat logs for crime investigation[J]. Knowledge and Information Systems, 2014, 39(2): 351-381.

      [18] BLEI D M,NG A Y,JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research,2003,3(3):993-1022.

      [19] 王鵬,高鋮,陳曉美. 基于LDA模型的文本聚類研究[J]. 情報科學(xué),2015,33(1):63-68.

      [20] HAO H, ZHANG K, WANG W, et al. A tale of two countries: International comparison of online doctor reviews between china and the united states[J]. International Journal of Medical Informatics, 2017(99):37-44.

      (責(zé)任編輯:杜能鋼)

      巴林右旗| 汉源县| 武胜县| 泉州市| 武穴市| 锦州市| 辽阳县| 临湘市| 凌云县| 宜城市| 会东县| 铜川市| 时尚| 延吉市| 漯河市| 斗六市| 清镇市| 保亭| 扶余县| 富阳市| 潢川县| 蒙阴县| 高平市| 青冈县| 浦东新区| 阆中市| 连州市| 建瓯市| 卢湾区| 罗田县| 周至县| 邯郸市| 广西| 甘泉县| 大邑县| 红安县| 潮州市| 镇巴县| 昌江| 故城县| 台北县|