吳怡君 馮曉英
(北京師范大學(xué) 學(xué)習(xí)設(shè)計與學(xué)習(xí)分析重點(diǎn)實(shí)驗室,北京 100875)
互聯(lián)網(wǎng)時代,在線學(xué)習(xí)和混合式學(xué)習(xí)逐漸興起,人們在任何時間、地點(diǎn)都能方便地學(xué)習(xí),在線教育巨大的發(fā)展?jié)摿Τ躏@端倪(約翰·丹尼爾,2016)。但由于在線學(xué)習(xí)的規(guī)模較大,對于學(xué)習(xí)者而言是否能及時獲得教師的支持、對于教師而言能否及時評估學(xué)習(xí)者的在線學(xué)習(xí)狀態(tài)從而進(jìn)行干預(yù)、能否識別并預(yù)測合格學(xué)習(xí)者的特征等都是在線學(xué)習(xí)領(lǐng)域理論研究者和實(shí)踐者關(guān)注的重要問題(盧紫荊,劉紫荊,鄭勤華,2019;曾嘉靈,等,2018)。由加拿大學(xué)者加里森等人提出的探究社區(qū)理論中的臨場感是近年來衡量在線學(xué)習(xí)者學(xué)習(xí)水平的一個重要指標(biāo)(Garrison, Anderson, & Archer, 1999; Ke, 2010; Morris, 2011; Szeto, 2015; 吳祥恩,陳曉慧,吳靖,2017)。
目前研究中常用的方法是問卷法和內(nèi)容分析法,前者基于學(xué)習(xí)者自我判定,誤差較大;后者數(shù)據(jù)量大且誤差小。但內(nèi)容分析法要求研究者對大量、冗雜的文本數(shù)據(jù)進(jìn)行臨場感水平的人工編碼,需要花費(fèi)大量的時間和人力成本。此外,由于人力的局限,人工編碼數(shù)據(jù)的準(zhǔn)確性和前后一致性也存在著較大的問題。
近年來,自然語言處理(Natural Language Processing, NLP)技術(shù)的迅速發(fā)展,為臨場感的測量帶來了新的可能。理論和技術(shù)的日漸成熟,開源的中文自然語言處理工具包越來越多,使用方法也都十分方便易懂。將中文自然語言處理技術(shù)運(yùn)用到論壇帖的文本內(nèi)容分析中,實(shí)現(xiàn)臨場感的自動編碼和水平測量,從而幫助教師及時了解學(xué)習(xí)者的在線學(xué)習(xí)水平,這或許是一種值得探索的解決方法。由于研究人員和時間的限制,本研究僅以探究社區(qū)理論中的社會臨場感為例,進(jìn)行了編碼路徑的探索。
本研究以在線學(xué)習(xí)者社會臨場感的編碼為例,希望能夠借助自然語言處理的已有算法、技術(shù)和工具,探索在線學(xué)習(xí)者會話內(nèi)容自動編碼的不同算法路徑。通過比較可行路徑得出最優(yōu)路徑,從而實(shí)現(xiàn)文本的自動編碼和學(xué)習(xí)者社會臨場感水平的測量。
探究社區(qū)理論模型(Community of Inquiry Framework),又稱探究社區(qū)框架(見圖1),是由加拿大學(xué)者加里森等人共同提出的一個對在線學(xué)習(xí)者學(xué)習(xí)狀態(tài)進(jìn)行分析的動態(tài)模型(Garrison et al., 1999)。該理論認(rèn)為,在線學(xué)習(xí)和混合式學(xué)習(xí)中有三個關(guān)鍵要素:社會臨場感(Social Presence)、教學(xué)臨場感(Teaching Presence)及認(rèn)知臨場感(Cognitive Presence),只有當(dāng)這三個要素均達(dá)到較高水平時,有效學(xué)習(xí)才會發(fā)生(Garrison, Anderson, & Archer, 2001)。
圖1 探究社區(qū)模型示意圖
目前學(xué)者們常用于臨場感水平編碼測量的方法是問卷調(diào)查法和內(nèi)容分析法。問卷調(diào)查法需要研究者設(shè)計測量問卷或是應(yīng)用已有的量表工具對在線學(xué)習(xí)者臨場感水平進(jìn)行測量。Conrad(2005)使用問卷調(diào)查、訪談等方法測量了一組研究生學(xué)習(xí)者的臨場感水平,持續(xù)地追蹤了他們的社區(qū)意識發(fā)展。內(nèi)容分析法則往往需要研究者對在線課程中學(xué)習(xí)者的主題帖、評論回復(fù)等進(jìn)行人工編碼,從而確定學(xué)習(xí)者的臨場感水平。Olesova、Slavin和Lim(2016)采用定量的內(nèi)容分析法探究了腳本對學(xué)習(xí)者在異步在線討論中的認(rèn)知臨場感水平的影響。Akyol和Garrison(2008)分析了社區(qū)的問卷調(diào)查結(jié)果,并對在線課程中論壇發(fā)帖進(jìn)行了內(nèi)容分析,從在線學(xué)習(xí)者臨場感水平的變化探索了探究社區(qū)的發(fā)展。
問卷調(diào)查法的操作步驟較為簡單,數(shù)據(jù)結(jié)構(gòu)良好,但只能收集學(xué)習(xí)者行為及感受的小部分?jǐn)?shù)據(jù),與學(xué)習(xí)者真實(shí)的臨場感水平有一定的偏差。內(nèi)容分析法的對象是全學(xué)習(xí)過程的所有文本內(nèi)容,數(shù)據(jù)量大且較為全面、豐富,但在目前的臨場感研究中,內(nèi)容分析法幾乎完全依賴人工編碼。這樣的內(nèi)容分析方式會耗費(fèi)大量的人力、時間成本,分析的準(zhǔn)確性和前后一致性也難以得到保證。
自然語言處理領(lǐng)域的迅速發(fā)展,為內(nèi)容分析法在臨場感的低成本自動測量帶來了新的可能。因此,本研究希望創(chuàng)造性地借助現(xiàn)有的自然語言處理技術(shù),探索機(jī)器自動編碼分析及測量臨場感水平的最優(yōu)路徑。
表1 社會臨場感中文編碼框架
北京師范大學(xué)馮曉英教授的團(tuán)隊對Garrison等(1999)提出的探究社區(qū)理論模型框架中的三種臨場感對應(yīng)的不同策略、標(biāo)準(zhǔn)進(jìn)行了翻譯,得到了完整的臨場感中文框架?;赗ourke、Anderson、Garrison和Archer(2001)對社會臨場感內(nèi)容分析框架的進(jìn)一步闡釋,對社會臨場感的中文編碼框架進(jìn)行了完善(見表1)。在本研究中采用這一框架作為理論依據(jù),對國家開放大學(xué)一期學(xué)習(xí)數(shù)據(jù)進(jìn)行人工標(biāo)注,形成監(jiān)督學(xué)習(xí)的訓(xùn)練語料,對驗證本研究探索出的自動編碼路徑是否正確有重要的參考作用。
近年來,能夠自動對海量的本文信息進(jìn)行處理、分析、理解的自然語言處理成為人工智能領(lǐng)域的一大研究熱點(diǎn)。美國計算機(jī)科學(xué)家Manaris(1998)將自然語言處理看作是一門研究在人與人、人與計算機(jī)之間的交際語言問題的學(xué)科。有賴于該領(lǐng)域研究者和實(shí)踐者的共同努力,中文自然語言處理技術(shù)發(fā)展到現(xiàn)在已經(jīng)較為成熟,有廣泛的應(yīng)用問題域,常見的有機(jī)器翻譯、情感分析、智能問答、文摘生成、文本分類、輿論分析和知識圖譜等。
本研究預(yù)期實(shí)現(xiàn)的功能本質(zhì)上是以上提到的文本分類問題。隨著國內(nèi)在線文本數(shù)量增長和機(jī)器學(xué)習(xí)的興起,逐漸形成了一套解決大規(guī)模文本分類問題的經(jīng)典方法。文本分類的常用方法是詞法分析、機(jī)器學(xué)習(xí)、混合分析以及深度學(xué)習(xí),本研究采用機(jī)器學(xué)習(xí)的方法進(jìn)行文本分類。
在機(jī)器學(xué)習(xí)的文本分類問題中,首先需要對數(shù)據(jù)進(jìn)行定義,即貼上類別標(biāo)簽。在對分類好的文本做好分詞、去停用詞等數(shù)據(jù)預(yù)處理的工作后,用相應(yīng)的特征提取算法,提取文本最有意義的特征向量。接下來就是最重要的模型訓(xùn)練階段,選擇不同的分類算法,放入特征向量后訓(xùn)練出對應(yīng)的文本分類器。用之前劃分好的測試集對不同路徑訓(xùn)練出的分類器進(jìn)行測試,評價分類器的質(zhì)量。通過比較,選擇通過最優(yōu)路徑構(gòu)建的分類器,對文本數(shù)據(jù)進(jìn)行分類。
本研究旨在運(yùn)用Python中文自然語言處理文本分類問題中機(jī)器學(xué)習(xí)的相關(guān)算法技術(shù),嘗試對在線課程中的論壇貼文本內(nèi)容進(jìn)行不同路徑的建模,比較不同分類器的模型質(zhì)量后得出最優(yōu)路徑,構(gòu)建在線學(xué)習(xí)者的社會臨場感編碼模型組,實(shí)現(xiàn)對文本進(jìn)行自動編碼和在線學(xué)習(xí)者社會臨場感水平的測量,從而更好地幫助教師及時了解學(xué)習(xí)者的學(xué)習(xí)狀態(tài)并進(jìn)行相應(yīng)的干預(yù)。
針對確定的研究目標(biāo),本研究需要重點(diǎn)解決以下三個研究問題:
Q1: 臨場感自動編碼的可行路徑有哪些?
Q2: 最優(yōu)路徑是什么?
Q3: 最優(yōu)路徑的有效性如何?
本研究將基于Moodle平臺的國家開放大學(xué)在線教師培訓(xùn)課程“在線輔導(dǎo)”作為課程案例。該課程為持續(xù)一學(xué)期的線上課程,共有44名學(xué)習(xí)者有效參與,學(xué)習(xí)者均是國家開放大學(xué)的一線教師。選取的研究對象是此前已被人工編碼的課程論壇帖,以一個討論帖作為基本數(shù)據(jù)單元。初步篩選無效數(shù)據(jù)后,兩位編碼人員以社會臨場感中文編碼框架為理論指導(dǎo)背對背對論壇帖進(jìn)行編碼。綜合兩位編碼人員的社會臨場感編碼結(jié)果,清除無法達(dá)成一致編碼結(jié)果的數(shù)據(jù),最終獲取了社會臨場感三個策略維度的有效編碼數(shù)據(jù),數(shù)據(jù)量如表2所示。
表2 社會臨場感有效編碼數(shù)據(jù)表
本研究運(yùn)用的研究方法是自然語言處理,使用了jieba開源分詞工具,對論壇中的文本內(nèi)容進(jìn)行分類,從機(jī)器學(xué)習(xí)的方法上來看是有監(jiān)督的學(xué)習(xí)問題。研究過程中共涉及四項重要技術(shù):特征提取、分類算法、模型評估和臨場感水平測量。
1. 特征提取
在一條文本數(shù)據(jù)中僅有少量信息對分類任務(wù)有意義,即“特征”,為了提升獲取信息和訓(xùn)練模型的效率,研究采用了詞袋模型和TF-IDF算法兩種方式進(jìn)行特征提取。
2. 分類算法
自然語言處理中機(jī)器學(xué)習(xí)的核心是算法。本研究選取了機(jī)器學(xué)習(xí)常用的三種分類算法:多項樸素貝葉斯、支持向量機(jī)和邏輯回歸。
3. 模型評估
為了評估訓(xùn)練出的分類器模型的性能,研究選取了準(zhǔn)確率(Accuracy)、精準(zhǔn)率(Precision)、召回率(Recall)和F1測度(F1-measure)四個維度。準(zhǔn)確率反映了分類正確的樣本占總樣本量的比例。精準(zhǔn)率和召回率是檢索系統(tǒng)中的常用概念,前者表示正確預(yù)測為正的占全部預(yù)測為正的比例,后者表示正確預(yù)測為正的占全部實(shí)際為正的比例。一般而言,精準(zhǔn)率和召回率無法同時達(dá)到理想數(shù)值,F(xiàn)1測度即為準(zhǔn)確率和召回率的調(diào)和平均值。
4. 臨場感水平測量
每一條文本數(shù)據(jù)都有對應(yīng)的發(fā)帖人,訓(xùn)練出的分類器對文本數(shù)據(jù)進(jìn)行預(yù)測編碼,體現(xiàn)社會臨場感某一策略維度的標(biāo)記為“1”,計1分;否則標(biāo)為“0”,不計分。調(diào)用Python中Collections集合模塊中的Counter函數(shù)累計分?jǐn)?shù),從而獲得每一位學(xué)習(xí)者的臨場感水平。
研究過程共分為六個階段,分別是:提出研究問題、標(biāo)注語料、數(shù)據(jù)預(yù)處理、探索可行路徑、比較最優(yōu)路徑和有效性驗證。
1. 提出研究問題
對探究社區(qū)理論的相關(guān)文獻(xiàn)進(jìn)行整理和研究,歸納出研究者對臨場感自動編碼工具的需求,結(jié)合中文語言處理技術(shù)的發(fā)展現(xiàn)狀,確定研究目標(biāo)進(jìn)而提出三個關(guān)鍵的研究問題。
2. 標(biāo)注語料
第一步,確定編碼框架。本研究采用了北京師范大學(xué)馮曉英教授的團(tuán)隊根據(jù)加里森等人提出的探究社區(qū)模型漢化的臨場感編碼中文框架。
第二步,數(shù)據(jù)清洗及預(yù)編碼。對論壇帖進(jìn)行初步篩選,剔除重復(fù)的、無意義的以及非學(xué)習(xí)者發(fā)帖的數(shù)據(jù)。兩名研究人員按照編碼框架對兩百條數(shù)據(jù)進(jìn)行預(yù)編碼。在編碼過程中及時溝通交流,對編碼不一致的數(shù)據(jù)進(jìn)行討論,從而基本達(dá)成對編碼框架的理解共識。
第三步,標(biāo)注語料。兩名研究人員以社會臨場感編碼中文框架為理論指導(dǎo)對論壇數(shù)據(jù)進(jìn)行背對背編碼。經(jīng)過比對兩名研究人員的編碼結(jié)果,剔除編碼不一致的數(shù)據(jù),得到標(biāo)注語料作為本研究的訓(xùn)練數(shù)據(jù)。
3. 數(shù)據(jù)預(yù)處理
第一步,規(guī)范格式。原始的論壇帖文本內(nèi)容是以PDF格式保存,不符合建模的數(shù)據(jù)規(guī)范,因此需要先將初始數(shù)據(jù)規(guī)范化處理成建模需要的TXT格式。每一個論壇帖都有相對應(yīng)的發(fā)帖人名以及社會臨場感編碼,將三類數(shù)據(jù)按順序一一對應(yīng)地存入TXT中,便于后續(xù)研究的進(jìn)行。
第二步,分詞。中文語言處理相較英語而言更難,原因之一就是中文不像英文一樣有天然的詞分隔符。因此所有中文語言處理任務(wù)的第一步都是分詞。本研究選取了功能豐富但操作相對簡單的分詞軟件jieba進(jìn)行分詞。
第三步,去除停用詞。在文本內(nèi)容中常常出現(xiàn)和表達(dá)句意無關(guān)的字詞、標(biāo)點(diǎn)符號等,對于文本處理的速度和效果都有影響,這些被稱作“停用詞”,需要去除。本研究自定義了停用詞表,在常見停用詞的基礎(chǔ)上保留了對于社會臨場感“情感的表達(dá)”(AF)這一策略有表征作用的“!”“哈哈”等,最終停用詞表的內(nèi)容包含大部分標(biāo)點(diǎn)符號、數(shù)字編號、無意義的連詞,如“?!薄?.”“或者”等。
4. 探索可行路徑
將預(yù)處理后的數(shù)據(jù)劃分成訓(xùn)練集和測試集,測試集比例為30%。分別使用詞袋模型和TF-IDF算法提取特征向量后采用三種不同的算法:多項樸素貝葉斯(MNB)、邏輯回歸、支持向量機(jī)方法訓(xùn)練分類器,最終得到六個不同路徑的模型:基于詞袋模型特征的貝葉斯分類器、基于詞袋模型特征的邏輯回歸分類器、基于詞袋模型的支持向量機(jī)分類器、基于TFIDF的貝葉斯分類器、基于TF-IDF的邏輯回歸分類器和基于TF-IDF的支持向量機(jī)分類器。
5. 比較最優(yōu)路徑
引入評估函數(shù)分別檢驗六個不同路徑構(gòu)建的分類器在社會臨場感三個策略維度上的準(zhǔn)確率、精準(zhǔn)率、召回率以及F1測度等四項評估數(shù)值,通過對比分析得到每一策略維度對應(yīng)的最優(yōu)路徑。
6. 有效性驗證
調(diào)用Collections模塊,以累計的方式測量得到每一位學(xué)習(xí)者的社會臨場感水平,并將其與學(xué)習(xí)者的真實(shí)水平對比,驗證最優(yōu)路徑獲得的分類器是否能夠有效地測量出在線學(xué)習(xí)者的社會臨場感水平。
通過應(yīng)用不同的特征提取方法和分類算法,共找到六條可行路徑:基于詞袋模型特征的貝葉斯分類器、基于詞袋模型特征的邏輯回歸分類器、基于詞袋模型特征的支持向量機(jī)分類器、基于TF-IDF的貝葉斯分類器、基于TF-IDF的邏輯回歸分類器和基于TF-IDF的支持向量機(jī)分類器。每條可行路徑訓(xùn)練得到社會臨場感三個策略維度的模型:情感的表達(dá)(AF)、開放的交流(OC)、團(tuán)體凝聚力(CH)。進(jìn)一步調(diào)用函數(shù)評估六個不同分類器訓(xùn)練得到的十八個模型的質(zhì)量,評估數(shù)值包括準(zhǔn)確率、精準(zhǔn)率、召回率以及F1測度。
通過比較不同路徑訓(xùn)練的分類器的準(zhǔn)確率、精準(zhǔn)率、召回率以及F1測度四項數(shù)值(重點(diǎn)比較準(zhǔn)確率和F1測度),解決 “最優(yōu)路徑是什么”的研究問題。
比較“情感的表達(dá)”(AF)策略維度的六個分類器的評估數(shù)值,如圖2所示,模型質(zhì)量相差不大?;谠~袋模型特征的貝葉斯分類器準(zhǔn)確率相對較低,為0.67;基于詞袋模型特征支持向量機(jī)分類器F1測度相對較低,為0.65;基于TF-IDF邏輯回歸分類器四個評估指標(biāo)均為第一,模型質(zhì)量最高。
圖2 “情感的表達(dá)”(AF)不同路徑分類器比較圖
比較“開放的交流”(OC)策略維度的六個分類器的評估數(shù)值,如圖3所示,模型質(zhì)量相差極小且評估數(shù)值均在0.7以上。基于TF-IDF的貝葉斯分類器和基于TF-IDF的邏輯回歸分類器模型質(zhì)量相對較差;基于TF-IDF的支持向量機(jī)分類器四個評估數(shù)值均達(dá)到0.85左右,模型的綜合質(zhì)量相對更高。
比較“團(tuán)體凝聚力”(CH)策略維度的六個分類器的評估數(shù)值,如圖4所示,模型質(zhì)量相差較大?;谠~袋模型特征的支持向量機(jī)分類器準(zhǔn)確率相對較低,為0.64;基于詞袋模型特征的貝葉斯分類器準(zhǔn)確率相對較高,為0.68;基于TF-IDF的支持向量機(jī)分類器F1測度相對較高,為0.62;綜合來看,基于詞袋模型特征的貝葉斯分類器模型質(zhì)量最好。
對于本研究采用的數(shù)據(jù),TF-IDF的特征提取略優(yōu)于詞袋模型,有利于提高分類器的模型質(zhì)量。而貝葉斯、邏輯回歸、支持向量機(jī)三種分類算法無明顯的差別。綜合以上比較結(jié)果,分別選取三個策略維度最優(yōu)路徑的分類器,形成用于編碼在線學(xué)習(xí)者社會臨場感的模型組,如表3所示。
圖3 “開放的交流”(OC)不同路徑分類器比較圖
圖4 “團(tuán)體凝聚力”(CH)不同路徑分類器比較圖
表3 在線學(xué)習(xí)者社會臨場感編碼模型組
調(diào)用函數(shù)獲取44位學(xué)習(xí)者社會臨場感水平的模型組預(yù)測值和真實(shí)值。首先用單因素方差分析方法對兩組數(shù)據(jù)進(jìn)行差異性分析,分析結(jié)果如表4所示。兩組數(shù)據(jù)的單因素方差分析的顯著性系數(shù)p值大于0.05,說明兩組數(shù)據(jù)的差異無統(tǒng)計學(xué)意義的差異。此外,進(jìn)一步分析兩組數(shù)據(jù)的相關(guān)性,表5結(jié)果顯示真實(shí)值和預(yù)測值顯著相關(guān)(p<0.001)。綜合以上兩個分析結(jié)果來看,模型組預(yù)測得出的學(xué)習(xí)者社會臨場感水平與真實(shí)的社會臨場感水平較為接近,誤差在可接受的范圍之內(nèi),模型的有效性得到驗證。
表4 學(xué)習(xí)者臨場感水平預(yù)測值和真實(shí)值的方差分析
表5 學(xué)習(xí)者臨場感水平預(yù)測值和真實(shí)值的相關(guān)系數(shù)分析
作為一項路徑探索的研究,研究路徑和研究設(shè)計是本研究最為核心的部分,其中有以下三點(diǎn)值得進(jìn)行更加深入的思考和討論。
目前文本分類問題在自然語言處理領(lǐng)域有很多經(jīng)典的解決方法,這些方法的實(shí)現(xiàn)步驟、關(guān)鍵技術(shù)等都有所差異。在進(jìn)行本研究的最優(yōu)路徑探索時,為了盡可能地提升建模的效果,對四種較為常見的文本分類方法進(jìn)行比較和分析,如表6所示。
表6 文本分類常用方法
在這四種方法中,混合分析目前還沒有較為成熟的算法可以借鑒。此外,本研究所采用的數(shù)據(jù)集數(shù)據(jù)量大約在2 000條,但未達(dá)到深度學(xué)習(xí)的水平,因此后兩種方法都不適合采用。數(shù)據(jù)集此前已被編碼(即已經(jīng)人為確定規(guī)則),數(shù)據(jù)質(zhì)量較好,符合應(yīng)用機(jī)器學(xué)習(xí)方法的條件。詞法分析需要預(yù)標(biāo)記詞匯組成的字典,而社會臨場感的測量往往并不能僅僅以某個詞作為判斷標(biāo)準(zhǔn),所以詞法分析并不適用于本研究。
綜上所述,本研究選取了文本分類問題中常用的機(jī)器學(xué)習(xí)方法,研究結(jié)果顯示,通過機(jī)器學(xué)習(xí)方法訓(xùn)練出的模型質(zhì)量較高,符合預(yù)期,可以為后續(xù)的相關(guān)研究提供參考。
正如前文的研究目標(biāo)所述,本研究希望能夠探索在線學(xué)習(xí)者社會臨場感自動編碼的最優(yōu)路徑。而最優(yōu)路徑的產(chǎn)生必定離不開多條可行路徑的探索。在文本分類問題的機(jī)器學(xué)習(xí)中,特征提取和分類算法的選擇是關(guān)鍵環(huán)節(jié)。本研究選取的特征提取算法有兩種,分別是詞袋模型和TF-IDF算法,選取的分類算法是樸素貝葉斯、邏輯回歸和支持向量機(jī)三類算法。通過對這兩個環(huán)節(jié)不同算法選擇的組合,共得到六種可行的臨場感編碼路徑。
為了比較六種不同的編碼路徑,本研究引入了準(zhǔn)確率、精準(zhǔn)率、召回率以及F1測度四個評估指標(biāo)。通過對量化指標(biāo)的對比,能夠更加明確地看出哪條路徑訓(xùn)練的模型質(zhì)量更好,從而得出最優(yōu)路徑。
從研究結(jié)果來看,引入的四個指標(biāo)很好地表征了路徑之間的差異。但另一個問題隨之而來,路徑的評估數(shù)值有高有低,但差異很小,這在一定程度上表明路徑的探索還不夠開闊。在后續(xù)的研究中可以有意識地選取更多算法,探索差異更大的路徑,不斷迭代,尋找在線學(xué)習(xí)者臨場感編碼的最優(yōu)路徑。
過擬合與欠擬合相對,是指機(jī)器學(xué)習(xí)模型或者是深度學(xué)習(xí)模型在訓(xùn)練樣本中表現(xiàn)得過于優(yōu)越,導(dǎo)致在測試數(shù)據(jù)集以及驗證數(shù)據(jù)集合中表現(xiàn)不佳的現(xiàn)象。自然語言處理的核心環(huán)節(jié)是構(gòu)建模型,而模型構(gòu)建的關(guān)鍵在于算法和訓(xùn)練數(shù)據(jù)集的選擇,過擬合的產(chǎn)生原因主要就來源于這二者。
本研究首要的研究問題是探索臨場感自動編碼的可行路徑有哪些。為了盡可能地節(jié)省探索的時間和人力成本,在正式探索前,采用少量的數(shù)據(jù)樣本作為訓(xùn)練集對不同算法組合進(jìn)行初步嘗試,但構(gòu)建出的六個不同路徑的模型都出現(xiàn)了過擬合現(xiàn)象。
由于采用的算法都是自然語言處理領(lǐng)域較為成熟的算法,并且六個模型都出現(xiàn)了過擬合現(xiàn)象,因此初步排除了算法選擇失誤的可能性。結(jié)合過擬合產(chǎn)生的兩種原因,應(yīng)該是作為嘗試的訓(xùn)練數(shù)據(jù)樣本選擇出現(xiàn)了失誤。深入分析抽取的少量數(shù)據(jù)樣本,發(fā)現(xiàn)收取的這部分?jǐn)?shù)據(jù)主要來源于小組破冰時的論壇交互,社會臨場感表現(xiàn)十分顯著,與課程實(shí)施時的平均水平有較大差異,從而導(dǎo)致過擬合產(chǎn)生。
重新選取數(shù)據(jù)樣本后,經(jīng)驗證,在訓(xùn)練集選擇恰當(dāng)?shù)那闆r下,采用不同算法組合構(gòu)建的分類模型均沒有出現(xiàn)過擬合現(xiàn)象。在自然語言處理的相關(guān)研究中,當(dāng)處理數(shù)據(jù)出現(xiàn)問題時,回到數(shù)據(jù)的真正意義上去分析是明智的選擇。
隨著國內(nèi)學(xué)者越來越多地將探究社區(qū)理論引入在線學(xué)習(xí)、混合式學(xué)習(xí)的相關(guān)研究,如何準(zhǔn)確且高效地對中文在線課程中學(xué)習(xí)者的交互內(nèi)容進(jìn)行臨場感編碼也被更多人所關(guān)注。本研究探索了用自然語言處理的方法討論文本臨場感自動編碼的建模技術(shù)。通過分別比較三個不同策略維度的六個分類器的模型質(zhì)量,選取模型訓(xùn)練的最優(yōu)路徑,進(jìn)而形成在線學(xué)習(xí)者的社會臨場感編碼模型組。將模型預(yù)測的學(xué)習(xí)者社會臨場感水平與真實(shí)水平對比,誤差在可接受范圍內(nèi),能夠較為準(zhǔn)確地測量學(xué)習(xí)者的社會臨場感水平,驗證了模型的有效性。
本研究的研究成果能夠較為準(zhǔn)確地對在線學(xué)習(xí)者的社會臨場感水平進(jìn)行自動編碼,為后續(xù)基于論壇討論數(shù)據(jù)的臨場感自動分析工具開發(fā)提供了扎實(shí)的技術(shù)和模型基礎(chǔ),從而能夠快速地、低成本地實(shí)現(xiàn)對在線學(xué)習(xí)者臨場感水平的編碼測量。此外,本研究對于自動編碼路徑的探索過程能夠為其他模型工具類研究提供一定的參考和借鑒,從而拓展豐富模型工具類研究的研究思路。
由于研究實(shí)踐、人員等多方面的限制,本研究僅構(gòu)建了社會臨場感的編碼模型組,數(shù)據(jù)來源較為單一,數(shù)據(jù)量相對較少,模型的完善度和穩(wěn)定性還有很大的提升空間。在后續(xù)的研究中,期望能夠基于更加豐富的數(shù)據(jù),嘗試應(yīng)用深度學(xué)習(xí)算法等方式探索其他的建模路徑,完善社會臨場感編碼模型組,并構(gòu)建認(rèn)知臨場感和教學(xué)臨場感的編碼模型組,進(jìn)而形成一套完整的臨場感水平測量工具,實(shí)現(xiàn)對學(xué)習(xí)者在線交互文本的臨場感自動編碼和測量。