基于模型集成的在線學習投入評測方法研究

2020-11-16 06:56李振華張昭理劉海

中國遠程教育 2020年10期

李振華張昭理劉海

【摘要】? 針對慕課等在線學習課程存在的完成率低、輟課率高等問題，不少研究者通過檢測學習者的學習投入度來發(fā)現(xiàn)“問題”學生，對其進行干預以保證學習效果。本文以構建在線學習投入自動化評測模型為目標，通過構建集成評測模型，利用學習過程中產(chǎn)生的視頻圖片和鼠標流數(shù)據(jù)對學習者的投入水平進行評測。集成模型由3個子模型組成，其中兩個子模型用于進行圖片數(shù)據(jù)的處理，一個子模型用于進行鼠標流數(shù)據(jù)的處理，圖片部分的評測采用VGG16卷積神經(jīng)網(wǎng)絡對源圖片和相應的LGCP特征進行評測，鼠標流數(shù)據(jù)采用BP神經(jīng)網(wǎng)絡進行評測。最后，利用模型集成的方法對學習者的學習投入度進行綜合評測，再將其結果與學習者填寫的NSSE-China調(diào)查量表的結果進行相關性分析，結果顯示兩者的評測結果顯著相關，表明該模型用于學習投入評測是可行且有效的。

【關鍵詞】? 在線學習;學習投入;自動化評價;視頻圖片;鼠標流數(shù)據(jù);卷積神經(jīng)網(wǎng)絡;BP神經(jīng)網(wǎng)絡;模型集成

【中圖分類號】? G434? ? ? 【文獻標識碼】? A? ? ? ?【文章編號】? 1009-458x（2020）10-0009-09

一、引言

自2012年“慕課元年”以來，大量在線學習平臺井噴式推出，涌現(xiàn)出許多具有影響力的慕課平臺，如國外的Coursera、EdX、Udacity和國內(nèi)的中國大學MOOC、學堂在線等。慕課憑借其“大規(guī)?！薄伴_放”“在線”等特點吸引了大量學習者（陳肖庚，等， 2013），但在實踐過程中研究者發(fā)現(xiàn)大部分在線學習平臺存在著輟課率高、完成率低的問題。Ho等（Ho， et al.， 2014）研究了MIT推出的17門慕課課程的學習統(tǒng)計數(shù)據(jù)，發(fā)現(xiàn)最初的8.4萬名學習者中只有5.1%的人順利拿到了證書。Jordan（2015）對多個慕課平臺課程的學習情況進行研究后發(fā)現(xiàn)：慕課課程的平均完成率只有15%，最高也只能達到40%。蔣卓軒等（2015）分析了近8萬人的中文慕課學習行為數(shù)據(jù)后也發(fā)現(xiàn)類似的現(xiàn)象：學習者參與課程的情況總體呈現(xiàn)下降趨勢，且前期下降較為迅速，后期下降較為平緩。因此，提高在線學習的完成率、降低輟課率，提升在線學習的學習效果，成為研究者普遍關心的問題。其實，輟課率高、課程完成率低的問題在傳統(tǒng)的學校教育早已存在，并非在線教育所特有。早期的研究者認為這些問題的出現(xiàn)主要跟學習者的學習投入不高有關，不少研究發(fā)現(xiàn)學生學習結果與學習投入程度存在正向關系（Kuh， 2001， 2009）。因此，研究者們從學習者學習投入評測的角度出發(fā)，通過評測發(fā)現(xiàn)學習投入不高的學生并及時給予干預，以此保證學習效果。同時，對于學習者在線學習情況的精準評測有助于推動各類在線教學平臺的迭代開發(fā)以及為研制學科工具提供參考數(shù)據(jù)（劉海，等， 2018），也為打造個性化、智能化的教學環(huán)境提供技術支持（劉海，等， 2018; 張昭理，等， 2018）。

二、學習投入評測相關研究

界定學習投入概念的結構是開展評測分析的重要前提和基礎。學習投入被普遍認為是一個多維度的元構念，但學術界對于學習投入的維度構成并未達成一致認識，從二維度到四維度均有支持者。但是Fredricks等人（Fredricks， Blumenfeld， & Paris， 2004）提出的“行為、認知、情感”三維度說獲得了較多的支持和認可。

學習投入的評測研究是在明確了概念維度的基礎上針對某一個或幾個維度，運用特定的方法和技術手段來開展的。常用的評測方法包括：①自我報告法（Shernoff， Csikszentmihalyi， Shneider， & Shernoff， 2003）;②經(jīng)驗抽樣法（Fredricks & McColskey， 2012）;③教師打分法（Wigfield， et al.， 2008）;④訪談法;⑤觀察法（Greenwood， Horton， & Utley， 2002）。

學習投入的評測對于解決在線學習情境下學生輟課率高、完成率低的問題同樣具有借鑒意義。不過，在在線學習過程中因受到師生時空分離、學生規(guī)模龐大、教師對學生的約束力減弱等因素影響，傳統(tǒng)教育情境下的評測方法并不能很好地勝任。因此，在線學習情境下日志數(shù)據(jù)分析通常是評測學習者行為投入的常用方法。例如，Hamane等人（2014）、Sundar等人（2016）以及李爽等人（2016）的研究都通過分析在線學習系統(tǒng)中產(chǎn)生的日志數(shù)據(jù)來實現(xiàn)對學習投入的評測或成績的預測。他們通常的做法是從日志數(shù)據(jù)中抽取或構建出反映學習投入不同維度的指標變量，利用回歸分析、結構方程等方法構建評測模型。但是，日志數(shù)據(jù)主要針對學習行為進行記錄，在表征情感和認知維度的投入情況方面存在局限，而且其記錄的方式是基于事件觸發(fā)，這使得所記錄的投入狀態(tài)數(shù)據(jù)是離散且不均勻的，影響了評測的準確性。而且在學習投入的各維度中認知、情感方面的投入是學習過程中的實質(zhì)性投入，能促進學生高階思維的發(fā)展并影響學習結果和體驗（Nystrand & Gamoran， 1991）。因此，為了對情感和認知投入進行測量，不少研究者將腦電傳感器、皮膚感應傳感器、血壓儀、心率儀等傳感設備用于對學習者的投入狀態(tài)和興奮水平進行測量（Chaouachi， Chalfoun， Jraidi， & Frasson， 2010; Goldberg， Sottilare， Brawner， & Holden， 2011）。基于傳感器的評測方法可對學習過程中的生理指標進行全面的記錄，能對學習中的情感和認知維度進行有效的表征，但是這些設備主要適用于實驗室環(huán)境，易用性和經(jīng)濟性不高。Booth等人（2017）則利用攝像頭對學習者的面部表情進行識別以判斷學習投入。該方法主要利用計算機視覺方法對學生的表情狀態(tài)進行判斷，因此對情感投入的評測具有較好的效果，加之使用方便、成本較低，易于普及。

從技術發(fā)展的視角來看，學習投入評測的發(fā)展過程大致呈現(xiàn)出從人工收集數(shù)據(jù)進行分析到借助信息系統(tǒng)自動收集數(shù)據(jù)進行分析，從粗粒度分析到細粒度分析，從定性分析到定量分析的發(fā)展軌跡。評測效率和精度的提升在很大程度上得益于信息技術的采用或技術本身的更新、升級。隨著物聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能技術的興起，各種新技術正嘗試尋找與在線學習評測領域的最佳結合點，助推學習投入評測向自動化、智能化、精細化方向發(fā)展。

三、基于模型集成的學習投入評測

學習投入本身具有多維度的特點，涉及行為、情感和認知多個維度（Fredricks， et al.， 2004）?，F(xiàn)有的研究大多以單一來源的數(shù)據(jù)作為基礎開展評測以證實對于學習投入評測的有效性。在這些研究成果的基礎之上，我們希望能更進一步探索基于多種來源數(shù)據(jù)的學習投入評測，這不僅有助于得到更為精準的評測結果，而且是構建自動化評測系統(tǒng)的重要技術基礎。因此，我們期望將多個評測結果進行融合來實現(xiàn)對多個維度投入的評測，提升評測的準確性。本研究針對在線學習過程中的情感和認知維度的評測開展研究，采用攝像頭和鼠標作為主要的數(shù)據(jù)采集裝置，對學習者的在線學習投入度進行評測。

（一）實驗設計的研究基礎

由于人類的情感主要通過面部表情進行表達，采用計算機視覺技術對攝像頭采集的人臉表情數(shù)據(jù)進行分析可以了解學習者在線學習過程中的情感投入狀況。除此以外，也有研究發(fā)現(xiàn)學習者的頭部和身體姿態(tài)與情感和認知投入之間存在確切的聯(lián)系，并通過實驗證實了頭部或身體姿態(tài)用于情感和認知投入分析的可行性（Ballenghein & Baccino， 2019; DMello & Graesser， 2009）。

認知投入屬于學習者的內(nèi)隱狀態(tài)，除了通過量表進行分析外，心理學領域通常對閱讀過程中的眼動行為與認知加工之間的關系進行分析和研究。在接近一百多年的研究歷史中，研究者提出了多個眼動控制模型，普遍認為閱讀過程中的注視時間、凝視時間、眼跳距離、回掃頻率等眼動行為參數(shù)與認知加工之間存在著確切的基本對應關系（趙晶，等， 2007）。Miller（2015）在此基礎上通過分析閱讀者在自主閱讀情境下的眼動行為實現(xiàn)了在微觀層面對學習投入進行測量。在以自主閱讀為主要學習方式的在線學習中，眼動分析是測量學習投入較為有效的方法之一，但較高的設備成本限制了眼動分析方法的廣泛使用。

鼠標作為學生與學習系統(tǒng)、學習資源進行交互的主要輸入設備，具有較強的表征能力。鼠標點擊流數(shù)據(jù)記錄了學習者進出系統(tǒng)各學習模塊和頁面的時間、次數(shù)、先后順序等信息，基于這些信息所形成的日志數(shù)據(jù)常用于對學習行為投入進行評測（李爽，等， 2016; 李爽，等， 2017; 李爽，等， 2018）。此外，多項鼠標軌跡和眼動軌跡的相關性研究表明，在進行在線閱讀或相關搜索任務的過程中，鼠標的移動軌跡和眼動軌跡之間存在著較強的相關關系和固定的“眼-鼠”跟隨模式（Chen， Anderson， & Sohn， 2001; Huang， White， & Buscher， 2012; Liebling & Dumais， 2014），而且眼動軌跡通常引導著鼠標的移動（Liebling & Dumais， 2014）。Lagun和Agichtein（2011）在更大規(guī)模下開展實驗后發(fā)現(xiàn)，在不使用眼動設備的情況下，鼠標移動數(shù)據(jù)的結果與實驗室環(huán)境下的眼動跟蹤結果是相關聯(lián)的。可以看出，鼠標數(shù)據(jù)本身不僅僅表征了學習者在行為方面的投入，而且在在線閱讀的情況下，通過鼠標軌跡數(shù)據(jù)可以對學習者的閱讀速度、停留時長和回視瀏覽等情況有較為細致的了解。因此，鼠標移動數(shù)據(jù)也具備和眼動數(shù)據(jù)一樣的表征學習者認知投入狀態(tài)的能力。

本研究以攝像頭和鼠標流數(shù)據(jù)作為來源數(shù)據(jù)分別構建評測模型，最后通過模型集成的方式將兩個維度的評測模型進行融合，并將評測結果與學習者填寫的量表數(shù)據(jù)進行對比來檢測模型的實際評測效果。

（二）實驗流程

實驗分為四個主要部分：數(shù)據(jù)收集、數(shù)據(jù)標注、模型訓練和模型檢驗。

1. 數(shù)據(jù)收集

由于需要采集學習過程中的攝像頭數(shù)據(jù)和鼠標數(shù)據(jù)，本研究主要針對學習者面對桌面電腦進行“一對一”自主學習的學習情景。所謂“一對一”是指一個學習者面對一臺學習終端（臺式電腦或筆記本電腦）進行學習的情況。其中，攝像頭固定于顯示屏上沿用來采集學習者的正面表情，鼠標則記錄學習者對學習頁面的控制情況，實驗中的學習頁面主要由圖片、文字、動態(tài)圖和視頻構成，以垂直滾動的方式進行瀏覽。整個實驗示意圖見圖1。

待相關數(shù)據(jù)收集完畢后，學習者在學習結束時還需要填寫NSSE-China調(diào)查表以確定實際的投入狀態(tài)水平，所謂NSSE-China是《全美學習投入調(diào)查量表》（National Survey of Student Engagement， NSSE）的中文版（羅燕，等， 2009）。學習投入的評測量表除了NSSE-China外，還有《學生學習投入量表》（Utrech Work Engagement Scale-Student， UWES-S），不過UWES-S主要從動機、精力和專注三個維度開展評測，對于學習過程中的交互、情感和認知維度的評測較為薄弱。相比之下，在對于行為、情感和認知維度的覆蓋上NSSE-China問卷要更為全面。

2. 數(shù)據(jù)標注

采集到的視頻流數(shù)據(jù)需要處理為離散的圖片數(shù)據(jù)并進行投入水平的標注以方便進行評測模型的訓練。標注人員對圖片數(shù)據(jù)進行標注，為所有離散圖片中學習者的投入狀態(tài)水平進行打分，投入水平值為1、2、3，分別對應“不投入”“一般性投入”“非常投入”三種投入狀態(tài)。

3. 模型訓練

構造多模態(tài)數(shù)據(jù)評測模型，對圖像數(shù)據(jù)和鼠標移動數(shù)據(jù)進行綜合評測得到最終的學生學習投入水平。因為標記圖片數(shù)據(jù)規(guī)模依然偏小，因此通過增加噪聲、反轉(zhuǎn)、旋轉(zhuǎn)、尺度變換等操作擴充數(shù)據(jù)并構建訓練數(shù)據(jù)集。在模型訓練階段，將數(shù)據(jù)集劃分為訓練集和測試集并對模型進行訓練。訓練過程中采用10折交叉驗證的方式進行模型選擇。

4. 模型檢驗

將評測模型得到的學生投入結果與學生填寫的NSSE-China量表得到的投入結果進行對比以檢驗模型的準確性，如果兩個結果存在較強的相關關系就說明面部表情數(shù)據(jù)和鼠標移動數(shù)據(jù)能夠表征學習者在線學習投入狀態(tài)，可以作為學習投入評測的依據(jù)。

（三）實驗組織

本研究以某高校2018年上學期網(wǎng)絡公共選修課“知識管理方法和實踐”的一個班學生作為研究對象，共47名同學，均來自各個學院研一研二年級。其中，男生19名，女生28名;最大的26歲，最小的23歲，整體平均年齡為24.47±0.87歲;學生的院系來源組成，生命科學學院10.6%，計算機學院21.3%，經(jīng)管學院17%，教育學院51.1%。主要的學習方式為學生使用電腦進行“一對一”在線自主學習，教師通過在線互動的方式開展輔導，在整個學習過程中學生可以使用系統(tǒng)中的博客、留言、Wiki等模塊進行學習、交互等活動，同時也被要求盡量獨立進行在線學習，不要出現(xiàn)多人同時學習交流的情況。在線學習管理系統(tǒng)記錄學生的日志行為數(shù)據(jù)，攝像頭記錄學生的學習視頻數(shù)據(jù)，鼠標則記錄學習頁面的滾動瀏覽情況和對應的時間戳。

（四）圖片數(shù)據(jù)的標注方法

由于在在線學習過程中學生表情較少且表情背后所代表的含義與一般情境下的表情含義有所不同，學習過程中主要以中立表情為主，其他表情則主要分布在無聊、困惑、滿足等幾種表情之中（DMello， 2013）。因此，通用的表情數(shù)據(jù)集并不適用于學習評測模型的構建，而應該使用專門的數(shù)據(jù)集進行模型訓練。本研究中采用Whitehill等人（Whitehill， Serpell， Lin， Foster， & Movellan， 2014）提出的從視頻數(shù)據(jù)中提取靜態(tài)圖像，然后進行人工標注的方法構建訓練數(shù)據(jù)集。這些視頻圖片均是從視頻數(shù)據(jù)中以固定時間間隔進行提取的。在固定時間間隔的設置上，我們主要從圖像關鍵幀丟失和數(shù)據(jù)量大小兩方面進行考慮：一方面，間隔時間如果設置過大會丟失含有關鍵表情的圖像幀;另一方面，如果間隔時間設置過小則會導致提取的圖片過多，進而增加圖像標注的工作量。我們參照Whitehill等人（2014）提出的方法，并通過對學習者的學習視頻進行抽樣分析后發(fā)現(xiàn)以2秒為時間間隔將視頻數(shù)據(jù)轉(zhuǎn)換為圖片序列在圖像幀丟失和數(shù)據(jù)量大小方面滿足我們的要求。在獲取了圖像序列后，標注人員觀察每張圖片和與該圖片時間戳相對應時刻的鼠標移動數(shù)據(jù)，然后給圖片標注1到3的學習投入水平值。最終得到每位學習者不同學習時間學習投入水平的序列值，不同學習投入水平的圖示見圖2。

該方案的優(yōu)點在于：①單張圖片便于進行人工識別，處理上相對簡單;②在統(tǒng)一的評判標準下，圖片中學生的投入水平容易確定且發(fā)生模棱兩可的情況較少。對此，我們基于Whitehill等人（2014）提出的標注方法擬定了一個指導性的學習投入度評判標準。標注人員根據(jù)標準分別從圖片中學習者的頭部姿態(tài)、視線位置、表情狀態(tài)和鼠標軌跡對圖片進行投入水平的評判。三種投入水平的參考標準為：

“非常投入”主要表現(xiàn)為學習者頭部姿態(tài)是正位或者前傾，視線點位置落在屏幕區(qū)域內(nèi)，表情以中性表情為主，并且主要呈現(xiàn)出聚精會神的狀態(tài)，鼠標在整個學習頁面中位置變化的幅度較小;

“一般性投入”主要表現(xiàn)為學習者頭部基本處于正位或存在輕微偏斜，視線點位置在屏幕區(qū)域內(nèi)，表情以自然表情為主，精力集中的程度較“非常投入”的狀態(tài)要輕，鼠標位置變化的幅度較大;

“不投入”主要表現(xiàn)為頭部姿態(tài)不正，無法看到正臉，視線不在屏幕上或呈現(xiàn)閉眼的狀態(tài)，表情方面主要表現(xiàn)為漫不經(jīng)心、無聊、沮喪等，鼠標移動的幅度變化一般處于靜止和劇烈變化兩個極端。

該標準對于標注員來說并不是硬性的，在實際標注過程中很多情況下依然需要標注員借助自身經(jīng)驗進行靈活判斷。因此，圖片標注的準確性受標注人員自身專業(yè)素質(zhì)、圖片可辨析程度等因素影響，不同標注人員針對同一圖像的標注結果可能會有不一致的情況發(fā)生。我們通過Kendall系數(shù)來檢驗不同標注人員的標注結果一致性，以保證標注圖像具有較高的一致性。所有表情圖片的訓練數(shù)據(jù)分為10個批次進行標注，每個批次圖像均分給8個標注員完成，并確保標注數(shù)據(jù)滿足一致性要求。最終，我們通過SPSS計算出所有標注員標注結果的Kendall系數(shù)，如表1所示。

（五）鼠標移動數(shù)據(jù)的獲取

學習者與在線學習管理系統(tǒng)間的互動主要通過鼠標來完成，尤其是學習者在學習頁面中的閱讀情況，譬如注視時間、閱讀速度、頁面滾動或翻頁頻率等情況都可以借助鼠標的移動、停留、滾輪滾動等數(shù)據(jù)反映出來。Navalpakkam等人（2013）就發(fā)現(xiàn)用戶在瀏覽網(wǎng)頁時鼠標的移動軌跡和視線移動軌跡存在較大的相關性，而且可以用來預測用戶在訪問網(wǎng)頁時的注意力。Huang等人（2012）總結出用戶在瀏覽網(wǎng)頁以及完成搜索任務時，鼠標與視線之間還存在較為固定的跟隨模式。因此，通過檢測鼠標在整個學習頁面中的位置能夠間接反映學習過程中學習者的視線和注意力的變化情況。但是和利用鼠標軌跡進行基于生物學測定的身份識別任務不同，身份識別的任務通常以100毫秒作為時間間隔（Rodden & Fu， 2007; 沈超，等， 2010）詳細記錄鼠標軌跡以及移動過程中帶有個人特征的動作細節(jié)，而本實驗主要關注的是鼠標的位置變化，采樣太過精細會增加與分析任務無關的冗余信息，因此實驗中我們以200毫秒為間隔時間記錄鼠標光標在頁面中的絕對位置。該時間間隔下采集的軌跡數(shù)據(jù)在保留主要位置信息的同時也減弱了移動軌跡的起始和結束端附近區(qū)域鼠標點過于密集的情況。此外，在實驗中與鼠標位置同時記錄的還有時間戳信息。時間戳主要用于與視頻圖片的時間戳保持同步。在標注階段，這些鼠標移動數(shù)據(jù)與圖片數(shù)據(jù)都被標注相同的投入水平值。

（六）數(shù)據(jù)集的劃分

本研究以8∶2的比例劃分訓練集和測試集，訓練集的數(shù)據(jù)采用10折交叉驗證（10-fold cross-validation）的方式進行模型的訓練和參數(shù)的調(diào)優(yōu)，測試集的數(shù)據(jù)用于測試模型的泛化能力。在標記數(shù)據(jù)的過程中我們發(fā)現(xiàn)，學習者在每次學習過程中的投入行為并非均勻分布，表現(xiàn)出前段學習投入較高、中段較低、后段又較高的普遍情況。因此，為了確保訓練集和測試集數(shù)據(jù)分布的一致性，我們根據(jù)課程時間段將數(shù)據(jù)分為前、中、后三部分，在三部分混合的基礎上再進行訓練集、測試集的劃分以確保數(shù)據(jù)分布盡量均勻。數(shù)據(jù)集的劃分方法如圖3所示。

（七）集成模型的構建

針對本研究的數(shù)據(jù)特點，我們構建了一個融合卷積神經(jīng)網(wǎng)絡和BP神經(jīng)網(wǎng)絡的集成評測模型，整個模型集成了三個子模型，其中兩個卷積神經(jīng)網(wǎng)絡子模型用于對學習者的表情圖片進行識別，一個BP神經(jīng)網(wǎng)絡子模型用于對學習者的鼠標移動數(shù)據(jù)進行識別，整個模型如圖4所示。

卷積神經(jīng)網(wǎng)絡（CNN）多用于圖像識別等視覺任務（Agrawal & Mittal， 2020），其“端到端”和“數(shù)據(jù)驅(qū)動”的特點相比傳統(tǒng)視覺識別方法具有更好的識別效果。本研究中我們使用經(jīng)典的VGG16模型進行圖片的識別。為加強圖片識別效果，其中一個子模型采用基于源圖像的自適應加權局部格雷碼模式（Local Gray Code Patterns， LGCP）的特征提取方法（吉訓生，等， 2017）來進行識別，該方法能夠克服LBP對非單調(diào)光線變化敏感的問題。針對鼠標移動數(shù)據(jù)的識別采用BP神經(jīng)網(wǎng)絡模型，其中輸入層選取表情圖片所屬時間戳前20秒內(nèi)的鼠標移動數(shù)據(jù)作為輸入（總共100個鼠標坐標點），隱含層節(jié)點數(shù)為20，輸出節(jié)點數(shù)為3。三個子模型的輸出層節(jié)點數(shù)為3個，分別對應1到3的學習投入度水平值。每個模型通過softmax函數(shù)計算出每個輸出節(jié)點取值的概率值大小，最后三個子模型通過投票法得到集成后的投入水平值。最終投入水平的計算公式為：

式中K代表分類器總個數(shù)，[Rk]代表第k個分類器的識別率。三個子模型的訓練準確性曲線如圖5所示。

（八）集成模型的檢驗

集成模型的檢驗是在三個子模型完成訓練之后將三個模型利用投票的方法進行集成，并利用測試集數(shù)據(jù)對集成模型進行測試。最終，集成模型和子模型的對比結果如表 2所示。

可以看出，經(jīng)過集成后模型對測試數(shù)據(jù)的準確率有一定的提升，這也說明通過將多個模型進行集成來提高評測準確率的方法是有效的。

最后，將學生學習數(shù)據(jù)輸入集成模型計算出學生的投入水平，并計算這些結果與學生填寫NSSE-China量表得到的投入水平結果之間的Spearman相關系數(shù)，進行相關分析。其中，量表的投入水平值的計算方法是：將所有反向計分題的分值進行反轉(zhuǎn)，求得各個維度的得分均值，將各維度均值求和作為最終的學習投入水平值。最終結果如表 3所示。

可以看出集成評價模型的最終評測結果與學生填寫量表結果在P<0.05的水平上顯著相關，這說明集成模型的評測結果與量表相近，即集成評測模型通過分析學習者的客觀數(shù)據(jù)能夠得到與量表評價相似的結果，也間接說明了學生的學習投入狀態(tài)是會通過表情和閱讀行為表現(xiàn)出來的，通過相關傳感器設備對這些客觀數(shù)據(jù)進行捕捉和分析能夠?qū)崿F(xiàn)學習投入度的自動化評測。

四、結果討論

從本研究的結果可以明顯看出：

1. 從單個評測模型的準確率來看，基于圖像的評測模型效果優(yōu)于基于鼠標移動數(shù)據(jù)的評測模型。我們認為主要原因在于表情數(shù)據(jù)本身對情感維度的表征比較準確，特定的情感狀態(tài)一定對應著特定的表情，學習者不會在學習過程中露出與實際情感不相符的表情。鼠標數(shù)據(jù)在表征閱讀行為時有一定的誤差，雖然鼠標存在著追隨視線的固定移動模式，但是在時間上存在著滯后性，而且存在一些突發(fā)的不可預知的鼠標動作，例如學習者左右晃動鼠標來確認光標位置的行為都會對分析造成影響。此外，鼠標停留的狀態(tài)可能表示學習者在思考，也有可能表示學習者在開小差。針對這個問題，一方面可以參考其他傳感器數(shù)據(jù)來彌補僅依靠單傳感器進行評測的不足，另一方面可以通過使用更合適的傳感器來解決，如眼動儀等。

2. 基于多模態(tài)數(shù)據(jù)的集成模型比單模態(tài)數(shù)據(jù)模型有更好的評測準確度，不過準確度提升尚不夠顯著。對于集成模型能夠提升評測效果較容易理解：由于現(xiàn)實中很難找到一種模態(tài)數(shù)據(jù)能夠全面地表征學習投入，任何單一維度的數(shù)據(jù)只能從某一個或幾個方面對學習投入進行表征。因此，對多維度數(shù)據(jù)進行綜合分析能夠得到更為準確的結果，增加其他模態(tài)的數(shù)據(jù)對于提升模型評測的準確性是有益的。對于準確度提升不夠明顯的問題，我們認為一方面是模型在融合策略的選擇以及子模型訓練、參數(shù)優(yōu)化等方面存在不足，導致性能提升有限;另一方面，可能因為表情數(shù)據(jù)和鼠標移動數(shù)據(jù)在表征學習投入的維度上存在重疊，使圖片數(shù)據(jù)和鼠標數(shù)據(jù)對某一學習投入維度或者子維度進行了重復評測。例如，本研究中我們認為學習過程中的情感主要通過表情體現(xiàn)出來，因此主要采用表情數(shù)據(jù)進行情感分析，但是一些基于具身認知理論的研究發(fā)現(xiàn)鼠標軌跡和情感之間同樣存在著相關性（Yamauchi & Xiao， 2018）。在這種情況下，融合更多的模態(tài)數(shù)據(jù)以盡可能地全面覆蓋學習投入的所有維度似乎是提升評測準確性的最佳解決辦法。當然這也需要在后續(xù)的研究中進一步驗證。

此外，本研究的局限在于學生樣本數(shù)偏小，使得模型的通用性受到一定影響。另外，受實驗組織的限制，學習內(nèi)容方面無法估計不同科目和不同難度系數(shù)的學習內(nèi)容對學習者的學習投入所造成的影響大小，這也使得收集到的與學習投入相關的表情和鼠標數(shù)據(jù)不一定能覆蓋到所有可能的情況，進而會對模型的識別能力造成一定影響。不過，考慮到模型本身是通過數(shù)據(jù)驅(qū)動的，隨著訓練數(shù)據(jù)集質(zhì)量的提高和數(shù)量規(guī)模的增大，集成模型的性能表現(xiàn)可能會得到進一步提升。因此，如果能在較大范圍內(nèi)開展試驗，通過控制不同難度和不同學習內(nèi)容對學習者的影響，以獲得更為豐富和更具代表性的數(shù)據(jù)，對于提升模型的準確性和通用性是非常有益的。

五、小結與展望

本研究針對“一對一”在線學習情境下學習者的在線學習投入自動評測問題開展研究，通過構建融合表情識別和鼠標移動數(shù)據(jù)分析的集成模型來進行評測，其中子模型分別采用了VGG16深度網(wǎng)絡模型和BP神經(jīng)網(wǎng)絡模型，并利用自我標注的數(shù)據(jù)集進行訓練。最終，集成模型的評測結果與學生填寫的NSSE-China調(diào)查量表的結果顯著相關。本研究結果說明在在線學習過程中學生所產(chǎn)生的各個維度的傳感數(shù)據(jù)可被捕捉、量化，并可用于對學習投入的分析，也進一步說明了采用多模態(tài)數(shù)據(jù)進行學習投入評測的可行性。不過，由于實驗數(shù)據(jù)來自較小的學生群體，影響了模型的通用性，需要在后續(xù)的研究中進一步改進和檢驗。本研究為未來的研究提供了幾點思路：第一，在現(xiàn)有研究基礎上能否再進一步集成多個模態(tài)的數(shù)據(jù)，且模型的表現(xiàn)隨著集成模態(tài)數(shù)據(jù)的增多是否呈現(xiàn)簡單的線性關系值得更進一步研究。第二，本研究的數(shù)據(jù)集中學生出現(xiàn)的表情類型不夠豐富，而通用的表情數(shù)據(jù)集涵蓋了人類較為典型的基本表情，這些表情數(shù)據(jù)能否用于評測模型的訓練也需要進一步驗證。第三，本研究的應用場景主要是針對使用桌面電腦或者筆記本的情況。對于使用手機和平板電腦的移動學習場景，如何實施有效的學習投入評測值得進一步探索。

[參考文獻]

陳肖庚，王頂明. 2013. MOOC的發(fā)展歷程與主要特征分析[J]. 現(xiàn)代教育技術，23（11）：5-10.

吉訓生，王榮飛. 2017. 自適應加權LGCP與快速稀疏表示的面部表情識別[J]. 計算機工程與應用，53（1）：158-162.

蔣卓軒，張巖，李曉明. 2015. 基于MOOC數(shù)據(jù)的學習行為分析與預測[J]. 計算機研究與發(fā)展，52（3）：614-628.

李爽，王增賢，喻忱，等. 2016. 在線學習行為投入分析框架與測量指標研究——基于LMS數(shù)據(jù)的學習分析[J]. 開放教育研究，22（2）：77-88.

李爽，鐘瑤，喻忱，等. 2017. 基于行為序列分析對在線學習參與模式的探索[J]. 中國電化教育（3）：88-95.

李爽，李榮芹，喻忱. 2018. 基于LMS數(shù)據(jù)的遠程學習者學習投入評測模型[J]. 開放教育研究，24（1）：91-102.

劉海，陳瑩瑩，張昭理，等. 2018. 多學科資源工具研制與教學實踐創(chuàng)新研究[J]. 電化教育研究，39（4）：46-51.

劉海，李姣姣，張維，等. 2018. 面向在線教學平臺的數(shù)據(jù)可視化方法及應用[J]. 中國遠程教育（1）：37-44.

羅燕，海蒂·羅斯，岑逾豪. 2009. 國際比較視野中的高等教育測量——NSSE-China工具的開發(fā)：文化適應與信度、效度報告[J]. 復旦教育論壇，7（5）：12-18.

沈超，蔡忠閩，管曉宏，等. 2010. 基于鼠標行為特征的用戶身份認證與監(jiān)控[J]. 通信學報，31（7）：68-75.

張昭理，李陽，劉海. 2018. 多屏多點觸控教學系統(tǒng)支撐下教學創(chuàng)新與變革[J]. 電化教育研究，39（3）：82-89.

趙晶，陳巍，曹亮. 2007. 當代眼動研究對閱讀心理學介入綜述[J]. 浙江教育學院學報（1）：25-30.

Agrawal， A.， & Mittal， N. （2020）. Using CNN for facial expression recognition： A study of the effects of kernel size and number of filters on accuracy. The Visual Computer， 36（2）， 405-412.

Ballenghein， U.， & Baccino， T. （2019）. Referential processing during reading： Concurrent recordings of eye movements and head motion. Cognitive Processing， 20（3）， 371-384.

Booth， B. M.， Ali， A. M.， Narayanan， S. S.， Bennett， I.， & Farag， A. A. （2017）. Toward active and unobtrusive engagement assessment of distance learners. In 2017 Seventh International Conference on Affective Computing and Intelligent Interaction （ACII）（pp. 470-476）.

Chaouachi， M.， Chalfoun， P.， Jraidi， I.， & Frasson， C. （2010）. Affect and Mental Engagement： Towards Adaptability for Intelligent. In FLAIRS Conference.

Chen， M. C.， Anderson， J. R.， & Sohn， M. H. （2001）. What can a mouse cursor tell us more？ In J. A. Jacko， A. Sears， & J. Arnowitz （Eds.）， CHI 2001： Anyone， anywhere： CHI 2001 extended abstracts， conference on human factors in computing systems （p. 281）. New York， NY： Association for Computing Machinery.

DMello， S. （2013）. A selective meta-analysis on the relative incidence of discrete affective states during learning with technology. Journal of educational psychology， 105（4）， 1082-1099.

DMello， S.， & Graesser， A. （2009）. Automatic Detection Of Learners Affect From Gross Body Language. Applied Artificial Intelligence， 23（2）， 123-150.

Fredricks， J. A.， Blumenfeld， P. C.， & Paris， A. H. （2004）. School Engagement： Potential of the Concept， State of the Evidence. Review of Educational Research， 74（1）， 59-109.

Fredricks， J. A.， & McColskey， W. （2012）. The Measurement of Student Engagement： A Comparative Analysis of Various Methods and Student Self-report Instruments. In S. Christenson， A. L. Reschly， & C. Wylie （Eds.）， Handbook of research on student engagement （pp. 763-782）. New York： Springer.

Goldberg， B. S.， Sottilare， R. A.， Brawner， K. W.， & Holden， H. K. （2011）. Predicting Learner Engagement during Well-Defined and Ill-Defined Computer-Based Intercultural Interactions. In S. DMello， A. Graesser， B. Schuller， & J.-C. Martin （Eds.）， Affective Computing and Intelligent Interaction （pp. 538-547）. Berlin， Heidelberg： Springer Berlin Heidelberg.

Greenwood， C. R.， Horton， B. T.， & Utley， C. A. （2002）. Academic engagement： Current perspectives in research and practice. School Psychology Review， 31（3）， 328-349.

Hamane， A. C. （2014）. Student engagement in an online course and its impact on student success （Doctoral dissertation）. Retrieved from Pepperdine University. （2014.3615910）.

Ho， A. D.， Reich， J.， Nesterko， S. O.， Seaton， D. T.， Mullaney， T.， Waldo， J.， et al. （2014）. HarvardX and MITx： The first year of open online courses， fall 2012-summer 2013. Social Science Research Network （2014）. http：//ssrn. com/abstract， 2381263.

Huang， J.， White， R. W.， Buscher， G. （2012）. User See， User Point： Gaze and Cursor Alignment in Web Search. Proceedings of the 2012 ACM annual conference on human factors in computing systems （pp. 1341-1350）.New York， NY： ACM.

Katy Jordan （2015， June 12）. MOOC completion rates. Retrieved Oct. 23，2019 from? http：//www.katyjordan.com/MOOCproject.html

Kuh， G. D. （2001）. The National Survey of Student Engagement： Conceptual framework and overview of psychometric properties. Bloomington， IN： Indiana University Center for Postsecondary Research， 126.

Kuh， G. D. （2009）. The national survey of student engagement： Conceptual and empirical foundations. New Directions for Institutional Research， 2009（141）， 5-20.

Lagun， D.， Agichtein， E. （2011）. ViewSer： enabling large-scale remote user studies of web search examination and interaction. In W.-Y. Ma （Ed.）： ACM Digital Library， Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval （p. 365）. New York， NY： ACM.

Liebling， D. J.， Dumais， S. T. （2014）. Gaze and mouse coordination in everyday work. In A. J. Brush， A. Friday， J. Kientz， J. Scott， & J. Song （Eds.）， UbiComp14 adjunct： Proceedings of the 2014 ACM International Joint Conference on Pervasive and Ubiquitous Computing ： September 13-17， 2014， Seattle， WA， USA （pp. 1141-1150）. New York： Association for Computing Machinery.

Miller， B. W. （2015）. Using Reading Times and Eye-Movements to Measure Cognitive Engagement. Educational Psychologist， 50（1），31-42.

Navalpakkam， V.， Jentzsch， L.， Sayres， R.， Ravi， S.， Ahmed， A.， & Smola， A. （Eds.）（2013）. Measurement and Modeling of Eye-mouse Behavior in the Presence of Nonlinear Page Layouts： Proceedings of the 22nd international conference on World Wide Web.

Nystrand， M.， Gamoran， A. （1991）. Instructional discourse， student engagement， and literature achievement. Research in the Teaching of English， 261-290.

Rodden， K.， & Fu， X. （2007）. Exploring how mouse movements relate to eye movements on web search results pages. Proceedings of ACM SIGIR 2007， 29-32.

Shernoff， D. J.， Csikszentmihalyi， M.， Shneider， B.， Shernoff， E. S. （2003）. Student engagement in high school classrooms from the perspective of flow theory. School Psychology Quarterly， 18（2）， 158-176.

Sundar， P.， Kumar， A. S. （2016）. Disengagement detection in online learning using log file analysis. International journal of computer technology and applications， 9（27）， 195-301.

Whitehill， J.， Serpell， Z.， Lin， Y.-C.， Foster， A.， & Movellan， J. R. （2014）. The Faces of Engagement： Automatic Recognition of Student Engagement from Facial Expressions. IEEE Transactions on Affective Computing， 5（1）， 86-98.

Wigfield， A.， Guthrie， J. T.， Perencevich， K. C.， Taboada， A.， Klauda， S. L.， McRae， A.， et al. （2008）. Role of reading engagement in mediating effects of reading comprehension instruction on reading outcomes. Psychology in the Schools， 45（5）， 432-445.

Yamauchi， T.， & Xiao， K. （2018）. Reading Emotion From Mouse Cursor Motions： Affective Computing Approach. Cognitive Science， 42（3）， 771-819.

收稿日期：2019-10-28

定稿日期：2020-05-26

作者簡介：李振華，博士研究生，高級實驗師;張昭理，博士，教授，博士生導師;劉海，博士，副教授，碩士生導師，本文通訊作者。華中師范大學國家數(shù)字化學習工程技術研究中心（430079）。

責任編輯單玲

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于模型集成的在線學習投入評測方法研究