馬 寧 張燕玲 杜 蕾 王 琦
面向在線異步交互文本的情感—認(rèn)知自動(dòng)化分析模型研究*——以大規(guī)模教師在線培訓(xùn)為例
馬 寧1,2張燕玲1,3杜 蕾1,4王 琦5
(1.北京師范大學(xué) 教育學(xué)部教育技術(shù)學(xué)院,北京 100875;2.北京師范大學(xué) 未來(lái)教育高精尖創(chuàng)新中心,北京 100875; 3.深圳大學(xué)附屬教育集團(tuán)實(shí)驗(yàn)小學(xué),廣東深圳 518061; 4.深圳市龍華區(qū)松和小學(xué),廣東深圳 518109;5.北京外國(guó)語(yǔ)大學(xué)人工智能與人類語(yǔ)言重點(diǎn)實(shí)驗(yàn)室,北京 100089)
在線異步交互是大規(guī)模在線教育的一種重要交互方式,對(duì)學(xué)習(xí)體驗(yàn)和學(xué)習(xí)效果有較大影響。為深度挖掘教師學(xué)習(xí)者在線異步交互過(guò)程中的情感狀態(tài)和認(rèn)知水平,文章首先構(gòu)建了面向在線異步交互文本的情感—認(rèn)知自動(dòng)化分析模型及其自動(dòng)化分析流程,之后將模型應(yīng)用于大規(guī)模教師在線培訓(xùn)課程,通過(guò)采集異步交互數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),從不同機(jī)器學(xué)習(xí)算法中選取最優(yōu)算法,同時(shí)融合情感—認(rèn)知詞典進(jìn)行算法模型訓(xùn)練,構(gòu)建了面向具體應(yīng)用場(chǎng)景的情感—認(rèn)知算法模型。最后,文章得出研究結(jié)論:機(jī)器學(xué)習(xí)算法中支持向量機(jī)的文本自動(dòng)化分析效果最好,融合詞典與機(jī)器學(xué)習(xí)的方法能更好地提升算法模型的準(zhǔn)確率,采用網(wǎng)格搜索進(jìn)行參數(shù)優(yōu)化可以進(jìn)一步提升算法模型的效果。文章的研究為在線異步交互文本的自動(dòng)化分析提供了研究思路和技術(shù)支持,有利于深度挖掘教師學(xué)習(xí)者隱藏在交互文本中的情感狀態(tài)和認(rèn)知水平,為自動(dòng)反饋提供依據(jù),對(duì)于優(yōu)化異步交互學(xué)習(xí)過(guò)程具有重要意義。
在線異步交互;情感狀態(tài);認(rèn)知水平;機(jī)器學(xué)習(xí);教師學(xué)習(xí)者
全面提升教師的素質(zhì)能力,是我國(guó)教育信息化工作的一項(xiàng)重要任務(wù)[1]。大規(guī)模在線教師培訓(xùn)作為教師專業(yè)發(fā)展的一個(gè)重要途徑,得到了全球教育領(lǐng)域的廣泛關(guān)注[2]。其中,在線異步交互是一種非常重要的交流形式,教師學(xué)習(xí)者可以與學(xué)習(xí)同伴進(jìn)行特定領(lǐng)域內(nèi)容的深度交流,有助于保持學(xué)習(xí)興趣并提高課程參與度,促進(jìn)高階思維發(fā)展,對(duì)學(xué)習(xí)者學(xué)習(xí)質(zhì)量的提升有十分重要的作用[3]。此外,交互過(guò)程中的文本信息能夠清晰地再現(xiàn)教師學(xué)習(xí)者的情感、認(rèn)知發(fā)展過(guò)程,有利于從中挖掘、提取隱藏的關(guān)鍵信息,為教師學(xué)習(xí)者提供自動(dòng)干預(yù)和推理[4]。
然而,由于在線教師培訓(xùn)的復(fù)雜特征,面向異步交互文本的情感狀態(tài)和認(rèn)知水平的自動(dòng)化分析面臨諸多挑戰(zhàn),如情感狀態(tài)挖掘、認(rèn)知水平判斷的過(guò)程均依賴于特定學(xué)習(xí)者群體的特征和特定領(lǐng)域知識(shí)的結(jié)構(gòu);情感狀態(tài)和認(rèn)知水平具有較強(qiáng)的隱蔽性,難以精準(zhǔn)判斷;網(wǎng)絡(luò)教研和專業(yè)學(xué)習(xí)過(guò)程中產(chǎn)生的大量過(guò)程性文本及其蘊(yùn)含的大量認(rèn)知、情感等方面的特征信息仍以人工分析為主[5],不僅耗時(shí)費(fèi)力,而且不具備高可靠性,因而很多時(shí)候容易被忽視或放棄?;诖?,本研究以大規(guī)模教師在線培訓(xùn)為例,采用融合詞典和機(jī)器學(xué)習(xí)的文本自動(dòng)化分析方法,構(gòu)建面向在線異步交互文本的情感—認(rèn)知自動(dòng)化分析模型,以實(shí)現(xiàn)對(duì)教師學(xué)習(xí)者在線異步交互過(guò)程中情感狀態(tài)和認(rèn)知水平的深度挖掘,為提升教師在線培訓(xùn)效果提供思路。
當(dāng)前,對(duì)在線異步交互過(guò)程中學(xué)習(xí)者的自動(dòng)化分析主要從以下四個(gè)維度進(jìn)行:認(rèn)知水平、行為模式、情感狀態(tài)和交互關(guān)系[6]。李艷燕等[7]比較了支持教師干預(yù)與反饋的自動(dòng)化分析工具,發(fā)現(xiàn)多數(shù)工具聚焦于學(xué)習(xí)者的學(xué)習(xí)行為和交互關(guān)系分析,而缺少對(duì)情感狀態(tài)與認(rèn)知水平的深入探討??梢?jiàn),學(xué)習(xí)者異步交互過(guò)程中情感狀態(tài)與認(rèn)知水平的自動(dòng)化分析有待進(jìn)一步研究。
情感狀態(tài)自動(dòng)化分析是指對(duì)學(xué)習(xí)者情緒反應(yīng)水平的自動(dòng)識(shí)別、判斷與分析。異步交互過(guò)程中的態(tài)度和情緒是學(xué)習(xí)者學(xué)習(xí)質(zhì)量的關(guān)鍵因素[8],且已有實(shí)證研究發(fā)現(xiàn)教師學(xué)習(xí)者在參與培訓(xùn)時(shí)情感狀態(tài)具有顯著的波動(dòng)性[9]。因此,深入挖掘?qū)W習(xí)者的情感狀態(tài)對(duì)于優(yōu)化異步交互學(xué)習(xí)過(guò)程具有重要意義。目前,許多研究者聚焦于在現(xiàn)有情感識(shí)別框架的基礎(chǔ)上識(shí)別學(xué)習(xí)者的情感狀態(tài),如Tian等[10]開(kāi)發(fā)了一個(gè)面向在線學(xué)習(xí)者的情感識(shí)別框架,能夠?qū)Ξ惒浇换ノ谋局械那楦兄黝}進(jìn)行提?。获R相春等[11]開(kāi)發(fā)了一個(gè)學(xué)習(xí)者學(xué)習(xí)社區(qū),在其中挖掘文本中的情感信息,并通過(guò)情感字典計(jì)算學(xué)習(xí)者的學(xué)習(xí)情感傾向。也有部分研究者通過(guò)建立情感算法模型實(shí)現(xiàn)對(duì)學(xué)習(xí)者情感狀態(tài)的挖掘,如Liu等[12]將情感傾向納入異步交互算法模型,以探索特定討論主題下情感傾向的差異。
認(rèn)知水平分析主要關(guān)注學(xué)習(xí)者在異步交互時(shí)使用的認(rèn)知策略和心理資源。在異步交互過(guò)程中消除認(rèn)知沖突、提高認(rèn)知水平,對(duì)于實(shí)現(xiàn)教師的專業(yè)發(fā)展有重要意義[13]。因此,對(duì)教師學(xué)習(xí)者的認(rèn)知水平進(jìn)行精準(zhǔn)、高效的判斷與分析尤為重要。目前,認(rèn)知水平分析方法主要有問(wèn)卷調(diào)查法、作品分析法、訪談法等,雖各具優(yōu)勢(shì),但也存在一些不足。為此,研究者開(kāi)始嘗試使用內(nèi)容分析法對(duì)交互內(nèi)容做客觀、系統(tǒng)的量化并加以描述,如馬寧等[14]采用內(nèi)容分析法,從知識(shí)建構(gòu)層級(jí)的角度分析教師學(xué)習(xí)者參與培訓(xùn)時(shí)的認(rèn)知水平;孫雨薇等[15]運(yùn)用Henri的交互分析框架,探索教師學(xué)習(xí)者交互時(shí)提出的問(wèn)題以及問(wèn)題回應(yīng)的認(rèn)知水平。但目前內(nèi)容分析法仍以人工分析為主,在數(shù)據(jù)編碼與分析方面耗時(shí)巨大,難以完成大規(guī)模的數(shù)據(jù)挖掘,亟待突破技術(shù)限制。
在線異步交互過(guò)程中情感狀態(tài)與認(rèn)知水平的自動(dòng)化分析,是通過(guò)基于固定規(guī)則對(duì)異步交互文本進(jìn)行監(jiān)督學(xué)習(xí),從而將相關(guān)文本自動(dòng)劃分至某個(gè)類別的過(guò)程。目前,文本自動(dòng)化分析方法主要有三種:①基于詞典的方法,即以詞典作為分類的主要依據(jù),結(jié)合文本的語(yǔ)言特點(diǎn)和附加信息設(shè)計(jì)判斷規(guī)則,實(shí)現(xiàn)文本分類[16]。然而,該方法依賴于詞典的質(zhì)量與覆蓋率,極大地限制了應(yīng)用范圍。另外,目前還沒(méi)有專門(mén)針對(duì)教師在線培訓(xùn)這一特定領(lǐng)域的情感和認(rèn)知詞典,其中情感詞典也僅僅涉及正、負(fù)兩個(gè)極性,不適用于學(xué)習(xí)情境,亟需相關(guān)研究的探索。②基于機(jī)器學(xué)習(xí)的方法,是對(duì)人工標(biāo)注的訓(xùn)練集進(jìn)行算法模型訓(xùn)練,使算法模型很好地?cái)M合訓(xùn)練集和類別之間的關(guān)系,并預(yù)測(cè)未知類別的文檔[17]。③融合詞典和機(jī)器學(xué)習(xí)的方法,是將詞典信息作為一種特征與其他特征相組合進(jìn)行特征提取,構(gòu)建算法模型實(shí)現(xiàn)文本分類[18]??偟膩?lái)說(shuō),融合詞典和機(jī)器學(xué)習(xí)的方法優(yōu)化了前兩種單一文本分析方法的性能,可用于構(gòu)建面向在線異步交互文本的情感—認(rèn)知自動(dòng)化分析模型,來(lái)深入挖掘教師學(xué)習(xí)者內(nèi)隱的情感狀態(tài)和認(rèn)知水平。
本研究基于在線異步交互過(guò)程,深度挖掘教師學(xué)習(xí)者的情感狀態(tài)和認(rèn)知水平,采用融合詞典和機(jī)器學(xué)習(xí)的文本分析方法,構(gòu)建面向在線異步交互文本的情感—認(rèn)知自動(dòng)化分析模型,如圖1所示。該模型主要分為三大部分:①異步交互場(chǎng)景中的信息提?。虎诨诋惒浇换ノ谋镜那楦小J(rèn)知自動(dòng)化分析;③基于異步交互文本的情感—認(rèn)知自動(dòng)化分析的應(yīng)用。也就是說(shuō),基于在線學(xué)習(xí)平臺(tái)先從不同的異步交互場(chǎng)景中提取文本,然后對(duì)文本進(jìn)行情感—認(rèn)知自動(dòng)化分析,從而確定教師學(xué)習(xí)者的情感—認(rèn)知狀態(tài),最后為教師學(xué)習(xí)者提供合適的反饋。
圖1 面向在線異步交互文本的情感—認(rèn)知自動(dòng)化分析模型
圖2 面向在線異步交互文本的情感—認(rèn)知自動(dòng)化分析流程
依托面向在線異步交互文本的情感—認(rèn)知自動(dòng)化分析模型,本研究設(shè)計(jì)了如圖2所示的自動(dòng)化分析流程,主要思路為:首先,通過(guò)采集在線異步交互文本數(shù)據(jù),對(duì)種子語(yǔ)料的情感狀態(tài)和認(rèn)知水平進(jìn)行人工標(biāo)注,并按比例分層抽取訓(xùn)練集和測(cè)試集;接著,進(jìn)行數(shù)據(jù)預(yù)處理,形成詞集;隨后,對(duì)詞集進(jìn)行特征提取,結(jié)合評(píng)價(jià)指標(biāo)從不同的機(jī)器學(xué)習(xí)算法中選取最優(yōu)算法;最后,通過(guò)詞性篩選構(gòu)建情感—認(rèn)知種子詞集,詞典拓展后形成情感—認(rèn)知詞典,同時(shí)融合詞典進(jìn)行算法模型訓(xùn)練,通過(guò)測(cè)試集不斷優(yōu)化算法模型參數(shù),從而獲得面向在線異步交互文本的情感—認(rèn)知自動(dòng)化分析算法模型(下文簡(jiǎn)稱“情感—認(rèn)知算法模型”)。
本研究將面向在線異步交互文本的情感—認(rèn)知自動(dòng)化分析模型及其自動(dòng)化分析流程應(yīng)用于大規(guī)模教師在線培訓(xùn)課程,通過(guò)比較不同機(jī)器學(xué)習(xí)算法對(duì)異步交互文本分析的效果,同時(shí)融合情感—認(rèn)知詞典,構(gòu)建面向具體應(yīng)用場(chǎng)景的情感—認(rèn)知算法模型,實(shí)現(xiàn)不同異步交互場(chǎng)景下教師學(xué)習(xí)者情感狀態(tài)和認(rèn)知水平的自動(dòng)化分析。
本研究依托北京師范大學(xué)學(xué)習(xí)元平臺(tái)[19],開(kāi)設(shè)了“混合式理念下的項(xiàng)目式學(xué)習(xí)(第二期)”課程,開(kāi)展大規(guī)模教師在線培訓(xùn)。整個(gè)課程為期5周,每周課程的學(xué)習(xí)時(shí)長(zhǎng)為90分鐘,在線異步交互活動(dòng)圍繞每周的學(xué)習(xí)主題開(kāi)展。該課程共招募到1083名教師學(xué)習(xí)者參與課程學(xué)習(xí),生成了12576條交互文本被平臺(tái)自動(dòng)記錄。本研究借鑒情感狀態(tài)分析框架(含高確定性、低確定性、中立、挫折、緊張等五個(gè)維度)[20]、認(rèn)知水平分析框架(含澄清、深度澄清、推理、判斷、策略等五個(gè)維度,在此基礎(chǔ)上本研究增加“其他”維度,將無(wú)關(guān)信息歸入其中)[21],對(duì)少量種子語(yǔ)料(共2074條)進(jìn)行詳細(xì)的人工標(biāo)注;同時(shí),將在線異步交互文本數(shù)據(jù)集分層隨機(jī)抽取80%、20%,分別作為訓(xùn)練集和測(cè)試集。
數(shù)據(jù)預(yù)處理就是通過(guò)數(shù)據(jù)清洗、分詞、停用詞處理和詞性標(biāo)記等方法,選擇對(duì)分類有較高價(jià)值的數(shù)據(jù),并過(guò)濾無(wú)用或價(jià)值較小的數(shù)據(jù)。本研究采用N-gram統(tǒng)計(jì)語(yǔ)言算法模型對(duì)異步交互文本進(jìn)行分詞處理,利用上下文相鄰詞之間的相關(guān)信息,選擇具有最大出現(xiàn)概率的詞語(yǔ)組合,實(shí)現(xiàn)自動(dòng)分詞。詞性標(biāo)記選擇LightSIDE軟件及其詞類,其中共包含30多種詞類。
(1)特征提取
特征提取直接影響算法模型的精確率、召回率及分類系統(tǒng)的效率[22]。目前,特征選取的方法主要有TF-IDF權(quán)重計(jì)算、頻率統(tǒng)計(jì)、信息增益、互信息等。本研究采用TF-IDF權(quán)重計(jì)算方法,通過(guò)計(jì)算某個(gè)特征詞對(duì)一個(gè)類別的重要程度進(jìn)行特征提取,特征詞權(quán)重的計(jì)算如公式(1)所示。其中,TF為特征詞頻率,表示特征詞在文本中出現(xiàn)的頻率,用于衡量該特征詞在文本中的重要性;IDF為逆文檔頻率,是指某個(gè)特征詞的類別區(qū)分能力,其加入有利于區(qū)分文本的類別。但TF-IDF算法沒(méi)有考慮同義詞和詞性,這可能會(huì)減弱模型的分類效果。
公式(1)
(2)評(píng)價(jià)指標(biāo)
常用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值(F1-score)等。多分類問(wèn)題可以通過(guò)將其轉(zhuǎn)化為多個(gè)二分類問(wèn)題的方式展開(kāi)評(píng)價(jià),即在評(píng)價(jià)某一類別的分類性能時(shí),將本類別看作正類、其他類別看作負(fù)類。用TP、FP分別表示分類正確、分類錯(cuò)誤的正類數(shù)量,用TN、FN分別表示分類正確、分類錯(cuò)誤的負(fù)類數(shù)量,其計(jì)算公式如表1所示。
表1 各評(píng)價(jià)指標(biāo)公式表
與此同時(shí),本研究運(yùn)用Kappa系數(shù)值進(jìn)行多分類算法模型準(zhǔn)確度的評(píng)估,其計(jì)算基于混淆矩陣進(jìn)行,可在一定程度上緩解數(shù)據(jù)集不同類別之間的不平衡問(wèn)題(值越高,代表算法模型實(shí)現(xiàn)的分類準(zhǔn)確度越高),具體如公式(6)所示。其中,P通過(guò)該類別中正確分類樣本數(shù)除以總樣本數(shù)得到,P通過(guò)所有類別實(shí)際樣本數(shù)和預(yù)測(cè)樣本數(shù)的乘積除以總樣本數(shù)的平方得到。
(3)機(jī)器學(xué)習(xí)算法選取
機(jī)器學(xué)習(xí)算法主要包括支持向量機(jī)、邏輯回歸、決策樹(shù)、樸素貝葉斯等四種。本研究將上述四種算法的評(píng)價(jià)結(jié)果進(jìn)行對(duì)比,結(jié)果如表2所示。可以看出,與邏輯回歸、決策樹(shù)、樸素貝葉斯算法相比,支持向量機(jī)的準(zhǔn)確率和Kappa系數(shù)值更高、分類也更準(zhǔn)確。因此,本研究選用支持向量機(jī)作為機(jī)器學(xué)習(xí)算法,用來(lái)構(gòu)建情感—認(rèn)知算法模型。
在情感算法模型方面,四種機(jī)器學(xué)習(xí)算法在“高確定性”“中立”分類上的F1值普遍較高(均高于0.77),但在“挫折”“緊張”分類上的F1值普遍較低(均低于或等于0.68)。其中,支持向量機(jī)在“高確定性”“低確定性”分類上的F1值遠(yuǎn)高于其他三種算法,說(shuō)明支持向量機(jī)在“高確定性”“低確定性”分類上可以更好地提取相關(guān)的語(yǔ)義信息。但是,由于整體的“挫折”“緊張”分類樣本量過(guò)少,導(dǎo)致出現(xiàn)了數(shù)據(jù)集不同類別之間的不平衡,在一定程度上影響了算法模型的訓(xùn)練。
在認(rèn)知算法模型方面,四種機(jī)器學(xué)習(xí)算法在“澄清”“深度澄清”分類上的F1值普遍較低(均低于0.78)。其中,支持向量機(jī)在“推理”“策略”分類上的F1值明顯高于其他三種算法,說(shuō)明支持向量機(jī)在“推理”“策略”分類上可以更好地提取相關(guān)的語(yǔ)義信息。但是,由于“澄清”“深度澄清”分類可能存在部分特征詞語(yǔ)義相近、卻被作為兩個(gè)不同特征進(jìn)行權(quán)重分析的現(xiàn)象,不利于四種算法模型的訓(xùn)練[23],故有待進(jìn)一步改進(jìn)。
詞典的詞性篩選與同義詞擴(kuò)展,是提高算法模型準(zhǔn)確率的一個(gè)有效方法。本研究融合詞典和機(jī)器學(xué)習(xí),展開(kāi)基于詞典的特征詞詞性篩選、同義詞擴(kuò)展與合并,以提高算法模型的準(zhǔn)確率。
(1)情感—認(rèn)知詞典構(gòu)建
詞語(yǔ)的詞性會(huì)影響詞典的表現(xiàn)。在構(gòu)建情感詞典時(shí)保留名詞、動(dòng)詞、形容詞、副詞等詞性,可以使構(gòu)建出來(lái)的詞典更加全面、情感值計(jì)算更為合理。而在認(rèn)知詞典中,連詞具有很強(qiáng)的認(rèn)知意義。因此,對(duì)于情感詞集,本研究?jī)H保留形容詞、名詞、動(dòng)詞、副詞這四種詞性;對(duì)于認(rèn)知詞集,本研究還另外保留了連詞,構(gòu)成情感—認(rèn)知的種子詞集。
表2 不同機(jī)器學(xué)習(xí)算法的評(píng)價(jià)結(jié)果
《同義詞詞林》是目前國(guó)內(nèi)較為常用的中文語(yǔ)義詞典,已被廣泛應(yīng)用于中文詞語(yǔ)相似度計(jì)算研究[24]。本研究采用詞關(guān)系擴(kuò)展法,首先在《同義詞詞林》中查找與種子詞庫(kù)中詞語(yǔ)語(yǔ)義同義的詞語(yǔ),接著將同義詞語(yǔ)加入到種子詞集,之后人工篩除無(wú)法作為教師培訓(xùn)領(lǐng)域詞匯而又與種子詞相似度較高的詞語(yǔ),最后經(jīng)人工整合得到在線異步交互情感—認(rèn)知詞典,其類別、詞數(shù)及例子如表3所示。
(2)算法模型訓(xùn)練
為了提高算法模型的分類性能,本研究采用融合詞典和機(jī)器學(xué)習(xí)的方法,將在線異步交互情感—認(rèn)知詞典納入算法模型特征集,并將語(yǔ)義相近的詞語(yǔ)合并為同一特征。文本自動(dòng)化分析方法的評(píng)價(jià)結(jié)果如表4所示,可以看出:相較于基于機(jī)器學(xué)習(xí)的方法,融合詞典與機(jī)器學(xué)習(xí)的方法從整體上提升了算法模型的準(zhǔn)確率和Kappa系數(shù)值,其中情感算法模型的準(zhǔn)確率和Kappa系數(shù)值分別從0.8462、0.7956提高到了0.8702、0.8277,而認(rèn)知算法模型的準(zhǔn)確率和Kappa系數(shù)值分別從0.8058、0.7646提高到了0.8447、0.8118。
表3 在線異步交互情感—認(rèn)知詞典中的類別、詞數(shù)及例子
表4 文本自動(dòng)化分析方法的評(píng)價(jià)結(jié)果
(3)參數(shù)優(yōu)化
參數(shù)選擇的優(yōu)劣,將直接影響算法模型的分類效果。本研究采用帶交叉驗(yàn)證的網(wǎng)格搜索來(lái)實(shí)現(xiàn)參數(shù)選擇,具有計(jì)算簡(jiǎn)單的優(yōu)點(diǎn)[25],主要思路為:遍歷所有可能的參數(shù)組合,比較各種參數(shù)下情感—認(rèn)知算法模型的準(zhǔn)確率,將準(zhǔn)確率最高的參數(shù)組合作為算法模型的最優(yōu)參數(shù)。本研究通過(guò)人工篩選確定折數(shù)k,來(lái)實(shí)現(xiàn)多折網(wǎng)格搜索,得到的參數(shù)變化曲線如圖3所示。通過(guò)對(duì)相關(guān)數(shù)據(jù)進(jìn)行比較,本研究發(fā)現(xiàn):當(dāng)折數(shù)k=17時(shí),情感算法模型的準(zhǔn)確率和Kappa系數(shù)值達(dá)到最高值(情感準(zhǔn)確率=0.8846、情感Kappa系數(shù)值=0.8468);當(dāng)折數(shù)k=14時(shí),認(rèn)知算法模型的準(zhǔn)確率和Kappa系數(shù)值達(dá)到最高值(認(rèn)知準(zhǔn)確率=0.8689、認(rèn)知Kappa系數(shù)值=0.8411)??梢?jiàn),在大規(guī)模教師在線培訓(xùn)異步交互場(chǎng)景中,可運(yùn)用經(jīng)過(guò)參數(shù)優(yōu)化的情感—認(rèn)知算法模型,實(shí)現(xiàn)準(zhǔn)確率較高的情感狀態(tài)和認(rèn)知水平自動(dòng)化分析。
圖3 參數(shù)變化曲線
本研究基于面向在線異步交互文本的情感—認(rèn)知自動(dòng)化分析模型及其自動(dòng)化分析流程,以大規(guī)模教師在線培訓(xùn)為例,采集異步交互文本作為訓(xùn)練數(shù)據(jù),從不同的機(jī)器學(xué)習(xí)算法中選取最優(yōu)算法,同時(shí)融合情感—認(rèn)知詞典進(jìn)行算法模型訓(xùn)練,通過(guò)訓(xùn)練集不斷優(yōu)化算法模型參數(shù),構(gòu)建了面向具體應(yīng)用場(chǎng)景的情感—認(rèn)知算法模型,所得研究結(jié)論主要如下:
本研究對(duì)支持向量機(jī)、邏輯回歸、決策樹(shù)、樸素貝葉斯四種機(jī)器學(xué)習(xí)算法的文本自動(dòng)化分析效果進(jìn)行了對(duì)比,并根據(jù)準(zhǔn)確率、精確率、召回率、F1值、Kappa系數(shù)值這五個(gè)評(píng)價(jià)指標(biāo),從中選取最優(yōu)的機(jī)器學(xué)習(xí)算法,結(jié)果發(fā)現(xiàn):相較于其他三種機(jī)器學(xué)習(xí)算法,支持向量機(jī)的準(zhǔn)確率和Kappa系數(shù)值更高、分類也更準(zhǔn)確。究其原因,可能在于支持向量機(jī)算法對(duì)未知實(shí)例的泛化能力較強(qiáng)[26],故能較好地適用于教師培訓(xùn)領(lǐng)域,可以剔除大量與培訓(xùn)內(nèi)容相關(guān)但與情感認(rèn)知無(wú)關(guān)的冗余樣本——Lin等[27]的研究也得出了相似的結(jié)論。
本研究對(duì)基于機(jī)器學(xué)習(xí)的方法、融合詞典與機(jī)器學(xué)習(xí)的方法的評(píng)價(jià)結(jié)果進(jìn)行了對(duì)比,發(fā)現(xiàn)采用融合詞典與機(jī)器學(xué)習(xí)的方法構(gòu)建情感—認(rèn)知算法模型,可在一定程度上改善數(shù)據(jù)集不同類別之間的不平衡、特征冗余等問(wèn)題。此外,融合詞典與機(jī)器學(xué)習(xí)的方法從整體上提升了算法模型的準(zhǔn)確率和Kappa系數(shù)值,這與Wang等[28]在文本自動(dòng)評(píng)分領(lǐng)域的研究結(jié)論相似:將同義特征詞進(jìn)行編碼、合并,以提高相關(guān)概念的“密度”,可使相似文本被成功地歸為同一類別,故有助于提高算法模型的準(zhǔn)確率
本研究采用帶交叉驗(yàn)證的網(wǎng)格搜索來(lái)實(shí)現(xiàn)參數(shù)優(yōu)化,通過(guò)人工篩選,最終確定當(dāng)折數(shù)k=17時(shí),情感算法模型的準(zhǔn)確率和Kappa系數(shù)值達(dá)到最高值;當(dāng)折數(shù)k=14時(shí),認(rèn)知算法模型的準(zhǔn)確率和Kappa系數(shù)值達(dá)到最高值。因此,通過(guò)遍歷各種參數(shù)組合,選擇最優(yōu)參數(shù),可以進(jìn)一步提升大規(guī)模教師在線培訓(xùn)異步交互場(chǎng)景中情感—認(rèn)知算法模型的效果。
如何改善教師學(xué)習(xí)者在線異步交互過(guò)程中的交互效果,是在線異步交互研究的一個(gè)應(yīng)用領(lǐng)域和重要分支,具有較大的研究前景[29]。本研究聚焦于教師學(xué)習(xí)者群體,構(gòu)建了面向在線異步交互文本的情感—認(rèn)知自動(dòng)化分析模型及其自動(dòng)化分析流程,并基于具體應(yīng)用場(chǎng)景開(kāi)發(fā)了情感—認(rèn)知算法模型。在模型應(yīng)用的過(guò)程中,本研究發(fā)現(xiàn)支持向量機(jī)對(duì)異步交互文本的自動(dòng)化分析效果更佳,融合詞典與機(jī)器學(xué)習(xí)的方法從整體上提升了算法模型的準(zhǔn)確率和Kappa系數(shù)值,采用網(wǎng)格搜索方法進(jìn)行參數(shù)優(yōu)化可以進(jìn)一步提升算法模型的效果。
本研究構(gòu)建的面向在線異步交互文本的情感—認(rèn)知自動(dòng)化分析模型,可實(shí)現(xiàn)不同異步交互場(chǎng)景下教師學(xué)習(xí)者情感狀態(tài)和認(rèn)知水平的自動(dòng)化分析。后續(xù)研究可以結(jié)合時(shí)間序列,對(duì)教師學(xué)習(xí)者在線異步交互過(guò)程中隱藏的情感狀態(tài)和認(rèn)知水平進(jìn)行系統(tǒng)分析與診斷,深入了解教師學(xué)習(xí)者在連續(xù)時(shí)間段內(nèi)的在線學(xué)習(xí)狀態(tài),并為其提供適應(yīng)性自動(dòng)反饋,以促進(jìn)教師學(xué)習(xí)者及時(shí)自我反思、自我調(diào)節(jié),從而優(yōu)化在線學(xué)習(xí)體驗(yàn)、提升在線學(xué)習(xí)效果。
[1]汪茹.基于云服務(wù)正反饋的區(qū)域教師培訓(xùn)策略研究[J].電化教育研究,2018,(12):123-128.
[2]嵩天.以在線開(kāi)放課程為引領(lǐng)的大學(xué)課程改革新模式[J].中國(guó)大學(xué)教學(xué),2019,(11):13-17.
[3]Li J, Tang Y, Cao M, et al. The moderating effects of discipline on the relationship between asynchronous discussion and satisfaction with MOOCs[J]. Journal of Computers in Education, 2018,(3):279-296.
[4]劉三女牙,彭晛,劉智,等.基于文本挖掘的學(xué)習(xí)分析應(yīng)用研究[J].電化教育研究,2016,(2):23-30.
[5]Rosé C P, Ferschke O. Technology support for discussion based learning: From computer supported collaborative learning to the future of massive open online courses[J]. International Journal of Artificial Intelligence in Education, 2016,(2):660-678.
[6]鄭婭峰,徐唱,李艷燕.計(jì)算機(jī)支持的協(xié)作學(xué)習(xí)分析模型及可視化研究[J].電化教育研究,2017,(4):47-52.
[7]李艷燕,邢爽,包昊罡,等.在線協(xié)作學(xué)習(xí)中學(xué)習(xí)分析工具對(duì)教師干預(yù)的影響研究[J].中國(guó)電化教育,2019,(2):80-86.
[8]Liu Z, Yang C, Rüdian S, et al. Temporal emotion-aspect modeling for discovering what students are concerned about in online course forums[J]. Interactive Learning Environments, 2019,(5-6):598-627.
[9]劉清堂,武鵬,張思,等.教師工作坊中的用戶參與行為研究[J].中國(guó)電化教育,2016,(1):103-108.
[10]Tian F, Gao P, Li L, et al. Recognizing and regulating e-learners’ emotions based on interactive Chinese texts in e-learning systems[J]. Knowledge Based Systems, 2014,55:148-164.
[11]馬相春,鐘紹春,徐妲.大數(shù)據(jù)視角下個(gè)性化自適應(yīng)學(xué)習(xí)系統(tǒng)支撐模型及實(shí)現(xiàn)機(jī)制研究[J].中國(guó)電化教育,2017,(4):97-102.
[12]Liu Z, Pinkwar N, Liu H, et al. Exploring students’ engagement patterns in SPOC forums and their association with course performance[J]. Eurasia Journal of Mathematics Science and Technology Education, 2018,(7):3143-3158.
[13]馬寧,李亞蒙,何俊杰.群體知識(shí)建構(gòu)視角下教師混合式研訓(xùn)的組內(nèi)交互及知識(shí)建構(gòu)層次分析[J].現(xiàn)代教育技術(shù),2019,(4):47-53.
[14]馬寧,崔志軍,曾敏.以協(xié)同知識(shí)建構(gòu)為核心的教師混合式研訓(xùn)效果研究——基于內(nèi)容分析的方法[J].中國(guó)電化教育,2018,(9):117-122、131.
[15]孫雨薇,馮曉英,王瑞雪.混合式教師研修課程中教師問(wèn)題解決行為的研究[J].中國(guó)遠(yuǎn)程教育,2018,(11):50-60、80.
[16]陳龍,管子玉,何金紅,等.情感分類研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2017,(6):1150-1170.
[17]Gao H, Zeng X, Yao C. Application of improved distributed naive bayesian algorithms in text classification[J]. The Journal of Supercomputing, 2019,(9): 5831-5847.
[18][22]李慧.面向?qū)W習(xí)體驗(yàn)文本的學(xué)習(xí)者情感分析模型研究[J].遠(yuǎn)程教育雜志,2021,(1):94-103.
[19]余勝泉,楊現(xiàn)民,程罡.泛在學(xué)習(xí)環(huán)境中的學(xué)習(xí)資源設(shè)計(jì)與共享——“學(xué)習(xí)元”的理念與結(jié)構(gòu)[J].開(kāi)放教育研究,2009,(1):47-53.
[20]Kim J, Shaw E, Wyner S, et al. Discerning affect in student discussions[J]. Proceedings of the annual meeting of the cognitive science society, 2010,(32):2344-2349.
[21]Henri F. Computer conferencing and content analysis[A]. Collaborative Learning Through Computer Conferencing[C]. Berlin Heidelberg: Springer,1992:117-136.
[23][27]Lin Y, Yu H, Wan F, et al. Research on classification of Chinese text data based on SVM[A]. IOP Conference Series: Materials Science and Engineering[C]. UK: IOP Publishing, 2017:012067.
[24]梅家駒,竺一鳴,高蘊(yùn)琦.同義詞詞林(第二版)[M].上海:上海辭書(shū)出版社出版,1996:1-653.
[25]袁穎,于少將,王晨暉,等.基于網(wǎng)格搜索法優(yōu)化支持向量機(jī)的圍巖穩(wěn)定性分類模型[J].地質(zhì)與勘探,2019,(2):608-613.
[26]楊劍鋒,喬佩蕊,李永梅,等.機(jī)器學(xué)習(xí)分類問(wèn)題及算法研究綜述[J].統(tǒng)計(jì)與決策,2019,(6):36-40.
[28]Wang C, Liu X, Wang L, et al. Automated scoring of Chinese grades 7-9 Students’ competence in interpreting and arguing from evidence[J]. Journal of Science Education and Technology, 2021,(2): 269-282.
[29]Yoon S A, Miller K, Richman T, et al. Encouraging collaboration and building community in online asynchronous professional development: Designing for social capital[J]. International Journal of Computer-Supported Collaborative Learning, 2020,(3):351-371.
Research on the Emotion-Cognition Automatic Analysis Model for Online Asynchronous Interaction Text——Taking Large-scale Teacher Online Training as an Example
MA Ning1,2ZHANG Yan-ling1,3DU Lei1,4WANG Qi5
Online asynchronous interaction is an important interaction method of large-scale online education, which has a significant impact on learners’ learning experience and learning effect.In order to deeply explore teacher learners’ emotional states and cognitive levels in the online asynchronous interaction process, this paper firstly constructed an emotion-cognition automatic analysis model for online asynchronous interaction text and its automatic analysis process. Then, the model was applied to a large-scale teacher online training course, and the asynchronous interaction data were collected as training data, and the optimal algorithm was selected from different machine learning algorithms. Meanwhile, the algorithm training model was conducted by integrating the emotion-cognition dictionary, and further an emotion-cognition algorithm model was built for specific application scenarios. Finally, it was concluded in this paper that the machine learning algorithm based on a support vector machine had the best effect in text automatic analysis, and the method integrating dictionary and machine learning could better improve the accuracy of the algorithm model, and using grid search for parameter optimization could further improve the performance of the algorithm model.The research of this paper could provide research ideas and technical support for automatic analysis of online asynchronous interactive texts, and was conducive to excavating teacher learners’ emotional states and cognitive levels hidden in interactive texts, which could provide a basis for automatic feedback and have important meaning for optimizing the asynchronous interactive learning process.
online asynchronous interaction; emotion state; cognition level; machine learning; teacher learner
G40-057
A
1009—8097(2022)05—0083—10
10.3969/j.issn.1009-8097.2022.05.010
基金項(xiàng)目:本文為2020年度國(guó)家自然科學(xué)基金項(xiàng)目“在線異步交互的時(shí)間-情感-認(rèn)知分析模型及自動(dòng)反饋機(jī)制研究”(項(xiàng)目編號(hào):62077007)的階段性研究成果。
馬寧,副教授,博士,研究方向?yàn)榧夹g(shù)增強(qiáng)學(xué)習(xí)、技術(shù)支持的教師專業(yè)發(fā)展、STEM教育、在線學(xué)習(xí)設(shè)計(jì)與分析等,郵箱為horsening@bnu.edu.cn。
2021年8月18日
編輯:小米