許 嘉,劉 靜,于 戈,呂 品*,楊攀原
(1.廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,南寧 530004;2.廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室(廣西大學(xué)),南寧 530004;3.東北大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,沈陽 110169)
近年來,隨著大數(shù)據(jù)、人工智能和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,以中國大學(xué)MOOC(Massive Open Online Courses)[1]、學(xué)堂在線[2]、Coursera[3]和edX[4]等為代表的在線教育平臺讓人們能夠隨時(shí)隨地訪問優(yōu)質(zhì)的教育資源,極大促進(jìn)了在線教育的發(fā)展。在線教育的興起同時(shí)也給平臺上的任課教師帶來了嚴(yán)峻的教學(xué)挑戰(zhàn)。一門熱門的在線課程的選課學(xué)習(xí)者人數(shù)可高達(dá)上萬人,因此批改大規(guī)模學(xué)習(xí)者提交的主觀題作業(yè)(例如寫作題、程序設(shè)計(jì)題、簡答題等)是平臺教師所面臨的最大教學(xué)挑戰(zhàn),這是因?yàn)橹饔^題沒有唯一的標(biāo)準(zhǔn)答案,很難基于計(jì)算機(jī)技術(shù)實(shí)現(xiàn)自動批改[5]??紤]到主觀題比客觀題(例如選擇題、填空題、判斷題等)更能考察學(xué)習(xí)者的語言表達(dá)能力、思辨能力和創(chuàng)新能力[6],因此如何有效進(jìn)行在線教育平臺上大規(guī)模主觀題作業(yè)的批改是當(dāng)下需要研究和解決的重要問題。
同伴互評(peer grading/peer assessment/peer review),又被稱為“同伴評估”[7-8]“同行互評”[8-10]和“同儕互評”[11-12],是指學(xué)習(xí)者以教師制定的統(tǒng)一評估標(biāo)準(zhǔn)為指導(dǎo)對同一學(xué)習(xí)環(huán)境中其他同伴的學(xué)習(xí)成果進(jìn)行評價(jià),即學(xué)習(xí)者彼此之間評估與被評估的過程[11,13-14]。同伴互評是當(dāng)下應(yīng)對大規(guī)模主觀題作業(yè)批改問題的主流技術(shù),已被成功運(yùn)用到國內(nèi)外多個(gè)代表性的在線教育平臺中,例如中國大學(xué)MOOC、學(xué)堂在線、Coursera 和edX。同伴互評的實(shí)施不但能夠減輕平臺任課教師的主觀題作業(yè)批改負(fù)擔(dān),而且還給參與互評學(xué)習(xí)者帶來了諸多益處,具體表現(xiàn)在以下幾個(gè)方面。
1)讓學(xué)習(xí)者評判同伴的主觀題作業(yè),不但能夠幫助他們鞏固作業(yè)涉及的知識點(diǎn),還能使他們學(xué)習(xí)到不同的解題思路,提高他們的課程參與度[13,15-17]。
2)同伴互評過程一般要求學(xué)習(xí)者參與批判性思考、監(jiān)控和反思等一系列認(rèn)知活動[14],因此有助于提升學(xué)習(xí)者的學(xué)習(xí)動機(jī),增強(qiáng)學(xué)習(xí)者的社會存在感,發(fā)展學(xué)習(xí)者的高階思維能力、元認(rèn)知能力以及提升學(xué)習(xí)者的反思與批判性思考能力等[18-19]。
3)鑒于任課教師教學(xué)精力有限,學(xué)習(xí)者從同伴處獲得反饋往往比從教師處獲得反饋更及時(shí)[20]。
4)學(xué)習(xí)者在同伴互評中同時(shí)扮演了教師和學(xué)習(xí)者兩種角色,不但有利于促進(jìn)他們進(jìn)行評價(jià)與反思,還有利于培養(yǎng)他們的責(zé)任意識[21]。
鑒于此,本文總結(jié)了面向在線教育的同伴互評技術(shù)的研究進(jìn)展,以期為正在從事或打算從事同伴互評研究的人們提供借鑒與參考。本文各個(gè)章節(jié)之間邏輯關(guān)系的文章結(jié)構(gòu)如圖1 所示。
圖1 文章結(jié)構(gòu)Fig.1 Article structure
基于對同伴互評領(lǐng)域大量研究工作的調(diào)研,同伴互評的實(shí)施流程如圖2 所示,包括10 項(xiàng)活動。
圖2 同伴互評的流程Fig.2 Process of peer grading
1)教師布置作業(yè)并設(shè)置互評規(guī)則與評價(jià)量規(guī)。教師通過教學(xué)平臺或系統(tǒng)布置主觀題作業(yè)并設(shè)置供學(xué)習(xí)者互評時(shí)參考的互評規(guī)則和評價(jià)量規(guī)。
2)學(xué)習(xí)者提交作業(yè)。學(xué)習(xí)者需在教師設(shè)定的時(shí)間內(nèi)提交主觀題作業(yè)的答案。
3)系統(tǒng)分配評價(jià)者。教學(xué)平臺或系統(tǒng)按照一定的分配算法為學(xué)習(xí)者提交的主觀題作業(yè)分配教師預(yù)設(shè)數(shù)目的評價(jià)者。隨機(jī)分配是最常用的分配算法。系統(tǒng)為每份作業(yè)分派的評價(jià)者數(shù)目通常為不小于3 的奇數(shù)[22]。
4)學(xué)習(xí)者完成互評訓(xùn)練(可選流程)。在正式開始互評作業(yè)之前,學(xué)習(xí)者需要按照教師在活動1)中預(yù)設(shè)的評價(jià)量規(guī)對不同質(zhì)量等級的作業(yè)樣例進(jìn)行評價(jià)。教學(xué)平臺或系統(tǒng)根據(jù)學(xué)習(xí)者評分與教師評分之間的吻合程度判定學(xué)習(xí)者是否具有評價(jià)資格,只有通過互評訓(xùn)練的評價(jià)者才能參與接下來的互評作業(yè)活動。
5)學(xué)習(xí)者(評價(jià)者)互評作業(yè)。學(xué)習(xí)者按照教師發(fā)布的評價(jià)量規(guī)評閱系統(tǒng)分配給他的主觀題作業(yè)。在評閱過程中,學(xué)習(xí)者需要給出同伴主觀題作業(yè)的評分反饋和評語反饋。根據(jù)形式的不同,評分可分為基數(shù)(cardinal)評分和序數(shù)(ordinal)評分,前者為單個(gè)作業(yè)的數(shù)值型分?jǐn)?shù),后者則是多個(gè)作業(yè)間基于質(zhì)量的高低排序。兩種評分反饋各具優(yōu)勢:一方面基數(shù)評分比序數(shù)評分更能準(zhǔn)確地量化作業(yè)間的質(zhì)量差距[23-24];另一方面序數(shù)評分比基數(shù)評分對非專家的評價(jià)者更為友好,因?yàn)榉菍<业脑u價(jià)者更容易對作業(yè)進(jìn)行相對排序而不是直接給出每份作業(yè)的分?jǐn)?shù)[25-26]。
6)學(xué)習(xí)者(被評價(jià)者)互評反饋(可選流程)。在學(xué)習(xí)者互評作業(yè)活動結(jié)束后,一些教學(xué)平臺或系統(tǒng)設(shè)置了作業(yè)申訴期。在作業(yè)申訴期內(nèi),被評價(jià)者可針對其所收到的同伴針對其作業(yè)給出的評價(jià)分?jǐn)?shù)和評語進(jìn)行反饋,若被評價(jià)者對同伴給出的評價(jià)結(jié)果有異議,可以在平臺或系統(tǒng)中提交異議內(nèi)容并申請由教師對其主觀題作業(yè)進(jìn)行評價(jià)。
7)系統(tǒng)分析評語(可選流程)。評價(jià)者給出的評語中包含評價(jià)者對被評價(jià)作業(yè)的總結(jié)、分析和建議等信息,是對其所給評分的進(jìn)一步解釋。因此,分析評語能夠探索評語類型與學(xué)習(xí)者采納之間的關(guān)系,挖掘評語中隱含的學(xué)習(xí)者學(xué)習(xí)情緒,檢測評語中包含的問題性或建議性信息等,這對主觀題作業(yè)評估具有重要指導(dǎo)意義。
8)檢測與處理異?;ピu信息(可選流程)。在互評過程中,存在由于評價(jià)者的惡意或不當(dāng)行為導(dǎo)致的異?;ピu信息,包括異常評分或異常評語,因此需要及時(shí)對這類異?;ピu信息進(jìn)行檢測與處理,以保證同伴互評的質(zhì)量。
9)估計(jì)作業(yè)真實(shí)分?jǐn)?shù)。即基于收集到的評分?jǐn)?shù)據(jù)和評語數(shù)據(jù)估計(jì)每個(gè)學(xué)習(xí)者提交的主觀題作業(yè)的真實(shí)分?jǐn)?shù)。取多個(gè)評價(jià)分?jǐn)?shù)的平均數(shù)或中位數(shù)是常用的估計(jì)一份作業(yè)真實(shí)分?jǐn)?shù)的方法。除此之外,其他估計(jì)方式還包括貝葉斯概率建模、因子分解以及加權(quán)求和等。
10)教師微調(diào)作業(yè)分?jǐn)?shù)。獲得對作業(yè)真實(shí)分?jǐn)?shù)的估計(jì)值之后,教師可以著重關(guān)注那些多個(gè)同伴給出的評價(jià)分?jǐn)?shù)中偏差較大的作業(yè)、學(xué)習(xí)者申請申述的作業(yè)或者已檢測出存在反饋信息異常的作業(yè),通過人工微調(diào)的方式為這些作業(yè)確定最終分?jǐn)?shù)。
由于評價(jià)者分配、評語分析、異?;ピu信息的檢測與處理以及作業(yè)真實(shí)分?jǐn)?shù)估計(jì)4 個(gè)流程所涉及的研究成果豐富,本文將在第2~5 章分別進(jìn)行分析總結(jié);而其他流程的研究工作側(cè)重于互評模式的研究,比如關(guān)注評價(jià)細(xì)則設(shè)置、互評前是否需要互評訓(xùn)練、學(xué)習(xí)者是否是匿名互評等,本文僅在此簡略闡述。對于評分細(xì)則的設(shè)置,研究發(fā)現(xiàn)良好的評價(jià)量規(guī)不僅可以為學(xué)習(xí)者完成互評任務(wù)提供針對性的指導(dǎo),還有助于學(xué)習(xí)者更好地理解學(xué)習(xí)目標(biāo),從而降低評價(jià)的主觀隨意性[27-29]。對于互評訓(xùn)練,研究人員指出它不僅幫助學(xué)習(xí)者熟悉評估流程和評價(jià)量規(guī),還有助于提高評分準(zhǔn)確性的外在介入因素[30-32]。Li 等[33]還發(fā)現(xiàn)采用游戲式的互評訓(xùn)練比傳統(tǒng)的互評訓(xùn)練更能提高學(xué)習(xí)者參與同伴互評活動的內(nèi)在動機(jī)。另外,評價(jià)者與被評價(jià)者雙方匿名能夠減少學(xué)習(xí)者評價(jià)作業(yè)的壓力和其評價(jià)不被對方認(rèn)可的恐懼感,增加互評雙方的舒適感和提升雙方參與互評的積極性[34-38],同時(shí)使評價(jià)者更愿意針對作業(yè)提出批評性反饋[35],從而進(jìn)一步保證互評活動結(jié)果的客觀性和有效性。
本文對2010 年以來同伴互評領(lǐng)域的研究成果進(jìn)行了統(tǒng)計(jì)分析。在Elsevier ScienceDirect、ACM Digital Library、IEEE Xplore Digital Library、Springer Link Online Library、Wiley Online Library、中國知網(wǎng)等文獻(xiàn)數(shù)據(jù)庫中進(jìn)行搜索,統(tǒng)計(jì)公開發(fā)表在計(jì)算機(jī)領(lǐng)域或計(jì)算機(jī)教育領(lǐng)域的國內(nèi)外相關(guān)會議、期刊中的高水平文獻(xiàn)。其中,英文檢索關(guān)鍵字為“peer assessment”“peer review”“peer grading”,中文關(guān)鍵字為“同伴互評”“同行互評”“同儕互評”和“同伴評估”。涉及的會議期刊主要包括SIGCSE、WWW、L@S、SIGKDD、Computers &Education 等。經(jīng)過仔細(xì)閱讀篩選,最終確定了54 篇研究文獻(xiàn)(截至2021 年5 月)。
圖3(a)統(tǒng)計(jì)了面向在線教育的同伴互評領(lǐng)域從2010 年1 月至2021 年5 月每年的文獻(xiàn)發(fā)表數(shù)量。由圖3(a)可知,隨著Coursera[3]、edX[4]等慕課平臺的成立,自2013 年來面向在線教育的同伴互評領(lǐng)域的文獻(xiàn)數(shù)目呈穩(wěn)步上升的趨勢。將相關(guān)文獻(xiàn)按圖2 所示的同伴互評流程中的活動進(jìn)行分類并統(tǒng)計(jì)每個(gè)活動對應(yīng)的文獻(xiàn)數(shù)量,詳見圖3(b)所示。圖3(b)顯示作業(yè)真實(shí)分?jǐn)?shù)估計(jì)的相關(guān)工作占比最多,為35%;評語分析、異?;ピu信息檢測與處理和評價(jià)者分配的研究工作分別占17%、15%和11%,還有22%的文獻(xiàn)關(guān)注于探索互評訓(xùn)練或在互評作業(yè)時(shí)是否需要匿名等問題。后文將對重要流程中的主要研究成果進(jìn)行闡釋和分析。
圖3 面向在線教育的同伴互評相關(guān)文獻(xiàn)統(tǒng)計(jì)結(jié)果Fig.3 Statistics of peer grading related literatures for online education
在同伴互評流程中,分配評價(jià)者是極其重要的環(huán)節(jié)?,F(xiàn)有的教學(xué)平臺或系統(tǒng)通常采用隨機(jī)分配的方式為待評估的作業(yè)答案分配評價(jià)者。雖然隨機(jī)分配能一定程度上保證分配的公平,但是考慮到不同學(xué)習(xí)者的知識水平、評估能力、評估態(tài)度等存在差異,隨機(jī)分配并不能完全保證每份待評作業(yè)都能得到合理的評判以及互評結(jié)果的準(zhǔn)確性和有效性。鑒于此,研究學(xué)者對評價(jià)者分配進(jìn)行了深入探究,相關(guān)研究可以分為基于規(guī)劃調(diào)度[39-41]和基于匹配兩種分配策略[42-44]。
基于規(guī)劃調(diào)度的分配策略依據(jù)評價(jià)者的知識能力水平進(jìn)行評價(jià)者分配,以減少不可靠評價(jià)者給同伴互評帶來的影響。Han 等[39]考慮不同學(xué)習(xí)者間知識水平的差異性,基于并行系統(tǒng)中常用的最長處理時(shí)間(Longest Processing Time,LPT)算法,提出了一種改進(jìn)的最長處理時(shí)間(Modified Longest Processing Time,MLPT)方法,將不同知識水平的學(xué)習(xí)者平均分配到各個(gè)評分小組中,使各組間平均知識水平差異最小,從而提高了評價(jià)者分配的有效性。Capuano 等[40]基于圖挖掘技術(shù)平衡知識水平能力高的優(yōu)秀評價(jià)者的分配,以避免不可靠評價(jià)者帶來的影響。Ohashi 等[41]則提出了一種新穎的自適應(yīng)評價(jià)者分配算法及其擴(kuò)展算法,這兩種算法都能保證只有在評價(jià)者需要時(shí)才分配評價(jià)任務(wù)給評價(jià)者,而不是強(qiáng)制給評價(jià)者分配評價(jià)任務(wù);此外,擴(kuò)展算法考慮了評價(jià)者評價(jià)能力,避免了只為同一個(gè)作業(yè)分配評價(jià)能力高(或低)的評價(jià)者。
基于匹配的分配策略是同時(shí)基于評價(jià)者特性以及互評雙方的作業(yè)相似度來為每份作業(yè)匹配合適的評價(jià)者。文獻(xiàn)[42]中整合了評價(jià)者的知識背景、互評經(jīng)驗(yàn)(互評次數(shù)與訓(xùn)練次數(shù))和作業(yè)相似度等信息實(shí)現(xiàn)作業(yè)評價(jià)者的推薦。文獻(xiàn)[43]中則在綜合考慮評價(jià)者的評閱意愿、評閱能力和評閱雙方作業(yè)相似度等多種因素的基礎(chǔ)上,建立了評價(jià)者的推薦模型;同時(shí)利用二部圖匹配理論求解評價(jià)者間的匹配問題,設(shè)計(jì)了最優(yōu)均衡匹配算法。此外,Anaya 等[44]考慮了學(xué)習(xí)者受歡迎程度、主動性和親密性等社會因素對其在同伴互評參與度的影響,提出了一種新的分配方法。
同伴互評中評價(jià)者給出的作業(yè)評語蘊(yùn)含著評價(jià)者對作業(yè)答案的總結(jié)、分析和建議等豐富信息,能夠體現(xiàn)學(xué)習(xí)者的認(rèn)知體系;因此,評語分析對于主觀題作業(yè)評估有重要指導(dǎo)意義。目前學(xué)者對評語分析的工作主要涉及探索評語對學(xué)習(xí)者的學(xué)習(xí)動機(jī)的影響[45-48]、分析評語類型對學(xué)習(xí)者理解評語與實(shí)施修訂的影響[49-51]和自動檢測評語中是否包含問題性或建議性信息[52-53]。
由于計(jì)算機(jī)無法直接對文本評語進(jìn)行計(jì)算,目前將評語轉(zhuǎn)換為數(shù)值型數(shù)據(jù)的處理方式主要有兩種:內(nèi)容分析編碼和自然語言處理技術(shù)。內(nèi)容分析編碼依據(jù)評語的內(nèi)容從不同維度對其進(jìn)行分類后映射數(shù)值編碼,不同文獻(xiàn)采用不同維度構(gòu)建評語內(nèi)容分析框架,并且每個(gè)維度下的類型也略有差異。例如文獻(xiàn)[46]中主要分為情感、認(rèn)知和元認(rèn)知維度,情感維度細(xì)分為支持贊揚(yáng)和反對批評類型,認(rèn)知維度則分為直接修改、個(gè)人觀點(diǎn)和指導(dǎo)建議類型,元認(rèn)知維度則分為評估和反思類型。自然語言技術(shù)則有One Hot、TF-IDF(Term Frequency-Inverse Document Frequency)和Word2vec 等方法。除此之外,評語長度、是否含有表情符號也是評語分析中??紤]的因素。
Lu 等[45]對評語從認(rèn)知和情感維度進(jìn)行編碼,研究了評語對評價(jià)者和被評價(jià)者的影響;他們發(fā)現(xiàn)評價(jià)者提供建議性評語有助于促進(jìn)自身對知識的認(rèn)知,提供積極情感評語則有助于提高被評價(jià)者的學(xué)習(xí)動機(jī)。Cheng 等[46]探索了三類評語(即情感、認(rèn)知與元認(rèn)知)對寫作學(xué)習(xí)的作用;他們研究發(fā)現(xiàn)認(rèn)知類評語(如直接糾正)比情感類評語(如表揚(yáng))和元認(rèn)知類評語(如評價(jià)知識技能)更利于寫作學(xué)習(xí)。然而隨著同伴互評活動的進(jìn)行,學(xué)習(xí)者更傾向于提供情感類評語,而不是提供認(rèn)知類評語。Zong 等[47]則發(fā)現(xiàn)評語長度與互評質(zhì)量顯著相關(guān),包含觀點(diǎn)的長評論不僅能夠幫助同伴,還能幫助評價(jià)者在提供評論過程中強(qiáng)化對內(nèi)容的理解。另外,Moffitt等[48]發(fā)現(xiàn)在評語中使用表情符號能夠增強(qiáng)互評樂趣,為學(xué)習(xí)者帶來良好的情感體驗(yàn),進(jìn)一步提高學(xué)習(xí)者的參與積極性。
文獻(xiàn)[49-51]采用對評語內(nèi)容分析編碼的方法探索了不同評語內(nèi)容對學(xué)習(xí)者理解及采納評語的影響;其次分析了在該影響下學(xué)習(xí)者根據(jù)評語進(jìn)行作業(yè)修訂的情況。具體而言,文獻(xiàn)[49]中將評語內(nèi)容分為表揚(yáng)、問題解釋、解決方案、本地化(系統(tǒng)是否支持在待批改處進(jìn)行評語注釋)和關(guān)注點(diǎn)類型進(jìn)行編碼,然后利用邏輯回歸模型分析特征的重要性,其中,關(guān)注點(diǎn)包括低階關(guān)注點(diǎn)(例如語法或拼寫)、高階關(guān)注點(diǎn)(例如過渡或論證)以及實(shí)質(zhì)關(guān)注點(diǎn)(即內(nèi)容準(zhǔn)確性);文獻(xiàn)[49]發(fā)現(xiàn)只有表揚(yáng)和本地化這兩個(gè)特征對學(xué)習(xí)者基于評語實(shí)施作業(yè)修訂有效,且學(xué)習(xí)者一般不會修訂評語中指出的高階關(guān)注點(diǎn)方面的內(nèi)容。文獻(xiàn)[50]中分析發(fā)現(xiàn)直接明確的評語比含蓄性的評語更容易讓被評者接受,并且評語中包含明確性變更和重復(fù)被指出(多個(gè)評價(jià)者對同一個(gè)作業(yè)相同或相似的評語)等特征更有助于學(xué)習(xí)者基于評語實(shí)施作業(yè)修訂。文獻(xiàn)[51]則認(rèn)為評語特征包括四個(gè)認(rèn)知特征(即問題識別、問題解釋、解決方案、建議性意見)和兩個(gè)情感特征(減輕表揚(yáng)、模糊限制語),其中,減輕表揚(yáng)(mitigating praise)是指通過將正面反饋添加到負(fù)面反饋中來弱化批評;模糊限制語則是指評價(jià)者在評語中添加了“可能”“或許”等詞對評語進(jìn)行了模糊限制。作者基于邏輯回歸分析發(fā)現(xiàn):學(xué)習(xí)者對評語的理解和認(rèn)同能夠預(yù)測學(xué)習(xí)者是否根據(jù)評語實(shí)施修訂;具備問題詳細(xì)解釋、解決方案和模糊限制語等特征的評語更有助于學(xué)習(xí)者基于評語實(shí)施作業(yè)修訂。
此外,Xiao 等[52]采用自然語言處理技術(shù)將文本評語進(jìn)行編碼,對評語中建議性表述的自動檢測問題開展了研究,構(gòu)建了邏輯回歸、隨機(jī)森林、樸素貝葉斯、支持向量機(jī)等分類器并取得了良好的分類效果,能夠自動判別出包含建議性表述的評語。同時(shí),還利用多種機(jī)器學(xué)習(xí)模型對評語中是否指出了作業(yè)存在的問題進(jìn)行了深入研究[53]。
總之,通過對互評評語進(jìn)行分析,能夠更好地輔助教師有針對性地調(diào)整教學(xué)方案和優(yōu)化互評效果,從而有助于學(xué)習(xí)者提高學(xué)習(xí)積極性、提升情緒體驗(yàn)、改善學(xué)習(xí)成效和改進(jìn)認(rèn)知方式,最終達(dá)到以評促教和以評促學(xué)的雙重目的。
同伴互評過程中由于評價(jià)者的惡意或不當(dāng)行為所導(dǎo)致的一些異常的互評信息直接影響互評結(jié)果的準(zhǔn)確性和有效性。文獻(xiàn)[54]中提出了利用機(jī)器學(xué)習(xí)方法檢測評語與互評分?jǐn)?shù)之間的不一致性,保證評語及評分?jǐn)?shù)據(jù)的有效性。這種方式使教師不必逐一監(jiān)控和檢查每一份作業(yè)的互評信息,從而讓教師只需聚焦處理被檢測出的評語與分?jǐn)?shù)不一致的作業(yè),極大減輕了教師的作業(yè)評判負(fù)擔(dān)。具體而言,他們嘗試使用多種文本表示方式對評語進(jìn)行編碼表征,并利用k近鄰、支持向量機(jī)、決策樹、隨機(jī)森林、長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)等算法構(gòu)建回歸模型預(yù)估與評語相匹配的分?jǐn)?shù);之后比較基于作業(yè)評語預(yù)估的分?jǐn)?shù)與作業(yè)真實(shí)互評分?jǐn)?shù)之間的差異,差異越大則說明評語與互評分?jǐn)?shù)越不一致。
另外,一些研究者從其他角度檢測和處理異?;ピu分?jǐn)?shù)。例如,Rico-Juan 等[55]利用基于箱型圖的統(tǒng)計(jì)方法分析發(fā)現(xiàn)可能與作業(yè)真實(shí)分?jǐn)?shù)存在偏差的異?;ピu分?jǐn)?shù),此時(shí)教師只需對被視為異?;ピu分?jǐn)?shù)的作業(yè)進(jìn)行判定即可。趙鳴銘等[56]提出了利用哨兵機(jī)制的評價(jià)者信譽(yù)度生成算法過濾異常的惡意評分。該方法以少量教師預(yù)評分的作業(yè)作為哨兵,并利用評價(jià)者信譽(yù)度算法基于評價(jià)者對哨兵的評分情況量化評價(jià)者的信譽(yù)值,再利用閾值挑選出高信譽(yù)度評價(jià)者的評分和評語估計(jì)作業(yè)的真實(shí)分?jǐn)?shù),從而實(shí)現(xiàn)對惡意的高評分或低評分的隔離。Han 等[25]提出了一種人機(jī)混合評估框架檢測和處理異常的互評信息。該框架首先以學(xué)習(xí)者提交的作業(yè)文本為輸入,基于卷積神經(jīng)網(wǎng)絡(luò)的自動評分器預(yù)測作業(yè)得分;其次,比較評分器所得分值與互評分?jǐn)?shù),從而過濾那些兩種分值間存在較大差異的異?;ピu分?jǐn)?shù);隨后以合理的互評分?jǐn)?shù)為輸入并利用貝葉斯同伴評分模型[57-58]推斷作業(yè)的最終真實(shí)分?jǐn)?shù),同時(shí)提示教師評價(jià)那些互評分?jǐn)?shù)異常的作業(yè)。此外,Xiong 等[59]基于評價(jià)者、作業(yè)和評閱這3 個(gè)層次的特征檢測評價(jià)者在評分過程中是否存在打分過于嚴(yán)厲或打分過于寬容的問題;通過實(shí)驗(yàn)發(fā)現(xiàn)不同層次的特征對發(fā)現(xiàn)互評分?jǐn)?shù)的過于嚴(yán)厲或過于寬容的情況具有不同程度的作用,為教學(xué)平臺或系統(tǒng)自動識別同伴互評中不準(zhǔn)確的評分以及激勵和干預(yù)不準(zhǔn)確評價(jià)者提供了思路。
以上介紹的關(guān)于檢測和處理異常反饋信息的方法在教學(xué)實(shí)踐中取得了良好效果,然而這些方法均需要設(shè)定閾值識別異常信息;因而,如何根據(jù)應(yīng)用的上下文設(shè)計(jì)閾值進(jìn)而自適應(yīng)地調(diào)整策略是需要進(jìn)一步研究的問題。除此之外,James 等[60]提出了用于評估評價(jià)者可靠性的多個(gè)指標(biāo),并且通過在模擬數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了估計(jì)評價(jià)者可靠性指標(biāo)的有效性。Lin 等[61]提取了有助于評估評價(jià)者可信度的相關(guān)特征,并基于這些特征構(gòu)建C5.0 決策樹分類器自動判別同伴互評記錄是否可信。Stelmakh 等[62]設(shè)計(jì)了一個(gè)測試規(guī)則用于檢測評價(jià)者在序數(shù)同伴互評中是否采取了有利于提高自己作品排序的戰(zhàn)略行為。
同伴互評的核心問題是依據(jù)評價(jià)者反饋的評分和評語信息估計(jì)每份主觀題作業(yè)的分?jǐn)?shù)。目前在同伴互評領(lǐng)域已有許多估計(jì)主觀題作業(yè)真實(shí)分?jǐn)?shù)的研究工作,根據(jù)評價(jià)者反饋的評分內(nèi)容的不同,可將它們分為序數(shù)(Ordinal)估計(jì)方法和基數(shù)(Cardinal)估計(jì)方法。
序數(shù)估計(jì)方法要求每名評價(jià)者對分配給其的作業(yè)答案給出作業(yè)質(zhì)量高低的排名,然后基于所有評價(jià)者給出的作業(yè)間的偏序排名信息推斷所有作業(yè)的最終排名?,F(xiàn)有的序數(shù)估計(jì)方法主要利用矩陣分解[63-64]、模糊決策[65-66]、貝葉斯[67]、基于配對比較[23,68-69]等方法估計(jì)主觀題作業(yè)的質(zhì)量。
Díez 等[63]基于矩陣分解方法學(xué)習(xí)了一個(gè)效用函數(shù),這個(gè)函數(shù)估計(jì)所有作業(yè)的共識排序,并且這個(gè)排序很容易轉(zhuǎn)換為每個(gè)作業(yè)的絕對分?jǐn)?shù)。Luaces 等[64]則基于矩陣分解方法在基數(shù)估計(jì)和序數(shù)估計(jì)之間尋求一種折中的方法。該方法在評估過程中考慮了作業(yè)或?qū)W習(xí)者的特征,并且能夠以較快速度處理大量作業(yè)互評數(shù)據(jù)。
Capuano 等[65]提出了一種基于模糊群決策原理的有序同儕評估模型FOPA(Fuzzy Ordinal Peer Assessment),來降低不可靠性評價(jià)者帶來的影響。在該模型中,評價(jià)者對作業(yè)的排序被轉(zhuǎn)換成模糊偏好關(guān)系,并通過有序加權(quán)幾何平均算子對其進(jìn)行聚合;然后使用聚合關(guān)系生成作業(yè)之間的全局排名,并估計(jì)其絕對分?jǐn)?shù)。在后續(xù)研究中,他們引入了多重評價(jià)準(zhǔn)則對FOPA 模型進(jìn)行擴(kuò)展以提高模型可靠性[66]。在擴(kuò)展模型中,評價(jià)者不僅參與根據(jù)定義的評價(jià)準(zhǔn)則對同伴提交的作業(yè)答案進(jìn)行排名,而且還參與對標(biāo)準(zhǔn)本身的重要性進(jìn)行排名。
Waters 等[67]提出了基于貝葉斯方法的BayesRank 模型解決以往同伴互評序數(shù)估計(jì)工作未對評價(jià)者可靠性建模的問題,并提出了一種新的馬爾可夫鏈蒙特卡羅方法簡化推斷ByaseRank 中的變量。該方法不僅能夠推斷學(xué)習(xí)者的作業(yè)質(zhì)量,還能顯式推斷每個(gè)評價(jià)者評分的可靠性。
基于配對比較方法指評價(jià)者對需評判的作業(yè)進(jìn)行兩兩比較來估計(jì)全局排名和評價(jià)者的可靠性。Shah 等[23]基于經(jīng)典配對比較模型BTL(Bradley-Terry-Luce)[70-71]引入同伴評價(jià)者評估能力得到擴(kuò)展的序數(shù)估計(jì)模型RBTL(Refereed Bradley-Terry-Luce),從有序的配對比較中推斷評價(jià)者潛在的作業(yè)評估能力和其完成的作業(yè)的質(zhì)量。Raman 等[68]引入評價(jià)者的可靠性擴(kuò)展了一些不同概率分布的經(jīng)典排名聚合模型,包括MAL(MALlows)[72]、BT(Bradley-Terry)[70]、THUR(THURstone)[73]和PL(Plackett-Luce)[74],并使用迭代交叉最大似然估計(jì)策略估計(jì)作業(yè)真實(shí)分?jǐn)?shù)和評價(jià)者的評分可靠性。Lin 等[69]則提出了一種新穎的基于配對比較的排名聚合方法,該方法利用譜算法(Spectral algorithm)來估計(jì)每份作業(yè)的真實(shí)分?jǐn)?shù)以及每位評價(jià)者的評分可靠性。
與序數(shù)估計(jì)方法不同,基數(shù)估計(jì)方法要求每名評價(jià)者對被分配的每份主觀題作業(yè)給出一個(gè)數(shù)值型評價(jià)分?jǐn)?shù),然后利用不同評價(jià)者給出的評價(jià)分?jǐn)?shù)估計(jì)作業(yè)的真實(shí)分?jǐn)?shù)。目前主流的基數(shù)估計(jì)方法有兩種:基于加權(quán)求和的估計(jì)方法和基于概率圖模型的估計(jì)方法。
基于加權(quán)求和的估計(jì)方法的思想是根據(jù)評價(jià)者的準(zhǔn)確性和信任度的差異賦予不同的權(quán)重,然后加權(quán)求和評價(jià)者對同一主觀題作業(yè)答案的評分,估計(jì)該作業(yè)答案的真實(shí)分?jǐn)?shù);并且,隨著同伴互評的開展,可以根據(jù)評價(jià)者在新作業(yè)的評判表現(xiàn)迭代更新其準(zhǔn)確性和信任度的權(quán)重信息。De Alfaro等[75]提出了Voncouver 算法,該算法通過比較不同評判者對同一份作業(yè)答案的評分衡量每個(gè)評價(jià)者的評分準(zhǔn)確性,并賦予準(zhǔn)確性更高的評價(jià)者評分更高的權(quán)重,然后加權(quán)求和得到該作業(yè)答案的一致分?jǐn)?shù)。對比直接將互評評分求平均,該方法可取得更高的準(zhǔn)確度。Walsh[76]提出了另一種迭代加權(quán)算法PeerRank,該算法的設(shè)計(jì)受到Google 的網(wǎng)頁排序PageRank算法[77]的啟發(fā)。他們假設(shè)一個(gè)評價(jià)者的作業(yè)分?jǐn)?shù)反映了其評價(jià)能力,基于評價(jià)者的作業(yè)分?jǐn)?shù)對每一份提交作業(yè)的多個(gè)同伴評價(jià)者的評判分?jǐn)?shù)進(jìn)行加權(quán)求和。García-Martínez 等[78]則基于評價(jià)者的學(xué)習(xí)參與度(例如是否觀看學(xué)習(xí)視頻、是否完成相關(guān)章節(jié)測驗(yàn))提升估計(jì)作業(yè)真實(shí)分?jǐn)?shù)的準(zhǔn)確性。Darvishi 等[79]提出了一種基于圖的信任傳播方法,該方法將評價(jià)者(包括學(xué)生和教師)和作業(yè)作為圖中的節(jié)點(diǎn),評價(jià)者的評分可靠性設(shè)置為評價(jià)者節(jié)點(diǎn)的權(quán)重、作業(yè)的質(zhì)量設(shè)置為作業(yè)節(jié)點(diǎn)的權(quán)重、評價(jià)關(guān)系作為連接兩種不同類型節(jié)點(diǎn)之間的邊;其后提出了基于圖結(jié)構(gòu)的作業(yè)分?jǐn)?shù)更新策略以及評價(jià)者可靠性的傳播策略,從而可以推斷作業(yè)真實(shí)分?jǐn)?shù)以及評價(jià)者的評分可靠性。此外,Li 等[80]基于評價(jià)者在完成作業(yè)過程中的行為特性(例如答題時(shí)間)和評價(jià)者給出的評語信息對評價(jià)者的評分可靠性進(jìn)行建模,然后以量化得到的評分者的評分可靠性為權(quán)值對他們給出的評分進(jìn)行加權(quán)求和,從而得到對目標(biāo)作業(yè)真實(shí)分?jǐn)?shù)的估計(jì)值。Yuan 等[81]則提出了一種結(jié)合評語文本信息的半自動同伴評分方法SABTXT(Semi-Automated peer Bias grading approach with TeXTual reviews)。該方法通過兩種機(jī)制提升了估計(jì)主觀題真實(shí)分?jǐn)?shù)的準(zhǔn)確性,首先基于教師與評價(jià)者對以往主觀題作業(yè)的評分差異對評價(jià)者的偏見進(jìn)行建模和糾正;其次基于評語文本內(nèi)容對評價(jià)者的評價(jià)仔細(xì)度進(jìn)行建模。評價(jià)者的評價(jià)仔細(xì)度越高,其給出的評分越值得信賴,則給該評價(jià)者所打的評分賦予更高的權(quán)重以期提升對主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)的準(zhǔn)確性。
基于概率圖模型的估計(jì)方法通過構(gòu)建概率圖模型來估計(jì)主觀題作業(yè)的真實(shí)分?jǐn)?shù)。這類方法將待估作業(yè)的真實(shí)分?jǐn)?shù)(Su隱含變量)、互評分?jǐn)?shù)(觀測變量)、評價(jià)者的可靠性及偏見(τv,bv隱含變量)都建模為服從一定概率分布(設(shè)N 表示正態(tài)分布,Γ 表示伽馬分布)的隨機(jī)變量,并且變量之間存在一定的關(guān)聯(lián)關(guān)系,然后基于可觀測評價(jià)者的互評分?jǐn)?shù)推斷隱含隨機(jī)變量的值。Piech 等[57]首次提出了3 個(gè)概率圖模型(PG1、PG2和PG3)估計(jì)作業(yè)真實(shí)分?jǐn)?shù),其中:PG1建模時(shí)考慮了評價(jià)者當(dāng)前的可靠性和偏見這兩個(gè)因素;PG2在PG1的基礎(chǔ)上考慮了評價(jià)者的歷史偏見;PG3則在PG1的基礎(chǔ)上將評價(jià)者當(dāng)前可靠性設(shè)定為依賴于評價(jià)者當(dāng)前作業(yè)真實(shí)分?jǐn)?shù)的線性函數(shù)的隨機(jī)變量,詳見圖4(a)所示的PG3模型的數(shù)學(xué)定義的第2 行。Mi 等[58]也認(rèn)為評價(jià)者的可靠性與其自身真實(shí)分?jǐn)?shù)相關(guān),但是認(rèn)為PG3中兩者之間的線性關(guān)系過于嚴(yán)格,因此弱化了此線性關(guān)系。他們將評價(jià)者的可靠性建模為滿足形狀參數(shù)為其真實(shí)分?jǐn)?shù)的伽馬分布或均值為其真實(shí)分?jǐn)?shù)的高斯分布,分別得到了PG4模型(圖4(b))和PG5模型(圖4(c))??紤]到一名同伴評價(jià)者的評分偏見會受到其朋友的評分偏見的影響[82],Chan 等[83]利用學(xué)堂在線平臺上收集到的學(xué)習(xí)者間的社交關(guān)系信息提高對評價(jià)者偏見建模的準(zhǔn)確性,擴(kuò)展了PG1、PG4和PG5這三個(gè)概率圖模型。然而上述概率圖模型均認(rèn)為評價(jià)者給不同主觀題作業(yè)的評分之間是相互獨(dú)立的,存在局限性。因此,Wang 等[84]引入評價(jià)者的相對分?jǐn)?shù)信息(為觀測變量,即同一個(gè)評價(jià)者對不同作業(yè)評分之間的差值),基于PG4和PG5模型分別構(gòu)建了PG6模型(圖4(d))和PG7模型(圖4(e))。這兩個(gè)概率圖模型有效解決了因數(shù)據(jù)稀疏性帶來的參數(shù)估計(jì)問題,提高了對主觀題真實(shí)分?jǐn)?shù)的估計(jì)準(zhǔn)確性。在此基礎(chǔ)上,Xu 等[85]還考慮了評價(jià)者對主觀題作業(yè)中的掌握程度對評價(jià)者可靠性的影響。他們利用評價(jià)者的歷史答題信息,基于DINA(Deterministic Inputs,Noisy “And”gate model)認(rèn)知診斷模型[86]計(jì)算得到評價(jià)者對主觀題作業(yè)的掌握程度信息,基于該掌握程度信息優(yōu)化建模PG6和PG7模型中的可靠性,分別提出了CD-PG1(Cognitive Diagnosis-Peer Grading)和CD-PG2模型,進(jìn)一步提升了估計(jì)作業(yè)真實(shí)分?jǐn)?shù)的準(zhǔn)確性。表1 中對現(xiàn)有的概率圖模型進(jìn)行了對比分析。表2 則對現(xiàn)有主觀題作業(yè)真實(shí)分?jǐn)?shù)的估計(jì)方法進(jìn)行了比較,√表示模型在設(shè)計(jì)時(shí)考慮了該因素。
表1 不同概率圖模型的比較Tab.1 Comparison of different probability graph models
表2 主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)方法或策略比較Tab.2 Comparison of methods or strategies of true grade estimation for subjective assignments
圖4 典型的概率圖模型Fig.4 Typical probability graph models
近年來,得益于大數(shù)據(jù)、云計(jì)算、人工智能等技術(shù)的發(fā)展,新興在線教育平臺的功能更加全面和智能化。目前,雖然大多數(shù)平臺都已支持基于同伴互評的主觀題作業(yè)批改模式,但它們在同伴互評的流程與功能方面略有差異。表3 詳細(xì)對比分析了當(dāng)下國內(nèi)外具有代表性的在線教育平臺或系統(tǒng),包括中國大學(xué)慕課iCourse[1]、學(xué)堂在線XuetangX[2]、好大學(xué)在線 CNMOOC[87]、Coursera[3]、edX[4]、Moodle[88]、CrowdGrader[89]和Peerceptiv[90]等。因上述所有教學(xué)平臺或系統(tǒng)均支持教師布置作業(yè)、學(xué)習(xí)者提交作業(yè)、學(xué)習(xí)者互評作業(yè)、教師調(diào)整互評分?jǐn)?shù)等功能,本章主要比較不同教學(xué)平臺或系統(tǒng)的評分者分配、互評活動設(shè)置和作業(yè)真實(shí)分?jǐn)?shù)估計(jì)這幾個(gè)維度的差異性。值得一提的是,在國際上流行的三大MOOC平臺(即Coursera、edX 和Udacity[91])中,Coursera 是最早引入同伴互評功能的MOOC 平臺;而截至目前,Udacity 仍未引入同伴互評功能。
表3 代表性在線教育平臺或系統(tǒng)的同伴互評模塊的對比Tab.3 Comparison of peer grading modules of representative online education platforms or systems
同伴互評作為一種解決大規(guī)模主觀題作業(yè)評價(jià)問題的重要方式具有重要的實(shí)用價(jià)值與研究意義,受到來自計(jì)算機(jī)界、教育界、心理學(xué)界等不同學(xué)科領(lǐng)域研究者的共同關(guān)注。本文對近10 年來面向在線教育的同伴互評技術(shù)進(jìn)行了深入調(diào)研并總結(jié)了該領(lǐng)域的研究進(jìn)展,希望能夠?yàn)檎趶氖禄虼蛩銖氖略擃I(lǐng)域研究的人員提供借鑒與參考。目前,面向在線教育的同伴互評領(lǐng)域已經(jīng)取得了一定的進(jìn)展,但仍存在以下需要進(jìn)一步解決的問題。
1)缺乏高質(zhì)量的公開數(shù)據(jù)集。
由于可能涉及個(gè)人隱私信息,目前面向在線教育的同伴互評領(lǐng)域只有少量的公開數(shù)據(jù)集[92-94]。Vozniuk 等[92]公開的同伴互評數(shù)據(jù)集包含60 名碩士研究生參與同伴互評后得到的評分?jǐn)?shù)據(jù)以及4 名教師對學(xué)習(xí)者作業(yè)的評分?jǐn)?shù)據(jù)。Tenório 等[93]組織30 名高中生參與游戲化的同伴互評活動并公開了其收集的同伴互評數(shù)據(jù)集。Ashenafi[94]公開的同伴互評數(shù)據(jù)集則涉及五門計(jì)算機(jī)課程,包含800 多名學(xué)習(xí)者參與互評活動后所收集到的與5 000 多份作業(yè)答案相關(guān)的互評信息,然而該數(shù)據(jù)集不包含教師針對作業(yè)給出的評分信息。雖然以上公開數(shù)據(jù)集為同伴互評技術(shù)的研究提供了一定的支持保障,但是這些公開數(shù)據(jù)集存在數(shù)據(jù)量較少、數(shù)據(jù)有缺失、或采集的信息不夠豐富等問題。因此,為推動面向在線教育的同伴互評技術(shù)的進(jìn)一步發(fā)展,急需相關(guān)學(xué)校、研究機(jī)構(gòu)提供公開的、高質(zhì)量的同伴互評數(shù)據(jù)集。
2)缺乏評價(jià)者的激勵機(jī)制。
在多次同伴互評活動實(shí)施之后評價(jià)者可能會進(jìn)入互評疲憊期,即不再愿意付出過多努力提供高質(zhì)量的個(gè)人觀點(diǎn)、指導(dǎo)建議、能力評估等認(rèn)知型的評語[12],而認(rèn)知型評語對于被評價(jià)者往往更有幫助。為解決上述問題,研究人員在設(shè)計(jì)同伴互評技術(shù)時(shí)應(yīng)該結(jié)合恰當(dāng)?shù)耐庠诨騼?nèi)在激勵機(jī)制[95],從而激勵評價(jià)者以較高的熱情繼續(xù)參與到同伴互評的活動中來。
3)缺乏對學(xué)習(xí)者在同伴互評過程中認(rèn)知水平的追蹤。
在同伴互評過程中,學(xué)習(xí)者認(rèn)知能力可能在同伴評估之前、期間或之后發(fā)生變化,而追蹤學(xué)習(xí)者在不同互評階段的認(rèn)知狀態(tài)變化可以有效評估其學(xué)習(xí)成效以及預(yù)測其未來學(xué)習(xí)表現(xiàn),這無疑有助于教師確定需特殊監(jiān)督的學(xué)習(xí)者和劃分出合理的學(xué)習(xí)小組[94,96-97];然而,目前鮮有對學(xué)習(xí)者在同伴互評過程中認(rèn)知能力變化進(jìn)行跟蹤建模的研究工作。因此可以借鑒流行的知識追蹤模型,例如貝葉斯知識追蹤(Bayesian Knowledgeable Tracing,BKT)模型[98],深度知識追蹤(Deep Knowledge Tracing,DKT)模型[99]和動態(tài)鍵值記憶網(wǎng)絡(luò)(Dynamic Key-Value Memory Network,DKVMN)[100]等對同伴互評過程中學(xué)習(xí)者認(rèn)知水平的追蹤。
4)同伴互評活動的智能化程度還需進(jìn)一步加強(qiáng)。
同伴互評領(lǐng)域目前已在評價(jià)者分配、評語分析、異?;ピu信息檢測處理和作業(yè)真實(shí)分?jǐn)?shù)估計(jì)這4 個(gè)方面取得了較大研究進(jìn)展,所發(fā)表的研究工作通過在計(jì)算機(jī)上構(gòu)建和運(yùn)行智能化模型簡化了同伴互評的實(shí)施過程,優(yōu)化了同伴互評的實(shí)施質(zhì)量。然而,為了使同伴互評能在更多場景下得到推廣和應(yīng)用,其實(shí)施過程的智能化程度還需進(jìn)一步加強(qiáng)。例如,可以針對“布置作業(yè)并設(shè)置互評規(guī)則與評價(jià)量規(guī)”流程研究互評規(guī)則與評價(jià)量規(guī)的自動生成方法,以期進(jìn)一步降低同伴互評活動中教師的參與工作量,從而讓教師將更多精力用于教學(xué)內(nèi)容的設(shè)計(jì)和改進(jìn)。又如,可以針對“互評作業(yè)”流程研究如何為學(xué)生提供有效的評價(jià)建議和評價(jià)模板,以期提升學(xué)生的同伴互評質(zhì)量和收獲感。
5)同伴互評平臺和系統(tǒng)還需進(jìn)一步優(yōu)化。
目前同伴互評活動的開展主要依托于在線教育平臺或系統(tǒng),因此如何進(jìn)一步優(yōu)化在線教育平臺或系統(tǒng)的同伴互評功能非常重要。一方面,平臺和系統(tǒng)可以進(jìn)一步提高同伴互評活動在設(shè)置以及數(shù)據(jù)收集和統(tǒng)計(jì)方面的易用性,例如可嘗試引入簡短、可定制且能夠直接勾選的評語詞條,提高評價(jià)者對作業(yè)的評判效率和用語規(guī)范性;另一方面,平臺和系統(tǒng)需要提供比中位數(shù)、均值和加權(quán)求和方法精度更高的基于概率圖模型[57-58,83-85]的作業(yè)真實(shí)分?jǐn)?shù)估計(jì)功能,從而提高基于同伴評分估計(jì)作業(yè)真實(shí)分?jǐn)?shù)的準(zhǔn)確性。