劉淑君 李 艷 楊普光 李小麗 高紅芳
(1.浙江大學 教育學院, 浙江杭州 310028; 2.鄭州外國語學校,河南鄭州 450001; 3.浙江大學教育學院附屬學校,浙江杭州 310013; 4.杭州市蕭山區(qū)金惠初中,浙江杭州 311202)
近年來,智能技術的教育應用方興未艾。研究顯示,人工智能技術具有促進學生知識理解和遷移的巨大潛力,對未來的人才結構變革帶來全新的影響(舒越等, 2018;顧小清, 2021)。人工智能教育應用的一個重要領域是寫作教學。早在20世紀60年代,智能作文評價(Automated Essay Evaluation) 就在歐美國家興起,美國研發(fā)的PEG(Project Essay Grader)、E-rater、Intellimetric、IEA(Intelligent Essay Assessor)等都是具有代表性的智能作文評價系統(tǒng),有的已被應用在TOEFL和GMAT等大規(guī)模英語測試中。早期的智能作文評價系統(tǒng)側(cè)重評分功能,通過抽取語言學特征對文章整體或分項評分。隨著計算機自然語言處理技術的發(fā)展,系統(tǒng)逐漸將作文評分、診斷性反饋和學情報告相結合,為作者提供更全面和綜合的寫作評價。近年來,國內(nèi)智能作文評價系統(tǒng)也層出不窮,英語智能作文評價領域代表性系統(tǒng)包括句酷批改網(wǎng)、iWrite、冰果英語等,中文作文評價領域代表性系統(tǒng)包括IN課堂語文作文智能批改、365學堂在線作文批改平臺、愛語文APP等。這些系統(tǒng)將自然語言處理、統(tǒng)計檢索和互聯(lián)網(wǎng)技術相結合,體現(xiàn)了人工智能在寫作教學領域的最新進展。本研究采用“智能作文評價”描述智能作文評價系統(tǒng)開展的作文評價。
智能作文評價的有效性是影響其推廣的重要因素,包括智能作文評分的有效性和反饋精準度兩方面。已有研究驗證智能作文評分有效性的方式主要有三種:1)比較智能作文評分與教師作文評分的一致性和相關性。研究證明,英語智能作文評價系統(tǒng)E-rater、Intellimetric、IEA等與教師評分的一致性較高,一致性系數(shù)在87%-100%之間;且兩者相關系數(shù)在0.76- 0.95之間(Attali & Burstein, 2006;Foltz et al., 2011;Liu & Kunnan, 2016)。然而,也有不一致的結論。例如,對My Access和iWrite的調(diào)查發(fā)現(xiàn),它們和教師作文評分一致性分別為71.4%和34%,遠低于教師評分之間的一致性(Hoang & Kunnan, 2016;Qian et al., 2020)。2)調(diào)查智能作文評分與教師評價、學生自我評價、專家評級、課程成績等外部指標之間的一致性。有學者用學業(yè)測試、自我評價、專家評價和教師評價等指標檢驗My Access的作文評分質(zhì)量,得出My Access評分有效的結論(Vantage Learning,2007)。3)研究文章長度等文本特征對智能作文評分的預測程度。當系統(tǒng)評分受文章長度等表面特征影響過大時,評分效度會降低(Chodorow & Burstein, 2004; Landauer, 2003)。約恩(Jones,2006)對IntelliMetric的調(diào)查發(fā)現(xiàn),該系統(tǒng)的人機評分一致性較高,但文章長度影響對其評分預測程度高達85%,不足以證明系統(tǒng)評分的有效性;黃和昆南(Hoang & Kunnan, 2016)的研究發(fā)現(xiàn),My Access和教師作文評分受文章長度影響的預測度都是53% ,具有一致性。該方法往往和前兩種結合使用,為智能作文評分有效性提供多維證據(jù)。
智能作文反饋的精準度對學生寫作修改有重要意義,精確度和召回率是已有研究中較常用的衡量指標。精確度指系統(tǒng)正確識別項數(shù)除以全部識別項數(shù),召回率指系統(tǒng)正確識別項數(shù)除以文本實際錯誤項數(shù)(Hoang & Kunnan, 2016)。研究發(fā)現(xiàn),智能反饋工具的精確度達90%時,學習者才能從中受益(Burstein et al., 2003),與不能識別部分錯誤相比,將正確內(nèi)容標注為錯誤的行為對學生的負面影響更大,因而研究者對智能作文評價的反饋精確度更重視(Chodorow et al., 2010)。研究表明,大部分智能作文評價的反饋精確度不到90%,不能提供其促進學習的有力證據(jù)。比如,My Access的反饋精確度和召回率分別為73%和30%,Write To Learn僅為49%和18.7%,提升空間較大(Hoang & Kunnan, 2016;Liu & Kunnan, 2016)。
此外,研究者還關注了智能作文反饋和教師作文反饋的關系。作文反饋信息指教師對文本的點評建議,通常按類型和層次分類。反饋類型可分為直接反饋、提問反饋、信息反饋和表揚(Biber et al., 2011;Shute, 2008)。直接反饋指教師直接糾正錯誤或告訴學生如何修改;提問反饋是向作者提出問題,并要求解釋或回答;信息反饋側(cè)重向?qū)W生傳遞觀點或信息,不要求學生回應或修改文本;表揚是對學生態(tài)度、表現(xiàn)和寫作質(zhì)量的肯定(Cho et al., 2006)。反饋層次是作文反饋信息所針對的寫作技能層次(Biber et al.2011),可分為低階寫作技能反饋和高階寫作技能反饋。前者側(cè)重對標點、語法等文本表層錯誤的反饋,后者聚焦內(nèi)容、結構、意義等高階技能的提升(Matsumara et al. , 2002;Peterson et al.,2004)。威爾遜等(Wilson et al.,2016)研究智能作文評價對教師反饋的影響時,依據(jù)反饋類型與層次編制了作文反饋信息分類細則,并將其應用于教師作文反饋的信息分析。研究發(fā)現(xiàn),與傳統(tǒng)的教師反饋相比,與智能作文評價相結合的教師反饋跟聚集內(nèi)容選材、結構構思等高階寫作技能反饋。之后,林克等(Link et al., 2020)就該問題做的延伸性研究也獲得了類似的發(fā)現(xiàn)。智能作文評價系統(tǒng)早期主要針對低階寫作技能直接反饋,較少涉及高階寫作技能,也不能提供其他類型的反饋。因此,早期智能作文反饋往往局限于針對低階寫作技能的直接反饋。比如,對Criterion與教師作文反饋信息的比較研究發(fā)現(xiàn),智能作文反饋的數(shù)量和質(zhì)量都低于教師反饋(Dikli & Bleyle, 2014)。研究者為了保持兩種反饋信息在類型與層次上的一致,排除了教師評價的高階反饋信息,也忽略了教師評價中直接反饋外的其他類型反饋信息。目前,部分中英文智能作文評價系統(tǒng)不僅提供直接反饋,還提供信息、表揚等反饋信息,且出現(xiàn)較多針對高階寫作技能的反饋信息。因此,針對兩種作文評價反饋信息的綜合比較就顯得很有必要。
智能作文評價讓反饋變得即時而便捷,加速了“寫作-評價(反饋)-修改”的循環(huán),是傳統(tǒng)教師作文評價很難達成的(Warschauer & Grimes, 2008;Shute, 2008;Foltz, 2013),給傳統(tǒng)寫作教學變革帶來可能。研究發(fā)現(xiàn),智能作文評價能提高學生的文本準確性和寫作成績(Shermis et al., 2008;Attali,2004; Choi, 2010),也會提高學生的寫作動機(Wilson & Roscoe, 2020;Grimes & Warschauer, 2010),對學生的寫作修改和認知參與也有影響(Lee,2020;鐘彩順,2015)。不過,如果學生寫作動機的提高是新奇效應的產(chǎn)物,那么隨著時間的推移,寫作動機也會停滯增長或消退(Cheung & Slavin, 2013)。智能作文評價的教學應用價值需要引起更多教育研究者和實踐者的關注(Chen & Cheng, 2008)。
在傳統(tǒng)中小學寫作教學中,教師布置寫作任務,學生當堂或課外完成習作,教師再逐一批改。這一過程往往耗費教師大量的時間和精力,教師的評價和反饋滯后(少則一天,多則一個禮拜或更久);同時,囿于時間、精力和經(jīng)驗的限制,教師的作文評價容易出現(xiàn)單一、主觀或片面等問題。智能作文評價系統(tǒng)的開發(fā)旨在解決傳統(tǒng)作文教學的這些頑疾,但其應用和推廣并不順利,原因在于傳統(tǒng)中小學語文老師對其評價的有效性充滿質(zhì)疑。
調(diào)研發(fā)現(xiàn),國外英語智能作文評價系統(tǒng)的實踐和研究起步較早,研究成果豐富。相比而言,中文智能作文評價起步較晚,需要更多實證研究回應教育者和學習者的質(zhì)疑。在此背景下,本研究選取“IN課堂語文作文人機批改系統(tǒng)”作為智能作文評價的平臺,嘗試通過人機作文評價的多維度比較檢驗智能作文評價的有效性,并為其推廣和應用提供依據(jù)和建議。
本研究的目的是驗證智能作文評分的有效性,并從反饋類型與層次和反饋精準度等方面展開人機作文評價的比較研究。研究問題有以下三項:
1)智能作文評分的有效性如何?包括:智能作文評分與教師作文評分的一致性與相關性如何?作文長度對二者評分的預測程度是否有差異?
2)智能作文評價和教師作文評價的反饋類型與層次各有什么特點?
3)智能作文評價和教師作文評價的反饋精準度表現(xiàn)如何?
本研究以智能作文評價結果作為研究對象,選取國內(nèi)較成熟、使用范圍較廣的智能作文評價系統(tǒng)——IN課堂語文作文智能批改(簡稱IN課堂)作為智能作文評價工具。該系統(tǒng)受國家語委語言智能研究中心指導研發(fā)而成,是一個交互式的智能作文批改和反饋平臺,于2018年投入應用。它從語料庫中挖掘打分細則、評級參數(shù)、偏誤規(guī)則及常用范式,不僅可以給學生作文即時提供反饋分數(shù),還能生成句段點評并提出建議,也支持教師建立虛擬班級、推送作文題、人機協(xié)同批改等操作,同時能為師生積累寫作過程數(shù)據(jù)(IN課堂智能教育平臺,2020)。
本研究選取Z初中和W高中各兩個班的學生作文作為評價樣本,分別由語文老師各自布置作文題目(見表一),學生當堂完成,共得到149篇作文樣本(初中81篇,高中68篇),初中和高中的寫作文體分別為記敘文和議論文。研究者將全部作文樣本用于智能作文評分有效性的研究,并選取其中101篇的人機批改信息作為作文反饋類型與層次的分析內(nèi)容(另外48篇因完成時間較晚,錯過集中批改期,故未納入分析),最后,從全部樣本中隨機抽取20篇作文檢驗智能作文評價的反饋精準度。
表一 學生作文題目及要求
研究者(曾教中學語文,目前在讀教育博士)分別與A教師(初中語文教師)和B教師(高中語文教師)合作完成初中、高中作文的評分。評分者首先研習作文評分標準,隨后選六份作文試評,對評分差異較大的樣本深入交流,對評分標準達成一致理解后,再各自獨立評分。之后,研究者和B教師分別對101篇初中、高中作文精批細改,以文內(nèi)批注和文末總評的形式進行反饋。
IN課堂采用中高考作文評分標準對中學生作文評分。為了保證評分標準的一致性,教師依據(jù)評分者所在地區(qū)的中考作文評分標準和卷面分值,從內(nèi)容、結構、表達、立意等方面評分,滿分40分;高中作文評分遵循語文高考全國卷的評分標準和卷面分值,兼顧內(nèi)容、表達、發(fā)展三個維度,滿分60分。為了便于數(shù)據(jù)分析,研究者以滿分60分為標準,對初中作文成績按比例折算。
本研究從兩方面驗證智能作文評分的有效性:一方面分析智能作文評分和教師作文評分的一致性和相關性,另一方面比較文章長度對兩種作文評分的預測程度。IN課堂對作文樣本的評分構成智能作文評分數(shù)據(jù);研究者分別與A教師和B教師合作完成初中、高中的作文評分,由此得到兩組教師作文評分,取兩者均值作為教師作文評分數(shù)據(jù)。文章長度的衡量指標是文章字數(shù),借助word文檔的字數(shù)統(tǒng)計功能獲得。
在統(tǒng)計智能作文評分和教師作文評分一致性時,本研究援引前人文獻常用的精確一致和相鄰一致兩個衡量指標(Liu & Kunnan,2016)。精確一致指兩個評分完全相同。相鄰一致指兩個評分等級相近。由中高考閱卷程序和相關文獻可知,作文滿分60分時,兩位教師評分差在六分內(nèi)取兩者均值作為最終得分,大于等于六分時會發(fā)起三評或仲裁(佟威等, 2020)。因此,研究者將分差小于六分的評分界定為相鄰一致,分差大于等于六分的評分界定為評分差異。評分一致性指精確一致項與相鄰一致項之和除以總樣本數(shù)。
智能作文評分與教師作文評分的相關性分析借助SPSS23軟件完成。研究還以作文長度為自變量,分別以智能作文評分和教師作文評分為因變量進行一元回歸分析,驗證作文長度對智能作文評分和教師作文評分的預測程度。
本研究選取初中52篇、高中49篇用于反饋類型與層次的分析與比較。IN課堂的機器評閱信息構成智能作文反饋信息;研究者和B教師對初中和高中作文的精批細改形成教師的作文反饋信息。兩類反饋信息都被錄入Excel文檔,接著被拆分為有獨立意義的信息單位,即反饋單元。遵循前人文獻反饋單元的拆分操作程序(Cho et al.,2006;Hayes & Berninger,2010) ,先抽取五篇作文的反饋信息,研究者和B教師分別進行單元拆分,比對拆分結果,對不一致處協(xié)商達成共識。隨后,研究者完成全部作文反饋信息的拆分工作,B教師再對拆分后的反饋單元進行核對檢查。通過以上拆分,本研究共得到2911個作文反饋單元,包括1955個智能作文反饋單元和956個教師作文反饋單元。
本研究借鑒威爾遜等(Wilson & Gzik,2016)提出的作文反饋信息分類方法,并根據(jù)國內(nèi)作文批閱習慣對其略作調(diào)整,比如,將“拼寫、大小寫”合并為“錯別字”,將“語法、句子結構”合并為“句式語法”等,最終編制了適用于國內(nèi)中學作文的反饋信息編碼表(見表二)。該編碼表將用于智能作文反饋信息的分析與比較。
表二 作文反饋信息編碼
研究者先與B教師交流編碼方案,確認其符合中學寫作評價習慣;再隨機抽取300個反饋單元,各自背靠背完成編碼。一致性計算發(fā)現(xiàn),反饋類型的編碼一致性為0.91,表示反饋類型的編碼一致性高;反饋層次的編碼一致性為0.70,表明反饋層次的編碼一致性有待改進。對編碼分歧項目協(xié)商一致后,研究者進一步明確“內(nèi)容選材”“結構構思”“寫作特色”的編碼范圍。然后研究者和B教師再抽取100個反饋單元進行背對背編碼,反饋類型的編碼一致性達到0.98,反饋層次的編碼一致性為0.81,表明反饋類型和反饋層次編碼的一致性比較理想。研究者完成所有反饋單元的編碼工作后,由B教師抽取15%的反饋單元進行二次編碼驗證,二者反饋類型的編碼一致性達到0.96,反饋層次的編碼一致性達到0.80。作文反饋信息的拆分和編碼樣例見表三。
表三 作文反饋信息拆分和編碼樣例
本部分隨機抽取20篇作文作為反饋精準度的研究樣本。精確度和召回率是廣泛應用于信息檢索和機器學習領域的度量指標,歐美研究者首先將其應用于智能作文反饋精準度的評估(Liu & Kunnan,2016)。本研究的精確度指系統(tǒng)正確識別項數(shù)除以全部識別項數(shù)(正確識別項+錯誤識別項),召回率指正確識別項數(shù)除以文本實際錯誤項數(shù)。人機作文評價反饋精準度的檢驗都使用這兩個指標以便互相比較。作文高階寫作技能反饋往往指向主題立意、結構構思等,不宜進行是非判斷,因此本研究只關注低階寫作技能的直接反饋信息,它們客觀性較強,可以判斷正誤,更適合精確度和召回率的計算和分析。
已有研究常把教師作文反饋信息作為檢驗智能作文反饋精準度的標準,但這種檢驗標準的客觀性易引起質(zhì)疑(Hoang & Kunnan, 2016; Dikli & Bleyle, 2014)。為了建立科學的反饋檢驗標準,研究者與兩位教師合作對20篇作文樣本進行錯誤標注,程序如下:A教師、B教師分別檢查初中、高中作文樣本,用粗體字全面標注錯誤點;研究者逐字檢驗文本內(nèi)容及相關標注,用斜體字補充或糾正;最后,研究者分別與兩位教師交流初中、高中作文的標注信息,用下劃線補充標注遺漏信息(見表四)。這一標準將用來檢驗智能作文反饋的精準度。
表四 作文反饋精準度檢驗標準生成過程
對20篇樣本的人機作文反饋信息分別進行梳理和篩選后,研究者對指向低階寫作技能的直接反饋信息進行正誤判斷,并根據(jù)錯誤類型統(tǒng)計,計算智能作文反饋的精確度和召回率,并從人機比較的角度進行解釋。
教師作文評分1、教師作文評分2、教師作文評分均值和智能作文評分的Kolmogorov-Smirnov(K-S)檢驗顯著性都大于0.05(見表五),說明四類評分的數(shù)據(jù)符合正態(tài)分布。因此,后續(xù)研究可以對其進行相關性和線性回歸等統(tǒng)計和分析。
表六顯示,智能作文評分與教師作文評分均值之間精確一致的項數(shù)(12項)略低于兩組教師評分之間的項數(shù)(14項),智能作文評分與教師作文評分均值之間具有相鄰一致的項數(shù)(118項)略高于兩組教師評分之間的項數(shù)(114項)。從整體看,智能作文評分與教師作文評分的一致性為87.25%,略高于兩組教師評分均值之間的一致性(85.90%)??梢姡瑑煞N作文評價方式在評分方面具有比較高的契合度。
表五 智能作文評分和教師作文評分描述性統(tǒng)計(n=149)
表六 智能作文評分與教師作文評分的一致性(n=149)
皮爾遜相關分析顯示,兩組教師評分之間的相關系數(shù)為0.64,智能作文評分與教師作文評分均值的相關系數(shù)為0.63,且二者都在0.01水平上具有顯著性??梢?,智能作文評分與教師作文評分均值之間和兩組教師評分之間都具有強相關性,且相關系數(shù)基本持平。
為了檢驗文章長度對智能作文評分和教師作文評分的預測程度是否有差異,本研究以作文長度為自變量,分別以兩種作文評分為因變量進行一元線性回歸分析?;貧w方程的擬合度越接近1,意味著自變量對因變量的預測程度越高。研究者以作文長度為自變量、智能作文評分為因變量進行一元線性回歸分析,結果顯示,調(diào)整后R2(判斷方程擬合度的指標)等于0.35,方差分析表明該回歸方程具有統(tǒng)計學意義(F=79.99,p <0.05)?;貧w方程系數(shù)為0.03(t=8.94,p<0.01),常量為26.13(t=13.65,p<0.01),兩者都具有顯著性,且標準化殘差P-P圖近似正態(tài)性分布,符合回歸分析的前提。智能作文評分與作文長度之間的回歸方程可以列為:y=26.13+0.03x??梢岳斫鉃?,作文字數(shù)每增加1,智能作文評分會上浮0.03,且作文長度對智能作文評分的預測程度為35%。
同樣的,以作文長度為自變量、教師評分均值為因變量進行一元線性回歸分析,調(diào)整后R2為0.29,系數(shù)為0.02(t=7.80,p<0.01),常量為34.11(t=24.20, p<0.01),且回歸關系具有統(tǒng)計學意義(F=60.79,p<0.01)。從標準化殘差圖看,數(shù)據(jù)基本上沿著對角線或?qū)蔷€方向分布,滿足回歸模型的正態(tài)性假設。因此,教師作文評分與文章長度之間的一元回歸方程為:y=34.11+0.02x。由此可知,作文字數(shù)每增加1,教師作文評分會上浮0.02,作文長度對教師作文評分的預測程度為29%。
由此可知,智能作文評分與教師作文評分都在一定程度上受到作文長度的影響,回歸方程的擬合度分別為0.35和0.30。這說明,文章長度對智能作文評分與教師作文評分的預測度分別為35%和30%,前者略高于后者,但兩者相差不多,都處于合理范圍內(nèi)。
智能作文評價和教師作文評價在反饋類型上各有側(cè)重(見表七)。智能作文評價反饋信息占比最高的是表揚(77.70%),遠高于該反饋類型在教師作文評價中的占比(24.58%);直接反饋(15.65%)和提問反饋(0)低于兩者在教師作文評價中的比例(53.14%、16.11%)。教師作文評價反饋信息占比最高的是直接反饋(53.14%),信息反饋(6.17%)最欠缺。
表七 智能作文評價不同反饋類型的數(shù)量和比例(n=101)
從反饋類型特點看,智能作文評價呈現(xiàn)“直接+信息”反饋的組合特點,教師作文評價常出現(xiàn)“直接+提問”的反饋組合。觀察發(fā)現(xiàn),在智能作文評價反饋信息中,直接反饋后通常緊跟信息反饋,且兩者內(nèi)容密切相關(見圖1);教師作文評價反饋信息中,直接反饋后往往進行提問,提問內(nèi)容和直接反饋內(nèi)容相呼應(見表八)。
表九 智能作文評價反饋層次的數(shù)量和比例(n=101)
表十 智能作文評價反饋精確度與召回率統(tǒng)計(n=20)
表八 教師作文評價 “直接+提問”反饋樣例
圖1 智能作文評價 “直接+信息”反饋樣例
兩種作文評價方式的反饋層次呈現(xiàn)以下特點(見表九):1)兩種作文評價的高階寫作技能反饋占比都高于低階寫作技能反饋,智能作文評價的高階反饋占比(74.37%)低于教師作文評價(81.07%)。2)低階寫作技能反饋信息中,智能作文評價占比最高的是詞語運用(11.76%),最低的是錯別字(2.20%);教師作文評價占比最高的是句式語法(6.80%),最低的是詞語運用(2.72%)。3)高階寫作技能反饋信息中,智能作文評價占比最高的是語言特色(29.05%),教師作文評價中內(nèi)容選材的占比最高(47.07%)。兩種評價方式占比最低的都是主題立意(智能10.28%、教師6.90%)。
兩種作文評價的反饋精確度和召回率,以及基于錯誤類型的分類統(tǒng)計數(shù)據(jù)見表十。智能作文評價的反饋精確度(94.44%)略低于教師作文反饋(95.24%)。在智能作文反饋中,錯別字反饋的精確度達100%,其次是標點格式(96%)和句式語法(80%)。教師作文反饋的標點格式、錯別字和句式語法的精確度都達到100%,詞語運用層面的精確度為80%。可見,兩種作文反饋識別的文本錯誤大多都是客觀存在的,識別不準確的概率很低。 然而,智能作文反饋的召回率只有11.89%,這意味著88.11%的文本錯誤沒有被識別。系統(tǒng)在標點格式方面的召回率最高,識別出錯率27.59%,其次是錯別字(9.38%)和句式語法(4.76%),詞語運用層面的召回率為0。教師作文反饋的召回率更低,只有6.99%,說明教師忽略了93.01%的文本錯誤。教師反饋在錯別字方面的召回率最高(18.75%),其他三種錯誤類型的召回率處于1%-8%之間。兩種作文評價的反饋召回率都有較大的提升空間。
通過對智能作文評價效果的多維度探究,本研究的結論對人機協(xié)同寫作教學的實踐與探索具有參考價值。
首先,智能作文評分具有良好的效度。1)智能作文評分與教師作文評分有著較高的一致性和相關性。兩種作文評分之間的一致性為87.25%,高于兩組教師評分的一致性(85.90%);同時,智能作文評分與教師作文評分均值之間具有強相關性,相關系數(shù)(0.64)與兩組教師評分之間的相關系數(shù)(0.65)基本持平。這說明,智能作文評分與教師作文評分有較高的契合度。這一發(fā)現(xiàn)和以往針對E-rater、Intellimetric等英語智能作文評價的調(diào)查結果類似(Attali & Burstein, 2006;Foltz et al., 2011),表明國內(nèi)中文智能作文評價產(chǎn)品在人機評分一致性與相關性方面和國外英語智能作文評價系統(tǒng)相當。2)作文長度對智能作文評分和教師作文評分的影響程度分別為35%和29%,兩者相差不大。相比而言,智能作文評分受文章長度的影響略高,這或許是由于系統(tǒng)自帶字數(shù)統(tǒng)計功能,因而對該因素的變化更靈敏??傊?,它們都能綜合考慮內(nèi)容、結構、表達等因素打分,不會過度依賴作文長度,也不會被作文字數(shù)“欺騙”。該發(fā)現(xiàn)與先前針對My Access的研究發(fā)現(xiàn)基本一致(Hoang & Kunnan, 2016),都證明文章長度對智能作文評分的影響沒有太大差異。文章長度對IN課堂作文評分的影響處于合理范圍內(nèi),這也為其評分有效性提供了另一項證據(jù)。
其次,智能作文評價和教師作文評價在反饋類型上各有側(cè)重,反饋層次都聚焦高階寫作技能。從反饋類型看,智能作文評價占比最高的是表揚,善于通過句評、段評、總評等對文本給予肯定。大量的表揚預期可以提高學生的寫作動機,然而系統(tǒng)的表揚信息來源于語料庫的自動匹配,難免程式化和重復,重復表揚也有可能會讓學生麻木和產(chǎn)生錯覺。同時,智能作文評價中提問反饋是缺失的,說明系統(tǒng)還不能引導學生就具體問題思考,達成深度交流。此外,智能作文評價常出現(xiàn)“直接+信息”反饋,在指出問題后也會提供支持性信息供學習者參考,體現(xiàn)了系統(tǒng)個性化資源推送的優(yōu)勢。
教師作文評價更重視指出并糾正文本錯誤,直接反饋占比超過一半。然而,教師較少向?qū)W生提供信息支持,這或許是由傳統(tǒng)的大班教學方式?jīng)Q定的。教師需要指導幾十位甚至上百位學生,受時間、精力的限制,教師只能簡明扼要地點出每篇作文的問題,后續(xù)還要靠講評、面談和學生自主學習保證反饋質(zhì)量,師生后續(xù)如果跟進不及時,將會影響作文反饋質(zhì)量。教師作文反饋出現(xiàn)較多的是“直接+提問”反饋組合,即教師先指出問題,隨后用提問激發(fā)學生思考,此類反饋多針對內(nèi)容選材、結構構思等高階寫作技能,是教師對學生的個性化指導和深層交流,體現(xiàn)了教師的不可替代性。
在反饋層次上,智能作文評價和教師作文評價都側(cè)重對高階寫作技能的反饋,但兩者側(cè)重點不同。智能作文評價更側(cè)重對寫作特色的反饋,著力對文本的修辭、風格進行點評,比如“可采用倒敘、插敘等手法,設置懸念,引起讀者的閱讀興趣”“細膩的描寫,更生動形象地表現(xiàn)出人物性格”等。教師作文高階反饋關注最多的是內(nèi)容選材,比如“故事后半段寫水晶球引發(fā)的矛盾有點突兀,你可以試著加些說明性文字”“文章圍繞你對昆蟲的喜愛展開,題材非常新穎有趣”等,基本都會針對文本內(nèi)容對選材適宜性進行點評。目前,智能作文評價還無法達成對內(nèi)容和意義的深度理解,只能借助文本特征和語法規(guī)則推測學生寫作短板并匹配相關資源;而教師可以基于對具體內(nèi)容的理解提供個性化建議或情感交流,兩者存在互補的可能性。值得注意的是,智能作文評價系統(tǒng)的實時反饋功能讓它超越單一的評分工具,為學生寫作提供過程性支持,對寫作教學有重要意義。根據(jù)董艷等(2021)對反饋機理的界定,智能作文評價的反饋具有動態(tài)性和交互性,它可以獲取學生寫作和修改文本的行為和認知數(shù)據(jù),提供比較全面的反饋建議和學習資源;機器反饋信息給學生后,學生也需要修改,以提交新文本的形式向機器反饋,由此進入新一輪的“寫作—反饋—修改”循環(huán)??紤]到教師作文評價在情感交流、個性化引導方面有著不可替代性,人機協(xié)同的作文評價與反饋在提升學生高階寫作能力和保持學生主體地位方面應該能發(fā)揮關鍵作用。
再次,智能作文評價的反饋精確度與教師作文評價相差甚微,兩者都比較高;其反饋召回率高于教師作文評價,兩者都有待提升。盡管智能作文反饋精確度略低于教師表現(xiàn),但已超過WriteToLearn、My Access、Criterion等英語智能作文評價系統(tǒng)的反饋精確度(Hoang & Kunnan,2016;Liu & Kunnan,2016;Dikli & Bleyle,2014),且兩者相差甚微,基本持平。IN課堂對文本的錯誤識別絕大部分都是科學準確的,其反饋精確度已超過智能學習反饋工具對精確度的最低要求90% (Burstein et al.,2003)。然而,IN課堂作文反饋的召回率并不理想,80%以上的文本錯誤都被忽略,這與英語智能作文評價的反饋召回率還有差距(Hoang & Kunnan, 2016; Liu & Kunnan, 2016 )。英語智能作文評價聚焦語言質(zhì)量的反饋,側(cè)重對書寫、格式、句式語法等低階寫作技能進行糾正性反饋;基于IN課堂的中文智能作文反饋信息的77.77%屬于高階寫作技能反饋,它們往往是基于文本特征的整體點評,不就具體問題做診斷。IN課堂的反饋召回率較低,或許與系統(tǒng)研發(fā)的側(cè)重點有關,也可能受限于漢語語法結構的復雜性,相關理論和技術還有待突破。即使如此,基于IN課堂的智能作文反饋召回率還高于教師作文反饋,依然呈現(xiàn)出優(yōu)勢。限于時間和精力,教師日常作文批改也會忽視大部分標點、錯別字、語法等語言類錯誤,更多地關注高階寫作技能。因此,基于IN課堂的智能作文反饋對學生有一定的參考價值,可以輔助學生進行寫作修改。
當智能技術融入學科教學時,教師的角色和能力將面臨全新的挑戰(zhàn)(閻志明等,2020)。不過,寫作是基于真實情景的社會交流和意義建構,需要以讀者為交流對象(Clark, 2010)。因此,智能作文評價盡管有優(yōu)勢,但在它與寫作教學融合的過程中,師生間的互動和協(xié)作還是教育的核心,教師的地位不會被機器取代(張慧等,2019)。智能作文評價可以成為教師評價的有益補充,它能作為形成性評價工具輔助學生寫作,人機協(xié)同的寫作教學具備實施的可能性(周琴等,2020)。
基于結論,本研究針對智能作文評價及其教學應用提出建議。
作為典型的人工智能教育應用產(chǎn)品,智能作文評價系統(tǒng)的優(yōu)化需要多學科、多部門的協(xié)同努力。企業(yè)在人力、物力、財力投入以及技術研發(fā)和產(chǎn)品迭代等方面具有天然優(yōu)勢,是智能作文評價系統(tǒng)研發(fā)的主要推動力;學校是智能作文評價系統(tǒng)落地的真實場景,師生的用戶體驗以及實際需求是企業(yè)研發(fā)的最重要依據(jù);高校和(或)科研機構的各學科(教育學、心理學、語言學、計算機學科等)專家可以為系統(tǒng)的科學性和合理性提供理論和研究支持。因此,高校、企業(yè)、中小學應不斷加強合作與交流,各盡其責,群策群力,才能持續(xù)推動智能作文評價系統(tǒng)的優(yōu)化升級。
國內(nèi)外及本研究結果發(fā)現(xiàn),智能作文評價系統(tǒng)在內(nèi)容識別與理解、人機交互和寫作過程支持等方面還需要優(yōu)化升級。首先,系統(tǒng)應提高文本錯誤的識別率,并增強修辭、結構、意義等高階文本特征的理解程度。智能作文評價全面反饋文本錯誤,將會切實輔助學生的寫作修改過程;系統(tǒng)增強對高階文本特征的理解,也會有助于實現(xiàn)真正意義上的個性化作文反饋與指導。其次,系統(tǒng)可考慮提供多元交互的寫作評價平臺。智能作文評價如果能支持師生和生生交互,增加同伴協(xié)作寫作、同伴作文互評等功能,會讓作文反饋更多元化,發(fā)揮寫作的交流功能,提升學生作為反饋主體的能動性,增強讀者意識。最后,系統(tǒng)可以開發(fā)更多的寫作支持工具和課程資源。寫作支持工具可以是輔助寫作構思過程的思維導圖;課程資源最好采用文本文檔、課件、微視頻等多種形式,內(nèi)容上可以聚焦不同文體的寫法指導和同題作文點評等。
雖然研究發(fā)現(xiàn)智能作文評價在評分有效性、反饋類型與層次和反饋精準度等維度表現(xiàn)良好,但作為前沿的教育創(chuàng)新產(chǎn)品,要得到廣大語文教師的認可和接受,還需要一個過程。人機協(xié)同的寫作教學創(chuàng)新實踐對傳統(tǒng)語文老師有一定的挑戰(zhàn),寫作教學的任務設計、活動組織和成果評價等都需要調(diào)整,要求教師能整合學科、技術以及教學法等知識,并努力探尋人機協(xié)同教學場景下的新規(guī)律。作為教學創(chuàng)新過程的重要把關者和促進者,學校管理者、教科研職能部門和學科教研組等都發(fā)揮著不可替代的作用。學??梢越M織專題培訓深化教師對人機協(xié)同寫作教學的認識和理解,培訓可以是專題講座、工作坊、聽評課等多種形式,并融入以下幾方面的內(nèi)容:第一,介紹智能作文評價的設計原理和評分規(guī)則。學校可聯(lián)合開發(fā)公司開展講座,拉近教師與智能技術的距離,消除教師的偏見和誤解。第二,分享智能作文評價的教學應用案例,加強教師對智能技術的信念和認知。第三,指導教師分析和解釋系統(tǒng)生成的各種數(shù)據(jù),培養(yǎng)教師基于數(shù)據(jù)教學決策的能力。智能作文系統(tǒng)生成的學習行為和結果等數(shù)據(jù)只有經(jīng)過科學的解釋和分析,才能對后續(xù)教學產(chǎn)生正向影響。第四,探討智能作文評價系統(tǒng)的科學管理模式。學生需要使用電腦、平板和手機等電子設備,必然面臨家校溝通、親子關系和家庭教育等問題,因而教師引導學生科學使用智能終端至關重要,也是家長給予支持的前提條件。
此外,智能作文評價要融入各級各類系統(tǒng),還需要學校管理者與時俱進,為廣大師生創(chuàng)設富含人工智能技術支持的智慧校園學習環(huán)境。學校要盡力為師生提供學習終端、無線網(wǎng)絡、云服務等設施,為大規(guī)模教育中的個性化學習提供技術和環(huán)境支持??紤]到人機反饋與互動很有可能在家中進行,學校需要做好家校溝通工作,讓人機協(xié)同作文評價順利實施;同時,管理者應給予語文教師對學科教學、教法和教材更多的決策權,創(chuàng)設包容開放的教學和工作環(huán)境,通過各種激勵政策和措施鼓勵語文教師能夠且敢于進行寫作教學領域的創(chuàng)新和變革。
作為語文學科的核心內(nèi)容之一,寫作具有很強的實踐性和交互性,教師評價及反饋對學生寫作能力提升有著不可或缺的作用。然而,教師批改過程費時費力、反饋效果欠佳;智能作文評價能為大量學生提供作文“秒”評價和“秒”反饋,大大縮短學生“寫作—評價(反饋)—修改”過程,提高作文修改的效率和效果。因此,語文教師應抱著開放的心態(tài),勇于嘗試智能輔助工具,感受智能技術變革教學的力量。不過,人機協(xié)同環(huán)境下的寫作教學的規(guī)律和特點,也會給語文教育者帶來新的挑戰(zhàn):在學生與智能作文評價系統(tǒng)互動前、互動中和互動后,教師應如何引導學生?教學內(nèi)容和程序應怎樣調(diào)整?寫作任務如何設計才能發(fā)揮人機協(xié)同的最大優(yōu)勢?這些問題都有待語文老師的探索和思考。
人機協(xié)同的寫作教學有以下兩種可能的路徑:第一,對日常習作落實人機協(xié)同評價。學生完成初稿后,先借助機器反饋完成初次修改,同伴互評后再次修改,最后提交給教師。教師通過智能作文評價系統(tǒng)完成最終評價,或者引導學生開啟下一輪的寫作修改。人機協(xié)同評價讓學生得到的反饋更多元,更有可能促進學生寫作質(zhì)量的提升。機器即時評價會強化學生修改過程,大量表揚也能激發(fā)學生的寫作內(nèi)在動機;同時,教師評價可以提供更個性化的建議和指導,提升寫作評價的精準度。第二,對學生假期寫作提供人機協(xié)同支持。在傳統(tǒng)的假期中,由于時空隔離等因素,教師很難監(jiān)控學生完成寫作并給予指導,后期批改反饋多流于形式,效果欠佳。在人機協(xié)同支持的假期寫作評價中,教師通過系統(tǒng)發(fā)送寫作任務并進行構思點撥,還可以規(guī)定最低提交分數(shù);學生完成初稿后,借助機器反饋修改完善后提交給教師,教師分析學生班級和個體的學情報告,對學生進行個性化指導,培養(yǎng)學生的元認知能力。
綜上所述,中文智能作文評價是認知心理學、計算機科學、教育測量、語言學等多個學科交叉融合的產(chǎn)物,為寫作教學注入了新生力量。本研究通過智能作文評價的多維度比較,發(fā)現(xiàn)智能作文評分及其反饋信息對師生都有較高的參考價值,為教師與智能作文評價的人機協(xié)同教學提供依據(jù)。當然,智能作文評價系統(tǒng)也存在問題,面臨諸多理念和技術層面的挑戰(zhàn)。隨著各學科的交叉融合和發(fā)展,智能作文評價的評分效度和反饋質(zhì)量也一定會不斷提升,為個性化寫作教學與評價創(chuàng)造更多可能。在“智能+”時代,語文教育者應積極探索人機協(xié)同寫作教學的最佳路徑,尋求師生與智能作文評價系統(tǒng)共處與互動的合宜方式。