人機(jī)協(xié)同作文評(píng)價(jià)能促進(jìn)寫作教學(xué)嗎？

2022-01-25 10:52:49李艷劉淑君李小麗楊普光

現(xiàn)代遠(yuǎn)程教育研究 2022年1期

李艷劉淑君李小麗楊普光

摘要：智能作文評(píng)價(jià)系統(tǒng)是人工智能、互聯(lián)網(wǎng)、語言認(rèn)知等多個(gè)領(lǐng)域交叉融合的產(chǎn)物，能為作文提供即時(shí)評(píng)分和內(nèi)容反饋，其研發(fā)和應(yīng)用為人機(jī)協(xié)同寫作教學(xué)奠定了基礎(chǔ)。隨著中文智能作文評(píng)價(jià)系統(tǒng)進(jìn)入教學(xué)應(yīng)用階段，人機(jī)協(xié)同作文評(píng)價(jià)在中文寫作教學(xué)中是否有效這一議題越來越受到學(xué)界關(guān)注。以Z校寫作拓展課的28名七年級(jí)學(xué)生為樣本開展的準(zhǔn)實(shí)驗(yàn)研究將學(xué)生分為實(shí)驗(yàn)組和對(duì)照組，分別接受人機(jī)協(xié)同作文評(píng)價(jià)和教師作文評(píng)價(jià)，用以探究人機(jī)協(xié)同作文評(píng)價(jià)對(duì)初中寫作教學(xué)的影響。實(shí)驗(yàn)結(jié)果顯示：（1）接受過評(píng)價(jià)反饋的作文終稿成績都較初稿有顯著提升，但接受人機(jī)協(xié)同作文評(píng)價(jià)和教師作文評(píng)價(jià)的兩組學(xué)生的作文成績之間沒有顯著差異；（2）相較于教師評(píng)價(jià)，人機(jī)協(xié)同作文評(píng)價(jià)能顯著提升學(xué)生寫作激情，但在自信和毅力維度沒有顯著差異；（3）人機(jī)協(xié)同作文評(píng)價(jià)條件下，教師反饋數(shù)量和提問型反饋比率都較教師評(píng)價(jià)條件下有所下降，但二者在低階反饋和高階反饋比率方面不存在顯著差異；（4）雖然學(xué)生整體上認(rèn)可人機(jī)協(xié)同評(píng)價(jià)的價(jià)值，但對(duì)繼續(xù)使用該評(píng)價(jià)方式持保留態(tài)度?？傊?，雖然人機(jī)協(xié)同作文評(píng)價(jià)在促進(jìn)寫作教學(xué)效果方面具有潛在優(yōu)勢，但其作用的充分發(fā)揮還有賴于教師專業(yè)素養(yǎng)的提升、學(xué)習(xí)環(huán)境的支持和系統(tǒng)功能改進(jìn)等多種因素的共同推動(dòng)。

關(guān)鍵詞：智能作文評(píng)價(jià)；作文成績；寫作動(dòng)機(jī)；教師反饋；人機(jī)協(xié)同作文評(píng)價(jià)

中圖分類號(hào)：G434文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：1009-5195（2022）01-0063-12 doi10.3969/j.issn.1009-5195.2022.01.008

基金項(xiàng)目：2019年度國家社會(huì)科學(xué)基金重大項(xiàng)目“人工智能促進(jìn)未來教育發(fā)展研究”（19ZDA364）子課題“人工智能支撐大規(guī)模教育的個(gè)性化實(shí)現(xiàn)研究”。

作者簡介：李艷，博士，教授，博士生導(dǎo)師，浙江大學(xué)教育學(xué)院（浙江杭州310058）；劉淑君，博士，講師，湖州師范學(xué)院（浙江湖州313000）；李小麗，教師，浙江大學(xué)教育學(xué)院附屬學(xué)校（浙江杭州310013）；楊普光，教師，鄭州外國語學(xué)校（河南鄭州450001）。

一、引言

人工智能（Artificial Intelligence，AI）的教育應(yīng)用正在重塑教育生態(tài)，教和學(xué)的關(guān)系正經(jīng)歷全新的變革（中華人民共和國中央人民政府，2019），教師也面臨著角色轉(zhuǎn)換和專業(yè)知識(shí)結(jié)構(gòu)更新的挑戰(zhàn)。人機(jī)結(jié)合的思維方式可以輔助人類突破個(gè)體認(rèn)知的極限，教師與智能設(shè)備的協(xié)同教學(xué)應(yīng)是未來教育的理想范式（余勝泉等，2019）。在傳統(tǒng)中小學(xué)寫作教學(xué)中，教師批改作文耗時(shí)耗力且反饋滯后，學(xué)生也普遍存在畏難情緒，寫作動(dòng)機(jī)不高。近年來，智能作文評(píng)價(jià)為寫作教學(xué)革新帶來新契機(jī)。智能作文評(píng)價(jià)系統(tǒng)是人工智能、互聯(lián)網(wǎng)、語言認(rèn)知等多個(gè)領(lǐng)域交叉融合的產(chǎn)物，能為作文提供即時(shí)評(píng)分和內(nèi)容反饋，其研發(fā)和應(yīng)用為人機(jī)協(xié)同寫作教學(xué)奠定了基礎(chǔ)。

智能作文評(píng)價(jià)可以追溯到20世紀(jì)60年代美國學(xué)者Page（2003）研發(fā)的第一款智能作文評(píng)價(jià)系統(tǒng)PEG（Project Essay Grade）。早期的智能作文評(píng)價(jià)系統(tǒng)只能為作文評(píng)分，不提供任何形式的內(nèi)容反饋。上世紀(jì)90年代以后，智能作文評(píng)價(jià)技術(shù)發(fā)展迅速，美國研發(fā)的Criterion、MY Access！E-rater、Intelligent Essay Assessor（簡稱IEA）等代表性工具不僅能對(duì)作文進(jìn)行自動(dòng)評(píng)分，還提供多維度反饋，適用于形成性和總結(jié)性的作文評(píng)價(jià)，有的已經(jīng)被應(yīng)用在TOEFL（Test of English as a Foreign Language）和GMAT（GraduateManagement Admission Test）等大規(guī)模英語測試中（唐錦蘭等，2011）。近年來，智能作文評(píng)價(jià)系統(tǒng)的評(píng)價(jià)對(duì)象也逐漸由英語擴(kuò)展到阿拉伯語、中文、日語等其他語種（Ishioka et al.，2006；Hao et al.，2016；Azmi et al.，2019），IN課堂語文作文智能批改系統(tǒng)（簡稱IN課堂）、愛語文APP等都是具有代表性的中文智能作文評(píng)價(jià)系統(tǒng)。先前研究表明，IN課堂的評(píng)分效度良好，與教師作文評(píng)價(jià)在反饋類型與層次上各具特點(diǎn)，二者具有協(xié)同教學(xué)的基礎(chǔ)（劉淑君等，2021）。

人機(jī)協(xié)同就是“人”與“機(jī)器”之間的交互和協(xié)作，人與機(jī)器做各自擅長的工作，比如機(jī)器負(fù)責(zé)數(shù)據(jù)計(jì)算和部分推理工作，人類負(fù)責(zé)高階選擇和任務(wù)決策，以此實(shí)現(xiàn)二者的密切協(xié)作與相互協(xié)同（錢學(xué)森等，1990；劉步青，2016）。在本研究中，“人”和“機(jī)”分別指“初中語文教師”和在國內(nèi)應(yīng)用較廣的“IN課堂語文作文智能批改系統(tǒng)”。IN課堂屬于交互式的智能作文批改和反饋平臺(tái)，于2018年正式投入應(yīng)用。它借助自然語言處理技術(shù)，從語料庫中挖掘打分細(xì)則、評(píng)級(jí)參數(shù)和偏誤規(guī)則，不僅可以對(duì)學(xué)生作文即時(shí)評(píng)分，還能提供反饋建議。利用IN課堂，學(xué)生可隨時(shí)提交作文并獲得即時(shí)反饋，教師可通過系統(tǒng)建立虛擬班級(jí)、發(fā)布作業(yè)、補(bǔ)充反饋信息、查看學(xué)生寫作的行為和結(jié)果數(shù)據(jù)等。IN課堂支持“學(xué)生—系統(tǒng)”“教師—系統(tǒng)”和“教師—學(xué)生”等維度的多元交互（IN課堂，2018）?！叭藱C(jī)協(xié)同”指教師和IN課堂密切協(xié)作、優(yōu)勢互補(bǔ)，為學(xué)生寫作提供盡可能多的支持。本研究將借助Z校寫作拓展課探究人機(jī)協(xié)同作文評(píng)價(jià)在初中寫作教學(xué)中的應(yīng)用效果，以期為智能技術(shù)與寫作教學(xué)的深度融合提供借鑒。

二、相關(guān)文獻(xiàn)綜述

智能作文評(píng)價(jià)通過在技術(shù)、學(xué)生、教師和同伴之間建立交互來支持寫作教學(xué)。在“學(xué)生—系統(tǒng)”的交互中，學(xué)生能借助系統(tǒng)完成構(gòu)思和寫作，并自動(dòng)獲得評(píng)分和反饋，繼而修改和完善文本，這增加了寫作練習(xí)與反饋的機(jī)會(huì)，有利于學(xué)生寫作能力提升（Kellogg，2008）?！敖處煛到y(tǒng)”的交互包括教師查看學(xué)生寫作行為與結(jié)果數(shù)據(jù)、監(jiān)控學(xué)生寫作進(jìn)度等，有助于教師及時(shí)調(diào)整教學(xué)計(jì)劃（Grimes et al.，2010）。借助系統(tǒng)，學(xué)生還可以向教師發(fā)送信息，教師也能對(duì)學(xué)生作文做調(diào)整性評(píng)分和補(bǔ)充反饋。有的智能系統(tǒng)還開通了同伴互評(píng)功能，增加學(xué)生之間的深度互動(dòng)（Balfour，2013）。

經(jīng)過多年的研究和發(fā)展，作文的智能評(píng)分算法已具備一定的準(zhǔn)確性和可靠性。多項(xiàng)研究表明，人機(jī)評(píng)分一致性已達(dá)到較高的水平（Shermis，2014；劉淑君等，2021）。然而，智能作文評(píng)價(jià)的教學(xué)應(yīng)用效果依然存在爭議。一些研究者認(rèn)為智能作文評(píng)價(jià)會(huì)削弱寫作固有的社會(huì)性，擔(dān)心學(xué)生僅與機(jī)器交互會(huì)讓其作文變得呆板（National Council of Teachers of English，2013）。因此，研究者持續(xù)探究智能作文評(píng)價(jià)對(duì)學(xué)生寫作質(zhì)量的影響。近年來，其對(duì)學(xué)生寫作動(dòng)機(jī)以及教師教學(xué)行為的影響也被廣泛關(guān)注。

1.智能作文評(píng)價(jià)對(duì)學(xué)生寫作質(zhì)量的影響

研究者發(fā)現(xiàn)，不同評(píng)價(jià)工具、學(xué)生樣本、教學(xué)環(huán)境下，智能作文評(píng)價(jià)系統(tǒng)對(duì)學(xué)生寫作質(zhì)量的影響效果并不一致（Stevenson et al.，2014）。一方面，Wang等（2013）對(duì)57名以英語為非母語的大學(xué)生實(shí)施為期16周的對(duì)照實(shí)驗(yàn)（實(shí)驗(yàn)組31人、對(duì)照組26人），發(fā)現(xiàn)智能反饋組較對(duì)照組（教師反饋）在文本準(zhǔn)確性上有顯著優(yōu)勢；Chodorow等（2010）針對(duì)463名大學(xué)生的作文文本分析表明，智能反饋系統(tǒng)Criterion可以降低非母語學(xué)生的英語文本錯(cuò)誤率；Choi（2010）的研究也發(fā)現(xiàn)，當(dāng)智能反饋融入以英語為非母語的大學(xué)生寫作教學(xué)時(shí)，學(xué)生作文質(zhì)量往往會(huì)得到提高。另一方面，Shermis等（2008）對(duì)美國某地區(qū)2017名不同年級(jí)的學(xué)生借助智能作文反饋系統(tǒng)完成的11685篇文章進(jìn)行分析，結(jié)果發(fā)現(xiàn)，經(jīng)過一段時(shí)間的練習(xí)，各年級(jí)學(xué)生作文質(zhì)量都進(jìn)步顯著，且八年級(jí)學(xué)生作文成績提升幅度以及錯(cuò)誤率降低幅度都最大，但這可能主要是學(xué)生寫作修改能力隨著年級(jí)遞增而帶來的結(jié)果。Ware（2014）的研究則發(fā)現(xiàn)，接受同伴反饋、教師反饋和智能反饋（Criterion）的三組初中生在作文準(zhǔn)確性、流暢性與整體分?jǐn)?shù)上沒有顯著差異，教師反饋與同伴反饋較智能反饋對(duì)學(xué)生文體要素使用有更積極的影響。還有學(xué)者將美國某地區(qū)114名六年級(jí)學(xué)生分為實(shí)驗(yàn)組（PEG反饋）和對(duì)照組（使用谷歌文檔編輯文本）開展對(duì)照實(shí)驗(yàn)，結(jié)果也發(fā)現(xiàn)，兩組學(xué)生后測作文質(zhì)量無顯著差異，且較前測都沒有顯著提升（Wilson et al.，2020）。可見，當(dāng)前智能作文評(píng)價(jià)的教學(xué)應(yīng)用效果尚未獲得學(xué)界共識(shí)。

2.智能作文評(píng)價(jià)對(duì)學(xué)生寫作動(dòng)機(jī)與寫作自我效能感的影響

寫作動(dòng)機(jī)是指學(xué)生對(duì)寫作的興趣、價(jià)值認(rèn)知、努力程度、目標(biāo)取向等，也有學(xué)者將其劃分為對(duì)寫作的興趣、毅力和激情等維度（Troia et al.，2012）。寫作自我效能感是指學(xué)生對(duì)自己寫作能力的自信程度（Bruning et al.，2016）。已有研究表明，盡管寫作態(tài)度并不能直接影響學(xué)生寫作質(zhì)量，但具有積極動(dòng)機(jī)和信念的學(xué)生傾向于多寫多練；學(xué)生自我效能感越強(qiáng)，在寫作上付出的努力就越多，也會(huì)更樂于迎接挑戰(zhàn)（Troia et al.，2013）。寫作反饋是影響學(xué)生寫作動(dòng)機(jī)和自我效能感的關(guān)鍵因素（Dujinhower et al.，2010）。智能作文反饋對(duì)普通學(xué)生和學(xué)習(xí)障礙生的寫作動(dòng)機(jī)都有一定的促進(jìn)作用（Grimes et al.，2010；Morphy et al.，2012）。針對(duì)美國四所中學(xué)師生的一項(xiàng)調(diào)查發(fā)現(xiàn)，使用智能作文反饋可以提升學(xué)生的寫作動(dòng)機(jī)和修改行為，提升幅度顯著高于使用文字處理軟件的對(duì)照組（Grimes et al.，2010）。使用Write-to-Learn反饋系統(tǒng)的學(xué)生在創(chuàng)作和修改的時(shí)間投入和參與持久性上都有所增加，學(xué)生寫作動(dòng)機(jī)的毅力維度也有明顯提升（Foltz et al.，2013）。同時(shí)，也有研究發(fā)現(xiàn)，智能作文評(píng)價(jià)支持的學(xué)生寫作自我效能較傳統(tǒng)教師作文評(píng)價(jià)支持的學(xué)生更積極，寫作自我效能感在一定程度上調(diào)節(jié)了作文反饋條件對(duì)寫作成績的影響（Wilson et al.，2020）?？梢?，智能作文評(píng)價(jià)的應(yīng)用對(duì)學(xué)生寫作動(dòng)機(jī)和自我效能感有積極影響，后續(xù)可以推進(jìn)更多場景中的研究。

3.人機(jī)協(xié)同作文評(píng)價(jià)研究

智能作文評(píng)價(jià)的教學(xué)應(yīng)用離不開教師的協(xié)同支持，這種人機(jī)協(xié)同也在一定程度上影響了教師的教學(xué)實(shí)踐。Wilson等（2016）以八年級(jí)145名學(xué)生為樣本，探究了“PEG+教師”協(xié)同評(píng)價(jià)與教師單獨(dú)評(píng)價(jià)條件下教師作文反饋數(shù)量、類型與層次之間的差異。結(jié)果表明，兩組教師反饋在數(shù)量和類型上沒有顯著差異，但人機(jī)協(xié)同評(píng)價(jià)組教師的高階反饋信息數(shù)量顯著高于對(duì)照組。Link等（2020）以高校英語課中28名學(xué)習(xí)者為樣本（實(shí)驗(yàn)組12人，對(duì)照組16人），研究了智能作文評(píng)價(jià)對(duì)教師反饋、學(xué)生作文修改和寫作質(zhì)量的影響，結(jié)果顯示，實(shí)驗(yàn)組（“教師+Criterion”評(píng)價(jià)）教師的高階反饋數(shù)量較對(duì)照組（教師評(píng)價(jià)）沒有顯著變化，然而低階反饋數(shù)量較對(duì)照組顯著減少。可見，智能作文評(píng)價(jià)會(huì)影響教師作文反饋層次，讓教師壓縮低階寫作技能反饋的時(shí)間，從而聚焦高階寫作技能反饋。

那么，人機(jī)協(xié)同作文評(píng)價(jià)的教學(xué)效果如何呢？在Wilson等（2016）的研究中，“PEG+教師”評(píng)價(jià)組的學(xué)生作文質(zhì)量較教師評(píng)價(jià)組沒有顯著變化，但學(xué)生寫作動(dòng)機(jī)在毅力維度得到顯著提升。而Link等（2020）的研究發(fā)現(xiàn)，“教師+Criterion”協(xié)同評(píng)價(jià)條件下學(xué)生文本準(zhǔn)確性沒有顯著提升，但寫作技能留存率要高于對(duì)照組。黃靜等（2018）將句酷批改網(wǎng)的評(píng)價(jià)與同伴互評(píng)、教師評(píng)價(jià)等方式相結(jié)合，以25名參與大學(xué)英語課程的學(xué)生為樣本開展單組實(shí)驗(yàn)，對(duì)比學(xué)生的作文初稿和終稿質(zhì)量發(fā)現(xiàn)，人機(jī)協(xié)同評(píng)價(jià)對(duì)大學(xué)生英語寫作質(zhì)量有明顯促進(jìn)作用。

綜上，雖然當(dāng)前有關(guān)智能作文評(píng)價(jià)、人機(jī)協(xié)同作文評(píng)價(jià)教學(xué)應(yīng)用的研究已取得一定進(jìn)展，但還存在爭議，且多局限于英語語境。中文智能作文評(píng)價(jià)系統(tǒng)興起較晚，相關(guān)研究還比較薄弱，此類系統(tǒng)與寫作教學(xué)的融入路徑及效果還有待實(shí)證探究。目前中小學(xué)語文的寫作教學(xué)中，評(píng)價(jià)方式單一、批改耗時(shí)費(fèi)力、反饋滯后等問題依然是頑疾。人機(jī)協(xié)同作文評(píng)價(jià)能否破解作文教學(xué)和評(píng)價(jià)中的難題，促進(jìn)中小學(xué)寫作教學(xué)實(shí)踐，已成為人們關(guān)注的重要話題。

三、研究設(shè)計(jì)

1.研究目的與問題

為了探究人機(jī)協(xié)同作文評(píng)價(jià)在初中寫作教學(xué)中的應(yīng)用效果以及智能作文評(píng)價(jià)融入初中寫作教學(xué)的路徑，本研究依托Z中學(xué)七年級(jí)寫作拓展課開展了一項(xiàng)教育準(zhǔn)實(shí)驗(yàn)研究。研究者將選課學(xué)生分為實(shí)驗(yàn)組和對(duì)照組，分別接受人機(jī)協(xié)同作文評(píng)價(jià)和教師作文評(píng)價(jià)的教學(xué)實(shí)踐，以此探究人機(jī)協(xié)同作文評(píng)價(jià)對(duì)學(xué)生作文成績、寫作動(dòng)機(jī)和教師作文反饋的影響，并調(diào)研學(xué)生對(duì)人機(jī)協(xié)同作文評(píng)價(jià)的態(tài)度。研究問題包括：（1）人機(jī)協(xié)同作文評(píng)價(jià)能提升學(xué)生的作文成績嗎？（2）人機(jī)協(xié)同作文評(píng)價(jià)對(duì)學(xué)生寫作動(dòng)機(jī)的影響如何？（3）人機(jī)協(xié)同作文評(píng)價(jià)對(duì)教師反饋信息的數(shù)量、類型和層次是否有影響？（4）學(xué)生對(duì)人機(jī)協(xié)同作文評(píng)價(jià)的體驗(yàn)和感受如何？

2.研究對(duì)象

本研究選取參加Z校寫作拓展課的28名七年級(jí)學(xué)生為研究對(duì)象，學(xué)生來自同一個(gè)教學(xué)班，日常學(xué)習(xí)環(huán)境和課程任務(wù)安排保持一致。實(shí)驗(yàn)課程持續(xù)5周，每周2個(gè)課時(shí)。研究者根據(jù)語文成績和性別均衡原則將學(xué)生分為兩組，實(shí)驗(yàn)組14人（男生7人，女生7人），對(duì)照組14人（男生8人，女生6人）。兩組學(xué)生在完成作文初稿后分別在人機(jī)協(xié)同評(píng)價(jià)和教師作文評(píng)價(jià)的輔助下修改文本。

3.準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)

寫作拓展課之前，授課教師為師生申請IN課堂賬號(hào)，并建立虛擬班級(jí)，學(xué)生在機(jī)房練習(xí)賬號(hào)登錄、上傳作文、查看反饋內(nèi)容、修改提交等操作。準(zhǔn)實(shí)驗(yàn)前，所有學(xué)生完成寫作動(dòng)機(jī)前測問卷調(diào)查。在準(zhǔn)實(shí)驗(yàn)過程中，教師以“倒敘的魅力”和“描寫：描出世間景象”為主題開展兩次寫作活動(dòng)，每次活動(dòng)持續(xù)兩周時(shí)間，每周2個(gè)課時(shí)。第一周，教師對(duì)學(xué)生進(jìn)行寫作前指導(dǎo)，然后學(xué)生完成作文初稿并上交。第二周，學(xué)生在機(jī)房根據(jù)作文反饋信息修改作文；之后教師適時(shí)組織交流活動(dòng)。兩組學(xué)生寫作前指導(dǎo)和撰寫初稿的環(huán)境保持一致，準(zhǔn)實(shí)驗(yàn)干預(yù)主要表現(xiàn)在作文評(píng)價(jià)、反饋與修改環(huán)節(jié)。實(shí)驗(yàn)組學(xué)生提交初稿后，教師將作文上傳IN課堂系統(tǒng)得到智能評(píng)分和內(nèi)容反饋；之后，在審閱智能評(píng)價(jià)的基礎(chǔ)上，教師對(duì)學(xué)生作文進(jìn)行評(píng)分，并以文內(nèi)批注和文末總評(píng)的方式完成反饋。IN課堂會(huì)針對(duì)標(biāo)點(diǎn)、錯(cuò)別字、語法等提供低階反饋建議，也會(huì)針對(duì)內(nèi)容意義、結(jié)構(gòu)、構(gòu)思等提出高階提升建議。鑒于機(jī)器反饋存在低階反饋欠全面、高階反饋欠具體等問題，教師需要在審閱機(jī)器反饋的基礎(chǔ)上進(jìn)行補(bǔ)充性反饋。對(duì)照組學(xué)生提交初稿后，教師直接以文內(nèi)批注和文末總評(píng)的方式書寫反饋信息并評(píng)分。在修改作文環(huán)節(jié)，實(shí)驗(yàn)組學(xué)生可以登錄IN課堂平臺(tái)，上傳初稿得到智能評(píng)價(jià)，之后可多次修改并得到反饋；同時(shí)學(xué)生還可參照教師反饋信息改進(jìn)作文。對(duì)照組學(xué)生僅根據(jù)教師反饋內(nèi)容修改作文。兩組學(xué)生修改滿意后需向教師提交終稿。

準(zhǔn)實(shí)驗(yàn)過程中，研究者收集學(xué)生初稿和終稿成績數(shù)據(jù)，整理教師作文反饋信息。實(shí)驗(yàn)結(jié)束后，學(xué)生完成寫作動(dòng)機(jī)后測問卷和批改方式體驗(yàn)問卷，研究者對(duì)實(shí)驗(yàn)組學(xué)生開展小組焦點(diǎn)訪談，同時(shí)計(jì)算學(xué)生作文成績，并對(duì)兩組教師作文反饋信息進(jìn)行編碼分析。

4.數(shù)據(jù)收集與分析

本研究的數(shù)據(jù)包括學(xué)生作文成績、學(xué)生寫作動(dòng)機(jī)、教師作文反饋、學(xué)生體驗(yàn)與感受等內(nèi)容。

（1）學(xué)生作文成績數(shù)據(jù)的收集與分析

首先，研究以教師評(píng)分和IN課堂評(píng)分的均值作為衡量學(xué)生成績的指標(biāo)。教師評(píng)分和IN課堂評(píng)分都遵循中考作文評(píng)分標(biāo)準(zhǔn)，以40分為滿分成績。研究者將學(xué)生作文初稿和終稿都提交IN課堂系統(tǒng)，由此得到智能評(píng)分?jǐn)?shù)據(jù)；同時(shí)教師對(duì)兩組學(xué)生的初稿和終稿成績進(jìn)行評(píng)分，由此得到教師評(píng)分?jǐn)?shù)據(jù)。研究者取兩組評(píng)分的均值作為學(xué)生作文最終成績。其次，研究以學(xué)生作文初稿成績?yōu)閰f(xié)變量、以作文評(píng)價(jià)方式為自變量、以作文終稿成績?yōu)橐蜃兞孔鰡我蛩貐f(xié)方差分析，用以調(diào)查在排除前測成績影響之后，兩組學(xué)生作文終稿成績是否存在顯著差異；同時(shí)研究對(duì)兩組學(xué)生作文練習(xí)的初稿和終稿成績分別執(zhí)行配對(duì)樣本t檢驗(yàn)，以此調(diào)查兩組學(xué)生作文終稿成績較初稿的變化情況。

（2）學(xué)生寫作動(dòng)機(jī)數(shù)據(jù)的收集與分析

研究者在準(zhǔn)實(shí)驗(yàn)前后分別調(diào)查兩組學(xué)生的寫作動(dòng)機(jī)。學(xué)生寫作動(dòng)機(jī)量表改編自Piazza等學(xué)者提出的量表（Piazza et al.，2008），共11題，包括學(xué)生對(duì)寫作的自信（3個(gè)題項(xiàng)）、毅力（4個(gè)題項(xiàng)）和激情（4個(gè)題項(xiàng)）三個(gè)維度，采用李克特七點(diǎn)量表設(shè)計(jì)。該量表在研發(fā)階段的克隆巴赫系數(shù)為0.89，在前后測中，總量表和三個(gè)維度的克隆巴赫系數(shù)都處于0.75～0.92，表明量表信度良好。

研究以兩組學(xué)生寫作動(dòng)機(jī)前測為協(xié)變量、評(píng)價(jià)方式為自變量、寫作動(dòng)機(jī)后測為因變量執(zhí)行單因素協(xié)方差分析，用以驗(yàn)證經(jīng)過實(shí)驗(yàn)干預(yù)兩組學(xué)生的寫作動(dòng)機(jī)是否存在差異；同時(shí)對(duì)兩組學(xué)生寫作動(dòng)機(jī)前后測得分進(jìn)行配對(duì)樣本t檢驗(yàn)，以此探究兩組學(xué)生寫作動(dòng)機(jī)在準(zhǔn)實(shí)驗(yàn)前后的變化情況。

（3）教師作文反饋數(shù)據(jù)的收集與分析

本研究借鑒Wilson等（2016）的作文反饋信息分類方法，根據(jù)國內(nèi)作文批閱習(xí)慣進(jìn)行改編，比如，將“拼寫和大小寫”合并為“錯(cuò)別字”，將“語法和句子結(jié)構(gòu)”合并為“句式語法”等，最終構(gòu)建了適用于國內(nèi)中學(xué)作文評(píng)價(jià)的反饋信息編碼表（見表1）。該表將用于對(duì)教師作文反饋信息的編碼分析。

研究首先將兩組教師作文反饋信息逐條錄入Excel表格，隨后將反饋信息拆分為有獨(dú)立意義的反饋單元。遵循文獻(xiàn)中反饋單元的拆分程序（Cho et al.，2006；Hayes et al.，2010），先抽取5篇作文的反饋信息，研究者和合作教師分別對(duì)其做單元拆分，隨后比對(duì)拆分結(jié)果，對(duì)不一致處通過協(xié)商達(dá)成共識(shí)。之后，研究者完成全部作文反饋信息的拆分工作，合作教師再對(duì)拆分后的反饋單元進(jìn)行抽樣檢查。通過以上拆分程序，本研究共得到677條作文反饋單元，其中實(shí)驗(yàn)組289條，對(duì)照組338條。為了盡可能避免作文長度對(duì)教師反饋數(shù)量的影響，研究者將每篇作文的反饋單元數(shù)轉(zhuǎn)化為每千字的反饋單元數(shù)，之后用SPSS 23對(duì)兩組數(shù)據(jù)執(zhí)行獨(dú)立樣本非參數(shù)檢驗(yàn)，以比較兩組間教師反饋數(shù)量的差異。

參照已有研究中的編碼程序（劉淑君等，2021），研究者與合作教師從反饋類型與層次兩個(gè)維度對(duì)所有反饋單元進(jìn)行編碼，反饋類型的編碼一致性為0.91，反饋層次的編碼一致性為0.83。編碼樣例如表2所示。

為避免作文長度和作文篇數(shù)對(duì)教師反饋的影響，研究者計(jì)算了每篇作文中直接反饋、提問型反饋、信息型反饋和表揚(yáng)等4種反饋類型的比率，以及高階和低階反饋所占比率，以便對(duì)兩組教師作文反饋類型與層次進(jìn)行科學(xué)對(duì)比。之后，研究者借助SPSS 23對(duì)兩組教師作文反饋的類型與層次比率執(zhí)行一系列非參數(shù)檢驗(yàn)，用以驗(yàn)證兩組教師在反饋類型與層次上是否存在差異。

（4）學(xué)生體驗(yàn)與感受類數(shù)據(jù)的收集與分析

準(zhǔn)實(shí)驗(yàn)結(jié)束后，實(shí)驗(yàn)組學(xué)生完成對(duì)人機(jī)協(xié)同作文評(píng)價(jià)的體驗(yàn)問卷。該問卷改編自已有研究文獻(xiàn)（Grimes et al.，2010；Palermo et al.，2018），主要調(diào)查學(xué)生對(duì)人機(jī)協(xié)同作文評(píng)價(jià)的反饋有效性和接受度等方面的感知。問卷采用李克特五點(diǎn)量表設(shè)計(jì)，共7題。此外，研究者將實(shí)驗(yàn)組學(xué)生分為兩組，每組7人，圍繞學(xué)生對(duì)人機(jī)協(xié)同作文評(píng)價(jià)的體驗(yàn)與感受開展小組焦點(diǎn)訪談，訪談問題包括學(xué)生對(duì)人機(jī)協(xié)同作文評(píng)分與反饋的態(tài)度、針對(duì)IN課堂的改進(jìn)建議等，每場訪談時(shí)間為25～30分鐘，訪談全程錄音。

研究采用SPSS 23對(duì)學(xué)生問卷各題項(xiàng)得分做描述性統(tǒng)計(jì)，之后將其均值與中立分（3分）做均值差異比較，用以檢驗(yàn)學(xué)生對(duì)人機(jī)協(xié)同作文評(píng)價(jià)的態(tài)度是否顯著高于中立分。所有訪談錄音都被轉(zhuǎn)錄為電子文檔，研究者圍繞焦點(diǎn)問題對(duì)訪談內(nèi)容分類整理，深入調(diào)查學(xué)生對(duì)人機(jī)協(xié)同作文評(píng)價(jià)的體驗(yàn)與感受。

四、研究發(fā)現(xiàn)

1.人機(jī)協(xié)同作文評(píng)價(jià)對(duì)學(xué)生作文成績的影響

研究以作文初稿成績?yōu)閰f(xié)變量、反饋方式為自變量、終稿成績?yōu)橐蜃兞繉?duì)學(xué)生兩次作文終稿成績進(jìn)行協(xié)方差分析。表3顯示，兩次作文中，兩組學(xué)生終稿成績之間都不存在顯著差異（p>0.05）。

研究者對(duì)兩組學(xué)生作文初稿和終稿成績分別進(jìn)行配對(duì)樣本t檢驗(yàn)（見表4），結(jié)果顯示在兩次作文練習(xí)中，實(shí)驗(yàn)組和對(duì)照組的作文終稿成績都較初稿有顯著提升（p<0.05）。由此可見，盡管兩種評(píng)價(jià)都有助于提高學(xué)生的作文成績，但人機(jī)協(xié)同作文評(píng)價(jià)相對(duì)于教師單獨(dú)評(píng)價(jià)對(duì)學(xué)生作文成績的影響并不顯著。

2.人機(jī)協(xié)同作文評(píng)價(jià)對(duì)學(xué)生寫作動(dòng)機(jī)的影響

研究以學(xué)生寫作動(dòng)機(jī)前測為協(xié)變量、評(píng)價(jià)方式為自變量、后測為因變量對(duì)寫作動(dòng)機(jī)三個(gè)維度的得分進(jìn)行單因素協(xié)方差分析。結(jié)果顯示，實(shí)驗(yàn)組在寫作激情維度上得分顯著高于對(duì)照組（F=4.30，p<0.05），在自信和毅力維度上得分與對(duì)照組沒有顯著差異（見表5）?？梢?，人機(jī)協(xié)同作文評(píng)價(jià)可以促進(jìn)學(xué)生寫作動(dòng)機(jī)在激情維度上的顯著提升。

3.人機(jī)協(xié)同作文評(píng)價(jià)對(duì)教師反饋數(shù)量、類型與層次的影響

通過分析教師對(duì)學(xué)生兩次作文（共56篇）的反饋內(nèi)容發(fā)現(xiàn)，實(shí)驗(yàn)組教師每千字反饋單元的中位數(shù)為15.12，對(duì)照組為26.09，獨(dú)立樣本非參數(shù)檢驗(yàn)顯示，二者之間的差異具有顯著性（Z=4.13，p<0.01）。人機(jī)協(xié)同作文評(píng)價(jià)條件下，教師的作文反饋數(shù)量顯著減少，大約是教師單獨(dú)反饋數(shù)量的2/3。

通過對(duì)教師作文反饋信息進(jìn)行拆分、編碼和統(tǒng)計(jì)，研究者計(jì)算了兩組教師各類型反饋所占比率，并對(duì)兩組數(shù)據(jù)執(zhí)行獨(dú)立樣本非參數(shù)檢驗(yàn)。表6顯示，實(shí)驗(yàn)組和對(duì)照組的教師反饋在直接反饋、信息型反饋和表揚(yáng)等類型的比率上沒有顯著差異；然而，人機(jī)協(xié)同評(píng)價(jià)組的提問型反饋比率（0.13）低于對(duì)照組的提問型反饋比率（0.23），且該差異具有顯著性（Z=2.42，p<0.05）。由此可見，人機(jī)協(xié)同作文評(píng)價(jià)會(huì)減少教師反饋數(shù)量，并顯著降低教師提問型反饋的比率。

對(duì)兩組教師反饋層次的比率進(jìn)行獨(dú)立樣本非參數(shù)檢驗(yàn)，如表7所示，在高階反饋的具體類別中，實(shí)驗(yàn)組教師反饋在主題立意（Z=2.09，p<0.05）和結(jié)構(gòu)構(gòu)思（Z=2.11，p<0.05）層面的比率都顯著高于對(duì)照組；然而在寫作特色層面的反饋比率卻顯著低于對(duì)照組（Z=2.16，p<0.05）。從整體上看，人機(jī)協(xié)同評(píng)價(jià)組的教師高階反饋比率（0.75）高于教師評(píng)價(jià)組（0.70），然而這種差異并不具有顯著性（Z=1.36，p>0.05）；同時(shí)，兩組教師低階反饋比率之間也不存在顯著差異（Z=1.12，p>0.05）?？梢?，人機(jī)協(xié)同作文評(píng)價(jià)能提升教師對(duì)主題立意、結(jié)構(gòu)構(gòu)思等層面的高階反饋比率，降低教師對(duì)寫作特色維度的反饋比率；然而，從整體上看，人機(jī)協(xié)同評(píng)價(jià)對(duì)教師高、低階反饋比率的影響并不顯著。

4.學(xué)生對(duì)人機(jī)協(xié)同作文評(píng)價(jià)的體驗(yàn)與感受

問卷調(diào)查發(fā)現(xiàn)（見表8），實(shí)驗(yàn)組學(xué)生7個(gè)題項(xiàng)得分都顯著高于中立分。可見，學(xué)生對(duì)人機(jī)協(xié)同作文評(píng)價(jià)的態(tài)度整體上比較積極。從各題項(xiàng)的描述統(tǒng)計(jì)看，前6題學(xué)生選擇“強(qiáng)烈同意”和“同意”的超過60%。然而，針對(duì)第7題（我希望之后繼續(xù)采用“教師+IN課堂”的作文評(píng)價(jià)方式），50%的學(xué)生選擇“強(qiáng)烈同意”或“同意”，還有50%的學(xué)生選擇“中立”，可見，一半學(xué)生對(duì)“繼續(xù)采用‘教師+IN課堂的作文評(píng)價(jià)方式”持保留態(tài)度。

學(xué)生訪談分析顯示，有3位同學(xué)（21.43%）對(duì)人機(jī)協(xié)同作文評(píng)分持肯定態(tài)度，10位同學(xué)（71.43%）持否定態(tài)度，1名同學(xué)（7.14%）沒有明確表態(tài)。持肯定態(tài)度的同學(xué)認(rèn)為，智能作文評(píng)價(jià)系統(tǒng)不僅能給作文進(jìn)行整體評(píng)分，還可以從內(nèi)容、表達(dá)和發(fā)展等維度分項(xiàng)評(píng)分，能彌補(bǔ)教師只打整體分的不足；系統(tǒng)做到“秒評(píng)分”，能讓學(xué)生產(chǎn)生持續(xù)修改提交的動(dòng)力；另外，用智能評(píng)分和教師評(píng)分的均值作為作文最后得分，也讓評(píng)分更公正。持否定態(tài)度的同學(xué)將矛頭指向修改過程中的智能評(píng)分，比如有同學(xué)認(rèn)為自己“修改了錯(cuò)別字，疏通了語句，還豐富了內(nèi)容，作文分?jǐn)?shù)不升反降”；也有同學(xué)提出，“有時(shí)什么都沒改，作文分?jǐn)?shù)會(huì)莫名提升”。學(xué)生認(rèn)為系統(tǒng)對(duì)文本內(nèi)容變化的反應(yīng)不靈敏。

針對(duì)人機(jī)協(xié)同作文反饋，有8位同學(xué)（57.14%）持肯定態(tài)度，6位（42.86%）持保留態(tài)度。持肯定態(tài)度的同學(xué)認(rèn)為教師和IN課堂合作給出的反饋信息更全面，能更好地支持學(xué)生修改作文；系統(tǒng)善于尋找句段亮點(diǎn)，“不吝表揚(yáng)”也能提升學(xué)生的寫作信心和興趣。持保留態(tài)度的同學(xué)認(rèn)為，IN課堂低階反饋不全面，高階建議存在籠統(tǒng)、重復(fù)和套路化等問題，修改難度較高。有同學(xué)以作文《吃遍天下荷蘭豬》舉例說，系統(tǒng)“建議選取有情感的材料、事件，以增強(qiáng)文章的可讀性和感染力”，她并沒有找到具體修改方向；而教師建議她“考慮一下，和同伴相比，這只豬的生活發(fā)生了什么變化？他滿意嗎？周圍的人滿意嗎？當(dāng)他空閑下來時(shí)，是否會(huì)思考曾經(jīng)的夢想和人生意義？等等”，看到這些問題，她會(huì)不由自主地想去回答，而回答就能讓作文內(nèi)容得到擴(kuò)展。此外，也有人提出，修改作文過程中既要查看教師反饋信息，也要登錄IN課堂查看評(píng)價(jià)結(jié)果，思維需要在二者之間切換，會(huì)有點(diǎn)手忙腳亂。學(xué)生接收到的信息過多時(shí)，需要對(duì)信息進(jìn)行篩選和甄別，這會(huì)分散注意力，增加學(xué)生的認(rèn)知負(fù)荷。

學(xué)生也對(duì)人機(jī)協(xié)同作文評(píng)價(jià)提出了改進(jìn)建議，提及頻率最高的前三條包括：提高智能評(píng)分的準(zhǔn)確性和靈敏性；提升智能反饋內(nèi)容的全面性和具體性；教師需調(diào)整寫作修改程序，讓操作更便捷。這些為人機(jī)協(xié)同作文評(píng)價(jià)的未來發(fā)展指明了努力方向。

五、討論

通過為期5周的教學(xué)準(zhǔn)實(shí)驗(yàn)，本研究探討了人機(jī)協(xié)同作文評(píng)價(jià)和教師作文評(píng)價(jià)條件下學(xué)生寫作表現(xiàn)與教師反饋的差異，獲得了一些有意義的研究發(fā)現(xiàn)。

1.相較于教師作文評(píng)價(jià)，人機(jī)協(xié)同作文評(píng)價(jià)對(duì)學(xué)生作文成績并沒有產(chǎn)生顯著影響

盡管兩組學(xué)生的作文終稿成績都較初稿有顯著提升，然而，人機(jī)協(xié)同作文評(píng)價(jià)與教師作文評(píng)價(jià)相比，在提升作文終稿成績方面并沒有表現(xiàn)出明顯優(yōu)勢，這與先前類似研究結(jié)果具有一致性（Wilson et al.，2016；Link et al.，2020）。該結(jié)果可以從以下三方面來理解：首先，對(duì)照組采用教師作文評(píng)價(jià)，教師對(duì)作文精批細(xì)改，這是順應(yīng)師生多年習(xí)慣的反饋方式，具有較好的效果。其次，作文反饋質(zhì)量和學(xué)生落實(shí)反饋的效果有時(shí)并不一致。反饋實(shí)施的效果不僅受反饋內(nèi)容本身的影響，也取決于學(xué)生對(duì)反饋信息的理解和認(rèn)同程度（Nelson et al.，2009）。高寫作水平的學(xué)生能理解各類反饋信息并將其落實(shí)在寫作修改中，由此帶來終稿成績的大幅提升；而低寫作水平的學(xué)生能落實(shí)部分低階修改建議，對(duì)高階建議的落實(shí)程度往往并不理想。因此，即使人機(jī)協(xié)同評(píng)價(jià)可以提供更全面和豐富的反饋，如果學(xué)生不能有效落實(shí)，也不能帶來寫作質(zhì)量的顯著提升。最后，寫作是一項(xiàng)復(fù)雜技能，其提升需要長時(shí)間的持續(xù)干預(yù)，本次實(shí)驗(yàn)時(shí)間有限，學(xué)生寫作能力的細(xì)微進(jìn)步未必能體現(xiàn)在初稿到終稿的成績變化中，也難以在與對(duì)照組的對(duì)比中達(dá)到顯著水平。

2.相較于教師評(píng)價(jià)，人機(jī)協(xié)同作文評(píng)價(jià)能顯著提升學(xué)生寫作激情

寫作能力的理論模型和實(shí)證研究都強(qiáng)調(diào)了寫作動(dòng)機(jī)對(duì)提高學(xué)生寫作質(zhì)量的重要性（Graham et al.，2007；Hayes，2012）。經(jīng)過實(shí)驗(yàn)干預(yù)，實(shí)驗(yàn)組學(xué)生寫作動(dòng)機(jī)的激情維度得分顯著高于對(duì)照組，兩組學(xué)生在自信和毅力兩個(gè)維度沒有顯著差異。這與已有研究結(jié)論基本一致。多項(xiàng)研究發(fā)現(xiàn)，智能作文評(píng)價(jià)系統(tǒng)的教學(xué)應(yīng)用，不管是單獨(dú)使用還是與教師反饋協(xié)同作用，都可以讓學(xué)生寫作動(dòng)機(jī)在某些維度得到顯著提升（Warschauer et al.，2008；Grimes et al.，2010；Wilson et al.，2016）。學(xué)生訪談顯示，智能作文評(píng)價(jià)會(huì)帶給學(xué)生一些新鮮的體驗(yàn)，能激發(fā)學(xué)生對(duì)寫作的興趣；同時(shí)，系統(tǒng)提供多次修改和反饋機(jī)會(huì)，也能提升學(xué)生迎接挑戰(zhàn)的興致。

值得注意的是，兩組學(xué)生寫作動(dòng)機(jī)的自信和毅力兩個(gè)維度都沒有顯著差異，或許我們還需要慎重推論人機(jī)協(xié)同作文評(píng)價(jià)對(duì)學(xué)生寫作動(dòng)機(jī)的積極影響。本階段教學(xué)實(shí)驗(yàn)時(shí)間較短，寫作動(dòng)機(jī)從個(gè)別維度提升擴(kuò)展到全方位的進(jìn)步需要時(shí)間積淀。后續(xù)研究可以考慮讓學(xué)生在更多輪次的“寫作—反饋—修改”實(shí)踐中提升寫作的自信心、成就感和解決問題的毅力；教師也可以在長期教學(xué)實(shí)踐中觀察學(xué)生寫作動(dòng)機(jī)某個(gè)維度的發(fā)展是否會(huì)促進(jìn)其他維度的提升，并研究這種提升與寫作質(zhì)量之間的相關(guān)性（Ramineni et al.，2015）。值得注意的是，如果寫作動(dòng)機(jī)的提升是應(yīng)用智能技術(shù)后的新奇效應(yīng)產(chǎn)物，那么隨著時(shí)間的推移，寫作動(dòng)機(jī)或許會(huì)停滯增長或者消退（Cheung et al.，2013）。

3.人機(jī)協(xié)同作文評(píng)價(jià)使得教師反饋數(shù)量減少，提問型反饋比率降低

人機(jī)協(xié)同作文評(píng)價(jià)條件下教師反饋數(shù)量較教師單獨(dú)評(píng)價(jià)條件下有所減少，這與Link等（2020）針對(duì)英語作文評(píng)價(jià)的相關(guān)研究結(jié)果是一致的。值得注意的是，本研究中實(shí)驗(yàn)組學(xué)生接受的是教師和機(jī)器的雙重反饋，二者反饋數(shù)量之和要高于教師評(píng)價(jià)組，即學(xué)生得到的整體反饋數(shù)量是增加的。可以推測，教師審閱智能反饋建議后，會(huì)在此基礎(chǔ)上作補(bǔ)充性反饋，避免提供重復(fù)性信息。教師作文反饋數(shù)量減少意味著批改作文花費(fèi)的時(shí)間縮減，批改負(fù)擔(dān)在一定程度上得到緩解。當(dāng)然，鑒于教師需要審閱和甄別智能反饋信息，這對(duì)教師的專業(yè)素養(yǎng)和教學(xué)智慧提出了更高要求。

從反饋類型看，實(shí)驗(yàn)組教師提問型反饋比率顯著低于對(duì)照組，這與先前研究結(jié)果并不一致。Wilson等（2016）的研究發(fā)現(xiàn)，人機(jī)協(xié)同評(píng)價(jià)和教師評(píng)價(jià)條件下的教師反饋在類型上不存在顯著差異。提問型反饋在激發(fā)學(xué)生思考和促進(jìn)師生交流方面有重要作用，需要教師沉浸于文本內(nèi)容與學(xué)生進(jìn)行深度對(duì)話。在人機(jī)協(xié)同作文評(píng)價(jià)條件下，教師要審閱并甄別智能反饋的大量信息，并思考如何與之互補(bǔ)，這或許會(huì)壓縮教師與學(xué)生對(duì)話的時(shí)間和空間，繼而導(dǎo)致提問型反饋減少。

先前研究發(fā)現(xiàn)，人機(jī)協(xié)同作文評(píng)價(jià)會(huì)讓教師更專注于高階反饋（Wilson et al.，2016；Link et al.，2020），但是本研究中，實(shí)驗(yàn)組教師低階反饋和高階反饋較對(duì)照組沒有顯著變化，該結(jié)果還不能為已有研究提供新證據(jù)。IN課堂作文低階反饋包括對(duì)文本中標(biāo)點(diǎn)、錯(cuò)別字、詞語運(yùn)用、句法等問題的反饋，然而其反饋效果還不理想，會(huì)遺漏很多問題；同時(shí)，IN課堂提供大量針對(duì)內(nèi)容選材和結(jié)構(gòu)構(gòu)思的高階反饋，但反饋的具體性和針對(duì)性還有待改進(jìn)（劉淑君等，2021）。人機(jī)協(xié)同評(píng)價(jià)條件下，教師在低階反饋和高階反饋維度都需要對(duì)智能反饋進(jìn)行補(bǔ)充，或許這也是教師高階比率沒有顯著提升的重要原因。比較理想的人機(jī)協(xié)同狀態(tài)應(yīng)該是：機(jī)器和教師各司其職，前者負(fù)責(zé)語言質(zhì)量，后者專注高階點(diǎn)撥。然而，基于IN課堂的中文智能作文評(píng)價(jià)對(duì)低階錯(cuò)誤的識(shí)別率還有待提升，教師對(duì)作文低階反饋的工作還不能被完全代替。未來寫作教學(xué)實(shí)踐中，我們既要加強(qiáng)教師人工智能素養(yǎng)、數(shù)據(jù)素養(yǎng)和測評(píng)素養(yǎng)的培養(yǎng)，也要督促產(chǎn)品研發(fā)方不斷迭代更新評(píng)價(jià)技術(shù)，以此提升人機(jī)協(xié)同教學(xué)質(zhì)量（汪瓊等，2021）。

4.學(xué)生基本認(rèn)可人機(jī)協(xié)同作文評(píng)價(jià)的價(jià)值，但對(duì)繼續(xù)使用該方式持保留態(tài)度

針對(duì)人機(jī)協(xié)同作文評(píng)價(jià)的體驗(yàn)與感受的問卷調(diào)查顯示，學(xué)生對(duì)該評(píng)價(jià)方式整體上持積極態(tài)度，但一半學(xué)生對(duì)繼續(xù)使用該評(píng)價(jià)方式持中立態(tài)度，即不確定是否繼續(xù)使用。該結(jié)果看似矛盾，如果結(jié)合學(xué)生訪談內(nèi)容來看，會(huì)讓人有更深入的理解。學(xué)生訪談顯示，人機(jī)協(xié)同評(píng)價(jià)方式會(huì)讓評(píng)價(jià)更全面，增加修改和反饋機(jī)會(huì)，能提升學(xué)生修改作文的意愿；然而，雙重反饋信息讓寫作修改過程變得繁瑣而復(fù)雜，在一定程度上增加了學(xué)生的認(rèn)知負(fù)荷。此外，學(xué)生也對(duì)IN課堂系統(tǒng)提出了改進(jìn)建議，比如提升智能評(píng)分的精確性，增加智能反饋的具體性和全面性，調(diào)整教學(xué)設(shè)計(jì)步驟等。智能作文評(píng)價(jià)系統(tǒng)是計(jì)算機(jī)科學(xué)、語言學(xué)、心理學(xué)等多個(gè)學(xué)科交叉融合的成果，它應(yīng)該不斷前進(jìn)且持續(xù)更新（孟翀等，2021）。學(xué)生對(duì)人機(jī)協(xié)同作文評(píng)價(jià)的“矛盾”態(tài)度恰好揭示了該評(píng)價(jià)方式的潛力所在和改進(jìn)方向。

在本研究中，教師反饋建立在審閱智能反饋的基礎(chǔ)上，受限于客觀條件，學(xué)生并沒有提前與IN課堂互動(dòng)，只在人機(jī)協(xié)同反饋條件下完成一輪集中修改，寫作修改過程略顯倉促。寫作修改是一個(gè)復(fù)雜問題解決的過程，后續(xù)研究應(yīng)該為學(xué)生創(chuàng)設(shè)更豐富的寫作場景，支持學(xué)生完成更多輪次的寫作修改，優(yōu)化人機(jī)協(xié)同寫作教學(xué)的實(shí)施路徑。

六、結(jié)論與建議

隨著智能技術(shù)在教學(xué)中的廣泛應(yīng)用，智能作文評(píng)價(jià)與寫作教學(xué)的深度融合是未來寫作教育的重要趨勢。本研究探究了智能作文評(píng)價(jià)融入寫作教學(xué)的重要方式“人機(jī)協(xié)同作文評(píng)價(jià)”的教學(xué)效果，得出以下基本結(jié)論：首先，與教師作文評(píng)價(jià)相比，人機(jī)協(xié)同作文評(píng)價(jià)對(duì)作文成績的影響并不顯著，然而它能在一定程度上提升學(xué)生寫作動(dòng)機(jī)，對(duì)學(xué)生的“學(xué)”有積極的促進(jìn)作用；其次，人機(jī)協(xié)同作文評(píng)價(jià)會(huì)對(duì)教師反饋產(chǎn)生影響，比如，教師反饋數(shù)量減少，提問型反饋比率降低，教師“教”的優(yōu)勢還有待進(jìn)一步發(fā)揮；最后，教師只有重構(gòu)知識(shí)能力結(jié)構(gòu)，并不斷進(jìn)行教學(xué)革新，輔之智能作文評(píng)價(jià)系統(tǒng)的持續(xù)改進(jìn)，人機(jī)協(xié)同作文評(píng)價(jià)才能發(fā)揮出最大優(yōu)勢，更好地變革傳統(tǒng)寫作教學(xué)。

基于以上結(jié)論，本研究圍繞人機(jī)協(xié)同寫作教學(xué)領(lǐng)域的實(shí)踐和研究提出以下三點(diǎn)建議：

首先，語文教師需要探索人機(jī)協(xié)同寫作教學(xué)的多元路徑，找準(zhǔn)定位，進(jìn)一步發(fā)揮人機(jī)協(xié)同中的“人”的優(yōu)勢作用。教師首先需要轉(zhuǎn)變角色，提升人工智能素養(yǎng)，在與智能技術(shù)的協(xié)同教學(xué)中找到最佳著力點(diǎn)，給予學(xué)生最切實(shí)的反饋和幫助?！叭藱C(jī)協(xié)同”中的“人”除了語文教師外，還可以擴(kuò)展為學(xué)生本人、同伴甚至家長；“人”和“機(jī)”的評(píng)價(jià)與反饋可以同時(shí)呈現(xiàn)，讓學(xué)生根據(jù)兩種反饋內(nèi)容修改作文，也可以是時(shí)空分離的，學(xué)生在不同輪次的寫作修改活動(dòng)中體驗(yàn)不同的反饋方式。此外，教師對(duì)學(xué)生的寫作支持也是一個(gè)由扶到放的過程。如果始終以“精批細(xì)改”來“哺育”學(xué)生，教師的時(shí)間和精力都將難以維系，也有違現(xiàn)代寫作教育的初衷。因此，“人機(jī)協(xié)同”不僅要體現(xiàn)在評(píng)價(jià)反饋環(huán)節(jié)，也可以表現(xiàn)為“教師負(fù)責(zé)策略點(diǎn)撥與信念培育、機(jī)器負(fù)責(zé)即時(shí)反饋與過程監(jiān)控”的協(xié)同范式，以此協(xié)助學(xué)生在與機(jī)器互動(dòng)中提升能力，逐步成長為獨(dú)立作者。

其次，在寫作教學(xué)中，教師要好好關(guān)注和培育學(xué)生的寫作修改能力和信念。寫作修改是一個(gè)復(fù)雜認(rèn)知過程，具有較強(qiáng)的實(shí)踐性。傳統(tǒng)寫作教學(xué)對(duì)寫作修改環(huán)節(jié)不夠重視，學(xué)生較少得到寫作修改的過程指導(dǎo)和質(zhì)量評(píng)價(jià)，大部分初中生寫作修改能力較弱，寫作修改信念低下。如果師生正視這一問題并努力解決，學(xué)生就能更好地理解并落實(shí)作文反饋信息，人機(jī)協(xié)同作文評(píng)價(jià)的實(shí)施效果也會(huì)得以提升。

最后，產(chǎn)學(xué)研合作有利于智能作文評(píng)價(jià)系統(tǒng)的優(yōu)化和推廣。智能作文評(píng)價(jià)的研發(fā)機(jī)構(gòu)需要和中小學(xué)校一線語文教師以及教育研究者通力合作，基于寫作教學(xué)和評(píng)價(jià)規(guī)律一起探索系統(tǒng)的優(yōu)化路徑。只有立足師生寫作教學(xué)的需求與評(píng)價(jià)標(biāo)準(zhǔn)，找準(zhǔn)系統(tǒng)在人機(jī)協(xié)同教學(xué)中的定位，在技術(shù)上不斷優(yōu)化，智能技術(shù)才能在人機(jī)協(xié)同作文教學(xué)中更好地發(fā)揮優(yōu)勢。目前，基于IN課堂的智能作文評(píng)價(jià)在提高語言錯(cuò)誤識(shí)別率、提升反饋內(nèi)容具體性、加強(qiáng)寫作過程支持等方面還存在提升空間，產(chǎn)學(xué)研合作有利于匯集多方力量攻堅(jiān)克難，最終讓人機(jī)協(xié)同在寫作教學(xué)中發(fā)揮輕負(fù)優(yōu)質(zhì)的最佳效果。

參考文獻(xiàn)：

[1]黃靜，何華清（2018）.人機(jī)反饋對(duì)學(xué)生寫作行為的影響研究[J].外語電化教學(xué)，（1）：19-24.

[2]IN課堂（2018）.IN課堂——語文作文智能批改教育邁向智能化階段[EB/OL].[2021-04-22].http：//inketang.com/v8/news_ detail_00.html.

[3]劉步青（2016）.人機(jī)協(xié)同系統(tǒng)的推理機(jī)制及其哲學(xué)意蘊(yùn)[D].上海：華東師范大學(xué).

[4]劉淑君，李艷，楊普光等（2021）.智能作文評(píng)價(jià)的效果研究[J].開放教育研究，27（3）：73-84.

[5]孟翀，王以寧（2021）.教育領(lǐng)域中的人工智能：概念辨析、應(yīng)用隱憂與解決途徑[J].現(xiàn)代遠(yuǎn)距離教育，（2）：62-69.

[6]錢學(xué)森，于景元，戴汝為（1990）.一個(gè)科學(xué)新領(lǐng)域——開放的復(fù)雜巨系統(tǒng)及其方法論[J].自然雜志，（1）：3-10，64.

[7]唐錦蘭，吳一安（2011）.在線英語寫作自動(dòng)評(píng)價(jià)系統(tǒng)應(yīng)用研究述評(píng)[J].外語教學(xué)與研究，43（2）：273-282，321.

[8]汪瓊，李文超（2021）.人工智能助力因材施教：實(shí)踐誤區(qū)與對(duì)策[J].現(xiàn)代遠(yuǎn)程教育研究，33（3）：12-17，43.

[9]余勝泉，王琦（2019）.“AI+教師”的協(xié)作路徑發(fā)展分析[J].電化教育研究，40（4）：14-22，29.

[10]中華人民共和國中央人民政府（2019）.中共中央、國務(wù)院印發(fā)《中國教育現(xiàn)代化2035》[EB/OL].[2021-05-15]. http：//www.gov.cn/xinwen/2019-02/23/content_5367987.htm.

[11]Azmi， A. M.， Al-Jouie， M. F.， & Hussain， M. （2019）. AAEE-Automated Evaluation of StudentsEssays in Arabic Language[J]. Information Processing & Management， 56（5）： 1736-1752.

[12]Balfour， S. P. （2013）. Assessing Writing in MOOCs： Automated Essay Scoring and Calibrated Peer Review[J]. Research & Practice in Assessment， 8（1）：40-48.

[13]Bruning， R. H.， & Kauffman， D. F. （2016）. Self-Efficacy Beliefs and Motivation in Writing Development[M]// Mcarthur， C. A.， Graham， S.， & Fitzgerald， J. （Eds.）. Handbook of Writing Research. New York， NY： Guilford Press：160-173.

[14]Cheung， A. C. K.， & Slavin， R. E. （2013）. The Effectiveness of Educational Technology Applications for Enhancing Mathematics Achievement in K-12 Classrooms： A Meta-Analysis[J]. Educational Research Review， 9：88-113.

[15]Cho， K.， Schunn， C. D， & Charney， D. （2006）. Commenting on Writing： Typology and Perceived Helpfulness of Comments from Novice Peer Reviewers and Subject Matter Experts[J]. Written Communication， 23（3）：260-294.

[16]Chodorow， M.， Gamon， M.， & Tetreault， J. （2010）. The Utility of Article and Preposition Error Correction Systems for English Language Learners： Feedback and Assessment[J]. Language Testing， 27（3）：419-436.

[17]Choi， J. （2010）. The Impact of Automated Essay Scoring （AES） for Improving English Language Learners Essay Writing[D]. Charlottesville， VA： University of Virginia.

[18]Dujinhower， H.， Prins， F. J.， & Stokking， K. M. （2010）. Progress Feedback Effects on StudentsWriting Mastery Goal， Self-Efficacy Beliefs， and Performance[J]. Educational Research and Evaluation， 16（1）：53-74.

[19]Foltz， P. W.， Streeter， L. A.， & Lochbaum， K. E. et al.（2013）. Implementation and Applications of the Intelligent Essay Assessor[M]// Shermis， M. D.， & Urstein， J. J. （Eds.）. Handbook of Automated Essay Evaluation. New York， NY： Routledge：66-88.

[20]Graham， S.， Berninger， V.， & Fan， W. （2007）. The Structural Relationship Between Writing Attitude and Writing Achievement in First and Third Grade Students[J]. Journal of Educational Computing Research， 33：53-80.

[21]Grimes， D.， & Warschauer， M. （2010）. Utility in a Fallible Tool： A Multi-Site Case Study of Automated Writing Evaluation[J]. Journal of Technology Learning & Assessment， 8（6）：1-44.

[22]Hao， S. D.， Xu， Y. Y.， & Ke， D. F. et al. （2016）. SCESS： A WFSA-Based Automated Simplified Chinese Essay Scoring System with Incremental Latent Semantic Analysis[J]. Natural Language Engineering， 22（2）：291-319.

[23]Hayes， J. R. （2012）. Modeling and Remodeling Writing[J]. Written Communication， 29（3）：369-388.

[24]Hayes， J. R.， & Berninger， V. W. （2010）. Relationships Between Idea Generation and Transcription： How the Act of Writing Shapes What Children Write[M]// Braverman， C. et al.（Eds.）. Traditions of Writing Research. NewYork， NY： Routledge： 166-180.

[25]Ishioka， T.， & Kameda， M. （2006）. Automated Japanese Essay Scoring System Based on Articles Written by Experts[C]// Proceedingsofthe21stInternationalConferenceon Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics. Sydney， Australia： Association for Computational Linguistics：233-240.

[26]Kellogg， R. T. （2008）. Training Writing Skills： A Cognitive Developmental Perspective[J]. Journal of Writing Research， 1（1）：1-26.

[27]Link， S.， Mehrzad， M.， & Rahimi， M. （2020）. Impact of Automated Writing Evaluation on Teacher Feedback， Student Revision， and Writing Improvement[J]. Computer Assisted Language Learning，（3）：1-30.

[28]Morphy， P.， & Graham， S. （2012）. Word Processing Programs and Weaker Writers/Readers： A Meta-Analysis of Research Findings[J]. Reading and Writing， 25（3）：641-678.

[29]National Council of Teachers of English （2013）. NCTE Position Statement on Machine Scoring [EB/OL]. [2021-07-15]. http：//www.ncte.org/positions/statements/machine_scoring.

[30]Nelson， M. M.， & Schunn， C. D. （2009）. The Nature of Feedback： How Different Types of Peer Feedback Affect Writing Performance[J]. Instructional Science， 37：375-401.

[31]Page， E. B. （2003）. Project Essay Grade： PEG[M]// Shermis， M. D.， & Burstein， J. C. （Eds.）. Automated Essay Scoring：ACross-DisciplinaryPerspective.Mahwah，NJ： Lawrence Erlbaum Associates， Inc：43-54.

[32]Palermo， C.， & Thomson， M. M. （2018）. Teacher Implementation of Self-Regulated Strategy Development with an Automated Writing Evaluation System： Effects on the Argumentative Writing Chock for Performance of Middle School Students[J]. Contemporary Educational Psychology， 54：255-270.

[33]Piazza， C. L.， & Siebert， C. F. （2008）. Development and Validation of a Writing Dispositions Scale for Elementary and Middle School Students[J]. Journal of Educational Research， 101（5）：275-285.

[34]Ramineni， C.， Calico， T.， & Li， C.（2015）. Integrating Product and Process Data in an Online Automated Writing Eval-uation System[DB/OL]. [2021-06-15]. https：//www.educationaldatamining.org/EDM2015/uploads/papers/paper_309.pdf.

[35]Shermis， M. D. （2014）. State-of-the-Art Automated Essay Scoring： Competition， Results， and Future Directions from a United States Demonstration[J]. Assessing Writing， 20：53-76.

[36]Shermis， M.， Garvan， C.， & Diao， Y. （2008）. The Impact of Automated Essay Scoring on Writing Outcomes[DB/OL].[2021-06-15]. https：//files.eric.ed.gov/fulltext/ED501148.pdf.

[37]Stevenson， M.， & Phakiti， A. （2014）. The Effects of Computer-Generated Feedback on the Quality of Writing[J]. Assessing Writing， 19：51-65.

[38]Troia， G. A.， Harbaugh， A. G.， & Shankland， R. K. et al.（2013）. Relationships Between Writing Motivation， Writing Activity， and Writing Performance： Effects of Grade， Sex， and Ability[J]. Reading and Writing， 26：17-44.

[39]Troia， G. A.， Shankland， R. K.， & Wolbers， K. A.（2012）. Motivation Research in Writing： Theoretical and Empirical Considerations[J]. Reading and Writing Quarterly： Overcoming Learning Difficulties， 28：5-28.

[40]Wang， Y. J.， Shang， H. F.， & Briody， P. （2013）. Exploring the Impact of Using Automated Writing Evaluation in English as A Foreign Language University StudentsWriting[J]. Computer Assisted Language Learning， 26 （3）：234-257.

[41]Ware， P. （2014）. Feedback for Adolescent Writers in the English Classroom： Exploring Pen-and-Paper， Electronic， and Automated Options[J]. Writing & Pedagogy， 6（2）：223-249.

[42]Warschauer， M.， & Grimes， D. （2008）. Automated Writing Assessment in the Classroom[J]. Pedagogies： An International Journal， 3（1）：22-36.

[43]Wilson， J.， & Czik， A. （2016）. Automated Essay Evaluation Software in English Language Arts Classrooms： Effects on Teacher Feedback， Student Motivation， and Writing Quality[J]. Computers & Education， 100：94-109.

[44]Wilson， J.， & Roscoe，R. D. （2020）. Automated Writing Evaluation and Feedback： Multiple Metrics of Efficacy[J]. Journal of Educational Computing Research， 58（1）：87-125.

Could Human-Computer Collaborative Essay Evaluation Improve Writing Teaching？

——Evidence from Z Schools Extended Course

LI Yan， LIU Shujun， LI Xiaoli， YANG Puguang

Abstract： Intelligent essay evaluation system is an interdisciplinary product of artificial intelligence， Internet， language cognition and other disciplines. It could provide instant essay scoring and content feedback for writers. Its development and application lay a foundation for human-computer collaborative writing teaching. With the popularization of Chinese intelligent essay evaluation systems in teaching practice， the effectiveness of human-computer collaborative essay evaluation in Chinese writing teaching has attracted more and more academic attention. A quasi-experimental study was carried out and 28 students in the 7th grade from Z school participated in an extended Chinese writing course. These students were divided into two groups. One was the experimental group and the other was the control group. In order to explore the impact of human-computer collaborative writing evaluation on writing teaching in the junior middle school， students in the experimental group received human-computer collaborative essay evaluation and students in the control group received teacher essay evaluation. The experimental results are as follows. Comparing with essay scores of studentsfirst drafts， their essay scores of final drafts after receiving essay evaluation were significantly improved. However， there was no significant difference in essay scores between the two groups. Comparing with teacher evaluation， human-computer collaborative essay evaluation could significantly improve studentswriting passion. However， there was no significant difference in the dimensions of writing confidence and persistence. Comparing with the control group， the quantity and the inquiry ratio of teacher feedback in the experimental group decreased. However， there was no significant difference in the ratio of low-order feedback and high-order feedback between the two groups. In general， students appreciated the value of human-computer collaborative evaluation， while they hold reservations about continuing to use such an evaluation method. In conclusion， although human-computer collaborative essay evaluation has the potential advantages in improving teaching writing practice， the full play of its role depends on the promotion of teachersprofessional literacy， the support of learning environment and functional improvement of the intelligent system.

Keywords：IntelligentEssayEvaluation；EssayScore；WritingMotivation；TeacherFeedback； Human-Computer Collaborative Essay Evaluation

現(xiàn)代遠(yuǎn)程教育研究2022年1期

現(xiàn)代遠(yuǎn)程教育研究的其它文章: 面向計(jì)算思維培養(yǎng)的STEM工程設(shè)計(jì)教學(xué)模式及應(yīng)用; 教學(xué)視頻中的教師手勢起作用了嗎？; 大學(xué)生創(chuàng)客團(tuán)隊(duì)創(chuàng)造力影響因素模型構(gòu)建與實(shí)證; 人機(jī)協(xié)同教育治理的障礙與突破; 行為經(jīng)濟(jì)學(xué)視角下終身學(xué)習(xí)困境的破解路徑; 跨界邀請學(xué)習(xí)：一種社會(huì)性學(xué)習(xí)新方式

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

人機(jī)協(xié)同作文評(píng)價(jià)能促進(jìn)寫作教學(xué)嗎？

人機(jī)協(xié)同作文評(píng)價(jià)能促進(jìn)寫作教學(xué)嗎？