羅鈺 高朝陽
摘 要:本文對校本英語寫作比賽的50篇優(yōu)秀作文的批改網(wǎng)評分和教師評分進(jìn)行對比分析,通過分析評分之間的相關(guān)性和評分與產(chǎn)出性詞匯數(shù)據(jù)之間的相關(guān)性對機(jī)器評分和教師評分進(jìn)行深入分析。研究結(jié)果表明:教師人工評分和批改網(wǎng)自動評分之間具有非常高的相關(guān)性,兩者的評分趨于一致;教師人工評分與機(jī)器評分對產(chǎn)出性詞匯的考察存在顯著差異。
關(guān)鍵詞:句酷批改網(wǎng);作文評分;比較研究;多元反饋機(jī)制
句酷批改網(wǎng)是一款基于語料庫和云計(jì)算的在線英語作文智能評閱系統(tǒng),其通過計(jì)算學(xué)生作文和標(biāo)準(zhǔn)語料庫之間的距離能及時(shí)生成學(xué)生的作文得分并給出修改建議。學(xué)生可以根據(jù)批改網(wǎng)給出的修改建議不斷的修改完善自己的作文?;谂木W(wǎng)的大學(xué)英語寫作教學(xué)能極大的調(diào)動學(xué)生的寫作積極性并減輕教師的作文批改負(fù)擔(dān)而受到教師和學(xué)生的普遍歡迎,目前全國已有許多高校引進(jìn)該系統(tǒng)。
一、研究背景
有不少教師針對批改網(wǎng)在大學(xué)英語寫作教師中的使用展開研究:陳鳳(2014)的研究顯示批改網(wǎng)的修改建議在詞匯和語法方面給予學(xué)生的幫助較大,在篇章結(jié)構(gòu)、內(nèi)容邏輯和連貫性方面的幫助有限,還需要不斷的改進(jìn)。在效度方面,能從語法和詞匯方面對學(xué)生的作文進(jìn)行詳細(xì)的評價(jià),但在篇章結(jié)構(gòu)、文體修辭、內(nèi)容邏輯和連貫性方面不能給學(xué)生充分的反饋,并指出在使用批改網(wǎng)的同時(shí)應(yīng)注意和其它的評估方式進(jìn)行結(jié)合。
以上研究從批改網(wǎng)的主要功能入手,結(jié)合教學(xué)實(shí)踐或?qū)嶋H測試得出的結(jié)論是值得信賴的。這些結(jié)論歸納起來主要有兩點(diǎn):第一、批改網(wǎng)能在很大程度上減輕教師批改負(fù)、能調(diào)動學(xué)生的寫作積極性,其給出的評分和修改建議對于學(xué)生寫作的提高具有重要的幫助作用。第二、批改網(wǎng)還存在一定的缺陷和不足,不能做到完全不需要教師的智能化程度。在具體的寫作教學(xué)實(shí)踐中還應(yīng)綜合利用教師、批改網(wǎng)、同伴等多元評估方式。關(guān)于批改網(wǎng)的作文評分信度蔣艷(2013)和何旭良(2013)的研究中具有提及,蔣艷對比了批改網(wǎng)與美國同類系統(tǒng)Writing Roadmap對同一篇作文的評分,指出雖然兩者在評分標(biāo)準(zhǔn)方面不同但作文總分基本相同。何旭良利用中國學(xué)習(xí)者語料庫(CLEC)的30篇作文對批改網(wǎng)的得分與人工評分進(jìn)行了信度分析,表明這兩組分?jǐn)?shù)高度一致,但研究沒有對機(jī)器評分和教師評分進(jìn)行深入分析?;谝陨戏治觯疚臄M對實(shí)際寫作實(shí)踐中教師評分和批改網(wǎng)評分進(jìn)行深入對比分析,從而更全面的掌握批改網(wǎng)的評分特點(diǎn),為基于批改網(wǎng)的寫作教學(xué)實(shí)踐提供更多參考。
二、研究設(shè)計(jì)
(一)研究對象
本文的研究對象為我校參加校級英語寫作比賽的批改網(wǎng)得分前50名同學(xué),本次寫作比賽為四川省省級寫作比賽的預(yù)賽,共有7千余名同學(xué)參加了校級初賽。從得分前50名同學(xué)中選拔部分同學(xué)參加省級決賽,最終得分采取機(jī)器評分占50%,人工評分占50% 的原則。其中教師得分為三名具有豐富教學(xué)經(jīng)驗(yàn)的教師采取背靠背的方式進(jìn)行評分,取平均分。需要說明的是在實(shí)際人工評閱中教師發(fā)現(xiàn)有一名同學(xué)的作文嚴(yán)重跑題,實(shí)際作文份數(shù)為49份。
(二)研究問題
結(jié)合前人的研究結(jié)果和存在的不足,本研究主要回答以下問題:
第一、教師評分和機(jī)器評分的相關(guān)性如何?
第二、教師評分和機(jī)器評分各自有何特點(diǎn)?
(三)研究工具
本研究將使用以下3個(gè)研究工具:句酷批改網(wǎng),50篇學(xué)生作文全部通過批改網(wǎng)提交,寫作過程中學(xué)生可以根據(jù)批改網(wǎng)的提示進(jìn)行多次修改,修改次數(shù)不做限制。SPSS分析統(tǒng)計(jì)軟件,使用SPSS軟件對教師評分和機(jī)器評分進(jìn)行相關(guān)性分析和信度分析;Range作文詞匯分析工具,使用Range對學(xué)生作文中的產(chǎn)出性詞匯類別進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)數(shù)據(jù)與教師評分和機(jī)器評分進(jìn)行相關(guān)性分析。
三、 研究過程與分析
所有數(shù)據(jù)收集工作完成之后,我們用SPSS17.0軟件對教師評分、批改網(wǎng)評分與詞匯相關(guān)數(shù)據(jù)進(jìn)行了相關(guān)性分析統(tǒng)計(jì)。49篇英語作文的詞匯數(shù)據(jù)采用Paul Nation設(shè)計(jì)的詞頻分級分布統(tǒng)計(jì)軟件Range進(jìn)行分析。Range中包含三個(gè)詞表:基礎(chǔ)詞表1 (BASE1)包含最常用的1000個(gè)詞族,基礎(chǔ)詞表2 (BASE2)包含次常用的1000個(gè)詞族,基礎(chǔ)詞表3 (BASE2)包含基礎(chǔ)詞表1和2之外的高中和大學(xué)各科教材中最常用的學(xué)術(shù)詞匯570個(gè)詞族,NOT IN表示不在基礎(chǔ)詞表中的其它詞匯。用Range對每篇作文進(jìn)行分析可以得出作文中的詞匯在各個(gè)詞表中的占比情況,收集相關(guān)數(shù)據(jù)并用SPSS進(jìn)行統(tǒng)計(jì)分析。
表1 ?描述性數(shù)據(jù) (n=49)
項(xiàng)目/類別 均值 標(biāo)準(zhǔn)差
教師評分 90.31 2.30
批改網(wǎng)評分 89.88 0.75
BASEWRD1 116.16 21.43
BASEWRD2 11.98 4.82
BASEWRD3 19.51 4.38
NOT IN 12.20 5.95
TOTAL 356.55 86.09
49篇學(xué)生作文中教師得分平均分為90.31,批改網(wǎng)得分平均分為89.88,兩者差距不足1分,相關(guān)分析統(tǒng)計(jì)表明兩者的相關(guān)性達(dá)到了0.945,這說明兩組分?jǐn)?shù)具有極高的相關(guān)性。Range分析結(jié)果表明學(xué)生作文中使用基礎(chǔ)詞表1(BASEWRD1)中的詞匯最多,為116.16,使用基礎(chǔ)詞表2(BASEWRD2)中的詞匯為11.98,基礎(chǔ)詞表3(BASEWRD3)中的詞匯為19.51,使用其它詞匯為12.20,這說明學(xué)生的產(chǎn)出性詞匯以最基礎(chǔ)的一千個(gè)詞族為主。
從表2中可以看出,教師評分與批改網(wǎng)評分具有高度的相關(guān)性,表明教師評分與批改網(wǎng)評分趨于高度一致,這也說明批改網(wǎng)的得分具有較高的信度。這一發(fā)現(xiàn)與何旭良(2013)的結(jié)論基本一致,即批改網(wǎng)評分具有較高的信度,但在手工評分與批改網(wǎng)評分的具體分值上本研究與何的結(jié)論有所區(qū)別,何的研究中發(fā)現(xiàn)批改網(wǎng)的評分要顯著偏高,而本研究則發(fā)現(xiàn)兩者分值趨于一致。究其原因主要是因?yàn)閮蓚€(gè)研究的人工評分標(biāo)準(zhǔn)有所差別,何的人工評分分值來源于中國學(xué)習(xí)者語料庫的原始四級作文得分,而本研究的人工分值來源于大學(xué)英語任課教師的給分,分值的得分偏高是可能的。
從表2也可以看出,教師評分與基礎(chǔ)詞表1(BASE1),其它詞匯(NOT IN),及總次數(shù)(TOTAL)之間具有顯著相關(guān),相關(guān)系數(shù)分別為0.413** ,0.347* ,0.524**這表明教師在評分過程中重點(diǎn)關(guān)注基礎(chǔ)詞匯和其它詞匯的使用,同時(shí)作文詞匯總數(shù)也是教師在評分時(shí)的一個(gè)重要關(guān)注點(diǎn),即作文寫的越長可能更傾向于多給分。這表明批改網(wǎng)在評分時(shí)會較多關(guān)注次常用詞匯和較高級別的詞匯,而對于最基礎(chǔ)性的詞族和文章總詞數(shù)則較少關(guān)注。
四、結(jié)論與啟示
通過對比教師手工評分和批改網(wǎng)自動評分可以得出以下結(jié)論:第一、教師人工評分和批改網(wǎng)自動評分之間具有非常高的相關(guān)性,兩者的評分趨于高度一致,即批改網(wǎng)的評分具有較高的信度。第二、教師更多關(guān)注作文中最基礎(chǔ)詞匯、高難詞匯和作文篇幅長度,批改網(wǎng)則更關(guān)注基礎(chǔ)詞表中詞匯的使用。第三、批改網(wǎng)評分過程中不能對文章實(shí)際內(nèi)容和邏輯結(jié)構(gòu)進(jìn)行綜合考慮?;诂F(xiàn)代信息技術(shù)的句酷批改網(wǎng)能在很大程度上幫助教師批改學(xué)生作文,但這并不是說英語寫作學(xué)習(xí)就不需要教師了?;诖髷?shù)據(jù)、云計(jì)算等人工智能技術(shù)的批改網(wǎng)有其天然的優(yōu)勢但也存在先天不足,學(xué)生英語寫作水平和能力的提高永遠(yuǎn)不能離開教師的參與和指導(dǎo)。在技術(shù)面前教師不能越位,更不可缺位。
參考文獻(xiàn):
[1] 陳鳳.一項(xiàng)關(guān)于句酷批改網(wǎng)在大學(xué)英語寫作教學(xué)中的應(yīng)用研究[J].東華理工大學(xué)學(xué)報(bào)(社會科學(xué)版),2014,(2).
[2] 顧成華,王麗.基于句酷批改網(wǎng)的大學(xué)英語寫作教學(xué)實(shí)證研究[J].揚(yáng)州大學(xué)學(xué)報(bào)(高教研究版),2012,(4).
[3] 何旭良.句酷批改網(wǎng)英語作文評分的信度和效度研究[J].現(xiàn)代教育技術(shù),2013,(5).
[4] 蔣艷,馬武林.中國英語寫作教學(xué)智能導(dǎo)師系統(tǒng):成就與挑戰(zhàn)——以句酷批改網(wǎng)為例[J].電化教育研究,2013,(7).
作者簡介:羅鈺(1982–),女,四川威遠(yuǎn)人,攀枝花學(xué)院外國語學(xué)院講師。研究方向?yàn)橛⒄Z教育學(xué);高朝陽(1980–),男,陜西咸陽人,攀枝花學(xué)院外國語學(xué)院副教授。研究方向?yàn)槎Z習(xí)得理論與實(shí)踐,外語教育技術(shù)學(xué)。
基金項(xiàng)目:四川省教育廳人文社科重點(diǎn)研究項(xiàng)目“英語作文智能評閱系統(tǒng)在大學(xué)生英語寫作中的效用研究——以句酷批改網(wǎng)為例(15SA0176)”的階段性成果。